{"id":15622519,"url":"https://github.com/yeyupiaoling/ppasr","last_synced_at":"2025-05-14T14:07:58.839Z","repository":{"id":37662847,"uuid":"342512505","full_name":"yeyupiaoling/PPASR","owner":"yeyupiaoling","description":"基于PaddlePaddle实现端到端中文语音识别，从入门到实战，超简单的入门案例，超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型","archived":false,"fork":false,"pushed_at":"2025-05-01T03:19:48.000Z","size":18519,"stargazers_count":859,"open_issues_count":2,"forks_count":129,"subscribers_count":12,"default_branch":"develop","last_synced_at":"2025-05-07T04:35:50.853Z","etag":null,"topics":["asr","chinese","conformer","deep-learning","deepspeech2","paddlepaddle","speech","speech-recognition","speech-to-text","squeezeformer","streaming-asr"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"apache-2.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/yeyupiaoling.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2021-02-26T08:35:47.000Z","updated_at":"2025-05-03T10:21:46.000Z","dependencies_parsed_at":"2023-12-16T04:57:10.806Z","dependency_job_id":"d315375e-6630-4de2-ae02-2b3894bd8147","html_url":"https://github.com/yeyupiaoling/PPASR","commit_stats":{"total_commits":308,"total_committers":4,"mean_commits":77.0,"dds":0.009740259740259716,"last_synced_commit":"c8bb3b960d8f83caed64e65ceb5c657ee092b085"},"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeyupiaoling%2FPPASR","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeyupiaoling%2FPPASR/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeyupiaoling%2FPPASR/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeyupiaoling%2FPPASR/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/yeyupiaoling","download_url":"https://codeload.github.com/yeyupiaoling/PPASR/tar.gz/refs/heads/develop","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":254160173,"owners_count":22024567,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["asr","chinese","conformer","deep-learning","deepspeech2","paddlepaddle","speech","speech-recognition","speech-to-text","squeezeformer","streaming-asr"],"created_at":"2024-10-03T09:54:15.007Z","updated_at":"2025-05-14T14:07:58.809Z","avatar_url":"https://github.com/yeyupiaoling.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"![python version](https://img.shields.io/badge/python-3.8+-orange.svg)\n![GitHub forks](https://img.shields.io/github/forks/yeyupiaoling/PPASR)\n![GitHub Repo stars](https://img.shields.io/github/stars/yeyupiaoling/PPASR)\n![GitHub](https://img.shields.io/github/license/yeyupiaoling/PPASR)\n![支持系统](https://img.shields.io/badge/支持系统-Win/Linux/MAC-9cf)\n\n# PPASR流式与非流式语音识别项目\n\nPPASR是一款基于PaddlePaddle实现的自动语音识别框架，PPASR中文名称PaddlePaddle中文语音识别（PaddlePaddle Automatic Speech Recognition），当前为V3版本，与V2版本不兼容，如果想使用V2版本，请在这个分支[V2](https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x)。PPASR致力于简单，实用的语音识别项目。可部署在服务器，Nvidia Jetson设备，未来还计划支持Android等移动设备。**别忘了star**\n\n**欢迎大家扫码入知识星球或者QQ群讨论，知识星球里面提供项目的模型文件和博主其他相关项目的模型文件，也包括其他一些资源。**\n\n\u003cdiv align=\"center\"\u003e\n  \u003cimg src=\"https://yeyupiaoling.cn/zsxq.png\" alt=\"知识星球\" width=\"400\"\u003e\n  \u003cimg src=\"https://yeyupiaoling.cn/qq.png\" alt=\"QQ群\" width=\"400\"\u003e\n\u003c/div\u003e\n\n\u003cbr/\u003e\n\n**本项目使用的环境：**\n - Anaconda 3\n - Python 3.11\n - PaddlePaddle 2.6.1\n - Windows 11 or Ubuntu 22.04\n\n\n# 在线试用\n\n[在线试用地址](https://tools.yeyupiaoling.cn/speech/masr)\n\n\n## 项目特点\n\n1. 支持多个语音识别模型，包含`deepspeech2`、`conformer`、`squeezeformer`、`efficient_conformer`等，每个模型都支持流式识别和非流式识别，在配置文件中`streaming`参数设置。\n2. 支持多种解码器，包含`ctc_greedy_search`、`ctc_prefix_beam_search`、`attention_rescoring`、`ctc_beam_search`等。\n3. 支持多种预处理方法，包含`fbank`、`mfcc`等。\n4. 支持多种数据增强方法，包含噪声增强、混响增强、语速增强、音量增强、重采样增强、位移增强、SpecAugmentor、SpecSubAugmentor等。\n5. 支持多种推理方法，包含短音频推理、长音频推理、流式推理、说话人分离推理等。\n6. 更多特点等待你发现。\n\n## 与V2版本的区别\n\n1. 项目结构的优化，大幅度降低的使用难度。\n2. 更换预处理的库，改用kaldi_native_fbank，在提高数据预处理的速度，同时也支持多平台。\n3. 修改token的方法，使用sentencepiece制作token，这个框架极大的降低了多种语言的处理难度，同时还使中英文混合训练成为可能。\n\n## 更新记录\n\n - 2025.03: 正式发布最终级的V3版本。\n\n\n## 视频讲解\n\n - [知识点讲解（哔哩哔哩）](https://www.bilibili.com/video/BV1Rr4y1D7iZ)\n - [流式识别的使用讲解（哔哩哔哩）](https://www.bilibili.com/video/BV1Te4y1h7KK)\n\n\n## 模型下载\n\n1. [WenetSpeech](./docs/wenetspeech.md) (10000小时，普通话) 的预训练模型列表，错误率类型为字错率（CER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | test_net | test_meeting | aishell_test |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:--------:|:------------:|:------------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.14758  |   0.19562    |   0.06925    | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.14689  |   0.19323    |   0.06930    | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.13786  |   0.18922    |   0.06028    | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     | 0.20660  |   0.29835    |   0.05336    | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    |          |              |              | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search |          |              |              | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     |          |              |              | 加入知识星球获取 |\n\n2. [AIShell](https://openslr.magicdatatech.com/resources/33) (179小时，普通话) 的预训练模型列表，错误率类型为字错率（CER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | 自带的测试集  |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:-------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.06110 | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.06114 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.05412 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     | 0.04468 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    | 0.14134 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search | 0.14132 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     | 0.10598 | 加入知识星球获取 |\n\n\n3. [Librispeech](https://openslr.magicdatatech.com/resources/12) (960小时，英语) 的预训练模型列表，错误率类型为词错率（WER）：\n\n|    使用模型     | 是否为流式 | 预处理方式 |          解码方式          | 自带的测试集  |   下载地址   |\n|:-----------:|:-----:|:-----:|:----------------------:|:-------:|:--------:|\n|  Conformer  | True  | fbank |   ctc_greedy_search    | 0.07562 | 加入知识星球获取 |\n|  Conformer  | True  | fbank | ctc_prefix_beam_search | 0.07518 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |  attention_rescoring   | 0.06669 | 加入知识星球获取 |\n|  Conformer  | True  | fbank |    ctc_beam_search     |    /    | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |   ctc_greedy_search    | 0.15479 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank | ctc_prefix_beam_search | 0.15247 | 加入知识星球获取 |\n| DeepSpeech2 | True  | fbank |    ctc_beam_search     |    /    | 加入知识星球获取 |\n\n\n4. 其他数据集的预训练模型列表，错误率类型，如果是中文就是字错率（CER），英文则是词错率（WER），中英混合为混合错误率（MER）：\n\n|   使用模型    | 是否为流式 | 预处理方式 |       数据集       | 语言  |          解码方式          |  测试数据   |   下载地址   |\n|:---------:|:-----:|:-----:|:---------------:|:---:|:----------------------:|:-------:|:--------:|\n| Conformer | True  | fbank |      粤语数据集      | 粤语  |   ctc_greedy_search    | 0.05736 | 加入知识星球获取 |\n| Conformer | True  | fbank |      粤语数据集      | 粤语  | ctc_prefix_beam_search | 0.05730 | 加入知识星球获取 |\n| Conformer | True  | fbank |      粤语数据集      | 粤语  |  attention_rescoring   | 0.04877 | 加入知识星球获取 |\n| Conformer | True  | fbank |      粤语数据集      | 粤语  |    ctc_beam_search     | 0.05409 | 加入知识星球获取 |\n| Conformer | True  | fbank |     中英混合数据集     | 中英文 |   ctc_greedy_search    | 0.09462 | 加入知识星球获取 |\n| Conformer | True  | fbank |     中英混合数据集     | 中英文 | ctc_prefix_beam_search | 0.09416 | 加入知识星球获取 |\n| Conformer | True  | fbank |     中英混合数据集     | 中英文 |  attention_rescoring   | 0.08283 | 加入知识星球获取 |\n| Conformer | True  | fbank |     中英混合数据集     | 中英文 |    ctc_beam_search     |    /    | 加入知识星球获取 |\n| Conformer | True  | fbank | 更大数据集（16000+小时） | 中英文 |   ctc_greedy_search    |         | 加入知识星球获取 |\n| Conformer | True  | fbank | 更大数据集（16000+小时） | 中英文 | ctc_prefix_beam_search |         | 加入知识星球获取 |\n| Conformer | True  | fbank | 更大数据集（16000+小时） | 中英文 |  attention_rescoring   |         | 加入知识星球获取 |\n| Conformer | True  | fbank | 更大数据集（16000+小时） | 中英文 |    ctc_beam_search     |         | 加入知识星球获取 |\n\n\n**说明：** \n1. 这里字错率或者词错率是使用`eval.py`。\n2. 分别给出了使用三个解码器的错误率，其中`ctc_prefix_beam_search`、`attention_rescoring`的解码搜索大小为10。\n3. 训练时使用了噪声增强和混响增强，以及其他增强方法，具体请看配置参数`configs/augmentation.yml`。\n4. 这里只提供了流式模型，但全部模型都支持流式和非流式的，在配置文件中`streaming`参数设置。\n\n\u003e有问题欢迎提 [issue](https://github.com/yeyupiaoling/PPASR/issues) 交流\n\n\n## 文档教程\n\n- [快速安装](./docs/install.md)\n- [快速使用](./docs/GETTING_STARTED.md)\n- [数据准备](./docs/dataset.md)\n- [WenetSpeech数据集](./docs/wenetspeech.md)\n- [合成语音数据](./docs/generate_audio.md)\n- [数据增强](./docs/augment.md)\n- [训练模型](./docs/train.md)\n- [集束搜索解码](./docs/beam_search.md)\n- [执行评估](./docs/eval.md)\n- [导出模型](./docs/export_model.md)\n- [使用标点符号模型](./docs/punctuation.md)\n- 预测\n   - [本地预测](./docs/infer.md)\n   - [说话人日志语音识别](./docs/infer.md)\n   - [Web部署模型](./docs/infer.md)\n   - [GUI界面预测](./docs/infer.md)\n- [常见问题解答](./docs/faq.md)\n\n\n## 相关项目\n - 基于PaddlePaddle实现的声纹识别：[VoiceprintRecognition-PaddlePaddle](https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle)\n - 基于PaddlePaddle静态图实现的语音识别：[PaddlePaddle-DeepSpeech](https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech)\n - 基于Pytorch实现的语音识别：[MASR](https://github.com/yeyupiaoling/MASR)\n\n\n## 特别感谢\n\n - 感谢 \u003cimg src=\"docs/images/PyCharm_icon.png\" height=\"25\" width=\"25\" \u003e[JetBrains开源社区](https://jb.gg/OpenSourceSupport) 提供开发工具。\n\n## 打赏作者\n\n\u003cbr/\u003e\n\u003cdiv align=\"center\"\u003e\n\u003cp\u003e打赏一块钱支持一下作者\u003c/p\u003e\n\u003cimg src=\"https://yeyupiaoling.cn/reward.png\" alt=\"打赏作者\" width=\"400\"\u003e\n\u003c/div\u003e\n\n## 参考资料\n - https://github.com/PaddlePaddle/PaddleSpeech\n - https://github.com/jiwidi/DeepSpeech-pytorch\n - https://github.com/wenet-e2e/WenetSpeech\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fyeyupiaoling%2Fppasr","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fyeyupiaoling%2Fppasr","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fyeyupiaoling%2Fppasr/lists"}