Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/WenzheLiu-Speech/The-guidebook-of-speech-enhancement
https://github.com/WenzheLiu-Speech/The-guidebook-of-speech-enhancement
Last synced: 3 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/WenzheLiu-Speech/The-guidebook-of-speech-enhancement
- Owner: WenzheLiu-Speech
- Created: 2022-06-22T08:46:28.000Z (over 2 years ago)
- Default Branch: main
- Last Pushed: 2023-03-21T12:05:55.000Z (almost 2 years ago)
- Last Synced: 2024-08-02T07:18:36.863Z (6 months ago)
- Size: 67.2 MB
- Stars: 98
- Watchers: 3
- Forks: 6
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- awesome-speech-enhancement - The-guidebook-of-speech-enhancement
README
# The-guidebook-of-speech-enhancement
这是一个自娱自乐的项目。
Sorry, this repostitory is just for fun, and does not support English or other non-Chinese languages at this time.
自2018年Prof. Wang的[Supervised Speech Separation Based on Deep Learning: An Overview](https://ieeexplore.ieee.org/document/8369155)之后,
似乎总缺少关于语音增强领域的综述。然而不论是学术界还是业界,近年来语音增强领域的发展都是迅速的。
因此,面对他人问及有关深度学习语音增强技术的资料时,我总不能找到一份于今日而言仍是满意的文献或博客。另一方面,近年来无疑语音增强的涉入者日趋增多,开源社区和研究文献愈加丰富,远胜于当年。虽然我对开源文化并不积极,抑或说对降低门槛之类的言论仍持否定。
但不得不承认,这些工作确实一定程度上加速了社区的发展。然而,其中一些常不慎落入陷阱之中出现失误,这些失误若不能鉴别可能会受其误导(包括但不限于有误的结论、无意识的非实时[[测试代码]](https://github.com/zqwang7/CausalityCheck)、不公平的消融实验以及审稿人要求与有误的文章进行对比等)。最后,适当结合论文、代码和社区可能对初学者更有帮助,在另一个项目[awesome-speech-enhancement](https://github.com/WenzheLiu-Speech/awesome-speech-enhancement)中我已经试图将一些代表性文章、对应代码和作者的github账号结合展示,
很高兴这个项目得到了社区中许多同伴的支持和帮助。因此,这点的沿用似乎是可以的,但是仅仅以这种形式却无法解决第二点问题。恰逢一段闲暇时,便开了这样一个项目以抛砖引玉。当然这个项目既不敢称为综述(也确实不是综述),亦不能称之为书(却也不足以成书),甚至不知以我之拖延能否坚持写完。只希望项目完成之时供初学者能做个参考,
但凡有一星半点对他人有益,即可谓得其所哉了。一则此项目望供初学者初窥门径,二则笔者也尚在探究之中,故命名以 语音增强初探
本项目可通过[该链接🔗](https://wenzheliu-speech.github.io/The-guidebook-of-speech-enhancement/se_development.pdf)访问查看。
* 本项目因并未完成且涉及社区开源代码,暂不支持任何形式的转载;
* 本项目[**请勿**]()issue、fork和PR,如有问题或希望参与其中可[邮件]([email protected])沟通;
* 本项目参考文献引用尚不完全、内容尚待更新、图文尚需校正;之所以现在设为public是因为无法在项目private时通过网址访问;
* 本项目暂不考虑英文版;
* 本项目初步打算完成基于深度学习的单通道语音增强算法部分(Part 1),后续可能会拓展去混响、AEC、AGC和阵列部分作为其他Part;
* Latex模板修改自Springer行笔匆匆,疏漏难免。如有错讹,烦请见谅。