https://github.com/innnky/vispeech

基于vits fastspeech2 visinger的tts模型
https://github.com/innnky/vispeech

Last synced: 7 days ago
JSON representation

基于vits fastspeech2 visinger的tts模型

Host: GitHub
URL: https://github.com/innnky/vispeech
Owner: innnky
License: mit
Created: 2022-11-11T04:46:42.000Z (over 2 years ago)
Default Branch: main
Last Pushed: 2023-03-09T00:45:44.000Z (about 2 years ago)
Last Synced: 2025-03-27T02:11:21.182Z (24 days ago)
Language: Python
Homepage:
Size: 52.1 MB
Stars: 23
Watchers: 5
Forks: 3
Open Issues: 3
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

        # visinger-speech

基于fs2、vits、visinger的tts模型

（暂时还在开发调试中）

（效果暂时依旧不太满意）

[//]: # (音频sample见[samples](/samples))

## 模型结构

总的来说基本就是将fastspeech2的VarianceAdapter结构添加进了vits

## 相比于原版vits

+ 删除了 Monotonoic Alignment， 使用MFA对齐后输入时长

+ 添加了音素级 F0Predictor，EnergyPredictor

+ 可以逐音素手动编辑音高、音量和时长

+ 添加了FramePriorNetwork

+ 使用飞桨paddlespeech作为中文文本前端，实现更可靠的文本正则化以及G2P

+ 采样率使用44100hz

## 参考

+ [vits](https://github.com/jaywalnut310/vits)

+ [FastSpeech2](https://github.com/ming024/FastSpeech2)

+ [Period VITS](https://arxiv.org/pdf/2210.15964.pdf) 

+ [VISinger](https://github.com/So-Fann/VISinger)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/innnky/vispeech

Awesome Lists containing this project

README