https://github.com/linuxvps22/f5-tts-vietnamese-google-colab
Vietnamese TTS, Chuyển văn bản thành giọng nói tiếng Việt, text to speech tiếng Việt Nam
https://github.com/linuxvps22/f5-tts-vietnamese-google-colab
colab f5-tts f5-tts-colab f5-tts-vietnamese google-colab text-to-speech text-to-speech-viet-nam text-to-speech-vn tts tts-viet tts-vietnam tts-vietnamese tts-vn viet viet-nam-text-to-speech vietnam vietnamese vietnamese-tts vn vn-tts
Last synced: 3 months ago
JSON representation
Vietnamese TTS, Chuyển văn bản thành giọng nói tiếng Việt, text to speech tiếng Việt Nam
- Host: GitHub
- URL: https://github.com/linuxvps22/f5-tts-vietnamese-google-colab
- Owner: linuxvps22
- Created: 2025-07-16T10:20:06.000Z (4 months ago)
- Default Branch: main
- Last Pushed: 2025-07-16T21:25:29.000Z (4 months ago)
- Last Synced: 2025-07-17T14:15:58.770Z (4 months ago)
- Topics: colab, f5-tts, f5-tts-colab, f5-tts-vietnamese, google-colab, text-to-speech, text-to-speech-viet-nam, text-to-speech-vn, tts, tts-viet, tts-vietnam, tts-vietnamese, tts-vn, viet, viet-nam-text-to-speech, vietnam, vietnamese, vietnamese-tts, vn, vn-tts
- Language: Python
- Homepage:
- Size: 1.3 MB
- Stars: 1
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
**👉 [Google Colab / F5-TTS-VN-hynt.ipynb](https://colab.research.google.com/drive/1PgW8jEEAmuTxaKKe49cyallVQZ0N9jho?usp=sharing)**
---
## 🎯 Tính năng chính
| Tính năng | Mô tả |
|-----------|-------|
| **Text-to-Speech** | Chuyển đổi văn bản tiếng Việt thành giọng nói tự nhiên |
| **Voice Cloning** | Nhân bản giọng nói từ mẫu âm thanh reference |
| **Tốc độ linh hoạt** | Tùy chỉnh tốc độ phát âm theo nhu cầu |
| **Tạo khoảng lặng** | Tùy chỉnh khoảng im lặng bất kì trong văn bản đầu vào, tăng chân thật |
---
## ⚙️ Yêu cầu hệ thống
### 📊 Phần cứng
- **GPU**: vì dùng CPU rất chậm và không ổn định (T4 trở lên trên Google Colab)
### 📁 Model files
#### Đảm bảo có đủ các file sau: `model_last.pt`, `config.json`
#### **Nguồn tải về:**
- 📂 [Google Drive](https://drive.google.com/drive/folders/1JSQUKc74IxF4Fng9zg5RA17AE-1RtNWT?usp=drive_link)
- 🤗 [Hugging Face](https://huggingface.co/hynt/F5-TTS-Vietnamese-ViVoice)
---
## 🚀 Hướng dẫn sử dụng
### Bước 1: Chuẩn bị môi trường
```bash
# Chuyển Runtime sang GPU trong Google Colab
# Thời gian khởi động: 2-3 phút
```
### Bước 2: Chuẩn bị model
Chọn một trong hai phương pháp:
#### 🔗 Phương pháp 1: Mount Google Drive *(Khuyên dùng)*
1. Thêm thư mục [Models](https://drive.google.com/drive/folders/1JSQUKc74IxF4Fng9zg5RA17AE-1RtNWT?usp=drive_link) vào "My Drive"
2. Chạy mount Google Drive
#### 📥 Phương pháp 2: Clone model
- Tải trực tiếp từ repository
- *Lưu ý: Chậm hơn và kém ổn định*
### Bước 3: Chọn nguồn model
- **Google Drive**: Cần cấu hình đường dẫn
- **Hugging Face**: Tự động, không cần cấu hình
### Bước 4: Khởi động ứng dụng
```bash
# Thời gian khởi động lần đầu: 2-3 phút
# Chờ đến khi xuất hiện URL: https://xxxxxxxxxxx.gradio.live
```
---
## 🎛️ Giao diện người dùng
### Các thành phần chính
| Thành phần | Mô tả | Ghi chú |
|------------|-------|---------|
| **Sample Voice** | Upload file âm thanh `ref_audio` | 6-15 giây, chất lượng cao, không tạp âm |
| **Text** | Nhập `gen_text` cần chuyển đổi | sửa `app.py` bỏ/tăng giới hạn 10000 words |
| **Reference Text** | Nội dung của `ref_audio` | Nếu `ref_audio` rõ ràng thì nên bỏ trống, auto transcribe |
| **Generate Voice** | Nút bắt đầu chuyển đổi | Kết quả hiển thị phía dưới |
---
## 🔇 CÚ PHÁP TẠO KHOẢNG IM LẶNG
> 🎯 **TÍNH NĂNG ĐẶC BIỆT**: F5-TTS Vietnamese hỗ trợ tạo khoảng im lặng có chủ đích trong văn bản!
---
### 🎵 Định dạng chuẩn
```markdown
<<>>
```
| Thông số | Mô tả | Phạm vi |
|----------|-------|---------|
| **number_milisecond** | Thời gian im lặng (mili giây) | 100 - 20,000 ms |
| **Làm tròn** | Tự động làm tròn số | 110→100, 150→200, 9990→10000 |
---
### 🎯 Ví dụ sử dụng
#### ✅ **CÁC CÁCH DÙNG ĐÚNG**
```markdown
# Khoảng lặng 1 giây
Xin chào <<>> các bạn!
# Khoảng lặng 2 giây
Câu đầu tiên. <<>> Câu thứ hai.
# Khoảng lặng 500ms
Đây là <<>> một ví dụ ngắn.
# Khoảng lặng trong văn bản dài
Chương một <<>> nói về lịch sử. <<>> Chương hai <<>> nói về tương lai.
```
#### ❌ **CÁC CÁCH DÙNG SAI**
```markdown
# SAI: Thiếu khoảng trắng trước
Xin chào<<>> các bạn!
# SAI: Thiếu khoảng trắng sau
Xin chào <<>>các bạn!
# SAI: Thiếu cả hai khoảng trắng
Xin chào<<>>các bạn!
# SAI: Chèn giữa từ (gây phát âm sai)
tuoi <<>> tre.com # Đọc: "Tuổi tê rờ e chấm cơm"
```
---
### 🚨 **QUY TẮC QUAN TRỌNG**
| ⚠️ Quy tắc | Mô tả | Ví dụ |
|------------|-------|-------|
| **Khoảng trắng bắt buộc** | Phải có space trước và sau | `text <<>> text` |
| **Không tách từ** | Không chèn giữa từ/cụm từ | ❌ `VN <<>> ESE` |
| **Số dương** | Chỉ dùng số nguyên dương | 100-20,000 |
| **Cú pháp chính xác** | Đúng format với dấu < > # | `<<>>` |
---
### 💡 **CÁC TRƯỜNG HỢP LỖI THƯỜNG GẶP**
#### 🔴 Lỗi cú pháp - Kết quả: *"Bé hơn bé hơn bé hơn ét i lờ..."*
```markdown
<<>>- # Có ký tự không phải space
<<>> # Số âm
<<>> # Thiếu số
<<>> # Sai chính tả
<<>> # Thiếu chữ 'l'
<> # Thiếu dấu <
<<>> # Sai ký tự @
```
---
### 🎯 **TIPS SỬ DỤNG HIỆU QUẢ**
#### 📝 Các tình huống thực tế:
```markdown
# Tạo nhịp cho bài thơ
Mùa xuân đến rồi <<>>
Hoa nở khắp nơi <<>>
Chim ca líu lo <<>>
Lòng ta vui thơ <<>>
# Tạo khoảng lặng trong bài thuyết trình
Xin chào mọi người! <<>> Hôm nay tôi sẽ trình bày về <<>> công nghệ AI.
# Tạo hiệu ứng kịch tính
Và kết quả là <<>> thành công hoàn toàn!
```
---
### 📊 **BẢNG THỜI GIAN THAM KHẢO**
| Thời gian | Ứng dụng | Ví dụ |
|-----------|----------|-------|
| **100-300ms** | Ngắt nhẹ | Dấu phẩy <<>> ngắt câu |
| **500-1000ms** | Ngắt vừa | Kết thúc câu <<>> bắt đầu câu mới |
| **1000-2000ms** | Ngắt rõ ràng | Chuyển chủ đề <<>> nội dung mới |
| **2000ms+** | Ngắt dài | Hiệu ứng kịch tính <<>> |
---
> 💡 **MẸO**: Sử dụng khoảng im lặng giúp văn bản nghe tự nhiên hơn, tạo nhịp điệu và dễ theo dõi!
---
## 🔧 Xử lý sự cố
| Vấn đề | Nguyên nhân | Giải pháp |
|--------|-------------|-----------|
| **Lỗi OOM** | Thiếu bộ nhớ | Giảm batch size hoặc độ dài text |
| **Model không load** | Đường dẫn sai | Kiểm tra đường dẫn file model |
| **Chất lượng âm thanh kém** | File reference kém | Sử dụng file âm thanh chất lượng cao |
---
## 📊 Hiệu suất
> **Thống kê thực tế**: Với văn bản Lão Hạc (~16,000 ký tự) trên T4 GPU Google Colab:
> - ⏱️ Thời gian xử lý: 20 phút
> - 🔊 Đầu ra: Audio dài 20 phút
---
## 🌐 Nguồn tham khảo
### Repositories
- 📂 [F5-TTS-Vietnamese](https://github.com/nguyenthienhy/F5-TTS-Vietnamese)
- 🤗 [Hugging Face Space](https://huggingface.co/spaces/hynt/F5-TTS-Vietnamese-100h)
### Models
- 🤗 [F5-TTS-Vietnamese-ViVoice](https://huggingface.co/hynt/F5-TTS-Vietnamese-ViVoice)
---
## 🚧 Tính năng đang phát triển
- **NGROK API Server**: Đang cập nhật...
---
---
title: F5 TTS Vietnamese 100h Demo
emoji: 💻
colorFrom: yellow
colorTo: blue
sdk: gradio
sdk_version: 5.36.2
app_file: app.py
pinned: false
---
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
source:
- https://github.com/nguyenthienhy/F5-TTS-Vietnamese
- https://huggingface.co/spaces/hynt/F5-TTS-Vietnamese-100h
- https://huggingface.co/hynt/F5-TTS-Vietnamese-ViVoice