https://github.com/mimisukemaster/faster-whisper-test
A sample project to test and demonstrate faster-whisper
https://github.com/mimisukemaster/faster-whisper-test
faster-whisper speech-recognition speech-to-text stt voice-recognition
Last synced: about 1 month ago
JSON representation
A sample project to test and demonstrate faster-whisper
- Host: GitHub
- URL: https://github.com/mimisukemaster/faster-whisper-test
- Owner: mimisukeMaster
- License: mit
- Created: 2025-03-23T06:58:11.000Z (7 months ago)
- Default Branch: main
- Last Pushed: 2025-03-27T10:25:20.000Z (6 months ago)
- Last Synced: 2025-06-12T12:08:28.823Z (4 months ago)
- Topics: faster-whisper, speech-recognition, speech-to-text, stt, voice-recognition
- Language: Python
- Homepage: https://github.com/SYSTRAN/faster-whisper
- Size: 30.1 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# faster-whisper-test
[](https://github.com/mimisukeMaster/faster-whisper-test/stargazers)
[](/LICENSE)
[](https://github.com/mimisukeMaster/faster-whisper-test/issues)
![]()
[](https://github.dev/mimisukeMaster/faster-whisper-test)
A sample project to test and demonstrate [faster-whisper](https://github.com/guillaumekln/faster-whisper).
## About
[faster-whisper](https://github.com/guillaumekln/faster-whisper) のテストと動作確認を目的としたサンプルプロジェクトです。
faster-whisperは、高速な音声認識推論を実現するライブラリです。このプロジェクトでは、実際にYoutubeのリンクからその動画の文字起こし(STT処理)を行います。
## Requirements and Models
- 必要なパッケージは以下の通りです。(実行するタイミングは下方参照)
バージョンはあくまで自機で動作確認済みのものです。
```cmd
yt-dlp==2025.3.21
faster_whisper==1.1.1
ffmpeg==4.3.1
cudnn==9.1.1.17
```- GPUでの推論の場合、動かすモデルに対応するスペック以上のGPUが必要です。
実行時間は5~6倍かかりますが、CPUで動かすことも可能です。|モデル|パラメータ数|推奨VRAM|
|:----:|:----:|:----:|
|tiny|32M|1GB以上|
|base|74M|2GB以上|
|small|244M|4GB以上|
|medium|769M|6GB以上|
|large, large-v3|1550M|10GB以上|また、GPUはFP16(半精度浮動小数点)計算に対応しており、CUDA Compute Capability 6.0以上(Pascal世代以降)が推奨です。
※GPUの性能が対象のモデルに見合わない場合、推論が正常に行われず、音声の一部が変換されなかったり`out-of-memory`エラーにより処理が中断される可能性があります。- 2025/3現在、公式のHugging Faceでは`large`モデル以外を使う場合、より軽量・高速化した蒸留モデル`distil-large-v3`の使用が推奨されています([参照](https://huggingface.co/distil-whisper))が、日本語の推論はサポートされていないことをご注意ください。
## Get Started
### 1. conda環境の作成
[Anaconda](https://www.anaconda.com/)を使用してPythonの実行環境を用意します。
**環境作成にvenvを用いると、ffmpeg, cudnnを手動で入れる手間が生じるので、condaの使用を推奨します。**Anaconda Prompt から、新しいconda環境を作成します。
```cmd
conda create -n [環境名] python==3.11
```
その環境内で、以下のコマンドを実行して必要なパッケージをインストールしてください。```cmd
pip install yt-dlp
pip install faster_whisper
conda install -c conda-forge ffmpeg
conda install -c conda-forge cudnn
```### 2. 実行方法
実行方法は2通りあります:1. **VSCode から実行する場合:**
- VSCode でこのプロジェクトを開きます。
- 右下の `インタプリタの選択` から先ほど作成したconda環境を選択します。
- `main.py` を実行してください。2. **Anaconda Prompt から実行する場合:**
- 作成した環境をactivateさせたAnaconda Prompt から、`main.py` が存在するディレクトリに移動します。
- 以下のコマンドを実行してください:
```bash
python main.py
```## References
- このプロジェクトはこちらの記事をもとに作成しました:
https://zenn.dev/tsuzukia/articles/1381e6c9a88577
- faster-whisper Hugging Face:
https://huggingface.co/models?search=openai/whisper
- 推論時の量子化処理の程度と必要なスペック:
https://opennmt.net/CTranslate2/quantization.html## License
faster-whisper-test is under the [MIT](/LICENSE) license.