https://github.com/mimisukemaster/faster-whisper-test

A sample project to test and demonstrate faster-whisper
https://github.com/mimisukemaster/faster-whisper-test

faster-whisper speech-recognition speech-to-text stt voice-recognition

Last synced: about 1 month ago
JSON representation

A sample project to test and demonstrate faster-whisper

Host: GitHub
URL: https://github.com/mimisukemaster/faster-whisper-test
Owner: mimisukeMaster
License: mit
Created: 2025-03-23T06:58:11.000Z (7 months ago)
Default Branch: main
Last Pushed: 2025-03-27T10:25:20.000Z (6 months ago)
Last Synced: 2025-06-12T12:08:28.823Z (4 months ago)
Topics: faster-whisper, speech-recognition, speech-to-text, stt, voice-recognition
Language: Python
Homepage: https://github.com/SYSTRAN/faster-whisper
Size: 30.1 MB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# faster-whisper-test
[](https://github.com/mimisukeMaster/faster-whisper-test/stargazers)
[](/LICENSE)
[](https://github.com/mimisukeMaster/faster-whisper-test/issues)

[](https://github.dev/mimisukeMaster/faster-whisper-test)

A sample project to test and demonstrate [faster-whisper](https://github.com/guillaumekln/faster-whisper).

## About

[faster-whisper](https://github.com/guillaumekln/faster-whisper) のテストと動作確認を目的としたサンプルプロジェクトです。

faster-whisperは、高速な音声認識推論を実現するライブラリです。このプロジェクトでは、実際にYoutubeのリンクからその動画の文字起こし(STT処理)を行います。

## Requirements and Models
- 必要なパッケージは以下の通りです。（実行するタイミングは下方参照）

バージョンはあくまで自機で動作確認済みのものです。
```cmd
yt-dlp==2025.3.21
faster_whisper==1.1.1
ffmpeg==4.3.1
cudnn==9.1.1.17
```

- GPUでの推論の場合、動かすモデルに対応するスペック以上のGPUが必要です。

実行時間は5~6倍かかりますが、CPUで動かすことも可能です。

|モデル|パラメータ数|推奨VRAM|
|:----:|:----:|:----:|
|tiny|32M|1GB以上|
|base|74M|2GB以上|
|small|244M|4GB以上|
|medium|769M|6GB以上|
|large, large-v3|1550M|10GB以上|

また、GPUはFP16（半精度浮動小数点）計算に対応しており、CUDA Compute Capability 6.0以上（Pascal世代以降）が推奨です。
※GPUの性能が対象のモデルに見合わない場合、推論が正常に行われず、音声の一部が変換されなかったり`out-of-memory`エラーにより処理が中断される可能性があります。

- 2025/3現在、公式のHugging Faceでは`large`モデル以外を使う場合、より軽量・高速化した蒸留モデル`distil-large-v3`の使用が推奨されています([参照](https://huggingface.co/distil-whisper))が、日本語の推論はサポートされていないことをご注意ください。

## Get Started

### 1. conda環境の作成

[Anaconda](https://www.anaconda.com/)を使用してPythonの実行環境を用意します。
**環境作成にvenvを用いると、ffmpeg, cudnnを手動で入れる手間が生じるので、condaの使用を推奨します。**

Anaconda Prompt から、新しいconda環境を作成します。
```cmd
conda create -n [環境名] python==3.11
```
その環境内で、以下のコマンドを実行して必要なパッケージをインストールしてください。

```cmd
pip install yt-dlp
pip install faster_whisper
conda install -c conda-forge ffmpeg
conda install -c conda-forge cudnn
```

### 2. 実行方法
実行方法は2通りあります:

1. **VSCode から実行する場合:**
- VSCode でこのプロジェクトを開きます。
- 右下の `インタプリタの選択` から先ほど作成したconda環境を選択します。
- `main.py` を実行してください。

2. **Anaconda Prompt から実行する場合:**
- 作成した環境をactivateさせたAnaconda Prompt から、`main.py` が存在するディレクトリに移動します。
- 以下のコマンドを実行してください:
```bash
python main.py
```

## References

- このプロジェクトはこちらの記事をもとに作成しました:

https://zenn.dev/tsuzukia/articles/1381e6c9a88577
- faster-whisper Hugging Face:

https://huggingface.co/models?search=openai/whisper
- 推論時の量子化処理の程度と必要なスペック:

https://opennmt.net/CTranslate2/quantization.html

## License
faster-whisper-test is under the [MIT](/LICENSE) license.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/mimisukemaster/faster-whisper-test

Awesome Lists containing this project

README