https://github.com/thawancomt/ai-transcriber-audio-video-cli-tool
Transcriber of audios and Videos CLI tool
https://github.com/thawancomt/ai-transcriber-audio-video-cli-tool
ai cli-tool ctranslate2 documentation nvidia-cuda python whisper
Last synced: about 1 month ago
JSON representation
Transcriber of audios and Videos CLI tool
- Host: GitHub
- URL: https://github.com/thawancomt/ai-transcriber-audio-video-cli-tool
- Owner: thawancomt
- License: mit
- Created: 2025-08-04T21:40:46.000Z (11 months ago)
- Default Branch: master
- Last Pushed: 2025-08-17T22:52:55.000Z (10 months ago)
- Last Synced: 2025-08-18T00:22:42.234Z (10 months ago)
- Topics: ai, cli-tool, ctranslate2, documentation, nvidia-cuda, python, whisper
- Language: Python
- Homepage:
- Size: 946 KB
- Stars: 0
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
- Code of conduct: CODE_OF_CONDUCT.md
Awesome Lists containing this project
README
# Transcritor de Mídia com IA
Um script de linha de comando eficiente para transcrever arquivos de áudio e vídeo em legendas `.srt` usando a tecnologia **Whisper**.
## 📖 Sobre o Projeto
Este projeto foi criado para automatizar a tarefa de transcrever aulas, palestras, reuniões e outros conteúdos de mídia. Utilizando o poder dos modelos de IA da família Whisper, este script oferece uma solução robusta e flexível que pode ser executada localmente, com suporte para aceleração via GPU para um desempenho ainda maior.
O objetivo é fornecer uma ferramenta simples, mas poderosa, para que usuários possam obter transcrições de alta qualidade sem depender de serviços online.
## ✨ Funcionalidades Principais
- **Menu Interativo**: Selecione facilmente qual arquivo transcrever a partir de uma lista de mídias válidas no diretório.
- **Suporte a Vários Formatos**: Transcreva os formatos de áudio e vídeo mais comuns (mp3, mp4, wav, m4a, webm, etc.).
- **Saída em .srt**: Gera arquivos de legenda no formato SubRip (.srt), prontos para uso em players de vídeo ou para leitura.
- **Aceleração por GPU**: Suporte total para processamento em GPUs NVIDIA (CUDA) para uma transcrição significativamente mais rápida.
- **Seleção de Modelo**: Escolha entre diferentes tamanhos de modelo (`tiny`, `base`, `small`, `medium`, `large-v3`) para balancear velocidade e precisão.
- **Feedback em Tempo Real**: Acompanhe o progresso da transcrição diretamente no seu terminal.
## 📂 Documentação Completa
Toda a documentação formal do projeto, incluindo a **Especificação de Requisitos do Usuário (URS)**, a **Especificação de Requisitos do Software (SRS)**, o **Desenho da Arquitetura (SDS)** com fluxogramas está disponível na pasta `/docs` deste repositório.
## 🛠️ Pré-requisitos
Antes de começar, certifique-se de que você tem os seguintes softwares instalados:
- **Python 3.12**
- **astral-uv**
Para aceleração GPU, instale:
- Nvidia Cuda ToolKit
- Nvidia cuNND
- Nvidia CuBlas
## 🚀 Instalação
1. Clone o repositório:
```bash
git clone https://github.com/thawancomt/whisper-transcript.git
cd whisper-transcript
```
2. Instale as dependencias:
```bash
uv sync
```
## (Como Usar)
1. Coloque os arquivos de áudio ou vídeo que você deseja transcrever na pasta do projeto.
2. Execute o script no seu terminal.
### Uso Básico (com CPU):
(Modelos disponíveis: `tiny`, `base`, `small`, `medium`, `large-v2`, `large-v3`)
```bash
python app.py [--cpu-threads] [--model=modelo_desejado]
```
O script irá listar os arquivos disponíveis e você poderá escolher um número para iniciar a transcrição.
### Uso com GPU (Requer NVIDIA CUDA) e drivers instalados no sistema:
```bash
python app.py --cuda [--cpu-threads] [--model=modelo_desejado]
```
## 📜 Licença
Este projeto está licenciado sob a **Licença MIT**. Veja o arquivo [LICENSE](LICENSE) para mais detalhes.
# Instalação para rodar no linux