https://github.com/alfa7g7/audio-educational-pipeline
Pipeline completo para transcripción y corrección de audio educativo con análisis pedagógico
https://github.com/alfa7g7/audio-educational-pipeline
audio-processing education educational-technology jupyter-notebook machine-learning nlp python speech-recognition transformers whisper
Last synced: about 2 months ago
JSON representation
Pipeline completo para transcripción y corrección de audio educativo con análisis pedagógico
- Host: GitHub
- URL: https://github.com/alfa7g7/audio-educational-pipeline
- Owner: alfa7g7
- Created: 2025-07-24T00:10:34.000Z (11 months ago)
- Default Branch: main
- Last Pushed: 2025-07-24T01:07:30.000Z (11 months ago)
- Last Synced: 2025-08-08T08:02:18.911Z (10 months ago)
- Topics: audio-processing, education, educational-technology, jupyter-notebook, machine-learning, nlp, python, speech-recognition, transformers, whisper
- Language: Jupyter Notebook
- Homepage:
- Size: 26.1 MB
- Stars: 1
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Proyecto: Pipeline de Audio Educativo
## Requisitos del sistema
- Python 3.8+
- ffmpeg (ejecutable, necesario para procesar archivos de audio)
## Instalación de dependencias
1. **Crea y activa un entorno virtual:**
```
python -m venv venv
venv\Scripts\activate
```
2. **Instala las dependencias de Python:**
```
pip install -r requirements.txt
```
3. **Instala ffmpeg (obligatorio):**
- Descarga la versión para Windows desde: https://www.gyan.dev/ffmpeg/builds/
- Extrae el archivo ZIP en una carpeta, por ejemplo: `C:\ffmpeg`
- Agrega la ruta `C:\ffmpeg\bin` a la variable de entorno `Path`.
- Cierra y vuelve a abrir la terminal para que los cambios surtan efecto.
- Verifica la instalación ejecutando en la terminal:
```
ffmpeg -version
```
- Si ves información de ffmpeg, ¡todo está listo!
## Uso del pipeline
1. **Abre Jupyter Notebook:**
```
jupyter notebook
```
2. **Ejecuta el notebook `pipeline_audio.ipynb`:**
- El notebook ejecutará automáticamente todos los pasos del pipeline
- Generará los archivos de transcripción y métricas
- Creará gráficas comparativas de WER/CER
## Archivos generados
- `transcript_raw.csv`: Transcripción automática del audio completo
- `transcript_gold.csv`: Transcripción manual de 5 fragmentos representativos
- `transcript_corrected.csv`: Transcripción corregida automáticamente
- `metrics.csv`: Métricas WER/CER antes y después de la corrección
- `errores_detallados.csv`: Análisis detallado de errores detectados
- `clip_01.wav` a `clip_05.wav`: Fragmentos de audio recortados
## Dependencias incluidas
- **openai-whisper**: Transcripción automática de audio
- **pydub**: Procesamiento y recorte de archivos de audio
- **jiwer**: Cálculo de métricas WER/CER
- **pandas**: Manipulación de datos y CSVs
- **matplotlib**: Generación de gráficas
- **torch**: Framework de deep learning (requerido por Whisper)
- **notebook**: Entorno Jupyter Notebook
- **ffmpeg-python**: Interfaz Python para ffmpeg
- **transformers**: Modelos de HuggingFace para corrección gramatical
## Notas
- El pipeline requiere ffmpeg para que Whisper y pydub puedan procesar archivos de audio.
- Si tienes problemas, asegúrate de que ffmpeg esté correctamente instalado y en el PATH del sistema.
- El modelo Whisper "large" puede tardar varios minutos en procesar el audio completo.
- Para mejor rendimiento, se recomienda tener una GPU compatible con CUDA.