https://github.com/alfa7g7/audio-educational-pipeline

Pipeline completo para transcripción y corrección de audio educativo con análisis pedagógico
https://github.com/alfa7g7/audio-educational-pipeline

audio-processing education educational-technology jupyter-notebook machine-learning nlp python speech-recognition transformers whisper

Last synced: about 2 months ago
JSON representation

Pipeline completo para transcripción y corrección de audio educativo con análisis pedagógico

Host: GitHub
URL: https://github.com/alfa7g7/audio-educational-pipeline
Owner: alfa7g7
Created: 2025-07-24T00:10:34.000Z (11 months ago)
Default Branch: main
Last Pushed: 2025-07-24T01:07:30.000Z (11 months ago)
Last Synced: 2025-08-08T08:02:18.911Z (10 months ago)
Topics: audio-processing, education, educational-technology, jupyter-notebook, machine-learning, nlp, python, speech-recognition, transformers, whisper
Language: Jupyter Notebook
Homepage:
Size: 26.1 MB
Stars: 1
Watchers: 0
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# Proyecto: Pipeline de Audio Educativo

## Requisitos del sistema

- Python 3.8+
- ffmpeg (ejecutable, necesario para procesar archivos de audio)

## Instalación de dependencias

1. **Crea y activa un entorno virtual:**
```
python -m venv venv
venv\Scripts\activate
```

2. **Instala las dependencias de Python:**
```
pip install -r requirements.txt
```

3. **Instala ffmpeg (obligatorio):**
- Descarga la versión para Windows desde: https://www.gyan.dev/ffmpeg/builds/
- Extrae el archivo ZIP en una carpeta, por ejemplo: `C:\ffmpeg`
- Agrega la ruta `C:\ffmpeg\bin` a la variable de entorno `Path`.
- Cierra y vuelve a abrir la terminal para que los cambios surtan efecto.
- Verifica la instalación ejecutando en la terminal:
```
ffmpeg -version
```
- Si ves información de ffmpeg, ¡todo está listo!

## Uso del pipeline

1. **Abre Jupyter Notebook:**
```
jupyter notebook
```

2. **Ejecuta el notebook `pipeline_audio.ipynb`:**
- El notebook ejecutará automáticamente todos los pasos del pipeline
- Generará los archivos de transcripción y métricas
- Creará gráficas comparativas de WER/CER

## Archivos generados

- `transcript_raw.csv`: Transcripción automática del audio completo
- `transcript_gold.csv`: Transcripción manual de 5 fragmentos representativos
- `transcript_corrected.csv`: Transcripción corregida automáticamente
- `metrics.csv`: Métricas WER/CER antes y después de la corrección
- `errores_detallados.csv`: Análisis detallado de errores detectados
- `clip_01.wav` a `clip_05.wav`: Fragmentos de audio recortados

## Dependencias incluidas

- **openai-whisper**: Transcripción automática de audio
- **pydub**: Procesamiento y recorte de archivos de audio
- **jiwer**: Cálculo de métricas WER/CER
- **pandas**: Manipulación de datos y CSVs
- **matplotlib**: Generación de gráficas
- **torch**: Framework de deep learning (requerido por Whisper)
- **notebook**: Entorno Jupyter Notebook
- **ffmpeg-python**: Interfaz Python para ffmpeg
- **transformers**: Modelos de HuggingFace para corrección gramatical

## Notas
- El pipeline requiere ffmpeg para que Whisper y pydub puedan procesar archivos de audio.
- Si tienes problemas, asegúrate de que ffmpeg esté correctamente instalado y en el PATH del sistema.
- El modelo Whisper "large" puede tardar varios minutos en procesar el audio completo.
- Para mejor rendimiento, se recomienda tener una GPU compatible con CUDA.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/alfa7g7/audio-educational-pipeline

Awesome Lists containing this project

README