{"id":24758501,"url":"https://github.com/angelsc75/bye_bye_hate","last_synced_at":"2026-04-13T04:32:40.806Z","repository":{"id":318731267,"uuid":"924262029","full_name":"angelsc75/bye_bye_hate","owner":"angelsc75","description":"Detector de mensajes ofensivos dentro de los comentarios de un vídeo de YouTube. Los mensajes ofensivos se guardan en una base de datos. ","archived":false,"fork":false,"pushed_at":"2025-01-29T18:06:11.000Z","size":51463,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-10-22T00:44:38.413Z","etag":null,"topics":["docker","keras-tensorflow","mlflow","mongodb","mongoexpress","nlp","nltk","python","streamlit"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/angelsc75.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":null,"dco":null,"cla":null}},"created_at":"2025-01-29T17:39:53.000Z","updated_at":"2025-01-29T18:08:17.000Z","dependencies_parsed_at":"2025-10-13T17:17:39.834Z","dependency_job_id":null,"html_url":"https://github.com/angelsc75/bye_bye_hate","commit_stats":null,"previous_names":["angelsc75/bye_bye_hate"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/angelsc75/bye_bye_hate","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/angelsc75%2Fbye_bye_hate","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/angelsc75%2Fbye_bye_hate/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/angelsc75%2Fbye_bye_hate/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/angelsc75%2Fbye_bye_hate/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/angelsc75","download_url":"https://codeload.github.com/angelsc75/bye_bye_hate/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/angelsc75%2Fbye_bye_hate/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":31740266,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-04-13T03:27:07.512Z","status":"ssl_error","status_checked_at":"2026-04-13T03:26:53.610Z","response_time":93,"last_error":"SSL_connect returned=1 errno=0 peeraddr=140.82.121.5:443 state=error: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["docker","keras-tensorflow","mlflow","mongodb","mongoexpress","nlp","nltk","python","streamlit"],"created_at":"2025-01-28T16:20:34.651Z","updated_at":"2026-04-13T04:32:40.786Z","avatar_url":"https://github.com/angelsc75.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# \u003cimg src=\"images/logo_bye_bye_hate.png\" width=\"100\" height=\"100\" alt=\"Logo Bye, bye Hate\"\u003e  BYE, BYE HATE\n## Detector de Mensajes de Odio en YouTube\nNota: este proyecto pertenece a la parte de NLP del bootcamp de IA de Factoría F5 que tuvo lugar de mayo de 2024 a marzo de 2025.\n## 📝 Descripción\nSistema de detección y análisis de mensajes de odio en comentarios de YouTube utilizando Deep Learning y Natural Language Processing. Implementado con Redes Neuronales Convolucionales  y Streamlit.\n\n## 🛠️ Tecnologías Principales\n- **Frontend**: Streamlit\n- **Backend**: Python 3.8+\n- **Deep Learning**: TensorFlow 2.15.0\n- **Base de Datos**: MongoDB 4.6.1 , Mongo-Express 1.0.2\n- **NLP**: NLTK 3.8.1, Spacy 3.7.2\n- **API**: YouTube Data API v3\n\n## 📋 Requisitos del Sistema\n- Python 3.8 o superior\n- MongoDB instalado y en ejecución\n- Memoria RAM: 8GB mínimo recomendado\n- Espacio en disco: 2GB mínimo\n- GPU recomendada para entrenamiento del modelo\n\n## ⚙️ Instalación\n\n1. **Clonar el repositorio**\n```bash\ngit clone \u003curl-repositorio\u003e\ncd \u003cnombre-directorio\u003e\n```\n\n2. **Crear y activar entorno virtual**\n```bash\npython -m venv venv\nsource venv/bin/activate  # Linux/Mac\nvenv\\Scripts\\activate     # Windows\n```\n\n3. **Instalar dependencias**\n```bash\npip install -r requirements.txt\n```\n\n4. **Configurar variables de entorno**\nCrear archivo `.env` con:\n```\nYOUTUBE_API_KEY=tu_api_key\nMONGO_URI=mongodb://localhost:27017/\nDATABASE_NAME=NLP\nCOLLECTION_NAME=lebels\n```\n\n## 📁 Estructura del Proyecto\n```\nproyecto/\n├── data/                  # Datos de entrenamiento\n│   └── youtoxic_english_1000.csv\n├── models/               # Modelos entrenados\n│   ├── final_model.h5\n│   └── tokenizer.pickle\n├── src/\n│   ├── youtube_api.py   # Cliente API YouTube\n│   ├── app.py          # Aplicación principal\n│   └── rnn_antioverfitting.py  # Entrenamiento\n├── requirements.txt\n└── README.md\n├── .dockerignore\n└──docker-compose.yml \n├── .dockerfile\n└──docker-compose.yml \n```\n\n## 🚀 Uso\n\n### Iniciar la Aplicación\n```bash\nstreamlit run src/app.py\n```\n\n### Funcionalidades Principales\n1. **Análisis Individual**\n   - Analiza comentarios individuales\n   - Muestra probabilidad de contenido ofensivo\n\n2. **Análisis de Videos**\n   - Analiza todos los comentarios de un video\n   - Genera estadísticas y visualizaciones\n\n3. **Monitoreo Continuo**\n   - Seguimiento en tiempo real\n   - Exportación de resultados\n\n## 📦 Dependencias Principales\n```\nnumpy\u003e=1.26.2\npandas\u003e=2.1.4\ntensorflow\u003e=2.15.0\nstreamlit\u003e=1.29.0\npymongo\u003e=4.6.1\nnltk\u003e=3.8.1\nscikit-learn\u003e=1.3.2\n```\n\n## 🔧 Configuración del Modelo\n```python\nMAX_WORDS = 15000\nMAX_LEN = 128\nEMBEDDING_DIM = 200\n```\n\n## 📊 Entrenamiento del Modelo\nPara entrenar el modelo:\n```bash\npython src/rnn_antioverfitting.py\n```\n\n## 🤝 Contribución\n1. Fork del proyecto\n2. Crear rama de feature\n   ```bash\n   git checkout -b feature/NuevaFeature\n   ```\n3. Commit y push\n4. Crear Pull Request\n\n\n## Visionado de experimientos en MLflow\n1. En la rama experimentos-con-mlflow están registradas las métricas del modelo entrenado alterando el hiperparámetro de batch-size (16, 32, 64, 128)\n2.    Ejecutar el comando\n ```bash\n  mlflow ui  \n   ```\n   (nota: el modelo cargado en la app el el que tiene el batch-size de 32)\n3. La terminal ofrece el servidor donde se pueden consultar los experimentos\n# FUNCIONAMIENTO DEL MODELO\n# 🎯 **Objetivo del Modelo**\n\nEl modelo busca detectar texto ofensivo o tóxico mediante técnicas avanzadas de procesamiento de lenguaje natural y deep learning.\n\n## 1. Datos de Entrada\n\n### Fuente de Datos\n* Archivo CSV: 'youtoxic_english_1000.csv'\n* Contiene textos con etiquetas de diferentes tipos de ofensividad:\n   * IsAbusive\n   * IsProvocative\n   * IsObscene\n   * IsHatespeech\n   * IsRacist\n\n### Preprocesamiento de Datos\n\n1. **Limpieza de Texto**:\n   * Convertir a minúsculas\n   * Eliminar URLs\n   * Eliminar caracteres especiales\n   * Lematización (reducir palabras a su forma base)\n   * Eliminar stopwords\n\n2. **Aumento de Datos** (Data Augmentation):\n   * Para textos ofensivos, se generan variaciones usando:\n      * Sustitución de sinónimos\n      * Back-translation (traducir y re-traducir)\n      * Eliminación aleatoria de palabras\n\n## 2. Arquitectura del Modelo\n\nEl modelo es una red neuronal profunda con las siguientes capas:\n\n### A. Embedding Layer\n* Convierte palabras en vectores densos\n* Usa embeddings preentrenados de GloVe (Twitter)\n* Dimensión: 200\n\n### B. Procesamiento Convolucional\n* Capa Conv1D para extraer características locales\n* Filtros ajustables\n* Kernel de 5 palabras\n* Activación ReLU\n\n### C. LSTM Bidireccional\n* Analiza secuencias en ambas direcciones\n* Captura contexto complejo\n* Regularización para prevenir overfitting\n\n### D. Capas Densas\n* Combinan características extraídas\n* Capa final con activación sigmoidal\n* Salida: Probabilidad binaria de ser texto ofensivo\n\n## 3. Técnicas Anti-Overfitting\n\n1. Regularización L2\n2. Dropout (40-50%)\n3. BatchNormalization\n4. Learning Rate Decay\n5. Early Stopping\n6. Reducción de Learning Rate\n\n## 4. Entrenamiento\n\n### Estrategias\n* Validación cruzada estratificada (5 folds)\n* Balanceo de clases con class weights\n* Métricas:\n   * Accuracy\n   * AUC\n   * Precisión\n   * Recall\n   * F1-Score\n\n### División de Datos\n* 90% para entrenamiento/validación\n* 10% para test final\n\n## 5. Seguimiento de Experimentos\n\nUsa MLflow para:\n* Registrar hiperparámetros\n* Trackear métricas\n* Guardar modelos\n* Detectar posible overfitting\n\n## 6. Características Innovadoras\n\n* Diccionario expandido de palabras ofensivas\n* Técnicas avanzadas de aumento de datos\n* Métricas personalizadas\n* Regularización multi-nivel\n\n## Ejemplo de Flujo\n\n`Texto de entrada → Limpieza → Tokenización → Embedding → Convolución → LSTM → Clasificación Binaria (Ofensivo/No Ofensivo)`\n\n## Consideraciones Finales\n\n✅ Modelo robusto para clasificación de texto tóxico\n✅ Aproximación técnica para detección automática\n❗ Requiere datos de calidad y diversidad\n\n## [Enlace a presentación comercial](images/presentacion.pdf)\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fangelsc75%2Fbye_bye_hate","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fangelsc75%2Fbye_bye_hate","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fangelsc75%2Fbye_bye_hate/lists"}