https://github.com/ianpangdev/ecobici-data-science-workflow
Este proyecto analiza los registros de viajes del sistema Ecobici de la Ciudad de México mediante un flujo de trabajo basado en CRISP-DM. Incluye un proceso ETL para extraer, transformar y cargar los datos en una base MongoDB Atlas, permitiendo su análisis y modelado.
https://github.com/ianpangdev/ecobici-data-science-workflow
data-science etl etl-pipeline machine-learning machine-learning-algorithms mongoatlas python
Last synced: 12 days ago
JSON representation
Este proyecto analiza los registros de viajes del sistema Ecobici de la Ciudad de México mediante un flujo de trabajo basado en CRISP-DM. Incluye un proceso ETL para extraer, transformar y cargar los datos en una base MongoDB Atlas, permitiendo su análisis y modelado.
- Host: GitHub
- URL: https://github.com/ianpangdev/ecobici-data-science-workflow
- Owner: IanPangDev
- Created: 2025-04-28T03:48:34.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2025-05-03T04:29:33.000Z (about 1 year ago)
- Last Synced: 2026-05-01T02:32:38.791Z (12 days ago)
- Topics: data-science, etl, etl-pipeline, machine-learning, machine-learning-algorithms, mongoatlas, python
- Language: Jupyter Notebook
- Homepage:
- Size: 1.96 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: readme.md
Awesome Lists containing this project
README
# ecobici-data-science-workflow
## Descripción general
Este proyecto analiza los registros de viajes del sistema ECOBICI de la Ciudad de México utilizando un flujo de trabajo basado en la metodología **CRISP-DM**. Incluye dos procesos **ETL** que permiten extraer, transformar y cargar los datos en una base de datos **MongoDB Atlas** para su posterior análisis y modelado.
## Tecnologías
- Python
- MongoDB Atlas
## Estructura del proyecto
- **etl_historico**: Conjunto de scripts responsables del proceso ETL que transforma registros históricos desde archivos CSV hacia MongoDB Atlas.
- **etl_station**: Conjunto de scripts que realizan el proceso ETL a partir de la API con informacion de las estaciones de ECOBICI hacia MongoDB Atlas.
- **Models**: Contiene las clases que representan cada colección almacenada en MongoDB Atlas.
## Modelos de predicción
### Predicción de estaciones de arribo
Se utilizó un modelo **RandomForest**. Las variables consideradas fueron:
- `genero`: Género del usuario por viaje
- `start_cluster`: Clúster de las estaciones de retiro
- `stop_cluster`: Clúster de las estaciones de arribo
- `hora_retiro_sin`: Hora de retiro representada de forma cíclica (seno)
- `hora_retiro_cos`: Hora de retiro representada de forma cíclica (coseno)
### Pronóstico de cantidad de retiros por día
También se empleó un modelo **RandomForest**. Las variables utilizadas fueron:
- `fecha`: Fecha del retiro
- `conteo`: Número de retiros registrados en esa fecha
### Dashboard de análisis
