https://github.com/sebastianmahecha/data_engineering
Generate data, load and download parquets to GCP and compare performance between Pandas, Polars and Modin with Python
https://github.com/sebastianmahecha/data_engineering
data-e gcp modin pandas polars python
Last synced: 4 months ago
JSON representation
Generate data, load and download parquets to GCP and compare performance between Pandas, Polars and Modin with Python
- Host: GitHub
- URL: https://github.com/sebastianmahecha/data_engineering
- Owner: SebastianMahecha
- Created: 2024-07-24T01:02:09.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2024-07-26T10:46:32.000Z (about 1 year ago)
- Last Synced: 2025-01-14T12:50:22.381Z (9 months ago)
- Topics: data-e, gcp, modin, pandas, polars, python
- Language: Python
- Homepage:
- Size: 27.3 KB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# data_engineering
El desarrollo realizado en esta proyecto, consiste en una aplicacion de consola, que permite realizar todo el procesamiento de datos; desde su generacion, hasta su analisis, por medio de diferentes librerias en Python. Por otro lado, se pretende evidenciar un flujo de trabajo cotidiano y la eficiencia de 3 librerias para el manejo de volumenes de datos grandes.
Comando para hacer el build
```
docker build -t scripts-data-eng --no-cache .
```Comando para correr la imagen
```
docker run --env-file .env scripts-data-eng python main.py --type all --count 10000000
```Si ya tienes data generada puedes ejecutar unicamente el read
```
docker run --env-file .env scripts-data-eng python main.py --type read
```