An open API service indexing awesome lists of open source software.

https://github.com/sebastianmahecha/data_engineering

Generate data, load and download parquets to GCP and compare performance between Pandas, Polars and Modin with Python
https://github.com/sebastianmahecha/data_engineering

data-e gcp modin pandas polars python

Last synced: 4 months ago
JSON representation

Generate data, load and download parquets to GCP and compare performance between Pandas, Polars and Modin with Python

Awesome Lists containing this project

README

          

# data_engineering

El desarrollo realizado en esta proyecto, consiste en una aplicacion de consola, que permite realizar todo el procesamiento de datos; desde su generacion, hasta su analisis, por medio de diferentes librerias en Python. Por otro lado, se pretende evidenciar un flujo de trabajo cotidiano y la eficiencia de 3 librerias para el manejo de volumenes de datos grandes.

Comando para hacer el build

```
docker build -t scripts-data-eng --no-cache .
```

Comando para correr la imagen
```
docker run --env-file .env scripts-data-eng python main.py --type all --count 10000000
```

Si ya tienes data generada puedes ejecutar unicamente el read

```
docker run --env-file .env scripts-data-eng python main.py --type read
```