Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/cleberzumba/data-engineering-in-python-language
Criação de Pipeline de Extração, Limpeza, Transformação e Enriquecimento de Dados
https://github.com/cleberzumba/data-engineering-in-python-language
Last synced: about 1 month ago
JSON representation
Criação de Pipeline de Extração, Limpeza, Transformação e Enriquecimento de Dados
- Host: GitHub
- URL: https://github.com/cleberzumba/data-engineering-in-python-language
- Owner: cleberzumba
- Created: 2023-09-14T18:19:04.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2023-09-14T18:23:05.000Z (over 1 year ago)
- Last Synced: 2024-11-08T07:42:54.498Z (3 months ago)
- Language: Python
- Size: 6.84 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
Criação de Pipeline de Extração, Limpeza, Transformação e Enriquecimento de Dados em linguagem Python:
------------------------------------------------------------------------------------------------------1 - Extrair os dados da origem (arquivo .CSV) Esse arquivo contem dados fictícios de produção de alimentos.
2 - Aplicar limpeza, transformação e enriquecimento
3 - Carregar os dados no destino (um banco de dados relacional SQLite).
fazer download do banco de dados nesse link: https://sqlitebrowser.org/dl/
Abrir SQLite no Windows: tecla windows + digita DB* Passos a seguir:
1 - Carga de dados:
Executar arquivo connect.py somente testar conectividade. Isso vai carregar os dados brutos direto no destino, no banco de dados.
2 - Limpeza dos dados:
Regra de negócio: Carregar somente registros com quantidade produzida superior a 10.
Script limpeza.py carregar no banco de dados somente os dados quando a quantidade produzida for superior a 10.3 - Trasnformação de Dados:
Regra de negócio: Remover o caracter "ponto" na última coluna do arquivo para evitar que o número seja truncado.
Script transformação.py4 - Enriquecimento dos Dados:
Regra de negócio: Enriquecer os dados adicionando no destino uma coluna com a margem de lucro de cada produto.
Script enriquecimento.py5 Formatação dos Dados:
Script formatacao.py