Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/vin0x/pdf-to-vehicle-data-etl
This project extract data from a website (.pdf file) containing car data, manipulate data, store in a AWS RDS, create pipeline with Apache Airflow to automatically refresh and create a Power BI Dashboard.
https://github.com/vin0x/pdf-to-vehicle-data-etl
database-schema etl jupyter manipulate-data pdf-document-processor
Last synced: 6 days ago
JSON representation
This project extract data from a website (.pdf file) containing car data, manipulate data, store in a AWS RDS, create pipeline with Apache Airflow to automatically refresh and create a Power BI Dashboard.
- Host: GitHub
- URL: https://github.com/vin0x/pdf-to-vehicle-data-etl
- Owner: vin0x
- License: mit
- Created: 2024-08-17T00:09:53.000Z (about 2 months ago)
- Default Branch: main
- Last Pushed: 2024-09-13T22:36:31.000Z (20 days ago)
- Last Synced: 2024-09-27T23:21:29.635Z (6 days ago)
- Topics: database-schema, etl, jupyter, manipulate-data, pdf-document-processor
- Language: Jupyter Notebook
- Homepage: https://vinigoes.carrd.co/
- Size: 3.56 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README-pt_br.md
- License: LICENSE
Awesome Lists containing this project
README
# Extração e Transformação de Dados a partir de PDF
- README em Português, clique aqui -> [](https://github.com/vin0x/pdf-to-vehicle-data-ETL/blob/main/README-pt_br.md)- README in English, click here -> [](https://github.com/vin0x/pdf-to-vehicle-data-ETL/blob/main/README.md)
## Sobre
Este projeto demonstra como extrair dados de um arquivo PDF contendo dados de carros e salvá-los como um arquivo CSV. Os dados são processados usando bibliotecas Python como `Pypdf`, `pandas`, `numpy`, `seaborn` e `matplotlib`. As principais tarefas realizadas incluem extração, transformação, limpeza e visualização de dados.
## Funcionalidades:
- Baixar um PDF contendo dados do mercado automotivo.
- Extrair as tabelas do PDF.
- Limpar, transformar e organizar os dados em um DataFrame do pandas.
- Visualizar valores ausentes e distribuição de dados.
- Exportar os dados limpos finais para um arquivo CSV para uso posterior.
- Último dataframe carregado em um banco de dados AWS RDS.
- Integração com o MS Power BI para criação de visuais dinâmicos.
- AWS EC2 para rodar um Linux dedicado para o Apache Airflow.
- Apache Airflow para automatização do refresh mensal.
- Usando ARIMA para realizar forecast do ano de 2025 e Scikitlearn para avaliar a performance dos modelos (tbu)## Exemplo
Dados limpos: Ver data.csv
## Tecnologias Utilizadas e Requisitos
- **Python**: 🐍
- `Pandas`: Biblioteca de manipulação e análise de dados.
- `NumPy`: Biblioteca de computação numérica.
- `Pypdf`: Biblioteca para extração de dados de PDFs.
- `Seaborn`: Biblioteca de visualização de dados baseada no matplotlib.
- `Matplotlib`: Biblioteca de plotagem para criar visualizações.## Licença
Este projeto está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais detalhes.
## Contato
Se você tiver alguma dúvida, sinta-se à vontade para entrar em contato [email protected] ou vinox_quente no Discord.