Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/vin0x/pdf-to-vehicle-data-etl

This project extract data from a website (.pdf file) containing car data, manipulate data, store in a AWS RDS, create pipeline with Apache Airflow to automatically refresh and create a Power BI Dashboard.
https://github.com/vin0x/pdf-to-vehicle-data-etl

database-schema etl jupyter manipulate-data pdf-document-processor

Last synced: 6 days ago
JSON representation

This project extract data from a website (.pdf file) containing car data, manipulate data, store in a AWS RDS, create pipeline with Apache Airflow to automatically refresh and create a Power BI Dashboard.

Awesome Lists containing this project

README

        

# Extração e Transformação de Dados a partir de PDF
- README em Português, clique aqui -> [vin0x-brasil](https://github.com/vin0x/pdf-to-vehicle-data-ETL/blob/main/README-pt_br.md)

- README in English, click here -> [vin0x-windows](https://github.com/vin0x/pdf-to-vehicle-data-ETL/blob/main/README.md)

## Sobre

Este projeto demonstra como extrair dados de um arquivo PDF contendo dados de carros e salvá-los como um arquivo CSV. Os dados são processados usando bibliotecas Python como `Pypdf`, `pandas`, `numpy`, `seaborn` e `matplotlib`. As principais tarefas realizadas incluem extração, transformação, limpeza e visualização de dados.

## Funcionalidades:

- Baixar um PDF contendo dados do mercado automotivo.
- Extrair as tabelas do PDF.
- Limpar, transformar e organizar os dados em um DataFrame do pandas.
- Visualizar valores ausentes e distribuição de dados.
- Exportar os dados limpos finais para um arquivo CSV para uso posterior.
- Último dataframe carregado em um banco de dados AWS RDS.
- Integração com o MS Power BI para criação de visuais dinâmicos.
- AWS EC2 para rodar um Linux dedicado para o Apache Airflow.
- Apache Airflow para automatização do refresh mensal.
- Usando ARIMA para realizar forecast do ano de 2025 e Scikitlearn para avaliar a performance dos modelos (tbu)

## Exemplo



Dados limpos: Ver data.csv

## Tecnologias Utilizadas e Requisitos

- **Python**: 🐍
- `Pandas`: Biblioteca de manipulação e análise de dados.
- `NumPy`: Biblioteca de computação numérica.
- `Pypdf`: Biblioteca para extração de dados de PDFs.
- `Seaborn`: Biblioteca de visualização de dados baseada no matplotlib.
- `Matplotlib`: Biblioteca de plotagem para criar visualizações.

## Licença

Este projeto está licenciado sob a Licença MIT. Veja o arquivo LICENSE para mais detalhes.

## Contato

Se você tiver alguma dúvida, sinta-se à vontade para entrar em contato [email protected] ou vinox_quente no Discord.