https://github.com/izaaccoding36/pipeline-dados

Esse repositório apresenta uma pipeline de dados utilizando python e jupyter notebook, utilizado no curso de data science da Alura.
https://github.com/izaaccoding36/pipeline-dados

alura data-science jupyter-notebook pipeline python

Last synced: 2 months ago
JSON representation

Esse repositório apresenta uma pipeline de dados utilizando python e jupyter notebook, utilizado no curso de data science da Alura.

Host: GitHub
URL: https://github.com/izaaccoding36/pipeline-dados
Owner: IzaacCoding36
License: mit
Created: 2024-06-15T19:15:16.000Z (about 2 years ago)
Default Branch: main
Last Pushed: 2025-01-05T23:32:14.000Z (over 1 year ago)
Last Synced: 2025-01-06T00:28:43.921Z (over 1 year ago)
Topics: alura, data-science, jupyter-notebook, pipeline, python
Language: Jupyter Notebook
Homepage:
Size: 147 KB
Stars: 1
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

[![Typing SVG](https://readme-typing-svg.herokuapp.com?font=Orbitron&weight=500&size=17&pause=1000&color=FF9400&background=0C1831&center=true&vCenter=true&width=1000&height=100&lines=Pipeline+de+Dados;Python;Jupyter+Notebook)](https://git.io/typing-svg)

---

# Pipeline de Dados

**Esse repositório apresenta uma pipeline de dados utilizando Python e Jupyter Notebook, utilizado em um projeto de Data Science**

## Descrição

Este projeto implementa um pipeline ETL (Extract, Transform, Load) que processa dados de vendas de duas empresas diferentes:
- **Empresa A**: Dados em formato JSON (`data_raw/dados_empresaA.json`)
- **Empresa B**: Dados em formato CSV (`data_raw/dados_empresaB.csv`)

O pipeline combina e padroniza os dados das duas fontes em um único arquivo CSV de saída.

## Estrutura do Projeto

```
Pipeline-dados/
├── data_raw/ # Dados brutos de entrada
│ ├── dados_empresaA.json
│ └── dados_empresaB.csv
├── data_processed/ # Dados processados de saída
│ └── dados_combinados.csv
├── scripts/ # Scripts Python do pipeline
│ ├── processamento_dados.py
│ └── fusao_mercado_fev.py
├── notebooks/ # Notebooks Jupyter para exploração
│ └── exploracao.ipynb
└── README.md
```

## Como Usar

### Executar o Pipeline

O pipeline pode ser executado a partir do diretório raiz ou do diretório scripts:

```bash
# A partir do diretório raiz
python scripts/fusao_mercado_fev.py

# A partir do diretório scripts
cd scripts
python fusao_mercado_fev.py
```

### Exploração dos Dados

Use o Jupyter Notebook para explorar os dados:

```bash
jupyter notebook notebooks/exploracao.ipynb
```

## Funcionalidades

- **Leitura de dados**: Suporte para arquivos JSON e CSV
- **Transformação**: Padronização de nomes de colunas entre diferentes fontes
- **Combinação**: União de dados de múltiplas fontes
- **Export**: Geração de arquivo CSV combinado
- **Tratamento de dados faltantes**: Valores ausentes são marcados como "Indisponivel"

## Dependências

- Python 3.x
- csv (biblioteca padrão)
- json (biblioteca padrão)
- os (biblioteca padrão)

## Estrutura dos Dados

O pipeline processa produtos com os seguintes campos:
- Nome do Produto
- Categoria do Produto
- Preço do Produto (R$)
- Quantidade em Estoque
- Filial
- Data da Venda (quando disponível)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/izaaccoding36/pipeline-dados

Awesome Lists containing this project

README