https://github.com/moscarde/data-collect
https://github.com/moscarde/data-collect
Last synced: about 2 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/moscarde/data-collect
- Owner: Moscarde
- License: mit
- Created: 2024-07-19T09:06:56.000Z (10 months ago)
- Default Branch: main
- Last Pushed: 2024-07-23T16:41:56.000Z (10 months ago)
- Last Synced: 2025-02-06T04:53:01.392Z (4 months ago)
- Language: Python
- Size: 1.09 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Estudo sobre APIs e Ingestão de Dados
Este repositório contém um estudo abrangente sobre a coleta e o processamento de dados de APIs públicas, utilizando técnicas avançadas de engenharia de dados. O objetivo principal é demonstrar como realizar a ingestão de dados em diferentes formatos e como processá-los eficientemente usando Python e Spark.
O estudo explora diversas etapas de uma rotina completa de engenharia de dados, desde a coleta inicial até uma introdução ao processamento e armazenamento em camadas na nuvem.
## Estrutura do Repositório
O repositório está organizado da seguinte forma:
- **`JovemNerd/`**: Scripts para coletar e processar dados do [Jovem Nerd API](https://api.jovemnerd.com.br/wp-json/jovemnerd/v1/nerdcasts/).
- **`data/`**: Pasta contendo os dados coletados.
- **`episodios/`**: Subpastas para dados em formato JSON e Parquet.
- **`episodios.py`**: Script para coletar dados da API e salvá-los em formatos JSON e Parquet.- **`Pokemon/`**: Scripts para coletar e processar dados da [Pokémon API](https://pokeapi.co/api/v2/pokemon/).
- **`collect.py`**: Script para coletar dados da API e salvá-los em formato JSON.
- **`pokemon_details.py`**: Script para processar dados coletados e obter detalhes dos Pokémon usando Spark.- **`ResidentEvil/`**: Scripts e dados relacionados a [Resident Evil Database](https://www.residentevildatabase.com/personagens/), incluindo arquivos CSV, Parquet e Pickle.
- **`collect.py`**: Script para coleta de dados.
- **`dados_re.csv`**: Dados em formato CSV.
- **`dados_re.parquet`**: Dados em formato Parquet.
- **`dados_re.pkl`**: Dados em formato Pickle.- **`TabNews/`**: Scripts para coletar e processar dados da [Tab News API](https://www.tabnews.com.br/api/v1/contents/).
- **`basic_content.py`**: Script básico para coleta de dados.
- **`data/`**: Pasta contendo dados coletados.
- **`contents/`**: Subpastas para dados em formato JSON e Parquet.
- **`read_spark.py`**: Script para ler e processar dados usando Spark.## Requisitos
- Python 3.x
- Bibliotecas Python: `requests`, `pandas`, `pyspark`, `json`
- Spark (para processamento de dados)## Como Usar
1. **Configurar Ambiente:**
- Instale as dependências necessárias usando `pip install -r requirements.txt`.2. **Executar Scripts:**
- Execute os scripts `basic_content.py`, `collect.py`, `pokemon_details.py` e `read_spark.py` para coletar e processar os dados.
- Todos estão estruturados em formatos de celulas, com o objetivo de auxiliar o desenvolvedor na escrita de código.