Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/tupizz/fiap_pnad-covid-19
Este projeto realiza a análise e transformação de dados da PNAD COVID-19 de maio a julho de 2020, utilizando PySpark para processamento de dados em larga escala e BigQuery como destino para armazenamento e análise posterior. O objetivo é consolidar os dados mensais em um único conjunto de dados transformado.
https://github.com/tupizz/fiap_pnad-covid-19
analysis bigquery pyspark python
Last synced: about 1 month ago
JSON representation
Este projeto realiza a análise e transformação de dados da PNAD COVID-19 de maio a julho de 2020, utilizando PySpark para processamento de dados em larga escala e BigQuery como destino para armazenamento e análise posterior. O objetivo é consolidar os dados mensais em um único conjunto de dados transformado.
- Host: GitHub
- URL: https://github.com/tupizz/fiap_pnad-covid-19
- Owner: tupizz
- Created: 2024-03-17T16:23:27.000Z (11 months ago)
- Default Branch: main
- Last Pushed: 2024-03-17T16:29:32.000Z (11 months ago)
- Last Synced: 2024-03-17T17:37:14.399Z (11 months ago)
- Topics: analysis, bigquery, pyspark, python
- Language: Python
- Homepage: https://lookerstudio.google.com/reporting/a6af6c92-d931-4aeb-942a-857bfb6450b2
- Size: 33.3 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# README para o Projeto de Análise de Dados com PySpark e BigQuery
### Introdução
Terceiro Projeto FIAP/2024
### Looker dashboard
https://lookerstudio.google.com/reporting/a6af6c92-d931-4aeb-942a-857bfb6450b2
### Iniciar Projeto
```bash
poetry new poetry-demo
source env/bin/activate
```### Install all dependencies
```bash
poetry install
```### Important files
- [x] README.md
- [x] .gitignore
- [x] pyproject.toml
- [x] poetry.lock
- [x] src/create_consolidated_table.py`src/create_consolidated_table.py` is the main file that will be used to create the consolidated table.
## Descrição do Projeto
Este projeto realiza a análise e transformação de dados da PNAD COVID-19 de maio a julho de 2020, utilizando PySpark para processamento de dados em larga escala e BigQuery como destino para armazenamento e análise posterior. O objetivo é consolidar os dados mensais em um único conjunto de dados transformado, aplicando mapeamentos específicos e renomeando colunas para uma melhor compreensão e análise.## Processo de Execução
### Configuração do Ambiente
- **Credenciais do Google Cloud**: Estabelece a autenticação para acessar o BigQuery através de um arquivo de credenciais JSON.
- **Sessão Spark com suporte ao BigQuery**: Inicializa a sessão do Spark configurando o ambiente para permitir a leitura e gravação de dados no BigQuery.### Leitura de Dados
- Os dados são lidos de tabelas específicas do BigQuery referentes aos meses de maio a julho de 2020 da pesquisa PNAD COVID-19.### Transformação de Dados
- **Seleção de Colunas Comuns**: Identifica e seleciona as colunas comuns entre os meses para garantir a consistência dos dados.
- **Renomeação de Colunas**: As colunas são renomeadas para termos mais descritivos, facilitando a compreensão dos dados.
- **Mapeamento de Valores**: Aplica transformações específicas para converter códigos em valores legíveis, como estados, gênero, escolaridade e a principal atividade do trabalho.### Consolidação dos Dados
- Os dados dos três meses são unificados em um único DataFrame para análise consolidada.### Carga de Dados
- O DataFrame transformado e consolidado é carregado no BigQuery para armazenamento e análises futuras.## Uso
Para executar este projeto, você precisará de um ambiente Python configurado com PySpark e acesso ao Google Cloud BigQuery. Configure as credenciais do Google Cloud e atualize os nomes das tabelas do BigQuery conforme necessário.
## Estrutura do Código
- Configuração inicial para conexão com BigQuery e leitura dos dados.
- Transformação dos dados, incluindo renomeação e mapeamento de valores.
- União dos DataFrames mensais em um único conjunto para análise.
- Carregamento do DataFrame resultante no BigQuery.Este projeto é uma ferramenta poderosa para transformar e analisar grandes volumes de dados, tirando proveito das capacidades do PySpark para processamento distribuído e do BigQuery para armazenamento e análise de dados em escala.