https://github.com/janascher/desafio-eng-de-dados-prouni
Desafio em grupo referente a trilha de estudos sobre Python da Alpha EdTech.
https://github.com/janascher/desafio-eng-de-dados-prouni
desafio engenharia-de-dados python
Last synced: 3 months ago
JSON representation
Desafio em grupo referente a trilha de estudos sobre Python da Alpha EdTech.
- Host: GitHub
- URL: https://github.com/janascher/desafio-eng-de-dados-prouni
- Owner: janascher
- License: mit
- Created: 2023-06-27T13:06:00.000Z (over 2 years ago)
- Default Branch: main
- Last Pushed: 2023-07-07T16:45:30.000Z (over 2 years ago)
- Last Synced: 2025-04-25T18:53:01.684Z (6 months ago)
- Topics: desafio, engenharia-de-dados, python
- Language: Python
- Homepage:
- Size: 6.16 MB
- Stars: 3
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
## 🧐 Objetivo da equipe
O tema proposto pela equipe é realizar uma **análise do perfil dos beneficiários por sexo e raça/cor** para identificar se existe alguma disparidade na concessão de bolsas com base nessas características.
## ✨ Requisitos do desafio
Neste desafio, proposto pelo programa Alpha EdTech, os grupos são criados pelos professores e deverá ser realizado os processos de "coleta", 'limpeza", "análise" e "visualização" de dados da **Administração Pública brasileira** tendo como requisitos:
- Uso das informações coletadas de um site da administração pública:
- Uso da biblioteca `Pandas`;
- Este processo poderá estático, isto é, a coleta pode ser feita em apenas uma etapa sem a necessidade de processamento dinâmico de informações;
- A coleta normalmente será realizada processando-se um arquivo do tipo `CSV` por meio do uso do `Pandas`;
- Deve-se realizar um tratamento para remover os dados não relevantes para o fim da aplicação ("limpeza").
- Links de referências (não se restringindo a apenas estes):
- [https://brasil.io/datasets/](https://brasil.io/datasets/)
- [https://dados.gov.br/home](https://dados.gov.br/home)
- Uso de banco de dados relacional:
- Uso do Postgres;
- Mínimo de 5 tabelas;
- As tabelas principais devem ter no mínimo 10 mil registros cada;
- Não há a necessidade de uso de Spark, bastando o uso de Pandas;
- Utilizar comandos SQL para o cruzamento das informações.
- Implementar e detalhar um processamento segmentado em no mínimo 3 zonas:
- _raw_ (dado cru);
- _curated_ (dado limpo); e
- _analytics_ (dado analisado).
- Montagem do _data warehouse_ com as informações das tabelas:
- Devem utilizar algoritmos que demonstram a habilidade em estrutura de dados e complexidade de algoritmos.
- Visualização dos dados analisados usando `Dash`;
- Uso da análise estatística dos dados usando `Plotly`:
- Uso de estatística básica;
- Não é necessário o uso de regressões.
## 📌 Regras da equipe
### Sobre as atividades:
- Atualizar a versão atual com a remota;
- Criar ou voltar para _branch_;
- Adicionar e escolher uma atividade no Trello;
- Ao concluir uma atividade, abrir uma PR (_pull request_);
- Após atualizar na _branch main_, marcar a atividade como concluída no Trello.
### Sobre Pull Request (PR):
1. É proibido realizar _commits_ e _push_ na _branch main_;
2. Ir para _branch main_, realizar _fetch_ e _merge_ e com a _origin/main_;
3. Retornar a sua _topic branch_ e realizar _merge_ com a _main_. **Observação: resolver os conflitos caso exista**;
4. Fazer _push_ com repositório remoto;
5. Abrir a PR e solicitar via _Whatsapp_ para que os demais possam revisar;
6. Pelo menos um revisor deve aprovar ou solicitar explicitamente quais correções devem ser feitas;
7. Somente após todas as correções terem sido realizadas e, pelo menos um revisor ter aprovado, que o responsável da PR pode realizar o _merge_ na _main_.
**Observação: caso na hora de realizar o _merge_ o GitHub acusar algum conflito, a PR deve ir para o estado de _draft_ e retornar para o passo 2**;
8. Após concluir uma PR, fica ao critério da pessoa em apagar ou não a _topic branch_.
## 🛠 Tecnologias
#### **Dependências**
- **[Python](https://docs.python.org/pt-br/3/tutorial/index.html)**
- **[Poetry - Python dependency management and packaging made easy](https://python-poetry.org/)**
- **[Pandas documentation](https://pandas.pydata.org/pandas-docs/stable/index.html)**
- **[PostgreSQL: The world's most advanced open source database](https://www.postgresql.org/)**
- **[Plotly Python Graphing Library](https://plotly.com/python/)**
- **[Dash for Python | Plotly](https://dash.plotly.com/tutorial)**
#### **Utilitários**
- Comunicação: **[WhatsApp](https://www.whatsapp.com/?lang=pt_br)**, **[Discord](https://discord.com/)**
- Gerenciamento de projeto: **[Trello](https://trello.com/pt-BR)**
- Markdown: **[StackEdit](https://stackedit.io/)**
- Ícones: **[Emojipedia](https://emojipedia.org/)**
## 🔗 Referências
- [Guia Git e Github - Boas Práticas](https://diegocoliveira.github.io/equipe10-dev-html/index.html);
- [Guia com alguns comandos para trabalhar com Git e GitHub](https://github.com/janascher/guia-git-github).
## 📝 Licença
Esse repositório está licenciado pela **Mit License**. Para mais informações detalhadas, leia o arquivo [License](https://github.com/janascher/desafio-python-firevision/blob/main/LICENSE) contido nesse repositório.
## 👨💻 Equipe

Akira Couzack
🚀

Antônio dos Santos
🚀

Gustavo Souza
🚀

Janaína Scher
🚀

Vitória Feitosa
🚀