An open API service indexing awesome lists of open source software.

https://github.com/janascher/desafio-eng-de-dados-prouni

Desafio em grupo referente a trilha de estudos sobre Python da Alpha EdTech.
https://github.com/janascher/desafio-eng-de-dados-prouni

desafio engenharia-de-dados python

Last synced: 3 months ago
JSON representation

Desafio em grupo referente a trilha de estudos sobre Python da Alpha EdTech.

Awesome Lists containing this project

README

          



Alpha EdTech


Desafio Engenharia de Dados



🚧 ProUni 📚 Em construção... 🚀 🚧


## 🧐 Objetivo da equipe

O tema proposto pela equipe é realizar uma **análise do perfil dos beneficiários por sexo e raça/cor** para identificar se existe alguma disparidade na concessão de bolsas com base nessas características.

## ✨ Requisitos do desafio

Neste desafio, proposto pelo programa Alpha EdTech, os grupos são criados pelos professores e deverá ser realizado os processos de "coleta", 'limpeza", "análise" e "visualização" de dados da **Administração Pública brasileira** tendo como requisitos:

- Uso das informações coletadas de um site da administração pública:
- Uso da biblioteca `Pandas`;
- Este processo poderá estático, isto é, a coleta pode ser feita em apenas uma etapa sem a necessidade de processamento dinâmico de informações;
- A coleta normalmente será realizada processando-se um arquivo do tipo `CSV` por meio do uso do `Pandas`;
- Deve-se realizar um tratamento para remover os dados não relevantes para o fim da aplicação ("limpeza").
- Links de referências (não se restringindo a apenas estes):
- [https://brasil.io/datasets/](https://brasil.io/datasets/)
- [https://dados.gov.br/home](https://dados.gov.br/home)
- Uso de banco de dados relacional:
- Uso do Postgres;
- Mínimo de 5 tabelas;
- As tabelas principais devem ter no mínimo 10 mil registros cada;
- Não há a necessidade de uso de Spark, bastando o uso de Pandas;
- Utilizar comandos SQL para o cruzamento das informações.
- Implementar e detalhar um processamento segmentado em no mínimo 3 zonas:
- _raw_ (dado cru);
- _curated_ (dado limpo); e
- _analytics_ (dado analisado).
- Montagem do _data warehouse_ com as informações das tabelas:
- Devem utilizar algoritmos que demonstram a habilidade em estrutura de dados e complexidade de algoritmos.
- Visualização dos dados analisados usando `Dash`;
- Uso da análise estatística dos dados usando `Plotly`:
- Uso de estatística básica;
- Não é necessário o uso de regressões.

## 📌 Regras da equipe

### Sobre as atividades:

- Atualizar a versão atual com a remota;
- Criar ou voltar para _branch_;
- Adicionar e escolher uma atividade no Trello;
- Ao concluir uma atividade, abrir uma PR (_pull request_);
- Após atualizar na _branch main_, marcar a atividade como concluída no Trello.

### Sobre Pull Request (PR):

1. É proibido realizar _commits_ e _push_ na _branch main_;
2. Ir para _branch main_, realizar _fetch_ e _merge_ e com a _origin/main_;
3. Retornar a sua _topic branch_ e realizar _merge_ com a _main_. **Observação: resolver os conflitos caso exista**;
4. Fazer _push_ com repositório remoto;
5. Abrir a PR e solicitar via _Whatsapp_ para que os demais possam revisar;
6. Pelo menos um revisor deve aprovar ou solicitar explicitamente quais correções devem ser feitas;
7. Somente após todas as correções terem sido realizadas e, pelo menos um revisor ter aprovado, que o responsável da PR pode realizar o _merge_ na _main_.
**Observação: caso na hora de realizar o _merge_ o GitHub acusar algum conflito, a PR deve ir para o estado de _draft_ e retornar para o passo 2**;
8. Após concluir uma PR, fica ao critério da pessoa em apagar ou não a _topic branch_.

## 🛠 Tecnologias

#### **Dependências**

- **[Python](https://docs.python.org/pt-br/3/tutorial/index.html)**
- **[Poetry - Python dependency management and packaging made easy](https://python-poetry.org/)**
- **[Pandas documentation](https://pandas.pydata.org/pandas-docs/stable/index.html)**
- **[PostgreSQL: The world's most advanced open source database](https://www.postgresql.org/)**
- **[Plotly Python Graphing Library](https://plotly.com/python/)**
- **[Dash for Python | Plotly](https://dash.plotly.com/tutorial)**

#### **Utilitários**

- Comunicação: **[WhatsApp](https://www.whatsapp.com/?lang=pt_br)**, **[Discord](https://discord.com/)**
- Gerenciamento de projeto: **[Trello](https://trello.com/pt-BR)**
- Markdown: **[StackEdit](https://stackedit.io/)**
- Ícones: **[Emojipedia](https://emojipedia.org/)**

## 🔗 Referências

- [Guia Git e Github - Boas Práticas](https://diegocoliveira.github.io/equipe10-dev-html/index.html);
- [Guia com alguns comandos para trabalhar com Git e GitHub](https://github.com/janascher/guia-git-github).

## 📝 Licença

Esse repositório está licenciado pela **Mit License**. Para mais informações detalhadas, leia o arquivo [License](https://github.com/janascher/desafio-python-firevision/blob/main/LICENSE) contido nesse repositório.

## 👨‍💻 Equipe



Akira Couzack
Akira Couzack

🚀



Antônio dos Santos
Antônio dos Santos

🚀



Gustavo Souza
Gustavo Souza

🚀



Janaína Scher
Janaína Scher

🚀



Vitória Feitosa
Vitória Feitosa

🚀