Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/kalelmartinho/7daysofcode

Esse projeto tem como objetivo experienciar o dia a dia de um cientista de dados. É um desafio com duração de uma semana, proposto pela Alura.
https://github.com/kalelmartinho/7daysofcode

7daysofcode alura data-cleaning data-science data-visualization forecasting machine-learning

Last synced: about 20 hours ago
JSON representation

Esse projeto tem como objetivo experienciar o dia a dia de um cientista de dados. É um desafio com duração de uma semana, proposto pela Alura.

Awesome Lists containing this project

README

        

![](https://github.com/kalelmartinho/7daysOfCode/blob/master/7daysOfCode.png?raw=true)

---

Projeto por *Kalel Leonardo Martinho*

# [#7DaysOfCode - Ciência de Dados](https://7daysofcode.io/)

---

### 📝 Introdução do projeto:

Os 7 Days de Ciência de Dados é projeto para passar por todo ciclo de coleta, limpeza, tratamento, exploração e análise de dados. Explorando uma base de dados do governo, trazer esses dados para o ambiente de análise utilizar SQL, Python, Pandas, Plotly entre outra ferramentas comuns no dia a dia de alguém que trabalha na área. No final, você vai ter uma visão ampla de diversos processos dentro da área e conseguirá entender como cada uma das etapas se encaixa no processo de análise de dados.

---

### Tecnologias utilizadas

- Python 3
- Jupyter Notebook
- Pandas
- Sci-kit Learn
- Matplotlib
- Seaborn
- SciPy
- NumPy
- Flask

---

### Etapas:

| Dias | Etapas | Dados |
:---:|:----|:----|
| Dia 1 | [Data Cleaning](https://github.com/kalelmartinho/7daysOfCode/blob/master/ceaps/data_cleaning.ipynb) | [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) |
| Dia 2 | [Storytelling](https://github.com/kalelmartinho/7daysOfCode/blob/master/ceaps/data_visualization.ipynb) | [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) |
| Dia 3 | [Forecasting](https://github.com/kalelmartinho/7daysOfCode/blob/master/ceaps/forecasting.ipynb) | [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) |
| Dia 4 | [Machine Learning](https://github.com/kalelmartinho/7daysOfCode/blob/master/movie_lens/machine_learning.ipynb) | [MovieLens](https://grouplens.org/datasets/movielens/100k/) |
| Dia 5 | [API](https://github.com/kalelmartinho/7daysOfCode/blob/master/movie_lens/api.py) | [MovieLens](https://grouplens.org/datasets/movielens/100k/) |
| Dia 5 | [Split Testing](https://github.com/kalelmartinho/7daysOfCode/blob/master/test_ab/split_testing.ipynb) | [Test A/B](https://www.kaggle.com/datasets/zhangluyuan/ab-testing) |
| Dia 7 | [Documentation](https://github.com/kalelmartinho/7daysOfCode/blob/master/README.MD) | N/A |

---

- [x] Aplicar técnicas de limpeza de dados
- [x] Explorar e visualizar os dados limpos
- [x] Construir um modelo de predição
- [x] Criar um modelo para um sistema de recomendação
- [x] Disponibilizar o sistema de recomendação
- [x] Documentar e publicar o projeto

---

### Fonte / Referência

Este projeto surgiu com o desafio [#7DaysOfCode](https://7daysofcode.io/) proposto pela [Alura](https://www.alura.com.br/) com a ideia de "como praticar o que tenho aprendido?".

---

### 📝 Descrição do projeto:

Os dias 1, 2 e 3 do projeto teve como objetivo explorar o conjunto de dados abertos que está disponível no portal do [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) (Cota para Exercício da Atividade Parlamentar dos Senadores),
que contém todos os gastos que senadores brasileiros declararam, divididos por ano. Esse conjunto de dados já criou várias iniciativas interessantes,
como a [Operação Serenata de Amor](https://serenata.ai/), que aplica Inteligência Artificial para analisar gastos de deputados brasileiros, e que já foi capaz de identificar vários usos indevidos do dinheiro público.

Os dias 4 e 5 teve como objetivo criar um sistema de recomendação a partir do [MovieLens](https://grouplens.org/datasets/movielens/100k/), que é um dataset clássico usado em problemas de sistema de recomendação. Ele é usado até em artigos científicos para validar novos tipos de algoritmos de recomendação.

O dia 6 o desafio eras simular que já executei o Teste A/B no dataset entregue e que está com os resultados em mãos, executar um teste de hipótese nele para validar se a versão nova do site (com o sistema de recomendação) é melhor que a antiga.

Por fim, no sétimo dia, o desafio era subir e documentar o projeto aqui, no GitHub e em meu portfólio.

---

### Dificuldades

Dado o nível de complexidade de algumas etapas do desafios, durante o desenvolvimento do projeto encontrei obstáculos. Como estou no processo familiarização e aprendizado com algumas ferramentas e tecnologias, constantamente me senti desafiado, em alguns momentos tendo que dedicar mais tempo para estudar a documentação de algumas bibliotecas e assistir video-aulas, em outros procurei por soluções de outros participantes no GitHub, que foram de grande ajuda para o resultado final desse projeto.

Por isso, se você participou ou está participando desse desafio, sinta-se livre para utilizar esse projeto como referência.

---

### Minhas motivacões

Após recém concluir cursos no campo de Data Science, me incentivei a consolidar meu aprendizado, optei então por procurar desafios e assim conheci o #7daysOfCode.

---

### Considerações finais

Ao longo dos meus estudos pretendo revisitar esse projeto, encontrar novas soluções e melhorias para algumas das etapas do projeto.

---

## 📊 [Kalel Leonardo Martinho](http://www.kalel.me/)

---