Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/kalelmartinho/7daysofcode
Esse projeto tem como objetivo experienciar o dia a dia de um cientista de dados. É um desafio com duração de uma semana, proposto pela Alura.
https://github.com/kalelmartinho/7daysofcode
7daysofcode alura data-cleaning data-science data-visualization forecasting machine-learning
Last synced: about 20 hours ago
JSON representation
Esse projeto tem como objetivo experienciar o dia a dia de um cientista de dados. É um desafio com duração de uma semana, proposto pela Alura.
- Host: GitHub
- URL: https://github.com/kalelmartinho/7daysofcode
- Owner: kalelmartinho
- License: mit
- Created: 2022-04-28T18:10:38.000Z (over 2 years ago)
- Default Branch: master
- Last Pushed: 2022-04-28T18:23:06.000Z (over 2 years ago)
- Last Synced: 2024-01-29T16:32:39.852Z (10 months ago)
- Topics: 7daysofcode, alura, data-cleaning, data-science, data-visualization, forecasting, machine-learning
- Language: Jupyter Notebook
- Homepage:
- Size: 10.5 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.MD
- License: LICENSE.md
Awesome Lists containing this project
README
![](https://github.com/kalelmartinho/7daysOfCode/blob/master/7daysOfCode.png?raw=true)
---
Projeto por *Kalel Leonardo Martinho*
# [#7DaysOfCode - Ciência de Dados](https://7daysofcode.io/)
---
### 📝 Introdução do projeto:
Os 7 Days de Ciência de Dados é projeto para passar por todo ciclo de coleta, limpeza, tratamento, exploração e análise de dados. Explorando uma base de dados do governo, trazer esses dados para o ambiente de análise utilizar SQL, Python, Pandas, Plotly entre outra ferramentas comuns no dia a dia de alguém que trabalha na área. No final, você vai ter uma visão ampla de diversos processos dentro da área e conseguirá entender como cada uma das etapas se encaixa no processo de análise de dados.
---
### Tecnologias utilizadas
- Python 3
- Jupyter Notebook
- Pandas
- Sci-kit Learn
- Matplotlib
- Seaborn
- SciPy
- NumPy
- Flask---
### Etapas:
| Dias | Etapas | Dados |
:---:|:----|:----|
| Dia 1 | [Data Cleaning](https://github.com/kalelmartinho/7daysOfCode/blob/master/ceaps/data_cleaning.ipynb) | [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) |
| Dia 2 | [Storytelling](https://github.com/kalelmartinho/7daysOfCode/blob/master/ceaps/data_visualization.ipynb) | [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) |
| Dia 3 | [Forecasting](https://github.com/kalelmartinho/7daysOfCode/blob/master/ceaps/forecasting.ipynb) | [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) |
| Dia 4 | [Machine Learning](https://github.com/kalelmartinho/7daysOfCode/blob/master/movie_lens/machine_learning.ipynb) | [MovieLens](https://grouplens.org/datasets/movielens/100k/) |
| Dia 5 | [API](https://github.com/kalelmartinho/7daysOfCode/blob/master/movie_lens/api.py) | [MovieLens](https://grouplens.org/datasets/movielens/100k/) |
| Dia 5 | [Split Testing](https://github.com/kalelmartinho/7daysOfCode/blob/master/test_ab/split_testing.ipynb) | [Test A/B](https://www.kaggle.com/datasets/zhangluyuan/ab-testing) |
| Dia 7 | [Documentation](https://github.com/kalelmartinho/7daysOfCode/blob/master/README.MD) | N/A |---
- [x] Aplicar técnicas de limpeza de dados
- [x] Explorar e visualizar os dados limpos
- [x] Construir um modelo de predição
- [x] Criar um modelo para um sistema de recomendação
- [x] Disponibilizar o sistema de recomendação
- [x] Documentar e publicar o projeto---
### Fonte / Referência
Este projeto surgiu com o desafio [#7DaysOfCode](https://7daysofcode.io/) proposto pela [Alura](https://www.alura.com.br/) com a ideia de "como praticar o que tenho aprendido?".
---
### 📝 Descrição do projeto:
Os dias 1, 2 e 3 do projeto teve como objetivo explorar o conjunto de dados abertos que está disponível no portal do [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) (Cota para Exercício da Atividade Parlamentar dos Senadores),
que contém todos os gastos que senadores brasileiros declararam, divididos por ano. Esse conjunto de dados já criou várias iniciativas interessantes,
como a [Operação Serenata de Amor](https://serenata.ai/), que aplica Inteligência Artificial para analisar gastos de deputados brasileiros, e que já foi capaz de identificar vários usos indevidos do dinheiro público.Os dias 4 e 5 teve como objetivo criar um sistema de recomendação a partir do [MovieLens](https://grouplens.org/datasets/movielens/100k/), que é um dataset clássico usado em problemas de sistema de recomendação. Ele é usado até em artigos científicos para validar novos tipos de algoritmos de recomendação.
O dia 6 o desafio eras simular que já executei o Teste A/B no dataset entregue e que está com os resultados em mãos, executar um teste de hipótese nele para validar se a versão nova do site (com o sistema de recomendação) é melhor que a antiga.
Por fim, no sétimo dia, o desafio era subir e documentar o projeto aqui, no GitHub e em meu portfólio.
---
### Dificuldades
Dado o nível de complexidade de algumas etapas do desafios, durante o desenvolvimento do projeto encontrei obstáculos. Como estou no processo familiarização e aprendizado com algumas ferramentas e tecnologias, constantamente me senti desafiado, em alguns momentos tendo que dedicar mais tempo para estudar a documentação de algumas bibliotecas e assistir video-aulas, em outros procurei por soluções de outros participantes no GitHub, que foram de grande ajuda para o resultado final desse projeto.
Por isso, se você participou ou está participando desse desafio, sinta-se livre para utilizar esse projeto como referência.
---
### Minhas motivacões
Após recém concluir cursos no campo de Data Science, me incentivei a consolidar meu aprendizado, optei então por procurar desafios e assim conheci o #7daysOfCode.
---
### Considerações finais
Ao longo dos meus estudos pretendo revisitar esse projeto, encontrar novas soluções e melhorias para algumas das etapas do projeto.
---
## 📊 [Kalel Leonardo Martinho](http://www.kalel.me/)
---