Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/teomewhy/ds-points
Projeto de Dados para Data Science do início ao fim
https://github.com/teomewhy/ds-points
Last synced: 1 day ago
JSON representation
Projeto de Dados para Data Science do início ao fim
- Host: GitHub
- URL: https://github.com/teomewhy/ds-points
- Owner: TeoMeWhy
- License: other
- Created: 2024-05-27T12:02:09.000Z (8 months ago)
- Default Branch: main
- Last Pushed: 2024-08-08T15:27:23.000Z (5 months ago)
- Last Synced: 2025-01-02T09:10:01.953Z (9 days ago)
- Language: Python
- Size: 71.3 KB
- Stars: 49
- Watchers: 2
- Forks: 24
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Data Science & Points
[![CC BY-NC-SA 4.0][cc-by-nc-sa-shield]][cc-by-nc-sa]
Projeto de aplicação em Data Science do início ao fim. Um pipeline completo para solução de dados.
- [Sobre](#sobre)
- [Contexto](#contexto)
- [Etapas](#etapas)
- [Pré-requisitos](#pré-requisitos)
- [Desafio](#desafio)
- [Sobre o autor](#sobre-o-autor)
- [Como apoiar](#apoie-essa-inciativa)Este material está sob a licença: [Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License][cc-by-nc-sa].
[![CC BY-NC-SA 4.0][cc-by-nc-sa-image]][cc-by-nc-sa]
[cc-by-nc-sa]: http://creativecommons.org/licenses/by-nc-sa/4.0/
[cc-by-nc-sa-image]: https://licensebuttons.net/l/by-nc-sa/4.0/88x31.png
[cc-by-nc-sa-shield]: https://img.shields.io/badge/License-CC%20BY--NC--SA%204.0-lightgrey.svg## Sobre
Coinstruimos uma solução de Data Science, aplicando técnicas de Machine Learning para um problema de negócios específico.Tudo foi desenvolvido ao vivo no canal [Téo Me Why](https://teomewhy.org) e disponibilizado para nossos Subs da Twitch e Membros do YouTube.
Assina aqui: [Twitch](https://www.twitch.tv/collections/jg9itHOO1ReLcw) / [YouTube](https://www.youtube.com/playlist?list=PLvlkVRRKOYFQOkwDvfgCvKi9-I1jQXiy7)
### Contexto
Temos os dados de nossos usuários de sistema de pontos do canal. Com base nisso, desejamos identificar ações e produtos de dados que aumentem o engajamento de nossos usuários.Assim, pensamos em construir um projeto de Data Science que aborde todas as etapas necessárias para construção de um produto de dados.
### Etapas
- Construção de Feature Store;
- Processamento das safras;
- Construção da variável resposta;
- Construção da ABT (*Analytical Base Table*);
- Treinamento de modelos preditivos;
- Deploy;### Pré-requisitos
#### Disciplinas
Para ter uma melhor experiência com nosso projeto, vale a pena conferir as seguintes playlists totalmente gratuitas:
- [Git/GitHub](https://www.youtube.com/playlist?list=PLvlkVRRKOYFQ3cfYPjLeQ0KvrQ8bG5H11)
- [Python](https://www.youtube.com/playlist?list=PLvlkVRRKOYFRXdquucikNbwYeFzzzYIGb)
- [Pandas](https://www.youtube.com/playlist?list=PLvlkVRRKOYFSl-XCxNQ1u3uOLvDnYxupG)
- [Estatística](https://www.youtube.com/playlist?list=PLvlkVRRKOYFSWIyhwq4Nu8sNd_GfOi1tj)
- [Machine Learning](https://www.youtube.com/playlist?list=PLvlkVRRKOYFTXcpttQSZmv1wDg7F3uH7o)#### Materiais
- :arrow_lower_right: [Baixe os dados aqui!](https://drive.google.com/drive/folders/1JLzofrtaVQdo0PdUysNWjNsBdAaI21EJ?usp=sharing) :arrow_lower_left:
- :arrow_lower_right: [Acesso a Apresentação aqui!](https://docs.google.com/presentation/d/1zMTsaAeoMX9ico13PVd7_tOffE8kUH-IOA5kCjSYIx8/edit?usp=sharing) :arrow_lower_left:#### Softwares
- [Python/Anaconda](anaconda.com/download)
- [VSCode](https://code.visualstudio.com/download)
- [Extensão Python](https://marketplace.visualstudio.com/items?itemName=ms-python.python)
- [Extensão Jupyter](https://marketplace.visualstudio.com/items?itemName=ms-toolsai.jupyter)
- [Extensão SQLite](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite)
- [Extensão SQLTools SQLite](https://marketplace.visualstudio.com/items?itemName=mtxr.sqltools-driver-sqlite)#### Setup
Com as ferramentas necessários instaladas, podemos criar nosso *enviroment* a partir do Anaconda (conda):
```bash
conda create --name ds_points python=3.
conda activate ds_pointspip install -r requirements.txt
```## Desafio
Durante o nosso curso realizamos o treinamento de um modelo Random Forest com GridSearch. A partir deste modelo, obtivemos as seguintes métricas:
| Base | Acurárica | Curva Roc | Precisão | Recall |
| :---: | :---: | :---: | ---: | :---: |
| **Train** | 0.819401 | 0.913987 | 0.770598 | 0.845745 |
| **Test** | 0.747634 | 0.817416 | 0.684848 | 0.801418 |
| **Oot** | 0.741602 | 0.814528 | 0.669291 | 0.594406 |Utilize os dados [deste link](https://docs.google.com/spreadsheets/d/1zcP7CKDcqEkhK2b_g27yGY226ZaX_kX4UxBsNQfM9RQ/edit?usp=sharing) para tentar melhorar a performance do modelo na base Out of Time (oot).
Considere:
```python
target = 'flChurn'
features = df_train.columns[3:].tolist()# Dataframe oot
df_oot = df[df['dtRef']==df['dtRef'].max()]# Dataframe de treino
df_train = df[df['dtRef']
## Apoie essa inciativa!
Realizamos um trabalho de educação na área de dados de forma gratuita, então todo apoio é importante. Confira as diferentes maneiras de nos apoiar:
- 💵 Chave Pix: [email protected]
- 💶 LivePix: [livepix.gg/teomewhy](livepix.gg/teomewhy)
- 💷 GitHub Sponsors: [github.com/sponsors/TeoMeWhy](github.com/sponsors/TeoMeWhy)
- 💴 ApoiaSe: [apoia.se/teomewhy](apoia.se/teomewhy)
- 🎥 Membro no YouTube: [youtube.com/@teomewhy/membership](https://www.youtube.com/@teomewhy/membership)
- 🎮 Sub na Twitch: [twitch.tv/teomewhy](https://www.twitch.tv/teomewhy)
- 💌 Newsletter: [teomewhy.substack.com](https://teomewhy.substack.com/)