{"id":21524740,"url":"https://github.com/teomewhy/ds-points","last_synced_at":"2025-04-23T15:52:34.318Z","repository":{"id":241288952,"uuid":"806545841","full_name":"TeoMeWhy/ds-points","owner":"TeoMeWhy","description":"Projeto de Dados para Data Science do início ao fim","archived":false,"fork":false,"pushed_at":"2024-08-08T15:27:23.000Z","size":73,"stargazers_count":51,"open_issues_count":1,"forks_count":22,"subscribers_count":2,"default_branch":"main","last_synced_at":"2025-04-15T18:07:16.083Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"other","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/TeoMeWhy.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null},"funding":{"github":"TeoMeWhy"}},"created_at":"2024-05-27T12:02:09.000Z","updated_at":"2025-04-07T15:11:18.000Z","dependencies_parsed_at":"2024-06-21T12:11:52.211Z","dependency_job_id":"0450d2c7-8e77-4aab-b2e1-b8222de81f98","html_url":"https://github.com/TeoMeWhy/ds-points","commit_stats":null,"previous_names":["teomewhy/ds-points"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Fds-points","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Fds-points/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Fds-points/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Fds-points/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/TeoMeWhy","download_url":"https://codeload.github.com/TeoMeWhy/ds-points/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":250467089,"owners_count":21435442,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-24T01:28:54.190Z","updated_at":"2025-04-23T15:52:34.298Z","avatar_url":"https://github.com/TeoMeWhy.png","language":"Python","funding_links":["https://github.com/sponsors/TeoMeWhy"],"categories":[],"sub_categories":[],"readme":"# Data Science \u0026 Points\n\n[![CC BY-NC-SA 4.0][cc-by-nc-sa-shield]][cc-by-nc-sa]\n\n\u003cimg src=\"https://i.ibb.co/cc3d5Lq/teomewhy-A-little-child-wizard-wearing-a-purple-cloak-using-h-d359021c-4186-4e11-9693-a6e4f1b1b7c5-3.png\" alt=\"teomewhy-A-little-child-wizard-wearing-a-purple-cloak-using-h-d359021c-4186-4e11-9693-a6e4f1b1b7c5-3\" border=\"0\" width=800\u003e\n\nProjeto de aplicação em Data Science do início ao fim. Um pipeline completo para solução de dados.\n\n- [Sobre](#sobre)\n  - [Contexto](#contexto)\n  - [Etapas](#etapas)\n  - [Pré-requisitos](#pré-requisitos)\n- [Desafio](#desafio)\n- [Sobre o autor](#sobre-o-autor)\n- [Como apoiar](#apoie-essa-inciativa)\n\nEste material está sob a licença: [Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License][cc-by-nc-sa].\n\n[![CC BY-NC-SA 4.0][cc-by-nc-sa-image]][cc-by-nc-sa]\n\n[cc-by-nc-sa]: http://creativecommons.org/licenses/by-nc-sa/4.0/\n[cc-by-nc-sa-image]: https://licensebuttons.net/l/by-nc-sa/4.0/88x31.png\n[cc-by-nc-sa-shield]: https://img.shields.io/badge/License-CC%20BY--NC--SA%204.0-lightgrey.svg\n\n## Sobre\nCoinstruimos uma solução de Data Science, aplicando técnicas de Machine Learning para um problema de negócios específico.\n\nTudo foi desenvolvido ao vivo no canal [Téo Me Why](https://teomewhy.org) e disponibilizado para nossos Subs da Twitch e Membros do YouTube.\n\nAssina aqui: [Twitch](https://www.twitch.tv/collections/jg9itHOO1ReLcw) / [YouTube](https://www.youtube.com/playlist?list=PLvlkVRRKOYFQOkwDvfgCvKi9-I1jQXiy7)\n\n### Contexto\nTemos os dados de nossos usuários de sistema de pontos do canal. Com base nisso, desejamos identificar ações e produtos de dados que aumentem o engajamento de nossos usuários.\n\nAssim, pensamos em construir um projeto de Data Science que aborde todas as etapas necessárias para construção de um produto de dados.\n\n### Etapas\n- Construção de Feature Store;\n- Processamento das safras;\n- Construção da variável resposta;\n- Construção da ABT (*Analytical Base Table*);\n- Treinamento de modelos preditivos;\n- Deploy;\n\n### Pré-requisitos\n\n#### Disciplinas\n\nPara ter uma melhor experiência com nosso projeto, vale a pena conferir as seguintes playlists totalmente gratuitas:\n\n- [Git/GitHub](https://www.youtube.com/playlist?list=PLvlkVRRKOYFQ3cfYPjLeQ0KvrQ8bG5H11)\n- [Python](https://www.youtube.com/playlist?list=PLvlkVRRKOYFRXdquucikNbwYeFzzzYIGb)\n- [Pandas](https://www.youtube.com/playlist?list=PLvlkVRRKOYFSl-XCxNQ1u3uOLvDnYxupG)\n- [Estatística](https://www.youtube.com/playlist?list=PLvlkVRRKOYFSWIyhwq4Nu8sNd_GfOi1tj)\n- [Machine Learning](https://www.youtube.com/playlist?list=PLvlkVRRKOYFTXcpttQSZmv1wDg7F3uH7o)\n\n#### Materiais\n\n- :arrow_lower_right: [Baixe os dados aqui!](https://drive.google.com/drive/folders/1JLzofrtaVQdo0PdUysNWjNsBdAaI21EJ?usp=sharing) :arrow_lower_left:\n- :arrow_lower_right: [Acesso a Apresentação aqui!](https://docs.google.com/presentation/d/1zMTsaAeoMX9ico13PVd7_tOffE8kUH-IOA5kCjSYIx8/edit?usp=sharing) :arrow_lower_left:\n\n#### Softwares\n- [Python/Anaconda](anaconda.com/download)\n- [VSCode](https://code.visualstudio.com/download)\n  - [Extensão Python](https://marketplace.visualstudio.com/items?itemName=ms-python.python)\n  - [Extensão Jupyter](https://marketplace.visualstudio.com/items?itemName=ms-toolsai.jupyter)\n  - [Extensão SQLite](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite)\n  - [Extensão SQLTools SQLite](https://marketplace.visualstudio.com/items?itemName=mtxr.sqltools-driver-sqlite)\n\n#### Setup\n\nCom as ferramentas necessários instaladas, podemos criar nosso *enviroment* a partir do Anaconda (conda):\n\n```bash\nconda create --name ds_points python=3.\nconda activate ds_points\n\npip install -r requirements.txt\n```\n\n## Desafio\n\nDurante o nosso curso realizamos o treinamento de um modelo Random Forest com GridSearch. A partir deste modelo, obtivemos as seguintes métricas:\n\n| Base  | Acurárica | Curva Roc |\tPrecisão | Recall   |\n| :---: | :---:     | :---:     | ---:     | :---:    |\n| **Train** | 0.819401  | 0.913987  |\t0.770598 | 0.845745 |\n| **Test**  | 0.747634  | 0.817416  |\t0.684848 | 0.801418 |\n| **Oot**   | 0.741602  | 0.814528  |\t0.669291 | 0.594406 |\n\nUtilize os dados [deste link](https://docs.google.com/spreadsheets/d/1zcP7CKDcqEkhK2b_g27yGY226ZaX_kX4UxBsNQfM9RQ/edit?usp=sharing) para tentar melhorar a performance do modelo na base Out of Time (oot).\n\nConsidere:\n\n```python\n\ntarget = 'flChurn'\nfeatures = df_train.columns[3:].tolist()\n\n# Dataframe oot\ndf_oot = df[df['dtRef']==df['dtRef'].max()]\n\n# Dataframe de treino\ndf_train = df[df['dtRef']\u003cdf['dtRef'].max()]\n\nX_train, X_test, y_train, y_test = model_selection.train_test_split(df_train[features],\n                                                                    df_train[target],\n                                                                    random_state=42,\n                                                                    train_size=0.8,\n                                                                    stratify=df_train[target])\n\n```\n\n## Sobre o autor\n\nTéo é um entusiasta do universo de dados, traz consigo uma rica jornada nas esferas de Data Science e Analytics. Como líder, destacou-se na condução estratégica de equipes, liderando pessoas e projetos de Advanced Analytics. Sua visão inovadora, não apenas transformou a cultura organizacional, mas também impulsionou a implementação de diversos projetos de dados, integrando de maneira eficiente áreas cruciais da empresa.\n\nAlém de suas realizações profissionais, Teo nutre uma paixão dedicada à democratização do conhecimento na área de dados e tecnologia. Por meio de sua iniciativa educacional, Téo Me Why, ele compartilha insights valiosos, promove treinamentos envolventes e disponibiliza material autoral, alcançando uma audiência global. Sua abordagem acessível e inspiradora tem impactado milhares de entusiastas, tornando o aprendizado sobre dados mais inclusivo e estimulante.\n\n\u003cdiv\u003e \n  \u003ca href=\"https://instagram.com/teomewhy\" target=\"_blank\"\u003e\u003cimg src=\"https://img.shields.io/badge/-Instagram-%23E4405F?style=for-the-badge\u0026logo=instagram\u0026logoColor=white\" target=\"_blank\"\u003e\u003c/a\u003e\n  \u003ca href=\"https://www.linkedin.com/in/teocalvo/\" target=\"_blank\"\u003e\u003cimg src=\"https://img.shields.io/badge/-LinkedIn-%230077B5?style=for-the-badge\u0026logo=linkedin\u0026logoColor=white\" target=\"_blank\"\u003e\u003c/a\u003e \n  \u003ca href=\"https://www.twitch.tv/teomewhy\" target=\"_blank\"\u003e\u003cimg src=\"https://img.shields.io/badge/Twitch-9146FF?style=for-the-badge\u0026logo=twitch\u0026logoColor=white\" target=\"_blank\"\u003e\u003c/a\u003e\n  \u003ca href=\"https://www.youtube.com/channel/UC-Xa9J9-B4jBOoBNIHkMMKA\" target=\"_blank\"\u003e\u003cimg src=\"https://img.shields.io/badge/YouTube-FF0000?style=for-the-badge\u0026logo=youtube\u0026logoColor=white\" target=\"_blank\"\u003e\u003c/a\u003e\n\u003c/div\u003e\n\n## Apoie essa inciativa!\n\nRealizamos um trabalho de educação na área de dados de forma gratuita, então todo apoio é importante. Confira as diferentes maneiras de nos apoiar:\n\n- 💵 Chave Pix: pix@teomewhy.org\n- 💶 LivePix: [livepix.gg/teomewhy](livepix.gg/teomewhy)\n- 💷 GitHub Sponsors: [github.com/sponsors/TeoMeWhy](github.com/sponsors/TeoMeWhy)\n- 💴 ApoiaSe: [apoia.se/teomewhy](apoia.se/teomewhy)\n- 🎥 Membro no YouTube: [youtube.com/@teomewhy/membership](https://www.youtube.com/@teomewhy/membership)\n- 🎮 Sub na Twitch: [twitch.tv/teomewhy](https://www.twitch.tv/teomewhy)\n- 💌 Newsletter: [teomewhy.substack.com](https://teomewhy.substack.com/)\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fteomewhy%2Fds-points","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fteomewhy%2Fds-points","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fteomewhy%2Fds-points/lists"}