{"id":21524754,"url":"https://github.com/teomewhy/ranked-ml","last_synced_at":"2025-04-09T23:10:11.098Z","repository":{"id":40575201,"uuid":"479717727","full_name":"TeoMeWhy/ranked-ml","owner":"TeoMeWhy","description":null,"archived":false,"fork":false,"pushed_at":"2022-09-19T15:20:10.000Z","size":10247,"stargazers_count":57,"open_issues_count":1,"forks_count":8,"subscribers_count":3,"default_branch":"main","last_synced_at":"2025-04-09T23:10:04.099Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/TeoMeWhy.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2022-04-09T12:20:03.000Z","updated_at":"2024-08-22T22:42:29.000Z","dependencies_parsed_at":"2022-08-09T23:31:58.035Z","dependency_job_id":null,"html_url":"https://github.com/TeoMeWhy/ranked-ml","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Franked-ml","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Franked-ml/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Franked-ml/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Franked-ml/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/TeoMeWhy","download_url":"https://codeload.github.com/TeoMeWhy/ranked-ml/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":248125613,"owners_count":21051770,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-24T01:28:59.380Z","updated_at":"2025-04-09T23:10:11.076Z","avatar_url":"https://github.com/TeoMeWhy.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Ranked ML\n\n\u003cimg src=\"https://i.ibb.co/N1ZD9q5/Projeto-de-Data-Science.png\" alt=\"Projeto-de-Data-Science\" width=700\u003e\n\nRepositório destinado à criação de um modelo de Machine Learning com os dados da GC. A finalidade deste projeto é levar o conhecimento de Data Science e Analytics para o maior número de pessoas possível.\n\nAs lives são realizadas na Twitch no canal [Téo Me Why](https://www.twitch.tv/teomewhy) às Terças e Quintas - 9:00AM.\n\n## Sumário\n- [Motivação](#motivação)\n- [Sobre o Curso](#sobre-o-curso)\n- [Sobre o Professor](#sobre-o-professor)\n- [Sobre os Dados](#sobre-os-dados)\n- [Setup e requisitos](#setup-e-requisitos)\n- [Calendário](#calendário)\n- [FAQ](#faq)\n\n## Motivação\n\nEm primeiro lugar, a comunidade. Queremos alcançar o maior número de vidas utilizando o ensino. Dentro de minhas capacidades, posso ajudar com estatística, dados e uma pitada de programação. Então vamos utilizar os dados da Gamers Club para atacar um problema de negócio em um projeto de Data Science de começo ao fim!\n\nAcreditamos que exemplos são a maneira mais didática para cativar e incentivar os estudantes. Então se prepare pois aqui a parada é bem mão na massa!\n\nVale ressaltar que o mercado na área de Tecnlogia e Dados está extremamente aquecido! Muitas vagas são abertas diariamente no Linkedin e outras plataformas de recrutamento. O pessoal de dados é cada vez mais demandado.\n\n## Sobre o curso\n\nAlgumas oportunidades que teremos de soluções para a GC:\n\n1. Predição de jogadores que jogarão na próxima semana/mês\n2. Predição de churn\n3. Predição de assinatura\n4. Predição churn de assinatura\n\nMas antes de debruçar no algoritmo, precisamos preparar os dados. Assim, passaremos pela criação de um book de variáveis (feature store) e posteriormente criar a nossa variável resposta (target), i.e. aquilo que queremos prever.\n\nPretendemos realizar este curso para apresentar como um algoritmo por ajudar a resolver problemas reais de negócio. Bem como, passar pelas dificuldades e preparação de dados para desenvolver uma solução end-to-end.\n\n## Sobre o professor\n\nTéo é Bacharel em Estatística e tem Pós Graduação em Data Science \u0026 Big Data.É bastante curioso em aprender novas tecnologias e aprimorar seus projetos voltados à Análise de Dados e Modelagem Preditiva.\n\nTem atuado desde 2014 em grandes empresas, sempre utilizando técnicas Estatísticas e Computacionais para empregar Aprendizado de Máquina em diferentes cenários. Com isso, entende que a principal etapa no ciclo analítico consiste em consultas de dados em em diferentes fontes. Além de realizar suas lives na Twitch desde 08.2019.\n\nHoje, como Head of Data na Gamers Club, gostaria de contribuir ainda mais para a comunidade trazendo dados reais e aplicações com SQL, Python e Machine Learning.\n\nVocê pode conhecer mais sobre o professor no [LinkedIn](https://www.linkedin.com/in/teocalvo/).\n\n## Sobre os dados\n\nPara este curso utilizaremos dados de partidas que ocorreram nos servidores da Gamers Club. São partidas referentes à 2.500 jogadores, havendo mais de 30 estatísticas de seus partidas. Tais como Abates, Assistências, Mortes, Flash Assist, Head Shot, etc.\n\nAlem disso, temos informações de medalhas destes players, como:\n- Assinatura Premium, Plus\n- Medalhas da Comunidade\n\nPara ter uma melhor descrição destes dados, confira na [página oficial do Kaggle](https://www.kaggle.com/gamersclub/brazilian-csgo-plataform-dataset-by-gamers-club) onde os dados foram disponibilizados.\n\nAbaixo temos o schema (relacionamentos) dos nossos dados.\n\n\u003cimg src=\"https://user-images.githubusercontent.com/4283625/157664295-45b60786-92a4-478d-a044-478cdc6261d7.jpg\" alt=\"\" width=\"500\"\u003e\n\n## Setup e requisitos\n\n### 1. Python / Anaconda\n\nVocê pode fazer o download do Python no site oficial: [www.python.org/](https://www.python.org/)\n\nComo utilizaremos bibliotecas voltadas à análise de dados e modelagem, sera necessário realizar as instalações destas libs. Assim, por amor a simplicidade, eu recomendo fazer uso do [Anaconda](https://www.anaconda.com/).\n\nA instalação do Anaconda é bem simples, só deve ficar atento em adicionar seu endereço à variável `PATH`.\n\n### 2. Visual Studio Code\n\nEsta ferramenta é uma interface de desenvolvimento. Não é necessária pois e apenas mais um sabor dentre tantos. Porém, como gosto bastante bastante, o curso será conduzido a partir da mesma.\n\nPara instalar o [Visual Studio Code](https://code.visualstudio.com/) basta realizar o download na [página oficial](https://code.visualstudio.com/) da ferramenta e seguir os passos de instalação.\n\n### 2. Dados\n\nComo vamos utilizar os dados da GC, você precisa baixar estes dados de nossa pasta no [google drive](https://drive.google.com/file/d/1QR53whL3BCj6W9zawjMhGhFog-FbAySP/view?usp=sharing).\n\n### 3. Conhecimentos técnicos\n\nTemos como objetivo  ajudar pessoas que estão descobrindo o mundo de dados agora. Como é um curso de Data Science end-to-end, é recomendado que se saiba os conceitos de SQL e familiaridade com Python. Para facilitar o acompanhamento, preparamos um curso de [SQL aqui](https://github.com/TeoCalvo/sql_gc).\n\nFaremos uso das seguintes bibliotecas:\n- SQLalchemy\n- Pandas\n- Numpy\n- Scikit-learn\n- Feature-engine\n- XGBoost\n- Scikit-plot\n- Yellowbrick\n\n## Calendário\n\n|Descrição|Data|VOD|\n|---|:---:|:---:|\n| 1. Introdução **Machine Learning** e Definição do problema | 07.04.22 | [:link:](https://www.twitch.tv/videos/1448992935) |\n| 2. Criação do book de Variáveis - Parte I | 12.04.22 | [:link:](https://www.twitch.tv/videos/1453926596) |\n| 3. Criação do book de Variáveis - Parte II | 14.04.22 | [:link:](https://www.twitch.tv/videos/1457756298) |\n| 4. Criação da ABT (*Analytical Base Table*) | 19.04.22 | [:link:](https://www.twitch.tv/videos/1463586491) |\n| 5. SEMMA e primeiro pipeline | 21.04.22 | [:link:](https://www.twitch.tv/videos/1463586822) |\n| 6. Tunning do melhor modelo | 26.04.22 | [:link:](https://www.twitch.tv/videos/1469399340) |\n| 7. Deploy | 28.04.22 | [:link:](https://www.twitch.tv/videos/1469399912) |\n\n## FAQ\n\n1. É grátis?\n\nSim, as lives serão abertas e sem a necessidade de pagamento.\n\n2. Precisa se cadastrar?\n\nNão, é só abrir a live no horário da transmissão.\n\n3. Vai ficar gravado?\n\nSim! Os inscritos no canal da Twitch terão acesso à todos os VODs gerados a parti das lives. Para ser inscrito, basta ter Amazon Prime e assinar nosso canal de forma gratuita ou realizando o pagamento na própria plataforma.\n\n4. Vai para o YouTube?\n\nNão! Queremos prestigiar nossos apoiadores do projeto. Assim, apenas os assinantes da Twitch terão acesso ao conteúdo gravado.\n\n5. Como posso apoiar?\n\nSua inscrição no canal da Twitch já apoia muito o nosso trabalho. Esta seria uma ótima forma de contribuir.\nAlem da ajuda financeira, sinta-se a vontade para abrir `issues` no nosso repositório para melhorias no projeto.\n\n6. Posso usar este material em um curso?\n\nEste material é aberto e pode ser utilizado por outras iniciativas gratuitas na comunidade. É importante que se faça as devidas referências ao utilizar este projeto. **Não se deve utilizar este conteúdo para fins comerciais.**\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fteomewhy%2Franked-ml","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fteomewhy%2Franked-ml","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fteomewhy%2Franked-ml/lists"}