{"id":21524750,"url":"https://github.com/teomewhy/olist-ml-models","last_synced_at":"2025-04-05T02:11:29.933Z","repository":{"id":144375487,"uuid":"611723841","full_name":"TeoMeWhy/olist-ml-models","owner":"TeoMeWhy","description":"Projeto de Machine Learning do início ao fim no contexto de um e-commerce","archived":false,"fork":false,"pushed_at":"2024-04-24T19:22:08.000Z","size":195,"stargazers_count":231,"open_issues_count":1,"forks_count":323,"subscribers_count":9,"default_branch":"main","last_synced_at":"2025-03-29T01:12:53.598Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/TeoMeWhy.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null},"funding":{"github":"TeoMeWhy"}},"created_at":"2023-03-09T12:16:41.000Z","updated_at":"2025-01-28T20:46:44.000Z","dependencies_parsed_at":"2024-04-14T19:42:55.358Z","dependency_job_id":"b1f30d03-f953-444c-ade4-a9fb3846c138","html_url":"https://github.com/TeoMeWhy/olist-ml-models","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Folist-ml-models","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Folist-ml-models/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Folist-ml-models/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/TeoMeWhy%2Folist-ml-models/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/TeoMeWhy","download_url":"https://codeload.github.com/TeoMeWhy/olist-ml-models/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":247276189,"owners_count":20912288,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-24T01:28:56.877Z","updated_at":"2025-04-05T02:11:29.918Z","avatar_url":"https://github.com/TeoMeWhy.png","language":"Python","funding_links":["https://github.com/sponsors/TeoMeWhy"],"categories":[],"sub_categories":[],"readme":"# olist-ml-models\n\n\u003cimg src=\"https://github.com/TeoMeWhy/olist-ml-models/blob/main/img/photo_2023-03-19_21-01-54.jpg?raw=true\" width=450\u003e\n\nProjeto de Machine Learning do início ao fim no contexto de um e-commerce.\n\nEste projeto é resultado de uma parceria entre o canal [Téo Me Why](https://www.twitch.tv/teomewhy) e o [Instituto Aaron Swartz](https://institutoasw.org/).\n\nSe inscreva [aqui](https://forms.gle/bXEdjsjYWt3K9euC7) para receber o certificado de partipação: [Formulário Docs](https://forms.gle/bXEdjsjYWt3K9euC7)\n\nBaixe os [dados aqui](https://drive.google.com/file/d/1YEohXFk7zSajy3Nitzi_svDnu9x4ZFn8/view).\n\n## +12 horas de conteúdo gratuito sobre Machine Learning\n\nNosso objetivo será, a priori, criar um modelo de Machine Learning para ajudar o negócio da empresa Olist. Dentre as possibilidades temos:\n\n1. Predição de Churn dos vendedores\n2. Predição de ativação dos vendedores\n3. Predição de atraso no pedido\n4. Clustering de vendedores\n\n## Índice\n- [Como vamos nos organizar](#como-vamos-nos-organizar)\n  - [Cronograma](#cronograma)\n  - [Ementa](#ementa)\n  - [Pré requisitos](#pre-requisitos)\n- [Sober o Instituto Aaron Swartz](#sobre-o-instituto-aaron-swartz)\n- [Sobre o instrutor](#sobre-o-instrutor)\n\n## Como vamos nos organizar?\n\nO projeto será 100% ao vivo na Twitch, canal [Téo Me Why](https://www.twitch.tv/teomewhy) de forma gratuita. Todo o desenvolvimento será realizado no Databricks, onde as pessoas `assinantes` do canal terão acesso a este Datalake para realizar seus próprios experimentos.\n\nPassaremos por todas etapas do ciclo analítico, desde ETL das fontes de dados, criação de `feature store`, criação da `ABT` (_Analytical Base Table_), treinamento dos algoritmos, implementação do algoritmo campeão para novas predições. Utilizaremos ainda o `MLFlow` para gestão de nossos modelos.\n\n### Cronograma\n\n| Dia | Data/Hora | Tema | Link |\n| :---: | :---: | --- | :---: |\n| 1 | 03/04/23 20hrs BR | Introdução à ML + Definição do problema | [:link:](https://www.twitch.tv/videos/1784362772) |\n| 2 | 04/04/23 20hrs BR | Brainstorm de variáveis + Criação Feature Store Pt. 1 | [:link:](https://www.twitch.tv/videos/1784988522) |\n| 3 | 05/04/23 20hrs BR | Criação Feature Store Pt. 2 | [:link:](https://www.twitch.tv/videos/1785891887) |\n| 4 | 06/04/23 20hrs BR | Criação das Safras | [:link:](https://www.twitch.tv/videos/1787450542) |\n| 5 | 07/04/23 20hrs BR | Criação da ABT | [:link:](https://www.twitch.tv/videos/1789854320) |\n| 6 | 10/04/23 20hrs BR | Teoria dos Algoritmos (Árvore e Regressão Linear e Logística) | [:link:](https://www.twitch.tv/videos/1790448831) |\n| 7 | 11/04/23 20hrs BR | Métricas de ajuste | [:link:](https://www.twitch.tv/videos/1792052442) |\n| 8 | 12/04/23 20hrs BR | Deploy com MLFlow | [:link:](https://www.twitch.tv/videos/1792476782) |\n\n### Ementa\n\nTodo material de apresentação está [disponível aqui](https://docs.google.com/presentation/d/1-1KM4gamVv7TBJ6DP6ZYOZRBmk1MfNUkIngBGc2JDBA/edit?usp=sharing).\n\n#### Dia 1 - Introdução à ML + Definição do problema\n\nNo primeiro dia de curso, conheceremos o ciclo básico de desenvolvimento de um modelo (aplicação) de Machine Learning. Além disso, juntos, de forma colaborativa, definiremos qual será o problema de negócio que gostaríamos de resolver utilizando técnicas preditivas.\n\n#### Dia 2 - Brainstorm de variáveis + Criação Feature Store Pt. 1\n\nCom o problema bem definido, podemos discutir quais são as variáveis (características, atributos, etc) que ajudarão a prever o evento de interesse. isto é, qual conjunto de informações podemos criar para ajudar na solução de nosso problema. Ainda neste momento, as primeiras variáveis serão criadas em suas tabelas de `Feature Stores`.\n\n#### Dia 3 - Criação Feature Store Pt. 2\n\nContinuação da criação das variáveis relevantes para nosso estudo. É importante que ao final deste dia, todas as variáveis estejam devidamente construídas e disponíveis para consulta.\n\n#### Dia 4 - Criação da ABT\n\nCom todas as nossas variáveis criadas e disponíveis, temos condições de processar a nossa tabela definitiva para treinamento de uma algoritmo de Machine Learning. O nome desta tabela é `ABT - *Analytical Base Table*`, onde possui todas informações necessária para solução de nosso problema de negócios, i.e. features (variáveis, características, etc.) e target (variáveis resposta, alvo).\n\n#### Dia 5 - Treinando algoritmos com MLflow\n\nChegou o momento de treinar nossos primeiros algoritmos de Machine Learning. Utilizaremos a biblioteca MLFlow para realizar a gestão do ciclo de vida de nossos modelos. Desta forma, conseguimos identificar a performance, métricas, parâmetros e variáveis de cada modelo, facilitando assim a tomada de decisão do modelo campeão.\n\n#### Dia 6 - Escolhendo melhor algoritmo + Deploy\n\nAo definirmos o modelo campeão, podemos realizar novas predições e criar um novos script para fazer este processo de forma automática. Isto é, usar o nosso modelo para ajudar o negócio com novas possibilidades.\n\n### Pre requisitos\n\nUtilizaremos bastante SQL e Python. O nível básico de conhecimento nessas linguagens deve ser suficiente para acompanhar o curso. Durante as lives faremos questão de explicar a lógica do desenvolvimento e algumas sintaxes mais avançadas.\n\n## Sobre o Instituto Aaron Swartz\n\nFazemos parte de um esforço global em que nossa estratégia de impacto social está diretamente alinhada com os Objetivos do Desenvolvimento Sustentável da ONU, contribuindo para o desenvolvimento sustentável reduzindo o gap gênero em TICs, fornecendo acesso à formação e tecnologias à pessoas de baixa renda e potencializando o trabalho coletivo em comunidades periféricas promovendo a cidadania ativa.\n\nDentre nossos objetivos, temos:\n- Promover oportunidades de aprendizado sobre programação e o acesso à tecnologia e à informação;\n- Elaborar, criar, implantar, executar projetos e programas voltados para educação, cultura do conhecimento e qualificação profissional;\n- Fomentar o desenvolvimento de uma comunidade de interessados em inovação, ciência, cultura, tecnologia, criatividade, artes e disseminação do conhecimento;\n- Promover e dar apoio ao uso de tecnologias e padrões que permitam seu livre uso, estudo, adaptação e compartilhamento, respeitando a autonomia individual e coletiva e incentivando a colaboração;\n- Promover os ideais da ética hacker perante a comunidade e o poder público, esclarecendo desentendimentos acerca do termo;\n- Promover o incentivo ao uso de tecnologia e inovação para a igualdade de gênero – ou seja, aumentar o uso de tecnologias de base, em particular as tecnologias de informação e comunicação, para promover o empoderamento das mulheres e segurança;\n\nConheça mais em: [institutoasw.org](https://institutoasw.org/)\n\n## Sobre o instrutor\n\n[Téo](https://www.linkedin.com/in/teocalvo/) é bacharel em Estatística pela FCT-UNESP e tem pós graduação em Big Data \u0026 Data Science pela UFPR. Hoje, é Sr. Head of Data na Gamers Club, tendo passado por diferentes empresas e indústrias sempre trabalhando com dados e `Data Science` desde 2014.\n\nNo cenário da educação, é criador do canal Téo Me Why na Twitch para divulgação de conteúdo de qualidade na área de dados e tecnologia de forma gratuita. Além disso, é professor na ASN.Rocks ministrando aulas de SQL, Python e Machine Learning (classificadores e regressores). Também é parceiro da [LinuxTips](https://www.linuxtips.io/) na criação de cursos. Recentemente tornou-se membro do Instituto Aaron Swartz como instrutor de tecnologia, onde firmou parceria junto ao seu canal, visando maior impacto social de seu conteúdo.\n\nNos apoie: [Apoia.se/teomewhy](http://apoia.se/teomewhy)\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fteomewhy%2Folist-ml-models","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fteomewhy%2Folist-ml-models","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fteomewhy%2Folist-ml-models/lists"}