{"id":28171350,"url":"https://github.com/olist/work-at-olist-data","last_synced_at":"2025-06-25T04:31:54.188Z","repository":{"id":71573870,"uuid":"149792249","full_name":"olist/work-at-olist-data","owner":"olist","description":"Apply for a job at Olist's Data Team: https://olist.gupy.io/","archived":false,"fork":false,"pushed_at":"2022-03-04T16:26:35.000Z","size":50947,"stargazers_count":51,"open_issues_count":0,"forks_count":31,"subscribers_count":22,"default_branch":"master","last_synced_at":"2025-05-15T18:18:57.001Z","etag":null,"topics":["analytics","data","dataengineering","datascience","dataset","julia","machinelearning","pandas","python","r","sql"],"latest_commit_sha":null,"homepage":"https://olist.gupy.io/","language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/olist.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null}},"created_at":"2018-09-21T16:53:27.000Z","updated_at":"2025-01-18T16:06:47.000Z","dependencies_parsed_at":"2023-02-24T03:45:43.651Z","dependency_job_id":null,"html_url":"https://github.com/olist/work-at-olist-data","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/olist/work-at-olist-data","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/olist%2Fwork-at-olist-data","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/olist%2Fwork-at-olist-data/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/olist%2Fwork-at-olist-data/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/olist%2Fwork-at-olist-data/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/olist","download_url":"https://codeload.github.com/olist/work-at-olist-data/tar.gz/refs/heads/master","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/olist%2Fwork-at-olist-data/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":261805196,"owners_count":23212326,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["analytics","data","dataengineering","datascience","dataset","julia","machinelearning","pandas","python","r","sql"],"created_at":"2025-05-15T18:18:47.281Z","updated_at":"2025-06-25T04:31:54.125Z","avatar_url":"https://github.com/olist.png","language":null,"funding_links":[],"categories":[],"sub_categories":[],"readme":"# Teste prático (work-at-olist-data)\n\nEsta é a página sobre o teste prático para os candidatos ao processo seletivo de cientistas, analistas e engenheiros de dados para o time de Business Science \u0026 Analytics do olist.\n\n## Conhecendo nosso time de dados:\n[BSA: um time de pessoas que vão além das ferramentas e números](https://medium.com/olist/bsa-um-time-de-pessoas-que-v%C3%A3o-al%C3%A9m-das-ferramentas-e-n%C3%BAmeros-76a073cadd67)\n\n## Cenário\n\nO olist é a maior loja de departamentos dos marketplaces. Possui um catálogo com mais de 950 mil produtos, centenas de milhares de pedidos e uma rede de mais de 9 mil lojistas parceiros espalhados por todas as regiões do Brasil. Entendemos que a área de dados e inteligência é uma das principais alavancas de crescimento do negócio, por isso buscamos profissionais apaixonados por dados para integrar a nossa equipe de Business Science e Analytics (BSA).\n\nEstamos o tempo todo gerando dados, dados e muito mais dados. Nosso cenário é de big data!\n\n## Como é o nosso banco de dados?\n\nConsidere que a figura abaixo seja a estrutura do nosso banco de dados de e-commerce e que cada tabela desse banco de dados esteja disponível como um dataset. [Aqui estão os datasets](/datasets). Perceba que os dados são amostrais e estão apresentados no modelo relacional, pois foram extraídos diretamente, sem qualquer tratamento,  do ambiente transacional.\n\n![Estrutura do Banco de Dados](images/schema.png)\n\nBom, e aqui você pode observar como um produto é exibido na plataforma de e-commerce.\n\n![Exemplo de produto exibido na plataforma](images/example.png)\n\n## Desafio\n\nEsta plataforma de e-commerce transaciona dados do varejo brasileiro. Assim, as áreas de negócio da empresa estão com algumas dúvidas e desafios como:\n\n* Será que nossos diferentes lojistas associados conseguem manter o preço do mesmo produto sem grandes discrepâncias?\n* Podemos dar os mesmos benefícios para todos os lojistas (sellers)? Ou existe algum que merece destaque?\n* Existe diferença no valor do frete praticado em regiões/cidades diferentes? Ou podemos aplicar as mesmas regras de subsídio de frete para qualquer localidade?\n* Será que nosso catálogo de produtos é abrangente? Ou tem foco em categorias específicas?\n* Será que sempre vendemos os mesmos produtos? Ou existem sazonalidades?\n* Será que existe um modelo preditivo para nos preparar para o futuro?\n* Será que o atual banco de dados vai suportar o nosso crescimento? Ou existe uma opção mais escalável?\n\nFicou confuso(a). Segue abaixo, dicas mais específicas para cada função.\n\n### Cientista de dados\n* Que tal uma análise textual dos clientes que deixaram comentários sobre suas compras? \n* Alguns clientes não escreveram um comentário. Mas por que eles estão satisfeitos?\n* Com as informações da data de compra, você poderá prever vendas futuras!\n* Você também poderá focar na logística e encontrar maneiras de otimizar os tempos de entrega.\n* Esses dados possuem coordenadas de geolocalização. Há diferenças no padrão de consumo por regiões?\n* Divirta-se descobrindo as categorias de produtos mais propensas à insatisfação do cliente.\n* Crie recursos deste rico conjunto de dados, feature engineering ou anexe algumas informações públicas externas a ele.\n* E um modelo para precificar os produtos do nosso catálogo? Modelagem matemática para otimizar rotas? Testes de hipóteses para validar algum questionamento?\n* O que acha de escrever um relatório ou slides detalhando as suas descobertas?\n* Fique livre para criar sua própria abordagem, caso considere que as dicas anteriores não sejam pertinentes.\n\n### Analista de dados e Business Intelligence\n* Pense em alguns KPIs para monitoramento. Talvez outros para direcionamento dos gestores! \n* Um cruzamento dos dados poderia gerar relatórios interessantes. Afinal, quem são os Top 10 em vendas? Que tipo produtos eles vendem? Qual é o impacto deles para o negócio?\n* Que tal realizar uma análise exploratória dos dados. E então? Algo lhe chama a atenção?\n* Você poderia apresentar esses dados em um dashboard. Isso daria agilidade na tomada de decisão!\n* Temos interesse em suas habilidades com matemática aplicada e estatística descritiva. O que você pode nos mostrar com os dados?\n* O que acha de escrever um relatório ou slides detalhando as suas descobertas?\n* Fique livre para criar sua própria abordagem, caso considere que as dicas anteriores não sejam pertinentes.\n\n### Engenheiro(a) de dados\n* Gostaríamos de analisar suas habilidades com SQL, modelagem dimensional e integração de dados. Mostre seus conhecimento em processos de ETL e conceitos de Data Warehouse. Que tal replicar nossos datasets, remodelar em um banco de dados e apresentar as melhorias realizadas em sua criação.\n* É possível utilizar o modelo proposto em um ambiente cloud? Quais plataformas ou serviços você utilizaria? Quais as vantagens do modelo escolhido em questões de performance?\n* Alguns membros do time dizem que a atual modelagem do banco de dados é adequada para o uso dos cientistas de dados e analistas de BI, porém, outros dizem que existem formas de modelar bancos de dados que trarão mais eficiência. Qual é a sua opinião sobre isso?\n* Estamos preocupados com o vertiginoso aumento do volume em nosso banco de dados atual? Você consideraria uma opção mais escalável ou devemos manter a estrutura existente?\n* Nossa ferramenta de visualização de dashboards está lenta e o nosso time detectou que o problema está na infraestrutura de dados. Como você abordaria esta situação do ponto vista de arquitetura de dados?\n* Nosso banco de dados está hospedado na nuvem e nossas ferramentas de análise de dados são \"on premisses\". Você manteria este arranjo ou faria mudanças visando mais performance?\n* Nossa área operacional necessita de informações em tempo real, porém os diretores da empresa, que acompanham somente informações de KPIs mensais, alegam que isso é desnecessário e acarretaria custos. Qual é o seu posicionamento sobre isso?\n* Nosso time que está focado em Governança de Dados alega que documentar os processos é mais importante do que refatorar os mais de 500 scripts que estão funcionando com lentidão. Como você atuaria neste impasse, se tivesse que priorizar o trabalho?\n* Aqui no olist, somos muito mão na massa! Como Engenheiro(a) de dados, mostre pra gente o que você consegue fazer na prática com esse nosso banco de dados. (Sabemos que é uma amostra, mas imagine que o todo pode ser  petabytes de dados)\n* O que acha de escrever um relatório ou slides sobre a sua abordagem na solução de alguns desses problemas?\n* Fique livre para criar sua própria abordagem, caso considere que as dicas anteriores não sejam pertinentes.\n\n## O que esperamos do candidato?\n\nQueremos entender sua proficiência técnica, raciocínio analítico e apresentação de resultados.\n\n**Você não precisa responder todas as perguntas ou dicas que foram listadas anteriormente, são apenas sugestões (mantenha o foco naquilo que você tem mais afinidade).** Porém, queremos ter uma clara percepção sobre como você resolve problemas.\n\nPara isso, fique a vontade para adotar softwares, processos e ferramentas que considerar adequados.\n\nVocê terá um prazo de até 7 dias e após a finalização do teste, nos encaminhe um relatório contextualizando o trabalho realizado e suas soluções. Pode ser em qualquer formato, queremos apenas entender como você apresenta os resultados do seu trabalho.\n\nNão esqueça de indicar em seu relatório os links/endereços, caso tenha hospedado códigos/arquivos em algum repositório na internet.\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Folist%2Fwork-at-olist-data","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Folist%2Fwork-at-olist-data","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Folist%2Fwork-at-olist-data/lists"}