{"id":15208867,"url":"https://github.com/brsavii/data-engineering-project","last_synced_at":"2026-02-20T18:06:40.571Z","repository":{"id":246595572,"uuid":"821585563","full_name":"brsavii/data-engineering-project","owner":"brsavii","description":"Development of a Data Pipeline using Azure Synapse","archived":false,"fork":false,"pushed_at":"2024-07-16T18:27:24.000Z","size":4912,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-10-19T16:50:16.971Z","etag":null,"topics":["apache-spark","azure-data-lake-gen2","azure-synapse-analytics","mkdocs","mongodb-atlas","power-bi"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/brsavii.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2024-06-28T22:19:30.000Z","updated_at":"2024-09-30T23:31:32.000Z","dependencies_parsed_at":null,"dependency_job_id":"99ecd464-3b25-459e-b662-7de040a8b021","html_url":"https://github.com/brsavii/data-engineering-project","commit_stats":{"total_commits":19,"total_committers":3,"mean_commits":6.333333333333333,"dds":"0.26315789473684215","last_synced_commit":"bb84517ecd790bfe36bd370896283c46ee53b556"},"previous_names":["brsavii/data-engineering-project"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/brsavii/data-engineering-project","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/brsavii%2Fdata-engineering-project","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/brsavii%2Fdata-engineering-project/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/brsavii%2Fdata-engineering-project/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/brsavii%2Fdata-engineering-project/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/brsavii","download_url":"https://codeload.github.com/brsavii/data-engineering-project/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/brsavii%2Fdata-engineering-project/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":29659757,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-02-20T16:33:43.953Z","status":"ssl_error","status_checked_at":"2026-02-20T16:33:43.598Z","response_time":59,"last_error":"SSL_connect returned=1 errno=0 peeraddr=140.82.121.5:443 state=error: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["apache-spark","azure-data-lake-gen2","azure-synapse-analytics","mkdocs","mongodb-atlas","power-bi"],"created_at":"2024-09-28T07:02:50.242Z","updated_at":"2026-02-20T18:06:35.563Z","avatar_url":"https://github.com/brsavii.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Desenvolvimento de uma Pipeline de Dados utilizando Azure Synapse\n\n[![License](https://img.shields.io/badge/License-MIT-blue.svg)](LICENSE)\n\nEste projeto abrange todo o processo de construção de uma robusta pipeline de dados, desde a criação inicial do banco de dados MongoDB até a apresentação dos dados em Power BI. As principais etapas incluem:\n\n- **Criação do Banco de Dados MongoDB**: Configuração e implementação de um banco de dados MongoDB, incluindo a elaboração de scripts para a população inicial dos dados.\n\n- **Ingestão de Dados**: Importação dos dados brutos para o sistema, garantindo a integridade e a qualidade das informações desde a origem.\n\n- **Data Lake**: Armazenamento dos dados em um Data Lake, utilizando as melhores práticas para organização e acessibilidade dos dados.\n\n- **Transformações de Dados**: Aplicação de transformações nos dados através do Apache Spark, utilizando a arquitetura de medalhão para estruturar os dados em camadas (bronze, silver e gold).\n\n- **Integração com Power BI**: Conexão e visualização dos dados transformados no Power BI, permitindo a criação de dashboards interativos e relatórios detalhados.\n\nEste trabalho visa não apenas a construção de uma pipeline eficiente e escalável, mas também a garantia de que cada etapa do processo seja executada com precisão e alinhada às melhores práticas da engenharia de dados.\n\n## Documentação do projeto\n\nEssas instruções permitirão que você obtenha uma cópia do projeto em operação na sua máquina local para fins de desenvolvimento e teste.\n\n**[Clique aqui](https://ozielsilveira.github.io/data-engineering-project/)** para saber como implantar o projeto.\n\n## Visão geral\n- O ambiente relacional – origem – tem 7 tabelas, 10.000 linhas para cada tabela principal.\n- Foi utilizado a biblioteca Faker do Python, para gerar as massas de dados e popular o ambiente relacional.\n- A ingestão dos dados foi feita através do Azure Synapse Analytics\n- O Data Lake foi criado em cima de um object storage (cloud) usando a arquitetura medalhão (Camadas Landing, Bronze, Silver e Gold).\n- Os dados serão gravados no object storage no formato Delta Lake nas camadas Bronze, Silver e Gold.\n  A transformação será feita através do Apache Spark (Python/pyspark).\n- As funções de ingestão, transformação e movimentação dos dados entre as camadas são\n  orquestradas e agendadas através da ferramenta Azure Synapse Analytics.\n- Os dados serão disponibilizados na camada Gold no formato dimensional (OBT).\n- Foram utilizadas 4 KPIs e 2 métricas para compor o dashboard no PowerBi.\n- O dashboard consome os dados do modelo OBT, direto da camada gold.\n- A documentação completa do trabalho está publicada no MkDocs.\n\n## Ferramentas utilizadas\n\n- **[Azure](https://portal.azure.com/)** - é a plataforma de computação em nuvem da Microsoft que oferece uma ampla gama de serviços, incluindo computação, armazenamento, bancos de dados, redes e inteligência artificial, para desenvolver, gerenciar e hospedar aplicativos e serviços de maneira escalável e segura.\n- **[Power BI](https://www.microsoft.com/pt-br/power-platform/products/power-bi)** - é uma ferramenta de business intelligence da Microsoft que permite a visualização interativa de dados e a criação de relatórios e dashboards dinâmicos, ajudando as empresas a transformar dados brutos em insights acionáveis de forma fácil e intuitiva.\n- **[MongoDB](https://www.mongodb.com/)** - é um banco de dados NoSQL orientado a documentos que armazena dados em formato JSON-like, conhecido por sua flexibilidade, escalabilidade e facilidade de uso, sendo amplamente utilizado para aplicações modernas que exigem alta performance e gerenciamento eficiente de grandes volumes de dados não estruturados.\n\n## Colaboração\nSe desejar publicar suas modificações em um repositório remoto no GitHub, siga estes passos:\n\n1. Crie um novo repositório vazio no GitHub.\n2. No terminal, navegue até o diretório raiz do projeto.\n3. Execute os seguintes comandos:\n\n```bash\ngit remote set-url origin https://github.com/seu-usuario/nome-do-novo-repositorio.git\ngit add .\ngit commit -m \"Adicionar minhas modificações\"\ngit push -u origin master\n```\n\nIsso configurará o repositório remoto e enviará suas modificações para lá.\n\n## Collaborators\n\n- **Aluno 1** - _Criação do MongoDB e script de geração de dados_ - [Guilherme Santana](https://github.com/guirms)\n- **Aluno 2** - _Ingestão de dados e Orquestração_ - [Jean Carlos Nesi](https://github.com/JeanNesi)\n- **Aluno 3** - _Script Spark_ - [Bruna Savi](https://github.com/brsavii)\n- **Aluno 4** - _Configurar ambiente Data Lake_ - [Luigi Milanez](https://github.com/luigimilanez)\n- **Aluno 5** - _Métricas_ - [Lucas Borges Borba](https://github.com/lucasborba111)\n- **Aluno 6** - _Power BI_ - [Kauã Librelato](https://github.com/KauaLibrelato)\n- **Aluno 7** - _Documentação_ - [Oziel Silveira](https://github.com/ozielsilveira)\n\nVocê também pode ver a lista de todos os [colaboradores](https://github.com/ozielsilveira/data-engineering-project/colaboradores) que participaram deste projeto.\n\n## Licença\n\nEste projeto está sob a licença (sua licença) - veja o arquivo [LICENSE](https://github.com/jlsilva01/projeto-ed-satc/blob/main/LICENSE) para detalhes.\n\n## Referências\n\n[ChatGPT](https://chatgpt.com/)\n[DatasideCommunity](https://www.youtube.com/@DatasideCommunity)\n[Datasen](https://www.datensen.com/blog)\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fbrsavii%2Fdata-engineering-project","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fbrsavii%2Fdata-engineering-project","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fbrsavii%2Fdata-engineering-project/lists"}