{"id":21701146,"url":"https://github.com/renatoelho/data-lake","last_synced_at":"2026-04-10T13:32:17.067Z","repository":{"id":204094342,"uuid":"711099592","full_name":"Renatoelho/data-lake","owner":"Renatoelho","description":"o Data Lake é um conceito/arquitetura de armazenamento de dados em vez de uma ferramenta específica. É um repositório centralizado que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais.","archived":false,"fork":false,"pushed_at":"2023-12-03T08:01:28.000Z","size":8153,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-08-08T20:53:37.059Z","etag":null,"topics":["big-data","data-engineering","data-lake","docker","docker-compose","duckdb","jupyter-notebook","minio","python","s3"],"latest_commit_sha":null,"homepage":"https://renato.tec.br","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/Renatoelho.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null}},"created_at":"2023-10-28T08:01:06.000Z","updated_at":"2023-11-25T15:58:20.000Z","dependencies_parsed_at":"2023-11-28T09:45:37.719Z","dependency_job_id":null,"html_url":"https://github.com/Renatoelho/data-lake","commit_stats":null,"previous_names":["renatoelho/data-lake"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/Renatoelho/data-lake","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Renatoelho%2Fdata-lake","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Renatoelho%2Fdata-lake/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Renatoelho%2Fdata-lake/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Renatoelho%2Fdata-lake/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/Renatoelho","download_url":"https://codeload.github.com/Renatoelho/data-lake/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/Renatoelho%2Fdata-lake/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":31645284,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-04-10T07:40:12.752Z","status":"ssl_error","status_checked_at":"2026-04-10T07:40:11.664Z","response_time":98,"last_error":"SSL_read: unexpected eof while reading","robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":false,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["big-data","data-engineering","data-lake","docker","docker-compose","duckdb","jupyter-notebook","minio","python","s3"],"created_at":"2024-11-25T20:18:18.838Z","updated_at":"2026-04-10T13:32:17.047Z","avatar_url":"https://github.com/Renatoelho.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Construindo um Data Lake: Entenda o Conceito e Veja na Prática\n\no Data Lake é um ***conceito/arquitetura*** de armazenamento de dados em vez de uma ferramenta específica. É um ***repositório centralizado*** que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais. Os dados são mantidos em seu ***formato original***, o que permite a flexibilidade no ***processamento*** e na análise posterior. Para criar um ***Data Lake***, você normalmente usa uma combinação de ferramentas e serviços, como sistemas de armazenamento de objetos, bancos de dados distribuídos, ferramentas de processamento de ***Big Data*** e assim por diante.\n\nNeste projeto estruturaremos um ***Data Lake*** com o ***MinIO*** como repositório de objetos, o ***DuckDB*** como engine de processamento SQL e o ***Jupyter Notebook*** como IDE de desenvolvimento. Iremos explorar como configurar essas ferramentas no ***Docker*** e ***Docker Compose*** para criar um ambiente prático.\n\n\n### Requisitos\n\n+ ![Docker](https://img.shields.io/badge/Docker-23.0.3-E3E3E3)\n\n+ ![Docker-compose](https://img.shields.io/badge/Docker--compose-1.25.0-E3E3E3)\n\n+ ![Git](https://img.shields.io/badge/Git-2.25.1%2B-E3E3E3)\n\n+ ![Ubuntu](https://img.shields.io/badge/Ubuntu-20.04-E3E3E3)\n\n\n### Ativando e acessando os serviços\n\n+ Clonando o repositório:\n\n```bash\ngit clone https://github.com/Renatoelho/data-lake.git data-lake\n```\n\n+ Acessando o repositório:\n\n```bash\ncd data-lake/\n```\n\n+ Ativando as aplicações:\n\n```bash\ndocker compose -p project-data-lake -f docker-compose-abor.yaml up -d\n```\n\n+ URLs de acesso:\n\n|Serviço            |URL           |\n|-------------------|--------------| \n|Minio API          |minio-s3:9000 |\n|Minio Interface WEB|[localhost:9001](http://localhost:9001)|\n|Server Jupyter Notebook|[localhost:9002](http://localhost:9002)|\n|Token Jupyter Notebook|[localhost:9003](http://localhost:9003)|\n\n+ Desativando as aplicações:\n\n```bash\ndocker compose -p project-data-lake -f docker-compose-abor.yaml down\n```\n\n\u003c!--\n# Apresentação em vídeo\n\u003cp align=\"center\"\u003e\n  \u003ca href=\"https://youtube.com/@renato-coelho\" target=\"_blank\"\u003e\u003cimg src=\"docs/images/construindo-data-lake.png\" alt=\"Vídeo de apresentação do Projeto\"\u003e\u003c/a\u003e\n\u003c/p\u003e\n--\u003e\n\n# Referências\n\nData Lake, ***Wikipédia***. Disponível em: \u003chttps://pt.wikipedia.org/wiki/Data_Lake\u003e. Acesso em: 22 out. de 2023.\n\nDATA LAKE: SAIBA COMO FUNCIONA A TECNOLOGIA DE ARMAZENAMENTO DE DADOS, ***Tera Blog***. Disponível em: \u003chttps://blog.somostera.com/data-science/data-lake\u003e. Acesso em: 25 out. de 2023.\n\nUnlock the full potential of a modern data warehouse with Delta Lake, ***Blueprint***. Disponível em: \u003chttps://bpcs.com/blog/why-delta-lake\u003e. Acesso em: 25 out. de 2023.\n\nMedallion Architecture, ***Data Engineering***. Disponível em: \u003chttps://dataengineering.wiki/Concepts/Medallion+Architecture\u003e. Acesso em: 25 out. de 2023.\n\nO que é um data lake?, ***AWS***. Disponível em: \u003chttps://aws.amazon.com/pt/big-data/datalakes-and-analytics/what-is-a-data-lake/\u003e. Acesso em: 28 out. de 2023.\n\nInstall Docker Desktop on Ubuntu, ***docs.docker.com***. Disponível em: \u003chttps://docs.docker.com/desktop/install/ubuntu/\u003e. Acesso em: 22 out. 2023.\n\nThe Compose file, ***docs.docker.com***. Disponível em: \u003chttps://docs.docker.com/compose/compose-file/03-compose-file/\u003e. Acesso em: 22 out. 2023.\n\nbitnami/minio, ***Docker Hub***. Disponível em: \u003chttps://hub.docker.com/r/bitnami/minio\u003e. Acesso em: 22 out. 2023.\n\nHigh Performance Object Storage for AI, ***MinIO***. Disponível em: \u003chttps://min.io/\u003e. Acesso em: 22 out. 2023.\n\nProject Jupyter Documentation, ***Jupyter***. Disponível em: \u003chttps://docs.jupyter.org/en/latest/\u003e. Acesso em: 22 out. 2023.\n\nDuckDB is an in-process SQL OLAP database management system, ***DuckDB***. Disponível em: \u003chttps://duckdb.org/\u003e. Acesso em: 25 out. 2023.\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frenatoelho%2Fdata-lake","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Frenatoelho%2Fdata-lake","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frenatoelho%2Fdata-lake/lists"}