https://github.com/renatoelho/data-lake
o Data Lake é um conceito/arquitetura de armazenamento de dados em vez de uma ferramenta específica. É um repositório centralizado que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais.
https://github.com/renatoelho/data-lake
big-data data-engineering data-lake docker docker-compose duckdb jupyter-notebook minio python s3
Last synced: 2 months ago
JSON representation
o Data Lake é um conceito/arquitetura de armazenamento de dados em vez de uma ferramenta específica. É um repositório centralizado que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais.
- Host: GitHub
- URL: https://github.com/renatoelho/data-lake
- Owner: Renatoelho
- License: mit
- Created: 2023-10-28T08:01:06.000Z (almost 2 years ago)
- Default Branch: main
- Last Pushed: 2023-12-03T08:01:28.000Z (almost 2 years ago)
- Last Synced: 2025-03-20T15:50:33.252Z (7 months ago)
- Topics: big-data, data-engineering, data-lake, docker, docker-compose, duckdb, jupyter-notebook, minio, python, s3
- Language: Jupyter Notebook
- Homepage: https://renato.tec.br
- Size: 7.78 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Construindo um Data Lake: Entenda o Conceito e Veja na Prática
o Data Lake é um ***conceito/arquitetura*** de armazenamento de dados em vez de uma ferramenta específica. É um ***repositório centralizado*** que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais. Os dados são mantidos em seu ***formato original***, o que permite a flexibilidade no ***processamento*** e na análise posterior. Para criar um ***Data Lake***, você normalmente usa uma combinação de ferramentas e serviços, como sistemas de armazenamento de objetos, bancos de dados distribuídos, ferramentas de processamento de ***Big Data*** e assim por diante.
Neste projeto estruturaremos um ***Data Lake*** com o ***MinIO*** como repositório de objetos, o ***DuckDB*** como engine de processamento SQL e o ***Jupyter Notebook*** como IDE de desenvolvimento. Iremos explorar como configurar essas ferramentas no ***Docker*** e ***Docker Compose*** para criar um ambiente prático.
### Requisitos
+ 
+ 
+ 
+ 
### Ativando e acessando os serviços
+ Clonando o repositório:
```bash
git clone https://github.com/Renatoelho/data-lake.git data-lake
```+ Acessando o repositório:
```bash
cd data-lake/
```+ Ativando as aplicações:
```bash
docker compose -p project-data-lake -f docker-compose-abor.yaml up -d
```+ URLs de acesso:
|Serviço |URL |
|-------------------|--------------|
|Minio API |minio-s3:9000 |
|Minio Interface WEB|[localhost:9001](http://localhost:9001)|
|Server Jupyter Notebook|[localhost:9002](http://localhost:9002)|
|Token Jupyter Notebook|[localhost:9003](http://localhost:9003)|+ Desativando as aplicações:
```bash
docker compose -p project-data-lake -f docker-compose-abor.yaml down
```# Referências
Data Lake, ***Wikipédia***. Disponível em: . Acesso em: 22 out. de 2023.
DATA LAKE: SAIBA COMO FUNCIONA A TECNOLOGIA DE ARMAZENAMENTO DE DADOS, ***Tera Blog***. Disponível em: . Acesso em: 25 out. de 2023.
Unlock the full potential of a modern data warehouse with Delta Lake, ***Blueprint***. Disponível em: . Acesso em: 25 out. de 2023.
Medallion Architecture, ***Data Engineering***. Disponível em: . Acesso em: 25 out. de 2023.
O que é um data lake?, ***AWS***. Disponível em: . Acesso em: 28 out. de 2023.
Install Docker Desktop on Ubuntu, ***docs.docker.com***. Disponível em: . Acesso em: 22 out. 2023.
The Compose file, ***docs.docker.com***. Disponível em: . Acesso em: 22 out. 2023.
bitnami/minio, ***Docker Hub***. Disponível em: . Acesso em: 22 out. 2023.
High Performance Object Storage for AI, ***MinIO***. Disponível em: . Acesso em: 22 out. 2023.
Project Jupyter Documentation, ***Jupyter***. Disponível em: . Acesso em: 22 out. 2023.
DuckDB is an in-process SQL OLAP database management system, ***DuckDB***. Disponível em: . Acesso em: 25 out. 2023.