An open API service indexing awesome lists of open source software.

https://github.com/renatoelho/data-lake

o Data Lake é um conceito/arquitetura de armazenamento de dados em vez de uma ferramenta específica. É um repositório centralizado que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais.
https://github.com/renatoelho/data-lake

big-data data-engineering data-lake docker docker-compose duckdb jupyter-notebook minio python s3

Last synced: 2 months ago
JSON representation

o Data Lake é um conceito/arquitetura de armazenamento de dados em vez de uma ferramenta específica. É um repositório centralizado que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais.

Awesome Lists containing this project

README

          

# Construindo um Data Lake: Entenda o Conceito e Veja na Prática

o Data Lake é um ***conceito/arquitetura*** de armazenamento de dados em vez de uma ferramenta específica. É um ***repositório centralizado*** que permite armazenar dados brutos ou semiestruturados de diversas fontes, como bancos de dados, logs, dispositivos IoT e muito mais. Os dados são mantidos em seu ***formato original***, o que permite a flexibilidade no ***processamento*** e na análise posterior. Para criar um ***Data Lake***, você normalmente usa uma combinação de ferramentas e serviços, como sistemas de armazenamento de objetos, bancos de dados distribuídos, ferramentas de processamento de ***Big Data*** e assim por diante.

Neste projeto estruturaremos um ***Data Lake*** com o ***MinIO*** como repositório de objetos, o ***DuckDB*** como engine de processamento SQL e o ***Jupyter Notebook*** como IDE de desenvolvimento. Iremos explorar como configurar essas ferramentas no ***Docker*** e ***Docker Compose*** para criar um ambiente prático.

### Requisitos

+ ![Docker](https://img.shields.io/badge/Docker-23.0.3-E3E3E3)

+ ![Docker-compose](https://img.shields.io/badge/Docker--compose-1.25.0-E3E3E3)

+ ![Git](https://img.shields.io/badge/Git-2.25.1%2B-E3E3E3)

+ ![Ubuntu](https://img.shields.io/badge/Ubuntu-20.04-E3E3E3)

### Ativando e acessando os serviços

+ Clonando o repositório:

```bash
git clone https://github.com/Renatoelho/data-lake.git data-lake
```

+ Acessando o repositório:

```bash
cd data-lake/
```

+ Ativando as aplicações:

```bash
docker compose -p project-data-lake -f docker-compose-abor.yaml up -d
```

+ URLs de acesso:

|Serviço |URL |
|-------------------|--------------|
|Minio API |minio-s3:9000 |
|Minio Interface WEB|[localhost:9001](http://localhost:9001)|
|Server Jupyter Notebook|[localhost:9002](http://localhost:9002)|
|Token Jupyter Notebook|[localhost:9003](http://localhost:9003)|

+ Desativando as aplicações:

```bash
docker compose -p project-data-lake -f docker-compose-abor.yaml down
```

# Referências

Data Lake, ***Wikipédia***. Disponível em: . Acesso em: 22 out. de 2023.

DATA LAKE: SAIBA COMO FUNCIONA A TECNOLOGIA DE ARMAZENAMENTO DE DADOS, ***Tera Blog***. Disponível em: . Acesso em: 25 out. de 2023.

Unlock the full potential of a modern data warehouse with Delta Lake, ***Blueprint***. Disponível em: . Acesso em: 25 out. de 2023.

Medallion Architecture, ***Data Engineering***. Disponível em: . Acesso em: 25 out. de 2023.

O que é um data lake?, ***AWS***. Disponível em: . Acesso em: 28 out. de 2023.

Install Docker Desktop on Ubuntu, ***docs.docker.com***. Disponível em: . Acesso em: 22 out. 2023.

The Compose file, ***docs.docker.com***. Disponível em: . Acesso em: 22 out. 2023.

bitnami/minio, ***Docker Hub***. Disponível em: . Acesso em: 22 out. 2023.

High Performance Object Storage for AI, ***MinIO***. Disponível em: . Acesso em: 22 out. 2023.

Project Jupyter Documentation, ***Jupyter***. Disponível em: . Acesso em: 22 out. 2023.

DuckDB is an in-process SQL OLAP database management system, ***DuckDB***. Disponível em: . Acesso em: 25 out. 2023.