Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/dougdss89/wideworldadventure
This repository includes all files that compose the design and unification of the databases AdventureWorks and WideWorldAdventure project.
https://github.com/dougdss89/wideworldadventure
bigdata databricks datalake datawarehouse dbt deltalake duckdb elt etl etl-pipeline spark
Last synced: 15 days ago
JSON representation
This repository includes all files that compose the design and unification of the databases AdventureWorks and WideWorldAdventure project.
- Host: GitHub
- URL: https://github.com/dougdss89/wideworldadventure
- Owner: dougdss89
- Created: 2024-10-17T15:20:13.000Z (4 months ago)
- Default Branch: main
- Last Pushed: 2024-11-30T18:59:44.000Z (3 months ago)
- Last Synced: 2024-11-30T19:33:27.839Z (3 months ago)
- Topics: bigdata, databricks, datalake, datawarehouse, dbt, deltalake, duckdb, elt, etl, etl-pipeline, spark
- Language: Shell
- Homepage:
- Size: 229 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# PROJETO WIDEWORLD ADVENTURE
___________________________________________________### BEM VINDO AO PROJETO DE ETL/ELT WIDEWORLD ADVENTURE
Este é o projeto de integração das bases de dados do SQL Server
1. AventureWorks
2. WideWorldImportersO objetivo do projeto é limpar as duas bases de dados, integrá-las em um único Data Warehouse, e então, apresentá-las na camada de visualização.
Na pasta **datamodel** estão as modelagens de dados que serão utilizadas após o processo de ETL.
A pasta **hadoop** contém os arquivos necessários para criação dos Data/Delta Lakes.
# HADOOP
___________________________________________________
Depois de criado a imagem, execute os containers com o comando docker run, com os parâmetros desejados. Pontos que podem ser mudados, são: hostname, nome da rede, volume e o nome do container.Recomendo que comece pelo nó principal e configure tudo, após, dê um commit e suba os
containers com a imagem finalizada.Cuidado ao modificar as portas, pode causar conflito com os serviços.
### Core e HDFS-SITE.
São os principais arquivos, cuidado ao configurar. Se quiser manter o arquivo, apenas cole as configurações no HDFS e CORE.Se alterar o nome do cluster e os nomes dos nós, altere as configurações que utilizam.
No HDFS-SITE, as configurações que você precisa alterar, caso deseje, são as do namenodes e do cluster.
# DATASOURCE
___________________________________________________As bases de dados utilizadas para o projeto.
Faça o restore no SQL Server para utilizá-las como fonte de dados.[Adventureworks](https://github.com/Microsoft/sql-server-samples/releases/download/wide-world-importers-v1.0/WideWorldImporters-Full.bak)
e [WideWorldImporters](https://github.com/Microsoft/sql-server-samples/releases/download/wide-world-importers-v1.0/WideWorldImporters-Full.bak)### SQL Server
____________________________________________________
Se desejar a base RAW, porém, com as tabelas que julguei necessárias para o projeto, pode baixar daqui
A base HML, não tem tratamento nem nada. Já a PRD, os dados estão tratados. Ambas são originadas do banco de dados Adventureworks da Microsoft.dwadvworks_prd
dwadvworks_hml**[Faça o download das fontes de dados aqui.](https://drive.google.com/drive/u/0/folders/1dw7fwB9hsgc0sjUspzBVMcetywIdfRNf)**
### PostGreSQL
_____________________________________________________
Os arquivos dw_wideworld e wideworld_hml, são originados da WideWorldImporters, também da Microsoft.
Eles seguem a mesma linha do exemplo anterior, sendo HML a base sem tratamento e o dw_wideworld tratado.Esses arquivos são para restaurar no banco PostgreSQL.
Para migrar para o SGBD, utilizei o Airbyte, ferramenta de ELT.
Para subir as bases no PostgreSQL use os arquivos:
wideworld_hml
dw_wideworld**[Faça o download das fontes de dados aqui.](https://drive.google.com/drive/u/0/folders/1dw7fwB9hsgc0sjUspzBVMcetywIdfRNf)**