Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/jorgemaciel/datasus
Dados do Sistema de Informação Hospitalar (SIH)
https://github.com/jorgemaciel/datasus
airflow datasus docker minio python
Last synced: about 1 month ago
JSON representation
Dados do Sistema de Informação Hospitalar (SIH)
- Host: GitHub
- URL: https://github.com/jorgemaciel/datasus
- Owner: jorgemaciel
- Created: 2024-07-13T23:36:12.000Z (6 months ago)
- Default Branch: master
- Last Pushed: 2024-08-15T23:23:40.000Z (5 months ago)
- Last Synced: 2024-08-16T00:34:20.164Z (5 months ago)
- Topics: airflow, datasus, docker, minio, python
- Language: Jupyter Notebook
- Homepage:
- Size: 425 KB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
## Dados do Sistema de Informação Hospitalar (SIH) Fortaleza Ceará
Este projeto consiste em entregar uma datalake com dados do Sistema de Informação Hospitalar (SIH) do DATASUS usando as ferramentas:
- Airflow (2.7.1)
- PySpark (3.5.1)
- MinIO (AGPL v3) :flamingo:
- Jupyter Lab
### Funcionalidades:
✅ Pipeline para ingestão de dados no formato dbc e transformados em csv na camada raw\
❓ Processar dados da camada row para a bronze\
❓ Processar dados da camada row para a silver\
❓ Dashboard### Objetivo:
Criar um ambiente centralizado e estruturado para armazenar e processar os dados do SIH, permitindo análises e insights.
# :card_index_dividers: Dataset's
Os dados brutos são armazenados na camada raw do MinIO :flamingo:
- :white_check_mark: Record Linkage Comparison Patterns https://bit.ly/1Aoywaq### Build e start containers
Primeiro, você precisa construir uma imagem docker digitando `make build`. Depois disso, digite `make start` toda vez que quiser iniciar o serviço.### Usando Jupyter
Após a conclusão do processo de construção e inicialização, digite `make token` e copie o resultado.Acesse [http://localhost:8888](http://localhost:8888), cole o token no campo text/password e envie. Se tudo estiver certo, agora você tem acesso ao Jupyter Lab e pode criar scripts python normalmente.
### Acessando Airflow
Acesse [http://localhost:9090](http://localhost:9090) Usando o Apache Airflow como orquestrador para a ingestão de dados do nosso Data Lake.
- username: admin
- passsword: admin### Acesse MinIO
Acesse [http://localhost:9000](http://localhost:9000) e faça login usando estas credenciais:
- username: minioadmin
- passsword: minioadminAgora você pode criar seus próprios buckets para salvar e manipular arquivos como um AWS S3 :wine_glass:.
### Acessando Spark Web UI
Acesse [http://localhost:8080](http://localhost:8080) para inspecionar aplicativos e workers do PySpark (por padrão, o `docker-compose.yml` é configurado para executar 1 worker do PySpark com 1 vCore e 1 GB de memória cada).Para inspecionar os estágios de execução, você pode acessar [http://localhost:4040](http://localhost:4040) durante a execução.
### Stop containers
Para parar todos os contêineres, digite `make stop` no terminal e espere que todos eles sejam baixados.## :package: Volumes
Os exemplos estão no diretório `workspace/` na raiz do projeto. Esta pasta é compartilhada entre a máquina host e o jupyter workspace em execução dentro do contêiner.