https://github.com/macmod/portaltransparenciabr

Extrator de dados do portal da transparência do governo brasileiro.
https://github.com/macmod/portaltransparenciabr

Last synced: 27 days ago
JSON representation

Extrator de dados do portal da transparência do governo brasileiro.

Host: GitHub
URL: https://github.com/macmod/portaltransparenciabr
Owner: Macmod
License: gpl-3.0
Created: 2019-07-17T00:29:43.000Z (about 7 years ago)
Default Branch: master
Last Pushed: 2019-07-17T14:12:54.000Z (about 7 years ago)
Last Synced: 2025-11-09T11:02:13.966Z (8 months ago)
Language: Python
Size: 20.5 KB
Stars: 1
Watchers: 0
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# PortalTransparenciaBR
Extrator de dados do portal da transparência do governo brasileiro.
O propósito desse repositório é facilitar o acesso ao conjunto completo de dados do portal da transparência para fins de análise de dados offline. Se o seu propósito for a obtenção de respostas para pequenas consultas nos dados, utilize a [API do portal](http://www.portaltransparencia.gov.br/api-de-dados) ao invés.

## Categorias
As categorias de dados disponíveis são aquelas listadas na seção [Download de Dados](https://www.portaltransparencia.gov.br/download-de-dados/) do portal e são identificadas pelo nome na URL, como `servidores`, `bolsa-familia-pagamentos`, `licitacoes`, etc.

## Download
Dados de uma categoria podem ser baixados com o seguinte comando:
```bash
$ python ptfetcher.py
```

Os dados comprimidos, como disponibilizados no site, serão baixados para o diretório `data`.

## Desagrupamento
O portal oferece dados agrupados por subcategorias, tais como ano, mês e origem. Para desagrupar os dados já baixados, obtendo um CSV único para cada conjunto de CSVs com as mesmas colunas, execute o comando:
```bash
$ python ptmerger.py
```

Os dados extraídos serão inseridos no diretório `csv` e os dados desagrupados serão inseridos no diretório `output`. O diretório `log` serve apenas para registrar os nomes dos arquivos já extraídos para cada categoria, evitando a extração repetida de arquivos. Caso queira extrair a categoria inteira novamente, remova o diretório `log` e re-execute o comando.

## Observação
Os dados de algumas categorias do portal podem ser muito grandes, na casa de dezenas de gigabytes. Observe a utilização de disco durante a execução do programa.

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/macmod/portaltransparenciabr

Awesome Lists containing this project

README