https://github.com/macmod/portaltransparenciabr
Extrator de dados do portal da transparência do governo brasileiro.
https://github.com/macmod/portaltransparenciabr
Last synced: 9 months ago
JSON representation
Extrator de dados do portal da transparência do governo brasileiro.
- Host: GitHub
- URL: https://github.com/macmod/portaltransparenciabr
- Owner: Macmod
- License: gpl-3.0
- Created: 2019-07-17T00:29:43.000Z (almost 7 years ago)
- Default Branch: master
- Last Pushed: 2019-07-17T14:12:54.000Z (almost 7 years ago)
- Last Synced: 2025-03-26T19:24:22.860Z (about 1 year ago)
- Language: Python
- Size: 20.5 KB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# PortalTransparenciaBR
Extrator de dados do portal da transparência do governo brasileiro.
O propósito desse repositório é facilitar o acesso ao conjunto completo de dados do portal da transparência para fins de análise de dados offline. Se o seu propósito for a obtenção de respostas para pequenas consultas nos dados, utilize a [API do portal](http://www.portaltransparencia.gov.br/api-de-dados) ao invés.
## Categorias
As categorias de dados disponíveis são aquelas listadas na seção [Download de Dados](https://www.portaltransparencia.gov.br/download-de-dados/) do portal e são identificadas pelo nome na URL, como `servidores`, `bolsa-familia-pagamentos`, `licitacoes`, etc.
## Download
Dados de uma categoria podem ser baixados com o seguinte comando:
```bash
$ python ptfetcher.py
```
Os dados comprimidos, como disponibilizados no site, serão baixados para o diretório `data`.
## Desagrupamento
O portal oferece dados agrupados por subcategorias, tais como ano, mês e origem. Para desagrupar os dados já baixados, obtendo um CSV único para cada conjunto de CSVs com as mesmas colunas, execute o comando:
```bash
$ python ptmerger.py
```
Os dados extraídos serão inseridos no diretório `csv` e os dados desagrupados serão inseridos no diretório `output`. O diretório `log` serve apenas para registrar os nomes dos arquivos já extraídos para cada categoria, evitando a extração repetida de arquivos. Caso queira extrair a categoria inteira novamente, remova o diretório `log` e re-execute o comando.
## Observação
Os dados de algumas categorias do portal podem ser muito grandes, na casa de dezenas de gigabytes. Observe a utilização de disco durante a execução do programa.