Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/turicas/salarios-magistrados
Baixa as planilhas de salários de magistrados, extrai os contracheques, limpa e exporta pra CSV
https://github.com/turicas/salarios-magistrados
brazil data-driven-journalism datascience justice opendata python
Last synced: 10 days ago
JSON representation
Baixa as planilhas de salários de magistrados, extrai os contracheques, limpa e exporta pra CSV
- Host: GitHub
- URL: https://github.com/turicas/salarios-magistrados
- Owner: turicas
- License: lgpl-3.0
- Created: 2017-12-19T17:48:44.000Z (almost 7 years ago)
- Default Branch: develop
- Last Pushed: 2021-07-17T19:17:10.000Z (over 3 years ago)
- Last Synced: 2024-10-16T07:21:30.686Z (25 days ago)
- Topics: brazil, data-driven-journalism, datascience, justice, opendata, python
- Language: Python
- Homepage: https://brasil.io/dataset/salarios-magistrados
- Size: 43 KB
- Stars: 250
- Watchers: 27
- Forks: 39
- Open Issues: 6
-
Metadata Files:
- Readme: README.md
- Funding: .github/FUNDING.yml
- License: LICENSE
Awesome Lists containing this project
README
# Salários Magistrados - CNJ
Script que baixa todas as [planilhas de salários de magistrados do site do
CNJ](http://www.cnj.jus.br/transparencia/remuneracao-dos-magistrados), extrai a
aba "Contracheque", faz algumas limpezas e exporta tudo para CSV.## Licença
A licença do código é [LGPL3](https://www.gnu.org/licenses/lgpl-3.0.en.html) e
dos dados convertidos [Creative Commons Attribution
ShareAlike](https://creativecommons.org/licenses/by-sa/4.0/). Caso utilize os
dados, **cite a fonte original e quem tratou os dados**, como: **Fonte:
Conselho Nacional de Justiça, dados tratados por Álvaro
Justen/[Brasil.IO](https://brasil.io/)**. Caso compartilhe os dados, **utilize
a mesma licença**.## Dados
Caso você não queira/possa rodar o script, **[acesse diretamente os dados
convertidos no Brasil.IO](https://brasil.io/dataset/salarios-magistrados)**.Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa,
considere [fazer uma doação ao projeto Brasil.IO](https://brasil.io/doe), que é
mantido voluntariamente.### Erros nos Dados
Nem todas as planilhas puderam ser convertidas. Verifique o arquivo
[erros.csv](erros.csv) para entender quais erros existem nos dados originais e
como isso se propaga para os dados gerados pelo script.Encontrou algum erro na conversão que o script faz? [Crie uma issue nesse
repositório](https://github.com/turicas/salarios-magistrados/issues/new).## Rodando
Esse script depende de Python 3.7+ e de algumas bibliotecas. Instale-as
executando:```bash
pip install -r requirements.txt
```Para rodar:
```bash
./run.sh
```Esse script irá rodar dois scripts, um que baixa as planilhas e outro que as
extrai e gera o resultado. Você pode rodá-los independentemente também:```bash
# Baixa planilhas e gera `data/output/planilha.csv`:
scrapy runspider --loglevel=INFO -o data/output/planilha.csv download_files.py
gzip data/output/planilha.csv# Lê `data/output/planilha.csv.gz` e gera outros arquivos em `data/output`:
python parse_files.py
```Um diretório `data` será criado, onde:
- `data/download`: planilhas baixadas;
- `data/output`: arquivos de saída (CSVs compactados).