https://github.com/turicas/genero-nomes
Classifica nomes por gênero de acordo com API do IBGE
https://github.com/turicas/genero-nomes
brazil data-driven-journalism datascience opendata python social-studies
Last synced: over 1 year ago
JSON representation
Classifica nomes por gênero de acordo com API do IBGE
- Host: GitHub
- URL: https://github.com/turicas/genero-nomes
- Owner: turicas
- License: lgpl-3.0
- Created: 2018-06-28T19:11:20.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2019-11-01T01:05:15.000Z (over 6 years ago)
- Last Synced: 2025-02-21T09:45:04.349Z (over 1 year ago)
- Topics: brazil, data-driven-journalism, datascience, opendata, python, social-studies
- Language: Python
- Homepage: https://brasil.io/dataset/genero-nomes
- Size: 8.79 KB
- Stars: 49
- Watchers: 3
- Forks: 11
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- Funding: .github/FUNDING.yml
- License: LICENSE
Awesome Lists containing this project
README
# Gênero dos Nomes Brasileiros
Script que baixa dados de gênero do [IBGE
Nomes](https://censo2010.ibge.gov.br/nomes/) (Censo 2010) e cria um banco de
dados, que pode ser utilizado para classificar nomes por gênero em bases que
não possuem essa informação.
## Licença
A licença do código é [LGPL3](https://www.gnu.org/licenses/lgpl-3.0.en.html) e
dos dados convertidos [Creative Commons Attribution
ShareAlike](https://creativecommons.org/licenses/by-sa/4.0/). Caso utilize os
dados, **cite a fonte original e quem tratou os dados**, como: **Fonte:
IBGE/Censo 2010, dados tratados por Álvaro
Justen/[Brasil.IO](https://brasil.io/)**. Caso compartilhe os dados, **utilize
a mesma licença**.
## Dados
Caso você não queira/possa rodar o script, **[acesse diretamente os dados
convertidos no Brasil.IO](https://brasil.io/dataset/genero-nomes)**.
Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa,
considere [fazer uma doação ao projeto Brasil.IO](https://brasil.io/doe), que é
mantido voluntariamente.
## Rodando
### Instalando as Dependências
Esse script depende de Python 3.7 e de algumas bibliotecas. Depois de instalar
o Python 3.7 instale as bibliotecas executando:
```bash
pip install -r requirements.txt
```
### Executando
Como o IBGE não divulga um índice de todos os nomes, é necessário que
você possua um arquivo que tenha uma lista de nomes para que o script possa
fazer a consulta. Por padrão o script utiliza como base um arquivo chamado
`data/input/documentos-brasil.csv.xz`, que deve possuir uma coluna `name` com o
nome e uma coluna `document-type` com o valor `CPF` ([o *dataset*
documentos-brasil do Brasil.IO possui esses
dados](https://brasil.io/dataset/documentos-brasil/documents)).
Depois de conseguir esse arquivo, execute o script:
```bash
./run.sh
```