https://github.com/turicas/genero-nomes

Classifica nomes por gênero de acordo com API do IBGE
https://github.com/turicas/genero-nomes

brazil data-driven-journalism datascience opendata python social-studies

Last synced: over 1 year ago
JSON representation

Classifica nomes por gênero de acordo com API do IBGE

Host: GitHub
URL: https://github.com/turicas/genero-nomes
Owner: turicas
License: lgpl-3.0
Created: 2018-06-28T19:11:20.000Z (almost 8 years ago)
Default Branch: master
Last Pushed: 2019-11-01T01:05:15.000Z (over 6 years ago)
Last Synced: 2025-02-21T09:45:04.349Z (over 1 year ago)
Topics: brazil, data-driven-journalism, datascience, opendata, python, social-studies
Language: Python
Homepage: https://brasil.io/dataset/genero-nomes
Size: 8.79 KB
Stars: 49
Watchers: 3
Forks: 11
Open Issues: 1
Metadata Files:
- Readme: README.md
- Funding: .github/FUNDING.yml
- License: LICENSE

Awesome Lists containing this project

README

# Gênero dos Nomes Brasileiros

Script que baixa dados de gênero do [IBGE
Nomes](https://censo2010.ibge.gov.br/nomes/) (Censo 2010) e cria um banco de
dados, que pode ser utilizado para classificar nomes por gênero em bases que
não possuem essa informação.

## Licença

A licença do código é [LGPL3](https://www.gnu.org/licenses/lgpl-3.0.en.html) e
dos dados convertidos [Creative Commons Attribution
ShareAlike](https://creativecommons.org/licenses/by-sa/4.0/). Caso utilize os
dados, **cite a fonte original e quem tratou os dados**, como: **Fonte:
IBGE/Censo 2010, dados tratados por Álvaro
Justen/[Brasil.IO](https://brasil.io/)**. Caso compartilhe os dados, **utilize
a mesma licença**.

## Dados

Caso você não queira/possa rodar o script, **[acesse diretamente os dados
convertidos no Brasil.IO](https://brasil.io/dataset/genero-nomes)**.

Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa,
considere [fazer uma doação ao projeto Brasil.IO](https://brasil.io/doe), que é
mantido voluntariamente.

## Rodando

### Instalando as Dependências

Esse script depende de Python 3.7 e de algumas bibliotecas. Depois de instalar
o Python 3.7 instale as bibliotecas executando:

```bash
pip install -r requirements.txt
```

### Executando

Como o IBGE não divulga um índice de todos os nomes, é necessário que
você possua um arquivo que tenha uma lista de nomes para que o script possa
fazer a consulta. Por padrão o script utiliza como base um arquivo chamado
`data/input/documentos-brasil.csv.xz`, que deve possuir uma coluna `name` com o
nome e uma coluna `document-type` com o valor `CPF` ([o *dataset*
documentos-brasil do Brasil.IO possui esses
dados](https://brasil.io/dataset/documentos-brasil/documents)).

Depois de conseguir esse arquivo, execute o script:

```bash
./run.sh
```

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/turicas/genero-nomes

Awesome Lists containing this project

README