{"id":17258551,"url":"https://github.com/turicas/genero-nomes","last_synced_at":"2025-02-24T20:31:18.987Z","repository":{"id":137523809,"uuid":"139058687","full_name":"turicas/genero-nomes","owner":"turicas","description":"Classifica nomes por gênero de acordo com API do IBGE","archived":false,"fork":false,"pushed_at":"2019-11-01T01:05:15.000Z","size":9,"stargazers_count":49,"open_issues_count":1,"forks_count":11,"subscribers_count":3,"default_branch":"master","last_synced_at":"2025-02-21T09:45:04.349Z","etag":null,"topics":["brazil","data-driven-journalism","datascience","opendata","python","social-studies"],"latest_commit_sha":null,"homepage":"https://brasil.io/dataset/genero-nomes","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"lgpl-3.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/turicas.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":".github/FUNDING.yml","license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null},"funding":{"custom":"https://apoia.se/brasilio"}},"created_at":"2018-06-28T19:11:20.000Z","updated_at":"2024-12-22T18:26:53.000Z","dependencies_parsed_at":null,"dependency_job_id":"bf06994b-0eba-4e64-94f6-685a55a62cd1","html_url":"https://github.com/turicas/genero-nomes","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/turicas%2Fgenero-nomes","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/turicas%2Fgenero-nomes/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/turicas%2Fgenero-nomes/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/turicas%2Fgenero-nomes/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/turicas","download_url":"https://codeload.github.com/turicas/genero-nomes/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":240163617,"owners_count":19758038,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["brazil","data-driven-journalism","datascience","opendata","python","social-studies"],"created_at":"2024-10-15T07:21:04.801Z","updated_at":"2025-02-24T20:31:18.395Z","avatar_url":"https://github.com/turicas.png","language":"Python","funding_links":["https://apoia.se/brasilio"],"categories":[],"sub_categories":[],"readme":"# Gênero dos Nomes Brasileiros\n\nScript que baixa dados de gênero do [IBGE\nNomes](https://censo2010.ibge.gov.br/nomes/) (Censo 2010) e cria um banco de\ndados, que pode ser utilizado para classificar nomes por gênero em bases que\nnão possuem essa informação.\n\n\n## Licença\n\nA licença do código é [LGPL3](https://www.gnu.org/licenses/lgpl-3.0.en.html) e\ndos dados convertidos [Creative Commons Attribution\nShareAlike](https://creativecommons.org/licenses/by-sa/4.0/). Caso utilize os\ndados, **cite a fonte original e quem tratou os dados**, como: **Fonte:\nIBGE/Censo 2010, dados tratados por Álvaro\nJusten/[Brasil.IO](https://brasil.io/)**. Caso compartilhe os dados, **utilize\na mesma licença**.\n\n\n## Dados\n\nCaso você não queira/possa rodar o script, **[acesse diretamente os dados\nconvertidos no Brasil.IO](https://brasil.io/dataset/genero-nomes)**.\n\nSe esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa,\nconsidere [fazer uma doação ao projeto Brasil.IO](https://brasil.io/doe), que é\nmantido voluntariamente.\n\n\n## Rodando\n\n### Instalando as Dependências\n\nEsse script depende de Python 3.7 e de algumas bibliotecas. Depois de instalar\no Python 3.7 instale as bibliotecas executando:\n\n```bash\npip install -r requirements.txt\n```\n\n### Executando\n\nComo o IBGE não divulga um índice de todos os nomes, é necessário que\nvocê possua um arquivo que tenha uma lista de nomes para que o script possa\nfazer a consulta. Por padrão o script utiliza como base um arquivo chamado\n`data/input/documentos-brasil.csv.xz`, que deve possuir uma coluna `name` com o\nnome e uma coluna `document-type` com o valor `CPF` ([o *dataset*\ndocumentos-brasil do Brasil.IO possui esses\ndados](https://brasil.io/dataset/documentos-brasil/documents)).\n\nDepois de conseguir esse arquivo, execute o script:\n\n```bash\n./run.sh\n```\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fturicas%2Fgenero-nomes","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fturicas%2Fgenero-nomes","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fturicas%2Fgenero-nomes/lists"}