Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/okfn-brasil/querido-diario-data-processing
Text processing repository to free brazilian municipal gazettes from closed file formats for the Querido Diário project.
https://github.com/okfn-brasil/querido-diario-data-processing
data-processing elasticsearch hacktoberfest pipelines python sql
Last synced: about 8 hours ago
JSON representation
Text processing repository to free brazilian municipal gazettes from closed file formats for the Querido Diário project.
- Host: GitHub
- URL: https://github.com/okfn-brasil/querido-diario-data-processing
- Owner: okfn-brasil
- License: mit
- Created: 2020-10-01T10:54:22.000Z (about 4 years ago)
- Default Branch: main
- Last Pushed: 2024-11-11T23:41:08.000Z (4 days ago)
- Last Synced: 2024-11-12T00:29:03.708Z (4 days ago)
- Topics: data-processing, elasticsearch, hacktoberfest, pipelines, python, sql
- Language: Python
- Homepage:
- Size: 16.8 MB
- Stars: 20
- Watchers: 11
- Forks: 17
- Open Issues: 48
-
Metadata Files:
- Readme: README.md
- Contributing: docs/CONTRIBUTING-en-US.md
- Funding: docs/FUNDING.yml
- License: LICENSE
- Code of conduct: docs/CODE_OF_CONDUCT-en-US.md
- Support: docs/SUPPORT-en-US.md
Awesome Lists containing this project
README
**Português (BR)** | [English (US)](/docs/README-en-US.md)
# Processamento de dados
Dentro do [ecossistema do Querido Diário](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/guia-de-contribuicao.html#ecossistema-do-querido-diario), este repositório é o responsável por transformações em documentos e carregamento nos armazenamentos adequados.Conheça mais sobre as [tecnologias](https://queridodiario.ok.org.br/tecnologia) e a [história](https://queridodiario.ok.org.br/sobre) do projeto.
# Sumário
- [Como contribuir](#como-contribuir)
- [Ambiente de desenvolvimento](#ambiente-de-desenvolvimento)
- [Como executar](#como-executar)
- [Suporte](#suporte)
- [Agradecimentos](#agradecimentos)
- [Open Knowledge Brasil](#open-knowledge-brasil)
- [Licença](#licença)# Como contribuir
Agradecemos por considerar contribuir com o Querido Diário! :tada:
Você encontra como fazê-lo no [CONTRIBUTING.md](/docs/CONTRIBUTING.md)!
Além disso, consulte a [documentação do Querido Diário](https://docs.queridodiario.ok.org.br/pt-br/latest/) para te ajudar.
# Ambiente de desenvolvimento
Para configurar o ambiente de desenvolvimento, é necessário o gestor de containers [podman](https://podman.io/).
Por meio de um terminal aberto no diretório raíz do repositório, use a sequência de comandos a seguir para construir as imagens e montar o pod e os containers de recursos em sistema operacional Linux:
```console
make build
make setup
```Para mais detalhes sobre a configuração leia ["como configurar o ambiente de desenvolvimento"](/docs/CONTRIBUTING.md#como-configurar-o-ambiente-de-desenvolvimento).
# Como executar
Para executar qualquer pipeline, é necessário popular o banco de metadados (Postgres) e baixar documentos para o armazenamento de objetos (Minio), para isso, podemos usar o [repositório de raspadores](https://github.com/okfn-brasil/querido-diario) de acordo com a [documentação de configuração de ponta-a-ponta](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/configuracao-de-ponta-a-ponta.html#gerando-dados-com-os-raspadores).
Após a execução de raspadores, podemos executar o pipeline de extração textual que populará o motor de busca (Opensearch) com o índice principal (texto completo de diários) e os índices temáticos (excertos de diários relacionados a algum tema). Isto é feito por meio do comando:
```console
make re-run
```Por padrão, este pipeline processará todos os documentos do banco, independente se já foram processados previamente. Se desejar mudar este comportamento, altere a variável de ambiente `EXECUTION_MODE` no `envvars`.
Com os textos extraídos, também podemos executar o pipeline de agregação de dados, que disponibiliza os textos dos diários em formato CSV. Para isso, execute:
```console
make aggregate-gazettes
```Os resultados podem ser encontrados no motor de busca e no armazenamento de objetos. Encontre dicas de como acessá-los nesta [documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/configuracao-de-ponta-a-ponta.html#dicas-de-uso-do-ambiente).
# Suporte
Ingresse em nosso [canal de comunidade](https://go.ok.org.br/discord) para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cívica em geral.
# Agradecimentos
A aplicação foi inicialmente desenvolvida junto às pessoas do estúdio de software [Jurema](https://jurema.la/).Este projeto é mantido pela Open Knowledge Brasil e possível graças às comunidades técnicas, às [Embaixadoras de Inovação Cívica](https://embaixadoras.ok.org.br/), às pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.
Conheça [quem apoia o Querido Diário](https://queridodiario.ok.org.br/apoie#quem-apoia).
# Open Knowledge Brasil
A [Open Knowledge Brasil](https://ok.org.br/) é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cívicas, projetos, análises de políticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.
Todo o trabalho produzido pela OKBR está disponível livremente.
# Licença
Código licenciado sob a [Licença MIT](/LICENSE.md).