Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/okfn-brasil/querido-diario-data-processing

Text processing repository to free brazilian municipal gazettes from closed file formats for the Querido Diário project.
https://github.com/okfn-brasil/querido-diario-data-processing

data-processing elasticsearch hacktoberfest pipelines python sql

Last synced: about 8 hours ago
JSON representation

Text processing repository to free brazilian municipal gazettes from closed file formats for the Querido Diário project.

Awesome Lists containing this project

README

        

**Português (BR)** | [English (US)](/docs/README-en-US.md)


Querido Diário

# Processamento de dados
Dentro do [ecossistema do Querido Diário](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/guia-de-contribuicao.html#ecossistema-do-querido-diario), este repositório é o responsável por transformações em documentos e carregamento nos armazenamentos adequados.

Conheça mais sobre as [tecnologias](https://queridodiario.ok.org.br/tecnologia) e a [história](https://queridodiario.ok.org.br/sobre) do projeto.

# Sumário
- [Como contribuir](#como-contribuir)
- [Ambiente de desenvolvimento](#ambiente-de-desenvolvimento)
- [Como executar](#como-executar)
- [Suporte](#suporte)
- [Agradecimentos](#agradecimentos)
- [Open Knowledge Brasil](#open-knowledge-brasil)
- [Licença](#licença)

# Como contribuir



catarse

Agradecemos por considerar contribuir com o Querido Diário! :tada:

Você encontra como fazê-lo no [CONTRIBUTING.md](/docs/CONTRIBUTING.md)!

Além disso, consulte a [documentação do Querido Diário](https://docs.queridodiario.ok.org.br/pt-br/latest/) para te ajudar.

# Ambiente de desenvolvimento

Para configurar o ambiente de desenvolvimento, é necessário o gestor de containers [podman](https://podman.io/).

Por meio de um terminal aberto no diretório raíz do repositório, use a sequência de comandos a seguir para construir as imagens e montar o pod e os containers de recursos em sistema operacional Linux:

```console
make build
make setup
```

Para mais detalhes sobre a configuração leia ["como configurar o ambiente de desenvolvimento"](/docs/CONTRIBUTING.md#como-configurar-o-ambiente-de-desenvolvimento).

# Como executar

Para executar qualquer pipeline, é necessário popular o banco de metadados (Postgres) e baixar documentos para o armazenamento de objetos (Minio), para isso, podemos usar o [repositório de raspadores](https://github.com/okfn-brasil/querido-diario) de acordo com a [documentação de configuração de ponta-a-ponta](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/configuracao-de-ponta-a-ponta.html#gerando-dados-com-os-raspadores).

Após a execução de raspadores, podemos executar o pipeline de extração textual que populará o motor de busca (Opensearch) com o índice principal (texto completo de diários) e os índices temáticos (excertos de diários relacionados a algum tema). Isto é feito por meio do comando:

```console
make re-run
```

Por padrão, este pipeline processará todos os documentos do banco, independente se já foram processados previamente. Se desejar mudar este comportamento, altere a variável de ambiente `EXECUTION_MODE` no `envvars`.

Com os textos extraídos, também podemos executar o pipeline de agregação de dados, que disponibiliza os textos dos diários em formato CSV. Para isso, execute:

```console
make aggregate-gazettes
```

Os resultados podem ser encontrados no motor de busca e no armazenamento de objetos. Encontre dicas de como acessá-los nesta [documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/configuracao-de-ponta-a-ponta.html#dicas-de-uso-do-ambiente).

# Suporte



Discord Invite

Ingresse em nosso [canal de comunidade](https://go.ok.org.br/discord) para trocas sobre os projetos, dúvidas, pedidos de ajuda com contribuição e conversar sobre inovação cívica em geral.

# Agradecimentos
A aplicação foi inicialmente desenvolvida junto às pessoas do estúdio de software [Jurema](https://jurema.la/).

Este projeto é mantido pela Open Knowledge Brasil e possível graças às comunidades técnicas, às [Embaixadoras de Inovação Cívica](https://embaixadoras.ok.org.br/), às pessoas voluntárias e doadoras financeiras, além de universidades parceiras, empresas apoiadoras e financiadoras.

Conheça [quem apoia o Querido Diário](https://queridodiario.ok.org.br/apoie#quem-apoia).

# Open Knowledge Brasil



Bluesky Follow


Instagram Follow


LinkedIn Follow


Mastodon Follow

A [Open Knowledge Brasil](https://ok.org.br/) é uma organização da sociedade civil sem fins lucrativos, cuja missão é utilizar e desenvolver ferramentas cívicas, projetos, análises de políticas públicas, jornalismo de dados para promover o conhecimento livre nos diversos campos da sociedade.

Todo o trabalho produzido pela OKBR está disponível livremente.

# Licença

Código licenciado sob a [Licença MIT](/LICENSE.md).