Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/richecr/tcc

Repository for research of my Course Completion Paper.
https://github.com/richecr/tcc

dou hacktoberfest hacktoberfest-accepted licitacao machine-learning nlp pdf tcc

Last synced: about 4 hours ago
JSON representation

Repository for research of my Course Completion Paper.

Awesome Lists containing this project

README

        

# Meu TCC

Repositório para pesquisa do meu Trabalho de Conclusão de Curso.

### Tasks:

- [X] Verifique se a biblioteca python-poppler é uma boa maneira de extrair texto de PDFs.
- [X] Extraia texto de PDF completo - Com todos os métodos de extração usados até agora.
- PyMuPDF obteve melhores resultados.
- [X] Segementação dos textos por publicações.
- [X] Utilizado o pipe que tem nos PDF para a separação de atos.
- [X] Regex para encontrar padrões de quando se inicia um novo ato.
- [X] Separação de atos por entidades do documento.
- [X] PDF convertido em um JSON com os atos separados por entidades.