Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/richecr/tcc
Repository for research of my Course Completion Paper.
https://github.com/richecr/tcc
dou hacktoberfest hacktoberfest-accepted licitacao machine-learning nlp pdf tcc
Last synced: about 4 hours ago
JSON representation
Repository for research of my Course Completion Paper.
- Host: GitHub
- URL: https://github.com/richecr/tcc
- Owner: richecr
- Created: 2021-11-27T17:30:25.000Z (almost 3 years ago)
- Default Branch: main
- Last Pushed: 2022-10-09T13:57:37.000Z (about 2 years ago)
- Last Synced: 2023-03-08T05:52:01.825Z (over 1 year ago)
- Topics: dou, hacktoberfest, hacktoberfest-accepted, licitacao, machine-learning, nlp, pdf, tcc
- Language: Jupyter Notebook
- Homepage:
- Size: 89.9 MB
- Stars: 1
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Meu TCC
Repositório para pesquisa do meu Trabalho de Conclusão de Curso.
### Tasks:
- [X] Verifique se a biblioteca python-poppler é uma boa maneira de extrair texto de PDFs.
- [X] Extraia texto de PDF completo - Com todos os métodos de extração usados até agora.
- PyMuPDF obteve melhores resultados.
- [X] Segementação dos textos por publicações.
- [X] Utilizado o pipe que tem nos PDF para a separação de atos.
- [X] Regex para encontrar padrões de quando se inicia um novo ato.
- [X] Separação de atos por entidades do documento.
- [X] PDF convertido em um JSON com os atos separados por entidades.