An open API service indexing awesome lists of open source software.

https://github.com/ggteixeira/corpus-cleaner

Linguistic tool (made by a linguist, for linguists) that scraps corpora, automatically cleans it up, and generates n-grams.
https://github.com/ggteixeira/corpus-cleaner

beautifulsoup4 bs4 corpora corpus corpus-linguistics crawler linguistics nlp python scraper web-scraping

Last synced: 7 months ago
JSON representation

Linguistic tool (made by a linguist, for linguists) that scraps corpora, automatically cleans it up, and generates n-grams.

Awesome Lists containing this project

README

          

## Corpus Cleaner

### Introdução

Um crawler feito em Python que recebe uma URL e devolve num arquivo ".txt" apenas seu texto.

Coletar e limpar corpus é uma tarefa árdua para o linguista computacional.

O Corpus Cleaner é um scraper escrito em Python

Esta ferramenta escrita em Python tem como objetivo ajudar o usuário ao menos no que diz respeito a coletar textos em websites, pois ela recebe uma URL e devolve seu conteúdo já limpo em um arquivo de texto (".txt").

### Milestones/To-do List

- [x] Modularizar o código em funções
- [ ] Organizar projeto em pacotes (arquivos) dedicados
- [x] Feature: implementar a funcionalidade de escrever o corpus limpo em um arquivo ".txt".
- [x] Em vez de filtrar *anchors* (*aka* tags ``), mostrar seu texto, removendo os links dele

### Bibliografia utilizada

* **Tutorial**: [Extract text from a webpage using BeautifulSoup and Python](https://matix.io/extract-text-from-webpage-using-beautifulsoup-and-python/)

* Requests: https://realpython.com/python-requests/

***