https://github.com/ggteixeira/corpus-cleaner
Linguistic tool (made by a linguist, for linguists) that scraps corpora, automatically cleans it up, and generates n-grams.
https://github.com/ggteixeira/corpus-cleaner
beautifulsoup4 bs4 corpora corpus corpus-linguistics crawler linguistics nlp python scraper web-scraping
Last synced: 7 months ago
JSON representation
Linguistic tool (made by a linguist, for linguists) that scraps corpora, automatically cleans it up, and generates n-grams.
- Host: GitHub
- URL: https://github.com/ggteixeira/corpus-cleaner
- Owner: ggteixeira
- Created: 2021-12-17T20:09:06.000Z (almost 4 years ago)
- Default Branch: master
- Last Pushed: 2021-12-18T17:24:57.000Z (almost 4 years ago)
- Last Synced: 2025-01-11T13:46:04.067Z (9 months ago)
- Topics: beautifulsoup4, bs4, corpora, corpus, corpus-linguistics, crawler, linguistics, nlp, python, scraper, web-scraping
- Language: Python
- Homepage:
- Size: 2.75 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
## Corpus Cleaner
### Introdução
Um crawler feito em Python que recebe uma URL e devolve num arquivo ".txt" apenas seu texto.
Coletar e limpar corpus é uma tarefa árdua para o linguista computacional.
O Corpus Cleaner é um scraper escrito em Python
Esta ferramenta escrita em Python tem como objetivo ajudar o usuário ao menos no que diz respeito a coletar textos em websites, pois ela recebe uma URL e devolve seu conteúdo já limpo em um arquivo de texto (".txt").
### Milestones/To-do List
- [x] Modularizar o código em funções
- [ ] Organizar projeto em pacotes (arquivos) dedicados
- [x] Feature: implementar a funcionalidade de escrever o corpus limpo em um arquivo ".txt".
- [x] Em vez de filtrar *anchors* (*aka* tags ``), mostrar seu texto, removendo os links dele### Bibliografia utilizada
* **Tutorial**: [Extract text from a webpage using BeautifulSoup and Python](https://matix.io/extract-text-from-webpage-using-beautifulsoup-and-python/)
* Requests: https://realpython.com/python-requests/
***