https://github.com/hmeleiro/menearme
Web scraper en R para meneame.com
https://github.com/hmeleiro/menearme
Last synced: 3 months ago
JSON representation
Web scraper en R para meneame.com
- Host: GitHub
- URL: https://github.com/hmeleiro/menearme
- Owner: hmeleiro
- License: mit
- Created: 2018-04-23T13:36:08.000Z (about 7 years ago)
- Default Branch: master
- Last Pushed: 2018-04-24T10:28:22.000Z (about 7 years ago)
- Last Synced: 2025-01-02T19:21:49.709Z (5 months ago)
- Language: R
- Size: 26.4 KB
- Stars: 1
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# Qué hace meneaRme
MeneaRme es un web scraper en R para el agregador de enlaces meneame.net. Proporcionándole unos pocos argumentos devolverá un csv con los siguientes campos:- Fecha
- Titular
- Entradilla
- Meneos
- Clics
- Comentarios
- Votos positivos
- Votos negativos
- Votos anónimos
- Karma
- Comentarios
- Nombre del usuario que ha compartido el contenido
- Web de origen
- El sub del que forma parte el contenido
- El link al contenido# Instalación
Para instalarlo es tan fácil como ejecutar el comando ```devtools::install_github("meneos/meneaRme)```.
# Cómo funciona
MeneaRme tiene tres funciones: una para scrapear la portada (```portada()```), otra para los subs (```submeneame()```) y otra para scrapear búsquedas por palabras (```busca()```).
# Ejemplos de uso
## portada()
El comando ```portada(paginas = 10)``` scrapea las diez primeras páginas de la [Edición General](https://www.meneame.net/).## submeneame()
El comando ```submeneame(sub = "Series", paginas = 10)``` scrapea las diez primeras páginas del sub [Series](https://www.meneame.net/m/Series).## busca()
El comando ```busca(palabra = "guerra siria", paginas = 10)``` scrapea las diez primeras páginas de la búsqueda "guerra siria" en el buscador de meneame.net. Es importante señalar que para las búsquedas meneame solo ofrece 40 páginas por lo que el argumento paginas solo aceptará números por debajo del 41. Para conseguir el máximo número de entradas meneaRme scrapea los resultados de búsquedas por relevancia y por fecha. Esto significa que probablemente el csv resultante contendrá duplicados que habrá que limpiar posteriormente.