Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/7PartidasDigital/AnalisisTextual
Todo lo accesorio y entorno al proyecto sobre Análisis de textos con R
https://github.com/7PartidasDigital/AnalisisTextual
r sentimentanalysis stylometry textualanalysis topicmodelling
Last synced: about 2 months ago
JSON representation
Todo lo accesorio y entorno al proyecto sobre Análisis de textos con R
- Host: GitHub
- URL: https://github.com/7PartidasDigital/AnalisisTextual
- Owner: 7PartidasDigital
- Created: 2017-11-25T19:06:24.000Z (almost 7 years ago)
- Default Branch: master
- Last Pushed: 2023-12-27T09:40:49.000Z (9 months ago)
- Last Synced: 2024-05-21T02:11:33.817Z (4 months ago)
- Topics: r, sentimentanalysis, stylometry, textualanalysis, topicmodelling
- Language: R
- Homepage:
- Size: 11.6 MB
- Stars: 5
- Watchers: 0
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
[![DOI](https://zenodo.org/badge/DOI/10.5281/zenodo.1195652.svg)](https://doi.org/10.5281/zenodo.1195652)
# Análisis Textual
En este repositorio se incluyen todos los materiales y scripts que se desarrollen referentes al **Análisis Textual** (minería de textos, estilometría, análisis de sentimientos, PLN, etc.) que sean colaterales al proyecto base y que se utlizan tanto para trabajo interno como para cursos y talleres.En *MdT* están los materiales usados para analizar los diálogos del _Ministerio del tiempo_. Consisten en una tabla bajo formato .txt separada por tabs con cinco columnas. La primera indica la temporada, la segunda el episodio (de manera correlativa de 1 a 34), la tercera el título del episodio, la cuarta el nombre del personaje y la quinta el texto de pronuncia el personaje. El otro es una tabla excel con algunas estadística básicas y datos de audiencia sobre la serie.
En *Scripts* están todos los pequeños scripts de R que se emplean para las diversas tareas colaterales del proyecto y de otras investigaciones sobre lectura a distancia, estilometría, análisis textual automatizado, etc.
En *textos* están todos los textos necesarios para la enseñanza y experimentación de _Análisis textual con R_.
*vacias* contiene los ficheros planos de varios orígenes que recogen listas de palabras vacías (_stopwords_) y con el que se construye el `dataset vacias_esp` que se utiliza en los scripts necesarios.
*lexicones* contiene los lexicones que se han preparado para el análisis de sentimientos, tanto para realizarlo con el paquete _tidytext_ como con _syuzhet_. La carpeta _tidytext_ contiene la tabla con todos los diccionarios en español. Se ha mantenido la estructura "palabra" "sentimiento" "lexicon" "valor" de la dataframe original del paquete _tidytext_. Se ha eliminado el lexicon `loughran` y se han incorporado dos nuevos: `syuzhet`, que es una traducción adaptada del `syuzhet_dict` de ML Jockers y otro designado `uva` que se basa en todos los demás pero con positivo y negativo. En esa misma carpeta se encuentra la función `get_sentiments` ligeramente reescrita para puentear la función `get_sentiments` del paquete `tidytext` original.
En la carpeta _syuzhet_ se encuentran los diccionarios `bing_es`, `afinn_es`, `syuzhet_es` y `uva_es` para que puedan ser cargados como diccionarios `custom` en el paquete `syuzhet`.
*Aviso*: el lexicón `bing` está siendo objeto de una revisión, por lo que es previsible que un futuro cercano (finales verano 2018) haya una nueva versión.