https://github.com/qequ/clustering_nlp
Agrupación de palabras semejantes dado un corpus
https://github.com/qequ/clustering_nlp
Last synced: about 1 year ago
JSON representation
Agrupación de palabras semejantes dado un corpus
- Host: GitHub
- URL: https://github.com/qequ/clustering_nlp
- Owner: qequ
- Created: 2021-09-17T02:01:45.000Z (almost 5 years ago)
- Default Branch: main
- Last Pushed: 2021-09-25T00:19:39.000Z (over 4 years ago)
- Last Synced: 2024-10-12T00:42:25.370Z (over 1 year ago)
- Language: Jupyter Notebook
- Size: 21.2 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Text Mining - Clustering
Alumno: Alvaro Frias Garay
# Objetivo
Encontrar grupos de palabras similares en un corpus de texto
# Detalles técnicos
se utilizó [el corpus SBWCE de Cristian Cardellino](https://crscardellino.ar/resources/nlp/2016/02/06/spanish-billion-words-corpus-and-embeddings.html) y las siguientes tecnologías:
* Spacy
* Gensim
* scikit-learn
# Procedimiento
## Preprocesamiento del corpus
Se procesaron las oraciones agrupadas como tokens y se les dio el siguiente tratamiento;
* Se removieron stopwords y signos de puntuación.
* Se quitaron tokens no alfabéticos y de un largo de palabra menor a 3.
* Se removieron pronombres.
## Vectorización
Se utilizaron _Word Embeddings Neuronales_, Word2Vec, para crear vectores de palabras a partir del corpus dado.
## Tratamiento de la matriz de Word2Vec
Se la normalizó y se quitaron dimensiones con poca varianza
## Clustering
Se utilizó el algoritmo de K-means tomando una _ventana_ de 5, una frecuencia mínima de 5 y un número de clusters de 25.
## Resultados
A continuación una muestra de palabras agrupadas en clusters
```
Cluster 0
Words: mediodía, perdóname, bárbara, apresuré, visitarlas, dimir, créanmir, bendiga, vedado, mencioné, retornar, jurar, vieja, opción
```
```
Cluster 1
Words: seguro, ocurrir, vivir, habitación, mujer, bessie, noche, deseo, amigo, recibir, mano, puerta, opinión, hija, asunto, quedar, hijo, dar, pequeño, cuarto, forma, ser, atención, mirada, aspecto,
```
```
Cluster 2
Words: acaso, contestar, rato, noticia, lamentar, alegrar, amable, faltar, vuelta, comprender, criado, satisfacción, separar, sonrisa
```
```
Cluster 3
Words: elinor, señora, marianne, haber, hermana, casa, sentir, madre, deber, hacer,
```