An open API service indexing awesome lists of open source software.

https://github.com/thatcoderman/claster

cluster data from text embeddings
https://github.com/thatcoderman/claster

Last synced: 7 months ago
JSON representation

cluster data from text embeddings

Awesome Lists containing this project

README

          

[![open in colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ThatCoderMan/claster/blob/master/cluster.ipynb)

# Кластеризация Данных

Project stack

- Python 3.10
- HuggingFace Embedding
- DBSCAN
- UMAP
- Plotly
- spaCy

## Общая Идея

Проект представляет собой инструмент для анализа и визуализации текстовых данных, используя методы машинного обучения и кластеризации. Основная идея проекта заключается в преобразовании текстовых данных в числовые эмбединги с помощью предобученной модели HuggingFace, после чего применяется алгоритм DBSCAN для кластеризации этих эмбедингов. После кластеризации программа генерирует суммари для каждого кластера и визуализирует результаты на графике.

## Проблемы, Решаемые Проектом

Проект решает проблему анализа больших объемов текстовых данных, позволяя выявить ключевые темы и аномалии в данных. Это может быть полезно для исследователей, аналитиков и специалистов в области обработки естественного языка, работающих с большими наборами данных, такими как отзывы клиентов, социальные медиа, научные статьи и т.д.

## Применение Проекта

Проект может использоваться для анализа отзывов клиентов, исследования трендов в социальных сетях, кластеризации научных статей по темам и многое другое. Визуализация результатов кластеризации позволяет легко идентифицировать группы похожих документов или отзывов, что может быть полезно для принятия решений на основе анализа данных.

## Техническая Реализация

Проект реализован на Python и использует следующие технологии и библиотеки:

- **HuggingFace Embedding**: Для преобразования текстовых данных в числовые эмбединги используется предобученная модель HuggingFace.
- **DBSCAN**: Алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise) используется для кластеризации эмбедингов.
- **UMAP**: Для создания проекции эмбедингов в двухмерное пространство используется алгоритм UMAP (Uniform Manifold Approximation and Projection).
- **Plotly**: Для визуализации кластеров используется библиотека Plotly, которая позволяет создавать интерактивные графики.
- **spaCy**: Для генерации суммариев кластеров используется библиотека spaCy, которая предоставляет инструменты для обработки естественного языка.

Этот проект демонстрирует возможности использования современных методов машинного обучения и обработки естественного языка для анализа и визуализации текстовых данных, предоставляя ценные инсайты и упрощая процесс исследования больших объемов информации.

## Developers:

- [ThatCoderMan (Артемий)](https://github.com/ThatCoderMan)
- [Minayro (Александр)](https://github.com/Minayro)
- [Bully-Boy (Роман)](https://github.com/Bully-Boy)