https://github.com/thatcoderman/claster
cluster data from text embeddings
https://github.com/thatcoderman/claster
Last synced: 7 months ago
JSON representation
cluster data from text embeddings
- Host: GitHub
- URL: https://github.com/thatcoderman/claster
- Owner: ThatCoderMan
- Created: 2024-03-20T12:55:11.000Z (almost 2 years ago)
- Default Branch: master
- Last Pushed: 2025-06-04T07:44:45.000Z (8 months ago)
- Last Synced: 2025-06-04T14:11:20.401Z (8 months ago)
- Language: Jupyter Notebook
- Size: 4.53 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
[](https://colab.research.google.com/github/ThatCoderMan/claster/blob/master/cluster.ipynb)
# Кластеризация Данных
Project stack
- Python 3.10
- HuggingFace Embedding
- DBSCAN
- UMAP
- Plotly
- spaCy
## Общая Идея
Проект представляет собой инструмент для анализа и визуализации текстовых данных, используя методы машинного обучения и кластеризации. Основная идея проекта заключается в преобразовании текстовых данных в числовые эмбединги с помощью предобученной модели HuggingFace, после чего применяется алгоритм DBSCAN для кластеризации этих эмбедингов. После кластеризации программа генерирует суммари для каждого кластера и визуализирует результаты на графике.
## Проблемы, Решаемые Проектом
Проект решает проблему анализа больших объемов текстовых данных, позволяя выявить ключевые темы и аномалии в данных. Это может быть полезно для исследователей, аналитиков и специалистов в области обработки естественного языка, работающих с большими наборами данных, такими как отзывы клиентов, социальные медиа, научные статьи и т.д.
## Применение Проекта
Проект может использоваться для анализа отзывов клиентов, исследования трендов в социальных сетях, кластеризации научных статей по темам и многое другое. Визуализация результатов кластеризации позволяет легко идентифицировать группы похожих документов или отзывов, что может быть полезно для принятия решений на основе анализа данных.
## Техническая Реализация
Проект реализован на Python и использует следующие технологии и библиотеки:
- **HuggingFace Embedding**: Для преобразования текстовых данных в числовые эмбединги используется предобученная модель HuggingFace.
- **DBSCAN**: Алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise) используется для кластеризации эмбедингов.
- **UMAP**: Для создания проекции эмбедингов в двухмерное пространство используется алгоритм UMAP (Uniform Manifold Approximation and Projection).
- **Plotly**: Для визуализации кластеров используется библиотека Plotly, которая позволяет создавать интерактивные графики.
- **spaCy**: Для генерации суммариев кластеров используется библиотека spaCy, которая предоставляет инструменты для обработки естественного языка.
Этот проект демонстрирует возможности использования современных методов машинного обучения и обработки естественного языка для анализа и визуализации текстовых данных, предоставляя ценные инсайты и упрощая процесс исследования больших объемов информации.
## Developers:
- [ThatCoderMan (Артемий)](https://github.com/ThatCoderMan)
- [Minayro (Александр)](https://github.com/Minayro)
- [Bully-Boy (Роман)](https://github.com/Bully-Boy)