https://github.com/thatcoderman/claster

cluster data from text embeddings
https://github.com/thatcoderman/claster

Last synced: 11 months ago
JSON representation

cluster data from text embeddings

Host: GitHub
URL: https://github.com/thatcoderman/claster
Owner: ThatCoderMan
Created: 2024-03-20T12:55:11.000Z (about 2 years ago)
Default Branch: master
Last Pushed: 2025-06-04T07:44:45.000Z (about 1 year ago)
Last Synced: 2025-06-04T14:11:20.401Z (about 1 year ago)
Language: Jupyter Notebook
Size: 4.53 MB
Stars: 1
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

[![open in colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ThatCoderMan/claster/blob/master/cluster.ipynb)

# Кластеризация Данных

Project stack

- Python 3.10
- HuggingFace Embedding
- DBSCAN
- UMAP
- Plotly
- spaCy

## Общая Идея

Проект представляет собой инструмент для анализа и визуализации текстовых данных, используя методы машинного обучения и кластеризации. Основная идея проекта заключается в преобразовании текстовых данных в числовые эмбединги с помощью предобученной модели HuggingFace, после чего применяется алгоритм DBSCAN для кластеризации этих эмбедингов. После кластеризации программа генерирует суммари для каждого кластера и визуализирует результаты на графике.

## Проблемы, Решаемые Проектом

Проект решает проблему анализа больших объемов текстовых данных, позволяя выявить ключевые темы и аномалии в данных. Это может быть полезно для исследователей, аналитиков и специалистов в области обработки естественного языка, работающих с большими наборами данных, такими как отзывы клиентов, социальные медиа, научные статьи и т.д.

## Применение Проекта

Проект может использоваться для анализа отзывов клиентов, исследования трендов в социальных сетях, кластеризации научных статей по темам и многое другое. Визуализация результатов кластеризации позволяет легко идентифицировать группы похожих документов или отзывов, что может быть полезно для принятия решений на основе анализа данных.

## Техническая Реализация

Проект реализован на Python и использует следующие технологии и библиотеки:

- **HuggingFace Embedding**: Для преобразования текстовых данных в числовые эмбединги используется предобученная модель HuggingFace.
- **DBSCAN**: Алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise) используется для кластеризации эмбедингов.
- **UMAP**: Для создания проекции эмбедингов в двухмерное пространство используется алгоритм UMAP (Uniform Manifold Approximation and Projection).
- **Plotly**: Для визуализации кластеров используется библиотека Plotly, которая позволяет создавать интерактивные графики.
- **spaCy**: Для генерации суммариев кластеров используется библиотека spaCy, которая предоставляет инструменты для обработки естественного языка.

Этот проект демонстрирует возможности использования современных методов машинного обучения и обработки естественного языка для анализа и визуализации текстовых данных, предоставляя ценные инсайты и упрощая процесс исследования больших объемов информации.

## Developers:

- [ThatCoderMan (Артемий)](https://github.com/ThatCoderMan)
- [Minayro (Александр)](https://github.com/Minayro)
- [Bully-Boy (Роман)](https://github.com/Bully-Boy)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/thatcoderman/claster

Awesome Lists containing this project

README