{"id":29213770,"url":"https://github.com/thatcoderman/claster","last_synced_at":"2025-07-02T23:05:26.188Z","repository":{"id":297183728,"uuid":"774923509","full_name":"ThatCoderMan/claster","owner":"ThatCoderMan","description":"cluster data from text embeddings","archived":false,"fork":false,"pushed_at":"2025-06-04T07:44:45.000Z","size":4754,"stargazers_count":1,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"master","last_synced_at":"2025-06-04T14:11:20.401Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/ThatCoderMan.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2024-03-20T12:55:11.000Z","updated_at":"2025-06-04T07:44:48.000Z","dependencies_parsed_at":"2025-06-04T14:11:29.736Z","dependency_job_id":"710d16a3-2392-42ce-815a-0e7ae57450cc","html_url":"https://github.com/ThatCoderMan/claster","commit_stats":null,"previous_names":["thatcoderman/claster"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/ThatCoderMan/claster","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ThatCoderMan%2Fclaster","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ThatCoderMan%2Fclaster/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ThatCoderMan%2Fclaster/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ThatCoderMan%2Fclaster/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/ThatCoderMan","download_url":"https://codeload.github.com/ThatCoderMan/claster/tar.gz/refs/heads/master","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ThatCoderMan%2Fclaster/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":263229088,"owners_count":23434003,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2025-07-02T23:04:25.677Z","updated_at":"2025-07-02T23:05:26.165Z","avatar_url":"https://github.com/ThatCoderMan.png","language":"Jupyter Notebook","readme":"[![open in colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ThatCoderMan/claster/blob/master/cluster.ipynb)\n\n# Кластеризация Данных\n\n\u003cdetails\u003e\n\u003csummary\u003eProject stack\u003c/summary\u003e\n\n - Python 3.10\n - HuggingFace Embedding\n - DBSCAN\n - UMAP\n - Plotly\n - spaCy\n\n\u003c/details\u003e\n\n\n## Общая Идея\n\nПроект представляет собой инструмент для анализа и визуализации текстовых данных, используя методы машинного обучения и кластеризации. Основная идея проекта заключается в преобразовании текстовых данных в числовые эмбединги с помощью предобученной модели HuggingFace, после чего применяется алгоритм DBSCAN для кластеризации этих эмбедингов. После кластеризации программа генерирует суммари для каждого кластера и визуализирует результаты на графике.\n\n## Проблемы, Решаемые Проектом\n\nПроект решает проблему анализа больших объемов текстовых данных, позволяя выявить ключевые темы и аномалии в данных. Это может быть полезно для исследователей, аналитиков и специалистов в области обработки естественного языка, работающих с большими наборами данных, такими как отзывы клиентов, социальные медиа, научные статьи и т.д.\n\n## Применение Проекта\n\nПроект может использоваться для анализа отзывов клиентов, исследования трендов в социальных сетях, кластеризации научных статей по темам и многое другое. Визуализация результатов кластеризации позволяет легко идентифицировать группы похожих документов или отзывов, что может быть полезно для принятия решений на основе анализа данных.\n\n## Техническая Реализация\n\nПроект реализован на Python и использует следующие технологии и библиотеки:\n\n- **HuggingFace Embedding**: Для преобразования текстовых данных в числовые эмбединги используется предобученная модель HuggingFace.\n- **DBSCAN**: Алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise) используется для кластеризации эмбедингов.\n- **UMAP**: Для создания проекции эмбедингов в двухмерное пространство используется алгоритм UMAP (Uniform Manifold Approximation and Projection).\n- **Plotly**: Для визуализации кластеров используется библиотека Plotly, которая позволяет создавать интерактивные графики.\n- **spaCy**: Для генерации суммариев кластеров используется библиотека spaCy, которая предоставляет инструменты для обработки естественного языка.\n\nЭтот проект демонстрирует возможности использования современных методов машинного обучения и обработки естественного языка для анализа и визуализации текстовых данных, предоставляя ценные инсайты и упрощая процесс исследования больших объемов информации.\n\n\n\n\n## Developers:\n\n- [ThatCoderMan (Артемий)](https://github.com/ThatCoderMan)\n- [Minayro (Александр)](https://github.com/Minayro)\n- [Bully-Boy (Роман)](https://github.com/Bully-Boy)","funding_links":[],"categories":[],"sub_categories":[],"project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fthatcoderman%2Fclaster","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fthatcoderman%2Fclaster","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fthatcoderman%2Fclaster/lists"}