Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/zamgi/lingvo--classify
Автоклассификация текста на русском языке
https://github.com/zamgi/lingvo--classify
classification linguistics lingvo natural-language-processing nlp nlp-machine-learning text-classification
Last synced: 10 days ago
JSON representation
Автоклассификация текста на русском языке
- Host: GitHub
- URL: https://github.com/zamgi/lingvo--classify
- Owner: zamgi
- License: mit
- Created: 2017-02-02T18:45:59.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2023-11-25T11:27:34.000Z (12 months ago)
- Last Synced: 2023-11-25T12:26:33.246Z (12 months ago)
- Topics: classification, linguistics, lingvo, natural-language-processing, nlp, nlp-machine-learning, text-classification
- Language: C#
- Homepage:
- Size: 46.7 MB
- Stars: 11
- Watchers: 4
- Forks: 5
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE.md
Awesome Lists containing this project
README
# lingvo--classify
Автоматическая классификация документов заключается в автоматическом соотнесении каждого входящего документа
по заранее определенным классам (или тематикам).
Как правило, методы автоматической классификации основаны на так называемом методе машинного обучения:
сначала получают обученную с помощью какого-либо алгоритма модель, качество которой определяет точность
классификации. Таким образом, процесс обучения зависит от выбранного алгоритма и «чистоты» обучающей выборки.
Следует учесть, что большое количество классов (десятки и сотни) приводит к увеличению трудоемкости обучения и
понижению точности классификации. Тематики, близкие по своей сути (например, экономика и бизнес),
приводят к тому, что классы в обучающей модели начинают пересекаться, приводя к снижению точности.
В таких случаях, как правило, такие классы объединяют в один, а затем используют подклассификацию,
или повторную классификацию документов внутри класса.
В данной системе автоматической классификации используется популярный метод опорных векторов (или SVM – Support Vector Machine) с мерой TFiDF. Модель в данной версии обучена на нескольких классах, определенных заранее:
- Авто
- Экономика и бизнес
- Шоу-бизнес и развлечения
- Семья
- Мода
- Компьютерные игры
- Здоровье и медицина
- Политика
- Недвижимость
- Наука и технологи
- Спорт
- Туризм, путешевствия
- Кулинария
Согласно этим классам происходит классификация каждого входящего документа с учетом его меры близости
к тому или иному классу. Если документ близок к двум тематикам, то он попадает в соответствующие два класса.
Если документ похож сразу на несколько тематик, то, скорее всего, это шум.
Качество классификации чаще всего оценивается по двум критериям: точностью и полнотой классификации.
Точность показывает, насколько точно документы попадают в определенный класс,
а полнота определяется соотношением документов, релевантных данному классу,
к общему количеству релевантных документов. Точность можно повышать, задавая порог прохода документа
в тот или иной класс, при этом полнота классификации будет уменьшаться. Как правило,
стараются найти оптимальное соотношение этих критериев.
Данная система автоматической классификации показывает около 83% точности и 92% полноты.