Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/zamgi/lingvo--classify

Автоклассификация текста на русском языке
https://github.com/zamgi/lingvo--classify

classification linguistics lingvo natural-language-processing nlp nlp-machine-learning text-classification

Last synced: 10 days ago
JSON representation

Автоклассификация текста на русском языке

Awesome Lists containing this project

README

        

# lingvo--classify

[ live demo ]



Автоматическая классификация документов заключается в автоматическом соотнесении каждого входящего документа
по заранее определенным классам (или тематикам).



Как правило, методы автоматической классификации основаны на так называемом методе машинного обучения:
сначала получают обученную с помощью какого-либо алгоритма модель, качество которой определяет точность
классификации. Таким образом, процесс обучения зависит от выбранного алгоритма и «чистоты» обучающей выборки.



Следует учесть, что большое количество классов (десятки и сотни) приводит к увеличению трудоемкости обучения и
понижению точности классификации. Тематики, близкие по своей сути (например, экономика и бизнес),
приводят к тому, что классы в обучающей модели начинают пересекаться, приводя к снижению точности.
В таких случаях, как правило, такие классы объединяют в один, а затем используют подклассификацию,
или повторную классификацию документов внутри класса.



В данной системе автоматической классификации используется популярный метод опорных векторов (или SVM – Support Vector Machine) с мерой TFiDF. Модель в данной версии обучена на нескольких классах, определенных заранее:



  1. Авто

  2. Экономика и бизнес

  3. Шоу-бизнес и развлечения

  4. Семья

  5. Мода

  6. Компьютерные игры

  7. Здоровье и медицина

  8. Политика

  9. Недвижимость

  10. Наука и технологи

  11. Спорт

  12. Туризм, путешевствия

  13. Кулинария




Согласно этим классам происходит классификация каждого входящего документа с учетом его меры близости
к тому или иному классу. Если документ близок к двум тематикам, то он попадает в соответствующие два класса.
Если документ похож сразу на несколько тематик, то, скорее всего, это шум.



Качество классификации чаще всего оценивается по двум критериям: точностью и полнотой классификации.
Точность показывает, насколько точно документы попадают в определенный класс,
а полнота определяется соотношением документов, релевантных данному классу,
к общему количеству релевантных документов. Точность можно повышать, задавая порог прохода документа
в тот или иной класс, при этом полнота классификации будет уменьшаться. Как правило,
стараются найти оптимальное соотношение этих критериев.



Данная система автоматической классификации показывает около 83% точности и 92% полноты.