Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/zamgi/lingvo--ner-ru

Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке
https://github.com/zamgi/lingvo--ner-ru

linguistics lingvo named-entity-recognition natural-language-processing ner nlp nlp-machine-learning

Last synced: about 2 months ago
JSON representation

Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке

Awesome Lists containing this project

README

        

# lingvo--Ner-ru

[ live demo ]




Под автоматическим определением именованных сущностей - (NER - Named-Entities Recognition) -
понимается поиск и классификация имен собственных, названий событий, продуктов, топонимов и пр.


Например, это могут быть имена людей или названия компаний, названия географических объектов (города, реки, улицы и пр.).



В приведенной системе представлена классификация именованных сущностей на пять типов:



  • 1. физические лица (ФИО или любая составляющая ФИО, например, Владимир Петров)

  • 2. юридически лица (названия компаний, сообществ, союзов и т.п., например, ЗАО «МТС Северо-Запад»)

  • 3. географические названия, например, Париж

  • 4. продукты (названия продуктов, их марок, в том числе брендов, например, iPhone)

  • 5. события (именованные события: названия праздников, форумов, спортивных состязаний и т.п. мероприятий, например, Рождество)




Особенностью данной системы является то, что типы определяются не словарем, а на основе статистических алгоритмов.
С одной стороны это может привести к ошибкам в определении типа сущности (например, "Красная Москва - когда-то это были самые замечательные духи" может определиться как география),
но с другой стороны система способна корректно определить новый, ранее невстречавшийся тип.



Количество типов и описание их классов задается на этапе обучения (получения статистической модели).




Данная система работает с русскоязычными текстами и классифицирует слова, содержащие хотя бы одну заглавную букву.
Точность определения типов сущностей (по мере F1):

  • 1. физические лица - около 95%

  • 2. юридически лица - около 87%

  • 3. географические названия - 92%

  • 4. продукты - 81%

  • 5. события - 79%



Скорость обработки текста данной системой состовляет порядка 400-450 кБайт/сек.