Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/zamgi/lingvo--ner-ru
Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке
https://github.com/zamgi/lingvo--ner-ru
linguistics lingvo named-entity-recognition natural-language-processing ner nlp nlp-machine-learning
Last synced: about 2 months ago
JSON representation
Named entity recognition (NER) in Russian texts / Определение именованных сущностей (NER) в тексте на русском языке
- Host: GitHub
- URL: https://github.com/zamgi/lingvo--ner-ru
- Owner: zamgi
- License: mit
- Created: 2017-01-20T11:28:59.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2023-11-25T16:35:55.000Z (about 1 year ago)
- Last Synced: 2023-11-25T17:38:05.116Z (about 1 year ago)
- Topics: linguistics, lingvo, named-entity-recognition, natural-language-processing, ner, nlp, nlp-machine-learning
- Language: C#
- Homepage:
- Size: 28.3 MB
- Stars: 41
- Watchers: 5
- Forks: 7
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE.md
Awesome Lists containing this project
README
# lingvo--Ner-ru
Под автоматическим определением именованных сущностей - (NER - Named-Entities Recognition) -
понимается поиск и классификация имен собственных, названий событий, продуктов, топонимов и пр.
Например, это могут быть имена людей или названия компаний, названия географических объектов (города, реки, улицы и пр.).
В приведенной системе представлена классификация именованных сущностей на пять типов:
- 1. физические лица (ФИО или любая составляющая ФИО, например, Владимир Петров)
- 2. юридически лица (названия компаний, сообществ, союзов и т.п., например, ЗАО «МТС Северо-Запад»)
- 3. географические названия, например, Париж
- 4. продукты (названия продуктов, их марок, в том числе брендов, например, iPhone)
- 5. события (именованные события: названия праздников, форумов, спортивных состязаний и т.п. мероприятий, например, Рождество)
Особенностью данной системы является то, что типы определяются не словарем, а на основе статистических алгоритмов.
С одной стороны это может привести к ошибкам в определении типа сущности (например, "Красная Москва - когда-то это были самые замечательные духи" может определиться как география),
но с другой стороны система способна корректно определить новый, ранее невстречавшийся тип.
Количество типов и описание их классов задается на этапе обучения (получения статистической модели).
Данная система работает с русскоязычными текстами и классифицирует слова, содержащие хотя бы одну заглавную букву.
Точность определения типов сущностей (по мере F1):
- 1. физические лица - около 95%
- 2. юридически лица - около 87%
- 3. географические названия - 92%
- 4. продукты - 81%
- 5. события - 79%
Скорость обработки текста данной системой состовляет порядка 400-450 кБайт/сек.