{"id":18366847,"url":"https://github.com/zamgi/lingvo--postagger-ru","last_synced_at":"2025-04-06T16:32:26.019Z","repository":{"id":121682398,"uuid":"82345884","full_name":"zamgi/lingvo--PosTagger-ru","owner":"zamgi","description":"Определение частей речи / Нормализация текста: приведение всех слов к словарной форме в тексте на русском языке","archived":false,"fork":false,"pushed_at":"2025-03-06T18:42:18.000Z","size":19207,"stargazers_count":6,"open_issues_count":0,"forks_count":4,"subscribers_count":3,"default_branch":"master","last_synced_at":"2025-03-22T03:31:44.443Z","etag":null,"topics":["linguistics","lingvo","morphological-analysis","morphologies","morphology","natural-language-processing","nlp","nlp-machine-learning","part-of-speech-tagging","pos-tagger","pos-tagging"],"latest_commit_sha":null,"homepage":"","language":"C#","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/zamgi.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE.md","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null}},"created_at":"2017-02-17T23:07:42.000Z","updated_at":"2025-03-06T18:42:23.000Z","dependencies_parsed_at":"2023-11-22T23:36:05.246Z","dependency_job_id":null,"html_url":"https://github.com/zamgi/lingvo--PosTagger-ru","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zamgi%2Flingvo--PosTagger-ru","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zamgi%2Flingvo--PosTagger-ru/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zamgi%2Flingvo--PosTagger-ru/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/zamgi%2Flingvo--PosTagger-ru/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/zamgi","download_url":"https://codeload.github.com/zamgi/lingvo--PosTagger-ru/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":247512907,"owners_count":20950955,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["linguistics","lingvo","morphological-analysis","morphologies","morphology","natural-language-processing","nlp","nlp-machine-learning","part-of-speech-tagging","pos-tagger","pos-tagging"],"created_at":"2024-11-05T23:19:10.484Z","updated_at":"2025-04-06T16:32:21.377Z","avatar_url":"https://github.com/zamgi.png","language":"C#","funding_links":[],"categories":[],"sub_categories":[],"readme":"# lingvo--PosTagger-ru\n\n\u003ca target=\"_blank\" href=\"http://pos-ru.apphb.com/index.html\"\u003e[ live demo ]\u003c/a\u003e\n\n\u003cdiv style=\"padding: 20px\"\u003e\n \u003cp\u003e\n Нормализацией текста называется приведение всех слов текста к словарной форме: к именительному падежу, единственному числу (если таковое есть) или инфинитиву для глаголов.\n \u003cbr/\u003e\n\tНормализация нужна, например, для быстрого поиска слова в словарях, синтаксического и семантического разбора текста. \n\tЭта процедура особенно актуальна для языков грамматической группы как, например, русский или финский, у которых богатая морфология (сильные словоизменения в следствии грамматической вариативности).\n\t\u003cbr/\u003e\n\tНормализация бывает как со снятием омонимии, так и без нее. \n\t(Омонимия – совпадение слов, семантические значения которых не связаны: например, \n\tслово «(в) коме» - нормализуется в два разных слова: «ком» и «кома», \n\t«начала» - глагол «начать» и существительное «начало», \n\tимя «Путине» (местный падеж) может иметь три формы «Путин», «Путина» и «путина», и т.д.).\n\tСнятие омонимии означает, что определенным алгоритмом выбирается одно слово из множества предлагаемых морфословарем.\n\t\u003cbr/\u003e\n\tСнятие омонимии – дело трудоемкое и дорогостоящее по времени и ресурсам. \n\tПоэтому ее не так часто используют в системах обработки текста, а обходятся «стеммингом» - приведением слова к нормальной форме по его окончанию. \n\tВ таком случае выбор нормальной формы из множества происходит случайным образом. \n\t\u003cbr/\u003e\n\tОмонимия не столь редкое явление, как кажется. \n\tИ иногда отсутствие процедуры снятия омонимии может серьезно испортить репутацию системы \n\t(например, достаточно частотное местоимение «мой» может нормализоваться в глагол «мыть», предлог \"после\" - в существительное \"посла\", \n\tа существительное, имя собственное «маша» - в глагол «махать»). \n\tВ целом, практически каждое слово за исключением наречий и междометий может иметь тот или иной вид омонимии \n\t(лексическую, грамматическую, графическую), поэтому снятие омонимии – важный этап для качественной обработки текста.\n\t\u003cbr/\u003e\n\tМетоды снятия омонимии различны. Основой большинства из них служит морфологический и частиречный анализ каждого слова с последующим наложением правил согласования и управления. \n\t\u003c/p\u003e\n \u003cp\u003e\n\tОсобенностью данной системы является то, что в нем задействована вся последовательность лингвистической обработки текста:\n\t\u003c/p\u003e\u003cul style=\"margin-left: 25px\"\u003e\n\t\t\u003cli\u003e - текст разбивается на предложения;\n\t\t\u003c/li\u003e\u003cli\u003e - определяются части речи всех слов текста (так называемый PoS-tagging - Part-of-Speech tagging);\n\t\t\u003c/li\u003e\u003cli\u003e - находятся морфохарактеристики всех слов;\n\t\t\u003c/li\u003e\u003cli\u003e - снимается омонимия;\n\t\u003c/li\u003e\u003c/ul\u003e\t\t\t\t\t\t\n\t\u003cp\u003eКонечное качество определяется всеми этапами обработки и определяется как морфологическими словарями, так и статистическими моделями.\n\tЭто позволяет достичь хороших результатов нормализации по соотношению скорость / качество.\n\t\u003c/p\u003e\n\t\u003cp\u003e\n\tСкорость обработки текста данной системой составляет порядка 350 кБайт/сек.\n\t\u003c/p\u003e\n\u003c/div\u003e\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fzamgi%2Flingvo--postagger-ru","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fzamgi%2Flingvo--postagger-ru","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fzamgi%2Flingvo--postagger-ru/lists"}