{"id":19422870,"url":"https://github.com/natasha/nerus","last_synced_at":"2025-04-24T15:32:29.213Z","repository":{"id":52868843,"uuid":"148105068","full_name":"natasha/nerus","owner":"natasha","description":"Large silver standart Russian corpus with NER, morphology and syntax markup","archived":false,"fork":false,"pushed_at":"2023-07-24T09:26:06.000Z","size":10090,"stargazers_count":65,"open_issues_count":0,"forks_count":10,"subscribers_count":6,"default_branch":"master","last_synced_at":"2025-04-17T08:44:25.715Z","etag":null,"topics":["corpus-linguistics","morphology","ner","nlp","python","russian","syntax"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/natasha.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2018-09-10T05:46:44.000Z","updated_at":"2025-04-04T08:33:57.000Z","dependencies_parsed_at":"2024-06-21T19:22:47.714Z","dependency_job_id":"984c9b02-7a9e-414a-8b71-fba1ef56ecfb","html_url":"https://github.com/natasha/nerus","commit_stats":{"total_commits":202,"total_committers":4,"mean_commits":50.5,"dds":"0.034653465346534684","last_synced_commit":"45825c42f69a0302ae405c247e8b4330192f6f47"},"previous_names":[],"tags_count":5,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fnerus","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fnerus/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fnerus/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fnerus/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/natasha","download_url":"https://codeload.github.com/natasha/nerus/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":250654507,"owners_count":21465896,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["corpus-linguistics","morphology","ner","nlp","python","russian","syntax"],"created_at":"2024-11-10T13:35:34.730Z","updated_at":"2025-04-24T15:32:28.918Z","avatar_url":"https://github.com/natasha.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\n\u003cimg src=\"https://github.com/natasha/natasha-logos/blob/master/nerus.svg\"\u003e\n\n![CI](https://github.com/natasha/nerus/actions/workflows/test.yml/badge.svg)\n\nNerus is a large silver standard Russian corpus annotated with POS tags, syntax trees and NER tags (PER, LOC, ORG). Nerus has a certain degree of errors in markup, but the quality is high, see the \u003ca href=\"#evaluation\"\u003eevaluation section\u003c/a\u003e. The corpus contains ~700K news articles from Lenta.ru. Tools from \u003ca href=\"https://github.com/natasha\"\u003eproject Natasha\u003c/a\u003e were used: \u003ca href=\"https://github.com/natasha/razdel\"\u003eRazdel\u003c/a\u003e for sentence and token segmentation, \u003ca href=\"https://github.com/natasha/slovnet\"\u003eSlovnet\u003c/a\u003e BERT models for morphology, syntax and NER annotation. Markup is stored in the standard \u003ca href=\"https://universaldependencies.org/format.html\"\u003eCoNLL-U\u003c/a\u003e format.\n\n\u003e Nerus = \u003ca href=\"https://github.com/yutkin/Lenta.Ru-News-Dataset\"\u003eLenta.ru dataset\u003c/a\u003e + \u003ca href=\"https://github.com/natasha/razdel\"\u003eRazdel\u003c/a\u003e + \u003ca href=\"https://github.com/natasha/slovnet\"\u003eSlovnet\u003c/a\u003e BERT morphology, syntax, NER + \u003ca href=\"https://universaldependencies.org/format.html\"\u003eCoNLL-U\u003c/a\u003e.\n\n```\n# newdoc id = 0\n# sent_id = 0_0\n# text = Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости.\n1\tВице-премьер\t_\tNOUN\t_\tAnimacy=Anim|Case=Nom|Gender=Masc|Number=Sing\t7\tnsubj\t_\tTag=O\n2\tпо\t_\tADP\t_\t_\t4\tcase\t_\tTag=O\n3\tсоциальным\t_\tADJ\t_\tCase=Dat|Degree=Pos|Number=Plur\t4\tamod\t_\tTag=O\n4\tвопросам\t_\tNOUN\t_\tAnimacy=Inan|Case=Dat|Gender=Masc|Number=Plur\t1\tnmod\t_\tTag=O\n5\tТатьяна\t_\tPROPN\t_\tAnimacy=Anim|Case=Nom|Gender=Fem|Number=Sing\t1\tappos\t_\tTag=B-PER\n6\tГоликова\t_\tPROPN\t_\tAnimacy=Anim|Case=Nom|Gender=Fem|Number=Sing\t5\tflat:name\t_\tTag=I-PER\n7\tрассказала\t_\tVERB\t_\tAspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act\t0\troot\t_\tTag=O\n8\t,\t_\tPUNCT\t_\t_\t13\tpunct\t_\tTag=O\n9\tв\t_\tADP\t_\t_\t11\tcase\t_\tTag=O\n10\tкаких\t_\tDET\t_\tCase=Loc|Number=Plur\t11\tdet\t_\tTag=O\n11\tрегионах\t_\tNOUN\t_\tAnimacy=Inan|Case=Loc|Gender=Masc|Number=Plur\t13\tobl\t_\tTag=O\n12\tРоссии\t_\tPROPN\t_\tAnimacy=Inan|Case=Gen|Gender=Fem|Number=Sing\t11\tnmod\t_\tTag=B-LOC\n13\tзафиксирована\t_\tVERB\t_\tAspect=Perf|Gender=Fem|Number=Sing|Tense=Past|Variant=Short|VerbForm=Part|Voice=Pass\t7\tccomp\t_\tTag=O\n14\tнаиболее\t_\tADV\t_\tDegree=Pos\t15\tadvmod\t_\tTag=O\n15\tвысокая\t_\tADJ\t_\tCase=Nom|Degree=Pos|Gender=Fem|Number=Sing\t16\tamod\t_\tTag=O\n16\tсмертность\t_\tNOUN\t_\tAnimacy=Inan|Case=Nom|Gender=Fem|Number=Sing\t13\tnsubj:pass\t_\tTag=O\n17\tот\t_\tADP\t_\t_\t18\tcase\t_\tTag=O\n18\tрака\t_\tNOUN\t_\tAnimacy=Inan|Case=Gen|Gender=Masc|Number=Sing\t16\tnmod\t_\tTag=O\n19\t,\t_\tPUNCT\t_\t_\t20\tpunct\t_\tTag=O\n20\tсообщает\t_\tVERB\t_\tAspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act\t0\troot\t_\tTag=O\n21\tРИА\t_\tPROPN\t_\tAnimacy=Inan|Case=Nom|Gender=Neut|Number=Sing\t20\tnsubj\t_\tTag=B-ORG\n22\tНовости\t_\tPROPN\t_\tAnimacy=Inan|Case=Nom|Gender=Fem|Number=Plur\t21\tappos\t_\tTag=I-ORG\n23\t.\t_\tPUNCT\t_\t_\t20\tpunct\t_\tTag=O\n\n# sent_id = 0_1\n# text = По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе.\n1\tПо\t_\tADP\t_\t_\t2\tcase\t_\tTag=O\n2\tсловам\t_\tNOUN\t_\tAnimacy=Inan|Case=Dat|Gender=Neut|Number=Plur\t9\tparataxis\t_\tTag=O\n3\tГоликовой\t_\tPROPN\t_\tAnimacy=Anim|Case=Gen|Gender=Fem|Number=Sing\t2\tnmod\t_\tTag=B-PER\n4\t,\t_\tPUNCT\t_\t_\t2\tpunct\t_\tTag=O\n5\tчаще\t_\tADV\t_\tDegree=Cmp\t9\tadvmod\t_\tTag=O\n...\n\n```\n\n## Download\n\n\u003ca href=\"https://storage.yandexcloud.net/natasha-nerus/data/nerus_lenta.conllu.gz\"\u003enerus_lenta.conllu.gz\u003c/a\u003e ~2GB, ~700K texts\n\n## Install\n\nThe Nerus package provides a convenient Python 3.7+ API:\n\n```bash\n$ pip install nerus\n```\n\n## Usage\n\nDataset is gzip-compressed \u003ca href=\"https://universaldependencies.org/format.html\"\u003eCoNLL-U\u003c/a\u003e file:\n\n```bash\n$ gunzip -c nerus_lenta.conllu.gz | head\n\n# newdoc id = 0\n# sent_id = 0_0\n# text = Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости.\n1\tВице-премьер\t_\tNOUN\t_\tAnimacy=Anim|Case=Nom|Gender=Masc|Number=Sing\t7\tnsubj\t_\tTag=O\n2\tпо\t_\tADP\t_\t_\t4\tcase\t_\tTag=O\n3\tсоциальным\t_\tADJ\t_\tCase=Dat|Degree=Pos|Number=Plur\t4\tamod\t_\tTag=O\n4\tвопросам\t_\tNOUN\t_\tAnimacy=Inan|Case=Dat|Gender=Masc|Number=Plur\t1\tnmod\t_\tTag=O\n5\tТатьяна\t_\tPROPN\t_\tAnimacy=Anim|Case=Nom|Gender=Fem|Number=Sing\t1\tappos\t_\tTag=B-PER\n6\tГоликова\t_\tPROPN\t_\tAnimacy=Anim|Case=Nom|Gender=Fem|Number=Sing\t5\tflat:name\t_\tTag=I-PER\n7\tрассказала\t_\tVERB\t_\tAspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act\t0\troot\t_\tTag=O\n8\t,\t_\tPUNCT\t_\t_\t13\tpunct\t_\tTag=O\n9\tв\t_\tADP\t_\t_\t11\tcase\t_\tTag=O\n10\tкаких\t_\tDET\t_\tCase=Loc|Number=Plur\t11\tdet\t_\tTag=O\n11\tрегионах\t_\tNOUN\t_\tAnimacy=Inan|Case=Loc|Gender=Masc|Number=Plur\t13\tobl\t_\tTag=O\n12\tРоссии\t_\tPROPN\t_\tAnimacy=Inan|Case=Gen|Gender=Fem|Number=Sing\t11\tnmod\t_\tTag=B-LOC\n13\tзафиксирована\t_\tVERB\t_\tAspect=Perf|Gender=Fem|Number=Sing|Tense=Past|Variant=Short|VerbForm=Part|Voice=Pass\t7\tccomp\t_\tTag=O\n14\tнаиболее\t_\tADV\t_\tDegree=Pos\t15\tadvmod\t_\tTag=O\n15\tвысокая\t_\tADJ\t_\tCase=Nom|Degree=Pos|Gender=Fem|Number=Sing\t16\tamod\t_\tTag=O\n16\tсмертность\t_\tNOUN\t_\tAnimacy=Inan|Case=Nom|Gender=Fem|Number=Sing\t13\tnsubj:pass\t_\tTag=O\n17\tот\t_\tADP\t_\t_\t18\tcase\t_\tTag=O\n18\tрака\t_\tNOUN\t_\tAnimacy=Inan|Case=Gen|Gender=Masc|Number=Sing\t16\tnmod\t_\tTag=O\n19\t,\t_\tPUNCT\t_\t_\t20\tpunct\t_\tTag=O\n20\tсообщает\t_\tVERB\t_\tAspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act\t0\troot\t_\tTag=O\n21\tРИА\t_\tPROPN\t_\tAnimacy=Inan|Case=Nom|Gender=Neut|Number=Sing\t20\tnsubj\t_\tTag=B-ORG\n22\tНовости\t_\tPROPN\t_\tAnimacy=Inan|Case=Nom|Gender=Fem|Number=Plur\t21\tappos\t_\tTag=I-ORG\n23\t.\t_\tPUNCT\t_\t_\t20\tpunct\t_\tTag=O\n\n# sent_id = 0_1\n# text = По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе.\n1\tПо\t_\tADP\t_\t_\t2\tcase\t_\tTag=O\n2\tсловам\t_\tNOUN\t_\tAnimacy=Inan|Case=Dat|Gender=Neut|Number=Plur\t9\tparataxis\t_\tTag=O\n3\tГоликовой\t_\tPROPN\t_\tAnimacy=Anim|Case=Gen|Gender=Fem|Number=Sing\t2\tnmod\t_\tTag=B-PER\n4\t,\t_\tPUNCT\t_\t_\t2\tpunct\t_\tTag=O\n5\tчаще\t_\tADV\t_\tDegree=Cmp\t9\tadvmod\t_\tTag=O\n6\tвсего\t_\tPRON\t_\tAnimacy=Inan|Case=Gen|Gender=Neut|Number=Sing\t5\tobl\t_\tTag=O\n7\tонкологические\t_\tADJ\t_\tCase=Nom|Degree=Pos|Number=Plur\t8\tamod\t_\tTag=O\n8\tзаболевания\t_\tNOUN\t_\tAnimacy=Inan|Case=Nom|Gender=Neut|Number=Plur\t9\tnsubj\t_\tTag=O\n9\tстановились\t_\tVERB\t_\tAspect=Imp|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Mid\t0\troot\t_\tTag=O\n10\tпричиной\t_\tNOUN\t_\tAnimacy=Inan|Case=Ins|Gender=Fem|Number=Sing\t9\txcomp\t_\tTag=O\n11\tсмерти\t_\tNOUN\t_\tAnimacy=Inan|Case=Gen|Gender=Fem|Number=Sing\t10\tnmod\t_\tTag=O\n...\n\n```\n\nLoad and show annotations (uses \u003ca href=\"https://github.com/natasha/ipymarkup\"\u003eipymarkup\u003c/a\u003e):\n\n```python\n\u003e\u003e\u003e from nerus import load_nerus\n\n\u003e\u003e\u003e docs = load_nerus(NERUS)\n\u003e\u003e\u003e doc = next(docs)\n\u003e\u003e\u003e doc\n\nNerusDoc(\n    id='0',\n    sents=[NerusSent(\n         id='0_0',\n         text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости.',\n         tokens=[NerusToken(\n              id='1',\n              text='Вице-премьер',\n              pos='NOUN',\n              feats={'Animacy': 'Anim',\n               'Case': 'Nom',\n               'Gender': 'Masc',\n               'Number': 'Sing'},\n              head_id='7',\n              rel='nsubj',\n              tag='O'\n          ),\n          NerusToken(\n              id='2',\n              text='по',\n              pos='ADP',\n...\n\n\u003e\u003e\u003e doc.ner.print()\nВице-премьер по социальным вопросам Татьяна Голикова рассказала, в \n                                    PER─────────────               \nкаких регионах России зафиксирована наиболее высокая смертность от \n               LOC───                                              \nрака, сообщает РИА Новости. По словам Голиковой, чаще всего \n               ORG────────            PER──────             \nонкологические заболевания становились причиной смерти в Псковской, \n                                                         LOC──────  \nТверской, Тульской и Орловской областях, а также в Севастополе. Вице-\nLOC─────  LOC─────   LOC───────────────            LOC────────       \nпремьер напомнила, что главные факторы смертности в России — рак и \n                                                    LOC───         \nболезни системы кровообращения. В начале года стало известно, что \nсмертность от онкологических заболеваний среди россиян снизилась \nвпервые за три года. По данным Росстата, в 2017 году от рака умерли \n                               ORG─────                             \n289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.\n​\n\u003e\u003e\u003e sent = doc.sents[0]\n\u003e\u003e\u003e sent.morph.print()\n        Вице-премьер  NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing\n                  по  ADP\n          социальным  ADJ|Case=Dat|Degree=Pos|Number=Plur\n            вопросам  NOUN|Animacy=Inan|Case=Dat|Gender=Masc|Number=Plur\n             Татьяна  PROPN|Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing\n            Голикова  PROPN|Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing\n          рассказала  VERB|Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act\n                   ,  PUNCT\n                   в  ADP\n               каких  DET|Case=Loc|Number=Plur\n            регионах  NOUN|Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur\n              России  PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing\n       зафиксирована  VERB|Aspect=Perf|Gender=Fem|Number=Sing|Tense=Past|Variant=Short|VerbForm=Part|Voice=Pass\n            наиболее  ADV|Degree=Pos\n             высокая  ADJ|Case=Nom|Degree=Pos|Gender=Fem|Number=Sing\n          смертность  NOUN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing\n                  от  ADP\n                рака  NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing\n                   ,  PUNCT\n            сообщает  VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act\n                 РИА  PROPN|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing\n             Новости  PROPN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Plur\n                   .  PUNCT\n\t\t\t\t   \n\u003e\u003e\u003e sent.syntax.print()\n  ┌►┌─┌───── Вице-премьер  nsubj\n  │ │ │ ┌──► по            case\n  │ │ │ │ ┌► социальным    amod\n  │ │ └►└─└─ вопросам      nmod\n  │ └────►┌─ Татьяна       appos\n  │       └► Голикова      flat:name\n┌─└───────── рассказала    \n│   ┌──────► ,             punct\n│   │   ┌──► в             case\n│   │   │ ┌► каких         det\n│   │ ┌►└─└─ регионах      obl\n│   │ │ └──► России        nmod\n└──►└─└───── зафиксирована ccomp\n    │     ┌► наиболее      advmod\n    │   ┌►└─ высокая       amod\n    └►┌─└─── смертность    nsubj:pass\n      │   ┌► от            case\n      └──►└─ рака          nmod\n          ┌► ,             punct\n      ┌─┌─└─ сообщает      \n      │ └►┌─ РИА           nsubj\n      │   └► Новости       appos\n      └────► .             punct\n\n```\n\n## Documentation\n\nSee the \u003ca href=\"https://natasha.github.io/nerus\"\u003eNerus page on natasha.github.io\u003c/a\u003e for motivation, examples and usage (in Russian).\n\n## Evaluation\n\nNerus is an automatically annotated silver standard dataset, it has errors in markup. It is important to estimate the quality of annotation and types of errors. We apply the same pipeline to Lenta.ru articles and several golden datasets: \u003ca href=\"https://github.com/natasha/corus#load_ud_syntag\"\u003eSynTagRus\u003c/a\u003e, \u003ca href=\"https://github.com/natasha/corus#load_gramru\"\u003eGramEval2020 Taiga News\u003c/a\u003e, \u003ca href=\"https://github.com/natasha/corus#load_ne5\"\u003eCollection5\u003c/a\u003e. Then we compare the golden markup with our automatic one and estimate error rates. \n\n### Token segmentation\n\nThere are ~5 tokenization errors per 1000 tokens, see \u003ca href=\"https://github.com/natasha/naeval#tokenization\"\u003eNaeval tokenization section\u003c/a\u003e. Error examples, first is golden partition from \u003ca href=\"https://github.com/natasha/corus#load_ud_syntag\"\u003eSynTagRus\u003c/a\u003e:\n\n```\nИногда| |на| |первое| |место| |в| |списке| |гаджетов|-|неудачников| |попадают| |устройства|,| |подобной| |участи| |совершенно| |не| |заслуживающие|.\nИногда| |на| |первое| |место| |в| |списке| |гаджетов-неудачников| |попадают| |устройства|,| |подобной| |участи| |совершенно| |не| |заслуживающие|.\n\nСредний| |размер| |вуза| |на| |Западе| |-| |25000|-|30000| |студентов|.\nСредний| |размер| |вуза| |на| |Западе| |-| |25000-30000| |студентов|.\n\n-| |Какое| |же| |тут| |зверье| |может| |быть|?|!| |-|  |донельзя| |испугался| |толстяк| |Леонтий|.\n-| |Какое| |же| |тут| |зверье| |может| |быть|?!| |-|  |донельзя| |испугался| |толстяк| |Леонтий|.\n\nНаука| |и| |жизнь|,| |№| |10|,| |2005|.\nНаука| |и| |жизнь|,| |№| |10,| |2005|.\n\nВ| |это| |же| |время| |в| |стране| |строились| |планеры| |оригинальных| |конструкций|,| |например| |БП-2| |(|ЦАГИ|-|2|)|.\nВ| |это| |же| |время| |в| |стране| |строились| |планеры| |оригинальных| |конструкций|,| |например| |БП-2| |(|ЦАГИ-2|)|.\n\nПричиненный| |пожарами| |ущерб| |оценивается| |в| |50| |млн.| |австралийских| |долларов| |(|$|27| |млн.|)|.\nПричиненный| |пожарами| |ущерб| |оценивается| |в| |50| |млн|.| |австралийских| |долларов| |(|$|27| |млн|.|)|.\n\nСамый| |же| |главный| |юмор| |ситуации| |в| |том|,| |что| |поклонники| |Андропова| |явно| |прочат| |Юрия| |Владимировича| |на| |роль| |\"|славного| |предшественника|\"| |В.| |В.| |Путина|.\nСамый| |же| |главный| |юмор| |ситуации| |в| |том|,| |что| |поклонники| |Андропова| |явно| |прочат| |Юрия| |Владимировича| |на| |роль| |\"|славного| |предшественника|\"| |В|.| |В|.| |Путина|.\n\n```\n\n### Morphology\n\nWe use the \u003ca href=\"https://github.com/dialogue-evaluation/morphoRuEval-2017/blob/master/morphostandard\"\u003emorphoRuEval-2017 methodology\u003c/a\u003e and the \u003ca href=\"https://github.com/natasha/corus#load_gramru\"\u003eGramEval2020 Taiga News dataset\u003c/a\u003e to score morphology tags. The overall accuracy is 94%, while the more relaxed morphoRuEval version is at 98% (see the \u003ca href=\"https://github.com/natasha/naeval#morphology-taggers\"\u003eNaeval morphology section\u003c/a\u003e). Examples of errors, top is correct, \"!\" marks errors, \"?\" marks different tags that have the same meaning according to morphoRuEval:\n\n```\n         Официальные   ADJ|Animacy=Inan|Case=Nom|Degree=Pos|Number=Plur\n                     ? ADJ|Case=Nom|Degree=Pos|Number=Plur\n        американские   ADJ|Case=Nom|Degree=Pos|Number=Plur\n              власти   NOUN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Plur\n        отказываются   VERB|Aspect=Imp|Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin|Voice=Mid\n      комментировать   VERB|Aspect=Imp|VerbForm=Inf|Voice=Act\n         подробности   NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Plur\n           программы   NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing\n                   ,   PUNCT\n            ссылаясь   VERB|Aspect=Imp|Tense=Pres|VerbForm=Conv|Voice=Mid\n                  на   ADP\n                  ее   DET\n         секретность   NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing\n                   .   PUNCT\n\n              Бейкер   PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing\n           считается   VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Mid\n                     ? VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Pass\n              давним   ADJ|Case=Ins|Degree=Pos|Gender=Masc|Number=Sing\n              другом   NOUN|Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing\n               семьи   NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing\n               Бушей   PROPN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur\n                   .   PUNCT\n\n               Обоим   NUM|Case=Dat|Gender=Masc\n                  по   ADP\n                  24   NUM|NumForm=Digit\n                     ? NUM\n                года   NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing\n                   ,   PUNCT\n                   в   ADP\n              Греции   PROPN|Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing\n                 они   PRON|Case=Nom|Number=Plur|Person=3\n             провели   VERB|Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act\n                  по   ADP\n               шесть   NUM|Case=Acc\n                 лет   NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Plur\n                   и   CCONJ\n               ранее   ADV|Degree=Cmp\n                     ! ADV|Degree=Pos\n                   в   ADP\n     правонарушениях   NOUN|Animacy=Inan|Case=Loc|Gender=Neut|Number=Plur\n                  на   ADP\n           греческой   ADJ|Case=Loc|Degree=Pos|Gender=Fem|Number=Sing\n          территории   NOUN|Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing\n            замечены   VERB|Aspect=Perf|Number=Plur|Tense=Past|Variant=Short|VerbForm=Part|Voice=Pass\n                  не   PART|Polarity=Neg\n                были   AUX|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act\n                     ? AUX|Aspect=Imp|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act\n                   .   PUNCT\n\n             Тихонов   PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing\n             сообщил   VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act\n                   ,   PUNCT\n                 что   SCONJ\n                 уже   ADV|Degree=Pos\n              шестой   ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing\n                     ! ADJ|Animacy=Inan|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing\n                день   NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing\n                     ! NOUN|Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing\n           находится   VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Mid\n                   в   ADP\n             Австрии   PROPN|Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing\n                   ,   PUNCT\n                   в   ADP\n               одной   NUM|Case=Loc|Gender=Fem|Number=Sing\n                  из   ADP\n              лучших   ADJ|Case=Gen|Degree=Pos|Number=Plur\n              клиник   NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Plur\n                мира   NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing\n                  по   ADP\n       нейрохирургии   NOUN|Animacy=Inan|Case=Dat|Gender=Fem|Number=Sing\n                   и   CCONJ\n сердечно-сосудистым   ADJ|Case=Dat|Degree=Pos|Number=Plur\n        заболеваниям   NOUN|Animacy=Inan|Case=Dat|Gender=Neut|Number=Plur\n                   .   PUNCT\n\n```\n\n### Syntax\n\nWe use \u003ca href=\"https://github.com/natasha/corus#load_gramru\"\u003eGramEval2020 Taiga News\u003c/a\u003e as a test dataset, UAS is 96%, LAS is 93% (see \u003ca href=\"https://github.com/natasha/naeval#syntax-parser\"\u003eNaeval syntax section\u003c/a\u003e). Examples of errors, left is correct:\n\n```\n    ┌──► Официальные    amod        ┌──► Официальные    amod\n    │ ┌► американские   amod        │ ┌► американские   amod\n    └─└─ власти         nsubj       └─└─ власти         nsubj\n┌─┌─└─┌─ отказываются         | ┌───└─┌─ отказываются   \n│ │ ┌─└► комментировать xcomp | │ ┌─┌─└► комментировать xcomp\n│ │ └►┌─ подробности    obj     │ │ └►┌─ подробности    obj\n│ │   └► программы      nmod    │ │   └► программы      nmod\n│ │   ┌► ,              punct   │ │   ┌► ,              punct\n│ └──►└─ ссылаясь       advcl   │ └──►└─ ссылаясь       advcl\n│ │ ┌──► на             case    │ │ ┌──► на             case\n│ │ │ ┌► ее             det     │ │ │ ┌► ее             det\n│ └►└─└─ секретность    obl     │ └►└─└─ секретность    obl\n└──────► .              punct   └──────► .              punct\n\n            ┌► Единственный       amod                 ┌► Единственный       amod\n    ┌────►┌─└─ сын                nsubj        ┌────►┌─└─ сын                nsubj\n    │ ┌───└──► одного             nmod         │ ┌───└──► одного             nmod\n    │ │ ┌────► из                 case         │ │ ┌────► из                 case\n    │ │ │ ┌──► высокопоставленных amod         │ │ │ ┌──► высокопоставленных amod\n    │ │ │ │ ┌► северокорейских    amod         │ │ │ │ ┌► северокорейских    amod\n    │ └►└─└─└─ генералов          nmod         │ └►└─└─└─ генералов          nmod\n┌─┌─└───┌─┌─── бежал                       ┌─┌─└───┌─┌─── бежал              \n│ │     │ │ ┌► из                 case     │ │     │ │ ┌► из                 case\n│ │     │ └►└─ страны             obl      │ │     │ └►└─ страны             obl\n│ │     │ ┌──► вместе             advmod | │ │     └►┌─── вместе             advmod\n│ │     │ │ ┌► с                  case   | │ │       │ ┌► с                  case\n│ │     └►└─└─ семьей             obl    | │ │       └►└─ семьей             obl\n│ │       ┌──► и                  cc       │ │       ┌──► и                  cc\n│ │       │ ┌► сейчас             advmod   │ │       │ ┌► сейчас             advmod\n│ └────►┌─└─└─ находится          conj     │ └────►┌─└─└─ находится          conj\n│       │   ┌► в                  case     │       │   ┌► в                  case\n│     ┌─└──►└─ руках              obl      │     ┌─└──►└─ руках              obl\n│     │     ┌► американской       amod     │     │     ┌► американской       amod\n│     └────►└─ разведки           nmod     │     └────►└─ разведки           nmod\n└────────────► .                  punct    └────────────► .                  punct\n\n    ┌► Бейкер    nsubj |     ┌► Бейкер    nsubj:pass\n┌─┌─└─ считается         ┌─┌─└─ считается \n│ │ ┌► давним    amod    │ │ ┌► давним    amod\n│ └►└─ другом    xcomp   │ └►└─ другом    xcomp\n│ └►┌─ семьи     nmod    │ └►┌─ семьи     nmod\n│   └► Бушей     nmod    │   └► Бушей     nmod\n└────► .         punct   └────► .         punct\n\n          ┌► По             case                   ┌► По             case\n  ┌►┌───┌─└─ сведениям      parataxis      ┌►┌───┌─└─ сведениям      parataxis\n  │ │   │ ┌► из             case           │ │   │ ┌► из             case\n  │ │ ┌─└►└─ источника      nmod           │ │ ┌─└►└─ источника      nmod\n  │ │ │   ┌► \"              punct          │ │ │   ┌► \"              punct\n  │ │ └►┌─└─ Интерфакса     nmod           │ │ └►┌─└─ Интерфакса     nmod\n  │ │   └──► \"              punct          │ │   └──► \"              punct\n  │ └──────► ,              punct          │ └──────► ,              punct\n  │       ┌► на             case           │       ┌► на             case\n  │     ┌►└─ процессе       obl            │     ┌►└─ процессе       obl\n  │     │ ┌► также          advmod         │     │ ┌► также          advmod\n┌─└─────└─└─ представлены                ┌─└─────└─└─ представлены   \n│     ┌─└──► адвокаты       nsubj:pass   │     ┌─└──► адвокаты       nsubj:pass\n│     │   ┌► \"              punct        │     │   ┌► \"              punct\n│   ┌─└►┌─└─ Газпрома       nmod         │   ┌─└►┌─└─ Газпрома       nmod\n│   │   └──► \"              punct        │   │   └──► \"              punct\n│   │ ┌────► —              punct        │   │ ┌────► —              punct\n│   │ │   ┌► самого         amod         │   │ │   ┌► самого         amod\n│   │ │ ┌►└─ вероятного     amod         │   │ │ ┌►└─ вероятного     amod\n│   └►└─└─┌─ покупателя     appos        │   └►└─└─┌─ покупателя     appos\n│     ┌─┌─└► компании       nmod         │     ┌─┌─└► компании       nmod\n│     │ │ ┌► \"              punct        │     │ │ ┌► \"              punct\n│     │ └►└─ Юганскнефтегаз appos        │     │ └►└─ Юганскнефтегаз appos\n│     │ └──► \"              punct        │     │ └──► \"              punct\n│     │ ┌──► ,              punct        │     │ ┌──► ,              punct\n│     │ │ ┌► основного      amod         │     │ │ ┌► основного      amod\n│     └►└─└─ актива         conj       | │     └►└─└─ актива         appos\n│     │   ┌► \"              punct        │     │   ┌► \"              punct\n│     └►┌─└─ ЮКОСа          nmod         │     └►┌─└─ ЮКОСа          nmod\n│       └──► \"              punct        │       └──► \"              punct\n└──────────► .              punct        └──────────► .              punct\n\n          ┌► Между           obl       |         ┌► Между           case\n    ┌────►└─ тем             parataxis |   ┌────►└─ тем             obl\n    │ ┌►┌─── руководство     nsubj     |   │ ┌►┌─── руководство     nsubj\n    │ │ │ ┌► \"               punct     |   │ │ │ ┌► \"               punct\n    │ │ └►└─ ЮКОСа           nmod      |   │ │ └►└─ ЮКОСа           nmod\n    │ │ └──► \"               punct     |   │ │ └──► \"               punct\n┌─┌─└─└───┌─ опротестовало             | ┌─└─└───┌─ опротестовало   \n│ │     ┌─└► решение         obj       | │     ┌─└► решение         obj\n│ │     │ ┌► об              case      | │     │ ┌► об              case\n│ │     └►└─ аресте          nmod      | │ ┌───└►└─ аресте          nmod\n│ │   ┌─└──► акций           nmod      | │ │ ┌─└──► акций           nmod\n│ │   │   ┌► \"               punct     | │ │ │   ┌► \"               punct\n│ │   └►┌─└─ Юганскнефтегаза nmod      | │ │ └►┌─└─ Юганскнефтегаза nmod\n│ │     └──► \"               punct     | │ │   └──► \"               punct\n│ │   ┌────► в               case      | │ │ ┌────► в               case\n│ │   │ ┌──► Высшем          amod      | │ │ │ ┌──► Высшем          amod\n│ │   │ │ ┌► арбитражном     amod      | │ │ │ │ ┌► арбитражном     amod\n│ └──►└─└─└─ суде            obl       | │ └►└─└─└─ суде            nmod\n│       └──► России          nmod      | │     └──► России          nmod\n└──────────► .               punct     | └────────► .               punct\n\n            ┌► Это             det                     ┌► Это             det\n        ┌──►└─ решение         nsubj     |         ┌──►└─ решение         nsubj:pass\n        │   ┌► уже             advmod              │   ┌► уже             advmod\n        │ ┌►└─ трижды          advmod              │ ┌►└─ трижды          advmod\n┌─────┌─└─└─── рассматривалось             ┌─────┌─└─└─── рассматривалось \n│     │ │   ┌► в               case        │     │ │   ┌► в               case\n│     │ └──►└─ судах           obl         │     │ └──►└─ судах           obl\n│     │ ┌────► —               punct       │     │ ┌────► —               punct\n│     │ │   ┌► первая          amod        │     │ │   ┌► первая          amod\n│     │ │ ┌►└─ инстанция       nsubj       │     │ │ ┌►└─ инстанция       nsubj\n│ ┌───└►└─└─┌─ удовлетворила   parataxis   │ ┌───└►└─└─┌─ удовлетворила   parataxis\n│ │       ┌─└► жалобу          obj         │ │       ┌─└► жалобу          obj\n│ │       │ ┌► \"               punct       │ │       │ ┌► \"               punct\n│ │       └►└─ ЮКОСа           nmod        │ │       └►└─ ЮКОСа           nmod\n│ │       └──► \"               punct       │ │       └──► \"               punct\n│ │ ┌────────► ,               punct       │ │ ┌────────► ,               punct\n│ │ │ ┌──────► однако          advmod      │ │ │ ┌──────► однако          advmod\n│ │ │ │ ┌►┌─── вторая          nsubj       │ │ │ │ ┌►┌─── вторая          nsubj\n│ │ │ │ │ │ ┌► и               cc          │ │ │ │ │ │ ┌► и               cc\n│ │ │ │ │ └►└─ третья          conj        │ │ │ │ │ └►└─ третья          conj\n│ └►└─└─└───┌─ признали        conj        │ └►└─└─└───┌─ признали        conj\n│     │   ┌─└► арест           obj         │     │   ┌─└► арест           obj\n│     │   └──► акций           nmod        │     │   └──► акций           nmod\n│     └──────► законным        xcomp       │     └──────► законным        xcomp\n└────────────► .               punct       └────────────► .               punct\n\n```\n\n### NER\n\nWe used the first 100 news articles from \u003ca href=\"https://github.com/natasha/corus#load_ne5\"\u003eCollection5\u003c/a\u003e for evaluation, PER F1 is 99.7%, LOC — 98.6%, ORG — 97.2%. Examples of errors, top is correct:\n\n```\nВыборы Верховного совета Аджарской автономной республики назначены в \n       ORG────────────── LOC────────────────────────────             \nсоответствии с 241-ой статьей и 4-м пунктом 10-й статьи \nКонституционного закона Грузии \u003cО статусе Аджарской автономной \n                        LOC───            LOC──────────────────\nреспублики\u003e.\n──────────  \n\u003e\nВыборы Верховного совета Аджарской автономной республики назначены в \n       ORG────────────── LOC────────────────────────────             \nсоответствии с 241-ой статьей и 4-м пунктом 10-й статьи \nКонституционного закона Грузии \u003cО статусе Аджарской автономной \n                        LOC───            LOC───────────────── \nреспублики\u003e.\n\n\n\nСледственное управление при прокуратуре требует наказать премьера \nORG────────────────────────────────────                           \nЯкутии\nLOC───\n\u003e\nСледственное управление при прокуратуре требует наказать премьера \nORG────────────────────                                           \nЯкутии\nLOC───\n\n\n\nСледственное управление Следственного комитета при прокуратуре \nORG──────────────────── ORG─────────────────────────────────── \nРоссийской Федерации по Якутии обжаловало решение прокуратуры \nLOC─────────────────    LOC───                                \nреспублики.\n\u003e\nСледственное управление Следственного комитета при прокуратуре \nORG──────────────────── ORG───────────────────                 \nРоссийской Федерации по Якутии обжаловало решение прокуратуры \nLOC─────────────────    LOC───                                \nреспублики.\n\n\n\nКак сообщили в четверг корреспонденту Агентства национальных новостей \n                                      ORG──────────────────────────── \nв следственном управлении, еще 16 мая 2007 г. прокуратурой Якутии было\n                                                           LOC───     \n возбуждено уголовное дело № 66144 по признакам преступления, \nпредусмотренного ч. 4 ст. 159 УК РФ по факту причинения имущественного\n                                 LO                                   \n ущерба в размере 30 млн руб. государственному унитарному предприятию \n\u003cДирекция по строительству железной дороги \u003cБеркакит-Томмот-Якутск\u003e.\n ORG──────────────────────────────────────────────────────────────  \n\u003e\nКак сообщили в четверг корреспонденту Агентства национальных новостей \n                                      ORG──────────────────────────── \nв следственном управлении, еще 16 мая 2007 г. прокуратурой Якутии было\n                                                           LOC───     \n возбуждено уголовное дело № 66144 по признакам преступления, \nпредусмотренного ч. 4 ст. 159 УК РФ по факту причинения имущественного\n                                 LO                                   \n ущерба в размере 30 млн руб. государственному унитарному предприятию \n\u003cДирекция по строительству железной дороги \u003cБеркакит-Томмот-Якутск\u003e.\n ORG──────────────────────                  LOC───────────────────  \n\n\n\nДля установления процессуальным путем всех обстоятельств, касающихся \nпричинения ущерба, 4 августа 2008 года Следственное управление \n                                       ORG──────────────────── \nСледственного комитета при прокуратуре Российской Федерации по Якутии \nORG─────────────────────────────────── LOC─────────────────    LOC─── \nвозбудило уголовное дело № 49234 в отношении Егора Борисова по \n                                             PER───────────    \nпризнакам составов преступлений, предусмотренных ч. 2 ст. 286, ч. 5 \nст. 33, ч. 4 ст. 160 и ч. 2 ст. 286 УК РФ.\n                                       LO \n\u003e\nДля установления процессуальным путем всех обстоятельств, касающихся \nпричинения ущерба, 4 августа 2008 года Следственное управление \n                                       ORG──────────────────── \nСледственного комитета при прокуратуре Российской Федерации по Якутии \nORG───────────────────                 LOC─────────────────    LOC─── \nвозбудило уголовное дело № 49234 в отношении Егора Борисова по \n                                             PER───────────    \nпризнакам составов преступлений, предусмотренных ч. 2 ст. 286, ч. 5 \nст. 33, ч. 4 ст. 160 и ч. 2 ст. 286 УК РФ.\n                                       LO \n\n\n\nНачальник полигона твердых бытовых отходов \u003cИгумново\u003e в Нижегородской \n                                            ORG─────    LOC───────────\nобласти осужден за загрязнение атмосферы и грунтовых вод.\n───────                                                  \n\u003e\nНачальник полигона твердых бытовых отходов \u003cИгумново\u003e в Нижегородской \n                                                        LOC───────────\nобласти осужден за загрязнение атмосферы и грунтовых вод.\n───────                                                  \n\n\n\nФедеральная антимонопольная служба (ФАС) России признала, что группа \nORG───────────────────────────────  ORG  LOC───                      \nкомпаний \u003cМечел\u003e нарушила статью 10 закона \u003cО защите конкуренции\u003e в \n          ORG──                                                     \nчасти создания дискриминационных условий для отдельных потребителей \nпродукции, а также экономически и технологически необоснованного \nотказа от заключения договора на поставку продукции и поддержания \nмонопольно высокой цены на товар.\n\u003e\nФедеральная антимонопольная служба (ФАС) России признала, что группа \nORG───────────────────────────────────── LOC───                      \nкомпаний \u003cМечел\u003e нарушила статью 10 закона \u003cО защите конкуренции\u003e в \n          ORG──                                                     \nчасти создания дискриминационных условий для отдельных потребителей \nпродукции, а также экономически и технологически необоснованного \nотказа от заключения договора на поставку продукции и поддержания \nмонопольно высокой цены на товар.\n\n\n\nСтраны Азии и Африки поддержали позицию России в конфликте с Грузией\n       LOC─   LOC───                    LOC───               LOC────\n\u003e\nСтраны Азии и Африки поддержали позицию России в конфликте с Грузией\n                                        LOC───               LOC────\n\n```\n\n## Support\n\n- Chat — https://t.me/natural_language_processing\n- Issues — https://github.com/natasha/nerus/issues\n- Commercial support — https://lab.alexkuk.ru\n\n## Development\n\nDev env\n\n```bash\npython -m venv ~/.venvs/natasha-nerus\nsource ~/.venvs/natasha-nerus/bin/activate\n\npip install -r requirements/dev.txt\npip install -e .\n```\n\nLint + test\n\n```bash\nmake test\n```\n\nRelease\n\n```bash\n# Update setup.py version\n\ngit commit -am 'Up version'\ngit tag v0.9.0\n\ngit push\ngit push --tags\n```\n\nRent YC GPU\n\n```bash\nyc compute instance create \\\n  --name gpu \\\n  --zone ru-central1-a \\\n  --network-interface subnet-name=default,nat-ip-version=ipv4 \\\n  --create-boot-disk image-folder-id=standard-images,image-family=ubuntu-1804-lts-ngc,type=network-ssd,size=20 \\\n  --cores=8 \\\n  --memory=96 \\\n  --gpus=1 \\\n  --ssh-key ~/.ssh/id_rsa.pub \\\n  --folder-name default \\\n  --platform-id gpu-standard-v1 \\\n  --preemptible\n\nyc compute instance list\nyc compute instance delete fhmj2ftcm32qgqt4igjf\n```\n\nSetup instance\n\n```\nsudo locale-gen ru_RU.UTF-8\n\nsudo apt-get update\nsudo apt-get install -y python3-pip\nsudo pip3 install jupyter\n\nnohup jupyter notebook \\\n  --no-browser \\\n  --allow-root \\\n  --ip=localhost \\\n  --port=8888 \\\n  --NotebookApp.token='' \\\n  --NotebookApp.password='' \u0026\n\nssh -Nf gpu -L 8888:localhost:8888\nhttp://localhost:8888/\n```\n\nSync remote\n\n```\nscp ~/.nerus.json gpu:~\nrsync --exclude data -rv . gpu:~/nerus\nrsync -u --exclude data -rv 'gpu:~/nerus/*' .\n```\n\nIntall dev\n\n```bash\nsudo pip3 install -r nerus/requirements/dev.txt\nsudo pip3 install -e nerus\n```\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fnatasha%2Fnerus","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fnatasha%2Fnerus","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fnatasha%2Fnerus/lists"}