{"id":13701747,"url":"https://github.com/natasha/corus","last_synced_at":"2025-04-04T17:04:36.599Z","repository":{"id":39717924,"uuid":"183585035","full_name":"natasha/corus","owner":"natasha","description":"Links to Russian corpora + Python functions for loading and parsing","archived":false,"fork":false,"pushed_at":"2023-07-24T08:53:32.000Z","size":1052,"stargazers_count":295,"open_issues_count":66,"forks_count":21,"subscribers_count":17,"default_branch":"master","last_synced_at":"2025-03-28T16:04:45.697Z","etag":null,"topics":["corpora","datasets","nlp","python","russian"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/natasha.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null}},"created_at":"2019-04-26T08:00:10.000Z","updated_at":"2025-03-25T13:29:03.000Z","dependencies_parsed_at":"2023-02-13T21:16:09.004Z","dependency_job_id":"4e975350-d1e2-4d47-8a05-6a38da7b984f","html_url":"https://github.com/natasha/corus","commit_stats":{"total_commits":162,"total_committers":4,"mean_commits":40.5,"dds":"0.13580246913580252","last_synced_commit":"a25a2107a087269206900fdf48f0b17eec41ed8f"},"previous_names":[],"tags_count":9,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fcorus","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fcorus/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fcorus/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/natasha%2Fcorus/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/natasha","download_url":"https://codeload.github.com/natasha/corus/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":247217172,"owners_count":20903008,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["corpora","datasets","nlp","python","russian"],"created_at":"2024-08-02T20:01:56.531Z","updated_at":"2025-04-04T17:04:36.581Z","avatar_url":"https://github.com/natasha.png","language":"Jupyter Notebook","funding_links":[],"categories":["Jupyter Notebook"],"sub_categories":[],"readme":"\n\u003cimg src=\"https://github.com/natasha/natasha-logos/blob/master/corus.svg\"\u003e\n\n![CI](https://github.com/natasha/corus/actions/workflows/test.yml/badge.svg)\n\nLinks to publicly available Russian corpora + code for loading and parsing. \u003ca href=\"#reference\"\u003e20+ datasets, 350Gb+ of text\u003c/a\u003e.\n\n## Usage\n\nFor example lets use \u003ca href=\"https://github.com/yutkin/Lenta.Ru-News-Dataset\"\u003edump of lenta.ru by @yutkin\u003c/a\u003e. Manually download the archive (link in the \u003ca href=\"#reference\"\u003eReference\u003c/a\u003e section):\n```bash\nwget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz\n```\n\nUse `corus` to load the data:\n\n```python\n\u003e\u003e\u003e from corus import load_lenta\n\n\u003e\u003e\u003e path = 'lenta-ru-news.csv.gz'\n\u003e\u003e\u003e records = load_lenta(path)\n\u003e\u003e\u003e next(records)\n\nLentaRecord(\n    url='https://lenta.ru/news/2018/12/14/cancer/',\n    title='Названы регионы России с\\xa0самой высокой смертностью от\\xa0рака',\n    text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сооб...',\n    topic='Россия',\n    tags='Общество'\n)\n```\n\nIterate over texts:\n\n```python\n\u003e\u003e\u003e records = load_lenta(path)\n\u003e\u003e\u003e for record in records:\n...     text = record.text\n...     ...\n\n```\n\nFor links to other datasets and their loaders see the \u003ca href=\"#reference\"\u003eReference\u003c/a\u003e section.\n\n## Documentation\n\nMaterials are in Russian:\n\n* \u003ca href=\"https://natasha.github.io/corus\"\u003eCorus page on natasha.github.io\u003c/a\u003e \n* \u003ca href=\"https://youtu.be/-7XT_U6hVvk?t=2758\"\u003eCorus section of Datafest 2020 talk\u003c/a\u003e\n\n## Install\n\n`corus` supports Python 3.5+, PyPy 3.\n\n```bash\n$ pip install corus\n```\n\n## Reference\n\n\u003c!--- metas ---\u003e\n\u003ctable\u003e\n\u003ctr\u003e\n\u003cth\u003eDataset\u003c/th\u003e\n\u003cth\u003eAPI \u003ccode\u003efrom corus import\u003c/code\u003e\u003c/th\u003e\n\u003cth\u003eTags\u003c/th\u003e\n\u003cth\u003eTexts\u003c/th\u003e\n\u003cth\u003eUncompressed\u003c/th\u003e\n\u003cth\u003eDescription\u003c/th\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/yutkin/Lenta.Ru-News-Dataset\"\u003eLenta.ru\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nLenta.ru v1.0\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_lenta\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_lenta\"\u003eload_lenta\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_lenta\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n739\u0026nbsp;351\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.66 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nLenta.ru v1.1+\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_lenta2\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_lenta2\"\u003eload_lenta2\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_lenta2\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n800\u0026nbsp;975\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.94 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.1/lenta-ru-news.csv.bz2\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://russe.nlpub.org/downloads/\"\u003eLib.rus.ec\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_librusec\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_librusec\"\u003eload_librusec\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_librusec\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003efiction\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n301\u0026nbsp;871\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n144.92 Gb\n\u003c/td\u003e\n\u003ctd\u003e\nDump of lib.rus.ec prepared for RUSSE workshop\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget http://panchenko.me/data/russe/librusec_fb2.plain.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/RossiyaSegodnya/ria_news_dataset\"\u003eRossiya Segodnya\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ria_raw\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ria_raw\"\u003eload_ria_raw\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ria_raw\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/br\u003e\n\u003ca name=\"load_ria\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ria\"\u003eload_ria\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ria\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;003\u0026nbsp;869\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n3.70 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"http://study.mokoron.com/\"\u003eMokoron Russian Twitter Corpus\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_mokoron\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_mokoron\"\u003eload_mokoron\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_mokoron\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003esocial\u003c/code\u003e\n\u003ccode\u003esentiment\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n17\u0026nbsp;633\u0026nbsp;417\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.86 Gb\n\u003c/td\u003e\n\u003ctd\u003e\nRussian Twitter sentiment markup\n\u003c/br\u003e\n\u003c/br\u003e\nManually download https://www.dropbox.com/s/9egqjszeicki4ho/db.sql\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://dumps.wikimedia.org/\"\u003eWikipedia\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_wiki\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_wiki\"\u003eload_wiki\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_wiki\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;541\u0026nbsp;401\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n12.94 Gb\n\u003c/td\u003e\n\u003ctd\u003e\nRussian Wiki dump\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/dialogue-evaluation/GramEval2020\"\u003eGramEval2020\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_gramru\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_gramru\"\u003eload_gramru\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_gramru\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n162\u0026nbsp;372\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n30.04 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip master.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003emv GramEval2020-master/dataTrain train\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003emv GramEval2020-master/dataOpenTest dev\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm -r master.zip GramEval2020-master\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"http://opencorpora.org/\"\u003eOpenCorpora\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_corpora\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_corpora\"\u003eload_corpora\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_corpora\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n4\u0026nbsp;030\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n20.21 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nRusVectores SimLex-965\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_simlex\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_simlex\"\u003eload_simlex\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_simlex\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003eemb\u003c/code\u003e\n\u003ccode\u003esim\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsv\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://rusvectores.org/static/testsets/ru_simlex965.tsv\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://omnia-russica.github.io/\"\u003eOmnia Russica\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_omnia\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_omnia\"\u003eload_omnia\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_omnia\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003ccode\u003eweb\u003c/code\u003e\n\u003ccode\u003efiction\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n489.62 Gb\n\u003c/td\u003e\n\u003ctd\u003e\nTaiga + Wiki + Araneum. Read \"Even larger Russian corpus\" https://events.spbu.ru/eventsContent/events/2019/corpora/corp_sborn.pdf\n\u003c/br\u003e\n\u003c/br\u003e\nManually download http://bit.ly/2ZT4BY9\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/dialogue-evaluation/factRuEval-2016/\"\u003efactRuEval-2016\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_factru\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_factru\"\u003eload_factru\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_factru\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ener\u003c/code\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n254\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n969.27 Kb\n\u003c/td\u003e\n\u003ctd\u003e\nManual PER, LOC, ORG markup prepared for 2016 Dialog competition\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip master.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm master.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://www.researchgate.net/publication/262203599_Introducing_Baselines_for_Russian_Named_Entity_Recognition\"\u003eGareev\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_gareev\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_gareev\"\u003eload_gareev\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_gareev\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ener\u003c/code\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n97\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n455.02 Kb\n\u003c/td\u003e\n\u003ctd\u003e\nManual PER, ORG markup (no LOC)\n\u003c/br\u003e\n\u003c/br\u003e\nEmail Rinat Gareev (gareev-rm@yandex.ru) ask for dataset\n\u003c/br\u003e\n\u003ccode\u003etar -xvf rus-ner-news-corpus.iob.tar.gz\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm rus-ner-news-corpus.iob.tar.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"http://www.labinform.ru/pub/named_entities/\"\u003eCollection5\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ne5\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ne5\"\u003eload_ne5\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ne5\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ener\u003c/code\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;000\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n2.96 Mb\n\u003c/td\u003e\n\u003ctd\u003e\nNews articles with manual PER, LOC, ORG markup\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget http://www.labinform.ru/pub/named_entities/collection5.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip collection5.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm collection5.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://www.aclweb.org/anthology/I17-1042\"\u003eWiNER\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_wikiner\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_wikiner\"\u003eload_wikiner\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_wikiner\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ener\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n203\u0026nbsp;287\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n36.15 Mb\n\u003c/td\u003e\n\u003ctd\u003e\nSentences from Wiki auto annotated with PER, LOC, ORG tags\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/dice-group/FOX/raw/master/input/Wikiner/aij-wikiner-ru-wp3.bz2\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"http://bsnlp.cs.helsinki.fi/shared_task.html\"\u003eBSNLP-2019\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_bsnlp\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_bsnlp\"\u003eload_bsnlp\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_bsnlp\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ener\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n464\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.16 Mb\n\u003c/td\u003e\n\u003ctd\u003e\nMarkup prepared for 2019 BSNLP Shared Task\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget http://bsnlp.cs.helsinki.fi/TRAININGDATA_BSNLP_2019_shared_task.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget http://bsnlp.cs.helsinki.fi/TESTDATA_BSNLP_2019_shared_task.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip TRAININGDATA_BSNLP_2019_shared_task.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip TESTDATA_BSNLP_2019_shared_task.zip -d test_pl_cs_ru_bg\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm TRAININGDATA_BSNLP_2019_shared_task.zip TESTDATA_BSNLP_2019_shared_task.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"http://ai-center.botik.ru/Airec/index.php/ru/collections/28-persons-1000\"\u003ePersons-1000\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_persons\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_persons\"\u003eload_persons\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_persons\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ener\u003c/code\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;000\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n2.96 Mb\n\u003c/td\u003e\n\u003ctd\u003e\nSame as Collection5, only PER markup + normalized names\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget http://ai-center.botik.ru/Airec/ai-resources/Persons-1000.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/cimm-kzn/RuDReC\"\u003eThe Russian Drug Reaction Corpus (RuDReC)\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_rudrec\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_rudrec\"\u003eload_rudrec\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_rudrec\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ener\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n4\u0026nbsp;809\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.73 Kb\n\u003c/td\u003e\n\u003ctd\u003e\nRuDReC is a new partially annotated corpus of consumer reviews in Russian about pharmaceutical products for the detection of health-related named entities and the effectiveness of pharmaceutical products. Here you can download and work with the annotated part, to get the raw part (1.4M reviews) please refer to https://github.com/cimm-kzn/RuDReC.\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/cimm-kzn/RuDReC/raw/master/data/rudrec_annotated.json\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://tatianashavrina.github.io/taiga_site/\"\u003eTaiga\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\nLarge collection of Russian texts from various sources: news sites, magazines, literacy, social networks\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://linghub.ru/static/Taiga/retagged_taiga.tar.gz\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003etar -xzvf retagged_taiga.tar.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nArzamas\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_arzamas\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_arzamas\"\u003eload_taiga_arzamas\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_arzamas\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n311\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n4.50 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nFontanka\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_fontanka\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_fontanka\"\u003eload_taiga_fontanka\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_fontanka\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n342\u0026nbsp;683\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n786.23 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nInterfax\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_interfax\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_interfax\"\u003eload_taiga_interfax\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_interfax\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n46\u0026nbsp;429\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n77.55 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nKP\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_kp\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_kp\"\u003eload_taiga_kp\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_kp\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n45\u0026nbsp;503\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n61.79 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nLenta\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_lenta\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_lenta\"\u003eload_taiga_lenta\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_lenta\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n36\u0026nbsp;446\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n95.15 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nTaiga/N+1\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_nplus1\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_nplus1\"\u003eload_taiga_nplus1\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_nplus1\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n7\u0026nbsp;696\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n24.96 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nMagazines\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_magazines\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_magazines\"\u003eload_taiga_magazines\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_magazines\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n39\u0026nbsp;890\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n2.19 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nSubtitles\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_subtitles\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_subtitles\"\u003eload_taiga_subtitles\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_subtitles\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n19\u0026nbsp;011\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n909.08 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nSocial\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_social\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_social\"\u003eload_taiga_social\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_social\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003esocial\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;876\u0026nbsp;442\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n648.18 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nProza\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_proza\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_proza\"\u003eload_taiga_proza\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_proza\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003efiction\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;732\u0026nbsp;434\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n38.25 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nStihi\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_taiga_stihi\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_taiga_stihi\"\u003eload_taiga_stihi\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_taiga_stihi\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n9\u0026nbsp;157\u0026nbsp;686\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n12.80 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/buriy/russian-nlp-datasets/releases\"\u003eRussian NLP Datasets\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\nSeveral Russian news datasets from webhose.io, lenta.ru and other news sites.\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nNews\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_buriy_news\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_buriy_news\"\u003eload_buriy_news\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_buriy_news\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n2\u0026nbsp;154\u0026nbsp;801\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n6.84 Gb\n\u003c/td\u003e\n\u003ctd\u003e\nDump of top 40 news + 20 fashion news sites.\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2014.tar.bz2\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part1.tar.bz2\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/news-articles-2015-part2.tar.bz2\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nWebhose\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_buriy_webhose\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_buriy_webhose\"\u003eload_buriy_webhose\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_buriy_webhose\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n285\u0026nbsp;965\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n859.32 Mb\n\u003c/td\u003e\n\u003ctd\u003e\nDump from webhose.io, 300 sources for one month.\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/ods-ai-ml4sg/proj_news_viz/releases/tag/data\"\u003eODS #proj_news_viz\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\nSeveral news sites scraped by members of #proj_news_viz ODS project.\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nInterfax\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ods_interfax\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ods_interfax\"\u003eload_ods_interfax\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ods_interfax\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n543\u0026nbsp;961\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.22 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/interfax.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nGazeta\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ods_gazeta\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ods_gazeta\"\u003eload_ods_gazeta\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ods_gazeta\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n865\u0026nbsp;847\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.63 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/gazeta.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nIzvestia\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ods_izvestia\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ods_izvestia\"\u003eload_ods_izvestia\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ods_izvestia\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n86\u0026nbsp;601\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n307.19 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/iz.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nMeduza\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ods_meduza\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ods_meduza\"\u003eload_ods_meduza\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ods_meduza\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n71\u0026nbsp;806\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n270.11 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/meduza.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nRIA\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ods_ria\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ods_ria\"\u003eload_ods_ria\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ods_ria\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n101\u0026nbsp;543\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n233.88 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/ria.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nRussia Today\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ods_rt\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ods_rt\"\u003eload_ods_rt\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ods_rt\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n106\u0026nbsp;644\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n187.12 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/rt.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nTASS\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ods_tass\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ods_tass\"\u003eload_ods_tass\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ods_tass\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003enews\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;135\u0026nbsp;635\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n3.27 Gb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/ods-ai-ml4sg/proj_news_viz/releases/download/data/tass-001.csv.gz\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://universaldependencies.org/\"\u003eUniversal Dependencies\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nGSD\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ud_gsd\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ud_gsd\"\u003eload_ud_gsd\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ud_gsd\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003ccode\u003esyntax\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n5\u0026nbsp;030\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1.01 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-dev.conllu\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-test.conllu\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-GSD/raw/master/ru_gsd-ud-train.conllu\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nTaiga\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ud_taiga\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ud_taiga\"\u003eload_ud_taiga\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ud_taiga\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003ccode\u003esyntax\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n3\u0026nbsp;264\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n353.80 Kb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-dev.conllu\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-test.conllu\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-Taiga/raw/master/ru_taiga-ud-train.conllu\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nPUD\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ud_pud\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ud_pud\"\u003eload_ud_pud\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ud_pud\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003ccode\u003esyntax\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n1\u0026nbsp;000\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n207.78 Kb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-PUD/raw/master/ru_pud-ud-test.conllu\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nSynTagRus\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ud_syntag\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ud_syntag\"\u003eload_ud_syntag\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ud_syntag\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003ccode\u003esyntax\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n61\u0026nbsp;889\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n11.33 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-dev.conllu\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-test.conllu\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/UniversalDependencies/UD_Russian-SynTagRus/raw/master/ru_syntagrus-ud-train.conllu\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/dialogue-evaluation/morphoRuEval-2017\"\u003emorphoRuEval-2017\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nGeneral Internet-Corpus\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_morphoru_gicrya\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_morphoru_gicrya\"\u003eload_morphoru_gicrya\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_morphoru_gicrya\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n83\u0026nbsp;148\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n10.58 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/GIKRYA_texts_new.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip GIKRYA_texts_new.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm GIKRYA_texts_new.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nRussian National Corpus\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_morphoru_rnc\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_morphoru_rnc\"\u003eload_morphoru_rnc\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_morphoru_rnc\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n98\u0026nbsp;892\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n12.71 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/RNC_texts.rar\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunrar x RNC_texts.rar\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm RNC_texts.rar\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nOpenCorpora\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_morphoru_corpora\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_morphoru_corpora\"\u003eload_morphoru_corpora\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_morphoru_corpora\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003emorph\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n38\u0026nbsp;510\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n4.80 Mb\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/dialogue-evaluation/morphoRuEval-2017/raw/master/OpenCorpora_Texts.rar\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunrar x OpenCorpora_Texts.rar\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm OpenCorpora_Texts.rar\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://russe.nlpub.org/downloads/\"\u003eRUSSE Russian Semantic Relatedness\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nHJ: Human Judgements of Word Pairs\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_russe_hj\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_russe_hj\"\u003eload_russe_hj\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_russe_hj\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003eemb\u003c/code\u003e\n\u003ccode\u003esim\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/hj.csv\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nRT: Synonyms and Hypernyms from the Thesaurus RuThes\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_russe_rt\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_russe_rt\"\u003eload_russe_rt\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_russe_rt\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003eemb\u003c/code\u003e\n\u003ccode\u003esim\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/rt.csv\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nAE: Cognitive Associations from the Sociation.org Experiment\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_russe_ae\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_russe_ae\"\u003eload_russe_ae\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_russe_ae\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003eemb\u003c/code\u003e\n\u003ccode\u003esim\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-train.csv\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/nlpub/russe-evaluation/raw/master/russe/evaluation/ae-test.csv\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://raw.githubusercontent.com/nlpub/russe-evaluation/master/russe/evaluation/ae2.csv\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://toloka.yandex.ru/datasets/\"\u003eToloka Datasets\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd colspan=\"5\"\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\nLexical Relations from the Wisdom of the Crowd (LRWC)\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_toloka_lrwc\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_toloka_lrwc\"\u003eload_toloka_lrwc\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_toloka_lrwc\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003eemb\u003c/code\u003e\n\u003ccode\u003esim\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003ewget https://tlk.s3.yandex.net/dataset/LRWC.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip LRWC.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm LRWC.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003ctr\u003e\n\u003ctd\u003e\n\u003ca href=\"https://github.com/cimm-kzn/RuDReC\"\u003eThe Russian Adverse Drug Reaction Corpus of Tweets (RuADReCT)\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ca name=\"load_ruadrect\"\u003e\u003c/a\u003e\n\u003ccode\u003e\u003ca href=\"https://nbviewer.jupyter.org/github/natasha/corus/blob/master/docs.ipynb#load_ruadrect\"\u003eload_ruadrect\u003c/a\u003e\u003c/code\u003e\n\u003ca href=\"#load_ruadrect\"\u003e\u003ccode\u003e#\u003c/code\u003e\u003c/a\u003e\n\u003c/td\u003e\n\u003ctd\u003e\n\u003ccode\u003esocial\u003c/code\u003e\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n9\u0026nbsp;515\n\u003c/td\u003e\n\u003ctd align=\"right\"\u003e\n2.09 Mb\n\u003c/td\u003e\n\u003ctd\u003e\nThis corpus was developed for the Social Media Mining for Health Applications (#SMM4H) Shared Task 2020\n\u003c/br\u003e\n\u003c/br\u003e\n\u003ccode\u003ewget https://github.com/cimm-kzn/RuDReC/raw/master/data/RuADReCT.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003eunzip RuADReCT.zip\u003c/code\u003e\n\u003c/br\u003e\n\u003ccode\u003erm RuADReCT.zip\u003c/code\u003e\n\u003c/td\u003e\n\u003c/tr\u003e\n\u003c/table\u003e\n\u003c!--- metas ---\u003e\n\n## Support\n\n- Chat — https://t.me/natural_language_processing\n- Issues — https://github.com/natasha/corus/issues\n- Commercial support — https://lab.alexkuk.ru\n\n## Add new source\n\n1. Implement `corus/sources/\u003csource\u003e.py`\n2. Add import into `corus/sources/__init__.py`\n3. Add meta into `corus/source/meta.py`\n4. Add example into `docs.ipynb` (check meta table is correct)\n5. Run tests (readme is updated)\n\n## Development\n\nDev env\n\n```bash\npython -m venv ~/.venvs/natasha-corus\nsource ~/.venvs/natasha-corus/bin/activate\n\npip install -r requirements/dev.txt\npip install -e .\n\npython -m ipykernel install --user --name natasha-corus\n```\n\nLint + update docs\n\n```bash\nmake lint\nmake exec-docs\n```\n\nRelease\n\n```bash\n# Update setup.py version\n\ngit commit -am 'Up version'\ngit tag v0.10.0\n\ngit push\ngit push --tags\n```\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fnatasha%2Fcorus","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fnatasha%2Fcorus","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fnatasha%2Fcorus/lists"}