An open API service indexing awesome lists of open source software.

https://github.com/hironsan/iob2corpus

Japanese IOB2 tagged corpus for Named Entity Recognition.
https://github.com/hironsan/iob2corpus

machine-learning named-entity-recognition natural-language-processing

Last synced: 5 months ago
JSON representation

Japanese IOB2 tagged corpus for Named Entity Recognition.

Awesome Lists containing this project

README

          

# 概要

[hironsan.txt](https://github.com/Hironsan/IOB2Corpus/blob/master/hironsan.txt)は、ウィキニュース日本語版をMeCabで形態素解析してIOB2タグでタグ付けしたコーパスです。

全部で500文にタグ付けしています。

タグ付けの基準はIREXの定義に基づいています。(だいたい)
* http://nlp.cs.nyu.edu/irex/NE/df990214.txt

ウィキニュース日本語版のライセンスはクリエイティブ・コモンズ-表示-2.5です。

[ja.wikipedia.conll](https://github.com/Hironsan/IOB2Corpus/blob/master/ja.wikipedia.conll)は、Wikipedia日本語版から抽出したテキストをMeCabで形態素解析してタグ付けしたコーパスです。