https://github.com/hironsan/iob2corpus
Japanese IOB2 tagged corpus for Named Entity Recognition.
https://github.com/hironsan/iob2corpus
machine-learning named-entity-recognition natural-language-processing
Last synced: 5 months ago
JSON representation
Japanese IOB2 tagged corpus for Named Entity Recognition.
- Host: GitHub
- URL: https://github.com/hironsan/iob2corpus
- Owner: Hironsan
- Created: 2016-01-29T00:21:17.000Z (over 10 years ago)
- Default Branch: master
- Last Pushed: 2020-02-25T00:34:12.000Z (over 6 years ago)
- Last Synced: 2025-04-07T15:53:43.439Z (about 1 year ago)
- Topics: machine-learning, named-entity-recognition, natural-language-processing
- Size: 442 KB
- Stars: 60
- Watchers: 5
- Forks: 19
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 概要
[hironsan.txt](https://github.com/Hironsan/IOB2Corpus/blob/master/hironsan.txt)は、ウィキニュース日本語版をMeCabで形態素解析してIOB2タグでタグ付けしたコーパスです。
全部で500文にタグ付けしています。
タグ付けの基準はIREXの定義に基づいています。(だいたい)
* http://nlp.cs.nyu.edu/irex/NE/df990214.txt
ウィキニュース日本語版のライセンスはクリエイティブ・コモンズ-表示-2.5です。
[ja.wikipedia.conll](https://github.com/Hironsan/IOB2Corpus/blob/master/ja.wikipedia.conll)は、Wikipedia日本語版から抽出したテキストをMeCabで形態素解析してタグ付けしたコーパスです。