Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/wavewangyue/NLPCC-MH
中文多跳问答数据集
https://github.com/wavewangyue/NLPCC-MH
Last synced: about 1 month ago
JSON representation
中文多跳问答数据集
- Host: GitHub
- URL: https://github.com/wavewangyue/NLPCC-MH
- Owner: wavewangyue
- Created: 2018-10-08T08:17:55.000Z (about 6 years ago)
- Default Branch: master
- Last Pushed: 2018-10-08T08:18:26.000Z (about 6 years ago)
- Last Synced: 2024-08-03T09:07:11.153Z (5 months ago)
- Size: 489 KB
- Stars: 69
- Watchers: 2
- Forks: 16
- Open Issues: 2
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- StarryDivineSky - wavewangyue/NLPCC-MH
README
# NLPCC-MH 中文多跳问答数据集
本数据集在如下论文中被提出,由于目前问答领域内尚缺乏开放的面向多跳问题的中文QA数据集,为了验证文中模型在多跳问题上的有效性,故制作此数据集服务于论文进行实验验证
> Yue Wang, Richong Zhang. 基于动态规划的知识库问答方法. CCKS(China Conference on Knowledge Graph and Semantic Computing). 2018.
#### 数据集说明
在中文开放领域问答数据集上,NLPCC 2016 在 Open Domain Chinese Question Answering 挑战任务中发布了关于中文 KBQA 数据集,包含 14,609 条训练数据及 9,870 条测试数据。但数据仅包含单跳问题。
由于目前领域内尚缺乏开放的面向多跳问题的中文 QA 数据集,为了验证模型在多跳问题上的有效性,我们基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了一个专注多跳问题的中文 KBQA 数据集,即“NLPCC-MH”
具体构建方法如下:首先在知识库中对原问题中包含的实体进行检索,再将检索到的相关三元组通过模板形成短语文本,替换原问题中的实体名。例如对于单跳问题“谁饰演了快银”,我们在知识库中检索到与实体“快银”相关的三元组“(万磁王, 儿子, 快银)”,再基于此将原问句中的实体名进行替换,得到两跳问题“谁饰演了万磁王的儿子”。进一步可以继续检索与实体“万磁王”相关的三元组“(变形女, 上司, 万磁王)”,将此问题扩充为三跳问题“谁饰演了变形女的上司的儿子”。最后经过我们的筛选与统计,NLPCC-MH 数据集共包含 4,000 条训练数据与 1,000 条测试数据,数据涵盖 2-3 跳的问题,其中 2 跳问题占80\%,3 跳问题占20\%
#### 数据格式
```
[{
"q": "假蒟叶的亚目有多少亚种?",
"path": [
[
"假蒟叶 ||| 6401559",
"亚目",
"胡椒科 ||| 4604040"
],
[
"胡椒科 ||| 4604040",
"亚种",
"共3100种 ||| 0"
]
]
},
……
]
```数据以 JSON 形式存储,每条数据中包含 “q” 与 “path” 两项内容,前者是问题文本,后者为回答此问题所需的三元组序列,以列表形式表示,每个三元组也以长度为 3 的列表进行表示,依次分别为“头实体”,“关系”,“尾实体”,其中实体以“名称 ||| 实体id”的形式进行表征,实体id为每个实体的唯一标识,此编号来源于北航“知行”知识图谱数据库,编号 0 则表征此实体并非真实存在的实体,只是属性值。
#### 使用说明
随意使用,欢迎下载。
数据集的构建方式比较简单,严格来说数据集质量一般,如需使用建议斟酌。数据的突出问题表现为以下几类:
1. 知识库链接问题。如“请问雪玉剑的作者和什么相对”,标准答案为“(雪玉剑,作者,近墨者黑);(近墨者黑,相对,近朱者赤)”,但是在前一个三元组中的“近墨者黑”是一个人的笔名,和后一个三元组中的成语“近墨者黑”已经不是同一实体,针对此类问题已经进行了些许改进,但此类问题数据仍存在。
2. 多值关系的歧义。如“请问阿贝尔的兄弟姐妹主要掌管什么”,标准答案为“(阿贝尔,兄弟姐妹,阿尔忒弥斯);(阿尔忒弥斯,司掌,净化)”,但“阿贝尔”可能会存在多个其他的“兄弟姐妹”,这里并没有完整考虑进答案内容。
3. 多跳可能经过原点的乌龙。如"请问阿尔忒弥斯的其他名称的别称代表着什么啊?",标准答案为“(阿尔忒弥斯,其他名称,狄安娜);(狄安娜,别称,阿尔忒弥斯);(阿尔忒弥斯,象征,松柏)”,多跳过程中从 A 通过“其他名称”跳到 B,由随即通过“别称”跳回了 A,其实很尴尬的事情,已经做了一些限定来调整但问题数据仍有存在。#### 联系
最后,如果此数据集帮助到了你,倍感荣幸