https://github.com/wavewangyue/NLPCC-MH

中文多跳问答数据集
https://github.com/wavewangyue/NLPCC-MH

Last synced: 12 months ago
JSON representation

中文多跳问答数据集

Host: GitHub
URL: https://github.com/wavewangyue/NLPCC-MH
Owner: wavewangyue
Created: 2018-10-08T08:17:55.000Z (over 7 years ago)
Default Branch: master
Last Pushed: 2018-10-08T08:18:26.000Z (over 7 years ago)
Last Synced: 2024-11-16T07:33:19.255Z (over 1 year ago)
Size: 489 KB
Stars: 72
Watchers: 2
Forks: 17
Open Issues: 2
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

StarryDivineSky - wavewangyue/NLPCC-MH
awesome-kgqa - NLPCC-MH 中文多跳问答数据集

README

# NLPCC-MH 中文多跳问答数据集

本数据集在如下论文中被提出，由于目前问答领域内尚缺乏开放的面向多跳问题的中文QA数据集，为了验证文中模型在多跳问题上的有效性，故制作此数据集服务于论文进行实验验证

> Yue Wang, Richong Zhang. 基于动态规划的知识库问答方法. CCKS(China Conference on Knowledge Graph and Semantic Computing). 2018.

#### 数据集说明

在中文开放领域问答数据集上，NLPCC 2016 在 Open Domain Chinese Question Answering 挑战任务中发布了关于中文 KBQA 数据集，包含 14,609 条训练数据及 9,870 条测试数据。但数据仅包含单跳问题。

由于目前领域内尚缺乏开放的面向多跳问题的中文 QA 数据集，为了验证模型在多跳问题上的有效性，我们基于 NLPCC 所包含的单跳问题，通过扩充问句内容的方式，构建了一个专注多跳问题的中文 KBQA 数据集，即“NLPCC-MH”

具体构建方法如下：首先在知识库中对原问题中包含的实体进行检索，再将检索到的相关三元组通过模板形成短语文本，替换原问题中的实体名。例如对于单跳问题“谁饰演了快银”，我们在知识库中检索到与实体“快银”相关的三元组“(万磁王, 儿子, 快银)”，再基于此将原问句中的实体名进行替换，得到两跳问题“谁饰演了万磁王的儿子”。进一步可以继续检索与实体“万磁王”相关的三元组“(变形女, 上司, 万磁王)”，将此问题扩充为三跳问题“谁饰演了变形女的上司的儿子”。最后经过我们的筛选与统计，NLPCC-MH 数据集共包含 4,000 条训练数据与 1,000 条测试数据，数据涵盖 2-3 跳的问题，其中 2 跳问题占80\%，3 跳问题占20\%

#### 数据格式

```
[{
"q": "假蒟叶的亚目有多少亚种？",
"path": [
[
"假蒟叶 ||| 6401559",
"亚目",
"胡椒科 ||| 4604040"
],
[
"胡椒科 ||| 4604040",
"亚种",
"共3100种 ||| 0"
]
]
},
……
]
```

数据以 JSON 形式存储，每条数据中包含 “q” 与 “path” 两项内容，前者是问题文本，后者为回答此问题所需的三元组序列，以列表形式表示，每个三元组也以长度为 3 的列表进行表示，依次分别为“头实体”，“关系”，“尾实体”，其中实体以“名称 ||| 实体id”的形式进行表征，实体id为每个实体的唯一标识，此编号来源于北航“知行”知识图谱数据库，编号 0 则表征此实体并非真实存在的实体，只是属性值。

#### 使用说明

随意使用，欢迎下载。

数据集的构建方式比较简单，严格来说数据集质量一般，如需使用建议斟酌。数据的突出问题表现为以下几类：

1. 知识库链接问题。如“请问雪玉剑的作者和什么相对”，标准答案为“（雪玉剑，作者，近墨者黑）；（近墨者黑，相对，近朱者赤）”，但是在前一个三元组中的“近墨者黑”是一个人的笔名，和后一个三元组中的成语“近墨者黑”已经不是同一实体，针对此类问题已经进行了些许改进，但此类问题数据仍存在。
2. 多值关系的歧义。如“请问阿贝尔的兄弟姐妹主要掌管什么”，标准答案为“（阿贝尔，兄弟姐妹，阿尔忒弥斯）；（阿尔忒弥斯，司掌，净化）”，但“阿贝尔”可能会存在多个其他的“兄弟姐妹”，这里并没有完整考虑进答案内容。
3. 多跳可能经过原点的乌龙。如"请问阿尔忒弥斯的其他名称的别称代表着什么啊？"，标准答案为“（阿尔忒弥斯，其他名称，狄安娜）；（狄安娜，别称，阿尔忒弥斯）；（阿尔忒弥斯，象征，松柏）”，多跳过程中从 A 通过“其他名称”跳到 B，由随即通过“别称”跳回了 A，其实很尴尬的事情，已经做了一些限定来调整但问题数据仍有存在。

#### 联系

最后，如果此数据集帮助到了你，倍感荣幸

wangyue16@act.buaa.edu.cn

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/wavewangyue/NLPCC-MH

Awesome Lists containing this project

README