Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/wavewangyue/NLPCC-MH

中文多跳问答数据集
https://github.com/wavewangyue/NLPCC-MH

Last synced: about 1 month ago
JSON representation

中文多跳问答数据集

Awesome Lists containing this project

README

        

# NLPCC-MH 中文多跳问答数据集

本数据集在如下论文中被提出,由于目前问答领域内尚缺乏开放的面向多跳问题的中文QA数据集,为了验证文中模型在多跳问题上的有效性,故制作此数据集服务于论文进行实验验证

> Yue Wang, Richong Zhang. 基于动态规划的知识库问答方法. CCKS(China Conference on Knowledge Graph and Semantic Computing). 2018.

#### 数据集说明

在中文开放领域问答数据集上,NLPCC 2016 在 Open Domain Chinese Question Answering 挑战任务中发布了关于中文 KBQA 数据集,包含 14,609 条训练数据及 9,870 条测试数据。但数据仅包含单跳问题。

由于目前领域内尚缺乏开放的面向多跳问题的中文 QA 数据集,为了验证模型在多跳问题上的有效性,我们基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了一个专注多跳问题的中文 KBQA 数据集,即“NLPCC-MH”

具体构建方法如下:首先在知识库中对原问题中包含的实体进行检索,再将检索到的相关三元组通过模板形成短语文本,替换原问题中的实体名。例如对于单跳问题“谁饰演了快银”,我们在知识库中检索到与实体“快银”相关的三元组“(万磁王, 儿子, 快银)”,再基于此将原问句中的实体名进行替换,得到两跳问题“谁饰演了万磁王的儿子”。进一步可以继续检索与实体“万磁王”相关的三元组“(变形女, 上司, 万磁王)”,将此问题扩充为三跳问题“谁饰演了变形女的上司的儿子”。最后经过我们的筛选与统计,NLPCC-MH 数据集共包含 4,000 条训练数据与 1,000 条测试数据,数据涵盖 2-3 跳的问题,其中 2 跳问题占80\%,3 跳问题占20\%

#### 数据格式

```
[{
"q": "假蒟叶的亚目有多少亚种?",
"path": [
[
"假蒟叶 ||| 6401559",
"亚目",
"胡椒科 ||| 4604040"
],
[
"胡椒科 ||| 4604040",
"亚种",
"共3100种 ||| 0"
]
]
},
……
]
```

数据以 JSON 形式存储,每条数据中包含 “q” 与 “path” 两项内容,前者是问题文本,后者为回答此问题所需的三元组序列,以列表形式表示,每个三元组也以长度为 3 的列表进行表示,依次分别为“头实体”,“关系”,“尾实体”,其中实体以“名称 ||| 实体id”的形式进行表征,实体id为每个实体的唯一标识,此编号来源于北航“知行”知识图谱数据库,编号 0 则表征此实体并非真实存在的实体,只是属性值。

#### 使用说明

随意使用,欢迎下载。

数据集的构建方式比较简单,严格来说数据集质量一般,如需使用建议斟酌。数据的突出问题表现为以下几类:

1. 知识库链接问题。如“请问雪玉剑的作者和什么相对”,标准答案为“(雪玉剑,作者,近墨者黑);(近墨者黑,相对,近朱者赤)”,但是在前一个三元组中的“近墨者黑”是一个人的笔名,和后一个三元组中的成语“近墨者黑”已经不是同一实体,针对此类问题已经进行了些许改进,但此类问题数据仍存在。
2. 多值关系的歧义。如“请问阿贝尔的兄弟姐妹主要掌管什么”,标准答案为“(阿贝尔,兄弟姐妹,阿尔忒弥斯);(阿尔忒弥斯,司掌,净化)”,但“阿贝尔”可能会存在多个其他的“兄弟姐妹”,这里并没有完整考虑进答案内容。
3. 多跳可能经过原点的乌龙。如"请问阿尔忒弥斯的其他名称的别称代表着什么啊?",标准答案为“(阿尔忒弥斯,其他名称,狄安娜);(狄安娜,别称,阿尔忒弥斯);(阿尔忒弥斯,象征,松柏)”,多跳过程中从 A 通过“其他名称”跳到 B,由随即通过“别称”跳回了 A,其实很尴尬的事情,已经做了一些限定来调整但问题数据仍有存在。

#### 联系

最后,如果此数据集帮助到了你,倍感荣幸

[email protected]