Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/candlewill/dialog_corpus
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System
https://github.com/candlewill/dialog_corpus
chatbot corpus dataset dialog system
Last synced: about 6 hours ago
JSON representation
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System
- Host: GitHub
- URL: https://github.com/candlewill/dialog_corpus
- Owner: candlewill
- Created: 2017-03-14T13:01:29.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2020-09-23T21:06:45.000Z (over 4 years ago)
- Last Synced: 2024-12-28T16:05:05.444Z (about 6 hours ago)
- Topics: chatbot, corpus, dataset, dialog, system
- Language: Python
- Homepage:
- Size: 96.8 MB
- Stars: 2,036
- Watchers: 84
- Forks: 496
- Open Issues: 2
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 用于对话系统的中英文语料
Datasets for Training Chatbot System
本项目收集了一些从网络中找到的用于训练中文(英文)聊天机器人的对话语料### 公开语料
搜集到的一些数据集如下,点击链接可以进入原始地址1. [dgk_shooter_min.conv.zip](https://github.com/rustch3n/dgk_lost_conv)
中文电影对白语料,噪音比较大,许多对白问答关系没有对应好2. [The NUS SMS Corpus](https://github.com/kite1988/nus-sms-corpus)
包含中文和英文短信息语料,据说是世界最大公开的短消息语料3. [ChatterBot中文基本聊天语料](https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data)
ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高4. [Datasets for Natural Language Processing](https://github.com/karthikncode/nlp-datasets)
这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是英文文本。可以使用机器翻译为中文,供中文对话使用5. [小黄鸡](https://github.com/rustch3n/dgk_lost_conv/tree/master/results)
据传这就是小黄鸡的语料:xiaohuangji50w_fenciA.conv.zip (已分词) 和 xiaohuangji50w_nofenci.conv.zip (未分词)6. [白鹭时代中文问答语料](https://github.com/Samurais/egret-wenda-corpus)
由白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。人工review raw data,给每一个问题,一个可以接受的答案。目前,语料库只包含2907个问答。([备份](./egret-wenda-corpus.zip))7. [Chat corpus repository](https://github.com/Marsan-Ma/chat_corpus)
chat corpus collection from various open sources
包括:开放字幕、英文电影字幕、中文歌词、英文推文8. [保险行业QA语料库](https://github.com/Samurais/insuranceqa-corpus-zh)
通过翻译 [insuranceQA](https://github.com/shuzi/insuranceQA)产生的数据集。train_data含有问题12,889条,数据 141779条,正例:负例 = 1:10; test_data含有问题2,000条,数据 22000条,正例:负例 = 1:10;valid_data含有问题2,000条,数据 22000条,正例:负例 = 1:10### 未公开语料
这部分语料,网络上有所流传,但由于我们能力所限,或者原作者并未公开,暂时未获取。只是列举出来,供以后继续搜寻。
1. 微软小冰
### 版权
所有原始语料归原作者所有
### 联系
[何云超]([email protected])
weibo: [@Yunchao_He](http://weibo.com/heyunchao)