Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/wangmuy/awesome-nlp-chinese-corpus

A curated list of resources of chinese corpora for NLP(Natural Language Processing)
https://github.com/wangmuy/awesome-nlp-chinese-corpus

List: awesome-nlp-chinese-corpus

Last synced: 16 days ago
JSON representation

A curated list of resources of chinese corpora for NLP(Natural Language Processing)

Awesome Lists containing this project

README

        

# awesome-nlp-chinese-corpus

A curated list of resources of chinese corpora for NLP(Natural Language Processing)

中文自然语言处理语料 收集列表

Pull requests are welcome!

欢迎提交PR!

## Contents 列表

### 综合内容

#### [ldc.upenn.edu](https://catalog.ldc.upenn.edu/search)

|出处|语料大小|年代|
|--|--|--|
|upenn.edu|各种|各种|

#### [CoNLL](http://www.conll.org/previous-tasks)

|出处|语料大小|年代|
|--|--|--|
|conll.org|各种|各种|

#### [维基百科中文](https://dumps.wikimedia.org/zhwiki/latest/)

|出处|语料大小|年代|
|--|--|--|
|wikimedia.org|各种|各种|

#### [microblogPCU](https://archive.ics.uci.edu/ml/datasets/microblogPCU)

|出处|语料大小|年代|
|--|--|--|
|ics.uci.edu|221k|2015|

#### [OpenSubtitles](http://opus.lingfil.uu.se/OpenSubtitles.php)

|出处|语料大小|年代|
|--|--|--|
|www.opensubtitles.org|各种|各种|

#### [北京大学开放研究数据平台](http://opendata.pku.edu.cn/dataverse/pku)

|出处|语料大小|年代|
|--|--|--|
|opendata.pku.edu.cn|各种|各种|

#### [Multilingual ATIS](http://www.statnlp.org/software/dataset)

|出处|语料大小|年代|
|--|--|--|
|新加坡科技与设计大学 StatNLP|各种(英/中/印度)|2017|

#### [中文文本分类数据集 THUCNews](http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5)

|出处|语料大小|年代|
|--|--|--|
|清华大学自然语言处理实验室|740k|2005-2011|

#### [NLPCC 2017 国际自然语言处理及中文计算会议](http://tcci.ccf.org.cn/conference/2017/taskdata.php)
* 任务1: Chinese Word Semantic Relation Classification
* 任务2: [新闻头条分类](https://github.com/FudanNLP/nlpcc2017_news_headline_categorization)
* 任务3: [新闻头条摘要](https://biendata.com/competition/nlptask03/)
* 任务4: Emotional Conversation Generation
* 任务5: 开放领域问答
* 任务6: 社交网络用户画像

|出处|语料大小|年代|
|--|--|--|
|新闻头条分类 NLPCC 2017|200k|2017|
|新闻头条摘要 NLPCC 2017|未考察|2017|

#### [NLPCC 2018](http://tcci.ccf.org.cn/conference/2018/taskdata.php)
* 任务1: 情绪识别
* 任务2: 语法纠错
* 任务3: 自动文摘
* 任务4: 任务型对话系统中的口语理解
* 任务5: 多轮人机对话
* 任务6: 知乎问题标注
* 任务7: 开放领域问答
* 任务8: 用户画像与推荐

|出处|语料大小|年代|
|--|--|--|
|NLPCC 2018|各种|2018|

#### [CCKS 2019 全国知识图谱与语义计算大会](http://www.ccks2019.cn/?page_id=62)
* 任务1: 面向中文电子病历的命名实体识别
* [任务2: 面向中文短文本的实体链指任务](https://biendata.com/competition/ccks_2019_el/)
* [任务3: 人物关系抽取](https://biendata.com/competition/ccks_2019_ipre/)
* [任务4: 面向金融领域的事件主体抽取](https://www.biendata.com/competition/ccks_2019_4/)
* 任务5: 公众公司公告信息抽取
* 任务6: 中文知识图谱问答

|出处|语料大小|年代|
|--|--|--|
|CCKS 2019|各种|2019|

#### [CCKS 2018 全国知识图谱与语义计算大会](http://www.ccks2018.cn/?page_id=16)
* 任务1: 面向中文电子病历的命名实体识别
* 任务2: 面向音乐领域的命令理解任务
* 任务3: 微众银行智能客服问句匹配大赛
* 任务4: 开放领域的中文问答任务

|出处|语料大小|年代|
|--|--|--|
|CCKS 2018|各种|2018|

#### [CCKS 2017 全国知识图谱与语义计算大会](http://ceur-ws.org/Vol-1976/)
* 任务1: [问题命名实体识别和链接](https://biendata.com/competition/CCKS2017_1/)

|出处|语料大小|年代|
|--|--|--|
|CCKS 2017|各种|2017|

#### [SMP 2018 第七届全国社会媒体处理大会](http://smp2018.cips-smp.org/smpcup.html)
* 任务1: [用户画像技术评测](https://biendata.com/competition/smpeupt2018/)
* 任务2: [中文人机对话技术评测 用户意图领域分类](https://worksheets.codalab.org/worksheets/0x27203f932f8341b79841d50ce0fd684f/)
* 任务3: [文本溯源技术评测](https://biendata.com/competition/smpetst2018/)

|出处|语料大小|年代|
|--|--|--|
|用户画像 SMP2018, SMP-EUPT|28万|2018|
|中文人机对话 SMP2018, SMP-ECDT|极少|2018|
|文本溯源 SMP2018, SMP-ETST|极少|2018|

#### [SMP 2017 第六届全国社会媒体处理大会](http://www.cips-smp.org/smp2017/)
* 任务1: [CSDN用户画像技术评测](https://biendata.com/competition/smpcup2017/)
* 任务2: [中文人机对话技术评测](https://github.com/HITlilingzhi/SMP2017ECDT-DATA)

|出处|语料大小|年代|
|--|--|--|
|CSDN用户画像 SMP2017, CSDN|10万|2017|
|中文人机对话 SMP2017ECDT|极少|2017|

#### [SMP 2016 第五届全国社会媒体处理大会](http://www.cips-smp.org/smp2016/public/cup.html)
* 任务1: [微博用户画像](https://biendata.com/competition/smpcup2016/)

|出处|语料大小|年代|
|--|--|--|
|微博用户画像 SMP2016, 微博|4.6万|2016|

#### [WSDM杯 2019 假新闻分类](https://www.kaggle.com/c/fake-news-pair-classification-challenge/data)

|出处|语料大小|年代|
|--|--|--|
|WSDM Cup 2019|400k|2018|

#### [CMRC 2017 第一届“讯飞杯”中文机器阅读理解评测](https://github.com/ymcui/cmrc2017)

|出处|语料大小|年代|
|--|--|--|
|ymcui/cmrc2017|364k|2017|

#### [CMRC 2018 第二届“讯飞杯”中文机器阅读理解评测](https://github.com/ymcui/cmrc2018)

|出处|语料大小|年代|
|--|--|--|
|ymcui/cmrc2018|18k|2018|

#### [CMRC 2019 第三届“讯飞杯”中文机器阅读理解评测](https://github.com/ymcui/cmrc2018)

|出处|语料大小|年代|
|--|--|--|
|ymcui/cmrc2019|100k|2019|

#### [京东商品 评论](https://pan.baidu.com/s/1hsQSTbm)

|出处|语料大小|年代|
|--|--|--|
|yongfeng.me/dataset|6000万|2014|

#### [大众点评 评论](http://pan.baidu.com/s/1dDxkY0x)

|出处|语料大小|年代|
|--|--|--|
|yongfeng.me/dataset|360万|2014|

#### [英中翻译数据集2018](https://challenger.ai/dataset/ectd2018)

|出处|语料大小|年代|
|--|--|--|
|challenger.ai|1300万|2018|

#### [细粒度用户评论情感分析数据集2018](https://challenger.ai/dataset/fsaouord2018)

|出处|语料大小|年代|
|--|--|--|
|challenger.ai|20万|2018|

#### [观点型问题阅读理解数据集2018](https://challenger.ai/dataset/oqmrcd2018)

|出处|语料大小|年代|
|--|--|--|
|challenger.ai|25万|2018|

#### [搜狗实验室](https://www.sogou.com/labs/resource/list_yuliao.php)

|出处|语料大小|年代|
|--|--|--|
|sogou.com|免费小样本|2012|

#### [玻森中文语义开放平台](http://bosonnlp.com/dev/resource)

|出处|语料大小|年代|
|--|--|--|
|bosonnlp.com|中小|2014-2015|

#### [中文开放知识图谱](http://openkg.cn/dataset)

|出处|语料大小|年代|
|--|--|--|
|openkg.cn|各种|各种|

#### [biendata.com 数据竞赛](https://biendata.com/)

|出处|语料大小|年代|
|--|--|--|
|biendata.com|各种|各种|

#### [2018搜狐内容识别算法大赛 新闻和新闻配图](https://biendata.com/competition/sohu2018/)

|出处|语料大小|年代|
|--|--|--|
|biendata.com, 搜狐|百万级|2018|

#### [成语阅读理解大赛](https://biendata.com/competition/idiom/)

|出处|语料大小|年代|
|--|--|--|
|biendata.com|未知|2019|

#### [文本分类语料库(复旦)测试语料](http://www.nlpir.org/?action-viewnews-itemid-103)

|出处|语料大小|年代|
|--|--|--|
|nlpir.org|~2万|2011|

#### [DuReader Dataset](https://ai.baidu.com/broad/introduction?dataset=dureader) [github](https://github.com/baidu/DuReader)

|出处|语料大小|年代|
|--|--|--|
|baidu|950k|2017|

#### [golden-horse 微博命名实体识别](https://github.com/hltcoe/golden-horse)

|出处|语料大小|年代|
|--|--|--|
|jhu.edu|19k|2015|

#### [Douban Conversation Corpus 豆瓣多轮对话](https://github.com/MarkWuNLP/MultiTurnResponseSelection)

|出处|语料大小|年代|
|--|--|--|
|github.com/MarkWuNLP|1000k|2017|

#### [我爱自然语言处理-新闻语料库](http://www.52nlp.cn/opencorpus)

|出处|语料大小|年代|
|--|--|--|
|52nlp.cn|39k|2010|

#### [awesome-chinese-nlp](https://github.com/crownpku/awesome-chinese-nlp)

|出处|语料大小|年代|
|--|--|--|
|github.com/crownpku|各种|各种|

#### [Small-Chinese-Corpus](https://github.com/crownpku/Small-Chinese-Corpus)

|出处|语料大小|年代|
|--|--|--|
|github.com/crownpku|小|各种|

#### [中文对白语料 小黄鸡/射手 等](https://github.com/fateleak/dgk_lost_conv)

|出处|语料大小|年代|
|--|--|--|
|github.com/fateleak|未知|2016|

#### [微信公众号语料库](https://github.com/nonamestreet/weixin_public_corpus)

|出处|语料大小|年代|
|--|--|--|
|github.com/nonamestreet|3G|未知|

#### [blog.just4fun.site](http://blog.just4fun.site/NLP-corpus.html)

|出处|语料大小|年代|
|--|--|--|
|blog.just4fun.site|各种|各种|

#### [白鹭时代中文问答](https://github.com/Samurais/egret-wenda-corpus)

|出处|语料大小|年代|
|--|--|--|
|github.com/Samurais|小|2016|

#### [保险行业语料库](https://github.com/Samurais/insuranceqa-corpus-zh)

|出处|语料大小|年代|
|--|--|--|
|github.com/Samurais|小|未知|

#### [Erheng Zhong 豆瓣电影](https://sites.google.com/site/erhengzhong/datasets)

|出处|语料大小|年代|
|--|--|--|
|erhengzhong|未知|2010-2012|

#### [中华古诗词数据库](https://github.com/chinese-poetry/chinese-poetry)

|出处|语料大小|年代|
|--|--|--|
|chinese-poetry/chinese-poetry|5.5万首唐诗、26万首宋诗和2.1万首宋词|唐宋|

#### [公司名语料库](https://github.com/wainshine/Company-Names-Corpus)

|出处|语料大小|年代|
|--|--|--|
|wainshine/Company-Names-Corpus|480万|2018|

#### [人民日报, 儿童寓言故事](https://github.com/ymcui/Chinese-Cloze-RC)

|出处|语料大小|年代|
|--|--|--|
|ymcui/Chinese-Cloze-RC|87万|未知|

#### [人民日报 NER](https://github.com/Determined22/zh-NER-TF/tree/master/data_path)

|出处|语料大小|年代|
|--|--|--|
|Determined22/zh-NER-TF|5万|1998|

#### [新闻语料json版](https://github.com/brightmart/nlp_chinese_corpus#2%E6%96%B0%E9%97%BB%E8%AF%AD%E6%96%99json%E7%89%88news2016zh)

|出处|语料大小|年代|
|--|--|--|
|brightmart/nlp_chinese_corpus|250万|2016|

#### [百科类问答json版](https://github.com/brightmart/nlp_chinese_corpus#3%E7%99%BE%E7%A7%91%E7%B1%BB%E9%97%AE%E7%AD%94json%E7%89%88baike2018qa)

|出处|语料大小|年代|
|--|--|--|
|brightmart/nlp_chinese_corpus|150万|2016|

#### [社区问答json版](https://github.com/brightmart/nlp_chinese_corpus#4%E7%A4%BE%E5%8C%BA%E9%97%AE%E7%AD%94json%E7%89%88webtext2019zh-%E5%A4%A7%E8%A7%84%E6%A8%A1%E9%AB%98%E8%B4%A8%E9%87%8F%E6%95%B0%E6%8D%AE%E9%9B%86)

|出处|语料大小|年代|
|--|--|--|
|brightmart/nlp_chinese_corpus|410万|2016|

#### [小说: 斗破苍穹](https://github.com/GaoPeng97/transformer-xl-chinese/tree/master/data/doupo)

|出处|语料大小|年代|
|--|--|--|
|GaoPeng97/transformer-xl-chinese|410万|2011|

#### [台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)](https://github.com/DRCKnowledgeTeam/DRCD)

|出处|语料大小|年代|
|--|--|--|
|DRCKnowledgeTeam/DRCD|3万|2018|

#### [Chinese IDiom Dataset 成语](https://github.com/zhengcj1/ChID-Dataset)

|出处|语料大小|年代|
|--|--|--|
|zhengcj1/ChID-Dataset|729k|2019|

#### [豆瓣短影评](https://www.kaggle.com/utmhikari/doubanmovieshortcomments)

|出处|语料大小|年代|
|--|--|--|
|kaggle.com/utmhikari|200万|2017|

#### [知乎热榜Top50](https://www.kesci.com/home/dataset/5d398badcf76a6003609a2b2/document)

|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2019|

#### [豆瓣长安十二时辰500条评论](https://github.com/DongDongGe1/changan12hours)

|出处|语料大小|年代|
|--|--|--|
|github.com/DongDongGe1|500|2019|

#### [豆瓣读书数据集](https://www.kesci.com/home/dataset/5cbeb2088c90d7002c822b18/document)

|出处|语料大小|年代|
|--|--|--|
|zhihu.com/people/sgai|6万|2019|

#### [去哪儿网—数据清洗](https://www.kesci.com/home/dataset/5cbd31e58c90d7002c816f5d/document)

|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2019|

#### [今日头条中文新闻(文本)分类数据集](https://github.com/fate233/toutiao-text-classfication-dataset)

|出处|语料大小|年代|
|--|--|--|
|github.com/fate233|38万|2018|

#### [豆瓣电影数据集](https://www.kesci.com/home/dataset/5a655501a1ddf9450243a1a5/document)

|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2011-2016|

#### [bilibili流行动漫影评数据](https://www.kaggle.com/sherrytp/bilibili-cells-at-work)

|出处|语料大小|年代|
|--|--|--|
|kaggle.com|19.1k|2019|

#### [中国文学文本数据集](https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset)

|出处|语料大小|年代|
|--|--|--|
|github.com/lancopku|未知|2018|

#### [《中餐厅3》19W弹幕数据](https://www.kesci.com/home/dataset/5d7b69798499bc002c0d3ec5/document)

|出处|语料大小|年代|
|--|--|--|
|kesci.com|19W|2019|

#### [中文新闻数据集](https://www.kaggle.com/ceshine/yet-another-chinese-news-dataset)

|出处|语料大小|年代|
|--|--|--|
|kaggle.com|143k|2019|

#### [豆瓣《哪吒之魔童降世》影评](https://www.kesci.com/home/dataset/5d3e5cb4cf76a600361d0196/document)

|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2019|

### Embedding 词嵌入

#### [Embedding/Chinese-Word-Vectors](https://github.com/Embedding/Chinese-Word-Vectors)

|模型|语料大小|嵌入大小|
|--|--|--|
|word2vec/fasttext|各种|各种|

#### [Kyubyong/wordvectors](https://github.com/Kyubyong/wordvectors)

|模型|语料大小|嵌入大小|
|--|--|--|
|word2vec|50101|300|

#### [fastText](https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md)

|模型|语料大小|嵌入大小|
|--|--|--|
|fastText|简中332647|300|

#### [BPEmb](https://github.com/bheinzerling/bpemb)

|模型|语料大小|嵌入大小|
|--|--|--|
|BPE|各种|各种|

#### [腾讯AI实验室 中文词向量数据集](https://ai.tencent.com/ailab/nlp/embedding.html)

|模型|语料大小|嵌入大小|
|--|--|--|
|DSG|800多万|200|

### Pre-trained Language Models 预训练语言模型

#### [RoBERTa中文预训练模型](https://github.com/brightmart/roberta_zh)

|模型|语料大小|特点|
|--|--|--|
|RoBERTa|近3亿个句子,100亿个中文字|6层/12层/24层|