Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/wangmuy/awesome-nlp-chinese-corpus
A curated list of resources of chinese corpora for NLP(Natural Language Processing)
https://github.com/wangmuy/awesome-nlp-chinese-corpus
List: awesome-nlp-chinese-corpus
Last synced: 16 days ago
JSON representation
A curated list of resources of chinese corpora for NLP(Natural Language Processing)
- Host: GitHub
- URL: https://github.com/wangmuy/awesome-nlp-chinese-corpus
- Owner: wangmuy
- Created: 2017-08-31T07:43:53.000Z (over 7 years ago)
- Default Branch: master
- Last Pushed: 2019-10-11T13:33:37.000Z (about 5 years ago)
- Last Synced: 2024-11-26T13:02:07.828Z (25 days ago)
- Homepage:
- Size: 13.7 KB
- Stars: 73
- Watchers: 8
- Forks: 14
- Open Issues: 0
-
Metadata Files:
- Readme: readme.md
Awesome Lists containing this project
- ultimate-awesome - awesome-nlp-chinese-corpus - A curated list of resources of chinese corpora for NLP(Natural Language Processing). (Other Lists / Monkey C Lists)
README
# awesome-nlp-chinese-corpus
A curated list of resources of chinese corpora for NLP(Natural Language Processing)
中文自然语言处理语料 收集列表
Pull requests are welcome!
欢迎提交PR!
## Contents 列表
### 综合内容
#### [ldc.upenn.edu](https://catalog.ldc.upenn.edu/search)
|出处|语料大小|年代|
|--|--|--|
|upenn.edu|各种|各种|#### [CoNLL](http://www.conll.org/previous-tasks)
|出处|语料大小|年代|
|--|--|--|
|conll.org|各种|各种|#### [维基百科中文](https://dumps.wikimedia.org/zhwiki/latest/)
|出处|语料大小|年代|
|--|--|--|
|wikimedia.org|各种|各种|#### [microblogPCU](https://archive.ics.uci.edu/ml/datasets/microblogPCU)
|出处|语料大小|年代|
|--|--|--|
|ics.uci.edu|221k|2015|#### [OpenSubtitles](http://opus.lingfil.uu.se/OpenSubtitles.php)
|出处|语料大小|年代|
|--|--|--|
|www.opensubtitles.org|各种|各种|#### [北京大学开放研究数据平台](http://opendata.pku.edu.cn/dataverse/pku)
|出处|语料大小|年代|
|--|--|--|
|opendata.pku.edu.cn|各种|各种|#### [Multilingual ATIS](http://www.statnlp.org/software/dataset)
|出处|语料大小|年代|
|--|--|--|
|新加坡科技与设计大学 StatNLP|各种(英/中/印度)|2017|#### [中文文本分类数据集 THUCNews](http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5)
|出处|语料大小|年代|
|--|--|--|
|清华大学自然语言处理实验室|740k|2005-2011|#### [NLPCC 2017 国际自然语言处理及中文计算会议](http://tcci.ccf.org.cn/conference/2017/taskdata.php)
* 任务1: Chinese Word Semantic Relation Classification
* 任务2: [新闻头条分类](https://github.com/FudanNLP/nlpcc2017_news_headline_categorization)
* 任务3: [新闻头条摘要](https://biendata.com/competition/nlptask03/)
* 任务4: Emotional Conversation Generation
* 任务5: 开放领域问答
* 任务6: 社交网络用户画像|出处|语料大小|年代|
|--|--|--|
|新闻头条分类 NLPCC 2017|200k|2017|
|新闻头条摘要 NLPCC 2017|未考察|2017|#### [NLPCC 2018](http://tcci.ccf.org.cn/conference/2018/taskdata.php)
* 任务1: 情绪识别
* 任务2: 语法纠错
* 任务3: 自动文摘
* 任务4: 任务型对话系统中的口语理解
* 任务5: 多轮人机对话
* 任务6: 知乎问题标注
* 任务7: 开放领域问答
* 任务8: 用户画像与推荐|出处|语料大小|年代|
|--|--|--|
|NLPCC 2018|各种|2018|#### [CCKS 2019 全国知识图谱与语义计算大会](http://www.ccks2019.cn/?page_id=62)
* 任务1: 面向中文电子病历的命名实体识别
* [任务2: 面向中文短文本的实体链指任务](https://biendata.com/competition/ccks_2019_el/)
* [任务3: 人物关系抽取](https://biendata.com/competition/ccks_2019_ipre/)
* [任务4: 面向金融领域的事件主体抽取](https://www.biendata.com/competition/ccks_2019_4/)
* 任务5: 公众公司公告信息抽取
* 任务6: 中文知识图谱问答|出处|语料大小|年代|
|--|--|--|
|CCKS 2019|各种|2019|#### [CCKS 2018 全国知识图谱与语义计算大会](http://www.ccks2018.cn/?page_id=16)
* 任务1: 面向中文电子病历的命名实体识别
* 任务2: 面向音乐领域的命令理解任务
* 任务3: 微众银行智能客服问句匹配大赛
* 任务4: 开放领域的中文问答任务|出处|语料大小|年代|
|--|--|--|
|CCKS 2018|各种|2018|#### [CCKS 2017 全国知识图谱与语义计算大会](http://ceur-ws.org/Vol-1976/)
* 任务1: [问题命名实体识别和链接](https://biendata.com/competition/CCKS2017_1/)|出处|语料大小|年代|
|--|--|--|
|CCKS 2017|各种|2017|#### [SMP 2018 第七届全国社会媒体处理大会](http://smp2018.cips-smp.org/smpcup.html)
* 任务1: [用户画像技术评测](https://biendata.com/competition/smpeupt2018/)
* 任务2: [中文人机对话技术评测 用户意图领域分类](https://worksheets.codalab.org/worksheets/0x27203f932f8341b79841d50ce0fd684f/)
* 任务3: [文本溯源技术评测](https://biendata.com/competition/smpetst2018/)|出处|语料大小|年代|
|--|--|--|
|用户画像 SMP2018, SMP-EUPT|28万|2018|
|中文人机对话 SMP2018, SMP-ECDT|极少|2018|
|文本溯源 SMP2018, SMP-ETST|极少|2018|#### [SMP 2017 第六届全国社会媒体处理大会](http://www.cips-smp.org/smp2017/)
* 任务1: [CSDN用户画像技术评测](https://biendata.com/competition/smpcup2017/)
* 任务2: [中文人机对话技术评测](https://github.com/HITlilingzhi/SMP2017ECDT-DATA)|出处|语料大小|年代|
|--|--|--|
|CSDN用户画像 SMP2017, CSDN|10万|2017|
|中文人机对话 SMP2017ECDT|极少|2017|#### [SMP 2016 第五届全国社会媒体处理大会](http://www.cips-smp.org/smp2016/public/cup.html)
* 任务1: [微博用户画像](https://biendata.com/competition/smpcup2016/)|出处|语料大小|年代|
|--|--|--|
|微博用户画像 SMP2016, 微博|4.6万|2016|#### [WSDM杯 2019 假新闻分类](https://www.kaggle.com/c/fake-news-pair-classification-challenge/data)
|出处|语料大小|年代|
|--|--|--|
|WSDM Cup 2019|400k|2018|#### [CMRC 2017 第一届“讯飞杯”中文机器阅读理解评测](https://github.com/ymcui/cmrc2017)
|出处|语料大小|年代|
|--|--|--|
|ymcui/cmrc2017|364k|2017|#### [CMRC 2018 第二届“讯飞杯”中文机器阅读理解评测](https://github.com/ymcui/cmrc2018)
|出处|语料大小|年代|
|--|--|--|
|ymcui/cmrc2018|18k|2018|#### [CMRC 2019 第三届“讯飞杯”中文机器阅读理解评测](https://github.com/ymcui/cmrc2018)
|出处|语料大小|年代|
|--|--|--|
|ymcui/cmrc2019|100k|2019|#### [京东商品 评论](https://pan.baidu.com/s/1hsQSTbm)
|出处|语料大小|年代|
|--|--|--|
|yongfeng.me/dataset|6000万|2014|#### [大众点评 评论](http://pan.baidu.com/s/1dDxkY0x)
|出处|语料大小|年代|
|--|--|--|
|yongfeng.me/dataset|360万|2014|#### [英中翻译数据集2018](https://challenger.ai/dataset/ectd2018)
|出处|语料大小|年代|
|--|--|--|
|challenger.ai|1300万|2018|#### [细粒度用户评论情感分析数据集2018](https://challenger.ai/dataset/fsaouord2018)
|出处|语料大小|年代|
|--|--|--|
|challenger.ai|20万|2018|#### [观点型问题阅读理解数据集2018](https://challenger.ai/dataset/oqmrcd2018)
|出处|语料大小|年代|
|--|--|--|
|challenger.ai|25万|2018|#### [搜狗实验室](https://www.sogou.com/labs/resource/list_yuliao.php)
|出处|语料大小|年代|
|--|--|--|
|sogou.com|免费小样本|2012|#### [玻森中文语义开放平台](http://bosonnlp.com/dev/resource)
|出处|语料大小|年代|
|--|--|--|
|bosonnlp.com|中小|2014-2015|#### [中文开放知识图谱](http://openkg.cn/dataset)
|出处|语料大小|年代|
|--|--|--|
|openkg.cn|各种|各种|#### [biendata.com 数据竞赛](https://biendata.com/)
|出处|语料大小|年代|
|--|--|--|
|biendata.com|各种|各种|#### [2018搜狐内容识别算法大赛 新闻和新闻配图](https://biendata.com/competition/sohu2018/)
|出处|语料大小|年代|
|--|--|--|
|biendata.com, 搜狐|百万级|2018|#### [成语阅读理解大赛](https://biendata.com/competition/idiom/)
|出处|语料大小|年代|
|--|--|--|
|biendata.com|未知|2019|#### [文本分类语料库(复旦)测试语料](http://www.nlpir.org/?action-viewnews-itemid-103)
|出处|语料大小|年代|
|--|--|--|
|nlpir.org|~2万|2011|#### [DuReader Dataset](https://ai.baidu.com/broad/introduction?dataset=dureader) [github](https://github.com/baidu/DuReader)
|出处|语料大小|年代|
|--|--|--|
|baidu|950k|2017|#### [golden-horse 微博命名实体识别](https://github.com/hltcoe/golden-horse)
|出处|语料大小|年代|
|--|--|--|
|jhu.edu|19k|2015|#### [Douban Conversation Corpus 豆瓣多轮对话](https://github.com/MarkWuNLP/MultiTurnResponseSelection)
|出处|语料大小|年代|
|--|--|--|
|github.com/MarkWuNLP|1000k|2017|#### [我爱自然语言处理-新闻语料库](http://www.52nlp.cn/opencorpus)
|出处|语料大小|年代|
|--|--|--|
|52nlp.cn|39k|2010|#### [awesome-chinese-nlp](https://github.com/crownpku/awesome-chinese-nlp)
|出处|语料大小|年代|
|--|--|--|
|github.com/crownpku|各种|各种|#### [Small-Chinese-Corpus](https://github.com/crownpku/Small-Chinese-Corpus)
|出处|语料大小|年代|
|--|--|--|
|github.com/crownpku|小|各种|#### [中文对白语料 小黄鸡/射手 等](https://github.com/fateleak/dgk_lost_conv)
|出处|语料大小|年代|
|--|--|--|
|github.com/fateleak|未知|2016|#### [微信公众号语料库](https://github.com/nonamestreet/weixin_public_corpus)
|出处|语料大小|年代|
|--|--|--|
|github.com/nonamestreet|3G|未知|#### [blog.just4fun.site](http://blog.just4fun.site/NLP-corpus.html)
|出处|语料大小|年代|
|--|--|--|
|blog.just4fun.site|各种|各种|#### [白鹭时代中文问答](https://github.com/Samurais/egret-wenda-corpus)
|出处|语料大小|年代|
|--|--|--|
|github.com/Samurais|小|2016|#### [保险行业语料库](https://github.com/Samurais/insuranceqa-corpus-zh)
|出处|语料大小|年代|
|--|--|--|
|github.com/Samurais|小|未知|#### [Erheng Zhong 豆瓣电影](https://sites.google.com/site/erhengzhong/datasets)
|出处|语料大小|年代|
|--|--|--|
|erhengzhong|未知|2010-2012|#### [中华古诗词数据库](https://github.com/chinese-poetry/chinese-poetry)
|出处|语料大小|年代|
|--|--|--|
|chinese-poetry/chinese-poetry|5.5万首唐诗、26万首宋诗和2.1万首宋词|唐宋|#### [公司名语料库](https://github.com/wainshine/Company-Names-Corpus)
|出处|语料大小|年代|
|--|--|--|
|wainshine/Company-Names-Corpus|480万|2018|#### [人民日报, 儿童寓言故事](https://github.com/ymcui/Chinese-Cloze-RC)
|出处|语料大小|年代|
|--|--|--|
|ymcui/Chinese-Cloze-RC|87万|未知|#### [人民日报 NER](https://github.com/Determined22/zh-NER-TF/tree/master/data_path)
|出处|语料大小|年代|
|--|--|--|
|Determined22/zh-NER-TF|5万|1998|#### [新闻语料json版](https://github.com/brightmart/nlp_chinese_corpus#2%E6%96%B0%E9%97%BB%E8%AF%AD%E6%96%99json%E7%89%88news2016zh)
|出处|语料大小|年代|
|--|--|--|
|brightmart/nlp_chinese_corpus|250万|2016|#### [百科类问答json版](https://github.com/brightmart/nlp_chinese_corpus#3%E7%99%BE%E7%A7%91%E7%B1%BB%E9%97%AE%E7%AD%94json%E7%89%88baike2018qa)
|出处|语料大小|年代|
|--|--|--|
|brightmart/nlp_chinese_corpus|150万|2016|#### [社区问答json版](https://github.com/brightmart/nlp_chinese_corpus#4%E7%A4%BE%E5%8C%BA%E9%97%AE%E7%AD%94json%E7%89%88webtext2019zh-%E5%A4%A7%E8%A7%84%E6%A8%A1%E9%AB%98%E8%B4%A8%E9%87%8F%E6%95%B0%E6%8D%AE%E9%9B%86)
|出处|语料大小|年代|
|--|--|--|
|brightmart/nlp_chinese_corpus|410万|2016|#### [小说: 斗破苍穹](https://github.com/GaoPeng97/transformer-xl-chinese/tree/master/data/doupo)
|出处|语料大小|年代|
|--|--|--|
|GaoPeng97/transformer-xl-chinese|410万|2011|#### [台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)](https://github.com/DRCKnowledgeTeam/DRCD)
|出处|语料大小|年代|
|--|--|--|
|DRCKnowledgeTeam/DRCD|3万|2018|#### [Chinese IDiom Dataset 成语](https://github.com/zhengcj1/ChID-Dataset)
|出处|语料大小|年代|
|--|--|--|
|zhengcj1/ChID-Dataset|729k|2019|#### [豆瓣短影评](https://www.kaggle.com/utmhikari/doubanmovieshortcomments)
|出处|语料大小|年代|
|--|--|--|
|kaggle.com/utmhikari|200万|2017|#### [知乎热榜Top50](https://www.kesci.com/home/dataset/5d398badcf76a6003609a2b2/document)
|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2019|#### [豆瓣长安十二时辰500条评论](https://github.com/DongDongGe1/changan12hours)
|出处|语料大小|年代|
|--|--|--|
|github.com/DongDongGe1|500|2019|#### [豆瓣读书数据集](https://www.kesci.com/home/dataset/5cbeb2088c90d7002c822b18/document)
|出处|语料大小|年代|
|--|--|--|
|zhihu.com/people/sgai|6万|2019|#### [去哪儿网—数据清洗](https://www.kesci.com/home/dataset/5cbd31e58c90d7002c816f5d/document)
|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2019|#### [今日头条中文新闻(文本)分类数据集](https://github.com/fate233/toutiao-text-classfication-dataset)
|出处|语料大小|年代|
|--|--|--|
|github.com/fate233|38万|2018|#### [豆瓣电影数据集](https://www.kesci.com/home/dataset/5a655501a1ddf9450243a1a5/document)
|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2011-2016|#### [bilibili流行动漫影评数据](https://www.kaggle.com/sherrytp/bilibili-cells-at-work)
|出处|语料大小|年代|
|--|--|--|
|kaggle.com|19.1k|2019|#### [中国文学文本数据集](https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset)
|出处|语料大小|年代|
|--|--|--|
|github.com/lancopku|未知|2018|#### [《中餐厅3》19W弹幕数据](https://www.kesci.com/home/dataset/5d7b69798499bc002c0d3ec5/document)
|出处|语料大小|年代|
|--|--|--|
|kesci.com|19W|2019|#### [中文新闻数据集](https://www.kaggle.com/ceshine/yet-another-chinese-news-dataset)
|出处|语料大小|年代|
|--|--|--|
|kaggle.com|143k|2019|#### [豆瓣《哪吒之魔童降世》影评](https://www.kesci.com/home/dataset/5d3e5cb4cf76a600361d0196/document)
|出处|语料大小|年代|
|--|--|--|
|kesci.com|未知|2019|### Embedding 词嵌入
#### [Embedding/Chinese-Word-Vectors](https://github.com/Embedding/Chinese-Word-Vectors)
|模型|语料大小|嵌入大小|
|--|--|--|
|word2vec/fasttext|各种|各种|#### [Kyubyong/wordvectors](https://github.com/Kyubyong/wordvectors)
|模型|语料大小|嵌入大小|
|--|--|--|
|word2vec|50101|300|#### [fastText](https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md)
|模型|语料大小|嵌入大小|
|--|--|--|
|fastText|简中332647|300|#### [BPEmb](https://github.com/bheinzerling/bpemb)
|模型|语料大小|嵌入大小|
|--|--|--|
|BPE|各种|各种|#### [腾讯AI实验室 中文词向量数据集](https://ai.tencent.com/ailab/nlp/embedding.html)
|模型|语料大小|嵌入大小|
|--|--|--|
|DSG|800多万|200|### Pre-trained Language Models 预训练语言模型
#### [RoBERTa中文预训练模型](https://github.com/brightmart/roberta_zh)
|模型|语料大小|特点|
|--|--|--|
|RoBERTa|近3亿个句子,100亿个中文字|6层/12层/24层|