Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

awesome-nlp-chinese-corpus

A curated list of resources of chinese corpora for NLP(Natural Language Processing)
https://github.com/wangmuy/awesome-nlp-chinese-corpus

ldc.upenn.edu
CoNLL
维基百科中文
microblogPCU
OpenSubtitles
北京大学开放研究数据平台
Multilingual ATIS
中文文本分类数据集 THUCNews
NLPCC 2017 国际自然语言处理及中文计算会议
新闻头条分类
新闻头条摘要
NLPCC 2018
CCKS 2019 全国知识图谱与语义计算大会
任务2: 面向中文短文本的实体链指任务
任务3: 人物关系抽取
任务4: 面向金融领域的事件主体抽取
CCKS 2018 全国知识图谱与语义计算大会
CCKS 2017 全国知识图谱与语义计算大会
问题命名实体识别和链接
SMP 2018 第七届全国社会媒体处理大会
用户画像技术评测
中文人机对话技术评测用户意图领域分类
文本溯源技术评测
SMP 2017 第六届全国社会媒体处理大会
CSDN用户画像技术评测
中文人机对话技术评测
SMP 2016 第五届全国社会媒体处理大会
微博用户画像
WSDM杯 2019 假新闻分类
CMRC 2017 第一届“讯飞杯”中文机器阅读理解评测
CMRC 2018 第二届“讯飞杯”中文机器阅读理解评测
CMRC 2019 第三届“讯飞杯”中文机器阅读理解评测
京东商品评论
大众点评评论
英中翻译数据集2018
细粒度用户评论情感分析数据集2018
观点型问题阅读理解数据集2018
搜狗实验室
玻森中文语义开放平台
中文开放知识图谱
biendata.com 数据竞赛
2018搜狐内容识别算法大赛新闻和新闻配图
成语阅读理解大赛
文本分类语料库（复旦）测试语料
DuReader Dataset
golden-horse 微博命名实体识别
Douban Conversation Corpus 豆瓣多轮对话
我爱自然语言处理-新闻语料库
awesome-chinese-nlp
Small-Chinese-Corpus
中文对白语料小黄鸡/射手等
微信公众号语料库
blog.just4fun.site
白鹭时代中文问答
保险行业语料库
Erheng Zhong 豆瓣电影
中华古诗词数据库
公司名语料库
人民日报, 儿童寓言故事
人民日报 NER
新闻语料json版
百科类问答json版
社区问答json版
小说: 斗破苍穹
台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)
Chinese IDiom Dataset 成语
豆瓣短影评
知乎热榜Top50
豆瓣长安十二时辰500条评论
豆瓣读书数据集
去哪儿网—数据清洗
今日头条中文新闻（文本）分类数据集
豆瓣电影数据集
bilibili流行动漫影评数据
中国文学文本数据集
《中餐厅3》19W弹幕数据
中文新闻数据集
豆瓣《哪吒之魔童降世》影评
Embedding/Chinese-Word-Vectors
Kyubyong/wordvectors
fastText
BPEmb
腾讯AI实验室中文词向量数据集
RoBERTa中文预训练模型

Programming Languages

Python 10 JavaScript 1

Keywords

chinese-nlp 4 nlp 4 corpus 4 chinese 4 bert 3 natural-language-processing 3 reading-comprehension 2 dataset 2 embeddings 2 word2vec 2 question-answering 2 yu-liao 1 yu-liao-ku 1 linguistics 1 corpora 1 chinese-poetry 1 weixin-data 1 ci 1 json 1 poetry 1 tangshi 1 company 1 weixin 1 dict 1 wei-xin 1 wiki 1 text-classification 1 pretrain 1 news 1 language-model 1 chinese-dataset 1 chinese-corpus 1 roberta 1 pre-trained-language-models 1 pre-trained 1 gpt2 1 subword-embeddings 1 multilingual 1 vector 1 language 1 fasttext 1 word-embeddings 1 vectors-trained 1 embedding 1 chinese-word-segmentation 1 ner 1