Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
awesome-nlp-chinese-corpus
A curated list of resources of chinese corpora for NLP(Natural Language Processing)
https://github.com/wangmuy/awesome-nlp-chinese-corpus
- ldc.upenn.edu
- CoNLL
- 维基百科中文
- microblogPCU
- OpenSubtitles
- 北京大学开放研究数据平台
- Multilingual ATIS
- 中文文本分类数据集 THUCNews
- NLPCC 2017 国际自然语言处理及中文计算会议
- 新闻头条分类
- 新闻头条摘要
- NLPCC 2018
- CCKS 2019 全国知识图谱与语义计算大会
- 任务2: 面向中文短文本的实体链指任务
- 任务3: 人物关系抽取
- 任务4: 面向金融领域的事件主体抽取
- CCKS 2018 全国知识图谱与语义计算大会
- CCKS 2017 全国知识图谱与语义计算大会
- 问题命名实体识别和链接
- SMP 2018 第七届全国社会媒体处理大会
- 用户画像技术评测
- 中文人机对话技术评测 用户意图领域分类
- 文本溯源技术评测
- SMP 2017 第六届全国社会媒体处理大会
- CSDN用户画像技术评测
- 中文人机对话技术评测
- SMP 2016 第五届全国社会媒体处理大会
- 微博用户画像
- WSDM杯 2019 假新闻分类
- CMRC 2017 第一届“讯飞杯”中文机器阅读理解评测
- CMRC 2018 第二届“讯飞杯”中文机器阅读理解评测
- CMRC 2019 第三届“讯飞杯”中文机器阅读理解评测
- 京东商品 评论
- 大众点评 评论
- 英中翻译数据集2018
- 细粒度用户评论情感分析数据集2018
- 观点型问题阅读理解数据集2018
- 搜狗实验室
- 玻森中文语义开放平台
- 中文开放知识图谱
- biendata.com 数据竞赛
- 2018搜狐内容识别算法大赛 新闻和新闻配图
- 成语阅读理解大赛
- 文本分类语料库(复旦)测试语料
- DuReader Dataset
- golden-horse 微博命名实体识别
- Douban Conversation Corpus 豆瓣多轮对话
- 我爱自然语言处理-新闻语料库
- awesome-chinese-nlp
- Small-Chinese-Corpus
- 中文对白语料 小黄鸡/射手 等
- 微信公众号语料库
- blog.just4fun.site
- 白鹭时代中文问答
- 保险行业语料库
- Erheng Zhong 豆瓣电影
- 中华古诗词数据库
- 公司名语料库
- 人民日报, 儿童寓言故事
- 人民日报 NER
- 新闻语料json版
- 百科类问答json版
- 社区问答json版
- 小说: 斗破苍穹
- 台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)
- Chinese IDiom Dataset 成语
- 豆瓣短影评
- 知乎热榜Top50
- 豆瓣长安十二时辰500条评论
- 豆瓣读书数据集
- 去哪儿网—数据清洗
- 今日头条中文新闻(文本)分类数据集
- 豆瓣电影数据集
- bilibili流行动漫影评数据
- 中国文学文本数据集
- 《中餐厅3》19W弹幕数据
- 中文新闻数据集
- 豆瓣《哪吒之魔童降世》影评
- Embedding/Chinese-Word-Vectors
- Kyubyong/wordvectors
- fastText
- BPEmb
- 腾讯AI实验室 中文词向量数据集
- RoBERTa中文预训练模型
Programming Languages
Keywords
chinese-nlp
4
nlp
4
corpus
4
chinese
4
bert
3
natural-language-processing
3
reading-comprehension
2
dataset
2
embeddings
2
word2vec
2
question-answering
2
yu-liao
1
yu-liao-ku
1
linguistics
1
corpora
1
chinese-poetry
1
weixin-data
1
ci
1
json
1
poetry
1
tangshi
1
company
1
weixin
1
dict
1
wei-xin
1
wiki
1
text-classification
1
pretrain
1
news
1
language-model
1
chinese-dataset
1
chinese-corpus
1
roberta
1
pre-trained-language-models
1
pre-trained
1
gpt2
1
subword-embeddings
1
multilingual
1
vector
1
language
1
fasttext
1
word-embeddings
1
vectors-trained
1
embedding
1
chinese-word-segmentation
1
ner
1