Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/CLUEbenchmark/DataCLUE
DataCLUE: 数据为中心的NLP基准和工具包
https://github.com/CLUEbenchmark/DataCLUE
ai chinese classification-algorithm data-centric human-in-the-loop nlp
Last synced: 3 months ago
JSON representation
DataCLUE: 数据为中心的NLP基准和工具包
- Host: GitHub
- URL: https://github.com/CLUEbenchmark/DataCLUE
- Owner: CLUEbenchmark
- Created: 2021-09-11T14:30:02.000Z (about 3 years ago)
- Default Branch: master
- Last Pushed: 2022-05-11T04:59:23.000Z (over 2 years ago)
- Last Synced: 2024-06-24T05:40:26.451Z (5 months ago)
- Topics: ai, chinese, classification-algorithm, data-centric, human-in-the-loop, nlp
- Language: Python
- Homepage: https://arxiv.org/abs/2111.08647
- Size: 17.9 MB
- Stars: 145
- Watchers: 8
- Forks: 17
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- StarryDivineSky - CLUEbenchmark/DataCLUE - centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。 (NLP语料和数据集)