Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/wenge-research/YAYI2
YAYI 2 是中科闻歌研发的新一代开源大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs)
https://github.com/wenge-research/YAYI2
artificial-intelligence chat chinese gpt natural-language-generation pretrained-language-model yayi
Last synced: about 1 month ago
JSON representation
YAYI 2 是中科闻歌研发的新一代开源大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs)
- Host: GitHub
- URL: https://github.com/wenge-research/YAYI2
- Owner: wenge-research
- License: apache-2.0
- Created: 2023-12-15T04:56:21.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2024-04-07T08:27:39.000Z (9 months ago)
- Last Synced: 2024-11-11T18:03:00.550Z (about 1 month ago)
- Topics: artificial-intelligence, chat, chinese, gpt, natural-language-generation, pretrained-language-model, yayi
- Language: Python
- Homepage:
- Size: 1.3 MB
- Stars: 3,609
- Watchers: 7
- Forks: 17
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- StarryDivineSky - wenge-research/YAYI2 - 30B 是基于 Transformer 的大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景,我们采用了百万级指令进行微调,同时借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐。[YAYI2 预训练数据](https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data) ,选了约100B数据,数据大小约为500GB。在预训练阶段,我们不仅使用了互联网数据来训练模型的语言能力,还添加了通用精选数据和领域数据,以增强模型的专业技能。通用精选数据包含人工收集和整理的高质量数据。涵盖了报纸类数据、文献类数据、APP类数据、代码类数据、书籍类数据、百科类数据。其中,报纸类数据包括广泛的新闻报道和专栏文章,这类数据通常结构化程度高,信息量丰富。文献类数据包括学术论文和研究报告,为我们的数据集注入了专业和深度。代码类数据包括各种编程语言的源码,有助于构建和优化技术类数据的处理模型。书籍类数据涵盖了小说、诗歌、古文、教材等内容,提供丰富的语境和词汇,增强语言模型的理解能力。构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。我们共收集了 240TB 原始数据,预处理后仅剩 10.6TB 高质量数据。 (A01_文本生成_文本对话 / 大语言对话模型及数据)