https://github.com/wenge-research/YAYI2

YAYI 2 是中科闻歌研发的新一代开源大语言模型，采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs)
https://github.com/wenge-research/YAYI2

artificial-intelligence chat chinese gpt natural-language-generation pretrained-language-model yayi

Last synced: 6 months ago
JSON representation

YAYI 2 是中科闻歌研发的新一代开源大语言模型，采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs)

Host: GitHub
URL: https://github.com/wenge-research/YAYI2
Owner: wenge-research
License: apache-2.0
Created: 2023-12-15T04:56:21.000Z (over 1 year ago)
Default Branch: main
Last Pushed: 2024-04-07T08:27:39.000Z (about 1 year ago)
Last Synced: 2024-11-11T18:03:00.550Z (6 months ago)
Topics: artificial-intelligence, chat, chinese, gpt, natural-language-generation, pretrained-language-model, yayi
Language: Python
Homepage:
Size: 1.3 MB
Stars: 3,609
Watchers: 7
Forks: 17
Open Issues: 1
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

StarryDivineSky - wenge-research/YAYI2 - 30B 是基于 Transformer 的大语言模型，采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景，我们采用了百万级指令进行微调，同时借助人类反馈强化学习方法，以更好地使模型与人类价值观对齐。[YAYI2 预训练数据](https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data) ，选了约100B数据，数据大小约为500GB。在预训练阶段，我们不仅使用了互联网数据来训练模型的语言能力，还添加了通用精选数据和领域数据，以增强模型的专业技能。通用精选数据包含人工收集和整理的高质量数据。涵盖了报纸类数据、文献类数据、APP类数据、代码类数据、书籍类数据、百科类数据。其中，报纸类数据包括广泛的新闻报道和专栏文章，这类数据通常结构化程度高，信息量丰富。文献类数据包括学术论文和研究报告，为我们的数据集注入了专业和深度。代码类数据包括各种编程语言的源码，有助于构建和优化技术类数据的处理模型。书籍类数据涵盖了小说、诗歌、古文、教材等内容，提供丰富的语境和词汇，增强语言模型的理解能力。构建了一套全方位提升数据质量的数据处理流水线，包括标准化、启发式清洗、多级去重、毒性过滤四个模块。我们共收集了 240TB 原始数据，预处理后仅剩 10.6TB 高质量数据。 (A01_文本生成_文本对话 / 大语言对话模型及数据)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/wenge-research/YAYI2

Awesome Lists containing this project