https://github.com/CASIA-LM/MoDS

Last synced: 12 months ago
JSON representation

Host: GitHub
URL: https://github.com/CASIA-LM/MoDS
Owner: CASIA-LM
Created: 2023-11-27T01:19:22.000Z (over 2 years ago)
Default Branch: main
Last Pushed: 2024-04-16T09:45:21.000Z (about 2 years ago)
Last Synced: 2024-04-16T13:23:23.983Z (about 2 years ago)
Language: Python
Size: 394 KB
Stars: 76
Watchers: 1
Forks: 5
Open Issues: 4

Awesome Lists containing this project

StarryDivineSky - CASIA-LM/MoDS - model-deberta-v3-large-v2 模型。这是一个基于 DeBERTa 架构设计的奖励模型，并接受了四种不同类型的人类反馈数据的训练，赋予了它 QA 模型评估、奖励评分和通过排名检测潜在有害反应的能力。在本文中，我们主要利用其奖励评分能力，为大规模数据集中的每个（instruction， input， output）三元组生成质量分数。因此，我们应该在此步骤中下载 reward-model-deberta-v3-large-v2 并将其放入 “models” 文件夹中。对于来自大规模数据集的 json 文件，我们可以运行以下脚本来处理它并生成一个具有质量分数的新文件。“input.json” 表示来自大规模数据集的文件，而 “quality-evaluation.json” 表示具有质量分数的输出结果。所有文件的格式与 Alpaca 相同。在计算出每个（instruction， input， output）对的质量分数后，我们将使用以下脚本提取高质量的说明数据。“high-quality-data.json”代表我们提取的高质量数据。而 “0.0” 是过滤高质量数据的阈值。第 2 阶段：种子指令的多样化数据选择。在获得高质量的 instruction 数据集后，我们将进一步从中选择数据。为了选择具有最大覆盖率的多样化指令数据，我们建议使用 K-Center 贪婪算法进行数据选择。第 3 阶段：增强数据选择。对于不同的 LLMs，由于他们在预训练过程中学到的知识和能力不同，他们需要的指令调优数据也会不同。对于一条指令，如果给定的 LLM 可以产生良好的响应，则表明给定的 LLM 具有处理此类指令的能力，并且该指令数据对于微调 LLM。相反，如果 LLM 不能产生良好的响应，则表明 LLM 无法有效地处理这种类型的指令数据，并且指令数据对于目标 LLM。在这个阶段，我们将提取这些响应不佳的指令，为给定的 LLM。第 4 阶段：使用选定的指令进行微调。 (A01_文本生成_文本对话 / 大语言对话模型及数据)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/CASIA-LM/MoDS

Awesome Lists containing this project