https://github.com/CASIA-LM/MoDS
https://github.com/CASIA-LM/MoDS
Last synced: 12 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/CASIA-LM/MoDS
- Owner: CASIA-LM
- Created: 2023-11-27T01:19:22.000Z (over 2 years ago)
- Default Branch: main
- Last Pushed: 2024-04-16T09:45:21.000Z (about 2 years ago)
- Last Synced: 2024-04-16T13:23:23.983Z (about 2 years ago)
- Language: Python
- Size: 394 KB
- Stars: 76
- Watchers: 1
- Forks: 5
- Open Issues: 4
Awesome Lists containing this project
- StarryDivineSky - CASIA-LM/MoDS - model-deberta-v3-large-v2 模型。这是一个基于 DeBERTa 架构设计的奖励模型,并接受了四种不同类型的人类反馈数据的训练,赋予了它 QA 模型评估、奖励评分和通过排名检测潜在有害反应的能力。在本文中,我们主要利用其奖励评分能力,为大规模数据集中的每个 (instruction, input, output) 三元组生成质量分数。因此,我们应该在此步骤中下载 reward-model-deberta-v3-large-v2 并将其放入 “models” 文件夹中。对于来自大规模数据集的 json 文件,我们可以运行以下脚本来处理它并生成一个具有质量分数的新文件。“input.json” 表示来自大规模数据集的文件,而 “quality-evaluation.json” 表示具有质量分数的输出结果。所有文件的格式与 Alpaca 相同。在计算出每个 (instruction, input, output) 对的质量分数后,我们将使用以下脚本提取高质量的说明数据。“high-quality-data.json”代表我们提取的高质量数据。而 “0.0” 是过滤高质量数据的阈值。第 2 阶段:种子指令的多样化数据选择。在获得高质量的 instruction 数据集后,我们将进一步从中选择数据。为了选择具有最大覆盖率的多样化指令数据,我们建议使用 K-Center 贪婪算法进行数据选择。第 3 阶段:增强数据选择。对于不同的 LLMs,由于他们在预训练过程中学到的知识和能力不同,他们需要的指令调优数据也会不同。对于一条指令,如果给定的 LLM 可以产生良好的响应,则表明给定的 LLM 具有处理此类指令的能力,并且该指令数据对于微调 LLM。相反,如果 LLM 不能产生良好的响应,则表明 LLM 无法有效地处理这种类型的指令数据,并且指令数据对于目标 LLM。在这个阶段,我们将提取这些响应不佳的指令,为给定的 LLM。第 4 阶段:使用选定的指令进行微调。 (A01_文本生成_文本对话 / 大语言对话模型及数据)