Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/thu-coai/BPO
https://github.com/thu-coai/BPO
Last synced: 3 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/thu-coai/BPO
- Owner: thu-coai
- License: apache-2.0
- Created: 2023-11-06T14:44:07.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2024-06-24T09:41:35.000Z (5 months ago)
- Last Synced: 2024-06-24T11:14:14.763Z (5 months ago)
- Language: Python
- Size: 28.6 MB
- Stars: 252
- Watchers: 4
- Forks: 14
- Open Issues: 2
-
Metadata Files:
- Readme: readme.md
- License: LICENSE
Awesome Lists containing this project
- StarryDivineSky - thu-coai/BPO - 3.5-turbo 和 claude-2。性能也优于PPO和DPO,并呈现出正交的改进。通过优化用户指令,从输入角度对模型进行对齐。过程分三步:1、`反馈数据收集`:为了建模人类偏好,首先搜集了一系列带有反馈信号的开源指令微调数据集,并对这些数据经过精心筛选和过滤。2、`构造提示优化对`:使用这些反馈数据来引导大型模型识别出用户偏好的特征。首先让模型分析用户喜欢的回复和不喜欢的回复,找出其中蕴含的人类偏好特征。接着,基于这些特征,再利用模型优化原始的用户输入,以期得到更符合用户喜好的模型输出。3、`训练提示优化器`:经过步骤一和步骤二,我们得到了大量隐含人类偏好的提示对。利用这些提示对,我们训练一个相对较小的模型,从而构建提示偏好优化器。最终,我们可以利用该提示优化器对用户指令进行优化,并应用在广泛的LLM上。[BPO 数据集](https://huggingface.co/datasets/THUDM/BPO) (文本生成、文本对话 / 大语言对话模型及数据)