Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/DA-southampton/RedGPT
https://github.com/DA-southampton/RedGPT
Last synced: 2 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/DA-southampton/RedGPT
- Owner: DA-southampton
- License: apache-2.0
- Created: 2023-04-14T14:38:31.000Z (almost 2 years ago)
- Default Branch: main
- Last Pushed: 2023-04-14T10:38:33.000Z (almost 2 years ago)
- Last Synced: 2024-08-01T22:41:05.480Z (6 months ago)
- Size: 124 MB
- Stars: 58
- Watchers: 0
- Forks: 11
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- Awesome-LLMs-Datasets - Github
- StarryDivineSky - DA-southampton/RedGPT - Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。 (A01_文本生成_文本对话 / 大语言对话模型及数据)