{"id":19054709,"url":"https://github.com/ssbuild/llm_rrhf","last_synced_at":"2025-11-12T15:08:19.879Z","repository":{"id":199454702,"uuid":"702873024","full_name":"ssbuild/llm_rrhf","owner":"ssbuild","description":null,"archived":false,"fork":false,"pushed_at":"2024-04-23T16:36:01.000Z","size":93,"stargazers_count":1,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"dev","last_synced_at":"2025-02-22T01:19:51.934Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":null,"language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"apache-2.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/ssbuild.png","metadata":{"files":{"readme":"README.MD","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2023-10-10T07:12:00.000Z","updated_at":"2024-06-24T04:58:10.000Z","dependencies_parsed_at":"2025-01-02T11:10:43.724Z","dependency_job_id":"0476250e-0959-4c21-9076-ddecd12e2554","html_url":"https://github.com/ssbuild/llm_rrhf","commit_stats":null,"previous_names":["ssbuild/rrhf_finetuning"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/ssbuild/llm_rrhf","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ssbuild%2Fllm_rrhf","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ssbuild%2Fllm_rrhf/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ssbuild%2Fllm_rrhf/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ssbuild%2Fllm_rrhf/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/ssbuild","download_url":"https://codeload.github.com/ssbuild/llm_rrhf/tar.gz/refs/heads/dev","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/ssbuild%2Fllm_rrhf/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":284054876,"owners_count":26939660,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","status":"online","status_checked_at":"2025-11-12T02:00:06.336Z","response_time":59,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-08T23:39:28.375Z","updated_at":"2025-11-12T15:08:19.845Z","avatar_url":"https://github.com/ssbuild.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\r\n```text\r\n    2024-04-22 简化\r\n    2023-10-10 initial rrhf , 注意 训练 batch 为 1\r\n```\r\n\r\n## update information\r\n   - [deep_training](https://github.com/ssbuild/deep_training)\r\n\r\n## 支持训练方式\r\n\r\n| 模型        | 32精度 | 混合精度 | 16精度 | lora int8 | lora int4 | ptv2   |\r\n|-----------|-------|---------|-------|-----------|-----------|--------|\r\n| llama     | √    | √    | √    | √         | √         | ×      |\r\n| llama2    | √    | √    | √    | √         | √         | ×      |\r\n| chatglm   | √    | √    | √    | √         | √         | ×      |\r\n| chatglm2  | √    | √    | √    | √         | √         | ×      |\r\n| baichuan  | √    | √    | √    | √         | √         | ×      |\r\n| baichuan2 | √    | √    | √    | √         | √         | ×      |\r\n| opt       | √    | √    | √    | √         | √         | ×      |\r\n| moss      | √    | √    | √    | √         | √         | ×      |\r\n| rwkv      | √    | √    | √    | √         | √         | ×      |\r\n| tiger     | √    | √    | √    | √         | √         | ×      |\r\n| qwen      | √    | √    | √    | √         | √         | ×      |\r\n| internlm  | √    | √    | √    | √         | √         | ×      |\r\n| gpt2      | √    | √    | √    | √         | √         | ×      |\r\n| xverse    | √    | √    | √    | √         | √         | ×      |\r\n| openbuddy | √    | √    | √    | √         | √         | ×      |\r\n\r\n\r\n## 数据示例\r\n```json\r\n {\r\n\t\"prompt\": \"新闻写作的概念是？\",\r\n\t\"response\": [\"答：新闻写作是指记者把采访中搜集到的材料、信息，通过文字写作制成一定体裁的新闻作品的过程。新闻写作也有广义与狭义之分。广义上的新闻写作，包括新闻报道与新闻评论的写作。狭义的新闻写作，一般仅指新闻报道方面各种体裁的写作。新闻报道主要“记事”，新闻评论主要“记言”，但无论“记事”还是“记言”，它们都要遵循新闻传播的规律，因此同属于新闻作品这个大家族。\",\r\n      \"新闻写作是指一种以传播信息为主要目的，通过撰写文章或报道等方式，对事件、人物、情况等进行描述、分析、评论和报道的艺术形式。它是新闻报道的一种重要形式，主要通过吸引读者的注意力，提高新闻的可读性和吸引力，来促进公众对事件的理解和认识。\",\r\n      \" 什么是新闻写作的要素，包括哪些内容呢? 1、新闻写作概念：新闻写作是指通过文字、图片等形式报道事件的过程。 2、新闻写作的基本要素有以下几项:①标题； ②摘要（简要介绍）； ③全文(详细叙述)； 3、新闻写作的内容主要有五个方面:1.人物采访;2.事件调查;3.评论分析;4.专题研究;5.综合材料整理.4、新闻写作的主要任务在于反映社会现实,揭示问题和解决问题的方法,为读者提供有用的信息资料,使他们了解世界变化趋势,掌握最新信息,提高生活水平.5、新闻写作的特点1.具有很强的社会责任感。2.善于运用各种语言表达手段来表现事物。3.在处理复杂情况时能灵活地使用多种方法进行组合而成法。6.对事实真相负责任而客观公正地表达。7.注意准确性与完整性的同时兼顾简洁明快的风格特点。8.注重逻辑性和结构性。9.重视时间紧迫性。10.强调实用价值。11.关注公众利益。12.突出主题。13.用生动形象的方式描述事情发生的过程及结果。14.把故事写得像电影一样精彩动人。15.以最短最有效的形式写出所想说的话或事。16.保持良好的态度。17.坚持严谨的态度。18.尊重权威。19.正确把握新闻尺度。20.及时更新。21.多角度采编。22.善用比喻拟物化手法。23.善于利用对比论证。24.善于引用典故。25.善于运用夸张语气。26.善于运用比喻句。27.善于运用反问句。28.善于运用感叹句。29.善于运用疑问句。30.善于运用定语从句。31.善于运用宾语从句。32.善于运用主谓关系。33.善于运用并列关系。34.善于\",\r\n      \" 什么是新闻写作的特征和特点? 1、新闻写作是指通过文字、图片等媒体形式，以事实为主要内容进行报道。 2、新闻写作的特点有：①具有很强的社会意义； ②具有较强的实用性与现实性的要求； 3、新闻写作一般采用以下几种方式：⒈直接采访的方式（即记者亲自去现场调查）； ⒉间接采访的方式（即由其他单位或个人代为调查）； 三者结合使用； 4、新闻写作的内容主要有两种类型：一是事件类的新闻稿件； 二是在新闻中所反映出来的人物心理状态及社会现象的变化情况。 5、新报编辑的基本任务就是把报纸中的各种信息组织成一个整体，使读者能够迅速了解当天发生的大事情以及其它一些重要的事情。 6、新报编辑的主要工作包括：ⅰ整理各类材料并对它们进行分类； 2编写标题； 3编排文案； 4撰写摘要； 5配图； 6审阅版面； 7检查印刷质量。 8.编辑出版时应注意的是:1、在制作上必须做到“一目了然”，不能出现杂乱无章的现象;2、要有一定的审美水平,能根据不同题材的不同风格来处理不同的文章;3、要善于发现新闻线索,把握热点话题,抓住重点问题,突出典型案例,挖掘细节,揭示真相,体现权威性和真实性;4、要掌握好语言表达技巧,用简明扼要的形式写出观点,避免冗长赘述,不加修饰,保持简洁流畅的风格;5、要注重图文配合,运用恰当的字体,适当地增加必要的标点符号,增强阅读效果,提高视觉冲击力;6、要重视整篇结构合理化,保证逻辑一致,防止混乱,确保全文完整性,减少\",\r\n      \" 什么是新闻写作的要素，如何写好一个新闻稿子呢? 我认为,新闻写作是一个综合运用语言文字、图片等各种信息载体进行传播的一种活动。 它包括以下几个方面：1．编辑报章和报纸报道； 2．广播节目制作； 3．电视专题片编排； 4．网络媒体发布； 5．出版物撰写（如杂志）等等。 在以上几种形式中，我们常常会遇到一些问题需要解决的问题，比如：怎样把事件的信息组织成一篇完整的新闻稿子来发表出来？ 怎样在一篇文章里尽可能地使读者感到最生动的感受到事情发生的过程与结果？ 如何让文章能够吸引更多的人阅读并引起他们的共鸣？ 这些都需要我们在创作过程中注意的一些细节之处。 我们可以从下面几条内容中得到帮助：1、标题要突出主题，用短明快语概括。 2、开头要有引言，以吸引人的眼球。 3、结尾要有总结或启示性。 4、结构合理，不要出现混乱现象。 5、字数不要太长，否则容易使人产生厌烦感。 6、文体应符合要求。 7、尽量避免使用“我”及第一人称词。 8、不加修饰词语。 9、别多引用他人的观点。 10.不要重复同一段话。 11.不要过多赘述。 12.不要对材料作过加工处理。 13.不要随意添加数字符号。 14.不要将名词改为动词。 15.不要脱离事实真相。 16.不要偏离主旨。 17.不要滥用感叹号。 18.不要乱入语法错误。 19.不要过分强调自己观点。 20.不要过度夸大自己的能力。 21.不要无端攻击\",\r\n      \" 什么是新闻写作的特征和特点，以及如何进行新闻写作。 1、新报编辑：是指在报纸上发表的新闻报道或评论文章的一种形式。 2、新闻写作：指通过文字、图片等媒体手段来表达信息的方式。 3、新闻稿件：即记者所撰写的文章或者照片作品。 4、新闻稿件分类方法有以下几种:①按内容类别分； 如政治类、经济类、社会生活类等等； 二是对于作者身份的不同分为专业性（如新华社）与非专业的（如个人）两种； 三是由于不同报刊杂志性质而产生的不同的类型，例如日报、晚报、周刊、期刊、专刊、传单、广告宣传册及各种文摘书目等。 5、新闻稿件格式要求主要有如下几点:1.标题要准确简明明确,以吸引读者;2.第一段必须为引言部分,用简洁有力语言说明事件发生的时间地点及其原因.3.第二段应包括事实叙述,并指出其影响,必要时可附图(图)或表(表)。 4.第三段主要介绍有关人物,尤其是当事人,他们的姓名,年龄,职业,职位,家庭情况,重要事迹,荣誉称号,获奖证书,奖励金额,特长,爱好,兴趣,性格特点,缺点,优点,个性标志,对策意见,建议,结论,最后总结一下该篇题旨的内容即可.5.第四段一般写成议论句,但要注意把握好语气,使之生动活泼,富有说服力,使人产生共鸣,从而达到目的.6.第五段可以适当引用一些权威性的资料,证明自己的观点正确,增强信服度.7.第六段结尾处可用“综述”的形式加以概括,突出主题,强调意义,引起读者注意,引导他们思考问题.8.第七段如果需要补充材料的话,则可在\"],\r\n\t\"scores\": [1.1, 1.1, 1.0, 0.9, 0.88, 0.9]\r\n}\r\n```\r\n    \r\n\r\n\r\n\r\n## 生成训练record\r\n   \r\n- cd data \u0026\u0026 make_data_example.py \r\n- python data_utils.py\r\n    \r\n    注:\r\n    num_process_worker 为多进程制作数据 ， 如果数据量较大 ， 适当调大至cpu数量\r\n    dataHelper.make_dataset_with_args(data_args.train_file,mixed_data=False, shuffle=True,mode='train',num_process_worker=0)\r\n\r\n\r\n\r\n\r\n\r\n## training\r\n```text\r\n    # 制作数据\r\n    cd scripts\r\n    bash train_full.sh -m dataset \r\n    or\r\n    bash train_lora.sh -m dataset \r\n    or\r\n    bash train_ptv2.sh -m dataset \r\n    \r\n    注: num_process_worker 为多进程制作数据 ， 如果数据量较大 ， 适当调大至cpu数量\r\n    dataHelper.make_dataset_with_args(data_args.train_file,mixed_data=False, shuffle=True,mode='train',num_process_worker=0)\r\n    \r\n    # 全参数训练 \r\n        bash train_full.sh -m train \r\n        \r\n    # lora adalora ia3 \r\n        bash train_lora.sh -m train \r\n        \r\n    # ptv2\r\n        bash train_ptv2.sh -m train \r\n```\r\n\r\n\r\n\r\n\r\n\r\n\r\n## 训练参数\r\n[训练参数](args.MD)\r\n\r\n## 友情链接\r\n\r\n- [pytorch-task-example](https://github.com/ssbuild/pytorch-task-example)\r\n- [chatmoss_finetuning](https://github.com/ssbuild/chatmoss_finetuning)\r\n- [chatglm_finetuning](https://github.com/ssbuild/chatglm_finetuning)\r\n- [chatglm2_finetuning](https://github.com/ssbuild/chatglm2_finetuning)\r\n- [t5_finetuning](https://github.com/ssbuild/t5_finetuning)\r\n- [llm_finetuning](https://github.com/ssbuild/llm_finetuning)\r\n- [llm_rlhf](https://github.com/ssbuild/llm_rlhf)\r\n- [chatglm_rlhf](https://github.com/ssbuild/chatglm_rlhf)\r\n- [t5_rlhf](https://github.com/ssbuild/t5_rlhf)\r\n- [rwkv_finetuning](https://github.com/ssbuild/rwkv_finetuning)\r\n- [baichuan_finetuning](https://github.com/ssbuild/baichuan_finetuning)\r\n- [internlm_finetuning](https://github.com/ssbuild/internlm_finetuning)\r\n- [qwen_finetuning](https://github.com/ssbuild/qwen_finetuning)\r\n- [xverse_finetuning](https://github.com/ssbuild/xverse_finetuning)\r\n- [auto_finetuning](https://github.com/ssbuild/auto_finetuning)\r\n- [aigc_serving](https://github.com/ssbuild/aigc_serving)\r\n\r\n## \r\n    纯粹而干净的代码\r\n\r\n\r\n## 参考\r\n- https://arxiv.org/abs/2304.05302\r\n- https://github.com/GanjinZero/RRHF","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fssbuild%2Fllm_rrhf","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fssbuild%2Fllm_rrhf","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fssbuild%2Fllm_rrhf/lists"}