{"id":13498765,"url":"https://github.com/sunzeyeah/RLHF","last_synced_at":"2025-03-29T01:32:32.848Z","repository":{"id":130439393,"uuid":"603083232","full_name":"sunzeyeah/RLHF","owner":"sunzeyeah","description":"Implementation of Chinese ChatGPT","archived":false,"fork":false,"pushed_at":"2023-11-20T01:46:20.000Z","size":2134,"stargazers_count":286,"open_issues_count":3,"forks_count":36,"subscribers_count":8,"default_branch":"master","last_synced_at":"2024-10-31T16:37:54.012Z","etag":null,"topics":["chatgpt","deep-learning","deepspeed","glm","nlp","pangu","pytorch"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/sunzeyeah.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null}},"created_at":"2023-02-17T15:27:53.000Z","updated_at":"2024-10-29T08:03:58.000Z","dependencies_parsed_at":"2023-12-12T19:07:30.602Z","dependency_job_id":"7f189058-440a-43e6-82ac-fd9eb181d5ec","html_url":"https://github.com/sunzeyeah/RLHF","commit_stats":{"total_commits":361,"total_committers":3,"mean_commits":"120.33333333333333","dds":0.06648199445983383,"last_synced_commit":"cd1a6d54971eb0513f38974aa6dcca53aa2f3174"},"previous_names":[],"tags_count":1,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/sunzeyeah%2FRLHF","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/sunzeyeah%2FRLHF/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/sunzeyeah%2FRLHF/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/sunzeyeah%2FRLHF/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/sunzeyeah","download_url":"https://codeload.github.com/sunzeyeah/RLHF/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":246126118,"owners_count":20727529,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["chatgpt","deep-learning","deepspeed","glm","nlp","pangu","pytorch"],"created_at":"2024-07-31T21:00:43.128Z","updated_at":"2025-03-29T01:32:32.403Z","avatar_url":"https://github.com/sunzeyeah.png","language":"Python","funding_links":[],"categories":["Awesome RHLF"],"sub_categories":["Tools and Resources"],"readme":"## Features\n\n提供3大功能：\n- LLM模型预训练：支持常见模型的预训练，包括：decoder结构（LLaMA、GPT）、encoder结构（GLM）\n- LLM模型评测：参考GPT类模型，基于ZeroShot和FewShot实现\n- ChatGPT模型训练pipeline：根据[Learning to Summarize from human feedback](https://arxiv.org/abs/2009.01325) ，实现3大流程: SFT、Reward Model和RLHF\n  - 支持RLHF阶段 (1) 联合优化reward和policy (2) 单独优化policy，冻结reward \n  - 支持[DPO](https://arxiv.org/abs/2305.18290)作为Reward+RLHF的替代方案，可显著降低显存占用，同时实现RL的效果\n\n## Setup\n\n### 1. Install deepspeed\n```bash\ngit clone https://github.com/microsoft/DeepSpeed.git\ncd deepspeed\nrm -rf build\nTORCH_CUDA_ARCH_LIST=\"7.0\" DS_BUILD_OPS=1 pip install -e . --global-option=\"build_ext\" --global-option=\"-j8\" --no-cache -v --disable-pip-version-check 2\u003e\u00261 | tee build.log\n```\n如果想创建binary wheel，方便在其他机器上安装，可使用如下命令，会在```dist```目录生成类似可安装文件```deepspeed-0.3.13+8cd046f-cp38-cp38-linux_x86_64.whl```\n```bash\ngit clone https://github.com/microsoft/DeepSpeed.git\ncd deepspeed\nrm -rf build\nTORCH_CUDA_ARCH_LIST=\"7.0\" DS_BUILD_OPS=1 python setup.py build_ext -j8 bdist_wheel 2\u003e\u00261 | tee build.log\n```\n**PS**：需要根据下图，调整```TORCH_CUDA_ARCH_LIST=\"7.0\"```为自己对应的NVIDIA GPU架构\n![image info](./images/torch_cuda_list.png \"torch_cuda_list\")\n\n或运行```torch.cuda.get_device_capability()```获取自己GPU的架构\n\n### 2. Install jieba\n在使用Pangu类模型的时候，其special_token格式为```\u003csep\u003e```、```\u003cpad\u003e```等，而[tokenization_gptpangu.py](src/resources/models/pangu-350M/tokenization_gptpangu.py)中```tokenize()```函数会使用```jieba```进行分词。但直接```pip install jieba```，默认会将```\u003c```和```\u003e```直接切分开，使用```jieba.add_word(\"\u003csep\u003e\")```也没有作用，因为```jieba```直接hardcode了会自动切分的token，其中就包括了```\u003c```和```\u003e```。 \n\n因此需要执行：\n```bash\ngit clone https://github.com/fxsjy/jieba.git\ncd jieba\n```\n将代码clone到本地，修改```jieba/__init__.py```中```re_han_default```的取值，具体改动如下：\n\n- 改动前：\n```python\nre_han_default = re.compile(\"([\\u4E00-\\u9FD5a-zA-Z0-9+#\u0026\\._%\\-]+)\", re.U)\n```\n\n- 改动后：\n```python\nre_han_default = re.compile(\"([\\u4E00-\\u9FD5a-zA-Z0-9+#\u0026\\._%\\-\u003c\u003e]+)\", re.U)\n```\n\n修改完成后使用```pip install .```进行本地编译安装，替换原有```jieba```。安装完成后，在代码中加入```jieba.add_word(\"\u003csep\u003e\")```（该代码已加入[tokenization_gptpangu.py](src/resources/models/pangu-350M/tokenization_gptpangu.py)），即可解决将```\u003csep\u003e```一类的special token切分为多个id的情况\n\n\n### 3. Install apex (Optional)\n```bash\ngit clone https://github.com/NVIDIA/apex\ncd apex\npip install --global-option=\"--cpp_ext\" --global-option=\"--cuda_ext\" --no-cache -v --disable-pip-version-check .  2\u003e\u00261 | tee build.log\n```\n如果想创建binary wheel，方便在其他机器上安装，可使用如下命令，会在```dist```目录生成类似可安装文件```apex-0.0.1+7150e20-cp38-cp38-linux_x86_64.whl```\n```bash\ngit clone https://github.com/NVIDIA/apex\ncd apex\npython setup.py --cpp_ext --cuda_ext bdist_wheel 2\u003e\u00261 | tee build.log\n```\n\n\n## Data \u0026 Model Download\n\n### 1. 预训练模型下载\n\n| 模型      | size | huggingface地址 | 百度网盘地址  |  提取码      | \n| ----------- | ----------- | ----------- |  ----------- |  ----------- |\n| [Pangu-350M](https://openi.pcl.ac.cn/PCL-Platform.Intelligence/PanGu-Alpha)   | 659MB | [sunzeyeah/pangu-350M](https://huggingface.co/sunzeyeah/pangu-350M) | [Pangu-350M](https://pan.baidu.com/s/1IzgtW48S2PKyjxPPMe1rAQ) |  c5jj |\n| [Pangu-2.6B](https://openi.pcl.ac.cn/PCL-Platform.Intelligence/PanGu-Alpha)   | 9.8GB | [sunzeyeah/pangu-2_6B](https://huggingface.co/sunzeyeah/pangu-2_6B) | [Pangu-2.6B](https://pan.baidu.com/s/1Tzvja4q_LgQOwkWPQ4jShw)    | 2rad |\n| [Pangu-13B](https://openi.pcl.ac.cn/PCL-Platform.Intelligence/PanGu-Alpha)   | 23.6GB | [sunzeyeah/pangu-13B](https://huggingface.co/sunzeyeah/pangu-13B) | [Pangu-13B](https://pan.baidu.com/s/11fWAeYYKqI7pH0UiuJ5jEQ)    | u3dx |\n| [GLM-350M-chinese](https://github.com/THUDM/GLM) | 679MB | [sunzeyeah/glm-350M-chinese](https://huggingface.co/sunzeyeah/glm-350M-chinese) | [GLM-350M-chinese](https://pan.baidu.com/s/11Lef-E7Tsz5OGOueCpiqaA) | ii8e |\n| [GLM-10B-chinese](https://github.com/THUDM/GLM)   | 18.4G | [sunzeyeah/glm-10B-chinese](https://huggingface.co/sunzeyeah/glm-10B-chinese) | [GLM-10B-chinese](https://pan.baidu.com/s/1GuOefx42n_GzFfwnjoBltw) | fynj  |\n| [ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)   | 25.6G | [sunzeyeah/chatglm-6B](https://huggingface.co/sunzeyeah/chatglm-6B) | [ChatGLM-6B](https://pan.baidu.com/s/1OlpkMeQD6-LEpNFWx5E-mg) | uq1k |\n\n**PS**: 本repo提供的预训练模型下载中，\n- 对于pytorch_model\\*.bin\n  - 如果源文件已包括，则不做改动\n  - 如果源文件不包括，则根据其提供的checkpoint转换为pytorch_model\\*.bin\n- 其余文件可能相对原文件有改动，包括：modeling_\\*.py、tokenization_\\*.py、configuration_\\*.py、config.json和tokenizer.config\n\n### 2. 数据下载\n\n| 数据集      | size | huggingface地址 | 百度网盘地址  |  提取码      | \n| ----------- | ----------- | ----------- |  ----------- |  ----------- |\n| [CLUE Benchmark](https://github.com/CLUEbenchmark/CLUE)   | 500MB | | [CLUE Benchmark](https://pan.baidu.com/s/15F60nRbBd6d6UvyXdwbXQA) |  m6gt |\n| SFT \u0026 Reward Data  | 5GB | [sunzeyeah/chinese_chatgpt_corpus](https://huggingface.co/datasets/sunzeyeah/chinese_chatgpt_corpus) | [SFT \u0026 Reward Data](https://pan.baidu.com/s/1sl8PB-Dlt1xLIYczMODyRg) | ecyc |\n| [百科](https://github.com/brightmart/nlp_chinese_corpus)  | 652MB | | [baike_qa_2019](https://pan.baidu.com/s/1N6I-fvx6FLHwuxJuDLLA8g) | 7jad |\n| [知道问答](https://github.com/SophonPlus/ChineseNlpCorpus) | 847MB | | [zhidao](https://pan.baidu.com/s/1sjR3vABiMbdV1HkUt6kCKQ) | neds |\n| [对联](https://github.com/wb14123/couplet-dataset/releases/download/1.0/couplet.tar.gz)  | 221MB | | [couplets](https://pan.baidu.com/s/1oo6oaephPXpyU-sDd_37qg) | 54ey |\n| [古文](https://github.com/NiuTrans/Classical-Modern)  | 125MB | | [Classical \u0026 Modern](https://pan.baidu.com/s/1ZyGkYOgzT9ZEVnpSpB4kQg) | a4cr |\n| [古诗词](https://github.com/chinese-poetry/chinese-poetry)  | 87MB | | [chinese poetry](https://pan.baidu.com/s/13uvkA96PdKpKB7ZQ2GkXZQ) | 5zzj |\n| 微博新闻评论  | 522MB | | [weibo summary comments](https://pan.baidu.com/s/1h45O0q6gQl3LbH-NjzuRlw) | w0g1 |\n\n**PS**: SFT \u0026 Reward Data基于百科、知道问答、对联、古文、古诗词、微博新闻评论数据构造，可直接用于SFT和Reward阶段训练。详见[data_prepare.py](./src/data_prepare.py)\n\n\n## Usage\n\n### 1. LLM模型预训练\n对开源LLM进行增量预训练，基于deepspeed实现。目前支持2类模型架构：\n- decoder结构：LLaMA、Baichuan、Pangu\n- encoder结构：GLM、ChatGLM\n\n```bash\ncd examples\nbash pretrain.sh\n```\n\n### 2. LLM模型评测\n对开源中文LLM进行ZeroShot、OneShot或FewShot的评测。详见[eval_pretrain.py](./src/eval_pretrain.py) 和 [data.py](src/data/data.py)。\n\n目前支持的评测任务：\n- [C-Eval](https://github.com/SJTU-LIT/ceval)\n- [MMLU](https://github.com/hendrycks/test)\n- [CLUEBenchmark](https://github.com/CLUEbenchmark/CLUE) ：评测方法和prompt模板参考[Pangu-alpha论文](https://arxiv.org/abs/2104.12369) \n\n目前支持的开源模型: \n- LLaMA及相关衍生模型 \n- ChatGLM（1和2）\n- Baichuan\n- Qwen\n- Pangu\n- GLM\n\n\n```bash\ncd examples\nbash eval_pretrain.sh\n```\n\n### 3. SFT\n使用开源LLM + SFT\u0026Reward数据进行SFT训练\n```bash\ncd examples\nbash train_sft.sh\n```\n### 4. Reward Model\n使用SFT模型 + SFT\u0026Reward数据进行Reward模型训练\n```bash\ncd examples\nbash train_reward.sh\n```\n\n### 5. RLHF\n利用PPO算法和Reward Model，进一步更新SFT模型。基于开源框架[DeepSpeedChat](https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat) 实现\n```bash\ncd examples\nbash train_rlhf.sh\n```\n\n### 6. DPO\n利用DPO算法替代Reward+RLHF的pipeline，免去训练Reward模型，同时达到RL训练的效果，该方法可显著降低显存占用。基于开源框架[trl](https://github.com/huggingface/trl) 实现\n```bash\ncd examples\nbash train_dpo.sh\n```\n\n\n## Results\n\n### 1. LLM模型评测\n\n\u003cdetails\u003e\n\u003csummary\u003e\u003cb\u003eC-Eval 5-shot测试集(test)结果\u003c/b\u003e\u003c/summary\u003e\n\u003ctable\u003e\n    \u003ctr\u003e  \u003ctd\u003eModel\u003c/td\u003e  \u003ctd\u003eAvg\u003c/td\u003e  \u003ctd\u003eAvg(Hard)\u003c/td\u003e \u003ctd\u003eSTEM\u003c/td\u003e \u003ctd\u003eSocial Science\u003c/td\u003e \u003ctd\u003eHumanities\u003c/td\u003e \u003ctd\u003eOther\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan2-13B-Chat\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e56.30\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e34.20\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e48.20\u003c/b\u003e\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e70.00\u003c/b\u003e\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e60.50\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e54.20\u003c/td\u003e \u003c/tr\u003e    \n    \u003ctr\u003e  \u003ctd\u003exverse-13B\u003c/td\u003e  \u003ctd\u003e55.30\u003c/td\u003e  \u003ctd\u003e32.50\u003c/td\u003e  \u003ctd\u003e45.90\u003c/td\u003e  \u003ctd\u003e66.70\u003c/td\u003e  \u003ctd\u003e59.50\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e57.60\u003c/b\u003e\u003c/td\u003e \u003c/tr\u003e    \n    \u003ctr\u003e  \u003ctd\u003eQwen-7B-Chat\u003c/td\u003e  \u003ctd\u003e54.70\u003c/td\u003e  \u003ctd\u003e35.40\u003c/td\u003e  \u003ctd\u003e47.90\u003c/td\u003e  \u003ctd\u003e68.30\u003c/td\u003e  \u003ctd\u003e58.70\u003c/td\u003e  \u003ctd\u003e50.00\u003c/td\u003e \u003c/tr\u003e    \n    \u003ctr\u003e  \u003ctd\u003eBaichuan-13B-Base\u003c/td\u003e  \u003ctd \u003e53.70\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e35.60\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e46.80\u003c/td\u003e  \u003ctd\u003e65.80\u003c/td\u003e  \u003ctd\u003e58.00\u003c/td\u003e  \u003ctd\u003e50.80\u003c/td\u003e \u003c/tr\u003e    \n    \u003ctr\u003e  \u003ctd\u003eBaichuan2-7B-Chat\u003c/td\u003e  \u003ctd\u003e52.50\u003c/td\u003e  \u003ctd\u003e33.80\u003c/td\u003e  \u003ctd\u003e45.70\u003c/td\u003e  \u003ctd\u003e64.20\u003c/td\u003e  \u003ctd\u003e56.60\u003c/td\u003e  \u003ctd\u003e50.20\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eChatGLM2-6B\u003c/td\u003e  \u003ctd\u003e51.20\u003c/td\u003e  \u003ctd\u003e33.40\u003c/td\u003e  \u003ctd\u003e46.90\u003c/td\u003e  \u003ctd\u003e63.00\u003c/td\u003e  \u003ctd\u003e51.60\u003c/td\u003e  \u003ctd\u003e47.70\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan-13B-Chat\u003c/td\u003e  \u003ctd\u003e47.90\u003c/td\u003e  \u003ctd\u003e31.50\u003c/td\u003e  \u003ctd\u003e41.40\u003c/td\u003e  \u003ctd\u003e56.80\u003c/td\u003e  \u003ctd\u003e53.00\u003c/td\u003e  \u003ctd\u003e46.50\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan-7B\u003c/td\u003e  \u003ctd\u003e44.20\u003c/td\u003e  \u003ctd\u003e31.70\u003c/td\u003e  \u003ctd\u003e39.20\u003c/td\u003e  \u003ctd\u003e53.30\u003c/td\u003e  \u003ctd\u003e47.30\u003c/td\u003e  \u003ctd\u003e41.90\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eZiya-LLaMA-13B-v1.1\u003c/td\u003e  \u003ctd\u003e40.10\u003c/td\u003e  \u003ctd\u003e30.30\u003c/td\u003e  \u003ctd\u003e35.80\u003c/td\u003e  \u003ctd\u003e47.30\u003c/td\u003e  \u003ctd\u003e42.80\u003c/td\u003e  \u003ctd\u003e38.50\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eChatGLM1.1-6B\u003c/td\u003e  \u003ctd\u003e38.10\u003c/td\u003e  \u003ctd\u003e28.60\u003c/td\u003e  \u003ctd\u003e33.60\u003c/td\u003e  \u003ctd\u003e46.70\u003c/td\u003e  \u003ctd\u003e40.90\u003c/td\u003e  \u003ctd\u003e35.70\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eAtomGPT-13B-56k\u003c/td\u003e  \u003ctd\u003e37.60\u003c/td\u003e  \u003ctd\u003e25.30\u003c/td\u003e  \u003ctd\u003e32.00\u003c/td\u003e  \u003ctd\u003e44.70\u003c/td\u003e  \u003ctd\u003e42.80\u003c/td\u003e  \u003ctd\u003e36.10\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA2-13B-chat\u003c/td\u003e  \u003ctd\u003e37.10\u003c/td\u003e  \u003ctd\u003e29.30\u003c/td\u003e  \u003ctd\u003e34.60\u003c/td\u003e  \u003ctd\u003e43.60\u003c/td\u003e  \u003ctd\u003e35.90\u003c/td\u003e  \u003ctd\u003e37.00\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eChatGLM-6B\u003c/td\u003e  \u003ctd\u003e36.30\u003c/td\u003e  \u003ctd\u003e27.20\u003c/td\u003e  \u003ctd\u003e32.90\u003c/td\u003e  \u003ctd\u003e42.80\u003c/td\u003e  \u003ctd\u003e38.10\u003c/td\u003e  \u003ctd\u003e34.90\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA-30B\u003c/td\u003e  \u003ctd\u003e35.90\u003c/td\u003e  \u003ctd\u003e29.90\u003c/td\u003e  \u003ctd\u003e34.40\u003c/td\u003e  \u003ctd\u003e42.40\u003c/td\u003e  \u003ctd\u003e33.30\u003c/td\u003e  \u003ctd\u003e35.60\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA2-7B-chat\u003c/td\u003e  \u003ctd\u003e33.50\u003c/td\u003e  \u003ctd\u003e27.30\u003c/td\u003e  \u003ctd\u003e31.60\u003c/td\u003e  \u003ctd\u003e38.10\u003c/td\u003e  \u003ctd\u003e33.80\u003c/td\u003e  \u003ctd\u003e32.70\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eZiya-LLaMA-13B-Pretrain-v1\u003c/td\u003e  \u003ctd\u003e31.10\u003c/td\u003e  \u003ctd\u003e22.20\u003c/td\u003e  \u003ctd\u003e27.40\u003c/td\u003e  \u003ctd\u003e36.50\u003c/td\u003e  \u003ctd\u003e33.80\u003c/td\u003e  \u003ctd\u003e30.40\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA-13B\u003c/td\u003e  \u003ctd\u003e29.8\u003c/td\u003e  \u003ctd\u003e24.20\u003c/td\u003e  \u003ctd\u003e28.40\u003c/td\u003e  \u003ctd\u003e33.70\u003c/td\u003e  \u003ctd\u003e29.60\u003c/td\u003e  \u003ctd\u003e29.00\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA-7B\u003c/td\u003e  \u003ctd\u003e26.80\u003c/td\u003e  \u003ctd\u003e26.70\u003c/td\u003e  \u003ctd\u003e26.20\u003c/td\u003e  \u003ctd\u003e27.60\u003c/td\u003e  \u003ctd\u003e25.70\u003c/td\u003e  \u003ctd\u003e28.10\u003c/td\u003e \u003c/tr\u003e\n\u003c/table\u003e\n\u003c/details\u003e\n\n\u003cdetails\u003e\n\u003csummary\u003e\u003cb\u003eMMLU 5-shot测试集(test)结果\u003c/b\u003e\u003c/summary\u003e\n\u003ctable\u003e\n    \u003ctr\u003e  \u003ctd\u003eModel\u003c/td\u003e  \u003ctd\u003eAvg\u003c/td\u003e  \u003ctd\u003eSTEM\u003c/td\u003e \u003ctd\u003eSocial Science\u003c/td\u003e \u003ctd\u003eHumanities\u003c/td\u003e \u003ctd\u003eOther\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan2-13B-Chat\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e56.90\u003c/b\u003e\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e47.28\u003c/b\u003e\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e66.23\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e52.90\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e63.50\u003c/b\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA-30B\u003c/td\u003e  \u003ctd\u003e56.33\u003c/td\u003e  \u003ctd\u003e44.68\u003c/td\u003e  \u003ctd\u003e65.64\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e54.60\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e61.57\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003exverse-13B\u003c/td\u003e  \u003ctd\u003e55.24\u003c/td\u003e  \u003ctd\u003e45.60\u003c/td\u003e  \u003ctd\u003e64.51\u003c/td\u003e  \u003ctd\u003e50.32\u003c/td\u003e  \u003ctd\u003e63.27\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eQwen-7B-Chat\u003c/td\u003e  \u003ctd\u003e54.13\u003c/td\u003e  \u003ctd\u003e41.76\u003c/td\u003e  \u003ctd\u003e63.43\u003c/td\u003e  \u003ctd\u003e50.81\u003c/td\u003e  \u003ctd\u003e62.50\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA2-13B-chat\u003c/td\u003e  \u003ctd\u003e53.98\u003c/td\u003e  \u003ctd\u003e44.52\u003c/td\u003e  \u003ctd\u003e63.40\u003c/td\u003e  \u003ctd\u003e49.37\u003c/td\u003e  \u003ctd\u003e61.21\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan-13B-Base\u003c/td\u003e  \u003ctd\u003e53.46\u003c/td\u003e  \u003ctd\u003e43.86\u003c/td\u003e  \u003ctd\u003e63.14\u003c/td\u003e  \u003ctd\u003e49.73\u003c/td\u003e  \u003ctd\u003e59.28\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan2-7B-Chat\u003c/td\u003e  \u003ctd\u003e53.11\u003c/td\u003e  \u003ctd\u003e43.51\u003c/td\u003e  \u003ctd\u003e62.26\u003c/td\u003e  \u003ctd\u003e49.58\u003c/td\u003e  \u003ctd\u003e59.12\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan-13B-Chat\u003c/td\u003e  \u003ctd\u003e51.12\u003c/td\u003e  \u003ctd\u003e41.61\u003c/td\u003e  \u003ctd\u003e59.11\u003c/td\u003e  \u003ctd\u003e47.52\u003c/td\u003e  \u003ctd\u003e58.31\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eZiya-LLaMA-13B-v1.1\u003c/td\u003e  \u003ctd\u003e51.06\u003c/td\u003e  \u003ctd\u003e41.89\u003c/td\u003e  \u003ctd\u003e57.71\u003c/td\u003e  \u003ctd\u003e49.22\u003c/td\u003e  \u003ctd\u003e56.54\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA2-7B-chat\u003c/td\u003e  \u003ctd\u003e48.10\u003c/td\u003e  \u003ctd\u003e39.64\u003c/td\u003e  \u003ctd\u003e56.28\u003c/td\u003e  \u003ctd\u003e43.61\u003c/td\u003e  \u003ctd\u003e55.39\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA-13B\u003c/td\u003e  \u003ctd\u003e46.51\u003c/td\u003e  \u003ctd\u003e37.23\u003c/td\u003e  \u003ctd\u003e52.71\u003c/td\u003e  \u003ctd\u003e44.35\u003c/td\u003e  \u003ctd\u003e53.04\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eChatGLM2-6B\u003c/td\u003e  \u003ctd\u003e45.83\u003c/td\u003e  \u003ctd\u003e38.75\u003c/td\u003e  \u003ctd\u003e52.06\u003c/td\u003e  \u003ctd\u003e43.20\u003c/td\u003e  \u003ctd\u003e50.82\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eAtomGPT-13B-56k\u003c/td\u003e  \u003ctd\u003e42.75\u003c/td\u003e  \u003ctd\u003e36.02\u003c/td\u003e  \u003ctd\u003e49.04\u003c/td\u003e  \u003ctd\u003e38.80\u003c/td\u003e  \u003ctd\u003e49.30\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eBaichuan-7B\u003c/td\u003e  \u003ctd\u003e41.96\u003c/td\u003e  \u003ctd\u003e36.63\u003c/td\u003e  \u003ctd\u003e47.77\u003c/td\u003e  \u003ctd\u003e37.55\u003c/td\u003e  \u003ctd\u003e48.31\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eZiya-LLaMA-13B-Pretrain-v1\u003c/td\u003e  \u003ctd\u003e41.61\u003c/td\u003e  \u003ctd\u003e33.61\u003c/td\u003e  \u003ctd\u003e46.01\u003c/td\u003e  \u003ctd\u003e39.85\u003c/td\u003e  \u003ctd\u003e48.05\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eChatGLM1.1-6B\u003c/td\u003e  \u003ctd\u003e40.07\u003c/td\u003e  \u003ctd\u003e32.95\u003c/td\u003e  \u003ctd\u003e44.55\u003c/td\u003e  \u003ctd\u003e39.23\u003c/td\u003e  \u003ctd\u003e44.12\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eChatGLM-6B\u003c/td\u003e  \u003ctd\u003e37.87\u003c/td\u003e  \u003ctd\u003e32.41\u003c/td\u003e  \u003ctd\u003e43.80\u003c/td\u003e  \u003ctd\u003e35.60\u003c/td\u003e  \u003ctd\u003e41.00\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eLLaMA-7B\u003c/td\u003e  \u003ctd\u003e28.53\u003c/td\u003e  \u003ctd\u003e26.10\u003c/td\u003e  \u003ctd\u003e28.76\u003c/td\u003e  \u003ctd\u003e28.52\u003c/td\u003e  \u003ctd\u003e24.81\u003c/td\u003e \u003c/tr\u003e\n\u003c/table\u003e\n\u003c/details\u003e\n\n\u003cdetails\u003e\n\u003csummary\u003e\u003cb\u003eCLUEBenchmark 验证集(dev.json)结果\u003c/b\u003e\u003c/summary\u003e\n\n\u003ctable\u003e\n    \u003ctr\u003e  \u003ctd rowspan=\"2\"\u003eDataset\u003c/td\u003e  \u003ctd rowspan=\"2\"\u003eMethod\u003c/td\u003e  \u003ctd rowspan=\"2\"\u003eMetrics\u003c/td\u003e  \u003ctd rowspan=\"2\"\u003eTask Type\u003c/td\u003e  \u003ctd colspan=\"5\" style=\"text-align:center\"\u003eZero-shot\u003c/td\u003e  \u003ctd colspan=\"5\" style=\"text-align:center\"\u003eFew-shot\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eGLM-350M-chinese\u003c/td\u003e  \u003ctd\u003ePangu-350M\u003c/td\u003e  \u003ctd\u003ePangu-2.6B\u003c/td\u003e  \u003ctd\u003eGLM-10B-chinese\u003c/td\u003e  \u003ctd\u003ePangu-13B\u003c/td\u003e  \u003ctd\u003eGLM-350M-chinese\u003c/td\u003e  \u003ctd\u003ePangu-350M\u003c/td\u003e  \u003ctd\u003ePangu-2.6B\u003c/td\u003e  \u003ctd\u003eGLM-10B-chinese\u003c/td\u003e  \u003ctd\u003ePangu-13B\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eOCNLI\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eNLI\u003c/td\u003e  \u003ctd\u003e0.3074\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.3369\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.3061\u003c/td\u003e  \u003ctd\u003e0.3288\u003c/td\u003e  \u003ctd\u003e0.3301\u003c/td\u003e  \u003ctd\u003e0.3298\u003c/td\u003e  \u003ctd\u003e0.3352\u003c/td\u003e  \u003ctd\u003e0.3216\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eCMNLI\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eNLI\u003c/td\u003e  \u003ctd\u003e0.3279\u003c/td\u003e  \u003ctd\u003e0.3302\u003c/td\u003e  \u003ctd\u003e0.3310\u003c/td\u003e  \u003ctd\u003e0.3338\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.3358\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.3356\u003c/td\u003e  \u003ctd\u003e0.3328\u003c/td\u003e  \u003ctd\u003e0.3300\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eCHID\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eCloze(multi-choices)\u003c/td\u003e  \u003ctd\u003e0.0734\u003c/td\u003e  \u003ctd\u003e0.0916\u003c/td\u003e  \u003ctd\u003e0.0670\u003c/td\u003e  \u003ctd\u003e0.1016\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.1018\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.0979\u003c/td\u003e  \u003ctd\u003e0.1007\u003c/td\u003e  \u003ctd\u003e0.0996\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eCMRC2018\u003c/td\u003e  \u003ctd\u003egeneration\u003c/td\u003e  \u003ctd\u003ef1\u003c/td\u003e  \u003ctd\u003eMRC\u003c/td\u003e  \u003ctd\u003e0.093\u003c/td\u003e  \u003ctd\u003e0.0979\u003c/td\u003e  \u003ctd\u003e0.1007\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.1392\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.021\u003c/td\u003e  \u003ctd\u003e0.09345\u003c/td\u003e  \u003ctd\u003e0.097\u003c/td\u003e  \u003ctd\u003e0.1007\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eCLUEWSC2020\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eWSC\u003c/td\u003e  \u003ctd\u003e0.4934\u003c/td\u003e  \u003ctd\u003e0.5328\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.5592\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.5131\u003c/td\u003e  \u003ctd\u003e0.4671\u003c/td\u003e  \u003ctd\u003e0.5526\u003c/td\u003e  \u003ctd\u003e0.4473\u003c/td\u003e  \u003ctd\u003e0.4671\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eC3\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eCommon sense reasoning\u003c/td\u003e  \u003ctd\u003e0.2360\u003c/td\u003e  \u003ctd\u003e0.2426\u003c/td\u003e  \u003ctd\u003e0.2418\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.2573\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.2567\u003c/td\u003e  \u003ctd\u003e0.2476\u003c/td\u003e  \u003ctd\u003e0.2559\u003c/td\u003e  \u003ctd\u003e0.2515\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eAFQMC\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eText classification\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.6306\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.4582\u003c/td\u003e  \u003ctd\u003e0.4914\u003c/td\u003e  \u003ctd\u003e0.4960\u003c/td\u003e  \u003ctd\u003e0.5000\u003c/td\u003e  \u003ctd\u003e0.4872\u003c/td\u003e  \u003ctd\u003e0.4993\u003c/td\u003e  \u003ctd\u003e0.5018\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eCSL\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eText classification\u003c/td\u003e  \u003ctd\u003e0.4943\u003c/td\u003e  \u003ctd\u003e0.4913\u003c/td\u003e  \u003ctd\u003e0.4666\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.5126\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.4996\u003c/td\u003e  \u003ctd\u003e0.5140\u003c/td\u003e  \u003ctd\u003e0.5036\u003c/td\u003e  \u003ctd\u003e0.4973\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eIFLYTEK\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eText classification\u003c/td\u003e  \u003ctd\u003e0.1292\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.3058\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.265\u003c/td\u003e  \u003ctd\u003e0.2620\u003c/td\u003e  \u003ctd\u003e0.2408\u003c/td\u003e  \u003ctd\u003e0.2539\u003c/td\u003e  \u003ctd\u003e0.2535\u003c/td\u003e  \u003ctd\u003e0.2524\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n    \u003ctr\u003e  \u003ctd\u003eTNEWS\u003c/td\u003e  \u003ctd\u003ePPL\u003c/td\u003e  \u003ctd\u003eacc\u003c/td\u003e  \u003ctd\u003eText classification\u003c/td\u003e  \u003ctd\u003e0.1582\u003c/td\u003e  \u003ctd\u003e0.2022\u003c/td\u003e  \u003ctd\u003e0.2449\u003c/td\u003e  \u003ctd\u003e0.2489\u003c/td\u003e  \u003ctd style=\"color:red\"\u003e\u003cb\u003e0.2527\u003c/b\u003e\u003c/td\u003e  \u003ctd\u003e0.2555\u003c/td\u003e  \u003ctd\u003e0.2466\u003c/td\u003e  \u003ctd\u003e0.2494\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e  \u003ctd\u003e\u003c/td\u003e \u003c/tr\u003e\n\u003c/table\u003e\n\u003c/details\u003e\n\n### 2. SFT\n\n模型训练参数：\n\n| 模型 | 可训练参数量 | 数据量 | batch size | sequence length | 硬件 | 显存占用 | speed | Hours per epoch |\n| --- | --- | --- | --- | :---: | :---: | :---: | --- | --- |\n| GLM-350M-chinese | 355M | 5.4M | 4 | 512 | V100 16G | 13G | 3.7 s/iter | 88h |\n| Pangu-350M | 345M | 5.4M | 48 | 512 | A100 80G | 78G | 1.91 s/iter | 27.5h |\n| Pangu-2.6B | 2.6B | 5.4M |  8 | 512 | A100 80G | 79.4G | 9.61 s/iter | 116h |\n\nSFT模型下载：\n\n| 预训练模型  |  SFT数据集  | size | huggingface地址 | 百度网盘地址  |  提取码      | \n| ----------- | --- | ----------- | ----------- |  ----------- | ----------- |\n| Pangu-350M |  SFT \u0026 Reward Data | 1.3GB | [sunzeyeah/pangu-350M-sft](https://huggingface.co/sunzeyeah/pangu-350M-sft) | [Pangu-350M-SFT](https://pan.baidu.com/s/14nF63nAQz38jmplUC0EQ-g) | 0f8j |\n| Pangu-2.6B |  SFT \u0026 Reward Data | 9.8GB | [sunzeyeah/pangu-2_6B-sft](https://huggingface.co/sunzeyeah/pangu-2_6B-sft) | [Pangu-2.6B-SFT](https://pan.baidu.com/s/1Q2PKf0MnFsiFlNhU-6WIrg) | r13w |\n\n\n\u003cdetails\u003e\n\u003csummary\u003e\u003cb\u003ePangu-2.6B-SFT生成示例\u003c/b\u003e\u003c/summary\u003e\n\n```\n# 生成参数\nmax_length = 512\nmax_length_generation = 100\ntop_k = 10\ntemperature = 0.8\ndo_sample=True\n```\n```\n[Input] 我不能确定对方是不是喜欢我,我却想分分秒秒跟他在一起,有谁能告诉我如何能想他少一点\u003csep\u003e回答:\n[Generated] 你爱他就多关心他,少在他面前表现出你的脆弱。这样他才更会爱你。\n\n\n[Input] 一次次买彩,一次次倾听那比分,一次次兴奋,一次次失落,一次次无归而返!最终还是任8~~~~\u003csep\u003e回答:\n[Generated] 我也是这样,买彩的时间也不长,但是每次都是这样。。。。。。。\n\n[Input] 现代文:太祖很高兴地说:凭着这样的部下去作战,还担心不能取胜么?\u003csep\u003e古文:\n[Generated] 太祖悦曰:此自是以去,何忧不胜?\n\n[Input] 现代文:十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺取郢州之南门堡。\u003csep\u003e古文:\n[Generated] 十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺郢州之南门堡。\n\n[Input] 以孔⁇的风格,写一篇经书,题为中庸\u003csep\u003e\n[Generated] 我闻昔者夫子之言也,曰:吾道一以贯之。其或行之或不行,吾未知之。是故君子慎其独也。吾未见好德如好色者也。好德如好色者,未之有也。好德如好色者,既已之有也。君子不以言举人,不以人废言。好德如好色者,其如命何!吾\n\n[Input] 以陆游的风格,写一首七言诗,题为晨起\u003csep\u003e\n[Generated] 秋光满纸清⁇明,睡醒一江万马奔。自笑身如枯木鹤,何妨食饱作闲人。\n\n[Input] 上联:霜风几笔雕残画\u003csep\u003e下联:\n[Generated] 云海千山叠翠峰\n\n[Input] 新闻内容:据悉,这名14岁的女生在Facebook上发布了戏谑考试的博文,其中使用了胡志明1946年反对法国殖民者的讲话,随后被越南当局停课一年。越南官员称,该学生歪曲了历史事件,侮辱了老师的情感。多数网友虽对越南当局做法不满,但都表示,至少他们还能上Facebook.\u003csep\u003e摘要:越南女生Facebook上模仿胡志明讲话被停课\u003csep\u003e评论:\n[Generated] 这女的,还真有勇气,我喜欢你!\n\n[Input] 新闻内容:习近平天津考察时勉励大学生志存高远、脚踏实地,转变择业观念,坚持从实际出发,勇于到基层一线和艰苦地方去,把人生的路一步步走稳走实,善于在平凡岗位上创造不平凡的业绩\u003csep\u003e摘要:习近平勉励大学生转变择业观念勇于到基层和艰苦地方去\u003csep\u003e评论:\n[Generated] 现在的社会,很多年轻人都是在父母的安排下,去了不同的单位,在不同的地方工作,在不同的城市生活,这就导致了年轻人的思维方式,价值观都不一样,这也导致了年轻人的成长道路,也有很多的不安全感,这也是很正常的事情,年轻人需要正确的引导,正确的引导,也需要正确的引导!\n\n[Input] 问题:劳动仲裁申请法院强制执行,法院强制执行需要多长时间\u003csep\u003e回答:\n[Generated] 一般申请法院强制执行需要3-6个月时间,具体需要看法院的执行措施。\n\n[Input] 问题:银行贷款50万,30年!年利率是4.41怎么算一个月还多少钱\u003csep\u003e回答:\n[Generated] 若申请的是招行贷款,要计算贷款利息或者每月还款金额,需要知道贷款本金,贷款期限,还款方式,贷款年利率。若上述信息都确认到,可以通过我行贷款计算器尝试计算,登录招行官网右下方找到“理财计算器”--“个人贷款计算器”可以计算。\n```\n\u003c/details\u003e\n\n\n### 3. Reward Model\n\n模型训练参数：\n\n| 模型 | 可训练参数量 | 数据量 | batch size | sequence length | 硬件 | 显存占用 | speed | Hours per epoch |\n| --- | --- | --- | --- | :---: | :---: | :---: | --- | --- |\n| Pangu-350M | 131M | 12M | 32 | 512 | A100 80G | 72.6G | 1.91 s/iter | 105h |\n| Pangu-2.6B | 815M | 12M |  8 | 512 | A100 80G | 80.7G |  | 423h |\n\n\nReward模型下载：\n\n| 预训练模型  |  SFT数据集  | size | huggingface地址 | 百度网盘地址  |  提取码      | \n| ----------- | --- | ----------- | ----------- |  ----------- | ----------- |\n| Pangu-350M |  SFT \u0026 Reward Data | 1.3GB | [sunzeyeah/pangu-350M-reward](https://huggingface.co/sunzeyeah/pangu-350M-reward) | [Pangu-350M-Reward](https://pan.baidu.com/s/1wC3w78t7pVn0Xn5tJHy06A) | 4gju |\n\n\n### 4. RLHF\n\nTo be updated\n\n### 5. DeepSpeed实验\n\n为验证不同预训练模型使用deepspeed的训练效率是否能达到官方宣称的效果（加速、节省GPU等），进行了benchmarking\n- 实验场景：SFT阶段训练\n- 实验参数：```max_sequence_length=512```\n\n\u003cdetails\u003e\n\u003csummary\u003e\u003cb\u003eDeepSpeed实验结果\u003c/b\u003e\u003c/summary\u003e\n\u003ctable\u003e\n   \u003ctr\u003e \u003ctd\u003e模型\u003c/td\u003e \u003ctd\u003e数据\u003c/td\u003e  \u003ctd\u003e整体耗时/epoch\u003c/td\u003e  \u003ctd\u003e单条样本耗时\u003c/td\u003e  \u003ctd\u003e内存使用量\u003c/td\u003e  \u003ctd\u003e显存使用量\u003c/td\u003e  \u003ctd\u003eGPU型号和数量\u003c/td\u003e \u003ctd\u003efp16\u003c/td\u003e \u003ctd\u003ebf16\u003c/td\u003e \u003ctd\u003edeepspeed stage\u003c/td\u003e \u003ctd\u003eoffload optimizer\u003c/td\u003e \u003ctd\u003epin memory\u003c/td\u003e \u003ctd\u003eoffloard param\u003c/td\u003e \u003ctd\u003eoverlap comm\u003c/td\u003e \u003ctd\u003eallgather bucket size\u003c/td\u003e \u003ctd\u003estage3 max live parameters\u003c/td\u003e \u003ctd\u003ebatch size\u003c/td\u003e \u003ctd\u003egradient accumulation steps\u003c/td\u003e \u003ctd\u003egradient checkpointing\u003c/td\u003e \u003ctd\u003emodel half\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd rowspan=\"11\"\u003eT5-large\u003c/td\u003e \u003ctd rowspan=\"11\"\u003ewmt16-en-ro, 共计61万条样本\u003c/td\u003e \u003ctd\u003e43h\u003c/td\u003e  \u003ctd\u003e0.5s/it\u003c/td\u003e  \u003ctd\u003e7.1G\u003c/td\u003e  \u003ctd\u003e1*14529MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e152h\u003c/td\u003e  \u003ctd\u003e1.78s/it\u003c/td\u003e  \u003ctd\u003e38.26G\u003c/td\u003e  \u003ctd\u003e1*11663MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e250h\u003c/td\u003e  \u003ctd\u003e2.95s/it\u003c/td\u003e  \u003ctd\u003e38.74G\u003c/td\u003e  \u003ctd\u003e1*7255MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e62h\u003c/td\u003e  \u003ctd\u003e5.8s/it\u003c/td\u003e  \u003ctd\u003e86.81G\u003c/td\u003e  \u003ctd\u003e8*7811MB\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e16\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e16\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e290h\u003c/td\u003e  \u003ctd\u003e3.48s/it\u003c/td\u003e  \u003ctd\u003e46.53G\u003c/td\u003e  \u003ctd\u003e1*6655MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e380h\u003c/td\u003e  \u003ctd\u003e4.5s/it\u003c/td\u003e  \u003ctd\u003e43.48G\u003c/td\u003e  \u003ctd\u003e1*5263MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e215h\u003c/td\u003e  \u003ctd\u003e4.9s/it\u003c/td\u003e  \u003ctd\u003e47.31G\u003c/td\u003e  \u003ctd\u003e2*5019MB\u003c/td\u003e  \u003ctd\u003e2*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e1370h\u003c/td\u003e  \u003ctd\u003e64s/it\u003c/td\u003e  \u003ctd\u003e57.55G\u003c/td\u003e  \u003ctd\u003e4*4701MB\u003c/td\u003e  \u003ctd\u003e4*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e948h\u003c/td\u003e  \u003ctd\u003e90s/it\u003c/td\u003e  \u003ctd\u003e72.54G\u003c/td\u003e  \u003ctd\u003e8*4585MB\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd rowspan=\"7\"\u003ePangu-2.6B\u003c/td\u003e \u003ctd rowspan=\"7\"\u003eSFT \u0026 Reward Data的验证集，共1万条样本\u003c/td\u003e \u003ctd\u003e2h\u003c/td\u003e  \u003ctd\u003e5.76s/it\u003c/td\u003e  \u003ctd\u003e67.86G\u003c/td\u003e  \u003ctd\u003e1*15631MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e2.1h\u003c/td\u003e  \u003ctd\u003e6.15s/it\u003c/td\u003e  \u003ctd\u003e67.88G\u003c/td\u003e  \u003ctd\u003e1*15705MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e4.5h\u003c/td\u003e  \u003ctd\u003e13.3s/it\u003c/td\u003e  \u003ctd\u003e81.02G\u003c/td\u003e  \u003ctd\u003e1*15449MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e11.5h\u003c/td\u003e  \u003ctd\u003e8.2s/it\u003c/td\u003e  \u003ctd\u003e75.89G\u003c/td\u003e  \u003ctd\u003e1*15299MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e5.5h\u003c/td\u003e  \u003ctd\u003e7.8s/it\u003c/td\u003e  \u003ctd\u003e81.16G\u003c/td\u003e  \u003ctd\u003e2*14851MB\u003c/td\u003e  \u003ctd\u003e2*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e6.2h\u003c/td\u003e  \u003ctd\u003e18.3s/it\u003c/td\u003e  \u003ctd\u003e97.31G\u003c/td\u003e  \u003ctd\u003e4*14389MB\u003c/td\u003e  \u003ctd\u003e4*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e6.6h\u003c/td\u003e  \u003ctd\u003e38s/it\u003c/td\u003e  \u003ctd\u003e118.82G\u003c/td\u003e  \u003ctd\u003e8*14335MB\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd rowspan=\"14\"\u003eChatGLM-6B\u003c/td\u003e \u003ctd rowspan=\"14\"\u003eSFT \u0026 Reward Data的验证集，共1万条样本\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e120.45G\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e120.48G\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e153.02G\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e154G\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e21.2h\u003c/td\u003e  \u003ctd\u003e60s/it\u003c/td\u003e  \u003ctd\u003e154G\u003c/td\u003e  \u003ctd\u003e1*10443MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003eauto\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e21.5h\u003c/td\u003e  \u003ctd\u003e60s/it\u003c/td\u003e  \u003ctd\u003e152.81G\u003c/td\u003e  \u003ctd\u003e1*10409MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e23.5h\u003c/td\u003e  \u003ctd\u003e65s/it\u003c/td\u003e  \u003ctd\u003e153.36G\u003c/td\u003e  \u003ctd\u003e1*9229MB\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e14h\u003c/td\u003e  \u003ctd\u003e80s/it\u003c/td\u003e  \u003ctd\u003e158.21G\u003c/td\u003e  \u003ctd\u003e2*8631MB\u003c/td\u003e  \u003ctd\u003e2*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e7.8h\u003c/td\u003e  \u003ctd\u003e90s/it\u003c/td\u003e  \u003ctd\u003e168.38G\u003c/td\u003e  \u003ctd\u003e4*6743MB\u003c/td\u003e  \u003ctd\u003e4*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e4h\u003c/td\u003e  \u003ctd\u003e90s/it\u003c/td\u003e  \u003ctd\u003e189.34G\u003c/td\u003e  \u003ctd\u003e8*6729MB\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e1h\u003c/td\u003e  \u003ctd\u003e100s/it\u003c/td\u003e  \u003ctd\u003e189.38G\u003c/td\u003e  \u003ctd\u003e8*10047MB\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e4\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e50min\u003c/td\u003e  \u003ctd\u003e40s/it\u003c/td\u003e  \u003ctd\u003e189.39G\u003c/td\u003e  \u003ctd\u003e8*14763MB\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003e2\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e35min\u003c/td\u003e  \u003ctd\u003e113s/it\u003c/td\u003e  \u003ctd\u003e189.39G\u003c/td\u003e  \u003ctd\u003e8*14763MB\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e189.34G\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e10\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd rowspan=\"11\"\u003eGLM-10B-Chinese\u003c/td\u003e \u003ctd rowspan=\"11\"\u003eSFT \u0026 Reward Data的验证集，共1万条样本\u003c/td\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e2e8\u003c/td\u003e \u003ctd\u003eauto\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1e5\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1e3\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e1*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e2*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e4*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e4*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e6*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003eOOM\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e8*V100 16G\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003efalse\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1e2\u003c/td\u003e \u003ctd\u003e1\u003c/td\u003e \u003ctd\u003e8\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003ctd\u003etrue\u003c/td\u003e \u003c/tr\u003e\n\u003c/table\u003e\n\u003c/details\u003e\n\n**PS**: deepspeed的参数介绍和调优经验，可参见[DeepSpeed Configuration](src/resources/config/deepspeed/README.md)\n\n### 6. LoRA实验\n\n为验证LoRA的训练效率提升，进行了benchmarking\n\n- 实验场景：SFT阶段训练\n- 实验数据：SFT \u0026 Reward Data的验证集，共1万条样本\n- 实验参数：```max_sequence_length=512, lora_alpha=1, lora_train_bias='none'```\n\n\u003cdetails\u003e\n\u003csummary\u003e\u003cb\u003eLoRA实验结果\u003c/b\u003e\u003c/summary\u003e\n\u003ctable\u003e\n   \u003ctr\u003e \u003ctd\u003e模型\u003c/td\u003e \u003ctd\u003eLoRA rank\u003c/td\u003e \u003ctd\u003e可训练参数量\u003c/td\u003e \u003ctd\u003edeepspeed\u003c/td\u003e \u003ctd\u003ebatch size\u003c/td\u003e \u003ctd\u003eGPU型号和数量\u003c/td\u003e \u003ctd\u003e显存使用量\u003c/td\u003e \u003ctd\u003e单条样本耗时\u003c/td\u003e \u003ctd\u003e整体耗时/epoch\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd rowspan=\"8\"\u003ePangu-2.6B\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e2.6B\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e8\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*79421MB\u003c/td\u003e  \u003ctd\u003e9.66s/it\u003c/td\u003e  \u003ctd\u003e12.5min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e1000\u003c/td\u003e  \u003ctd\u003e1.5B\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e8\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*76129MB\u003c/td\u003e  \u003ctd\u003e11.61s/it\u003c/td\u003e  \u003ctd\u003e15min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e500\u003c/td\u003e  \u003ctd\u003e758MB\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e12\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*77179MB\u003c/td\u003e  \u003ctd\u003e16.2s/it\u003c/td\u003e  \u003ctd\u003e14min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e100\u003c/td\u003e  \u003ctd\u003e151MB\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e16\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*81103MB\u003c/td\u003e  \u003ctd\u003e18.6s/it\u003c/td\u003e  \u003ctd\u003e12min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e50\u003c/td\u003e  \u003ctd\u003e75MB\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e16\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*80809MB\u003c/td\u003e  \u003ctd\u003e17.8s/it\u003c/td\u003e  \u003ctd\u003e11.5min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e10\u003c/td\u003e  \u003ctd\u003e15MB\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e16\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*78735MB\u003c/td\u003e  \u003ctd\u003e17.6s/it\u003c/td\u003e  \u003ctd\u003e11.5min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e100\u003c/td\u003e  \u003ctd\u003e151MB\u003c/td\u003e  \u003ctd\u003estage=2, w offloading\u003c/td\u003e  \u003ctd\u003e24\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*76933MB\u003c/td\u003e  \u003ctd\u003e25.5s/it\u003c/td\u003e  \u003ctd\u003e11min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e100\u003c/td\u003e  \u003ctd\u003e151MB\u003c/td\u003e  \u003ctd\u003estage=3, w offloading\u003c/td\u003e  \u003ctd\u003e24\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*77259MB\u003c/td\u003e  \u003ctd\u003e46.5s/it\u003c/td\u003e  \u003ctd\u003e20min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd rowspan=\"3\"\u003eChatGLM-6B\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e6.2B\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e3\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*79206MB\u003c/td\u003e  \u003ctd\u003e6.7s/it\u003c/td\u003e  \u003ctd\u003e23.5min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e1000\u003c/td\u003e  \u003ctd\u003e1.9B\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e6\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*78840MB\u003c/td\u003e  \u003ctd\u003e12.8s/it\u003c/td\u003e  \u003ctd\u003e22.5min\u003c/td\u003e \u003c/tr\u003e\n   \u003ctr\u003e \u003ctd\u003e500\u003c/td\u003e  \u003ctd\u003e994MB\u003c/td\u003e  \u003ctd\u003e-\u003c/td\u003e  \u003ctd\u003e6\u003c/td\u003e  \u003ctd\u003e1*A100 80G\u003c/td\u003e  \u003ctd\u003e1*68832MB\u003c/td\u003e  \u003ctd\u003e12.4s/it\u003c/td\u003e  \u003ctd\u003e21.5min\u003c/td\u003e \u003c/tr\u003e\n\u003c/table\u003e\n\u003c/details\u003e","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fsunzeyeah%2FRLHF","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fsunzeyeah%2FRLHF","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fsunzeyeah%2FRLHF/lists"}