https://github.com/km1994/LLMs_interview_notes

该仓库主要记录大模型（LLMs）算法工程师相关的面试题
https://github.com/km1994/LLMs_interview_notes

Last synced: about 2 months ago
JSON representation

该仓库主要记录大模型（LLMs）算法工程师相关的面试题

Host: GitHub
URL: https://github.com/km1994/LLMs_interview_notes
Owner: km1994
License: apache-2.0
Created: 2023-09-16T12:26:40.000Z (about 2 years ago)
Default Branch: main
Last Pushed: 2024-12-26T14:14:05.000Z (12 months ago)
Last Synced: 2025-01-14T05:20:56.196Z (11 months ago)
Size: 575 KB
Stars: 1,618
Watchers: 10
Forks: 112
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

awesome-llm-and-aigc - km1994/LLMs_interview_notes

README

# LLMs 千面郎君

> 介绍：本项目是作者们根据个人面试和经验总结出的大模型(LLMs)面试准备的学习笔记与资料，该资料目前包含大模型(LLMs)各领域的面试题积累。

> LLMs 千面郎君面试交流群 (注：人满可添加小编wx：yzyykm666 加群！)

## 一、大模型（LLMs）基础面

### [大模型（LLMs）基础面](https://articles.zsxq.com/id_mw52p1pfbzql.html)

- 1 目前主流的开源模型体系有哪些？
- 2 prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么？
- 3 大模型LLM的训练目标是什么？
- 4 涌现能力是啥原因？
- 5 为何现在的大模型大部分是Decoder only结构？
- 6 简单介绍一下大模型【LLMs】？
- 7 大模型【LLMs】后面跟的 175B、60B、540B等指什么？
- 8 大模型【LLMs】具有什么优点？
- 9 大模型【LLMs】具有什么缺点？
- 10 encoder-only, decoder-only, encoder-decoder的区别?
- 11 BART、llama、gpt、t5、palm等主流模型异同点?
- 12 prefix LM 和 causal LM 区别是什么?

- [点击查看答案](https://articles.zsxq.com/id_mw52p1pfbzql.html)

### [Layer normalization 篇](https://articles.zsxq.com/id_pzcgd4ovk098.html)

- Layer normalization-方法篇
- Layer Norm 篇
- Layer Norm 的计算公式写一下？
- RMS Norm 篇（均方根 Norm）
- RMS Norm 的计算公式写一下？
- RMS Norm 相比于 Layer Norm 有什么特点？
- Deep Norm 篇
- Deep Norm 思路？
- 写一下 Deep Norm 代码实现？
- Deep Norm 有什么优点？
- Layer normalization-位置篇
- 1 LN 在 LLMs 中的不同位置有什么区别么？如果有，能介绍一下区别么？
- Layer normalization 对比篇
- LLMs 各模型分别用了哪种 Layer normalization？

- [点击查看答案](https://articles.zsxq.com/id_pzcgd4ovk098.html)

### [LLMs 激活函数篇](https://articles.zsxq.com/id_6xm3wzzice2s.html)

- 1 介绍一下 FFN 块计算公式？
- 2 介绍一下 GeLU 计算公式？
- 3 介绍一下 Swish 计算公式？
- 4 介绍一下使用 GLU 线性门控单元的 FFN 块计算公式？
- 5 介绍一下使用 GeLU 的 GLU 块计算公式？
- 6 介绍一下使用 Swish 的 GLU 块计算公式？
- 7 各LLMs 都使用哪种激活函数？
- 8 Adam优化器和SGD的区别？

- [点击查看答案](https://articles.zsxq.com/id_6xm3wzzice2s.html)

### [Attention 升级面](https://articles.zsxq.com/id_u67us9zex93d.html)

- [Attention 升级面](https://articles.zsxq.com/id_u67us9zex93d.html)
- 1 传统 Attention 存在哪些问题？
- 2 Attention 有哪些优化方向？
- 3 Attention 变体有哪些？
- 4 Multi-Query Attention 篇
- 4.1 Multi-head Attention 存在什么问题？
- 4.2 介绍一下 Multi-Query Attention？
- 4.3 对比一下 Multi-head Attention 和 Multi-Query Attention？
- 4.4 Multi-Query Attention 这样做的好处是什么？
- 4.5 有哪些模型是使用 Multi-Query Attention？
- 5 Grouped-query Attention
- 5.1 什么是 Grouped-query Attention？
- 5.2 有哪些大模型使用 Grouped-query Attention？
- 6 FlashAttention
- 6.1 为什么需要 FlashAttention？
- 6.2 简单介绍一下 FlashAttention？
- 6.3 简单介绍一下 FlashAttention 核心？
- 6.4 介绍一下 FlashAttention 优点？
- 6.5 介绍一下 FlashAttention 代表模型？
- 7 并行 transformer block
- 8 attention计算复杂度以及如何改进？
- 9 Paged Attention篇
- 9.1 简单介绍一下 Paged Attention？
- 对比篇
- 1、MHA，GQA，MQA 三种注意力机制是否了解?区别是什么?

- [点击查看答案](https://articles.zsxq.com/id_u67us9zex93d.html)

- [跨注意力机制（Cross-Attention）篇](https://articles.zsxq.com/id_gwn416686pic.html)
- 一、为什么需要跨注意力机制（Cross-Attention）？
- 二、介绍一些跨注意力机制（Cross-Attention）？
- 三、Cross Attention 和 Self Attention 篇
- 3.1 Cross Attention 和 Self Attention 都是基于注意力机制的，有什么相同点？
- 3.2 Cross Attention 和 Self Attention 都是基于注意力机制的，有什么不同点？
- 四、Cross Attention 和多头注意力（Multi-Head Attention）篇
- 4.2 Cross Attention 和多头注意力（Multi-Head Attention）都是基于注意力机制的，有什么异同点？
- 五、Cross Attention 代码实现
- 六、Cross Attention 应用场景
- 七、Cross Attention 的优势和挑战？

- [点击查看答案](https://articles.zsxq.com/id_gwn416686pic.html)

### [transformers 操作篇](https://articles.zsxq.com/id_rsll7gsd8va5.html)

- 1. 如何利用 transformers 加载 Bert 模型？
- 2. 如何利用 transformers 输出 Bert 指定 hidden\_state？
- 3. BERT 获取最后一层或每一层网络的向量输出

- [点击查看答案](https://articles.zsxq.com/id_rsll7gsd8va5.html)

### [LLMs 损失函数篇](https://articles.zsxq.com/id_q0ajjlbc8493.html)

- 一、介绍一下 KL 散度？
- 二、交叉熵损失函数写一下，物理意义是什么？
- 三、KL 散度与交叉熵的区别？
- 四、多任务学习各loss差异过大怎样处理？
- 五、分类问题为什么用交叉熵损失函数不用均方误差（MSE）？
- 六、什么是信息增益？
- 七、多分类的分类损失函数(Softmax)？
- 八、softmax和交叉熵损失怎么计算，二值交叉熵呢？
- 九、如果softmax的e次方超过float的值了怎么办？

- [点击查看答案](https://articles.zsxq.com/id_q0ajjlbc8493.html)

### [相似度函数篇](https://articles.zsxq.com/id_wp25j5xr8ocw.html)

- 一、除了cosin还有哪些算相似度的方法
- 二、了解对比学习嘛？
- 三、对比学习负样本是否重要？负样本构造成本过高应该怎么解决？

- [点击查看答案](https://articles.zsxq.com/id_wp25j5xr8ocw.html)

## [二、大模型（LLMs）进阶面](https://articles.zsxq.com/id_xr65bxpcsnoh.html)

- 一、什么是生成式大模型？
- 二、大模型是怎么让生成的文本丰富而不单调的呢？
- 三、LLMs 复读机问题
- 3.1 什么是 LLMs 复读机问题？
- 3.2 为什么会出现 LLMs 复读机问题？
- 3.3 如何缓解 LLMs 复读机问题？
- 四、llama 系列问题
- 4.1 llama 输入句子长度理论上可以无限长吗？
- 五、什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？
- 六、各个专业领域是否需要各自的大模型来服务？
- 七、如何让大模型处理更长的文本？

- [点击查看答案](https://articles.zsxq.com/id_xr65bxpcsnoh.html)

## 三、大模型（LLMs）微调面

### [大模型（LLMs）微调面](https://articles.zsxq.com/id_kv7jdah2zw5n.html)

- 39 大模型 sft 过程中，为什么会出现第二个epoch的时候loss会突然下降问题？
- 1 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？
- 2 为什么SFT之后感觉LLM傻了?
- 3 SFT 指令微调数据如何构建?
- 3.1 提升sft的prompt的代表性有什么好的方法？
- 3.2 提升sft的prompt的数据量有什么好的方法？
- 4 领域模型Continue PreTrain 数据选取？
- 5 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
- 6 领域模型Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识？
- 7 进行SFT操作的时候，基座模型选用Chat还是Base?
- 8 领域模型微调指令\&数据输入格式要求？
- 9 领域模型微调领域评测集构建？
- 10 领域模型词表扩增是不是有必要的？
- 11 如何训练自己的大模型？
- 12 训练中文大模型有啥经验？
- 13 指令微调的好处？
- 14 预训练和微调哪个阶段注入知识的？
- 15 想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？
- ...

- [点击查看答案](https://articles.zsxq.com/id_kv7jdah2zw5n.html)

### [大模型 SFT Trick 篇](https://articles.zsxq.com/id_srd92pvnjwmu.html)

- 一、常见 SFT的开发流程是如何的？
- 二、训练数据要注重什么？
- 三、大 size 和小 size 模型的选择？
- 四、多任务训练时怎么确保每个任务都优秀？
- 五、SFT真的不能学到知识？
- 六、怎么科学挑选数据集？
- ...

- [点击查看答案](https://articles.zsxq.com/id_srd92pvnjwmu.html)

### [大模型（LLMs）训练经验帖](https://articles.zsxq.com/id_06n25d9wjs0e.html)

- 分布式训练框架选择？
- LLMs 训练时有哪些有用的建议？
- 模型大小如何选择？
- 加速卡如何选择？

- [点击查看答案](https://articles.zsxq.com/id_06n25d9wjs0e.html)

## 四、大模型（LLMs）langchain 面

### [大模型（LLMs）langchain 面](https://articles.zsxq.com/id_ve2dgaiqrjzv.html)

- 一、什么是 LangChain?
- 二、LangChain 包含哪些核心概念？
- 2.1 LangChain 中 Components and Chains 是什么？
- 2.2 LangChain 中 Prompt Templates and Values 是什么？
- 2.3 LangChain 中 Example Selectors 是什么？
- 2.4 LangChain 中 Output Parsers 是什么？
- 2.5 LangChain 中 Indexes and Retrievers 是什么？
- 2.6 LangChain 中 Chat Message History 是什么？
- 2.7 LangChain 中 Agents and Toolkits 是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_ve2dgaiqrjzv.html)

### [多轮对话中让AI保持长期记忆的8种优化方式篇](https://articles.zsxq.com/id_3qgicwcwzjpi.html)

- 一、前言
- 二、Agent 如何获取上下文对话信息？
- 2.1 获取全量历史对话
- 2.2 滑动窗口获取最近部分对话内容
- ...

- [点击查看答案](https://articles.zsxq.com/id_3qgicwcwzjpi.html)

### [基于langchain RAG问答应用实战](https://articles.zsxq.com/id_3kw7snrk2rql.html)

- [点击查看答案](https://articles.zsxq.com/id_3kw7snrk2rql.html)

## 五、大模型（LLMs）RAG 检索增强生成面

### 5.1 大模型（LLMs）RAG 入门篇

#### [基于LLM+向量库的文档对话经验面](https://articles.zsxq.com/id_xk58m8ok2sob.html)

- 一、基于LLM+向量库的文档对话基础面
- 1.1 为什么大模型需要外挂(向量)知识库？
- 1.2. 基于LLM+向量库的文档对话思路是怎么样？
- 1.3. 基于LLM+向量库的文档对话核心技术是什么？
- 1.4. 基于LLM+向量库的文档对话 prompt 模板如何构建？
- ...

- [点击查看答案](https://articles.zsxq.com/id_xk58m8ok2sob.html)

#### [RAG（Retrieval-Augmented Generation）面](https://articles.zsxq.com/id_xk58m8ok2sob.html)

- 一、LLMs 已经具备了较强能力了，存在哪些不足点?
- 二、什么是 RAG?
- 2.1 R：检索器模块
- 2.1.1 如何获得准确的语义表示？
- 2.1.2 如何协调查询和文档的语义空间？
- 2.1.3 如何对齐检索模型的输出和大语言模型的偏好？
- 2.2 G：生成器模块
- 2.2.1 生成器介绍
- 2.2.2 如何通过后检索处理提升检索结果？
- 2.2.3 如何优化生成器应对输入数据？
- 三、使用 RAG 的好处?
- ...

- [点击查看答案](https://articles.zsxq.com/id_xk58m8ok2sob.html)

#### 5.2 大模型（LLMs）RAG 版面分析篇

### [大模型（LLMs）RAG —— pdf解析关键问题](https://articles.zsxq.com/id_2693k55it84w.html)

- 一、为什么需要进行pdf解析？
- 二、为什么需要对 pdf 进行解析？
- 三、pdf解析有哪些方法，对应的区别是什么？
- 四、pdf解析存在哪些问题？
- ...

- [点击查看答案](https://articles.zsxq.com/id_2693k55it84w.html)

### [大模型（LLMs）RAG 版面分析——表格识别方法篇](https://articles.zsxq.com/id_7x4qv94hxv8r.html)

- 一、为什么需要识别表格？
- 二、介绍一下表格识别任务？
- 三、有哪些表格识别方法？
- 3.1 传统方法
- 3.2 pdfplumber表格抽取
- 3.2.1 pdfplumber 如何进行表格抽取？
- 3.2.2 pdfplumber 常见的表格抽取模式？
- ...

- [点击查看答案](https://articles.zsxq.com/id_7x4qv94hxv8r.html)

### [大模型（LLMs）RAG 版面分析——文本分块面](https://articles.zsxq.com/id_iw7debl8akxh.html)

- 一、为什么需要对文本分块？
- 二、能不能介绍一下常见的文本分块方法？
- 2.1 一般的文本分块方法
- 2.2 正则拆分的文本分块方法
- 2.3 Spacy Text Splitter 方法
- 2.4 基于 langchain 的 CharacterTextSplitter 方法
- ...

- [点击查看答案](https://articles.zsxq.com/id_iw7debl8akxh.html)

### 5.3 大模型（LLMs）RAG 检索策略篇

#### [大模型外挂知识库优化——如何利用大模型辅助召回？](https://articles.zsxq.com/id_oznm6qixjw61.html)

- 一、为什么需要使用大模型辅助召回？
- 策略一： HYDE
- 1. 介绍一下 HYDE 思路？
- 2. 介绍一下 HYDE 问题？
- 策略二： FLARE
- 1. 为什么需要 FLARE ？
- 2. FLARE 有哪些召回策略？

- [点击查看答案](https://articles.zsxq.com/id_oznm6qixjw61.html)

#### [大模型外挂知识库优化——负样本样本挖掘篇](https://articles.zsxq.com/id_wa7nl8wsuilh.html)

- 一、为什么需要构建负难样本？
- 二、负难样本构建方法篇
- 2.1 随机采样策略（Random Sampling）方法
- 2.2 Top-K负例采样策略（Top-K Hard Negative Sampling）方法
- ...

- [点击查看答案](https://articles.zsxq.com/id_wa7nl8wsuilh.html)

### 5.4 大模型（LLMs）RAG 评测篇

#### [RAG（Retrieval-Augmented Generation）评测面](https://articles.zsxq.com/id_vjwt6uzml13l.html)

- 一、为什么需要对 RAG 进行评测？
- 二、RAG 有哪些评估方法？
- 三、RAG 有哪些关键指标和能力？
- 四、RAG 有哪些评估框架？

- [点击查看答案](https://articles.zsxq.com/id_vjwt6uzml13l.html)

### 5.5 大模型（LLMs）RAG 优化策略篇

#### [检索增强生成(RAG) 优化策略篇](https://articles.zsxq.com/id_gu4p7gszsh82.html)

- 一、RAG基础功能篇
- 1.1 RAG 工作流程
- 二、RAG 各模块有哪些优化策略？
- 三、RAG 架构优化有哪些优化策略？
- 3.1 如何利用知识图谱（KG）进行上下文增强？
- 3.1.1 典型RAG架构中，向量数据库进行上下文增强存在哪些问题？
- 3.1.2 如何利用知识图谱（KG）进行上下文增强？
- ...

- [点击查看答案](https://articles.zsxq.com/id_gu4p7gszsh82.html)

#### [RAG 关键痛点及对应解决方案](https://articles.zsxq.com/id_1bmbedojsj0t.html)

- 前言
- 问题一：内容缺失问题
- 1.1 介绍一下内容缺失问题？
- 1.2 如何解决内容缺失问题？
- 问题二：错过排名靠前的文档
- 2.1 介绍一下错过排名靠前的文档问题？
- 2.2 如何解决错过排名靠前的文档问题？
- 问题三：脱离上下文 — 整合策略的限制
- 3.1 介绍一下脱离上下文 — 整合策略的限制问题？
- 3.2 如何解决脱离上下文 — 整合策略的限制问题？
- 问题四：未能提取答案
- 4.1 介绍一下未能提取答案问题？
- 4.2 如何解决未能提取答案问题？
- ...

- [点击查看答案](https://articles.zsxq.com/id_1bmbedojsj0t.html)

#### [大模型（LLMs）RAG 优化策略 —— RAG-Fusion篇](https://articles.zsxq.com/id_4ce04xwvic1z.html)

- 一、RAG 有哪些优点？
- 二、RAG 存在哪些局限性？
- 三、为什么需要 RAG-Fusion？
- 四、说一下 RAG-Fusion 核心技术？
- 五、说一下 RAG-Fusion 工作流程？
- ...

- [点击查看答案](https://articles.zsxq.com/id_4ce04xwvic1z.html)

### 5.6 大模型（LLMs）Graph RAG篇

#### [Graph RAG（Retrieval-Augmented Generation）面 —— 一种基于知识图谱的大模型检索增强实现策略](https://articles.zsxq.com/id_dwhonmw976n7.html)

- 一、为什么需要 Graph RAG？
- 二、什么是 Graph RAG？
- 三、Graph RAG 思路介绍？
- 四、用代码介绍 Graph RAG ？
- 五、用示例介绍 Graph RAG ？
- 六、Graph RAG 排序优化方式？

- [点击查看答案](https://articles.zsxq.com/id_dwhonmw976n7.html)

## 六、大模型（LLMs）参数高效微调(PEFT) 面

### [大模型（LLMs）参数高效微调(PEFT) 面](https://articles.zsxq.com/id_ipkod91a939n.html)

- 1. 微调方法是啥？如何微调？
- 2. 为什么需要 PEFT？
- 3. 介绍一下 PEFT？
- 4. PEFT 有什么优点？
- ...

- [点击查看答案](https://articles.zsxq.com/id_ipkod91a939n.html)

### [配器微调（Adapter-tuning）篇](https://articles.zsxq.com/id_0n6pfw0wz3xb.html)

- 一、为什么需要适配器微调（Adapter-tuning）？
- 二、适配器微调（Adapter-tuning）思路？
- 三、适配器微调（Adapter-tuning）特点是什么？
- 四、AdapterFusion 思路是什么？
- ...
- [点击查看答案](https://articles.zsxq.com/id_0n6pfw0wz3xb.html)

### [提示学习（Prompting）](https://articles.zsxq.com/id_662wpbw47gtj.html)

- 一、为什么需要提示学习（Prompting）？
- 二、什么是提示学习（Prompting）？
- 三、提示学习（Prompting）有什么优点？
- 四、提示学习（Prompting）有哪些方法，能不能稍微介绍一下它们间？
- 4.1 前缀微调（Prefix-tining）篇
- 4.1.1 为什么需要前缀微调（Prefix-tining）？
- 4.1.2 前缀微调（Prefix-tining）思路是什么？
- 4.1.3 前缀微调（Prefix-tining）的优点是什么？
- 4.1.4 前缀微调（Prefix-tining）的缺点是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_662wpbw47gtj.html)

### [LoRA 系列篇](https://articles.zsxq.com/id_gjkhd8xn4pvt.html)

一、LoRA篇
- 1.1 什么是 LoRA？
- 1.2 LoRA 的思路是什么？
- 1.3 LoRA 的特点是什么？
- 1.4 简单描述一下 LoRA?
- 1.5 解释一下 LORA 微调的原理和计算流程？
- 二、LoRA变体篇
- 2.1 QLoRA篇
- 2.1.1 QLoRA 的思路是怎么样的？
- 2.1.2 QLoRA 的特点是什么？
- 2.1.3 QLORA相比LORA做了哪些改进?
- 2.2 AdaLoRA篇
- .2.1 AdaLoRA 的思路是怎么样的？
- 2.3 LongLoRA篇
- 2.3.1 为什么需要 LongLoRA？
- 2.3.2 LongLoRA 思路是什么？
- 2.3.3 介绍一下 shift short attention？
- 三、Lora的矩阵怎么初始化？为什么要初始化为全0？
- ...

- [点击查看答案](https://articles.zsxq.com/id_gjkhd8xn4pvt.html)

### [如何使用 PEFT库中 LoRA？](https://articles.zsxq.com/id_8lx1t1t3w4qf.html)

- 一、前言
- 二、如何配置 LoraConfig？
- 三、模型加入PEFT策略
- 3.1 模型加载策略有哪些？
- 3.2 模型显存占用的部分有哪些？
- 3.3 模型显存占用优化策略？
- 3.3.1 8bit量化优化策略？
- 3.3.2 梯度检查优化策略？
- 3.4 如何向模型加入PEFT策略？
- ...

- [点击查看答案](https://articles.zsxq.com/id_8lx1t1t3w4qf.html)

### [大模型 SFT 方式对比篇](https://articles.zsxq.com/id_e2piver2uzei.html)

- 一、SFT 微调方案如何选择？
- 二、Full Fine Tuning vs Parameter-Efficient Fine-Tuning
- 三、Full Fine Tuning 篇
- 3.1 介绍一下 Full Fine Tuning？
- 3.2 介绍一下 Full Fine Tuning 优点？
- 3.3 介绍一下 Full Fine Tuning 缺点？
- 四、Parameter-Efficient Fine-Tuning 篇
- 4.1 介绍一下 Parameter-Efficient Fine-Tuning？
- 五、LoRA 篇
- 5.1 介绍一下 LoRA？
- 5.2 介绍一下 LoRA 流程？
- 5.3 介绍一下 LoRA 优点？
- 5.4 介绍一下 LoRA 缺点？
- 六、QLoRA 篇
- 6.1 介绍一下 QLoRA？
- 6.2 介绍一下 QLoRA 流程？
- ...

- [点击查看答案](https://articles.zsxq.com/id_e2piver2uzei.html)

## 七、大模型（LLMs）推理面

### [大模型（LLMs）推理面](https://articles.zsxq.com/id_b9eecaoga75i.html)

- 1. 为什么大模型推理时显存涨的那么多还一直占着？
- 2. 大模型在gpu和cpu上推理速度如何？
- 3. 推理速度上，int8和fp16比起来怎么样？
- 4. 大模型有推理能力吗？
- ...

- [点击查看答案](https://articles.zsxq.com/id_b9eecaoga75i.html)

## 八、大模型（LLMs）增量预训练篇

### [大模型（LLMs）增量预训练篇](https://articles.zsxq.com/id_jfq8la7g20ww.html)

- 1. 为什么要增量预训练？
- 2. 进行增量预训练需要做哪些准备工作？
- 3. 增量预训练所用训练框架？
- 4. 增量预训练训练流程是怎么样？
- ...

- [点击查看答案](https://articles.zsxq.com/id_jfq8la7g20ww.html)

### [增量预训练（Pretrain）样本拼接篇](https://articles.zsxq.com/id_8f35p8piwl4v.html)

- 一、推理过程分哪些阶段？
- 1.1 Prefill（输入理解与初始化）阶段
- 1.2 Decoding（递归推理与解码输出）阶段
- 二、推理性能的评价指标？
- 2.1 Throughput（吞吐量）
- 2.2 First Token Latency（首字延迟）
- 2.3 Latency（延迟）
- 2.4 QPS（每秒请求数）
- ...

- [点击查看答案](https://articles.zsxq.com/id_8f35p8piwl4v.html)

### [增量预训练（Pretrain）样本拼接篇](https://articles.zsxq.com/id_enteq22h1nhq.html)

- 一、Pretrain阶段，为什么需要拼接拼接？
- 二、有哪些拼接方式？
- 2.1 拼接方式一：Random Concatenate
- 2.2 拼接方式二：Random Concatenate + NoiseMask
- 2.3 拼接方式三：Random Concatenate + Cluster
- 2.4 拼接方式四：IN-CONTEXT PRETRAINING

- [点击查看答案](https://articles.zsxq.com/id_enteq22h1nhq.html)

### [基于lora的llama2二次预训练](https://articles.zsxq.com/id_xo09u14omdjw.html)

- 一、为什么需要对 llama2 做基于lora的二次预训练?
- 二、基于lora的llama2二次预训练的目标是什么？
- 三、基于lora的llama2二次预训练的思想是什么？
- 四、基于lora的llama2二次预训练语料构建思路？
- ...

- [点击查看答案](https://articles.zsxq.com/id_xo09u14omdjw.html)

## [九、大模型（LLMs）评测面](https://articles.zsxq.com/id_j9wcj62eovgc.html)

- 1 大模型怎么评测？
- 2 大模型的honest原则是如何实现的？模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力？
- 3 如何衡量大模型水平？
- 4 大模型评估方法有哪些？
- ...

- [点击查看答案](https://articles.zsxq.com/id_j9wcj62eovgc.html)

## 十、大模型（LLMs）强化学习面

### [大模型（LLMs）强化学习面](https://articles.zsxq.com/id_20xnfnoprj9s.html)

- 1 简单介绍强化学习？
- 2 简单介绍一下 RLHF？
- 3 奖励模型需要和基础模型一致吗？
- 4 RLHF 在实践过程中存在哪些不足？
- 5 如何解决人工产生的偏好数据集成本较高，很难量产问题？
- 6 如何解决三个阶段的训练（SFT-\>RM-\>PPO）过程较长，更新迭代较慢问题？
- 7 如何解决 PPO 的训练过程同时存在4个模型（2训练，2推理），对计算资源的要求较高问题？
- 8 强化学习跟大语言模型的本质联系是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_20xnfnoprj9s.html)

### [大模型（LLMs）强化学习——RLHF及其变种面](https://articles.zsxq.com/id_3ct6sw0wouna.html)

- 一、介绍一下 LLM的经典预训练Pipeline？
- 二、预训练（Pre-training）篇
- 2.1 具体介绍一下预训练（Pre-training）？
- 三、有监督微调（Supervised Tinetuning）篇
- 3.1 具体介绍一下有监督微调（Supervised Tinetuning）？
- 3.2 有监督微调（Supervised Tinetuning）的训练数据格式是什么样？
- 3.3 预训练（Pre-training） vs 有监督微调（Supervised Tinetuning）区别？
- 四、对齐（Alignment）篇
- 4.1 简单介绍一下对齐（Alignment）？
- ...

- [点击查看答案](https://articles.zsxq.com/id_3ct6sw0wouna.html)

### [大模型（LLMs）强化学习—— PPO 面](https://articles.zsxq.com/id_s8kwqw1gowvh.html)

- 一、大语言模型RLHF中的PPO主要分哪些步骤？
- 二、举例描述一下大语言模型的RLHF？
- 三、大语言模型RLHF 采样篇
- 3.1 什么是 PPO 中采样过程？
- 3.2 介绍一下 PPO 中采样策略？
- 3.3 PPO 中采样策略中，如何评估“收益”？
- 四、在PPO过程中，reward model的效果上会有什么问题？
- ...

- [点击查看答案](https://articles.zsxq.com/id_s8kwqw1gowvh.html)

### [RLHF平替算法DPO篇](https://articles.zsxq.com/id_mlq44r1p7nob.html)

- RLHF平替算法DPO篇
- 一、DPO vs RLHF？
- 二、介绍一下 DPO的损失函数？
- 三、DPO 微调流程 ?
- 四、说一下 DPO 是如何简化 RLHF 的？
- 五、DPO的第0步loss是固定的么？如果固定的话，值是多少？
- 六、DPO是一个on-policy还是off-policy的算法，以及这样的算法有什么优劣？
- 七、DPO公式是由PPO的objective公式推导过来的，为什么DPO是off-policy算法，而PPO是on-policy算法，到底哪一步推导出了问题？
- ...

- [点击查看答案](https://articles.zsxq.com/id_mlq44r1p7nob.html)

### [reward 篇](https://articles.zsxq.com/id_vblb0j5qnaxg.html)

- 1 介绍一下 RM模型？
- 2 为什么需要 RM模型？
- 3 RM模型训练数据如何构建？
- 4 reward 模型训练步骤中，为什么这一步骤在标注数据过程中不让人直接打分，而是去标排列序列呢?
- 5 reward 模型的 loss 是怎么计算的?
- ...

- [点击查看答案](https://articles.zsxq.com/id_vblb0j5qnaxg.html)

### [强化学习在自然语言处理下的应用篇](https://articles.zsxq.com/id_5tsn84l32eea.html)

- 一、强化学习基础面
- 1.1 介绍一下强化学习？
- 1.2 介绍一下强化学习的状态（States）和观测（Observations）？
- 1.3 强化学习有哪些动作空间（Action Spaces），他们之间的区别是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_5tsn84l32eea.html)

## 十一、大模型（LLMs）训练集面

### [大模型（LLMs）训练集面](https://articles.zsxq.com/id_axtljtl0bsvw.html)

- SFT（有监督微调）的数据集格式？
- RM（奖励模型）的数据格式？
- PPO（强化学习）的数据格式？
- ...

- [点击查看答案](https://articles.zsxq.com/id_axtljtl0bsvw.html)

### [大模型（LLMs）LLM生成SFT数据方法面](https://articles.zsxq.com/id_1gzdghj84f9f.html)

- 四、大模型微调数据集格式篇
- 一、SFT数据集如何生成？
- 二、Self-Instruct 篇
- ...

- [点击查看答案](https://articles.zsxq.com/id_1gzdghj84f9f.html)

## 十二、大模型（LLMs）显存问题面

### [大模型（LLMs）显存问题面](https://articles.zsxq.com/id_jhiocx89p3su.html)

- 大模型大概有多大，模型文件有多大?
- 能否用4 * v100 32G训练vicuna 65b？
- 如果就是想要试试65b模型，但是显存不多怎么办？
- nB模型推理需要多少显存？
- ...

- [点击查看答案](https://articles.zsxq.com/id_jhiocx89p3su.html)

### [大模型（LLMs）显存优化策略篇](https://articles.zsxq.com/id_a1l60awgge6q.html)

- 一、介绍一下 gradient accumulation 显存优化方式？
- 二、介绍一下 gradient checkpointing 显存优化方式？

- [点击查看答案](https://articles.zsxq.com/id_a1l60awgge6q.html)

## 十三、大模型（LLMs）分布式训练面

### [大模型（LLMs）分布式训练面](https://articles.zsxq.com/id_ah2ibj3z22c7.html)

- 1 理论篇
- 1.1 训练大语言模型存在问题？
- 1.2 什么是点对点通信？
- 1.3 什么是集体通信？
- 1.4 什么是数据并行？
- 1.5 数据并行如何提升效率？
- 1.6 什么是流水线并行？
- 1.7 什么是张量并行 (intra-layer)？
- 1.8 数据并行 vs 张量并行 vs 流水线并行?
- 1.9 什么是 3D并行？
- 1.10 想要训练1个LLM，如果只想用1张显卡，那么对显卡的要求是什么？
- 1.11 如果有N张显存足够大的显卡，怎么加速训练？
- 1.12 如果显卡的显存不够装下一个完整的模型呢？
- 1.13 PP推理时，是一个串行的过程，1个GPU计算，其他空闲，有没有其他方式？
- 1.14 3种并行方式可以叠加吗？
- 1.15 Colossal-AI 有1D/2D/2.5D/3D，是什么情况？
- 1.16 除了3D并行有没有其他方式大规模训练？
- 1.17 有了ZeRO系列，为什么还需要3D并行？
- 1.18 平民适不适合玩3D并行？
- 1.19 平民适不适合直接上多机多卡的ZeRO3（万兆网）？
- 1.20 分布式并行及显存优化技术并行技术有哪一些，都有什么特点？
- 1.21 显存优化技术有哪一些，都有什么特点？
- 1.22 常见的分布式训练框架哪一些，都有什么特点？
- 2 实践篇
- 2.1 假如有超多的8卡A100节点（DGX A100），如何应用3D并行策略？
- 2.2 如果想构这样一个大规模并行训练系统，训练框架如何选？
- 2.3 训练框架如何选？
- ...

- [点击查看答案](https://articles.zsxq.com/id_ah2ibj3z22c7.html)

### [图解分布式训练（一） —— 流水线并行（Pipeline Parallelism）面](https://articles.zsxq.com/id_wre1eni0oq7d.html)

- 为什么需要流水线并行（Pipeline Parallelism）？
- 一、流水线并行（Pipeline Parallelism）优化目标是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_wre1eni0oq7d.html)

### [图解分布式训练（二） —— nn.DataParallel面](https://articles.zsxq.com/id_9dfwi0ooio2z.html)

- 为什么需要nn.DataParallel？
- 一、pytorch中的GPU操作默认是什么样？
- 二、介绍一下 nn.DataParallel 函数？
- 三、nn.DataParallel 函数处理逻辑介绍一下？
- ...

- [点击查看答案](https://articles.zsxq.com/id_9dfwi0ooio2z.html)

### [图解分布式训练（三） —— nn.parallel.DistributedDataParallel](https://articles.zsxq.com/id_i4s3ia057rmh.html)

- 为什么需要 nn.parallel.DistributedDataParallel ？
- 一、什么是 DistributedDataParallel 核心 —— Ring-AllReduce？
- 二、nn.parallel.DistributedDataParallel 函数介绍一下？
- 三、nn.parallel.DistributedDataParallel 函数如何多卡加速训练？
- ...

- [点击查看答案](https://articles.zsxq.com/id_i4s3ia057rmh.html)

### [图解分布式训练（四） —— torch.multiprocessing 详细解析](https://articles.zsxq.com/id_gu9smpbn510e.html)

- 一、torch.multiprocessing 函数介绍一下？
- 二、torch.multiprocessing 函数如何使用？
- ...

- [点击查看答案](https://articles.zsxq.com/id_gu9smpbn510e.html)

### [图解分布式训练（五） —— AMP混合精度训练详细解析](https://articles.zsxq.com/id_0slrgoti6gvb.html)

- 为什么需要 AMP混合精度训练？
- 一、什么是自动混合精度训练(AMP)
- 二、为什么需要自动混合精度？
- 三、混合精度训练的优点是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_0slrgoti6gvb.html)

### [图解分布式训练（六） —— Pytorch的 DeepSpeed 详细解析](https://articles.zsxq.com/id_kmq9rn2vo4kz.html)

- 一、为什么需要 Deepspeed？
- 二、DeepSpeed 基本概念介绍一下？
- 2.1 DeepSpeed 介绍
- 2.2 DeepSpeed 基础的概念
- 2.3 DeepSpeed 支持的功能
- 三、DeepSpeed 通信策略介绍一下？
- 四、DeepSpeed 如何使用？
- 4.1 DeepSpeed 安装
- 4.2 DeepSpeed 使用
- ...

- [点击查看答案](https://articles.zsxq.com/id_kmq9rn2vo4kz.html)

### [图解分布式训练（七）—— accelerate 分布式训练详细解析](https://articles.zsxq.com/id_o5wkeionnqr7.html)

- 一、为什么需要 accelerate 分布式训练？
- 二、什么是 accelerate 分布式训练?
- ...

- [点击查看答案](https://articles.zsxq.com/id_o5wkeionnqr7.html)

### [图解分布式训练（八）—— ZeRO 学习](https://articles.zsxq.com/id_grv7uddls2g1.html)

- 一、什么是 3D 并行？
- 二、3D 并行策略有哪些？
- 三、为什么需要 ZeRO？
- ...

- [点击查看答案](https://articles.zsxq.com/id_grv7uddls2g1.html)

### [大模型分布式训练故障恢复篇](https://articles.zsxq.com/id_zspm2q33tckx.html)

- 一、为什么大模型分布式训练需要故障恢复？
- 二、如何获取最优的ckpt存储间隔？
- 三、ckpt存储能否实现异步或者部分掩盖？
- ...

- [点击查看答案](https://articles.zsxq.com/id_zspm2q33tckx.html)

### [图解分布式训练（九）—— Megatron-LM 篇](https://articles.zsxq.com/id_o4qtcspmuwqv.html)

- 1、Activation Recomputation是怎么实现的?
- 2、Megatron中的OverlappedDistributed Optimizer 是如何实现的?
- 3、Megatron-LM 中 Context Parallel 篇
- 3.1 介绍一下 Megatron-LM 中 Context Parallel 实现原理？
- ...

- [点击查看答案](https://articles.zsxq.com/id_o4qtcspmuwqv.html)

### [分布式训练 Trick 汇总篇](https://articles.zsxq.com/id_fu9065izm2m4.html)

- 一、数据并行 Trick 篇
- 1.1 数据并行 FSDP
- 1.2 数据并行 DDP
- 1.3 数据并行 ZeRO
- 1.3.1 Model state
- 1.3.2 Residual state
- 1.3.3 offload
- ...

- [点击查看答案](https://articles.zsxq.com/id_fu9065izm2m4.html)

### [pytorch 分布式计算坑/bug 梳理篇](https://articles.zsxq.com/id_onztfzwdckom.html)

- 一、使用 DistributedDataParallel（分布式并行）时，显存分布不均衡问题
- 二、如果是用pytorch实现同步梯度更新，自研数据接口，出现第一个epoch结尾处程序卡死问题
- ...

- [点击查看答案](https://articles.zsxq.com/id_onztfzwdckom.html)

## 十四、大模型（LLMs）agent 面

### [大模型（LLMs）agent 面](https://articles.zsxq.com/id_le02luntesap.html)

- 一、什么是大模型（LLMs）agent？
- 二、大模型（LLMs）agent 有哪些部分组成？
- 2.1 介绍一下规划（planning）？
- 2.1.1 拆解子目标和任务分解
- 2.1.1.1 如何进行拆解子目标和任务分解？
- 2.1.1.2 拆解子目标和任务分解有哪些方法？
- 2.1.2 模型自我反省
- 2.1.2.1 如何进行模型自我反省？
- 2.1.2.2 模型自我反省有哪些方法？
- 2.2 介绍一下记忆（Memory）？
- 2.3 介绍一下工具使用（tool use）？
- 三、大模型（LLMs）agent 主要利用了大模型哪些能力？
- ...

- [点击查看答案](https://articles.zsxq.com/id_le02luntesap.html)

### 函数调用 Function Call 篇

- [函数调用 Function Call 篇](https://articles.zsxq.com/id_asxg09gtrx89.html)
- 一、为什么需要函数调用(function call)？
- 二、什么是函数调用(function call)？
- ...

- [点击查看答案](https://articles.zsxq.com/id_asxg09gtrx89.html)

- [开源模型 Function Call 篇](https://articles.zsxq.com/id_s2ojkzdw83gb.html)
- 开源模型 Function Call 方案有哪些？
- Llama 3.1
- 对话协议（Chat Protocal）
- Tool Call Template 样式
- ...

- [点击查看答案](https://articles.zsxq.com/id_s2ojkzdw83gb.html)

## [十五、LLMs 位置编码篇](https://articles.zsxq.com/id_amt4qkusdcir.html)

- 一、什么是位置编码？
- 二、为什么需要位置编码？
- 三、什么是绝对位置编码？
- 3.1 训练式位置编码篇
- ...
- 四、什么是相对位置编码？
- 五、旋转位置编码 RoPE篇
- 5.1 旋转位置编码 RoPE 思路是什么？
- ...
- 六、长度外推问题篇
- 6.1 什么是长度外推问题？
- 6.2 长度外推问题的解决方法有哪些？
- 七、 ALiBi (Attention with Linear Biases)篇
- 7.1 ALiBi (Attention with Linear Biases) 思路是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_amt4qkusdcir.html)

## 十六、LLMs Tokenizer 篇

### [LLMs Tokenizer 篇](https://articles.zsxq.com/id_6z8ptdwqeid7.html)

- LLMs Tokenizer 篇
- Byte-Pair Encoding(BPE)篇
- 1 介绍一下 Byte-Pair Encoding(BPE) ？
- 2 Byte-Pair Encoding(BPE) 如何构建词典？
- 3 Byte-Pair Encoding(BPE) 具有什么优点？
- 4 Byte-Pair Encoding(BPE) 具有什么缺点？
- 5 手撕 Byte-Pair Encoding(BPE) ？
- Byte-level BPE 篇
- 1 介绍一下 Byte-level BPE ？
- 2 Byte-level BPE 如何构建词典？
- 3 Byte-level BPE 具有什么优点？
- 4 Byte-level BPE 具有什么缺点？
- WordPiece 篇
- ...

- [点击查看答案](https://articles.zsxq.com/id_6z8ptdwqeid7.html)

### [怎么让英文大语言模型支持中文？（一） —— 构建中文tokenization](https://articles.zsxq.com/id_w0d2q29sueq7.html)

- 一、为什么需要构建中文tokenization？
- 二、如何对原始数据预处理？
- 三、如何构建中文的词库？
- ...

- [点击查看答案](https://articles.zsxq.com/id_w0d2q29sueq7.html)

### [怎么让英文大语言模型支持中文？（二） —— 继续预训练篇](https://articles.zsxq.com/id_jprkwhrvf3tw.html)

- 一、为什么需要进行继续预训练？
- 二、如何对继续预训练数据预处理？
- 三、如何构建模型？
- 四、如何使用模型？

- [点击查看答案](https://articles.zsxq.com/id_jprkwhrvf3tw.html)

### [怎么让英文大语言模型支持中文？（三） —— 对预训练模型进行指令微调](https://articles.zsxq.com/id_p2wj7zadwxwb.html)

- 一、为什么需要对预训练模型进行指令微调？
- 二、对预训练模型进行指令微调数据如何处理？
- 三、对预训练模型进行指令微调 tokenization 如何构建？
- 四、对预训练模型进行指令微调模型如何构建？
- 五、是否可以结合其他库使用？

- [点击查看答案](https://articles.zsxq.com/id_p2wj7zadwxwb.html)

## 十七、大模型（LLMs）加速篇

### [大模型(LLM)部署框架对比篇](https://articles.zsxq.com/id_7d31dgh26fcp.html)

- 大模型(LLM)部署框架对比篇
- 一、为什么需要对大模型推理加速？
- 二、大模型(LLM)部署框架对比总览
- 三、大模型(LLM)部署优化策略
- ...

- [点击查看答案](https://articles.zsxq.com/id_7d31dgh26fcp.html)

### [大模型（LLMs）推理加速篇](https://articles.zsxq.com/id_kgzsxgro8cee.html)

- [点击查看答案](https://articles.zsxq.com/id_kgzsxgro8cee.html)

### [大模型（LLMs）加速篇](https://articles.zsxq.com/id_w9wewc152eux.html)

- 1 当前优化模型最主要技术手段有哪些？
- 2 推理加速框架有哪一些？都有什么特点？
- 3 vLLM 篇
- 3.1 vLLM 的功能有哪些？
- ...

- [点击查看答案](https://articles.zsxq.com/id_w9wewc152eux.html)

### [LLMs 推理性能面](https://articles.zsxq.com/id_jwd03u0l7feo.html)

- 一、介绍一下 LLMs 的文本生成过程？
- 二、如何准确衡量模型的推理速度呢？
- 三、如果对整体推理时延有具体目标，有哪些有效的启发式方法来评估模型？
- ...

- [点击查看答案](https://articles.zsxq.com/id_jwd03u0l7feo.html)

### [LLM（大语言模型）部署加速方法——PagedAttention篇](https://articles.zsxq.com/id_p22mjq881n3n.html)

- 一、vLLM 用于大模型并行推理加速存在什么问题？
- 二、vLLM 如何优化大模型并行推理加速？
- 三、什么是 PagedAttention？
- ...

- [点击查看答案](https://articles.zsxq.com/id_p22mjq881n3n.html)

### [大模型推理加速工具 —— vLLM](https://articles.zsxq.com/id_zw5h9ogvac2w.html)

- 一、引言
- 1.1 前言
- 1.2 为什么需要 vLLM ?
- 1.3 vLLM 具有哪些特点 ?
- 1.4 vLLM 支持哪些 Huggingface 模型 ?
- 二、vLLM 性能如何？
- ...

- [点击查看答案](https://articles.zsxq.com/id_zw5h9ogvac2w.html)

### [LLM（大语言模型）部署加速方法——Faster Transformer篇](https://articles.zsxq.com/id_dd2gowztxtfg.html)

- 一、为什么需要 FasterTransformer？
- 二、FasterTransformer 介绍一下？
- 三、FasterTransformer 核心是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_dd2gowztxtfg.html)

### [纯Python超轻量高性能LLM推理框架 —— LightLLM](https://articles.zsxq.com/id_9a643feq2b0b.html)

- 一、引言
- 1.1 前言
- 1.2 为什么需要 LightLLM ?
- 1.3 目前 LLM推理框架有哪些?
- 二、LightLLM 介绍一下？
- 2.1 什么是 LightLLM ？
- 2.2 Token Attention 介绍？
- 2.3 Efficient Router 介绍？
- 三、LightLLM 性能表现介绍？
- ...

- [点击查看答案](https://articles.zsxq.com/id_9a643feq2b0b.html)

### [LLM推理技术之StreamingLLM：如何拥有无限长生成能力](https://articles.zsxq.com/id_w1gwi9z7qm5s.html)

- 一、前言
- 1.1 大型语言模型（LLM）存在什么问题？
- 1.2 StreamingLLM 背景介绍
- 1.3 StreamingLLM 核心问题？
- ...
- 二、StreamingLLM 的思路是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_w1gwi9z7qm5s.html)

### [SwiftInfer —— 大模型无限流式输入推理飙升46%，打破多轮对话长度限制](https://articles.zsxq.com/id_0rpua5fejfwc.html)

- StreamingLLM 篇
- 一、为什么需要 StreamingLLM？
- 二、StreamingLLM 思路是什么？
- 三、StreamingLLM 优点是什么？
- SwiftInfer 篇：基于TensorRT的StreamingLLM实现
- ...

- [点击查看答案](https://articles.zsxq.com/id_0rpua5fejfwc.html)

## 十八、大模型幻觉（LLM Hallucination）面

### [大模型幻觉（LLM Hallucination）面](https://articles.zsxq.com/id_schwrdmvmhr7.html)

- 一、什么是大模型幻觉？
- 二、为什么LLM会产生幻觉？
- 三、为什么需要解决LLM的幻觉问题？
- 四、幻觉一定是有害的吗？
- ...

- [点击查看答案](https://articles.zsxq.com/id_schwrdmvmhr7.html)

### [大模型的幻觉问题篇](https://articles.zsxq.com/id_8mr4mlhe5q1x.html)

- 一、什么是大模型幻觉问题？
- 二、为什么会出现大模型幻觉问题？
- ...

- [点击查看答案](https://articles.zsxq.com/id_8mr4mlhe5q1x.html)

### [如何缓解大模型幻觉？](https://articles.zsxq.com/id_tbezgzifowzp.html)

- 一、为什么会出现大模型幻觉？
- 二、如何缓解大模型幻觉？

- [点击查看答案](https://articles.zsxq.com/id_tbezgzifowzp.html)

## 十九、LLMs 对比篇

### [LLMs 对比篇](https://articles.zsxq.com/id_fsq8czgwjxse.html)

- LLMs 对比篇
- 一、谈谈你对当前出现的各种大模型的见解？
- 二、目前大模型常见的 base 模型训练和 chat 模型训练方式的区别么？
- 三、llama、baichuan、ChatGLM、Bloom 和 qwen 等开源大模型技术对比篇
- 3.1 llama 系列篇
- 3.1.1 llama 篇
- 3.1.1.1 llama 训练数据介绍
- 3.1.1.2 llama 模型参数量介绍
- 3.1.1.3 llama 模型结构介绍
- 3.1.1.4 llama 训练目标介绍
- 3.1.1.5 llama tokenizer 介绍
- 3.1.1.6 llama 衍生模型介绍
- 3.1.1.7 llama 词表扩展: Chinese LLaMA
- 3.2.1 llama2 篇
- 3.2.1 llama2 系列数据预处理方式？
- 3.2.2 llama2 系列 Tokenizer 处理方式？
- 3.2.3 llama2 系列 Architectural？
- 3.2.4 llama2 系列 content长度？
- 3.2 Mistral 7B 系列篇
- 3.2.1 Mistral 7B Architectural？
- 3.3 Qwen 系列篇
- 3.3.1 Qwen 系列数据预处理方式？
- 3.3.2 Qwen 系列 Tokenizer 处理方式？
- 3.3.3 Qwen 系列 ARCHITECTURE？
- 3.4 Baichuan 系列篇
- 3.4.1 Baichuan2 篇
- 3.4.1.1 Baichuan2 系列数据预处理方式？
- 3.4.1.2 Baichuan2 系列 Tokenizer 处理方式？
- 3.4.1.2 Baichuan2 系列 Architecture ？
- 3.5 GLM 系列篇
- 3.5.1 ChatGLM-6B 篇
- 3.5.1.1 ChatGLM-6B 结构特点？
- 3.5.1.2 ChatGLM-6B 训练目标？
- 3.5.1.3 ChatGLM-6B tokenizer？
- 3.6 BLOOM 系列篇
- 3.6.1 BLOOM 篇
- 3.6.1.1 BLOOM 训练数据构建？
- 3.6.1.2 BLOOM 模型参数量？
- 3.6.1.3 BLOOM 模型结构？
- 3.6.1.4 BLOOM 训练目标？
- 3.6.1.5 BLOOM tokenizer?
- 四、分析与总结？
- 4.1 大模型训练共同点？
- 4.2 大模型训练不同点？
- 五、对比
- 5.1 LLaMA、ChatGLM 和 BLOOM 对比
- 5.2 LLaMA、ChatGLM 和 BLOOM 的 tokenizer 比较
- 5.3LLaMA、ChatGLM 和 BLOOM 的结果比较

- [点击查看答案](https://articles.zsxq.com/id_fsq8czgwjxse.html)

### [LLMs 对比篇](https://articles.zsxq.com/id_0j7k3gxa5hpm.html)

- 大模型-attention mask 篇
- 1、prefix-tuning的prefix tokens是双向注意力吗？
- 2、chatglm1和chatglm2的attention mask是怎么样的？
- 3、llama的attention mask是怎么样的？

- [点击查看答案](https://articles.zsxq.com/id_0j7k3gxa5hpm.html)

### [百川智能baichuan7B、13B、53B、baichuan2 总结篇](https://articles.zsxq.com/id_ma6pw7v2g9pi.html)

- 一、baichuan-7B篇
- 1. 你了解baichuan-7B解构么？介绍一下？
- 2. baichuan-7B 如何收集原始数据并构建训练数据？
- 3. baichuan-7B 如何提高训练稳定性和吞吐？
- 二、baichuan-13B篇
- ...

- [点击查看答案](https://articles.zsxq.com/id_ma6pw7v2g9pi.html)

### [LLaMa 篇](https://articles.zsxq.com/id_9ba6a72wan2w.html)

- 一、相比较于llama而言，llama2有哪些改进，对于llama2是应该如何finetune？

- [点击查看答案](https://articles.zsxq.com/id_9ba6a72wan2w.html)

### [GPT 经验篇](https://articles.zsxq.com/id_r46k6bqu34xh.html)

- 一、gpt源码past\_key\_value是干啥的？
- 二、gpt onebyone 每一层怎么输入输出？
- 三、bert和gpt有什么区别
- 四、文本生成的几大预训练任务？
- 五、讲讲T5和Bart的区别，讲讲bart的DAE任务？
- 六、讲讲Bart和Bert的区别？
- 七、gpt3和gpt2的区别？

- [点击查看答案](https://articles.zsxq.com/id_r46k6bqu34xh.html)

## 二十、思维链 Chain-of-Thought（COT）篇

### [思维链 Chain-of-Thought（COT）篇](https://articles.zsxq.com/id_c0jpjo7q95wg.html)

- 一、什么是思维链提示？
- 二、思维链提示本质是什么？
- 三、思维链提示与标准的提示学习方法有什么不同?
- 四、思维链提示为什么可以提高语言模型的复杂推理能力?它的优势在哪里?
- ...

- [点击查看答案](https://articles.zsxq.com/id_c0jpjo7q95wg.html)

### [思维链 Chain-of-Thought（COT）变体篇](https://articles.zsxq.com/id_thdljw9vgxt1.html)

- 思维链 Chain-of-Thought（COT）：思维链的启蒙
- 1. 什么是思维链 Chain-of-Thought（COT）？
- 2. 思维链 Chain-of-Thought（COT）是思路是什么？
- 3. 思维链 Chain-of-Thought（COT）存在问题？
- 思维树 Tree of Thoughts（TOT）：一种用树结构解决复杂问题的方法
- 1. 为什么需要思维树 Tree of Thoughts（TOT）？
- 2. 什么是思维树 Tree of Thoughts（TOT）？
- 3. 思维树 Tree of Thoughts（TOT）涉及问题有哪些？
- ...

- [点击查看答案](https://articles.zsxq.com/id_thdljw9vgxt1.html)

### [小样本提示学习篇](https://articles.zsxq.com/id_re6ap2lq88gw.html)

- 一、什么是Zero-shot提示方法？
- 二、什么是Few-shot提示方法？
- 三、阐述One-shot和Few-shot提示策略及其应用场景？
- 四、什么是逐步Zero-shot
- 五、定义Zero-shot-CoT提示策略并描述其应用方法？
- 六、解释Few-shot-CoT提示策略及其实际使用方式？
- 七、Few-shot-LtM策略包含哪些主要阶段及其职责？

- [点击查看答案](https://articles.zsxq.com/id_re6ap2lq88gw.html)

## [二十一、LLMs 测试集中数据泄露问题篇](https://articles.zsxq.com/id_6e3k0i8x5ggm.html)

- 一、什么是 LLMs 测试集数据泄露问题？
- 二、如何解决 LLMs 测试集数据泄露问题？
- 三、是否可以避开训练集来处理 LLMs 测试集数据泄露问题？
- ...

- [点击查看答案](https://articles.zsxq.com/id_6e3k0i8x5ggm.html)

## [二十二、MOE（Mixture-of-Experts）篇](https://articles.zsxq.com/id_w6ebwrhprpj9.html)

### 22.1 [MOE（Mixture-of-Experts）篇](https://articles.zsxq.com/id_5anfhj9qoh2v.html)

- 一、为什么需要 MOE（Mixture-of-Experts）？
- 二、MOE（Mixture-of-Experts）的思路是什么样的？
- 三、介绍一下 MOE（Mixture-of-Experts）分布式并行策略？
- 3.1 MOE + 数据并行?
- 3.2 MOE + 模型并行?
- 四、MoE大模型具备哪些优势？
- 五、MoE大模型具备哪些缺点？
- ...

- [点击查看答案](https://articles.zsxq.com/id_5anfhj9qoh2v.html)

### 22.2 [MOE大模型对比篇](https://articles.zsxq.com/id_j51bnu3xfgm9.html)

- DeepSpeed-MoE
- PAI-Megatron-Patch MoE

- [点击查看答案](https://articles.zsxq.com/id_j51bnu3xfgm9.html)

## 二十三、大模型蒸馏篇

### [大模型蒸馏篇](https://articles.zsxq.com/id_jkiw9vhzopgv.html)

- 一、知识蒸馏和无监督样本训练？
- 二、对知识蒸馏知道多少，有哪些改进用到了？
- 三、谈一下对模型量化的了解？
- ...

- [点击查看答案](https://articles.zsxq.com/id_jkiw9vhzopgv.html)

### [LLMs 浮点数篇](https://articles.zsxq.com/id_vu744g6jklli.html)

- 一、fp32和fp16的区别，混合精度的原理
- 二、半精度是什么？
- 三、半精度的理论原理是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_vu744g6jklli.html)

### [自定义 CUDA 函数的轻量级包装器 —— bitsandbytes篇](https://articles.zsxq.com/id_2nwi4napgvlh.html)

- 一、什么是 bitsandbytes?
- 二、如何才能使用 bitsandbytes？
- 三、如何使用 bitsandbytes？
- ...

- [点击查看答案](https://articles.zsxq.com/id_2nwi4napgvlh.html)

## [二十四、大模型（LLMs）软硬件配置面](https://articles.zsxq.com/id_m5q8zk3wo84k.html)

- 建议的软件环境是什么？
- ...

- [点击查看答案](https://articles.zsxq.com/id_m5q8zk3wo84k.html)

## [二十五、Token及模型参数准备篇](https://articles.zsxq.com/id_9oplu4014qx5.html)

- 预训练数据 Token 重复是否影响模型性能？
- SFT需要训练Token数？

- [点击查看答案](https://articles.zsxq.com/id_9oplu4014qx5.html)

## 二十六、多模态常见面试篇

### [多模态常见面试篇](https://articles.zsxq.com/id_hmoqafrxjumk.html)

- 一、最近关注的论文，多模态视觉大模型(CLIP,DALLE)？
- 二、blip2的架构，优势和之前多模态模型的区别？
- ...

- [点击查看答案](https://articles.zsxq.com/id_hmoqafrxjumk.html)

## 二十七、NLP常见面试篇

### [NLP Trick 篇](https://articles.zsxq.com/id_bnzc5w57w7ox.html)

- 一、怎么处理类别不平衡？
- 二、有了解其他模型去尝试解决长度限制的方案吗？
- ...

- [点击查看答案](https://articles.zsxq.com/id_bnzc5w57w7ox.html)

### [文本分类常见面试篇](https://articles.zsxq.com/id_fku4xbzkano0.html)

- 一、文本分类任务有哪些应用场景？
- 二、文本分类的具体流程？
- 三、fastText的分类过程？fastText的优点？
- ...

- [点击查看答案](https://articles.zsxq.com/id_fku4xbzkano0.html)

### [文本摘要常见面试篇](https://articles.zsxq.com/id_gw097zgji66q.html)

- 一、抽取式摘要和生成式摘要存在哪些问题？
- 二、Pointer-generator network解决了什么问题？
- 三、文本摘要有哪些应用场景？
- ...

- [点击查看答案](https://articles.zsxq.com/id_gw097zgji66q.html)

### [命名实体识别常见面试篇](https://articles.zsxq.com/id_2nueuvwwm7v0.html)

- 一、CRF 常见面试题
- 1.1 什么是CRF？CRF的主要思想是什么？
- 1.2 CRF的三个基本问题是什么？
- 1.3 线性链条件随机场的参数化形式？
- 1.4 CRF的优缺点是什么？
- 1.5 HMM与CRF的区别？
- 1.6 生成模型与判别模型的区别？
- 二、HMM 常见面试题
- ...

- [点击查看答案](https://articles.zsxq.com/id_2nueuvwwm7v0.html)

### [向量检索常见面试篇](https://articles.zsxq.com/id_dnq0o4aicjso.html)

- 一、向量检索库总结
- 1.1 Annoy
- 1.1.1 Annoy 介绍
- 1.1.2 Annoy 使用
- 1.2 Faiss
-...

- [点击查看答案](https://articles.zsxq.com/id_dnq0o4aicjso.html)

## 二十八、其他常见面试篇

### [LLMs 其他 Trick](https://articles.zsxq.com/id_958pher9zdxp.html)

1. huggingface 下载不了模型问题？
2. ...

- [点击查看答案](https://articles.zsxq.com/id_958pher9zdxp.html)

## 二十九、大模型推理加速——KV Cache篇

### [大模型推理加速——KV Cache篇](https://articles.zsxq.com/id_swmfcls3sp1j.html)

- 大模型推理加速——KV Cache篇
- 一、介绍一下 KV Cache是啥？
- 二、为什么要进行 KV Cache？
- 2.1 不使用 KV Cache 场景
- 2.2 使用 KV Cache 场景
- 三、说一下 KV Cache 在大模型中的应用？
- ...

- [点击查看答案](https://articles.zsxq.com/id_swmfcls3sp1j.html)

## 三十、大模型——角色扮演大模型篇

### [大模型——角色扮演大模型篇](https://articles.zsxq.com/id_16kl2onmsf8t.html)

- 大模型——角色扮演大模型篇
- 一、什么是角色扮演大模型？
- 二、为什么需要角色扮演大模型？
- 三、角色扮演大模型相比于通用大模型具有哪些区别？
- 四、能否通俗易懂的介绍【角色扮演大模型】？
- ...

- [点击查看答案](https://articles.zsxq.com/id_16kl2onmsf8t.html)

## 三十一、大模型——Chat o1 篇

### [千面郎君篇（三十一章）—— OpenAI o1 篇](https://articles.zsxq.com/id_71rmw7acx3cd.html)

- 千面郎君篇（三十一章）—— OpenAI o1 篇
- 一、Shortcut learning (捷径学习) vs Journey learning (旅程学习)
- 1.1 Shortcut learning (捷径学习)
- 1.1.1 什么是 Shortcut learning (捷径学习)？
- 1.1.2 Shortcut learning (捷径学习) 包含哪些关键特征？
- 1.1.3 Shortcut learning (捷径学习) 优点是什么？
- 1.1.4 Shortcut learning (捷径学习) 缺点是什么？
- 1.2 Journey learning (旅程学习)
- 1.2.1 什么是 Journey learning (旅程学习)？
- 1.2.2 Journey learning (旅程学习) 包含哪些关键特征？
- 1.2.3 Journey learning (旅程学习) 优点是什么？
- 1.3 Shortcut learning (捷径学习) vs Journey learning (旅程学习)
- 二、o1 的长思维链篇
- 2.1 o1 的长思维链是什么样子？
- 2.2 长思维 (Long thought) 是如何工作的？
- 2.3 如何构建长思维？
- ...

- [点击查看答案](https://articles.zsxq.com/id_71rmw7acx3cd.html)

### [OpenAI o1 面试篇](https://articles.zsxq.com/id_032nwgcgwhc6.html)

- OpenAI o1 面试篇
- Q: o1 的训练方法与之前的模型有何主要区别？
- Q: o1 的"思考"过程与简单的提示有何不同？
- Q: 为什么 o1 在推理任务上比之前的模型更强大？
- Q: o1 如何处理安全性问题？
- ...

- [点击查看答案](https://articles.zsxq.com/id_032nwgcgwhc6.html)

### [Scaling LLM Test-Time：谁说类o1推理一定要用RL?](https://articles.zsxq.com/id_71l9woqohebk.html)

- Scaling LLM Test-Time：谁说类o1推理一定要用RL?
- 一、Scaling LLM Test-Time 介绍篇
- 1.1 为什么需要 Scaling LLM Test-Time？
- 1.2 三种 Scaling LLM Test-Time 类型定义？
- 1.3 有哪些 Scaling Test-Time的方法？
- 问题引申
- 二、方法一：纯 Inference Scaling 篇
- 2.1 Inferece Test-Time的统一视角：Proposer \& Verifier
- 2.2 Proposer \& Verifier 实例：Best-of-N
- ...

- [点击查看答案](https://articles.zsxq.com/id_71l9woqohebk.html)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/km1994/LLMs_interview_notes

Awesome Lists containing this project

README