{"id":47867075,"url":"https://github.com/yeasy/llm_internals","last_synced_at":"2026-05-31T07:03:19.011Z","repository":{"id":342148697,"uuid":"1172786636","full_name":"yeasy/llm_internals","owner":"yeasy","description":"深入剖析大语言模型架构、原理到训练部署 | How LLM works, including Design, Architecture and Training details.","archived":false,"fork":false,"pushed_at":"2026-05-28T01:17:57.000Z","size":1746,"stargazers_count":29,"open_issues_count":1,"forks_count":3,"subscribers_count":1,"default_branch":"main","last_synced_at":"2026-05-28T03:12:52.975Z","etag":null,"topics":["ai","architecture","book","internal","llm"],"latest_commit_sha":null,"homepage":"https://yeasy.gitbook.io/llm_internals/","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/yeasy.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":null,"dco":null,"cla":null}},"created_at":"2026-03-04T17:29:03.000Z","updated_at":"2026-05-28T01:18:00.000Z","dependencies_parsed_at":null,"dependency_job_id":null,"html_url":"https://github.com/yeasy/llm_internals","commit_stats":null,"previous_names":["yeasy/llm_internals"],"tags_count":10,"template":false,"template_full_name":null,"purl":"pkg:github/yeasy/llm_internals","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeasy%2Fllm_internals","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeasy%2Fllm_internals/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeasy%2Fllm_internals/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeasy%2Fllm_internals/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/yeasy","download_url":"https://codeload.github.com/yeasy/llm_internals/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yeasy%2Fllm_internals/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":33722158,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-05-26T15:22:16.424Z","status":"online","status_checked_at":"2026-05-31T02:00:06.040Z","response_time":95,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["ai","architecture","book","internal","llm"],"created_at":"2026-04-04T00:27:41.553Z","updated_at":"2026-05-31T07:03:19.003Z","avatar_url":"https://github.com/yeasy.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\u003cdiv align=\"center\"\u003e\n\n# 大模型原理与架构\n\n[![License: CC BY-NC-SA 4.0](https://img.shields.io/badge/License-CC%20BY--NC--SA%204.0-lightgrey.svg)](https://creativecommons.org/licenses/by-nc-sa/4.0/)\n[![GitHub stars](https://img.shields.io/github/stars/yeasy/llm_internals?style=social)](https://github.com/yeasy/llm_internals)\n[![Release](https://img.shields.io/github/release/yeasy/llm_internals.svg)](https://github.com/yeasy/llm_internals/releases)\n[![Online Reading](https://img.shields.io/badge/在线阅读-GitBook-brightgreen)](https://yeasy.gitbook.io/llm_internals)\n[![PDF](https://img.shields.io/badge/PDF-下载-orange)](https://github.com/yeasy/llm_internals/releases/latest)\n\n\u003e 以 Transformer 为例，深入剖析大模型为什么能工作、为什么这样设计，系统掌握从架构原理到训练部署的完整知识体系。\n\n\u003cimg src=\"cover.jpg\" width=\"300\" alt=\"大模型原理与架构封面\"\u003e\n\n\u003c/div\u003e\n\n---\n\n## 本书简介\n\n2017 年，Vaswani 等人在论文《Attention Is All You Need》中提出了 Transformer 架构。这一看似简洁的设计——用注意力机制完全替代循环和卷积——却引发了深度学习领域最深刻的范式变革。从 BERT 到 GPT-4，从 Llama 到 DeepSeek，几乎所有现代大语言模型的核心都建立在 Transformer 之上。\n\n但知道 Transformer “是什么” 远远不够。**为什么自注意力需要除以 $$\\sqrt{d_k}$$？为什么多头比单头更有效？为什么残差连接对深层网络如此关键？为什么旋转位置编码能够外推到更长的序列？** 这些 “为什么” 背后的设计直觉与数学原理，才是真正理解这一架构的关键。\n\n本书的核心目标，是帮助读者建立对 Transformer 及其衍生模型的**深层理解**：\n\n- **追溯来龙去脉**：从 RNN 的梯度困境讲到注意力机制的诞生，理解每一步创新解决了什么问题\n- **解剖设计决策**：不仅给出公式，更解释每个设计选择背后的动机和权衡\n- **揭示工作原理**：用直觉、可视化和数学推导三位一体地解释核心机制为什么有效\n- **贯通工程实践**：从理论推导自然过渡到训练、推理与部署中的关键技术\n\n## 目标读者\n\n- **AI/NLP 研究者**：需要深入理解 Transformer 设计原理及其变体的研究人员\n- **算法工程师**：从事大模型架构、训练、微调与部署的研发人员\n- **机器学习从业者**：希望从 “会用” 进阶到 “理解为什么” 的开发者\n- **高校师生**：希望结合业界最新实践，研究深度学习与大模型方向\n\n## 阅读本书，你将学到\n\n1. **Transformer 为什么能取代 RNN**：从序列建模的根本挑战出发，理解注意力机制解决了什么问题\n2. **注意力机制为什么有效**：缩放因子的数学直觉、多头注意力的信息论解释、因果掩码的设计逻辑\n3. **各组件如何协同工作**：残差连接如何解决梯度问题、层归一化为什么优于批归一化、前馈网络的“记忆”角色\n4. **位置编码的设计哲学**：从正弦编码的外推性到 RoPE 的旋转直觉，理解不同方案的取舍\n5. **预训练范式背后的思想**：为什么“预测下一个词”能学到语言知识？掩码预训练与自回归的本质区别\n6. **训练工程的底层逻辑**：学习率预热的必要性、混合精度的精度保证、分布式训练的通信与拆分策略\n7. **对齐技术的设计动机**：从 RLHF 的复杂性到 DPO 的简化之路\n8. **推理优化的第一性原理**：KV 缓存为什么能加速、投机解码为什么是正确的、量化的精度-效率权衡\n9. **主流 LLM 的架构创新**：GPT 系列的扩展逻辑、Llama 的开放权重策略、DeepSeek-V3 的 MoE 设计\n10. **前沿趋势的底层思考**：状态空间模型能否替代注意力？多模态融合的核心挑战是什么？\n\n## 如何阅读\n\n本书共分为四个部分和附录：\n\n- **第一部分（基础篇）**：追溯 Transformer 的来龙去脉，从底层原理解析每一个核心组件的设计动因\n- **第二部分（训练篇）**：从预训练思想到分布式训练工程，解释每种技术为什么有效\n- **第三部分（推理与部署篇）**：从解码原理到推理加速，用第一性原理拆解优化技术\n- **第四部分（模型与前沿篇）**：从经典模型的设计思路到前沿架构的创新逻辑\n- **附录**：提供数学基础、PyTorch 示例、模型参数速查、参考文献和快变事实核验表\n\n建议按顺序阅读第一部分以建立深层理解，之后可根据个人需求选择性深入后续部分。\n\n## 五分钟快速上手\n\n“理解 Transformer 的核心机制”——跟随以下步骤快速掌握 LLM 基础：\n\n1. **LLM 基础**（第1-2章）：理解序列建模的核心挑战，以及注意力机制为什么成为 Transformer 的核心\n2. **注意力机制**（第2章）：掌握缩放点积注意力、自注意力和多头机制为什么是 Transformer 的核心\n3. **Transformer 核心组件**（第3章）：理解前馈网络、残差连接、层归一化等模块如何协同工作\n4. **位置编码与训练演进**（第4-8章）：学习位置编码、预训练、训练技巧、分布式训练与对齐方法如何逐步推动模型能力提升\n5. **工程实践**（第9-11章）：理解训练、推理优化和部署的底层逻辑\n\n## 学习路线图\n\n```mermaid\ngraph LR\n    Start[LLM 学习入口] --\u003e Ch1[第1-2章：基础理论]\n\n    Ch1 --\u003e Role1[\"AI 初学者\u003cbr/\u003e第1-4章\"]\n    Ch1 --\u003e Role2[\"算法工程师\u003cbr/\u003e第1-8章\"]\n    Ch1 --\u003e Role3[\"系统工程师\u003cbr/\u003e第1-2章 → 3.7 → 5.1 → 第9-11章\"]\n    Ch1 --\u003e Role4[\"研究人员\u003cbr/\u003e第1-6章 → 第13-14章\"]\n\n    Role1 --\u003e End1[\"理解 LLM 核心\"]\n    Role2 --\u003e End2[\"掌握架构与训练\"]\n    Role3 --\u003e End3[\"优化推理部署\"]\n    Role4 --\u003e End4[\"探索前沿创新\"]\n```\n\n| 读者角色 | 学习重点 | 核心成果 |\n|---------|---------|---------|\n| **AI 初学者** | 第1-4章 | 深入理解 Transformer 的工作原理 |\n| **算法工程师** | 第1-8章 | 掌握 LLM 架构设计和训练优化 |\n| **系统工程师** | 第1-2章 → 3.7 → 5.1 → 第9-11章 | 实现高效的推理和部署方案 |\n| **研究人员** | 第1-6章 → 第13-14章 | 探索 LLM 前沿技术与创新方向 |\n\n## 在线阅读\n\n本书在线阅读，可直接访问 [GitBook](https://yeasy.gitbook.io/llm_internals/)。\n\n## 下载离线版本\n\n本书提供 PDF 版本供离线阅读，可前往 [GitHub Releases](https://github.com/yeasy/llm_internals/releases/latest) 页面下载最新版本。\n\n如需获取默认分支自动更新的预览版，可直接下载 [llm_internals.pdf](https://github.com/yeasy/llm_internals/releases/download/preview-pdf/llm_internals.pdf)。该文件会随主线更新覆盖，不代表正式发布版本。\n\n## 本地阅读\n\n本仓库的预览 PDF 与本地阅读入口使用 [mdPress](https://github.com/yeasy/mdpress)：\n\n```bash\nbrew tap yeasy/tap \u0026\u0026 brew install mdpress\nmdpress serve\n```\n\n启动后访问 [本地阅读地址](http://localhost:9000) 即可阅读。\n\n本地 `_book/` 和 `_site/` 属于生成输出，不是书稿真相源；如果发现它们与 Markdown、`SUMMARY.md` 或封面资源不一致，应重新生成或清理后再预览。\n\n---\n\n## 进阶阅读\n\n读完本书后，你可以根据兴趣方向选择以下进阶读物：\n\n| 书名 | 说明 |\n|------|------|\n| [《零基础学 AI》](https://yeasy.gitbook.io/ai_beginner_guide) | 普通人视角的 AI 入门与基础认知 |\n| [《大模型提示词工程指南》](https://yeasy.gitbook.io/prompt_engineering_guide) | 系统掌握与 AI 高效对话的提示词技术 |\n| [《大模型上下文工程权威指南》](https://yeasy.gitbook.io/context_engineering_guide) | 从提示词工程进阶到上下文工程 |\n| [《Claude 技术指南》](https://yeasy.gitbook.io/claude_guide) | 深入掌握 Claude 的核心能力与最佳实践 |\n| [《智能体 AI 权威指南》](https://yeasy.gitbook.io/agentic_ai_guide) | 全面学习智能体架构、多智能体协作与工程实践 |\n| [《大模型安全权威指南》](https://yeasy.gitbook.io/ai_security_guide) | 了解大语言模型面临的安全威胁与防御机制 |\n| [《OpenClaw 入门到精通》](https://yeasy.gitbook.io/openclaw_guide) | 开源智能体框架的实践入门 |\n| [《智能体 Harness 工程指南》](https://yeasy.gitbook.io/harness_engineering_guide) | 深入智能体 Harness 的模型集成层与输出治理设计 |\n\n---\n\n## 参与贡献\n\n欢迎贡献！您可以通过以下方式参与：\n\n- [提交 Issue](https://github.com/yeasy/llm_internals/issues)：报告错误或提出建议\n- [提交 PR](https://github.com/yeasy/llm_internals/pulls)：改进内容或修复 typo\n- Star 本项目：帮助更多人发现这本书\n\n---\n\n## 许可证\n\n本书采用 [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/) 许可证。\n\n您可以自由分享和演绎，但需署名、非商业使用、相同方式共享。\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fyeasy%2Fllm_internals","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fyeasy%2Fllm_internals","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fyeasy%2Fllm_internals/lists"}