awesome-llm

Awesome-LLM: a curated list of Large Language Model.🔥 大型语言模型（LLM）已经席卷了全球，不再局限于 NLP 或 AI 社区。这里整理了一些关于大型语言模型，特别是与 ChatGPT 相关的研究论文，涵盖了 LLM 训练框架、部署工具、课程与教程，以及所有公开的 LLM 检查点和 API。
https://github.com/xiaomingx/awesome-llm

Last synced: 6 days ago
JSON representation

重要论文里程碑
- Introducing ChatGPT
- GPT-4 Technical Report
- Multitask Prompted Training Enables Zero-Shot Task Generalization
- GPT-4 Technical Report
- Improving Language Understanding by Generative Pre-Training
- BERT: Pre-training of Deep Bidirectional Transformers...
- Language Models are Unsupervised Multitask Learners
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- Language models are few-shot learners
- Finetuned Language Models are Zero-Shot Learners
- Emergent Abilities of Large Language Models
- LLaMA: Open and Efficient Foundation Language Models
- DeepSeekMoE: Towards Ultimate Expert Specialization...
- OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- Transformers are SSMs: Generalized Models...
- Scaling Laws for Neural Language Models
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- Evaluating Large Language Models Trained on Code
- The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
- Llama 2: Open Foundation and Fine-Tuned Chat Models
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- The Llama 3 Herd of Models
- Learning to Reason with LLMs (System Card)
- Qwen2.5 Technical Report
- DeepSeek-V3 Technical Report
- Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- LaMDA: Language Models for Dialog Applications
- PaLM: Scaling Language Modeling with Pathways
- Scaling Instruction-Finetuned Language Models
- Claude 3.5 Sonnet System Card
- GPT-5 System Card
- Attention Is All You Need
- GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
- On the Opportunities and Risks of Foundation Models
- Chain-of-Thought Prompting Elicits Reasoning in LLMs
- OPT: Open Pre-trained Transformer Language Models
- BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
- PaLM 2 Technical Report
- Claude 4.5 Sonnet Update
LLM应用
- LLM 评估工具
  - MLflow - 开源机器学习生命周期管理平台，支持实验跟踪、模型评估和部署。
  - Weights & Biases - 用于跟踪模型训练和提示优化实验的商业工具。
  - Prompttools - 用于测试和评估模型、向量数据库及提示的开源工具集。
  - YiVal - 开源的GenAI-Ops工具，用于调优和评估LLM模型的提示、配置及模型参数。
  - Weights & Biases - 用于跟踪模型训练和提示优化实验的商业工具。
  - LangChain - 用于构建LLM链式应用的流行Python库。
大型语言模型（LLM）排行榜
- 开源大语言模型 (LLM)
  - T5
  - Mixtral 系列
  - OPT 系列
  - MPT-7B
  - Qwen 2.5 - 覆盖 0.5B 到 72B 的全尺寸高性能模型。
  - GLM-2 系列
  - Mistral Nemo / Small - 针对端侧和低延迟场景优化。
  - DeepSeek-V3 - 极具性价比的 MoE 模型，性能对标 GPT-4o。
  - Mistral 7B
  - Baichuan 系列
  - OpenELM-1.1
  - Phi 系列
  - Command R-35B
  - Qwen 系列
  - StableLM 系列
  - InternLM 系列
  - Nemotron-4-340B
  - Nemotron-4 - NVIDIA 发布的用于生成合成数据的重型模型。
  - Gemma 系列
  - Llama 3.3 / 3.1 - 依然强大的工业级标准模型 (70B, 405B)。
  - Qwen 3 (通义千问) - Qwen 3 系列在编码和数学领域持续霸榜。
  - GLM-4-Plus - 智谱AI 最新力作，结合 PPO 技术大幅提升推理与指令遵循能力，商业化落地首选。
  - DeepSeek 系列
  - DeepSeek 系列
  - DeepSeek 系列
  - DeepSeek 系列
  - Mistral Large 2 - 欧洲最强开源模型，上下文窗口大，指令遵循能力强。
  - DeepSeek 系列
  - DeepSeek 系列
  - DeepSeek 系列
  - DeepSeek 系列
  - Phi-4 - Microsoft 推出的“小而美”模型，推理能力惊人。
- - Hugging Face - 针对开源模型的权威自动化评测。
  - LiveBench - 旨在防止“刷榜”的动态基准测试，题目定期更新，更能反映模型真实能力。
  - MixEval平台
  - 中文LLM排行榜
  - 法律领域评测平台
  - 学术领域评测平台
  - SuperBench平台
  - We-Math平台
  - OpenCompass - 涵盖代码、数学、推理等维度的全方位评测。
  - MathEval平台
  - 排行榜链接 - 业内最权威的盲测排行榜，涵盖 GPT-5, Claude 4.5, Llama 4 等最新模型。
  - 排行榜链接 - 业内最权威的盲测排行榜，涵盖 GPT-5, Claude 4.5, Llama 4 等最新模型。
- LLM 评估工具
- LLM 数据
  - LLMDataHub
  - IBM 数据预处理工具包 - 高效处理非结构化数据的开源工具包。
- LLM 评估与数据
  - Scale AI Leaderboard - 专注于代码生成和指令遵循的评测。
LLM教程与课程 (2025版)
- LLM 评估与数据
  - Generative AI with LLMs (Coursera) - AWS 和 DeepLearning.AI 联合推出的实战课程。
  - Andrej Karpathy's LLM101n - Karpathy 大神的最新课程，教你从零构建一个 Storyteller AI。
  - DeepLearning.AI Short Courses - 包含 RAG、Agent、Fine-tuning 等大量免费短课程。
LLM相关思考
- LLM 评估工具
LLM教程与课程
- LLM 评估工具
  - GPT状态分析 - 了解GPT模型的最新发展。
  - ICML2022：大模型时代的技术与系统 - 探索大模型的训练与应用。
  - Neurips2022：基础模型的鲁棒性 - 讨论基础模型的稳定性和鲁棒性。
  - 构建GPT：从零开始的代码实现 - 一部详尽的GPT从零实现教程。
  - ChatGPT提示工程 - 专为开发者设计的ChatGPT提示工程课程。
  - 普林斯顿大学：理解大型语言模型 - 普林斯顿大学关于大型语言模型的课程。
  - CS25-Transformers United - 斯坦福大学的Transformers课程。
  - UWaterloo CS 886 - 探索基础模型的最新进展。
  - CS324 - 大型语言模型 - 斯坦福大学的LLM课程。
  - LLM课程 - 带有路线图和Colab笔记本，帮助你深入了解大型语言模型（LLM）。
  - femtoGPT - 使用纯Rust实现的最简生成预训练变换器（GPT）。
  - BPE最简实现 - 介绍常用于LLM标记化的字节对编码（BPE）算法。
其他资源
- LLM 评估工具
  - Arize-Phoenix - 用于机器学习可观察性的开源工具，支持在你的笔记本环境中运行并调整LLM、计算机视觉（CV）和表格数据模型。
  - 主要LLM及数据可用性 - 主要LLM模型的概览及其数据可用性。
  - 500+最佳AI工具
  - OpenAGI - 当LLM遇到领域专家时。
  - EasyEdit - 一个易于使用的框架，用于编辑大型语言模型。
  - chatgpt-shroud - 一个Chrome扩展，用于保护用户隐私，允许轻松隐藏和显示ChatGPT聊天记录。适合屏幕共享时使用。
  - Open-evals - 用于不同语言模型评估的扩展框架。
  - Emergent Mind - 最新的AI新闻，由GPT-4解析和解释。
  - AutoGPT - 一个展示GPT-4功能的开源应用。
  - chatgpt-wrapper - 一个开源的Python API和CLI工具，用于与ChatGPT交互。
LLM部署与本地运行
- LLM 评估与数据
  - LM Studio - 带有图形界面的本地模型运行工具，支持 GGUF 格式。
  - vLLM - 生产环境的首选推理引擎，支持 PagedAttention，吞吐量极高。
  - TensorRT-LLM - NVIDIA 官方推出的极致优化推理库。
  - SGLang - 针对复杂 Prompt 流程优化的推理框架，速度比 vLLM 更快。
LLM书籍推荐
- LLM 评估工具
  - 《从零开始构建大型语言模型》 - 详细指导如何构建一个可用的LLM。
  - 《构建GPT：如何工作》 - 从零开始讲解如何编写一个生成预训练变换器（GPT）。
  - 《大型语言模型实战》 - 一本详细的图解书籍，带你深入了解大型语言模型及其应用。
  - 《LangChain与生成式AI》 - 本书展示如何使用Python、ChatGPT及其他LLM构建生成式AI应用，并附带[GitHub代码](https://github.com/benman1/generative_ai_with_langchain)。
  - 《LangChain与生成式AI》 - 本书展示如何使用Python、ChatGPT及其他LLM构建生成式AI应用，并附带[GitHub代码](https://github.com/benman1/generative_ai_with_langchain)。
LLM部署
- LLM 评估工具
  - TGI - Hugging Face推出的LLM部署和服务工具包。
  - FastChat - 支持多种模型的分布式LLM服务系统，提供Web UI和OpenAI兼容的RESTful API。
  - exllama - 为量化权重的Llama模型提供的更高效内存版本。
  - llm-inference-solutions
LLM 部署与推理 (Deployment & Inference)
- 推理网关 (Inference Gateways)
  - BentoML - 将模型打包为生产级微服务的统一框架。
  - Open WebUI - 功能最强大的本地 Web 界面，自带 RAG 和多模型管理。
  - LiteLLM - **最流行代理**。用统一的 OpenAI 格式调用 100+ 种 LLM API，支持负载均衡和成本追踪。
  - Inference Gateway - 企业级 AI 网关，统一管理 OpenAI/Ollama/Anthropic 等接口，支持 MCP 协议。
  - llm-d - Kubernetes 原生的分布式推理栈，集成了 vLLM 和网关。
- 推理引擎 (Inference Engines)
  - LightLLM - 纯 Python/Triton 实现的轻量级推理框架，易于修改和扩展。
  - LMDeploy - InternLM 团队推出的高性能推理工具，TurboMind 引擎速度极快。
  - llama.cpp - 边缘计算神器。纯 C++ 实现，针对 Apple Silicon 和 CPU 极致优化。
热门 LLM 项目
- Ollama - 目前最流行的本地 LLM 运行工具，支持一键运行 Llama 3.3, Gemma 2, Mistral 等模型。
- GPT-SoVITS - 只需 1 分钟的语音数据，就能训练出优秀的语音合成模型！（少样本语音克隆）。
- Deep-Live-Cam - 依然热门的实时换脸工具，仅需单张图片即可实现视频深度伪造。
- DeepSeek-R1 - 开源界的推理模型里程碑，通过强化学习激发了类似 OpenAI o1 的深度思考能力。
- MiniCPM-V 2.6 - 一款可以在手机上使用的 GPT-4V 级别的 MLLM，支持单图、多图和视频处理。
- OpenAI o1/o3 - 开启了“系统2”思维时代，通过思维链（CoT）在复杂数学、编程和科学问题上实现了突破性表现。
其他相关论文
- ChatGPT提示语合集 - 收集用于ChatGPT模型的提示语示例。
- 中文ChatGPT提示语合集 - 适用于ChatGPT的中文提示语示例。
- ChatGPT资源合集 - 收集有关ChatGPT和GPT-3的资源。
- GPT-3资源合集 - 收集关于OpenAI GPT-3 API的演示和文章。
- 3D世界中的LLM研究资源 - 研究3D世界中多模态大语言模型的论文和资源合集。
- Agentic Workflow (智能体工作流) - 从单一 Prompt 到复杂的智能体协作系统。
- 中文LLM资源合集 - 汇总开源中文大语言模型，包括小规模、可私有化部署、训练成本较低的模型及其应用、数据集和教程等。
- LLM系统研究论文合集 - 研究LLM系统的相关论文集合。
- 高效微调与量化 - Unsloth, QLoRA 等让个人显卡也能微调大模型的技术。
- GPT资源合集 - 与GPT、ChatGPT、OpenAI、LLM相关的优质项目和资源。
- LLM推理与思维链 (Reasoning & CoT) - 关注 OpenAI o1 和 DeepSeek-R1 引发的推理能力研究。
- 指令调优论文合集 - 包含“自然指令”（ACL 2022）、“FLAN”（ICLR 2022）和“T0”（ICLR 2022）等指令调优相关论文。
- 思维链推理平台 - 衡量LLM推理性能的相关资源。
- LLM实用指南 - 精选的LLM实用资源列表。
- 日本语LLM资源汇总 - 日本语LLM的概览。
- LLM幻觉检测论文汇总 - 收集LLM幻觉检测的相关研究论文。
- 代码LLM资源合集 - 收集与代码LLM相关的研究和资源。
- LLM应用WebApp资源合集 - 收集开源并积极维护的LLM应用Web应用。
- LLM在医疗中的应用论文汇总 - 关注LLM在医学领域应用的相关论文。
- LLM幻觉论文汇总 - 收集关于LLM幻觉的相关论文。
- LLM安全资源合集 - 与LLM安全相关的工具、文档和项目资源。
- LLM推理论文合集 - 以推理为主题的LLM相关论文汇总。
- LLM压缩论文合集 - 关于LLM压缩的研究论文和工具。
- 深度推理提示语合集 - 介绍如何使用提示语引导LLM进行可靠推理和决策。
- RWKV教程 - RWKV学习相关材料和教程。
- LLM与人类对齐研究资源汇总 - 关于大语言模型与人类对齐的论文和资源集合。
- LLM优化任务研究合集 - 探索LLM在优化任务中的应用，收集相关研究论文。
- 语言模型分析论文合集 - 聚焦于语言模型的理论和实证分析，涉及学习动态、表现力、可解释性、泛化能力等议题。
多模态预训练 (Multimodal Pre-training)
- 语音 (Audio)
  - SpeechBrain - PyTorch 语音工具包，支持 wav2vec 2.0/Whisper 等大规模自监督预训练。
  - S3PRL - 专注于自监督学习 (SSL) 的预训练框架，支持 HuBERT/TERA 等 Upstream 模型。
- 视频 (Video)
  - VideoMAE - (V1/V2) 视频版 MAE，通过高掩码率自监督学习高效视频表示 (Kinetics-400 SOTA)。
  - VPT (Video Pre-Training) - OpenAI 用行为克隆从 Minecraft 视频大规模预训练代理模型。
  - EVL - 冻结 CLIP 骨干的高效视频学习器，极低训练成本实现高精度识别。
LLM训练框架
- LLM 评估工具
  - NeMo Framework - NVIDIA推出的生成式AI框架，支持LLM、语音识别（ASR）、文本到语音（TTS）等多个领域的研究。
  - Colossal-AI - 让大型AI模型训练变得更便宜、更高效、更易访问。
  - Megatron-LM - 进行大规模Transformer模型训练的研究框架。
  - Mesh TensorFlow - 提供便捷的模型并行化训练方案。
  - BMTrain - 高效的大型模型训练框架。
  - torchtune - PyTorch原生库，用于对大规模语言模型（LLM）进行微调。
  - GPT-NeoX - 基于DeepSpeed库的GPU并行自回归Transformer模型实现。
- LLM 评估与数据
  - Llama-Factory - 提供 WebUI 的微调框架，对中文用户非常友好。
  - Firefly - 全能型训练框架，支持预训练、SFT、DPO，适配 Qwen/Llama 等主流模型。
  - DeepSpeed - LM](https://github.com/NVIDIA/Megatron-LM)** - 依然是超大规模集群预训练的基石。
  - Axolotl - 配置化微调工具，支持绝大多数主流开源模型。
  - Axolotl - 配置化微调工具，支持绝大多数主流开源模型。
提示工程与优化 (Prompt Engineering)
- 推理网关 (Inference Gateways)
  - Promptfoo - 开发者友好的 LLM 测试工具，用于评估 Prompt 质量和模型输出，防止回归。
  - DSPy - 斯坦福推出的框架，主张“编程”而非“提示”语言模型，通过编译自动优化 Prompt。
LLM应用与智能体 (Agent)
- LLM 评估与数据
  - Dify - 开源的 LLM 应用开发平台，可视化编排 RAG 和 Agent。
  - MemGPT - 赋予 LLM 长期记忆和操作系统级别的上下文管理能力。
  - CrewAI - 编排角色扮演的 AI 智能体团队来共同完成任务。
强化学习与机器人 (RL & Robotics)
- 强化学习 (Reinforcement Learning)
  - RLlib (Ray) - 工业级分布式 RL 训练框架，支持大规模多智能体环境。
  - Stable-Baselines3 - 基于 PyTorch 的标准 RL 算法实现 (PPO, TD3, SAC)，稳定可靠。
  - CleanRL - 单文件实现的 RL 算法库 (PPO/DQN)，代码极其简洁，适合入门与魔改。
  - Easy-RL - 经典的强化学习中文教程（蘑菇书），配套完善的代码实践。
- 具身智能 (Robotics/Embodied AI)
  - MuJoCo - DeepMind 开源的高精度物理引擎，RL 机器人研究的标准环境。
  - OpenManipulator - 基于 ROS 的开源机械臂平台，支持完整的仿真到实物迁移。
多模态嵌入 (Multimodal Embeddings)
- 视频 (Video)
  - CLIP - image-models)** - 图像文本对齐的基石模型与最大的视觉骨干库。
  - ImageBind - Meta 开源的六模态统一嵌入空间 (图像/文本/音频/深度/热/IMU)。
  - E5-V - 桥接 Llama3 与视觉模型的通用多模态嵌入。
LLM 编程助手 (AI Coding Assistants)
- 推理网关 (Inference Gateways)
  - Continue - 开源的 IDE 插件 (VS Code / JetBrains)，支持连接本地 Ollama 模型进行辅助编程。
  - Cline - 开源的自主编程 Agent 插件，能够执行终端命令、文件读写，配合 Claude 3.5 Sonnet 效果拔群。
LLM 预训练方法 (Pre-training Methods)
- 视频 (Video)
  - SO-Large-LM - 系统化的预训练开源教程，覆盖数据清洗、分词到 MoE 架构设计。
  - MiniMind - 从零构建小参数 LLM (26M起) 的全流程教程，适合低成本实验。
  - Happy-LLM - 专注 Transformer 原理实现的预训练实践项目。
LLM 加速与内核 (Acceleration & Kernels)
- LLM 评估与数据
  - FlashInfer - 加速 FlashAttention，支持 2-5x 速度提升，LLM Serving 必备内核库。
  - DeepEP - 专家并行通信库，大幅提升 MoE 模型分布式训练效率。
  - DeepGEMM - DeepSeek 开源的高效 FP8 GEMM 内核，适用于极致性能优化。
模型仓库与数据管理 (Model Registries)
- 推理网关 (Inference Gateways)
  - DagsHub - 结合 GitHub + DVC 的开源 ML 平台，提供实验跟踪和数据版本管理。
  - KohakuHub - 自托管的 Hugging Face 替代方案，支持 Git-like 版本控制，适合企业内部私有部署。

Programming Languages

Python 50 Jupyter Notebook 7 TypeScript 5 JavaScript 4 Cuda 2 C++ 2 Go 2 HTML 1 Rust 1

awesome-llm

重要论文里程碑

LLM应用

LLM 评估工具

大型语言模型（LLM）排行榜

开源大语言模型 (LLM)

LLM 评估工具

LLM 数据

LLM 评估与数据

LLM教程与课程 (2025版)

LLM 评估与数据

LLM相关思考

LLM 评估工具

LLM教程与课程

LLM 评估工具

其他资源

LLM 评估工具

LLM部署与本地运行

LLM 评估与数据

LLM书籍推荐

LLM 评估工具

LLM部署

LLM 评估工具

LLM 部署与推理 (Deployment & Inference)

推理网关 (Inference Gateways)

推理引擎 (Inference Engines)

热门 LLM 项目

其他相关论文

多模态预训练 (Multimodal Pre-training)

语音 (Audio)

视频 (Video)

LLM训练框架

LLM 评估工具

LLM 评估与数据

提示工程与优化 (Prompt Engineering)

推理网关 (Inference Gateways)

LLM应用与智能体 (Agent)

LLM 评估与数据

强化学习与机器人 (RL & Robotics)

强化学习 (Reinforcement Learning)

具身智能 (Robotics/Embodied AI)

多模态嵌入 (Multimodal Embeddings)

视频 (Video)

LLM 编程助手 (AI Coding Assistants)

推理网关 (Inference Gateways)

LLM 预训练方法 (Pre-training Methods)

视频 (Video)

LLM 加速与内核 (Acceleration & Kernels)

LLM 评估与数据

模型仓库与数据管理 (Model Registries)

推理网关 (Inference Gateways)