awesome-llm
Awesome-LLM: a curated list of Large Language Model.🔥 大型语言模型(LLM)已经席卷了 全球,不再局限于 NLP 或 AI 社区。这里整理了一些关于大型语言模型,特别是与 ChatGPT 相关的研究论文,涵盖了 LLM 训练框架、部署工具、课程与教程,以及所有公开的 LLM 检查点和 API。
https://github.com/xiaomingx/awesome-llm
Last synced: 6 days ago
JSON representation
-
重要论文里程碑
- Introducing ChatGPT
- GPT-4 Technical Report
- Multitask Prompted Training Enables Zero-Shot Task Generalization
- GPT-4 Technical Report
- Improving Language Understanding by Generative Pre-Training
- BERT: Pre-training of Deep Bidirectional Transformers...
- Language Models are Unsupervised Multitask Learners
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- Language models are few-shot learners
- Finetuned Language Models are Zero-Shot Learners
- Emergent Abilities of Large Language Models
- LLaMA: Open and Efficient Foundation Language Models
- DeepSeekMoE: Towards Ultimate Expert Specialization...
- OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- Transformers are SSMs: Generalized Models...
- Scaling Laws for Neural Language Models
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- Evaluating Large Language Models Trained on Code
- The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
- Llama 2: Open Foundation and Fine-Tuned Chat Models
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- The Llama 3 Herd of Models
- Learning to Reason with LLMs (System Card)
- Qwen2.5 Technical Report
- DeepSeek-V3 Technical Report
- Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- LaMDA: Language Models for Dialog Applications
- PaLM: Scaling Language Modeling with Pathways
- Scaling Instruction-Finetuned Language Models
- Claude 3.5 Sonnet System Card
- GPT-5 System Card
- Attention Is All You Need
- GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
- On the Opportunities and Risks of Foundation Models
- Chain-of-Thought Prompting Elicits Reasoning in LLMs
- OPT: Open Pre-trained Transformer Language Models
- BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
- PaLM 2 Technical Report
- Claude 4.5 Sonnet Update
-
LLM应用
-
LLM 评估工具
- MLflow - 开源机器学习生命周期管理平台,支持实验跟踪、模型评估和部署。
- Weights & Biases - 用于跟踪模型训练和提示优化实验的商业工具。
- Prompttools - 用于测试和评估模型、向量数据库及提示的开源工具集。
- YiVal - 开源的GenAI-Ops工具,用于调优和评估LLM模型的提示、配置及模型参数。
- Weights & Biases - 用于跟踪模型训练和提示优化实验的商业工具。
- LangChain - 用于构建LLM链式应用的流行Python库。
-
-
大型语言模型(LLM)排行榜
-
开源大语言模型 (LLM)
- T5
- Mixtral 系列
- OPT 系列
- MPT-7B
- Qwen 2.5 - 覆盖 0.5B 到 72B 的全尺寸高性能模型。
- GLM-2 系列
- Mistral Nemo / Small - 针对端侧和低延迟场景优化。
- DeepSeek-V3 - 极具性价比的 MoE 模型,性能对标 GPT-4o。
- Mistral 7B
- Baichuan 系列
- OpenELM-1.1
- Phi 系列
- Command R-35B
- Qwen 系列
- StableLM 系列
- InternLM 系列
- Nemotron-4-340B
- Nemotron-4 - NVIDIA 发布的用于生成合成数据的重型模型。
- Gemma 系列
- Llama 3.3 / 3.1 - 依然强大的工业级标准模型 (70B, 405B)。
- Qwen 3 (通义千问) - Qwen 3 系列在编码和数学领域持续霸榜。
- GLM-4-Plus - 智谱AI 最新力作,结合 PPO 技术大幅提升推理与指令遵循能力,商业化落地首选。
- DeepSeek 系列
- DeepSeek 系列
- DeepSeek 系列
- DeepSeek 系列
- Mistral Large 2 - 欧洲最强开源模型,上下文窗口大,指令遵循能力强。
- DeepSeek 系列
- DeepSeek 系列
- DeepSeek 系列
- DeepSeek 系列
- Phi-4 - Microsoft 推出的“小而美”模型,推理能力惊人。
-
- Hugging Face - 针对开源模型的权威自动化评测。
- LiveBench - 旨在防止“刷榜”的动态基准测试,题目定期更新,更能反映模型真实能力。
- MixEval平台
- 中文LLM排行榜
- 法律领域评测平台
- 学术领域评测平台
- SuperBench平台
- We-Math平台
- OpenCompass - 涵盖代码、数学、推理等维度的全方位评测。
- MathEval平台
- 排行榜链接 - 业内最权威的盲测排行榜,涵盖 GPT-5, Claude 4.5, Llama 4 等最新模型。
- 排行榜链接 - 业内最权威的盲测排行榜,涵盖 GPT-5, Claude 4.5, Llama 4 等最新模型。
-
LLM 评估工具
-
LLM 数据
- LLMDataHub
- IBM 数据预处理工具包 - 高效处理非结构化数据的开源工具包。
-
LLM 评估与数据
- Scale AI Leaderboard - 专注于代码生成和指令遵循的评测。
-
-
LLM教程与课程 (2025版)
-
LLM 评估与数据
- Generative AI with LLMs (Coursera) - AWS 和 DeepLearning.AI 联合推出的实战课程。
- Andrej Karpathy's LLM101n - Karpathy 大神的最新课程,教你从零构建一个 Storyteller AI。
- DeepLearning.AI Short Courses - 包含 RAG、Agent、Fine-tuning 等大量免费短课程。
-
-
LLM相关思考
-
LLM教程与课程
-
LLM 评估工具
- GPT状态分析 - 了解GPT模型的最新发展。
- ICML2022:大模型时代的技术与系统 - 探索大模型的训练与应用。
- Neurips2022:基础模型的鲁棒性 - 讨论基础模型的稳定性和鲁棒性。
- 构建GPT:从零开始的代码实现 - 一部详尽的GPT从零实现教程。
- ChatGPT提示工程 - 专为开发者设计的ChatGPT提示工程课程。
- 普林斯顿大学:理解大型语言模型 - 普林斯顿大学关于大型语言模型的课程。
- CS25-Transformers United - 斯坦福大学的Transformers课程。
- UWaterloo CS 886 - 探索基础模型的最新进展。
- CS324 - 大型语言模型 - 斯坦福大学的LLM课程。
- LLM课程 - 带有路线图和Colab笔记本,帮助你深入了解大型语言模型(LLM)。
- femtoGPT - 使用纯Rust实现的最简生成预训练变换器(GPT)。
- BPE最简实现 - 介绍常用于LLM标记化的字节对编码(BPE)算法。
-
-
其他资源
-
LLM 评估工具
- Arize-Phoenix - 用于机器学习可观察性的开源工具,支持在你的笔记本环境中运行并调整LLM、计算机视觉(CV)和表格数据模型。
- 主要LLM及数据可用性 - 主要LLM模型的概览及其数据可用性。
- 500+最佳AI工具
- OpenAGI - 当LLM遇到领域专家时。
- EasyEdit - 一个易于使用的框架,用于编辑大型语言模型。
- chatgpt-shroud - 一个Chrome扩展,用于保护用户隐私,允许轻松隐藏和显示ChatGPT聊天记录。适合屏幕共享时使用。
- Open-evals - 用于不同语言模型评估的扩展框架。
- Emergent Mind - 最新的AI新闻,由GPT-4解析和解释。
- AutoGPT - 一个展示GPT-4功能的开源应用。
- chatgpt-wrapper - 一个开源的Python API和CLI工具,用于与ChatGPT交互。
-
-
LLM部署与本地运行
-
LLM 评估与数据
- LM Studio - 带有图形界面的本地模型运行工具,支持 GGUF 格式。
- vLLM - 生产环境的首选推理引擎,支持 PagedAttention,吞吐量极高。
- TensorRT-LLM - NVIDIA 官方推出的极致优化推理库。
- SGLang - 针对复杂 Prompt 流程优化的推理框架,速度比 vLLM 更快。
-
-
LLM书籍推荐
-
LLM 评估工具
- 《从零开始构建大型语言模型》 - 详细指导如何构建一个可用的LLM。
- 《构建GPT:如何工作》 - 从零开始讲解如何编写一个生成预训练变换器(GPT)。
- 《大型语言模型实战》 - 一本详细的图解书籍,带你深入了解大型语言模型及其应用。
- 《LangChain与生成式AI》 - 本书展示如何使用Python、ChatGPT及其他LLM构建生成式AI应用,并附带[GitHub代码](https://github.com/benman1/generative_ai_with_langchain)。
- 《LangChain与生成式AI》 - 本书展示如何使用Python、ChatGPT及其他LLM构建生成式AI应用,并附带[GitHub代码](https://github.com/benman1/generative_ai_with_langchain)。
-
-
LLM部署
-
LLM 评估工具
- TGI - Hugging Face推出的LLM部署和服务工具包。
- FastChat - 支持多种模型的分布式LLM服务系统,提供Web UI和OpenAI兼容的RESTful API。
- exllama - 为量化权重的Llama模型提供的更高效内存版本。
- llm-inference-solutions
-
-
LLM 部署与推理 (Deployment & Inference)
-
推理网关 (Inference Gateways)
- BentoML - 将模型打包为生产级微服务的统一框架。
- Open WebUI - 功能最强大的本地 Web 界面,自带 RAG 和多模型管理。
- LiteLLM - **最流行代理**。用统一的 OpenAI 格式调用 100+ 种 LLM API,支持负载均衡和成本追踪。
- Inference Gateway - 企业级 AI 网关,统一管理 OpenAI/Ollama/Anthropic 等接口,支持 MCP 协议。
- llm-d - Kubernetes 原生的分布式推理栈,集成了 vLLM 和网关。
-
推理引擎 (Inference Engines)
-
-
热门 LLM 项目
- Ollama - 目前最流行的本地 LLM 运行工具,支持一键运行 Llama 3.3, Gemma 2, Mistral 等模型。
- GPT-SoVITS - 只需 1 分钟的语音数据,就能训练出优秀的语音合成模型!(少样本语音克隆)。
- Deep-Live-Cam - 依然热门的实时换脸工具,仅需单张图片即可实现视频深度伪造。
- DeepSeek-R1 - 开源界的推理模型里程碑,通过强化学习激发了类似 OpenAI o1 的深度思考能力。
- MiniCPM-V 2.6 - 一款可以在手机上使用的 GPT-4V 级别的 MLLM,支持单图、多图和视频处理。
- OpenAI o1/o3 - 开启了“系统2”思维时代,通过思维链(CoT)在复杂数学、编程和科学问题上实现了突破性表现。
-
其他相关论文
- ChatGPT提示语合集 - 收集用于ChatGPT模型的提示语示例。
- 中文ChatGPT提示语合集 - 适用于ChatGPT的中文提示语示例。
- ChatGPT资源合集 - 收集有关ChatGPT和GPT-3的资源。
- GPT-3资源合集 - 收集关于OpenAI GPT-3 API的演示和文章。
- 3D世界中的LLM研究资源 - 研究3D世界中多模态大语言模型的论文和资源合集。
- Agentic Workflow (智能体工作流) - 从单一 Prompt 到复杂的智能体协作系统。
- 中文LLM资源合集 - 汇总开源中文大语言模型,包括小规模、可私有化部署、训练成本较低的模型及其应用、数据集和教程等。
- LLM系统研究论文合集 - 研究LLM系统的相关论文集合。
- 高效微调与量化 - Unsloth, QLoRA 等让个人显卡也能微调大模型的技术。
- GPT资源合集 - 与GPT、ChatGPT、OpenAI、LLM相关的优质项目和资源。
- LLM推理与思维链 (Reasoning & CoT) - 关注 OpenAI o1 和 DeepSeek-R1 引发的推理能力研究。
- 指令调优论文合集 - 包含“自然指令”(ACL 2022)、“FLAN”(ICLR 2022)和“T0”(ICLR 2022)等指令调优相关论文。
- 思维链推理平台 - 衡量LLM推理性能的相关资源。
- LLM实用指南 - 精选的LLM实用资源列表。
- 日本语LLM资源汇总 - 日本语LLM的概览。
- LLM幻觉检测论文汇总 - 收集LLM幻觉检测的相关研究论文。
- 代码LLM资源合集 - 收集与代码LLM相关的研究和资源。
- LLM应用WebApp资源合集 - 收集开源并积极维护的LLM应用Web应用。
- LLM在医疗中的应用论文汇总 - 关注LLM在医学领域应用的相关论文。
- LLM幻觉论文汇总 - 收集关于LLM幻觉的相关论文。
- LLM安全资源合集 - 与LLM安全相关的工具、文档和项目资源。
- LLM推理论文合集 - 以推理为主题的LLM相关论文汇总。
- LLM压缩论文合集 - 关于LLM压缩的研究论文和工具。
- 深度推理提示语合集 - 介绍如何使用提示语引导LLM进行可靠推理和决策。
- RWKV教程 - RWKV学习相关材料和教程。
- LLM与人类对齐研究资源汇总 - 关于大语言模型与人类对齐的论文和资源集合。
- LLM优化任务研究合集 - 探索LLM在优化任务中的应用,收集相关研究论文。
- 语言模型分析论文合集 - 聚焦于语言模型的理论和实证分析,涉及学习动态、表现力、可解释性、泛化能力等议题。
-
多模态预训练 (Multimodal Pre-training)
-
语音 (Audio)
- SpeechBrain - PyTorch 语音工具包,支持 wav2vec 2.0/Whisper 等大规模自监督预训练。
- S3PRL - 专注于自监督学习 (SSL) 的预训练框架,支持 HuBERT/TERA 等 Upstream 模型。
-
视频 (Video)
- VideoMAE - (V1/V2) 视频版 MAE,通过高掩码率自监督学习高效视频表示 (Kinetics-400 SOTA)。
- VPT (Video Pre-Training) - OpenAI 用行为克隆从 Minecraft 视频大规模预训练代理模型。
- EVL - 冻结 CLIP 骨干的高效视频学习器,极低训练成本实现高精度识别。
-
-
LLM训练框架
-
LLM 评估工具
- NeMo Framework - NVIDIA推出的生成式AI框架,支持LLM、语音识别(ASR)、文本到语音(TTS)等多个领域的研究。
- Colossal-AI - 让大型AI模型训练变得更便宜、更高效、更易访问。
- Megatron-LM - 进行大规模Transformer模型训练的研究框架。
- Mesh TensorFlow - 提供便捷的模型并行化训练方案。
- BMTrain - 高效的大型模型训练框架。
- torchtune - PyTorch原生库,用于对大规模语言模型(LLM)进行微调。
- GPT-NeoX - 基于DeepSpeed库的GPU并行自回归Transformer模型实现。
-
LLM 评估与数据
- Llama-Factory - 提供 WebUI 的微调框架,对中文用户非常友好。
- Firefly - 全能型训练框架,支持预训练、SFT、DPO,适配 Qwen/Llama 等主流模型。
- DeepSpeed - LM](https://github.com/NVIDIA/Megatron-LM)** - 依然是超大规模集群预训练的基石。
- Axolotl - 配置化微调工具,支持绝大多数主流开源模型。
- Axolotl - 配置化微调工具,支持绝大多数主流开源模型。
-
-
提示工程与优化 (Prompt Engineering)
-
LLM应用与智能体 (Agent)
-
强化学习与机器人 (RL & Robotics)
-
强化学习 (Reinforcement Learning)
- RLlib (Ray) - 工业级分布式 RL 训练框架,支持大规模多智能体环境。
- Stable-Baselines3 - 基于 PyTorch 的标准 RL 算法实现 (PPO, TD3, SAC),稳定可靠。
- CleanRL - 单文件实现的 RL 算法库 (PPO/DQN),代码极其简洁,适合入门与魔改。
- Easy-RL - 经典的强化学习中文教程(蘑菇书),配套完善的代码实践。
-
具身智能 (Robotics/Embodied AI)
- MuJoCo - DeepMind 开源的高精度物理引擎,RL 机器人研究的标准环境。
- OpenManipulator - 基于 ROS 的开源机械臂平台,支持完整的仿真到实物迁移。
-
-
多模态嵌入 (Multimodal Embeddings)
-
LLM 编程助手 (AI Coding Assistants)
-
LLM 预训练方法 (Pre-training Methods)
-
视频 (Video)
- SO-Large-LM - 系统化的预训练开源教程,覆盖数据清洗、分词到 MoE 架构设计。
- MiniMind - 从零构建小参数 LLM (26M起) 的全流程教程,适合低成本实验。
- Happy-LLM - 专注 Transformer 原理实现的预训练实践项目。
-
-
LLM 加速与内核 (Acceleration & Kernels)
-
LLM 评估与数据
- FlashInfer - 加速 FlashAttention,支持 2-5x 速度提升,LLM Serving 必备内核库。
- DeepEP - 专家并行通信库,大幅提升 MoE 模型分布式训练效率。
- DeepGEMM - DeepSeek 开源的高效 FP8 GEMM 内核,适用于极致性能优化。
-
-
模型仓库与数据管理 (Model Registries)
Programming Languages
Categories
大型语言模型(LLM)排行榜
55
重要论文里程碑
40
其他相关论文
28
LLM相关思考
13
LLM教程与课程
12
LLM训练框架
12
其他资源
10
LLM 部署与推理 (Deployment & Inference)
8
强化学习与机器人 (RL & Robotics)
6
LLM应用
6
热门 LLM 项目
6
多模态预训练 (Multimodal Pre-training)
5
LLM书籍推荐
5
LLM部署与本地运行
4
LLM部署
4
LLM应用与智能体 (Agent)
3
LLM教程与课程 (2025版)
3
多模态嵌入 (Multimodal Embeddings)
3
LLM 加速与内核 (Acceleration & Kernels)
3
LLM 预训练方法 (Pre-training Methods)
3
LLM 编程助手 (AI Coding Assistants)
2
提示工程与优化 (Prompt Engineering)
2
模型仓库与数据管理 (Model Registries)
2
Sub Categories
Keywords
llm
34
large-language-models
18
llama
11
deep-learning
10
chatgpt
9
machine-learning
9
pytorch
9
ai
9
gpt
8
openai
8
llms
8
llmops
8
python
8
llama3
7
llm-inference
6
generative-ai
6
awesome
6
nlp
5
qwen
5
mistral
5
deepseek
5
transformers
5
language-model
5
llm-serving
5
chatglm
4
inference
4
reinforcement-learning
4
llama2
4
prompt-engineering
4
transformer
4
natural-language-processing
4
agent
4
rag
4
awesome-list
3
anthropic
3
cuda
3
artificial-intelligence
3
evaluation-framework
3
evaluation
3
mlops
3
model-serving
3
multimodal
3
gemma
3
gpu
3
qlora
3
moe
3
lora
3
gpt-3
3
chatbot
3
fine-tuning
3