Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
awesome-llm
Awesome-LLM: a curated list of Large Language Model.🔥 大型语言模型(LLM)已经席卷了 全球,不再局限于 NLP 或 AI 社区。这里整理了一些关于大型语言模型,特别是与 ChatGPT 相关的研究论文,涵盖了 LLM 训练框架、部署工具、课程与教程,以及所有公开的 LLM 检查点和 API。
https://github.com/xiaomingx/awesome-llm
Last synced: about 11 hours ago
JSON representation
-
热门 LLM 项目
- Deep-Live-Cam - 只需一张图片即可实现实时换脸和一键视频深度伪造(未经过滤)。
- MiniCPM-V 2.6 - 一款可以在手机上使用的 GPT-4V 级别的 MLLM,支持单图、多图和视频处理。
- Deep-Live-Cam - 只需一张图片即可实现实时换脸和一键视频深度伪造(未经过滤)。
- MiniCPM-V 2.6 - 一款可以在手机上使用的 GPT-4V 级别的 MLLM,支持单图、多图和视频处理。
- GPT-SoVITS - 只需 1 分钟的语音数据,就能训练出优秀的语音合成模型!(少样本语音克隆)。
- GPT-SoVITS - 只需 1 分钟的语音数据,就能训练出优秀的语音合成模型!(少样本语音克隆)。
-
重要论文里程碑
- Improving Language Understanding by Generative Pre-Training
- Improving Language Understanding by Generative Pre-Training
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Language Models are Unsupervised Multitask Learners
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- Scaling Laws for Neural Language Models
- Language models are few-shot learners
- Language Models are Unsupervised Multitask Learners
- Scaling Laws for Neural Language Models
- Language models are few-shot learners
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- Evaluating Large Language Models Trained on Code
- On the Opportunities and Risks of Foundation Models
- Finetuned Language Models are Zero-Shot Learners
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- Evaluating Large Language Models Trained on Code
- On the Opportunities and Risks of Foundation Models
- Finetuned Language Models are Zero-Shot Learners
- Multitask Prompted Training Enables Zero-Shot Task Generalization
- Multitask Prompted Training Enables Zero-Shot Task Generalization
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- OPT: Open Pre-trained Transformer Language Models
- Emergent Abilities of Large Language Models
- OPT: Open Pre-trained Transformer Language Models
- Emergent Abilities of Large Language Models
- BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
- BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
- OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
- OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization
- The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
- The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
- LLaMA: Open and Efficient Foundation Language Models
- LLaMA: Open and Efficient Foundation Language Models
- GPT-4 Technical Report
- PaLM 2 Technical Report
- Llama 2: Open Foundation and Fine-Tuned Chat Models
- GPT-4 Technical Report
- PaLM 2 Technical Report
- Llama 2: Open Foundation and Fine-Tuned Chat Models
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
- Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
- Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- LaMDA: Language Models for Dialog Applications
- PaLM: Scaling Language Modeling with Pathways
- Scaling Instruction-Finetuned Language Models
- Attention Is All You Need
- GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
-
其他相关论文
- LLM幻觉论文汇总 - 收集关于LLM幻觉的相关论文。
- LLM幻觉论文汇总 - 收集关于LLM幻觉的相关论文。
- LLM幻觉检测论文汇总 - 收集LLM幻觉检测的相关研究论文。
- LLM幻觉检测论文汇总 - 收集LLM幻觉检测的相关研究论文。
- LLM实用指南 - 精选的LLM实用资源列表。
- LLM实用指南 - 精选的LLM实用资源列表。
- ChatGPT提示语合集 - 收集用于ChatGPT模型的提示语示例。
- ChatGPT提示语合集 - 收集用于ChatGPT模型的提示语示例。
- 中文ChatGPT提示语合集 - 适用于ChatGPT的中文提示语示例。
- ChatGPT资源合集 - 收集有关ChatGPT和GPT-3的资源。
- 思维链(Chain-of-Thought)论文汇总 - 涵盖“思维链提示引发LLM推理”相关研究。
- 中文ChatGPT提示语合集 - 适用于ChatGPT的中文提示语示例。
- ChatGPT资源合集 - 收集有关ChatGPT和GPT-3的资源。
- 思维链(Chain-of-Thought)论文汇总 - 涵盖“思维链提示引发LLM推理”相关研究。
- 深度推理提示语合集 - 介绍如何使用提示语引导LLM进行可靠推理和决策。
- 指令调优论文合集 - 包含“自然指令”(ACL 2022)、“FLAN”(ICLR 2022)和“T0”(ICLR 2022)等指令调优相关论文。
- 深度推理提示语合集 - 介绍如何使用提示语引导LLM进行可靠推理和决策。
- 指令调优论文合集 - 包含“自然指令”(ACL 2022)、“FLAN”(ICLR 2022)和“T0”(ICLR 2022)等指令调优相关论文。
- 思维链推理平台 - 衡量LLM推理性能的相关资源。
- 思维链推理平台 - 衡量LLM推理性能的相关资源。
- GPT资源合集 - 与GPT、ChatGPT、OpenAI、LLM相关的优质项目和资源。
- GPT-3资源合集 - 收集关于OpenAI GPT-3 API的演示和文章。
- LLM人类偏好数据集合集 - 供LLM指令调优、强化学习(RLHF)和评估使用的人类偏好数据集。
- GPT资源合集 - 与GPT、ChatGPT、OpenAI、LLM相关的优质项目和资源。
- GPT-3资源合集 - 收集关于OpenAI GPT-3 API的演示和文章。
- LLM人类偏好数据集合集 - 供LLM指令调优、强化学习(RLHF)和评估使用的人类偏好数据集。
- RWKV教程 - RWKV学习相关材料和教程。
- 大语言模型编辑论文汇总 - 关于大语言模型编辑的论文和资源合集。
- RWKV教程 - RWKV学习相关材料和教程。
- 大语言模型编辑论文汇总 - 关于大语言模型编辑的论文和资源合集。
- LLM与人类对齐研究资源汇总 - 关于大语言模型与人类对齐的论文和资源集合。
- 代码LLM资源合集 - 收集与代码LLM相关的研究和资源。
- LLM安全资源合集 - 与LLM安全相关的工具、文档和项目资源。
- LLM压缩论文合集 - 关于LLM压缩的研究论文和工具。
- LLM系统研究论文合集 - 研究LLM系统的相关论文集合。
- LLM应用WebApp资源合集 - 收集开源并积极维护的LLM应用Web应用。
- 日本语LLM资源汇总 - 日本语LLM的概览。
- LLM在医疗中的应用论文汇总 - 关注LLM在医学领域应用的相关论文。
- LLM安全资源合集 - 与LLM安全相关的工具、文档和项目资源。
- LLM与人类对齐研究资源汇总 - 关于大语言模型与人类对齐的论文和资源集合。
- 代码LLM资源合集 - 收集与代码LLM相关的研究和资源。
- LLM压缩论文合集 - 关于LLM压缩的研究论文和工具。
- LLM系统研究论文合集 - 研究LLM系统的相关论文集合。
- LLM应用WebApp资源合集 - 收集开源并积极维护的LLM应用Web应用。
- 日本语LLM资源汇总 - 日本语LLM的概览。
- LLM在医疗中的应用论文汇总 - 关注LLM在医学领域应用的相关论文。
- LLM推理论文合集 - 以推理为主题的LLM相关论文汇总。
- LLM推理论文合集 - 以推理为主题的LLM相关论文汇总。
- 3D世界中的LLM研究资源 - 研究3D世界中多模态大语言模型的论文和资源合集。
- 语言模型分析论文合集 - 聚焦于语言模型的理论和实证分析,涉及学习动态、表现力、可解释性、泛化能力等议题。
- 3D世界中的LLM研究资源 - 研究3D世界中多模态大语言模型的论文和资源合集。
- 中文LLM资源合集 - 汇总开源中文大语言模型,包括小规模、可私有化部署、训练成本较低的模型及其应用、数据集和教程等。
- LLM优化任务研究合集 - 探索LLM在优化任务中的应用,收集相关研究论文。
- 中文LLM资源合集 - 汇总开源中文大语言模型,包括小规模、可私有化部署、训练成本较低的模型及其应用、数据集和教程等。
- LLM优化任务研究合集 - 探索LLM在优化任务中的应用,收集相关研究论文。
- 语言模型分析论文合集 - 聚焦于语言模型的理论和实证分析,涉及学习动态、表现力、可解释性、泛化能力等议题。
- LLM阅读清单 - 大语言模型相关论文和资源汇总。
- 语言模型推理研究 - 语言模型推理相关的论文和资源合集。
-
大型语言模型(LLM)排行榜
-
LLM 数据
- LLMDataHub
- IBM 数据预处理工具包 - 高效处理非结构化数据的开源工具包。
- LLMDataHub
- IBM 数据预处理工具包 - 高效处理非结构化数据的开源工具包。
-
开源大语言模型 (LLM)
- Mistral 7B
- OPT 系列
- Mixtral 系列
- Gemma 系列
- T5
- OpenELM-1.1
- OPT 系列
- Mistral 7B
- Mixtral 系列
- Gemma 系列
- T5
- OpenELM-1.1
- Phi 系列
- Phi 系列
- Command R-35B
- DeepSeek 系列
- DeepSeek 系列
- Baichuan 系列
- Qwen 系列
- Baichuan 系列
- Nemotron-4-340B
- GLM-2 系列
- Nemotron-4-340B
- GLM-2 系列
- StableLM 系列
- MPT-7B
- MPT-7B
- InternLM 系列
- InternLM 系列
- DeepSeek 系列
- DeepSeek 系列
- Llama 3 系列
- DeepSeek 系列
- Mistral 7B
-
LLM 评估工具
-
-
LLM训练框架
-
LLM 评估工具
- DeepSpeed - 一款深度学习优化库,旨在简化分布式训练和推理,提高效率和效果。
- DeepSpeed - 一款深度学习优化库,旨在简化分布式训练和推理,提高效率和效果。
- Megatron-DeepSpeed - NVIDIA Megatron-LM的DeepSpeed版本,增强了对MoE模型训练、课程学习、3D并行等特性的支持。
- torchtune - PyTorch原生库,用于对大规模语言模型(LLM)进行微调。
- Megatron-DeepSpeed - NVIDIA Megatron-LM的DeepSpeed版本,增强了对MoE模型训练、课程学习、3D并行等特性的支持。
- torchtune - PyTorch原生库,用于对大规模语言模型(LLM)进行微调。
- NeMo Framework - NVIDIA推出的生成式AI框架,支持LLM、语音识别(ASR)、文本到语音(TTS)等多个领域的研究。
- NeMo Framework - NVIDIA推出的生成式AI框架,支持LLM、语音识别(ASR)、文本到语音(TTS)等多个领域的研究。
- Megatron-LM - 进行大规模Transformer模型训练的研究框架。
- Colossal-AI - 让大型AI模型训练变得更便宜、更高效、更易访问。
- BMTrain - 高效的大型模型训练框架。
- Megatron-LM - 进行大规模Transformer模型训练的研究框架。
- Colossal-AI - 让大型AI模型训练变得更便宜、更高效、更易访问。
- BMTrain - 高效的大型模型训练框架。
- Mesh TensorFlow - 提供便捷的模型并行化训练方案。
- Mesh TensorFlow - 提供便捷的模型并行化训练方案。
- GPT-NeoX - 基于DeepSpeed库的GPU并行自回归Transformer模型实现。
- GPT-NeoX - 基于DeepSpeed库的GPU并行自回归Transformer模型实现。
-
-
LLM部署
-
LLM 评估工具
- llm-inference-solutions
- SGLang - 高效的LLM和视觉语言模型推理框架。
- llm-inference-solutions
- SGLang - 高效的LLM和视觉语言模型推理框架。
- vLLM - 高吞吐、低内存消耗的LLM推理和服务引擎。
- vLLM - 高吞吐、低内存消耗的LLM推理和服务引擎。
- TGI - Hugging Face推出的LLM部署和服务工具包。
- exllama - 为量化权重的Llama模型提供的更高效内存版本。
- FastChat - 支持多种模型的分布式LLM服务系统,提供Web UI和OpenAI兼容的RESTful API。
- exllama - 为量化权重的Llama模型提供的更高效内存版本。
- FastChat - 支持多种模型的分布式LLM服务系统,提供Web UI和OpenAI兼容的RESTful API。
- LangChain - 用于构建基于LLM的应用的Python/JavaScript库,支持通过组合模型实现复杂应用。
-
-
LLM应用
-
LLM 评估工具
- LangChain - 用于构建LLM链式应用的流行Python库。
- MLflow - 开源机器学习生命周期管理平台,支持实验跟踪、模型评估和部署。
- YiVal - 开源的GenAI-Ops工具,用于调优和评估LLM模型的提示、配置及模型参数。
- MLflow - 开源机器学习生命周期管理平台,支持实验跟踪、模型评估和部署。
- YiVal - 开源的GenAI-Ops工具,用于调优和评估LLM模型的提示、配置及模型参数。
- Prompttools - 用于测试和评估模型、向量数据库及提示的开源工具集。
- Weights & Biases - 用于跟踪模型训练和提示优化实验的商业工具。
- Prompttools - 用于测试和评估模型、向量数据库及提示的开源工具集。
- Weights & Biases - 用于跟踪模型训练和提示优化实验的商业工具。
-
-
LLM教程与课程
-
LLM 评估工具
- LLM课程 - 带有路线图和Colab笔记本,帮助你深入了解大型语言模型(LLM)。
- UWaterloo CS 886 - 探索基础模型的最新进展。
- CS25-Transformers United - 斯坦福大学的Transformers课程。
- ChatGPT提示工程 - 专为开发者设计的ChatGPT提示工程课程。
- 普林斯顿大学:理解大型语言模型 - 普林斯顿大学关于大型语言模型的课程。
- CS324 - 大型语言模型 - 斯坦福大学的LLM课程。
- GPT状态分析 - 了解GPT模型的最新发展。
- 构建GPT:从零开始的代码实现 - 一部详尽的GPT从零实现教程。
- LLM课程 - 带有路线图和Colab笔记本,帮助你深入了解大型语言模型(LLM)。
- UWaterloo CS 886 - 探索基础模型的最新进展。
- CS25-Transformers United - 斯坦福大学的Transformers课程。
- ChatGPT提示工程 - 专为开发者设计的ChatGPT提示工程课程。
- CS324 - 大型语言模型 - 斯坦福大学的LLM课程。
- GPT状态分析 - 了解GPT模型的最新发展。
- 构建GPT:从零开始的代码实现 - 一部详尽的GPT从零实现教程。
- femtoGPT - 使用纯Rust实现的最简生成预训练变换器(GPT)。
- Neurips2022:基础模型的鲁棒性 - 讨论基础模型的稳定性和鲁棒性。
- femtoGPT - 使用纯Rust实现的最简生成预训练变换器(GPT)。
- Neurips2022:基础模型的鲁棒性 - 讨论基础模型的稳定性和鲁棒性。
- ICML2022:大模型时代的技术与系统 - 探索大模型的训练与应用。
- ICML2022:大模型时代的技术与系统 - 探索大模型的训练与应用。
-
-
LLM书籍推荐
-
LLM 评估工具
- 《LangChain与生成式AI》 - 本书展示如何使用Python、ChatGPT及其他LLM构建生成式AI应用,并附带[GitHub代码](https://github.com/benman1/generative_ai_with_langchain)。
- 《从零开始构建大型语言模型》 - 详细指导如何构建一个可用的LLM。
- 《构建GPT:如何工作》 - 从零开始讲解如何编写一个生成预训练变换器(GPT)。
- 《从零开始构建大型语言模型》 - 详细指导如何构建一个可用的LLM。
- 《构建GPT:如何工作》 - 从零开始讲解如何编写一个生成预训练变换器(GPT)。
- 《大型语言模型实战》 - 一本详细的图解书籍,带你深入了解大型语言模型及其应用。
- 《大型语言模型实战》 - 一本详细的图解书籍,带你深入了解大型语言模型及其应用。
- 《LangChain与生成式AI》 - 本书展示如何使用Python、ChatGPT及其他LLM构建生成式AI应用,并附带[GitHub代码](https://github.com/benman1/generative_ai_with_langchain)。
-
-
LLM相关思考
-
LLM 评估工具
- 为什么所有GPT-3的公开复现都失败了?
- 为什么所有GPT-3的公开复现都失败了?
- 指令调优的阶段性回顾
- LLM驱动的自主代理
- 指令调优的阶段性回顾
- LLM驱动的自主代理
- 为什么你应该从事AI代理的工作!
- 为什么你应该从事AI代理的工作!
- 谷歌:我们没有护城河,OpenAI也没有
- AI竞争声明
- 谷歌:我们没有护城河,OpenAI也没有
- AI竞争声明
- 提示工程概述
- 提示工程概述
- 乔姆斯基:ChatGPT的虚假承诺
- 乔姆斯基:ChatGPT的虚假承诺
- ChatGPT的1750亿参数:技术分析
- ChatGPT的1750亿参数:技术分析
- 大型语言模型的下一代
- 大型语言模型的下一代
- 2023年大型语言模型训练
- 2023年大型语言模型训练
- GPT如何获得其能力?追溯语言模型的涌现能力
- GPT如何获得其能力?追溯语言模型的涌现能力
-
-
其他资源
-
LLM 评估工具
- Arize-Phoenix - 用于机器学习可观察性的开源工具,支持在你的笔记本环境中运行并调整LLM、计算机视觉(CV)和表格数据模型。
- Arize-Phoenix - 用于机器学习可观察性的开源工具,支持在你的笔记本环境中运行并调整LLM、计算机视觉(CV)和表格数据模型。
- 主要LLM及数据可用性 - 主要LLM模型的概览及其数据可用性。
- 主要LLM及数据可用性 - 主要LLM模型的概览及其数据可用性。
- 500+最佳AI工具
- Open-evals - 用于不同语言模型评估的扩展框架。
- AutoGPT - 一个展示GPT-4功能的开源应用。
- OpenAGI - 当LLM遇到领域专家时。
- EasyEdit - 一个易于使用的框架,用于编辑大型语言模型。
- chatgpt-shroud - 一个Chrome扩展,用于保护用户隐私,允许轻松隐藏和显示ChatGPT聊天记录。适合屏幕共享时使用。
- Open-evals - 用于不同语言模型评估的扩展框架。
- AutoGPT - 一个展示GPT-4功能的开源应用。
- OpenAGI - 当LLM遇到领域专家时。
- EasyEdit - 一个易于使用的框架,用于编辑大型语言模型。
- chatgpt-shroud - 一个Chrome扩展,用于保护用户隐私,允许轻松隐藏和显示ChatGPT聊天记录。适合屏幕共享时使用。
- chatgpt-wrapper - 一个开源的Python API和CLI工具,用于与ChatGPT交互。
-
Programming Languages
Categories
Sub Categories
Keywords
llm
35
large-language-models
32
chatgpt
17
awesome
12
llama
10
generative-ai
10
llms
10
inference
8
machine-learning
8
llmops
8
gpt
8
nlp
8
ai
8
deep-learning
8
gpt-3
7
evaluation-framework
7
python
7
transformers
6
transformer
6
pytorch
6
foundation-models
6
llm-inference
6
llm-serving
6
survey
6
natural-language-processing
6
llama2
6
awesome-list
6
language-model
6
prompt-engineering
6
chatbot
5
evaluation
5
openai
5
multimodal
4
prompt-learning
4
chain-of-thought
4
gpu
4
cuda
4
artificial-intelligence
4
large-language-model
4
mlops
4
trustworthy-ai
4
data-parallelism
4
model-parallelism
4
pipeline-parallelism
4
llm-evaluation
4
deepseek
4
tts
4
gpt4
3
gpt3
3
japanese-llm
2