An open API service indexing awesome lists of open source software.

StarryDivineSky

精选了10K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 10k+ projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!
https://github.com/wuwenjie1992/StarryDivineSky

Last synced: about 4 hours ago
JSON representation

  • A01_文本生成_文本对话

    • 大语言对话模型及数据

      • CherryHQ/cherry-studio-app
      • Xunzi-LLM-of-Chinese-classics/XunziALLM - LLM-of-Chinese-classics提供,是一个基于中国经典《荀子》的AI语言模型。项目特色在于使用《荀子》文本进行训练,以实现对中国古代哲学思想的深入理解和表达。工作原理是通过自然语言处理技术,将《荀子》内容转化为机器可读数据,再利用深度学习算法进行模型构建。模型能够生成与《荀子》风格相似的文本,并进行相关问答。该项目旨在推动中国古典文化在人工智能领域的应用,为研究者和爱好者提供便利。项目代码和文档已开源,方便开发者使用和贡献。模型性能优秀,能够准确把握《荀子》的核心思想和语言特点。
      • restyler/awesome-n8n - n8n是一个为n8n自动化工具整理的社区资源集合,提供丰富的节点库和教程帮助用户快速构建自动化流程。项目包含社区开发的各类节点扩展、操作指南及最佳实践案例,支持与数据库、API、云服务等数据源对接,通过可视化界面拖拽节点配置参数即可实现任务自动化。其核心原理是基于n8n的模块化架构,用户可将预设节点组合成工作流,系统自动处理数据流转和任务执行,适用于开发者和非技术人员。项目特色包括持续更新的节点资源库、详细教程文档、多场景案例解析,以及清晰的贡献指南。用户可通过提交PR或问题反馈参与社区建设,项目同时提供Discord和GitHub渠道进行交流支持,助力用户高效实现跨平台自动化需求。
      • MeetKai/functionary
      • aaronjmars/opendia
      • memodb-io/memobase
      • deepsense-ai/ragbits
      • axolotl-ai-cloud/axolotl
      • chatgpt-web-dev/chatgpt-web - web-dev/chatgpt-web 是一个使用 Express 和 Vue3 构建的第三方 ChatGPT Web 前端项目。它通过 OpenAI 官方 completion API 与 ChatGPT 进行交互。该项目旨在提供一个用户友好的界面来使用 ChatGPT。它是一个 Web UI 页面,方便用户在浏览器中使用 ChatGPT 的功能。开发者可以使用该项目作为基础,构建自己的 ChatGPT 应用。该项目的主要技术栈包括 Express (后端) 和 Vue3 (前端)。通过调用 OpenAI 的 API,实现与 ChatGPT 的对话功能。
      • openai/openai-quickstart-python
      • antvis/mcp-server-chart - server-chart 是一个基于 @antvis 的可视化模型上下文协议 (MCP) 服务器,用于生成 20 多种不同的图表。它允许用户通过定义模型上下文来动态生成图表,无需手动编写复杂的图表配置。该项目的主要特色在于其简化的图表生成流程,通过 MCP 协议接收数据和配置,然后自动渲染出相应的图表。它支持多种图表类型,覆盖了常见的可视化需求。开发者可以通过该服务器轻松集成图表生成功能到自己的应用中,提升数据可视化的效率。该项目的工作原理是接收符合 MCP 协议的请求,解析请求中的数据和配置信息,然后调用 @antvis 的图表库生成图表,最后将图表以图片或其它格式返回给客户端。
      • openai/agents.md
      • OSU-NLP-Group/TravelPlanner
      • SynaLinks/HybridAGI
      • ShuoTang123/MATRIX-Gen - Gen,通过多智能体模拟合成后训练数据,适用于大规模语言模型。使用1000个真实世界接地的智能体和结构化通信生成多样化的场景。MATRIX-Gen-SFT和MATRIX-Gen-DPO方法显著提高了模型性能,尤其是在代码、安全和多模态领域。更大规模的智能体和场景以及基于智能体分组的结构化通信能显著提升模型表现。该项目已在arxiv发布预印本论文。
      • LangbaseInc/baseai
      • AkariAsai/ScholarQABench
      • Eladlev/AutoPrompt - based Prompt Calibration方法,通过用户提供的初始提示和任务描述,迭代生成样本、标注并评估提示性能,最终由LLM改进提示,可与LangChain等工具集成,适用于数据合成和提示迁移等多种任务,使用GPT-4 Turbo优化通常只需几分钟且成本低于1美元。
      • databricks/megablocks - LM 集成,支持 MoE 的数据、专家和流水线并行训练。MegaBlocks 的 dMoE性能优于使用 Tutel 训练的 MoE,速度提升高达 40%。MegaBlocks dMoE 通过将 MoE 重构为块稀疏操作,避免了令牌丢弃,同时保持了硬件效率。与使用 Megatron-LM 训练的密集 Transformer 相比,MegaBlocks dMoE 可以将训练速度提高 2.4 倍。安装 MegaBlocks可以使用 `pip install megablocks` 命令,并使用提供的脚本进行 Transformer MoE 和 dMoE 语言模型的预训练。
      • Tencent/Tencent-Hunyuan-Large - Large 模型,这是一个基于 Transformer 的混合专家 (MoE)模型,拥有 3890 亿参数,其中 520 亿参数处于激活状态,是目前业界最大的开源 Transformer MoE 模型。该模型通过合成数据增强训练,并利用 GQA 和 CLA技术压缩 KV 缓存,显著降低内存使用和计算开销,提升推理效率。此外,Hunyuan-Large 还支持高达 256K 的文本序列,并提供针对该模型的推理框架,基于 TRT-LLM-backend 和 vLLM 开源框架,优化了性能,例如引入了新的 CLA 结构,显著减少 GPU 内存使用,确保高效处理长文本场景。
      • explosion/spacy-llm - llm是一个将大型语言模型(LLMs)集成到spaCy NLP流水线的项目,它提供模块化的组件,用于快速原型设计和提示,无需训练数据即可将非结构化响应转换为各种NLP任务的可靠输出,支持OpenAI、Cohere、Anthropic、Google PaLM、Azure AI等API以及Hugging Face上的开源LLM,并集成了LangChain,内置了NER、文本分类、词形还原等多种任务,并允许用户自定义函数和使用map-reduce方法处理长文本。
      • xai-org/grok-1 - 1开源权重模型的JAX示例代码,Grok-1是一个拥有3140亿参数的混合专家模型(MoE),每个token使用2个专家,模型包含64层,查询注意力头48个,键/值注意力头8个,嵌入大小为6144,使用SentencePiece分词器,支持旋转嵌入(RoPE)、激活分片和8比特量化,最大序列长度为8192个token。模型权重可通过磁力链接或HuggingFace Hub下载,代码和模型权重均采用Apache 2.0许可证。
      • maitrix-org/llm-reasoners - via-Planning、StructChem、Chain-of-thoughts、Least-to-most prompting、Tree-of-Thoughts、Self-Eval Guided Decoding、Grace Decoding、Eurus和PromptAgent,并支持Llama-2等多种大型语言模型。
      • baichuan-inc/Baichuan-13B - 7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。开源免费可商用:B对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,可免费商用。
      • MadcowD/ell - 4o-mini自动生成的提交消息,将提示的自动版本控制和序列化直接发送到本地存储。此过程类似于机器学习训练循环中的检查点,但它不需要任何特殊的 IDE 或编辑器 - 全部使用常规 Python 代码完成。3. 用于监控、版本控制和可视化的工具。使用正确的工具,Prompt 工程从一门黑暗的艺术变成了一门科学。Ell Studio 是一个本地开源工具,用于提示版本控制、监控、可视化。使用 Ell Studio,您可以随着时间的推移经验化您的提示优化过程,并在为时已晚之前捕获回归。4. 多模态应该是一流的。LLMs 可以处理和生成各种类型的内容,包括文本、图片、音频和视频。使用这些数据类型进行提示工程应该像使用文本一样简单。
      • topoteretes/cognee
      • SUSTech/SUS-Chat-34B - CCNL联合发布的34B中英双语对话模型。该模型基于 `01-ai/Yi-34B` 数百万个高质量的多语言教学数据,并对其进行了微调。在保持基础模型强大的语言能力的同时,通过高质量的指令微调改善了模型对人类指令的响应,并擅长通过思维链模仿人类的思维过程。它在长文本中引入了指令间注意力共享,将窗口大小从 4K 扩展到 8K,显着增强了多回合对话的可用性。采用14亿令牌的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等各类指令数据
      • microsoft/Samba - 3.8B 在 Phi3 数据集的 3.2 万亿个 token 上进行训练,在主要基准测试(例如 MMLU、GSM8K 和 HumanEval)上大幅超越 Phi3-mini。Samba 还可以通过最少的指令微调实现完美的**长上下文**检索能力,同时保持其对序列长度的**线性复杂度**。这种能力使 Samba-3.8B-instruct 在下游任务(如长上下文摘要)中取得了令人印象深刻的性能。
      • athina-ai/rag-cookbooks - ai/rag-cookbooks是一个关于检索增强生成(RAG)系统的先进技术集合,旨在通过提供清晰的实现和解释,帮助研究人员和开发者在项目中使用RAG技术,它从基础RAG开始,逐步深入到高级技术,并提供相关研究论文参考,主要包含索引、检索、增强和生成四个RAG核心组件,通过外部文档提高LLM响应的准确性和时效性。
      • neo4j/NaLLM
      • gomate-community/TrustRAG
      • pchunduri6/rag-demystified
      • johnma2006/mamba-minimal - minimal是一个用 PyTorch 实现的 Mamba 模型,它以单文件形式提供了一个简化的 Mamba 实现,并保证了与官方实现的数值输出一致。该项目以可读性为优先,代码经过注释,但没有包含官方实现中的速度优化和参数初始化,旨在帮助用户理解 Mamba 模型的工作原理。用户可以通过 demo.ipynb 文件查看示例代码,并使用该项目进行文本生成等任务。该项目基于 Albert Gu 和 Tri Dao的论文 "Mamba: Linear-Time Sequence Modeling with Selective State Spaces",并参考了官方实现。
      • DenisSergeevitch/chatgpt-custom-instructions - 4o上测试通过。
      • whyhow-ai/rule-based-retrieval - based Retrieval是一个Python包,用于创建和管理具有高级过滤功能的检索增强生成(RAG)应用,它集成了OpenAI用于文本生成,并支持Pinecone、Milvus或Qdrant进行高效向量数据库管理,项目提供了安装、文档、示例和贡献指南,并使用MIT许可证。
      • jonfairbanks/local-rag
      • NLPJCL/RAG-Retrieval - Retrieval项目提供RAG检索模型的端到端训练、推理和蒸馏代码,支持微调各种开源RAG检索模型,包括embedding模型、ColBERT和reranker模型,并提供统一的Python库调用不同RAG排序模型,还支持将LLM reranker模型蒸馏为BERT reranker模型,并包含MRL算法和多GPU训练策略。
      • TEN-framework/TEN-Agent
      • ictnlp/Repository-for-the-forthcoming-work
      • FlagOpen/FlagEval
      • PacktPublishing/LLM-Engineers-Handbook
      • huggingface/smollm - 1.7B-Instruct,支持多种使用方式,包括 `transformers`、`trl` 和 `llama.cpp` 等工具。此外,新推出的 SmolVLM 是基于 SmolLM2 的视觉语言模型。
      • timescale/pgai
      • pingcap/autoflow
      • felladrin/awesome-ai-web-search
      • SkyworkAI/Skywork-MoE - MoE 是一个高性能专家混合 (MoE) 模型,拥有 1460 亿个参数、16 位专家和 220 亿个激活参数。该模型是根据 Skywork-13B 模型预先存在的密集检查点进行初始化的。我们引入了两项创新技术:门控 Logit 归一化(增强专家多样化)和自适应辅助损失系数(允许对辅助损失系数进行特定层调整)。Skywork-MoE 表现出与具有更多参数或更多激活参数的模型(例如 Grok-1、DBRX、Mistral 8*22 和 Deepseek-V2)相当或更好的性能。
      • deepseek-ai/DeepSeek-V3 - V3是一个强大的混合专家(MoE)语言模型,总参数量为6710亿,每个token激活370亿参数,采用多头潜在注意力(MLA)和DeepSeekMoE架构以实现高效推理和低成本训练,并首创无辅助损失的负载均衡策略和多token预测训练目标,在14.8万亿高质量token上进行预训练,并通过监督微调和强化学习进一步提升性能,其性能优于其他开源模型,可与领先的闭源模型相媲美,且仅需278.8万H800 GPU小时即可完成训练。
      • HIT-SCIR/huozi - Bench](https://github.com/HIT-SCIR/huozi/blob/main/data/mt-bench-zh): 本数据集是英文MT-Bench对话能力评测数据集的中文版。它包含了一系列多轮对话问题,每一组问题都经过了精心的人工校对,并为适应中文语境进行了必要的调整。
      • withinmiaov/A-Survey-on-Mixture-of-Experts
      • asahi417/lm-question-generation
      • jxiw/MambaInLlama - 4 天内完成训练。项目提供多种预训练模型,包括从 Llama3.2 3B 蒸馏的混合 Mamba2 3B 模型,以及从 Llama3 蒸馏的混合Mamba 和 Mamba2 模型,这些模型在 MMLU、AlpacaEval 和 MT-Bench 等基准测试中表现出色。
      • huggingface/search-and-learn - and-learn旨在探索通用方法(如搜索和学习)在计算资源增加时的可扩展性,特别关注如何通过搜索和学习来优化模型在测试时的计算量,并提供了复现相关实验结果的脚本和配置文件。该项目基于“Scaling test-time compute with open models”博客文章和“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”论文的研究。
      • IEIT-Yuan/Yuan-2.0 - 102B、源2.0-51B、源2.0-2B。提供预训练、微调、推理服务的相关脚本,以供研发人员做进一步开发。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。
      • jina-ai/reader - friendly 输入。免费为您的代理和 RAG 系统提供改进的输出。搜索:它使用 https://s.jina.ai/your+query .这使您可以LLMs从网络上访问最新的世界知识。
      • wwliu555/rs-llm-paper-list
      • XiaoMi/subllm - shot评估代码,测试结果显示在1.3B模型上的性能优于LLaMA。该项目提供了结构图和详细的模块说明,并支持流式推理和few-shot评估。
      • karthink/gptel
      • METR/ai-rd-tasks - Bench 是一个用于评估语言模型代理与人类专家相比的前沿 AI 研发能力的基准。任务遵循 METR 任务标准,旨在帮助更容易地共享任务和评估智能体。项目包含密码保护的解决方案文件以保护信息不进入训练数据,并要求用户不要发布这些解决方案。项目已发布的工作由 Hjalmar Wijk 等人完成。包含两个任务示例:一个是让 GPT-3.5 在 Rust 代码竞赛问题上尽可能表现好,另一个是通过强化学习微调 GPT-2 以成为有效的聊天机器人。
      • nicepkg/aide
      • bytedance/SandboxFusion - E等多个数据集,可通过Docker或手动方式安装,并提供单元测试、代码格式化等开发工具。
      • jina-ai/dev-gpt - GPT是一个实验性的自动化开发团队项目,通过AI模拟产品经理、开发者和DevOps角色,根据用户描述自动生成微服务,支持GPT-3.5-turbo或GPT-4模型,并可选择使用Google搜索API增强功能,用户需配置OpenAI API Key,可选配置Google API Key和CSE ID。
      • mlc-ai/web-llm-chat - LLM连接本地或自定义模型),并基于开源的WebLLM项目。该项目旨在通过提供易于访问的强大工具来实现AI技术的民主化。
      • simonw/llm
      • wandb/openui
      • lm-sys/llm-decontaminator - rephraser:13B 模型在主要基准测试 (MMLU/GSK-8K/HumanEval) 中达到 GPT-4 性能!为了确保结果的有效性,我们遵循了 OpenAI 的去污方法,没有发现数据污染的证据。本文提出了一种基于更强LLM的去污器,并将其应用于现实世界的训练数据集(例如, the Stack、RedPajama),揭示了训练数据集与广泛使用的基准测试的显着重叠。现有的检测方法(例如,n-gram重叠,嵌入相似性)无法检测到这种污染。嵌入相似性方法很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。而本文提出可以使用“LLM去污器”来量化数据集相对于基准的重新表述的样本。根据检测结果,您可以估计数据集中改写样本的污染情况,并将其从训练集中移除。该LLM净化器包括两个步骤:对于每个测试用例,“LLM去污器”使用嵌入相似性搜索识别相似度最高的前 k 个训练项。从这些项目中,“LLM去污器”生成 k 个潜在的改写对,每对都使用高级 LLM,例如 GPT-4 进行改写评估。结果表明,我们提出LLM的方法在去除改写样本方面明显优于现有方法。
      • jingyaogong/minimind - V2、Llama3结构,项目包含整个数据处理、pretrain、sft、dpo的全部阶段,包含混合专家(MoE)模型。这是一个既是开源项目,又是入门LLM教程,同时也是一个初具雏形的开源模型,希望能起到抛砖引玉的作用。因此,本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。项目包含:公开MiniMind模型代码(包含Dense和MoE模型)、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源。兼容transformers、accelerate、trl、peft等流行框架。训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练,使用wandb可视化训练流程。支持在任意位置停止,及在任意位置继续训练。在Ceval数据集上进行模型测试的代码。实现Openai-Api基本的chat接口,便于集成到第三方ChatUI使用(FastGPT、Open-WebUI等)。
      • mshumer/gpt-author - 4、Stable Diffusion 和 Anthropic API 调用链来生成原创奇幻小说。用户可以提供一个初始提示并输入他们想要的章节数,然后人工智能会生成一整本小说,输出一个与电子书阅读器兼容的 EPUB 文件。一本 15 章的小说的制作成本低至 4 美元,而且只需几分钟即可写完。
      • higgsfield-ai/higgsfield - 3 deepspeed API 和 PyTorch 的全分片数据并行 API,实现万亿参数模型的高效分片。提供一个框架,用于在分配的节点上启动、执行和监控大型神经网络的训练。通过维护用于运行试验的队列来管理资源争用。通过与 GitHub 和 GitHub Actions 的无缝集成,促进机器学习开发的持续集成,Higgsfield 简化了训练大型模型的过程,并为开发人员提供了多功能且强大的工具集。
      • THUDM/ChatGLM3 - 6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
      • appl-team/appl
      • Open-Source-O1/Open-O1
      • ViggoZ/json-translate
      • AgentOps-AI/tokencost
      • shaochenze/PatchTrain
      • shuhao02/RouterDC
      • eseckel/ai-for-grant-writing
      • peremartra/Large-Language-Model-Notebooks-Course
      • zhiweihu1103/AgriMa - 首个开源中文农业大模型。由山西大学、山西农业大学、The Fin AI联合研发,以Baichuan为底座,基于海量有监督农业领域相关数据微调,具备广泛的农业知识和智能分析能力,该模型旨在为农业领域提供全面而高效的信息处理和决策支持。
      • Duxiaoman-DI/XuanYuan - 176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
      • SakanaAI/AI-Scientist
      • MadeAgents/Hammer
      • Lordog/dive-into-llms
      • AIDC-AI/Marco-o1 - o1 是一个开放的大规模推理模型,旨在解决现实世界中的开放性问题,支持多语言应用,通过链式思考、蒙特卡洛树搜索等策略优化复杂问题解决能力,但目前仍处于研究阶段,性能尚未达到理想水平。
      • LinkSoul-AI/Chinese-Llama-2-7b - 2-chat 格式,兼容适配所有针对原版 llama-2-chat 模型的优化。
      • srbhr/Resume-Matcher
      • RUC-GSAI/YuLan-Chat - 2开发的,具有高质量的中英文数据。
      • Significant-Gravitas/Auto-GPT-Plugins
      • tmlr-group/DeepInception - 2 和 GPT-3.5/4/4V 等开源/闭源LLMs自输的关键弱点。我们的调查呼吁人们应该更加关注安全方面,LLMs并加强对滥用风险的防御。
      • HandsOnLLM/Hands-On-Large-Language-Models - “Hands-On Large Language Models” 通过本书的视觉教育性质和 250 多个定制图表,学习您今天使用大型语言模型所需的实用工具和概念!第 1 章:语言模型简介。第 2 章:标记和嵌入。第 3 章:深入了解 Transformer LLMs。第 4 章:文本分类。第 5 章:文本聚类和主题建模。第 6 章:提示工程。第 7 章:高级文本生成技术和工具。第 8 章:语义搜索和检索 - 增强生成。第 9 章:多模态大型语言模型。第 10 章:创建文本嵌入模型。第 11 章:微调分类的表示模型。第 12 章:微调生成模型。
      • katanaml/sparrow - 可插拔架构。您可以使用 LlamaIndex、Haystack 或 Unstructured 等工具和框架轻松集成和运行数据提取管道。Sparrow 通过 Ollama 或 Apple MLX 启用本地LLM数据提取管道。使用 Sparrow 解决方案,您可以获得 API,这有助于处理数据并将其转换为结构化输出,随时可以与自定义工作流程集成。
      • BlinkDL/AI-Writer - 2。项目特色包括 GPU 加速和易于使用。RWKV 模型可以在 GitHub 上找到。项目地址:https://blinkdl.github.io/AI-Writer/。
      • chatanywhere/GPT_API_free
      • WangHuiNEU/llm
      • karpathy/minbpe - 2 论文和来自 OpenAI 的相关 GPT-2 代码发布为 LLMs(例如 GPT、Llama、Mistral)都使用这种算法来训练他们的分词器。
      • langchain-ai/chat-langchain
      • tmlr-group/CausalCOAT
      • Shaunwei/RealChar
      • allenai/OLMoE - of-Expert 语言模型。完全开放、最先进的 Expert 模型混合,具有 13 亿个有效参数和 69 亿个总参数。所有数据、代码和日志均已发布。
      • aiwaves-cn/RecurrentGPT
      • GAIR-NLP/abel
      • xverse-ai/XVERSE-65B - 65B。
      • CogStack/OpenGPT
      • PrefectHQ/marvin
      • OpenBMB/BMTools
      • Nutlope/notesGPT
      • iusztinpaul/hands-on-llms
      • openai/prm800k
      • zhoudaquan/ChatAnything
      • OrionStarAI/OrionStar-Yi-34B-Chat - 34B开源模型、使用15W+高质量语料微调而成。
      • JimLiu/gpt-games
      • gpustack/gpustack
      • multimodal-art-projection/MAP-NEO - NEO 是一个完全开源的大型语言模型,包括预训练数据、数据处理管道 (Matrix)、预训练脚本和对齐代码。它在 4.5T 中英文词元上从头开始训练,表现出与 LLaMA2 7B 相当的性能。MAP-Neo 模型在推理、数学和编码等具有挑战性的任务中提供类似专有模型的性能,优于同等规模的同类产品。出于研究目的,我们的目标是在LLM培训过程中实现完全透明。为此,我们全面发布了 MAP-Neo,包括最终和中间检查点、自训练标记器、预训练语料库,以及高效、稳定优化的预训练代码库。
      • QwenLM/Qwen-VL - VL(通义千问-VL)聊天和预训练大视觉语言模型的官方回购。
      • ArrogantL/ChatGPT4CausalReasoning
      • shreyashankar/gpt3-sandbox - 3 API创建很酷的Web演示,只需几行Python。
      • InternLM/InternLM-XComposer
      • Timothyxxx/Chain-of-ThoughtsPapers
      • eric-ai-lab/MiniGPT-5 - 5:通过生成式Vokens交错视觉和语言生成”的正式实现
      • SUFE-AIFLM-Lab/FinEval
      • KudoAI/chatgpt.js
      • CVI-SZU/Linly - ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据。中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow。此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer。
      • varunshenoy/super-json-mode
      • HITsz-TMG/awesome-llm-attributions
      • steven2358/awesome-generative-ai
      • X-PLUG/ChatPLUG - paly instructions 来自定义对话和字符的样式很容易。它通过多轮对话展示了其在开放领域对话方面的熟练程度,同时也在广泛的 NLP 任务上表现出色 multi-task abilities 。
      • KevinWang676/ChatGLM2-Voice-Cloning
      • janhq/jan
      • zyang1580/BinLLM
      • meta-math/MetaMath
      • dvmazur/mixtral-offloading - 8x7B 模型,通过多种技术的组合实现了对Mixtral-8x7B模型的高效推理:使用 HQQ 进行混合量化,我们为注意力层和专家应用单独的量化方案,以将模型拟合到组合的 GPU 和 CPU 内存中。MoE 卸载策略,每层的每个专家都单独卸载,仅在需要时将背包带到 GPU,我们将活跃的 EA 存储在 LRU 缓存中,以减少在计算相邻令牌的激活时 GPU-RAM 通信。
      • poloclub/transformer-explainer - 2 模型,允许您试验自己的文本并实时观察 Transformer 的内部组件和操作如何协同工作以预测下一个令牌。在 http://poloclub.github.io/transformer-explainer 上试用 Transformer Explainer,并在 YouTube https://youtu.be/ECR4oAwocjs 上观看演示视频。
      • cocktailpeanut/dalai
      • Alibaba-NLP/SeqGPT
      • THUDM/LongCite - glm4-9b 和 LongCite-llama3.1-8b,它们分别基于 GLM-4-9B 和 Meta-Llama-3.1-8B 进行训练,并支持高达 128K 的上下文。这两个模型指向了我们论文中的“LongCite-9B”和“LongCite-8B”模型。给定基于长上下文的查询,这些模型可以生成准确的响应和精确的句子级引用,使用户可以轻松验证输出信息。
      • THUDM/MathGLM
      • SALT-NLP/FLANG
      • Neutralzz/BiLLa
      • tiingweii-shii/Awesome-Resource-Efficient-LLM-Papers
      • gd3kr/BlenderGPT - 4控制Blender。
      • varunshenoy/GraphGPT - 3 从非结构化文本推断知识图谱
      • CrazyBoyM/llama2-Chinese-chat - 本项目是一个教程记录整理的repo,旨在提供给新手的参照价值和开箱即用的中文LLaMa2对话体验。包含训练过程记录,各种主要量化方式,部署后端api的推荐方案,以及在一个具体的前端网页上实现开箱即用的流畅对话体验。
      • facebookresearch/lingua
      • TransformerLensOrg/TransformerLens
      • spcl/graph-of-thoughts
      • ray-project/llm-numbers
      • whoiskatrin/chart-gpt
      • LLaVA-VL/LLaVA-Plus-Codebase
      • hitz-zentroa/GoLLIE
      • AINativeLab/gptstore-data-backup
      • pjlab-sys4nlp/llama-moe - MoE:将 LLaMA 的 FFN 划分为稀疏专家,并为每一层专家插入 top-K 门。使用来自 Sheared LLaMA 的优化数据采样权重和来自 SlimPajama 的过滤数据集,持续预训练初始化的 MoE 模型。
      • wenge-research/YaYi
      • JosephusCheung/GuanacoDataset
      • THUDM/GLM-130B - 130B是一个开放的双语(英汉)双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 上具有 130B 参数的推理任务。通过 INT4 量化,硬件可以进一步降低到具有 4 * RTX3090 24G 的单个服务器,几乎没有性能下降。
      • refuel-ai/autolabel - 4 这样的先进技术能够以高精度自动标记数据,而且与手动标记相比,成本和时间只是其中的一小部分。
      • ymcui/Chinese-LLaMA-Alpaca
      • aaamoon/copilot-gpt4-service
      • EleutherAI/math-lm
      • charlesjin/emergent-semantics
      • karpathy/nano-llama31 - 2。也就是说,它是 Llama 3.1 架构的最小、无依赖的实现,它可以非常简单地训练、微调和推理。这与 Meta 的官方代码发布和 huggingface 实现相比,后者都具有更重的依赖性和更多的代码。代码目前主要针对 Llama 3.1 的 8B 基础模型。
      • deepseek-ai/DeepSeek-MoE
      • decodingml/llm-twin-course - 从数据收集到部署。您还将学习利用 MLOps 最佳实践,例如实验跟踪器、模型注册表、提示监视和版本控制。
      • baichuan-inc/baichuan-7B - Eval/MMLU)上均取得同尺寸最好的效果。
      • LianjiaTech/BELLE
      • LightChen233/Awesome-Multilingual-LLM - 多语言LLM。实际上,世界上有 7000 多种语言。随着全球化进程的加快,大型语言模型的成功应该考虑服务于不同的国家和语言。为此,多语言大型语言模型(MLLM)在处理多种语言时具有优势,越来越受到关注。
      • Calcium-Ion/new-api
      • PhoebusSi/Alpaca-CoT - tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。[Alpaca-CoT · Datasets](https://huggingface.co/datasets/QingyiSi/Alpaca-CoT)
      • km1994/LLMsNineStoryDemonTower - LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。
      • bleedline/Awesome-gptlike-shellsite
      • nlpxucan/WizardLM - Instruct提供支持的遵循指令的LLM系列:WizardLM,WizardCoder和WizardMath。基于GPT-4的自动评估框架来评估聊天机器人模型的性能。WizardLM-30B取得了比Guanaco-65B更好的结果。
      • pashpashpash/vault-ai
      • yihong0618/bilingual_book_maker
      • FreedomIntelligence/LLMZoo - inst-chat-7b 达到85.2% 的ChatGPT效果。
      • mlc-ai/web-llm
      • amazon-science/mm-cot
      • YiVal/YiVal - Ops 工具,用于使用可自定义的数据集、评估方法和改进策略来调整和评估提示、配置和模型参数。
      • argilla-io/argilla
      • rawandahmad698/PyChatGPT
      • dandelionsllm/pandallm - 7B, -13B, -33B, -65B 进行中文领域上的持续预训练。
      • jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
      • x-dr/chatgptProxyAPI
      • luban-agi/Awesome-Domain-LLM
      • liady/ChatGPT-pdf
      • openlm-research/open_llama
      • yaodongC/awesome-instruction-dataset
      • NVIDIA/GenerativeAIExamples
      • xtekky/gpt4free - ts)
      • jackaduma/awesome_LLMs_interview_notes
      • voidful/awesome-chatgpt-dataset
      • thunlp/UltraChat
      • BlinkDL/ChatRWKV
      • zilliztech/GPTCache
      • ntunlplab/traditional-chinese-alpaca
      • wong2/chatgpt-google-extension
      • chenking2020/FindTheChatGPTer
      • acheong08/Bard
      • humanloop/awesome-chatgpt - 3的惊人工具、演示和文档
      • terry3041/pyChatGPT
      • saharmor/awesome-chatgpt
      • abielzulio/chatgpt-raycast
      • xtekky/chatgpt-clone
      • acheong08/EdgeGPT
      • openai/openai-cookbook
      • terror/chatgpt.nvim
      • gptshunter.com
      • acheong08/ChatGPT
      • microsoft/autogen - core是按照actor 模型构建的。它支持代理和基于事件的工作流程之间的异步消息传递。核心层中的代理使用直接消息传递(其功能类似于 RPC)或通过广播到主题(即发布-订阅)来处理和生成类型化消息。代理可以分布并用不同的编程语言实现,同时仍然可以相互通信。如果您正在构建可扩展的事件驱动代理系统,请从这里开始。
      • stanfordnlp/dspy - 3.5 or GPT-4 )和本地模型(如 T5-base or Llama2-13b )在任务中更加可靠,即具有更高的质量和/或避免特定的故障模式。DSPy 优化器会将同一程序“编译”为不同的指令、小样本提示和/或每个 LM 的权重更新(微调)。这是一种新的范式,在这种范式中,LM 及其提示逐渐淡出背景,作为可以从数据中学习的更大系统的可优化部分。顶级域名;更少的提示,更高的分数,以及更系统地解决 LM 的艰巨任务的方法。
      • GAIR-NLP/PC-Agent - Agent是一个利用大型语言模型(LLM)驱动的自主智能体,旨在自动化PC上的各种任务。它通过模拟人类的认知过程,理解用户指令并执行相应的操作,例如浏览网页、操作应用程序和管理文件。该项目的主要特色在于其认知能力,能够进行复杂的推理和规划,从而完成多步骤的任务。PC-Agent的核心工作原理是首先解析用户指令,然后利用LLM生成一系列操作步骤,最后通过模拟键盘和鼠标输入来执行这些步骤。它支持多种操作系统,并提供灵活的配置选项,允许用户自定义其行为。该项目还强调了安全性和隐私保护,确保用户数据不会被泄露。PC-Agent的目标是成为一个强大的个人助理,帮助用户提高工作效率,实现真正的自动化。它目前仍处于开发阶段,但已经展示了巨大的潜力,有望改变我们与计算机交互的方式。
      • lazychih114/AgentGen-Reproduction
      • ctlllll/LLM-ToolMaker - ToolMaker是一个将大型语言模型(LLM)作为工具制造者的框架,旨在通过让LLM创建可重复使用的工具来增强其解决问题的能力。该框架分为两个阶段:工具制作和工具使用。工具制作阶段由一个强大的LLM负责,它从少量示例中创建通用的Python工具函数。工具使用阶段则由一个更轻量级的LLM负责,它使用这些工具来解决各种问题。该框架的优势在于,它可以将工具制作和工具使用分开,从而实现成本效益,同时保持工具质量和解决问题的能力。例如,可以使用强大的GPT-4作为工具制造者,使用更轻量级的GPT-3.5作为工具使用者,从而在保持性能的同时降低推理成本。该框架在各种复杂推理任务中得到了验证,包括Big-Bench任务。
      • myshell-ai/AIlice
      • filip-michalsky/SalesGPT
      • crewAIInc/crewAI - 就像一个运转良好的船员一样。无论您是在构建智能助手平台、自动化客户服务集成还是多代理研究团队,CrewAI 都可以为复杂的多代理交互提供支柱。主要特点:基于角色的代理设计:使用特定角色、目标和工具自定义代理。自主代理间委派:代理可以自主委派任务并相互查询,从而提高解决问题的效率。灵活的任务管理:使用可自定义的工具定义任务并将其动态分配给代理。流程驱动:目前仅支持顺序任务执行和分层流程,但更复杂的流程(如共识和自主)。将输出另存为文件:将单个任务的输出另存为文件,以便以后使用。将输出解析为 Pydantic 或 Json:如果需要,可以将单个任务的输出解析为 Pydantic 模型或 Json。使用开源模型:使用 Open AI 或开源模型运行 crewAI
      • browser-use/web-ui - use项目构建,并感谢WarmShao的贡献。WebUI使用Gradio框架,支持browser-use的大部分功能,界面友好,方便用户与浏览器智能体交互。它扩展了对多种大型语言模型(LLM)的支持,包括Gemini、OpenAI、Azure OpenAI、Anthropic、DeepSeek和Ollama等,未来计划支持更多模型。用户可以使用自己的浏览器,无需重新登录,并支持高清屏幕录制。该项目还支持持久化浏览器会话,允许用户查看AI交互的完整历史和状态。安装方式包括本地安装(需Python 3.11+,使用uv管理环境)和Docker安装(需Docker和Docker Compose)。本地安装需要安装依赖和Playwright,Docker安装需要配置.env文件。WebUI默认运行在7788端口,VNC Viewer用于查看浏览器交互,默认端口为6080,密码为vncpassword。用户可以通过命令行参数自定义WebUI的IP和端口。
      • langchain-ai/opengpts - 一个用于创建代理运行时的框架。它还建立在LangChain、LangServe和LangSmith之上。OpenGPT 为您提供更多控制权,允许您配置:您使用的(LLM在LangChain提供的60+之间选择);您使用的提示(使用 LangSmith 调试这些提示);您给它的工具(从LangChain的100+工具中选择,或轻松编写自己的工具);您使用的向量数据库(从LangChain的60+向量数据库集成中选择);您使用的检索算法;您使用的聊天记录数据库。最重要的是,它使您可以完全控制应用程序的认知架构。目前,已实现三种不同的架构:助理、RAG、聊天机器人。
      • LogiTorch/logitorch - LSAT、ConTRoL、LogiQA、ReClor、RuleTaker、ProofWriter、SNLI、MultiNLI、RTE、Negated SNLI、Negated MultiNLI、Negated RTE、PARARULES Plus、AbductionRules、FOLIO、FLD、LogiQA2.0、LogiQA2.0 NLI、HELP、SimpleLogic、RobustLR、LogicNLI等。同时,LogiTorch还实现了多种模型,包括RuleTaker、ProofWriter、BERTNOT、PRover、FLDProver、TINA、FaiRR、LReasoner、DAGN、Focal Reasoner、AdaLoGN、Logiformer、LogiGAN、MERit、APOLLO、LAMBADA等。
      • BAI-LAB/BaiJia - LAB/BaiJia,主要目标是创建一个基于LLM(大型语言模型)的智能助手,专注于提供个性化和高效的AI服务。项目核心特色在于其模块化的设计,允许开发者轻松扩展和定制功能,例如添加新的工具或集成不同的LLM。BaiJia的工作原理是利用LLM进行自然语言理解和生成,结合预定义的工具和知识库来完成用户请求。它支持多种交互方式,包括文本和语音输入,并提供丰富的API接口供其他应用调用。项目还强调可维护性和可扩展性,鼓励社区贡献和共同开发。BaiJia旨在成为一个灵活、强大的AI助手平台,能够适应各种不同的应用场景。
      • SalesforceAIResearch/xLAM
      • yanweiyue/GDesigner - Designer 通过将多智能体系统建模为多智能体网络,利用变分图自编码器对智能体及任务特定的虚拟节点进行编码,从而解码出任务自适应且高效的通信拓扑。G-Designer 的核心思想是将多智能体系统建模为一个多智能体网络,利用变分图自编码器(VGAE)对智能体(节点)及其特定任务信息进行编码和解码,从而生成适应任务需求的通信拓扑。
      • X-PLUG/MobileAgent - Agent是一个强大的移动设备操作助手家族,它通过多智能体协作实现高效的导航,支持多种移动设备操作,包括手机、PC 等。项目已在 NeurIPS 2024 和 ICLR 2024 Workshop on Large Language Model (LLM) Agents 等顶级会议上发表,并获得了 CCL 2024 最佳演示奖。用户可以通过 Hugging Face 和 ModelScope 体验 Mobile-Agent-v2 的演示,无需配置模型和设备即可立即体验。Mobile-Agent-v3 拥有更小的内存占用 (8 GB) 和更快的推理速度 (10s-15s 每操作),并完全使用开源模型。
      • lupantech/chameleon-llm - 4的即插即用组合推理框架,它可以解决科学问题、数学问题和表格问答等任务。该项目利用工具使用和大型语言模型,通过将推理过程分解成多个步骤,并使用不同的工具来解决每个步骤,从而实现更强大的推理能力。该项目已发表在arXiv上,并获得了广泛关注,包括被AlphaSignal评为AI论文排行榜第一名,以及在MarkTechPost、DAIR.AI和WorldofAI等媒体平台上报道。
      • dynamiq-ai/dynamiq
      • thunlp/ProactiveAgent
      • trypromptly/LLMStack
      • ServiceNow/AgentLab
      • pydantic/pydantic-ai
      • kingjulio8238/Memary
      • itsPreto/tangent
      • Zero6992/chatGPT-discord-bot
      • CopilotKit/CopilotKit
      • RUCAIBox/ChainLM - Chat 7B 和 13B)进行微调,并将 ChainLM 与现有流行的LLMs在 9 个复杂推理数据集上进行比较。最后,基于我们的ChainLM模型,我们提出了一种CoT推理策略,即步级辩论。数据生成过程:我们的数据生成过程是三个管道的组合。 复杂化:首先,我们使用复杂化策略将原始数据的问题复杂化。其次,根据新问题的复杂程度进行进化成功判断。然后,生成新问题的答案。最后,对新的<question、CoT>样本进行正确性验证。 多样化:与复杂化类似,但使用多样化的方法来指导问题生成。 指定:首先重写种子数据集中的CoT,然后进行进化成功判断。
      • NirDiamant/Prompt_Engineering
      • aws-samples/claude-prompt-generator
      • zjunlp/FactCHD - 4 等大型语言模型 (LLMs 因其无数的实际应用而受到广泛关注,但它们的采用受到跨 Web 平台事实冲突幻觉问题的限制。由 LLMs仍未得到充分探索,不仅延伸到对原版事实的判断,还包括对复杂推理任务(如多跳等)中出现的事实错误的评估。作为回应,我们引入了 FACTCHD,这是一个为 LLMs。作为在 “Query-Respons” 上下文中评估事实性的关键工具,我们的基准测试吸收了大规模数据集,封装了广泛的事实性模式,例如普通、多跃点、比较和集合操作模式。我们的基准的一个显着特点是它结合了基于事实的证据链,从而促进了整个评估过程中全面和有利的事实推理。我们评估了多个 LLMs,证明了基准测试的有效性,而当前方法未能忠实地检测事实错误。此外,我们提出了 TRUTH-TRIANGULATOR,它通过基于 Llama2 的工具增强 ChatGPT 和 LoRA 调整综合了反思考虑,旨在通过预测结果和证据的融合产生更可信的检测。我们的基准 FACTCHD 包括一个全面的数据集,包括 51,383 个用于训练的事实/非事实样本和另外 6,960 个用于 LLM。它涵盖了广泛的领域,包括健康、医学、气候、科学等。FACTCHD 通过检查包含单个事实和多个事实之间交互的四种不同模式,努力探索 LLMs。我们的自动化数据构建策略以利用大量广泛知识 (KG) 为中心,包括数据收集过程、“Query-Respons”上下文的生成、基于事实的证据链以及人工过滤和统计分析。
      • confident-ai/deepeval - Eval、幻觉、答案相关性、RAGAS等指标来评估LLM输出,并使用在本地机器上运行的LLM和其他NLP模型进行评估。DeepEval支持各种应用,包括RAG、微调、LangChain和LlamaIndex。它可以帮助您轻松确定最佳超参数,以改进RAG管道,防止提示漂移,甚至从OpenAI过渡到自信地托管自己的Llama2。DeepEval提供各种现成的LLM评估指标,包括G-Eval、摘要、答案相关性、忠实度、上下文召回、上下文精度、RAGAS、幻觉等,并支持自定义指标。它可以并行评估整个数据集,并与任何CI/CD环境无缝集成。DeepEval还提供用于在流行的LLM基准上对任何LLM进行基准测试的功能,包括MMLU、HellaSwag、DROP、BIG-Bench Hard、TruthfulQA、HumanEval等。
      • reasoning-machines/pal - Aided Language Models)是一个利用程序辅助大型语言模型解决复杂推理问题的项目,它通过生成包含文本和代码的推理链来解决涉及复杂算术和程序性任务的推理问题。PaL将代码的执行委托给程序运行时(例如Python解释器),并使用少样本提示方法实现。该项目提供了一个交互式实现,并支持ChatGPT API,包含GSM-hard数据集,以及用于推理的脚本。用户可以通过简单的接口类使用PaL,并根据提示设置代码执行表达式。该项目在多个推理任务上取得了显著成果,包括数学推理、日期理解和颜色物体识别。
      • madaan/memprompt - 3 部署后问题的工具,无需重新训练模型。它通过记忆辅助的提示编辑来改进 GPT-3 的性能。该项目提供代码和数据,并包含一个用于模拟 Python 终端的笔记本,展示了 Memprompt 的一个重要方面:与少样本模型进行有状态交互。Memprompt 支持两种模式:使用记忆流式处理和使用不断增长的提示流式处理。用户可以通过命令行参数指定任务文件、作业 ID、澄清概率、记忆类型、检查点路径和提示路径等参数。该项目还提供了一些不同大小和类型的任务文件,供用户尝试。
      • anthropics/prompt-eng-interactive-tutorial
      • anthropics/anthropic-cookbook
      • zjunlp/Prompt4ReasoningPapers
      • kevinamiri/Instructgpt-prompts - 3.5 指令的提示,用于生成和分类文本。该项目包括 ChatGPT 和 GPT-3.5 模型的提示,旨在协助完成写作、分析和理解任务。下面有许多提示,您可以使用这些提示为您的项目生成内容、调试代码、查找问题的解决方案,或者只是了解有关这些模型可以做什么的更多信息。通过使用适当的指令动词,您可以指导模型解决任何与语言相关的任务。
      • zchuz/CoT-Reasoning-Survey
      • suffix-maybe-feature/adver-suffix-maybe-features
      • langgptai/LangGPT
      • openreasoner/openr
      • yokoffing/ChatGPT-Prompts - Greg Brockman。欢迎来到 “ChatGPT Prompts” 仓库!这是与 ChatGPT 模型一起使用的提示示例集合。
      • prompt-engineering/click-prompt
      • neulab/prompt2model
      • hegelai/prompttools
      • EgoAlpha/prompt-in-context-learning - 3 和 FlanT5 等 LLM,并提供最新和前沿的更新。
      • promptslab/Awesome-Prompt-Engineering
      • thinkingjimmy/Learning-Prompt
      • timqian/openprompt.co
      • GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese
      • pacholoamit/chatgpt-prompts
      • microsoft/MMLU-CF - CF是一个无污染的多任务语言理解基准测试,旨在解决现有MMLU基准测试中数据泄露问题。它通过严格的过滤和重新构建,确保测试集不包含训练集中出现的样本,从而提供更可靠的评估。该项目包含全新的测试集,涵盖57个学科,并提供相应的评估代码和预训练模型。MMLU-CF的核心工作原理是利用大型语言模型对原始MMLU数据进行重新生成,并进行严格的去重和污染检查。它采用多种去重策略,包括基于n-gram的重复检测和基于语义相似度的过滤。该基准测试的目标是更准确地衡量大型语言模型在知识理解和推理方面的真实能力,避免因数据污染而导致的虚高评估结果。MMLU-CF鼓励研究人员使用其提供的工具和数据集,以促进更公平、更可靠的模型评估。该项目还提供了详细的文档和示例,方便用户理解和使用。
      • wikieden/Awesome-ChatGPT-Prompts-CN - 咒语指南-聊天提示词指南
      • trigaten/Learn_Prompting
      • L1Xu4n/Awesome-ChatGPT-prompts-ZH_CN
      • truefoundry/cognita
      • relari-ai/continuous-eval - ai/continuous-eval 是一个为大型语言模型(LLM)驱动的应用提供数据驱动评估的开源项目。它旨在通过持续监控和评估来提升LLM应用的性能和可靠性。该项目核心在于使用真实用户数据来创建评估数据集,并利用这些数据自动评估LLM的输出质量。它支持多种评估指标,可以根据不同的应用场景进行定制。该项目的工作原理是收集用户交互数据,将其转化为评估数据,然后运行评估并提供反馈。它提供了一个灵活的框架,可以集成到现有的LLM应用开发流程中。continuous-eval的目标是帮助开发者更好地理解LLM应用的表现,并根据评估结果进行改进。该项目还提供了示例和文档,方便用户快速上手。总而言之,它是一个用于持续评估和改进LLM应用性能的强大工具。
      • OpenStellarTeam/ChineseSafetyQA
      • arcprizeorg/model_baseline
      • modelscope/evalscope - Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH 和 HumanEval。EvalScope 支持各种类型的模型评估,包括 LLMs、多模态 LLMs、嵌入模型和重排模型,也适用于多种评估场景,例如端到端 RAG 评估、竞技场模式和模型推理性能压力测试。此外,EvalScope 与 ms-swift 训练框架无缝集成,只需点击一下即可启动评估,提供从模型训练到评估的完整端到端支持。EvalScope架构包含以下模块:模型适配器、数据适配器、评估后端和性能评估器。评估后端支持多种模式,包括原生评估框架、OpenCompass、VLMEvalKit、RAGEval 和第三方评估任务。
      • CLUEbenchmark/FewCLUE - shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。FewCLUE:中文小样本学习测评基准,基于CLUE的积累和经验,并结合少样本学习的特点和近期的发展趋势,精心设计了该测评,希望可以促进中文领域上少样本学习领域更多的研究、应用和发展。模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET、RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、使用RoBERTa或GPT做零样本学习。
      • evalplus/evalplus - NeurIPS 2023。EvalPlus 是 LLM4Code 的严格评估框架,具有:HumanEval+:测试次数比原来的 HumanEval 多 80 倍!MBPP+:测试次数是原始 MBPP 的 35 倍!评估框架:我们的 packages/images/tools 可以在上述基准测试中轻松安全地评估 LLMs。为什么选择EvalPlus?精确的评估和排名:查看我们的排行榜以获取严格的评估前后的最新LLM排名。编码严谨性:看看分数差异!尤其是在使用 EvalPlus 测试之前和之后!丢弃越少越好,因为它意味着代码生成更加严格和不那么松懈;而大幅下降意味着生成的代码往往很脆弱。预生成样本:EvalPlus 通过开源 LLM——无需重新运行昂贵的基准测试!
      • onejune2018/Awesome-LLM-Eval - LLM-Eval是一个精选的GitHub项目,它汇集了大量用于评估大型语言模型(LLM)的资源。该项目主要关注LLM的评估,旨在探索生成式人工智能的技术边界。它包含工具、数据集/基准、演示、排行榜、相关论文、文档和模型等多种资源。该项目致力于为研究人员和开发者提供一个全面的LLM评估资源库。通过这些资源,用户可以更好地理解和评估LLM的性能。项目内容涵盖了从数据准备到模型评估的整个流程,方便用户进行LLM的深入研究。该项目持续更新,旨在跟踪LLM评估领域的最新进展。它是一个非常有价值的资源,可以帮助用户了解LLM的优势和局限性。
      • truera/trulens - Eval 评估LLMs和LLM基于应用程序的工具,以及使用 TruLens-Explain 的深度学习可解释性。TruLens-Eval 和 TruLens-Explain 装在单独的封装中,可以独立使用。更快地创建可靠且功能强大的LLM应用程序。TruLens 是一种软件工具,可帮助您使用反馈功能客观地衡量基于应用程序LLM的质量和有效性。反馈函数有助于以编程方式评估输入、输出和中间结果的质量,以便您可以加快和扩大实验评估。将其用于各种用例,包括问答、摘要、检索增强生成和基于代理的应用程序。
      • ScalerLab/JudgeBench - 4o 和 Claude-3.5-Sonnet 生成的 350 个和 270 个独特的响应对。每个实例包含两个响应和一个客观标签,指示哪个响应更正确。该项目提供了一个 HuggingFace 数据集,并支持多种评判系统,包括 Arena-Hard、PandaLM、Prometheus 2、JudgeLM、AutoJ 和 Skywork-Critic,以及多种奖励模型,例如 InternLM2-7B-Reward、InternLM2-20B-Reward、GRM-Gemma-2B、Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。用户可以使用 `run_judge.py` 脚本运行评判系统,并通过命令行参数指定评判系统名称、模型名称和数据路径等信息。
      • WeOpenML/PandaLM - 7B在测试数据集上实现了93.75%的GPT-3.5评估能力和88.28%的GPT-4评估能力,证明了其可靠性和一致性。该项目包含PandaLM的训练代码、人工标注的测试数据集、模型权重以及其他基础模型(如Bloom、OPT和LLaMA)的指令微调代码和配置。
      • metauto-ai/agent-as-a-judge - as-a-Judge 提供两个主要优势:自动评估: Agent-as-a-Judge 可以在任务执行期间或之后进行评估,与人类专家相比,节省了 97.72% 的时间和 97.64% 的成本。提供奖励信号: 它提供持续的、循序渐进的反馈,可用作进一步代理培训和改进的奖励信号。作为概念验证,我们将 Agent-as-a-Judge 应用于使用 DevAI 的代码生成任务,DevAI 是一个由 55 个真实的 AI 开发任务和 365 个分层用户需求组成的基准测试。结果表明,代理即法官 (Agent-as-a-Judge) 明显优于传统的评估方法,为代理系统中的可扩展自我提升提供可靠的奖励信号。
      • OpenBMB/ToolBench - 3.5-turbo-16k)自动构建的,该ChatGPT通过增强的函数调用功能进行了升级。我们提供数据集,相应的训练和评估脚本,以及在ToolBench上微调的功能强大的模型ToolLLaMA。
      • nick7nlp/Counting-Stars - Stars是一个用于评估长文本上下文大型语言模型 (LLM) 的多证据、位置感知且可扩展的基准测试。它通过多证据获取和多证据推理两项任务来评估 LLM,其中包含大量证据,并允许灵活调整证据在上下文中的位置。该基准测试可扩展至任意长度的上下文和任意数量的证据。实验结果表明,Gemini 1.5 Pro 在整体表现上最佳,而 GPT-4 Turbo 在各种任务中的表现最为稳定。该项目还提供了中文和英文版本的 Counting-Stars 数据集,并包含对不同 LLM 在该基准测试上的评估结果。
      • microsoft/promptbench - shot Chain-of-Thought、Emotion Prompt、Expert Prompting等。评估对抗性提示:promptbench 集成了提示攻击 ,使研究人员能够模拟模型上的黑盒对抗性提示攻击并评估其鲁棒性。动态评估以减轻潜在的测试数据污染:我们集成了动态评估框架DyVal,该框架以可控的复杂性即时生成评估样本。
      • GAIR-NLP/auto-j - J 基于来自真实世界用户查询的数据和来自各种LLMs响应的数据进行训练,涵盖 58 个真实世界场景。灵活性:Auto-J 支持成对响应比较和单响应评估,只需切换到相应的提示即可。可解释性:Auto-J 提供详细的自然语言评论,可提高其评估结果的可靠性,并促进人类参与评估循环。
      • langchain-ai/langchain-benchmarks
      • declare-lab/instruct-eval - T5和Alpaca等指令调整模型代表了一个令人兴奋的方向,以更低的成本接近ChatGPT等大型语言模型(LLM)的性能。但是,定性比较不同模型的性能具有挑战性。为了评估模型在各种看不见和具有挑战性的任务中的泛化程度,我们可以使用MMLU和BBH等学术基准。与评估工具和 HELM 等现有库相比,此存储库可以简单方便地评估多个模型。支持HuggingFace Transformers 的大多数模型。
      • zexuanqiu/CLongEval - LLAMA2-7B-64K、Zh-Alpaca2-7B-64K、Qwen-7B-32K、ChatGLM3-6B-32K、InternLM2-7B-32K、InternLM2-20B-32K、GLM-4-128K、Mooshot-v1-32K 和 GPT-4-Turbo-128K。
      • PAIR-code/llm-comparator
      • hendrycks/test - 3、flan-T5等模型。该测试基于ETHICS数据集,旨在评估模型在人文、社会科学、STEM等领域的理解能力。
      • openai/simple-evals - 4o、GPT-4 Turbo、Claude 3.5 Sonnet、Llama 3.1、Grok 2、Gemini 1.0 Ultra等)在这些基准测试上的表现。该库还强调了评估对提示的敏感性,并提供了一些提示示例。
      • huggingface/lighteval
      • OpenBMB/UltraEval
      • Alibaba-NLP/CDQA - of-Thought 和 Rephrase-and-Respond)以进行评估。
      • wandb/weave
      • exa-labs/exa-hallucination-detector
      • vectara/hallucination-leaderboard - 2.1模型。
      • llmeval/llmeval-3
      • OpenStellarTeam/ChineseSimpleQA - evals 开发,遵循 MIT 许可证。更多信息请访问官方网站或查阅论文。
      • marzenakrp/nocha
      • NVIDIA/garak
      • TheDuckAI/arb
      • LuckyyySTA/Awesome-LLM-hallucination
      • jeinlee1991/chinese-llm-benchmark
      • sambanova/toolbench
      • RUCAIBox/HaluEval
      • Felixgithub2017/MMCU
      • thu-coai/SafetyBench
      • hkust-nlp/ceval
      • HowieHwong/TrustGPT
      • google/BIG-bench - bench 中包含的 200 多个任务。
      • CLUEbenchmark/CLUE
      • ninehills/llm-inference-benchmark - 推理基准测试
      • scutcyr/BianQue - CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx 医生:xxx 病人:xxx 医生:”的形式统一为一种指令格式,训练数据当中混合了大量target文本为医生问询的内容而非直接的建议,这将有助于提升AI模型的问询能力。基于扁鹊健康大数据BianQueCorpus,我们选择了 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue2.0。扩充了药品说明书指令、医学百科知识指令以及ChatGPT蒸馏指令等数据,强化了模型的建议与知识查询能力。[BianQue](https://huggingface.co/spaces/scutcyr/BianQue)
      • HIT-SCIR-SC/QiaoBan
      • camel-ai/camel
      • Kent0n-Li/ChatDoctor - 10K 的患者医生之间的 10k 真实对话。 5k从ChatGPT [GenMedGPT-5k](https://drive.google.com/file/d/1ZKbqgYqWc7DJHs3N9TQYQVPdDQmZaClA/view?usp=sharing)和[疾病数据库](https://drive.google.com/file/d/1nDTKZ3wZbZWTkFMBkxlamrzbNz0frugg/view?usp=sharing) 生成了患者和医生之间的[对话](https://github.com/Kent0n-Li/ChatDoctor/blob/main/format_dataset.csv)。
      • FreedomIntelligence/HuatuoGPT-II - 4。开源7B、13B、34B版本。HuatuoGPT2 数据:发布部分预训练和微调指令。中医LLM评价:综合自动评价方法,对医学反应能力LLM和新鲜专业药师考试考核进行评价。
      • openmedlab/XrayPULSE - former(BLIP2)作为适配器,通过简单的线性变换将图像注入PULSE。为了通过适配器对齐冷冻视觉编码器和LLM,我们借助chatGPT从两个数据集(MIMIC-CXR和OpenI)的自由文本放射学报告中生成中文版Xray-Report配对数据。为了促进生物医学多模态学习的研究,我们将向公众发布数据。
      • CMKRG/QiZhenGPT - base.com/)构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
      • FreedomIntelligence/HuatuoGPT-o1 - o1是一个用于医学复杂推理的大语言模型,它通过医学验证器引导模型进行推理,并使用强化学习提升推理能力,提供了7B、8B和70B等不同规模的模型,支持英文和中文,模型采用“先思考后回答”的方式,输出包含推理过程和最终答案,并开源了模型、数据和代码。
      • pariskang/CMLM-ZhongJing - 中京”。受中国古代医学大师张仲景深邃智慧的启发,是专为中医领域设计的预训练大语言模型。
      • qiuhuachuan/smile - 6B LoRA 16-bit 指令微调得到。数据集通过扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
      • michaelwzhu/ChatMed_Consult_Dataset - 3.5引擎回答的。后续会对互联网上的医生回答与患者回答进行筛选甄别,择优选择,构建质量更优的数据集。
      • shibing624/medical
      • wangrongsheng/HealthCareMagic-100k-en - 患者对话。通过手动和自动方式过滤这些数据,删除医生和患者的身份信息,并使用语言工具纠正语法错误。
      • itsharex/CareLlama
      • shibing624/MedicalGPT
      • SupritYoung/Zhongjing
      • FreedomIntelligence/CMB
      • SCIR-HI/Huatuo-Llama-Med-Chinese
      • DUTIR-BioNLP/Taiyi-LLM
      • microsoft/LLaVA-Med - 4 级功能而构建。
      • wangrongsheng/icliniq-10k-en
      • FreedomIntelligence/huatuo_knowledge_graph_qa
      • pubmedqa/pubmedqa
      • michaelwzhu/ShenNong_TCM_Dataset
      • wenge-research/YAYI2 - 30B 是基于 Transformer 的大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景,我们采用了百万级指令进行微调,同时借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐。[YAYI2 预训练数据](https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data) ,选了约100B数据,数据大小约为500GB。在预训练阶段,我们不仅使用了互联网数据来训练模型的语言能力,还添加了通用精选数据和领域数据,以增强模型的专业技能。通用精选数据包含人工收集和整理的高质量数据。涵盖了报纸类数据、文献类数据、APP类数据、代码类数据、书籍类数据、百科类数据。其中,报纸类数据包括广泛的新闻报道和专栏文章,这类数据通常结构化程度高,信息量丰富。文献类数据包括学术论文和研究报告,为我们的数据集注入了专业和深度。代码类数据包括各种编程语言的源码,有助于构建和优化技术类数据的处理模型。书籍类数据涵盖了小说、诗歌、古文、教材等内容,提供丰富的语境和词汇,增强语言模型的理解能力。构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。我们共收集了 240TB 原始数据,预处理后仅剩 10.6TB 高质量数据。
      • eureka-research/Eureka - 4)的卓越零镜头生成、代码编写和上下文改进功能,对奖励代码执行上下文进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。Eureka 生成的奖励函数优于专家人工设计的奖励,无需任何特定于任务的提示或预定义的奖励模板。在包含 10 种不同机器人形态的 29 种开源强化学习环境中,Eureka 在 83% 的任务中表现优于人类专家,平均标准化改进了 52%。尤里卡的通用性还提供了一种新的无梯度方法来从人类反馈(RLHF)进行强化学习,很容易结合人类监督来提高上下文中生成的奖励的质量和安全性。最后,在课程学习环境中使用尤里卡奖励,我们首次演示了一个模拟的五指影手,能够执行钢笔旋转技巧,熟练地以人类的速度操纵笔。
      • QwenLM/Qwen-Audio - Audio接受各种音频(人类语音、自然声音、音乐和歌曲)和文本作为输入,输出文本。贡献包括:`基础音频模型`:基础的多任务音频语言模型,支持各种任务、语言和音频类型,作为通用音频理解模型。在Qwen-Audio的基础上,我们通过指令微调开发Qwen-Audio-Chat,实现多轮对话,支持多样化的音频场景。`适用于所有类型音频的多任务学习框架`:为了扩大音频语言预训练的规模,我们通过提出一个多任务训练框架,实现知识共享和避免一对多干扰,解决了与不同数据集相关的文本标签变化的挑战。我们的模型包含 30 多个任务,大量实验表明该模型具有强大的性能。`强大的性能`:在各种基准测试任务中都取得了令人印象深刻的性能,而无需任何特定任务的微调,超过了同类产品。在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 的测试集上取得先进的结果。`从音频和文本输入灵活多运行聊天`:支持多音频分析、声音理解和推理、音乐欣赏和工具使用。
      • DAMO-NLP-SG/Video-LLaMA - LLaMA建立在BLIP-2和MiniGPT-4之上。它由两个核心组件组成:(1)视觉语言(VL)分支和(2)音频语言(AL)分支。`VL 分支`(可视编码器:ViT-G/14 + BLIP-2 Q 前置器),引入两层视频Q-Forform和帧嵌入层(应用于每帧的嵌入)来计算视频表示。使用视频到文本生成任务在 Webvid-2M 视频字幕数据集上训练 VL Branch。我们还将图像文本对(来自LLaVA的~595K图像标题)添加到预训练数据集中,以增强对静态视觉概念的理解。在预训练之后,我们使用来自MiniGPT-4,LLaVA和VideoChat的指令调整数据进一步微调我们的VL Branch。`AL 分支`(音频编码器:ImageBind-Huge): 引入两层音频Q-Forform和音频段嵌入层(应用于每个音频段的嵌入)来计算音频表示。由于使用的音频编码器(即 ImageBind)已经跨多个模态对齐,因此我们仅根据视频/图像指令数据训练 AL Branch,只是为了将 ImageBind 的输出连接到语言解码器。在跨模态训练期间,只有视频/音频、位置嵌入层和线性层可训练。
      • Acmesec/PromptJailbreakManual - **目标**:介绍如何进行Prompt越狱,包括越狱的目的、原理、创建流程、使用AI的过程、成本和技巧等。 - **什么是Prompt越狱**:通过特定的设置和触发条件,让Prompt系统产生预期之外的行为或输出。 - **Prompt构建的原理**:包括输入定义、特征信息、触发需求、预期效果等。 - **AI使用流程**:常见触发点,如输入特定词汇或短语。 - **Prompt设计的成本**:涉及时间、资源和专业知识。 - **Prompt设计的技巧**:包括综合问题、微调模型、语言调整、适应性训练、反向推理、交互学习、代理激励、功能优化等。 - **持续改进**:通过时间、经验积累、适应性训练、反向推理、交互学习、代理激励、功能优化等手段提升效果。
      • OpenBMB/MiniCPM - 2B 仅有 24亿的非词嵌入参数量, 总计2.7B参数量。经过 SFT 后,在公开综合性评测集上,与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。经过 DPO 后,在当前最接近用户体感的评测集 MTBench上,也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。以 MiniCPM-2B 为基础构建端侧多模态大模型 MiniCPM-V,整体性能在同规模模型中实现最佳,超越基于 Phi-2 构建的现有多模态大模型,在部分评测集上达到与 9.6B Qwen-VL-Chat 相当甚至更好的性能。经过 Int4 量化后,可在手机上进行部署推理,流式输出速度略高于人类说话速度。也直接跑通了多模态大模型在手机上的部署。一张1080/2080可高效参数微调,一张3090/4090可全参数微调,一台机器可持续训练 MiniCPM,二次开发成本较低。
      • facebookresearch/blt
      • krystalan/DRT-o1 - o1 是一个通过长链思维优化深度推理翻译的项目,它专注于提升大型语言模型(LLM)在翻译任务中的推理能力。该项目采用了一种新的方法,通过将复杂的翻译任务分解为更小的、可管理的步骤,并使用长链思维来引导LLM进行逐步推理,从而提高翻译质量。DRT-o1 的核心思想是让LLM像人类翻译者一样思考,逐步理解原文并构建目标语言的表达。它利用了思维链提示(Chain-of-Thought prompting)技术,并对其进行了优化,以适应翻译场景。该项目提供了相关的代码和实验结果,展示了其在不同翻译任务上的有效性。DRT-o1 旨在解决传统神经机器翻译模型在复杂推理和上下文理解方面的不足,为构建更智能、更准确的翻译系统提供新的思路。其主要贡献在于提出了一个可行的框架,将长链思维应用于翻译任务,并验证了其有效性。该项目使用PyTorch框架实现,并提供了详细的文档和示例,方便用户使用和复现。
      • Ljyustc/SocraticLM
      • llm-jp/awesome-japanese-llm - jp/awesome-japanese-llm”,它是一个关于日语大型语言模型(LLM)的资源汇总。该项目旨在整理和分享各种日语LLM的相关信息,包括模型、数据集、工具和研究论文。它涵盖了多种类型的日语LLM,例如预训练模型、微调模型和特定任务模型。该项目还列出了可用于训练和评估日语LLM的数据集,以及相关的开源工具和库。此外,该项目还收录了关于日语LLM的学术研究论文,方便研究人员了解最新进展。这个项目由LLM-JP社区维护,旨在促进日语LLM的开发和应用。它是一个非常有价值的资源,可以帮助开发者和研究人员快速了解和使用日语LLM。通过这个项目,用户可以找到最新的日语LLM模型、数据集和相关工具,并跟踪该领域的最新研究进展。总而言之,这是一个全面且不断更新的日语LLM资源库。
      • azminewasi/Awesome-LLMs-ICLR-24
      • OpenGVLab/InternVL - 4o 的开创性开源替代品。接近GPT-4o表现的可商用开源多模态对话模型。InternVL 1.5,这是一种开源多模态大型语言模型 (MLLM),旨在弥合开源和专有商业模型在多模态理解方面的能力差距。我们介绍三种简单的设计:强视觉编码器:我们探索了一种针对大规模视觉基础模型的持续学习策略——InternViT-6B,提升其视觉理解能力,使其可以在不同的LLMs环境中转移和复用。动态高分辨率:我们根据输入图像的纵横比和分辨率,将图像划分为 1 到 40 的 448 × 448 像素的瓦片,最高支持 4K 分辨率输入。高质量的双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见场景、文档图像,并用中英文问答对进行标注,显著提高了OCR和中文相关任务的性能。
      • acon96/home-llm - llm的GitHub项目,它是一个Home Assistant集成和模型,旨在让你使用本地大型语言模型(LLM)来控制智能家居。该项目允许用户通过自然语言与智能家居设备交互,无需依赖云服务。其核心工作原理是利用本地LLM处理用户的语音或文本指令,然后将其转化为Home Assistant可以理解的命令。项目特色包括完全本地运行、保护用户隐私、支持多种LLM模型,并提供灵活的配置选项。用户可以自定义指令和设备映射,以满足个性化需求。该项目还提供了一些预训练模型和示例配置,方便用户快速上手。它旨在为用户提供一个更安全、更私密的智能家居控制体验。该项目目前仍处于开发阶段,欢迎用户贡献代码和反馈。
      • jquesnelle/yarn
      • pengr/LLM-Synthetic-Data - Synthetic-Data是一个关于大型语言模型(LLM)合成数据的实时、细粒度阅读清单。它旨在追踪和整理LLM合成数据领域的最新研究和进展。该项目通过持续更新的资源列表,帮助用户快速了解该领域的重要论文、文章和工具。其核心内容包括对不同合成数据方法的分类,例如基于LLM的文本生成、图像生成等,并深入探讨了这些方法在不同任务中的应用。此外,该项目还关注合成数据质量的评估指标和提升策略,以及使用合成数据训练LLM的挑战和机遇。这个项目的主要目标是为研究人员和从业者提供一个全面、便捷的入口,以便他们及时掌握LLM合成数据的最新动态,并促进该领域的研究和应用。
      • bklieger-groq/g1 - 3.1 70b 创建类似 o1 的推理链。这是使用提示策略通过类似 o1 的推理链来提高 LLM 的推理能力的早期原型。这允许 LLM “思考”并解决通常会难倒领先模型的逻辑问题。与 o1 不同,它显示了所有推理标记,并且该应用程序使用开源模型。G1 是实验性的,并且是开源的,以帮助激励开源社区开发新的策略来产生类似 O1 的推理。该实验有助于展示在可视化步骤中提示推理的力量,而不是与使用不同技术的 o1 进行比较或完全复制。相反,OpenAI 的 o1 通过大规模强化学习进行训练,以使用 Chain of Thought 进行推理,从而在复杂的博士级问题上实现最先进的性能。g1 展示了单独提示克服简单的 LLM 逻辑问题(如 Strawberry 问题)的潜力,使现有的开源模型能够从动态推理链和改进的界面中受益。由 Llama3.1-70b 提供支持的 g1 创建了推理链,原则上是一个动态的思维链,它允许 LLM 能够“思考”并解决一些通常会难倒领先模型的逻辑问题。在每个步骤中,LLM 可以选择继续另一个推理步骤,或提供最终答案。每个步骤都有标题,并且对用户可见。系统提示符还包括 LLM。Prompt Breakdown 下有完整的解释,但有几个示例要求模型“包括对替代答案的探索”和“使用至少 3 种方法来得出答案”。因此,通过将思维链与尝试多种方法、探索替代答案、质疑以前的草案解决方案并考虑 LLM。仅此一项,无需任何训练,就足以在草莓问题上达到 ~70% 的准确率(n=10,“草莓中有多少 R?)在没有提示的情况下,Llama-3.1-70b 的准确率为 0%,ChatGPT-4o 的准确率为 30%。
      • THUDM/CogVLM - 17B具有100亿个视觉参数和70亿个语言参数。在10个经典的跨模态基准测试上实现了最先进的性能,包括NoCaps,Flicker30k字幕,RefCOCO,RefCOCO+,RefCOCOg,Visual7W,GQA,ScienceQA,VizWiz VQA和TDIUC,并在VQAv2,OKVQA,TextVQA,COCO字幕等方面排名第二,超过或匹配PaLI-X 55B。CogVLM还可以与您讨论图像。CogVLM 是一个强大的开源视觉语言模型,利用视觉专家模块深度整合语言编码和视觉编码,在 10 项权威跨模态基准上取得了SOTA性能。目前仅支持英文,后续会提供中英双语版本支持。CogVLM模型包括四个基本组件:视觉转换器(ViT)编码器,MLP适配器,预训练大语言模型(GPT)和视觉专家模块。
      • google-deepmind/LLMs_can_learn_rules
      • microsoft/sammo
      • IEIT-Yuan/Yuan2.0-M32 - M32是一个混合专家 (MoE) 语言模型,有 32 位专家,其中 2 位活跃专家。提出了一种新的路由器网络——注意力路由器(Attention Router),并已被采用以提高专家选择的效率,与使用经典路由器网络的模型相比,准确率提高了 3.8%。 Yuan 2.0-M32使用2000B token从头开始训练,其训练计算量仅为相同参数规模的稠密模型所需的9.25%。 Yuan2.0-M32 在编码、数学和各种专业领域展示了竞争能力,总共 40B 的活动参数中仅使用 3.7B,每个代币的前向计算为 7.4 GFLOPS,仅为 Llama3 的 1/19。 70B的要求。 Yuan 2.0-M32 在 MATH 和 ARC-Challenge 基准测试中超越了 Llama3-70B,分别达到了 55.9% 和 95.8% 的准确率。
      • microsoft/prompty
      • Xnhyacinth/Awesome-LLM-Long-Context-Modeling - LLM-Long-Context-Modeling 收集了关于基于大型语言模型(LLM)的长文本建模的必读论文和博客。它旨在帮助研究人员和从业者快速了解该领域的前沿进展。项目主要关注如何让LLM处理更长的上下文信息,并提供了多种方法,包括改进注意力机制、位置编码和训练策略。该项目整理了相关资源,方便用户查找和学习。它覆盖了长文本建模的各种技术,如稀疏注意力、分层注意力等。项目还包括一些关于如何评估长文本建模效果的基准和指标。这个项目是学习LLM长文本建模的绝佳资源,提供了全面的文献和博客链接。它持续更新,反映最新的研究动态。
      • DaveBben/esp32-llm - S3FH4R2因为它有 2MB 的嵌入式 PSRAM。通过对 llama2.c 进行以下更改,我能够达到 19.13 tok/s:在数学运算中利用 ESP32 的两个内核。利用 ESP-DSP 库中专为 ESP32-S3 设计的一些特殊点积函数,这些功能利用了 ESP32-S3 为数不多的 SIMD 指令。将 CPU 速度提高到 240 MHz,将 PSRAM 速度提高到 80MHZ,并增加指令缓存大小。
      • deepseek-ai/DeepSeek-V2 - V2:强大、经济且高效的专家混合语言模型,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它包含 236B 个总参数,其中 21B 为每个词元激活。与DeepSeek 67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提升了5.76倍。我们在由 8.1 万亿个词元组成的多样化、高质量的语料库上预训练了 DeepSeek-V2。在这种全面的预训练之后,是监督微调 (SFT) 和强化学习 (RL) 的过程,以充分释放模型的能力。评估结果验证了我们方法的有效性,因为DeepSeek-V2在标准基准测试和开放式生成评估中都取得了卓越的性能。大海捞针 (NIAH) 测试的评估结果。DeepSeek-V2 在高达 128K 的所有上下文窗口长度上都表现良好。我们在 AlpacaEval 2.0 和 MTBench 上评估了我们的模型,显示了 DeepSeek-V2-Chat-RL 在英语会话生成方面的竞争性能。我们在 LiveCodeBench (0901-0401) 上评估我们的模型,这是一个为实时编码挑战而设计的基准测试。如图所示,DeepSeek-V2 在 LiveCodeBench 方面表现出相当的熟练程度,取得了超过其他几个复杂模型的Pass@1分数。这一性能突出了该模型在处理实时编码任务方面的有效性。DeepSeek-V2 采用创新架构,保证训练经济高效:在注意力方面,我们设计了MLA(Multi-head Latent Attention),它利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,从而支持高效的推理。对于前馈网络 (FFN),我们采用 DeepSeekMoE 架构,这是一种高性能的 MoE 架构,能够以更低的成本训练更强大的模型。
      • microsoft/GRIN-MoE - MoE 是一个基于梯度信息引导的混合专家模型,它在只有 6.6B 活跃参数的情况下,在各种任务(特别是编码和数学任务)中取得了优异的性能。GRIN 使用 SparseMixer-v2 来估计与专家路由相关的梯度,而传统的 MoE 训练将专家门控视为梯度估计的代理。GRIN 在训练 MoE 时无需使用专家并行或令牌丢弃,而传统的 MoE训练则需要使用这些技术。该模型适用于需要内存/计算受限环境、延迟限制场景和强大推理能力(特别是代码、数学和逻辑)的通用 AI 系统和应用程序。开发者应注意语言模型的常见限制,并在使用模型之前评估和缓解准确性、安全性以及公平性问题。
      • huggingface/transfer-learning-conv-ai - 2 Transformer 语言模型,可以用于训练对话代理。该项目包含用于训练和测试的脚本,并提供了一个预训练模型,可在单个或多个 GPU 上进行训练。该项目还包含一个与预训练模型交互的脚本,可用于与模型进行对话。该项目代码简洁易懂,并包含分布式和 FP16 选项,可用于重现 HuggingFace 在 NeurIPS 2018 对话竞赛 (ConvAI2) 中取得的最佳成绩。该模型可以在一个 8 V100 云实例上训练大约一个小时,并且提供了一个预训练模型。
      • awesome-chatgpt/awesome-chatgpt
      • WooooDyy/MathCritique - Time and Training-Time Supervision”的研究,通过引入两个角色模型(推理模型和批判模型)的两玩家框架,利用批判数据监督推理模型,提高其解决复杂推理任务的能力。项目包括自动收集批判数据的框架(AutoMathCritique),以及用于训练和测试的文件,展示了批判监督对模型性能的提升。
      • jina-ai/thinkgpt
      • bbycroft/llm-viz - V CPU的构建过程。
      • SylphAI-Inc/LLM-engineer-handbook
      • louisfb01/start-llms
      • LearnPrompt/LearnPrompt
      • AgentOps-AI/agentops
      • noworneverev/graphrag-visualizer - api](https://github.com/noworneverev/graphrag-api)进行搜索。
      • getzep/graphiti
      • mckaywrigley/clarity-ai
      • circlemind-ai/fast-graphrag
      • AkariAsai/OpenScholar
      • Cinnamon/kotaemon - cpp-python)。轻松安装:简单的脚本,让您快速入门。对于开发人员:RAG 管道框架:用于构建您自己的基于 RAG 的文档 QA 管道的工具。可自定义的 UI:使用提供的 UI 查看 RAG 管道的运行情况,该 UI 是使用 Gradio 构建的。Gradio 主题:如果您使用 Gradio 进行开发,请在此处查看我们的主题:kotaemon-gradio-theme。主要特点:托管您自己的文档 QA (RAG) web-UI:支持多用户登录,在私人/公共收藏中组织您的文件,与他人协作并分享您最喜欢的聊天。组织你的LLM和嵌入模型:支持本地LLMs和流行的API提供商(OpenAI, Azure, Ollama, Groq)。混合RAG管道:合理的默认RAG管道,带有混合(全文和矢量)检索器和重新排名,以确保最佳的检索质量。多模式 QA 支持:使用图形和表格支持对多个文档执行问答。支持多模态文档解析(UI 上的可选选项)。带文档预览的高级引文:默认情况下,系统会提供详细的引文以确保 LLM。直接在浏览器内的 PDF 查看器中查看您的引文(包括相关分数),并突出显示。当检索管道返回低相关文章时发出警告。支持复杂推理方法:使用问题分解来回答复杂/多跃点问题。使用 ReAct、ReWOO 和其他代理支持基于代理的推理。可配置的设置用户界面:您可以在用户界面上调整检索和生成过程的最重要方面(包括提示)。可扩展:基于 Gradio 构建,您可以根据需要自由自定义或添加任何 UI 元素。此外,我们的目标是支持多种文档索引和检索策略。GraphRAG 索引管道作为示例提供。
      • severian42/GraphRAG-Local-UI - 具有强大的 API 和多个应用程序,用于索引/提示调整/查询/聊天/可视化/等。特征:以 API 为中心的架构:一个强大的基于 FastAPI 的服务器 (api.py),作为 GraphRAG 操作的核心。专用索引和提示优化 UI:一个单独的基于 Gradio 的界面 (index_app.py),用于管理索引和提示优化过程。本地模型支持:利用 LLM,包括与 Ollama 和兼容 OpenAI 的 API 的兼容性。成本效益:通过使用您自己的本地模型,消除对昂贵的基于云的模型的依赖。交互式 UI:用户友好的界面,用于管理数据、运行查询和可视化结果(主应用程序)。实时图形可视化:使用 Plotly(主应用程序)以 2D 或 3D 形式可视化您的知识图谱。文件管理:直接从 UI 上传、查看、编辑和删除输入文件。设置管理:通过 UI 轻松更新和管理您的 GraphRAG 设置。输出探索:浏览和查看索引输出和工件。日志:实时日志记录,以便更好地调试和监控。灵活的查询:支持具有可自定义参数的全局、本地和直接聊天查询(主应用程序)。可定制的可视化:调整图形布局、节点大小、颜色等,以适应您的偏好(主应用程序)。
      • gkamradt/LLMTest_NeedleInAHaystack
      • InternLM/MindSearch - 7b-chat)。它具有以下特点:询问您想知道的一切: 旨在解决您生活中的任何问题并使用网络知识。 深入的知识发现: 浏览数百个网页来回答您的问题,提供更深入、更广泛的知识库答案。 详细的解决方案路径: 公开所有详细信息,允许用户检查他们想要的一切。这大大提高了其最终响应的可信度和可用性。优化UI外观:为用户提供各种界面,包括React、Gradio、Streamlit和Terminal,根据您的需要选择任何类型。动态图谱构建过程:将用户查询分解为原子子问题,作为图中的节点,并根据WebSearcher的搜索结果逐步扩展图。
      • starsuzi/Adaptive-RAG - RAG:学习通过问题复杂性来适应检索增强的大型语言模型。我们提出了一种新的自适应QA框架,该框架可以根据查询复杂性,从最简单到最复杂的(检索增强)LLMs。此外,这个选择过程是通过分类器进行操作的,分类器是一个较小的 LM,经过训练,可以使用自动收集的标签来预测传入查询的复杂程度,这些标签是从模型的实际预测结果和数据集中固有的归纳偏差中获得的。这种方法提供了一种平衡的策略,在迭代和单步检索增强 LLMs,以响应一系列查询复杂性。我们在一组涵盖多种查询复杂性的开放域 QA 数据集上验证了我们的模型,并表明与包括自适应检索方法在内的相关基线相比,我们的模型提高了 QA 系统的整体效率和准确性。
      • hhhuang/CAG
      • ammaarreshi/Gemini-Search - Search是一个基于谷歌Gemini 2.0 Flash模型和谷歌搜索的Perplexity风格AI搜索引擎克隆。它能提供AI驱动的答案,并带有实时网络来源和引用。该项目使用React、Vite、TypeScript和Tailwind CSS构建前端,后端则使用Express.js和TypeScript,核心AI能力由Google Gemini 2.0 Flash API提供,搜索功能则集成Google Search API。该项目具有实时网络搜索集成、快速响应、来源引用、后续问题支持和简洁现代的UI等特点。开发者需要Node.js、npm或yarn以及一个拥有Gemini API访问权限的谷歌API密钥才能运行。项目提供开发、构建和生产运行的npm脚本,并强调了API密钥的安全管理,使用MIT许可证开源。该项目灵感来源于Perplexity,并使用了shadcn/ui的UI组件。
      • weaviate/Verba
      • coree/awesome-rag - rag是一个精心整理的检索增强生成(RAG)资源列表,专注于大型语言模型(LLM)的应用。它汇集了关于RAG的各种资源,包括论文、教程、工具和实践案例,旨在帮助开发者和研究人员快速了解和应用RAG技术。RAG的核心思想是结合外部知识库来增强LLM的生成能力,使其输出更准确、更可靠。项目涵盖了RAG的多个方面,如检索策略、知识库构建、生成模型微调等,并提供了不同场景下的RAG应用示例。通过这个项目,用户可以系统地学习RAG的理论基础,掌握RAG的实践技巧,并找到合适的工具和资源来构建自己的RAG系统。该项目持续更新,是学习和探索RAG技术的宝贵资源。
      • fynnfluegge/rocketnotes - transformers、faiss、Ollama 和 OpenAI 或 Anthropic 构建。用户可以免费注册使用,也可以通过 Docker 在本地运行,或在 AWS 上托管。主要功能包括代码语法高亮、Katex 和 Mermaid 支持、可拖动节点的层次文档树、文档共享、内容搜索、语义搜索、Copilot 式文本补全、与文档聊天(使用 faiss、OpenAI 和/or Anthropic 进行无服务器 RAG)、使用Docker 的本地模式(使用 Ollama 和/or Sentence Transformers 进行 100% 本地 RAG)、语义归档的 Zettelkasten 等。
      • HKUDS/LightRAG - graphrag。LightRAG,它将图形结构整合到文本索引和检索过程中。这个创新的框架采用双级检索系统,增强了从低级和高级知识发现中进行综合信息检索的能力。此外,图形结构与矢量表示的集成有助于高效检索相关实体及其关系,从而显著缩短响应时间,同时保持上下文相关性。增量更新算法进一步增强了此功能,该算法可确保及时集成新数据,使系统能够在快速变化的数据环境中保持有效和响应。广泛的实验验证表明,与现有方法相比,检索准确性和效率有了显著提高。
      • QmiAI/Qmedia
      • devflowinc/trieve - splade-VI-BT-large-query模型实现容错的文本/神经搜索。Trieve还提供子句高亮、推荐、方便的RAG API路由,并允许用户使用自己的模型,例如文本嵌入、SPLADE、交叉编码器重新排序和大型语言模型。此外,它还支持使用BAAI/bge-reranker-large模型进行混合搜索和交叉编码器重新排序优化。
      • KruxAI/ragbuilder - Augmented-Generation (RAG) 设置。通过使用贝叶斯优化进行超参数调优,RagBuilder 可以识别最佳的 RAG 配置,并提供多种预定义的高性能 RAG 模板。只需提供数据,RagBuilder 就能在几分钟内生成生产级 RAG 设置。该工具包支持超参数调优、预定义 RAG 模板、自动生成或使用自定义测试数据集、自动重用生成的测试数据,并提供直观的界面。
      • pengfeng/ask.py - 提取-摘要的工作流程。它通过搜索Google获取网页内容,并使用向量数据库进行文本分块和向量搜索,最终利用LLM生成答案。该项目支持多种功能,例如日期限制搜索、目标网站搜索、输出语言和长度控制,以及基于URL列表的自定义内容提取。用户可以通过命令行参数或Web UI进行交互,并可以自定义参数控制搜索和摘要过程。
      • BaranziniLab/KG_RAG - RAG,一个基于知识图谱的检索增强生成框架,旨在利用知识图谱(如SPOKE生物医学知识图谱)的显式知识和大型语言模型(LLM)的隐式知识,为知识密集型任务提供支持。KG-RAG的核心特点是从知识图谱中提取“提示感知上下文”,即足以响应用户提示的最小上下文,从而增强LLM在特定领域的表现,目前支持GPT和Llama模型,并提供了一个名为BiomixQA的基准数据集。
      • alexpinel/Dot - 3 LLM,无需编程背景即可使用。Dot 支持加载 PDF、DOCX、PPTX、XLSX 和 Markdown 文件,并且可以与 Big Dot 交互以获取与文档无关的信息。Dot 由 Electron JS 构建,包含所有必要库,如 FAISS、Langchain、llama.cpp 和 Huggingface。项目地址:https://dotapp.uk/。
      • AkariAsai/OpenScholar_ExpertEval - instruct,支持RAG评估和细粒度评估。安装方法为创建conda环境并安装依赖项。运行界面时需要准备包含提示和两个完成体的数据文件。评估结果保存在数据库中,并可导出为Excel文件进行分析。项目特色在于提供了一个在线评估界面,支持在本地或云服务上运行,并能计算评估指标和一致性。
      • XiaomingX/Awesome-LLM-RAG - LLM-RAG 是一个包含高级检索增强生成 (RAG) 在大型语言模型中的精选列表。该项目涉及多个研究和开发团队,包括 Zheng Chen、Gabriel Bénédict 和 Akari Asai 等。研究涵盖了 RAG 的架构设计、增强生成模型的测试、DFA-RAG 和 REST 等具体技术,以及在金融领域的应用如 Clinfo.ai。此外,项目还讨论了增强生成模型的可微调性和自适应学习等优化方法。
      • jank/curiosity
      • Marker-Inc-Korea/AutoRAG
      • microsoft/kernel-memory
      • run-llama/sec-insights - K和10-Q文档的问题,提供聊天式文档问答、引用溯源、PDF高亮显示、API工具调用等功能,并支持流式LLM响应和推理步骤。该项目提供完整的生产级RAG应用示例,包含前后端、基础设施代码,支持Vercel和Render部署,并使用Docker、LocalStack、Sentry等工具进行开发、监控和测试。
      • jxzhangjhu/Awesome-LLM-RAG - LLM-RAG是一个精选的关于大型语言模型(LLM)中高级检索增强生成(RAG)的论文列表,旨在记录RAG领域的最新研究进展,并鼓励研究人员提交他们的工作,内容涵盖了RAG的各个方面,包括综述、基准测试、检索增强LLM、指令调优、上下文学习、嵌入、模拟器、搜索、长文本和记忆、评估、优化以及应用等。
      • felladrin/MiniSearch
      • upstash/wikipedia-semantic-search - M3 嵌入模型实现跨语言语义搜索,并通过 Upstash RAG Chat SDK 创建了一个 RAG 聊天机器人。项目使用 Upstash Vector、Redis 和 QStash LLM API 等技术,并提供本地开发环境搭建指南和在线演示。
      • lfnovo/open-notebook
      • KnowledgeCanvas/knowledge
      • bhavnicksm/chonkie
      • opensemanticsearch/open-semantic-search
      • YassKhazzan/openperplex_backend_os
      • weaviate/recipes
      • tom-doerr/perplexity_search
      • zjunlp/OneGen - pass Generation and retrieval 框架 (OneGen),用于在生成、检索或混合任务上微调 LLMs。我们的核心思想是通过将检索任务分配给以自回归方式生成的 retirval 标记,将生成和检索集成到同一个上下文中,从而使 LLM 能够在单个正向传递中执行这两个任务。
      • ray-project/llm-applications
      • brunostjohn/perplexideez
      • Azure-Samples/serverless-chat-langchainjs
      • swirlai/swirl-search - Pilot 等强大工具,通过 AI 增强企业的决策能力。
      • LC1332/Luotuo-QA
      • reorproject/reor
      • leptonai/search_with_lepton
      • SamurAIGPT/EmbedAI
      • superlinear-ai/raglite - Augmented Generation (RAG) 工具包,支持 PostgreSQL 或 SQLite。它可配置、快速且灵活,支持多种 LLM 提供商和自定义优化。此外,它还提供了可扩展的功能,如可选的前端和文档转换。
      • QingFei1/LongRAG
      • philfung/perplexed
      • n4ze3m/dialoqbase
      • whitead/paper-qa
      • InternLM/HuixiangDou
      • casibase/casibase - Augmented Generation)知识数据库,具有 Web UI 和企业 SSO,支持 OpenAI、Azure、LLaMA、Google Gemini、HuggingFace、Claude、Grok 等
      • OSU-NLP-Group/HippoRAG
      • cohere-ai/cohere-toolkit
      • guangzhengli/ChatFiles
      • stanford-oval/WikiChat
      • dongguanting/DPA-RAG
      • AetherCortex/Llama-X
      • arc53/DocsGPT
      • eimenhmdt/autoresearcher
      • datvodinh/rag-chatbot
      • CASIA-LM/MoDS - model-deberta-v3-large-v2 模型。这是一个基于 DeBERTa 架构设计的奖励模型,并接受了四种不同类型的人类反馈数据的训练,赋予了它 QA 模型评估、奖励评分和通过排名检测潜在有害反应的能力。在本文中,我们主要利用其奖励评分能力,为大规模数据集中的每个 (instruction, input, output) 三元组生成质量分数。因此,我们应该在此步骤中下载 reward-model-deberta-v3-large-v2 并将其放入 “models” 文件夹中。对于来自大规模数据集的 json 文件,我们可以运行以下脚本来处理它并生成一个具有质量分数的新文件。“input.json” 表示来自大规模数据集的文件,而 “quality-evaluation.json” 表示具有质量分数的输出结果。所有文件的格式与 Alpaca 相同。在计算出每个 (instruction, input, output) 对的质量分数后,我们将使用以下脚本提取高质量的说明数据。“high-quality-data.json”代表我们提取的高质量数据。而 “0.0” 是过滤高质量数据的阈值。第 2 阶段:种子指令的多样化数据选择。在获得高质量的 instruction 数据集后,我们将进一步从中选择数据。为了选择具有最大覆盖率的多样化指令数据,我们建议使用 K-Center 贪婪算法进行数据选择。第 3 阶段:增强数据选择。对于不同的 LLMs,由于他们在预训练过程中学到的知识和能力不同,他们需要的指令调优数据也会不同。对于一条指令,如果给定的 LLM 可以产生良好的响应,则表明给定的 LLM 具有处理此类指令的能力,并且该指令数据对于微调 LLM。相反,如果 LLM 不能产生良好的响应,则表明 LLM 无法有效地处理这种类型的指令数据,并且指令数据对于目标 LLM。在这个阶段,我们将提取这些响应不佳的指令,为给定的 LLM。第 4 阶段:使用选定的指令进行微调。
      • alibaba/ChatLearn - LM、DeepSpeed、vLLM 等。例如,我们可以使用 Megatron-LM 进行训练,使用 vLLM 来加快推理速度。灵活的并行策略和资源分配:ChatLearn 支持针对各种模型配置的不同并行策略,从而能够根据每个模型的计算、内存和通信特性制定不同的并行方法,此外,ChatLearn 还具有灵活的资源调度机制,可适应跨模型对资源的独占或共享使用,通过其系统调度策略,它促进了高效的串行/并行执行和优化的 GPU 内存共享,从而提高了整体性能和效率。高性能:与目前最先进的 SOTA(系统)相比,在 7B+7B(策略 + 奖励)规模下实现了 52% 的性能提升,在 70B+70B 规模上实现了 137% 的提升,同时, 支持更大规模的对齐训练,例如 300B+300B。
      • thu-coai/BPO - 3.5-turbo 和 claude-2。性能也优于PPO和DPO,并呈现出正交的改进。通过优化用户指令,从输入角度对模型进行对齐。过程分三步:1、`反馈数据收集`:为了建模人类偏好,首先搜集了一系列带有反馈信号的开源指令微调数据集,并对这些数据经过精心筛选和过滤。2、`构造提示优化对`:使用这些反馈数据来引导大型模型识别出用户偏好的特征。首先让模型分析用户喜欢的回复和不喜欢的回复,找出其中蕴含的人类偏好特征。接着,基于这些特征,再利用模型优化原始的用户输入,以期得到更符合用户喜好的模型输出。3、`训练提示优化器`:经过步骤一和步骤二,我们得到了大量隐含人类偏好的提示对。利用这些提示对,我们训练一个相对较小的模型,从而构建提示偏好优化器。最终,我们可以利用该提示优化器对用户指令进行优化,并应用在广泛的LLM上。[BPO 数据集](https://huggingface.co/datasets/THUDM/BPO)
      • ZiyiZhang27/tdpo - R) 的时间扩散策略优化,这是一种策略梯度算法,它利用了扩散模型的时间归纳偏差并减轻了源于活跃神经元的首要偏差。实证结果表明,我们的方法在缓解奖励过度优化方面具有卓越的功效。
      • thu-coai/SPaR
      • FreedomIntelligence/PlatoLM - 7B应用于该方法,产生了名为Socratic的新型用户模拟器。Socratic与gpt-3.5-turbo的迭代交互产生了名为SocraticChat的多轮对话数据集。利用该数据集对LLAMA-7B-2进行微调,得到了PlatoLM模型,该模型表现出优异的性能。PlatoLM仅使用从gpt-3.5中提取的少量样本(50.7K)、较短的上下文长度(2048)和较小的模型规模(7B),在Alpaca-Eval基准测试中甚至超过了GPT 3.5。该项目的主要创新在于将“翻转棋盘”的理念应用于用户模拟器的训练,通过遮蔽真实用户的提问并仅计算其损失来修改学习目标。此外,该项目还使用了一个二元提示模板来指导模型。实验表明,在动态多轮对话中,更像人类的提问模式比静态角色扮演更能有效地训练响应模型。
      • tsinghua-fib-lab/NeurIPS2024_SPV-MIA
      • volcengine/veRL - HybridEngine 实现高效的 Actor 模型重新分片,从而消除内存冗余并显著降低训练和生成阶段之间的通信开销。veRL 支持多种后端,包括 FSDP 和 Megatron-LM 用于 Actor 训练,vLLM 用于回滚生成。用户可以轻松地将 veRL 扩展到其他 LLM 训练和推理框架。
      • jondurbin/bagel - ai biology、camel-ai chemistry、camel-ai math、camel-ai physics、capybara、cinematika、emobank、evol-instruct、glaive-function-calling-v2、gutenberg、limarp-augmented、lmsys_chat_1m等。通过对数据进行去重和清洗,确保数据质量。最终,Bagel将利用这些数据训练一个功能强大的模型,具备各种能力。
      • jianghoucheng/AlphaEdit
      • THUDM/LongReward - 4-9B和Meta-Llama-3.1-8B分别训练了两个SFT模型:LongReward-glm4-9b-SFT和LongReward-llama3.1-8b-SFT。此外,该项目还利用LongReward和SFT数据集中的提示构建了偏好数据集,并训练了两个DPO模型:LongReward-glm4-9b-DPO和LongReward-llama3.1-8b-DPO。所有数据集和模型都可以在HuggingFace上获取。
      • pytorch/torchtune - Vision、Llama3.2、Llama3.1、Llama3、Llama2、Code-Llama2、Mistral、Gemma、Microsoft Phi3 和 Qwen2 等模型。
      • ahans30/goldfish-loss - 2 模型进行了广泛的实验,包括预先训练和从头开始训练,并证明可提取记忆显着减少,而对下游基准几乎没有影响。
      • jwkirchenbauer/lm-watermarking
      • VikhrModels/effective_llm_alignment
      • yizhongw/self-instruct
      • horseee/LLM-Pruner - Pruner是一个用于大型语言模型结构化剪枝的开源项目,发表于NeurIPS 2023。该项目旨在通过移除模型中不重要的结构(如整个注意力头或层),实现模型压缩和加速。它支持多种主流LLM模型,包括Llama-3/3.1、Llama-2、LLaMA、BLOOM、Vicuna、Baichuan和TinyLlama等。LLM-Pruner的核心思想是基于重要性评分来确定哪些结构可以被安全移除,从而在保持模型性能的同时减少计算量和内存占用。项目提供了详细的代码和实验结果,方便用户进行复现和应用。该工具可以帮助研究人员和开发者更高效地部署和使用大型语言模型。
      • PKU-Alignment/safe-rlhf - Alignment 团队开发的高度模块化开源 RLHF 框架。它旨在为比对研究提供训练数据和可重复的代码管道,特别是通过安全 RLHF 方法进行的约束比对LLM研究。特点是:支持SFT、RLHF和Safe RLHF训练,适用于流行的预训练模型:LLaMA、OPT、百川等。提供大型人工标记数据集(最多 1M 对),包括有用和无害的偏好,以支持可重复的 RLHF 研究。支持奖励模型和成本模型的训练,并提供预先训练的检查点。支持 SFT 和 RLHF 的自定义参数和数据集。为安全约束验证提供多尺度指标,例如 BIG-bench、GPT-4 评估。
      • allenai/natural-instructions
      • allenai/reward-bench - gen` 命令评估生成式奖励模型。该项目还提供日志记录功能,用于保存模型输出和准确性分数,并将其与 HuggingFace 上的奖励模型或数据集关联。
      • allenai/open-instruct
      • hkust-nlp/deita
      • anchen1011/FireAct
      • RLHFlow/Online-RLHF - 8B-instruct 相当甚至更好的结果。
      • zjunlp/KnowledgeEditingPapers
      • CarperAI/trlx - 6.7b、EleutherAI/gpt-neox-20b 和 google/flan-t5-xxl。对于超过 20B 参数的模型, trlX 提供 NVIDIA NeMo 支持的训练器,这些训练器利用高效的并行技术来有效地扩展。
      • mistralai/mistral-finetune - finetune是一个轻量级代码库,用于高效地微调Mistral模型。它基于LoRA技术,该技术冻结大部分模型权重,仅训练少量低秩矩阵扰动,从而实现高效的微调。该代码库针对多GPU单节点训练设置进行了优化,适用于A100或H100 GPU,对于较小的模型(如7B模型)可以使用单个GPU。该项目提供了一个简单易懂的入门指南,用于微调Mistral模型,支持Mistral Large v2、Mistral Nemo等模型,并提供模型下载链接和校验和。
      • NVIDIA/NeMo-Guardrails
      • eric-mitchell/direct-preference-optimization
      • AnswerDotAI/fsdp_qlora - QLoRA 结合了数据并行性(Fully Sharded Data Parallelism(FSDP) 支持跨 GPU 分片模型参数、优化器状态和梯度)、4 位量化和 LoRA(QLoRA Quantized LoRA),可在双 24GB GPU 系统上训练 LLMs 多达 70B 参数。该技术由 Answer.AI 与 BitsandBytes 合作发布,旨在使训练 LLMs 更加高效,并且对每个人来说都更容易使用。[bitsandbytes/fsdp_qlora](https://huggingface.co/docs/bitsandbytes/main/en/fsdp_qlora)
      • eric-mitchell/mend
      • HIT-SCIR/Chinese-Mixtral-8x7B - Mixtral-8x7B 是基于 Mistral 发布的 Mixtral-8x7B模型进行中文词表增广预训练的模型,它能够有效提升模型对中文的理解和生成能力。该项目提供了中文 Mixtral-8x7B 词表增广预训练模型,并提供相应的代码和文档,方便用户进行使用和研究。该模型在中文语言理解和生成任务上表现出色,可以用于各种自然语言处理应用,例如文本摘要、机器翻译、问答系统等。
      • dikw/hh_rlhf_cn - rlhf中文翻译版本。基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。hh_rlhf_train 合并中英文训练集数据清洗过后17万条,hh_rlhf_test 合并中英文测试集数据 清洗过后9千条,harmless_base_cn_train 42394条,harmless_base_cn_test 2304条,helpful_base_cn_train 43722条,helpful_base_cn_test. 2346条。
      • PKU-Alignment/AlignmentSurvey
      • xfactlab/orpo
      • dvlab-research/LongLoRA - Attention兼容,并且在推理过程中不需要。我们发布了所有模型,包括 7B 到 70B 的模型,上下文长度从 8k 到 100k。我们建立了一个长上下文指令跟踪数据集 LongAlpaca-12k。我们发布了相应的 LongAlpaca-7B、LongAlpaca-13B 和 LongAlpaca-70B 型号。
      • NVlabs/DoRA - BART等模型在常识推理、视觉指令调优和图像/视频文本理解等任务上均优于LoRA。
      • THUDM/P-tuning - tuning项目介绍了一个新的语言模型调优方法,并提供了相关代码和数据集。该项目支持参数高效提示调优,适用于多种自然语言处理任务。项目包含LAMA和few-shot SuperGLUE实验代码。参考README.md和requirement.txt获取更多使用信息。该项目与GLM项目相关,GLM是一个通用预训练框架,适用于所有NLP任务。
      • RUCAIBox/ALLO
      • PKU-Alignment/align-anything
      • unslothai/unsloth - 5 倍,内存减少 70%,QLoRA 和 LoRA 微调。所有内核均用 OpenAI 的 Triton 语言编写。精度损失为 0% - 无近似方法 - 全部准确无误。无需更换硬件。自 2018+ 起支持 NVIDIA GPU。最低 CUDA 功能 7.0。支持 4 位和 16 位 QLoRA / LoRA 通过bitsandbytes进行微调。开源训练速度提高 5 倍。
      • jordandeklerk/Starcoder2-Finetune-Code-Completion - 3B 模型,使其能够更好地完成代码,并适应公司内部代码库的编码规范和特定库。该方法可以有效地利用有限的计算资源,并为资源有限的环境提供一种更实用的方法。
      • RUCAIBox/RLMEC
      • beyond/rlhf-reward-single-round-trans_chinese - reward-datasets](https://huggingface.co/datasets/yitingxie/rlhf-reward-datasets) [beyond/rlhf-reward-single-round](https://huggingface.co/datasets/beyond/rlhf-reward-single-round)
      • alisawuffles/proxy-tuning
      • junkangwu/beta-DPO - DPO 算法的参考实现,用于从偏好数据训练语言模型,如论文 $beta$-DPO: 使用动态 $beta$ 的直接偏好优化中所述,β-DPO 管道有两个阶段:在感兴趣的数据集上运行监督微调 (SFT)。
      • lightyear-turing/TuringMM-34B-Chat - 34B开源模型、基于14w的精标教育数据进行sft微调以及15W对齐数据进行DPO偏好学习得到的一个微调模型。
      • zjunlp/EasyInstruct - 4、LLaMA、ChatGLM。EasyInstruct 将指令生成、选择和提示模块化,同时还考虑了它们的组合和交互。
      • RLHFlow/RLHF-Reward-Modeling - Terry 奖励模型和成对偏好模型。从那时起,我们采用了更先进的技术来构建偏好模型。
      • ashishpatel26/LLM-Finetuning - 评估微调)项目存储库!该项目的重点是使用 LoRA 和 Hugging Face 的 transformers 库有效地微调大型语言模型。
      • FlagAI-Open/FlagAI
      • zjukg/KnowPAT
      • NVIDIA/workbench-llamafactory
      • transformerlab/transformerlab-app
      • liucongg/ChatGLM-Finetuning - 6B、ChatGLM2-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等
      • liyucheng/zhihu_rlhf_3k
      • anthropics/hh-rlhf
      • simplifine-llm/Simplifine
      • tatsu-lab/alpaca_farm
      • BelleGroup/school_math_0.25M
      • zxbsmk/webnovel_cn
      • open-chinese/alpaca-chinese-dataset - - 中文指令微调数据集【人工+GPT4o持续更新】
      • opendilab/awesome-RLHF
      • rohan-paul/LLM-FineTuning-Large-Language-Models
      • Magnetic2014/llm-alignment-survey
      • BelleGroup/train_2M_CN
      • BelleGroup/train_1M_CN
      • BelleGroup/train_0.5M_CN
      • guardrails-ai/guardrails
      • gururise/AlpacaDataCleaned
      • ZrrSkywalker/LLaMA-Adapter
      • llm-attacks/llm-attacks
      • bigscience-workshop/xmtf
      • hiyouga/ChatGLM-Efficient-Tuning
      • ssbuild/chatglm_finetuning
      • beyondguo/LLM-Tuning
      • FMInference/H2O - NeoX 在各种任务中验证了算法的准确性。在 OPT-6.7B 和 OPT-30B 上,我们实施了 20% 重击器的 H2O,将吞吐量提高了 29×、29× 和 3× 三个领先的推理系统 DeepSpeed Zero-Inference、Hugging Face Accelerate 和 FlexGen。在相同的批量大小下,H2O 最多可以减少 1.9× 的延迟。
      • linkedin/Liger-Kernel - Attn 相同的精神,但适用于 RMSNorm、RoPE、SwiGLU 和 CrossEntropy!通过内核融合、就地替换和分块技术,将多 GPU 训练吞吐量提高 20%,并将内存使用量降低 60%。确切:计算是精确的 - 没有近似值!前向和后向传递均通过严格的单元测试实现,并针对没有 Liger 内核的训练运行进行收敛测试,以确保准确性。轻:Liger Kernel 的依赖项最少,只需要 Torch 和 Triton,不需要额外的库!告别依赖性头痛!支持多 GPU:与多 GPU 设置(PyTorch FSDP、DeepSpeed、DDP 等)兼容。Trainer 框架集成:Axolotl、LLaMa-Factory、SFTTrainer、Hugging Face Trainer、SWIFT
      • mit-han-lab/streaming-llm - --但我们表明,当文本长度超过缓存大小时,它会失败。我们观察到一个有趣的现象,即注意力下沉,即保留初始词元的 KV 将在很大程度上恢复窗口注意力的性能。在本文中,我们首先证明了注意力下沉的出现是由于对初始令牌作为“接收器”的强烈注意力得分,即使它们在语义上并不重要。基于上述分析,我们引入了StreamingLLM,这是一个高效的框架,使使用有限长度注意力窗口训练的LLM能够推广到无限序列长度,而无需任何微调。StreamingLLM可以使Llama-2,MPT,Falcon和Pythia使用多达400万个词元或更多词元执行稳定高效的语言建模。此外,发现在预训练期间添加占位符令牌作为专用的注意力接收器可以进一步改进流式处理部署。在流设置中,StreamingLLM 的性能优于滑动窗口重新计算基线高达 22.2 倍的加速。
      • Aaronhuang-778/BiLLM - 70B上的8.41困惑),在各种LLMs系列和评估指标中仅具有1.08位权重,远远优于SOTA量化方法LLM。此外,BiLLM 可在单个 GPU 上在 0.5 小时内实现 70 亿个权重的二值化过程LLM,表现出令人满意的时间效率。
      • dwzhu-pku/PoSE
      • hahnyuan/PB-LLM - LLM)的方法,可以实现极端低比特量化,同时保持量化LLM的语言推理能力。 具体来说,我们的探索首先揭示了现有二值化算法朴素应用的无效性,并强调了显著权重在实现低比特量化中的重要作用。因此,PB-LLM在二值化过程中过滤了一小部分突出权重,将它们分配给更高位的存储,即部分二值化。PB-LLM通过从训练后量化(PTQ)和量化感知训练(QAT)的角度进行分析,扩展以恢复量化LMM的能力。在PTQ下,结合GPTQ的概念,我们重构了以Hessian矩阵为指导的二值化权重矩阵,并成功恢复了PB-LLM在低位的推理能力。在QAT下,我们在训练过程中冻结了显著权重,探索了对最小化量化误差至关重要的最优比例因子的推导,并提出了一种基于该派生的残差二值化权重缩放策略的缩放机制。这些探索和开发的方法大大有助于恢复低比特量化LLM的性能,并在LLM的网络二值化领域取得实质性进展。
      • Infini-AI-Lab/MagicPIG
      • ajndkr/lanarky
      • exo-explore/llama98.c
      • IST-DASLab/gptq - training Compression for Generative Pretrained Transformers"的代码。项目特色包括高效的GPTQ算法实现、对OPT和BLOOM系列模型进行2/3/4位压缩(包括权重分组)、评估量化模型在多个语言生成任务上的困惑度、评估量化模型在多个零样本任务上的性能、3位量化矩阵全精度向量积CUDA内核、用于单个矩阵向量积和量化模型语言生成的基准测试代码等。项目还包含一些新功能,例如支持静态分组选项、优化了3位内核、集成了LLaMa模型,并针对LLaMa模型引入了新的技巧,例如`--act-order`和`--true-sequential`,显著提升了模型的精度。项目依赖于PyTorch、transformers、datasets等库,所有实验均在一台80GB NVIDIA A100上运行。
      • ServerlessLLM/ServerlessLLM
      • nanbingxyz/5ire - m3作为本地嵌入模型,支持多种文档格式的解析和向量化,从而实现本地强大的检索增强生成(RAG)能力。此外,它还提供API使用分析、Prompt库和书签功能,帮助用户更好地管理和使用AI服务。用户可以通过修改配置文件添加自定义的MCP服务器,目前项目处于早期阶段,自定义MCP服务器尚未完全开放。5ire支持OpenAI、Azure OpenAI、Anthropic、Google、百度等多种AI服务,并提供易于使用的界面。
      • FasterDecoding/REST - Bench等基准测试中显著提高了生成速度。
      • thu-nics/qllm-eval
      • andrewyng/aisuite - 4o和claude-3-5-sonnet的聊天完成响应。该项目支持MIT许可证,欢迎贡献并加入Discord服务器。
      • Jittor/JittorLLMs - 6B)、鹏程[盘古大模型](https://openi.org.cn/pangu/)、BlinkDL的[ChatRWKV](https://github.com/BlinkDL/ChatRWKV)、国外Meta的[LLaMA大模型](https://github.com/facebookresearch/llama)等;可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch);速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。
      • feifeibear/LLMSpeculativeSampling - 560M、Bloomz-7B1、llama-7B 和 llama-1B 等模型,并提供服务功能。项目作者建议使用 llama2-7B 和 llama2-70B 作为近似模型和目标模型,以获得最佳加速效果。
      • nbonamy/witsy
      • openlit/openlit
      • jianghoucheng/NSE
      • vercel/modelfusion
      • microsoft/T-MAC - MAC 是一个内核库,直接支持混合精度矩阵乘法(int1/2/3/4 x int8/fp16/fp32),无需利用查找表进行反量化。 T-MAC 旨在提升 CPU 上的低位LLM推理能力。 T-MAC 已经提供了对各种低位模型的支持,包括来自 GPTQ/gguf 的 W4A16、来自BitDistiller / EfficientQAT的 W2A16 和来自BitNet的 W1(.58)A8(在配备 ARM/Intel CPU 的 OSX/Linux/Windows 上)。T-MAC 在 Surface Laptop 7 上针对 3B BitNet 实现了单核 20 个令牌/秒和四核 48 个令牌/秒的令牌生成吞吐量,与 SOTA CPU 低位框架 ( llama )相比,加速了 4~5 倍.cpp )。在 Raspberry Pi 5 等低端设备上,T-MAC 甚至可以达到 11 个令牌/秒。
      • microsoft/BitNet - 7 个令牌),从而显着增强在本地设备上运行LLMs的潜力。
      • dilab-zju/self-speculative-decoding - Speculative Decoding”,提出了一种名为“自推测解码”的新型推理方案,无需额外训练神经网络或增加内存占用,即可加速大型语言模型(LLM)的推理过程,同时保持一致的输出质量并确保模型兼容性。该方案采用两阶段流程:第一阶段“草稿阶段”通过选择性跳过某些中间层生成草稿token;第二阶段“验证阶段”使用原始LLM对草稿token进行单次前向传递验证。项目包含搜索跳过层的脚本、自推测解码核心流程、模型结构等文件,用户可根据环境配置执行相关脚本进行评估。
      • InternLM/lmdeploy
      • evilsocket/cake
      • Vahe1994/SpQR - Quantized Representation for Near-Lossless LLM Weight Compression](https://arxiv.org/abs/2306.03078)",支持LLaMA、Falcon和OPT模型家族。该项目需要至少32GB的显存,并支持使用Weights and Biases进行日志记录。用户可以通过提供的脚本对模型进行压缩,并使用WikiText2、C4和Penn Treebank数据集进行困惑度评估。
      • casper-hansen/AutoAWQ - aware Weight Quantization (AWQ)算法,可以将模型速度提升3倍,并将内存需求降低3倍。AutoAWQ支持多种模型,包括StableLM、StarCoder2、Gemma、Mistral、Bigcode、Turing、MPT、Falcon等,并提供CPU和GPU两种推理方式。用户可以选择GEMM或GEMV两种量化版本,其中GEMV速度更快,但仅支持批次大小为1,而GEMM在较小的批次大小下速度更快。此外,AutoAWQ还支持PEFT兼容训练,并提供多种安装方式,包括从PyPI安装和从GitHub安装。
      • ollama/ollama-python
      • intel/intel-extension-for-pytorch - 512) 矢量神经网络指令 (VNNI) 和 Intel® 高级矩阵扩展 (Intel® AMX) 在 Intel CPU 上进行优化,以及在 Intel 独立 GPU 上利用 Intel Xe 矩阵扩展 (XMX) AI引擎。此外,Intel® Extension for PyTorch* 通过 PyTorch* xpu 设备为 Intel 独立 GPU 提供简单的 GPU 加速。该项目还针对大型语言模型 (LLM) 提供了特定优化,例如 Llama和 GPT-J,支持 FP32、BF16、INT8 量化等多种精度。
      • usyd-fsalab/fp6_llm - LLM 的官方实现,在 fp16/int8 基线上实现了线性层的显著加速和 GPU 内存的缩减。高效的 CUDA 实现,用于启用 Tensor Core 的线性层(FP6 中的权重和 FP16 格式的激活)的混合输入矩阵乘法。
      • thunlp/InfLLM
      • withcatai/node-llama-cpp - llama-cpp 是一个 Node.js 库,它允许您在本地机器上运行AI 模型,并提供 llama.cpp 的绑定。该库具有多种功能,包括GPU 支持(Metal、CUDA 和 Vulkan)、预构建的二进制文件(支持 macOS、Linux 和 Windows)、自动硬件适配、完整的 LLM 使用套件、CLI 工具、对最新 llama.cpp 版本的支持、JSON 输出格式控制、函数调用、嵌入支持、完整的 TypeScript 支持和详细的文档。您可以在终端中使用一个命令来与模型进行聊天,也可以通过 npm 安装并使用 TypeScript 代码进行调用。
      • SafeAILab/EAGLE - 1是该方法的第一个版本,其速度比传统解码快3倍,比Lookahead快2倍,比Medusa快1.6倍。EAGLE-2则利用草稿模型的置信度分数来动态调整草稿树结构,进一步提升了性能,速度比传统解码快4倍,比EAGLE-1快1.4倍。EAGLE-2还支持与vLLM、DeepSpeed、Mamba、FlashAttention等并行技术结合使用,并可以在8个RTX 3090 GPU上进行训练和测试。
      • apoorvumang/prompt-lookup-decoding - gram 重叠(例如实体名称、短语或代码片段)来加速自回归解码。该方法通过在提示中进行简单的字符串匹配来替换推测解码中的草稿模型,从而生成候选令牌序列,从而实现显著的加速(2x-4x),而不会影响输出质量。该方法无需模型更改或外部数据存储,可与任何解码器模型(包括贪婪和采样技术)一起使用。
      • eole-nlp/eole - py 项目,并对其进行了改进和扩展,以支持大型语言模型(LLM) 和其他技术。EOLE 提供了一个全面、紧凑且模块化的代码库,用于实验各种类型的语言模型(编码器、解码器、seq2seq)。它具有多种功能,包括:灵活的训练和推理、动态数据转换、全面的 LLM 支持、先进的量化、高效的微调、灵活的推理和张量并行。EOLE 还提供了 Docker 镜像,方便用户快速设置和使用。
      • xvyaward/owq - FP16向量乘积CUDA内核。用户可以方便地使用OWQ对模型进行量化,并评估其困惑度和零样本准确性。项目还提供3/4位压缩权重保存/加载功能,以及针对不同GPU的CUDA内核测试结果。
      • swuecho/chat
      • karpathy/llm.c - 2 (CPU, fp32) 在单个文件 train_gpt2.c 中是 ~1,000 行干净代码,在 GPU 上训练它是 ~2,000 行(添加 CUDA 内核)在 train_gpt2.cu 中。代码立即编译并运行,它与 PyTorch 参考实现完全匹配,并且它 ~匹配(编译)PyTorch 的速度(fp32,无闪存注意)。我选择 GPT-2 作为第一个工作示例,因为它是 LLMs的祖父,第一次将现代堆栈放在一起。
      • deedy/mac_computer_use
      • nat/openplayground
      • lencx/Noi
      • Efficient-ML/Awesome-Model-Quantization
      • OpenGVLab/OmniQuant - 1&2、LLaMA-2-Chat、OPT、Falcon 和 Mixtral-7Bx8 等模型,并支持使用 MLC-LLM 在 GPU 和移动设备上运行量化后的 LLaMa-2-Chat (7B/13B) 模型。OmniQuant 论文已被 ICLR 2024 接收,并获得 Spotlight 演示资格。
      • alexrudall/ruby-openai - 4o 文本流、Whisper 音频转录和翻译以及 DALL·E图像生成等功能。该库提供简单易用的 API,可轻松集成到 Ruby 项目中,并支持多种 OpenAI API 功能,包括模型、聊天、函数、补全、嵌入、文件、微调、向量存储、助手、线程、消息、运行、图像生成、图像编辑、图像变体、审核和 Whisper 等。
      • lamini-ai/lamini - ai.github.io/](https://lamini-ai.github.io/)找到,源代码可在[https://github.com/lamini-ai/lamini](https://github.com/lamini-ai/lamini)查看。
      • intel/neural-compressor
      • microsoft/MInference - 3-8B-1M、GLM-4-1M 等长上下文LLMs在单个 A100 中以 10 倍的速度处理 1M 上下文,并且精度更高,立即尝试MInference 1.0 !
      • Chainlit/chainlit
      • HazyResearch/lolcats - 7B-v0.1、Llama-3-8B 等大模型的转换。
      • ant-design/x
      • ilur98/DGQ - for-LLaMa、AWQ、SmoothQuant、torch-int和fasttransformer等项目。
      • hemingkx/Spec-Bench - Bench是一个用于评估推测解码方法的综合基准测试平台,旨在为开源推测解码方法建立统一的评估标准。该平台支持多种开源模型,例如 EAGLE、Hydra、Medusa 和 SPACE,并在同一设备和测试环境下进行公平比较。用户可以下载模型权重并使用提供的脚本进行推断,并获得与传统自回归解码相比的加速报告。
      • GreenBitAI/green-bit-llm
      • IST-DASLab/marlin - 32 个标记)下实现接近理想的 4 倍速度提升,适用于大规模服务、推测解码或 CoT-Majority 等高级多推理方案。通过多种技术和优化,Marlin 实现了高效利用 GPU 资源,包括 L2 缓存、共享内存、张量核心和向量核心,确保在推理过程中保持高性能。
      • Mobile-Artificial-Intelligence/maid
      • jdf-prog/LLM-Engines
      • Helicone/helicone
      • langwatch/langwatch
      • comet-ml/opik
      • aws-samples/aws-genai-llm-chatbot
      • run-llama/LlamaIndexTS
      • NitroRCr/AIaW
      • vahe1994/AQLM
      • ollama-interface/Ollama-Gui - Gui 是一个用于 Ollama 的图形界面,它提供了一个更友好的聊天体验,包括自动启动服务器、多对话、模型检测、主机更改、聊天持久化、导入导出聊天记录以及亮暗主题等功能,旨在简化 Ollama 的使用并提供更稳定的体验,支持 macOS 和 Windows 平台。
      • microsoft/LLMLingua - Cache,以最小的性能损失实现高达 20 倍的压缩。利用紧凑、训练有素的语言模型(如 GPT2-small、LLaMA-7B)来识别和删除提示中的非必要标记。这种方法支持使用大型语言模型进行高效推理。
      • xorbitsai/inference
      • akl7777777/ShellGPT
      • microsoft/promptflow - 从原型设计、测试到生产部署和监控。旨在简化基于 LLM 的 AI 应用程序的端到端开发周期,从构思、原型设计、测试、评估到生产部署和监控。它使快速工程变得更加容易,并使您能够构建具有生产质量的 LLM 应用程序。
      • GreenBitAI/bitorch-engine
      • KwokKwok/Silo
      • IEIT-Yuan/YuanChat
      • NVIDIA/TensorRT-LLM - LLM 为用户提供了一个易于使用的 Python API,用于定义大型语言模型 (LLM) 并构建包含最先进优化的 TensorRT 引擎,以便在 NVIDIA GPU 上高效执行推理。TensorRT-LLM还包含用于创建Python的组件,以及执行这些TensorRT引擎的C++运行时。
      • OpenNMT/CTranslate2
      • jmather/llmhub
      • danny-avila/LibreChat - 4 Vision、Bing、Anthropic、OpenRouter、Google Gemini、AI 模型切换、消息搜索、langchain、DALL-E-3、ChatGPT 插件、OpenAI 功能、安全多用户系统、预设、完全开源的自托管。更多功能正在开发中
      • neuralmagic/guidellm
      • vllm-project/vllm
      • microsoft/vidur
      • Daiyimo/Access-chatGPT-in-Siri
      • guinmoon/LLMFarm
      • bigscience-workshop/petals - 你加载模型的一小部分,然后加入为其他部分提供服务的人来运行推理或微调。
      • openai/openai-python
      • EricLBuehler/mistral.rs - AI API 的 HTTP 服务器和 Python 绑定。
      • pandora-next/deploy - shared3.zhile.io的共享站(目前2622个普号、22个Plus)。
      • bclswl0827/ChatGemini - Pro-Vision 模型进行识图。
      • OpenGVLab/EfficientQAT
      • reorx/awesome-chatgpt-api
      • DefTruth/Awesome-LLM-Inference - LLM、vLLM、streaming-llm、AWQ、SmoothQuant、WINT8/4、Continuous Batching、FlashAttention、PagedAttention 等。
      • cogentapps/chat-with-gpt
      • mylxsw/aidea
      • 202252197/ChatGPT_JCM
      • ShipBit/slickgpt - 4 集成、无用户共享功能和其他超能力。
      • AlexBodner/How_Much_VRAM
      • aurora-develop/aurora
      • ParisNeo/lollms-webui
      • huggingface/chat-ui
      • huggingface/text-generation-inference
      • intel/intel-extension-for-transformers
      • bincooo/chatgpt-adapter - api、bing、gemini、coze、claude、绘画 多款AI的聊天接口适配到 OpenAI API 标准接口服务端。
      • Qcompiler/MIXQ
      • oobabooga/text-generation-webui
      • Bin-Huang/chatbox
      • datawhalechina/self-llm
      • horizon-ui/chatgpt-ai-template - 最时尚的开源 ChatGPT UI AI 模板和入门套件,适用于 React、NextJS 和 Chakra UI
      • serge-chat/serge
      • GPTGenius/chatgpt-vercel - - 通过 Vercel 一键免费创建私有的 ChatGPT 站点
      • flyun/chatAir
      • mckaywrigley/chatbot-ui
      • GaiZhenbiao/ChuanhuChatGPT
      • Qcompiler/vllm-mixed-precision
      • sonnylazuardi/chat-ai-desktop
      • patrikzudel/PatrikZeros-ChatGPT-API-UI
      • DD-DuDa/BitDistiller
      • li-plus/chatglm.cpp - 6B和ChatGLM2-6B,以便在MacBook上进行实时聊天。
      • ourongxing/chatgpt-vercel
      • hemingkx/SpeculativeDecodingPapers
      • vercel/ai
      • xx025/carrot
      • qnguyen3/chat-with-mlx
      • dice2o/BingGPT
      • neuralmagic/nm-vllm
      • OpenMindClub/awesome-chatgpt
      • PlexPt/chatgpt-java
      • nomic-ai/gpt4all
      • mit-han-lab/llm-awq
      • hao-ai-lab/LookaheadDecoding
      • hahahumble/speechgpt
      • karpathy/llama2.c
      • OkGoDoIt/OpenAI-API-dotnet - 3 API 的非官方 C#/.NET SDK
      • LiLittleCat/awesome-free-chatgpt
      • encx/ChatGPT
      • ai-collection/ai-collection
      • billmei/every-chatgpt-gui
      • MustangYM/OSXChatGpt
      • 869413421/chatgpt-web
      • Chanzhaoyu/chatgpt-web
      • vincelwt/chatgpt-mac
      • Niek/chatgpt-web
      • srush/llama2.rs
      • huggingface/transformers-bloom-inference
      • alfianlosari/ChatGPTSwift
      • abetlen/llama-cpp-python
      • Dai-shen/LAiW - LLaMA、Baichuan2、HanFei、ChatLaw、LaWGPT 等主流大模型进行了评估,并发布了评估结果和评分方法。用户可以通过 LAiW 的排行榜查看不同模型的评估结果,并根据自身需求选择合适的法律大模型。
      • LiuHC0428/LAW-GPT - 6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。
      • PKU-YuanGroup/ChatLaw - 13B、Anima-33B,我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。
      • CSHaitao/LexiLaw - 6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。
      • davidpig/lychee_law - GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调.
      • LawRefBook/Laws
      • lvwzhen/law-cn-ai
      • siat-nlp/HanFei - 1.0 韩非
      • JoelNiklaus/LEXTREME
      • open-compass/LawBench
      • coastalcph/lex-glue
      • langchain-ai/open-canvas
      • codota/TabNine
      • LingmaTongyi/Codev-Bench - Bench是一个细粒度、真实世界、仓库级、以开发者为中心的代码补全评估框架。它评估代码补全工具是否能够准确捕捉开发者的即时意图,并在各种细粒度上下文中建议合适的代码片段。与以往只关注根据注释生成完整函数的代码生成或补全基准不同,Codev-Bench 还重现了用户在开发过程中可能遇到的各种子场景,并构建了基于单元测试的评估方法,更准确地评估各种 LLM 生成的代码质量。它通过提取 GitHub 仓库中的单元测试类和函数,并利用 GPT-4 完成环境依赖安装和执行单元测试,并使用 pytest trace 提取单元测试的执行轨迹来确定与每个单元测试相关的目标函数,最后使用 tree-sitter 解析目标函数的 AST,识别所有子函数、注释、逻辑块、语句等。Codev-Bench 将用户在 IDE 中开发时可能遇到的补全子场景或功能划分为以下部分:完整块补全、不完整后缀补全、参数列表补全、语句补全。
      • BloopAI/bloop - sitter 构建的 10+ 种最流行语言的精确代码导航(转到参考和转到定义);以隐私为中心的设备嵌入,用于语义搜索。
      • tag-research/tag-bench
      • msoedov/agentic_security
      • salesforce/CodeTF - sitter 作为其核心AST 解析器,可以解析函数名称、注释和变量名称等属性。提供了针对多种语言的预构建库,无需复杂的解析器设置。因此,CodeTF 为代码智能任务确保了一个用户友好且易于访问的环境。该库的当前版本提供:快速模型服务、微调自己的模型、支持的任务、数据集+。
      • semanser/codel
      • ddzipp/AutoAudit - Instruct,该方法结合了人工标注和自我生成的数据。数据集主要来自于Github、Kaggle、安全网站、公开的安全漏洞数据集组成,随后经过清洗、数据增强等来构造对话数据。数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分,我们规定在output输出中应当包含对具体内容的分析(analysis),安全评级(label),安全风险(risk),以及对应的解决方案(solution)。
      • BoundaryML/baml
      • mangiucugna/json_repair
      • stitionai/devika - 4、GPT-3.5 和 LocalLLMs。为获得最佳性能:使用 Claude 3 系列型号。
      • Doriandarko/claude-engineer
      • codefuse-ai/codefuse-chatbot - Chatbot是一个智能助手项目,旨在服务软件开发的整个生命周期。它基于多智能体框架,并结合DevOps工具包、代码和文档仓库的RAG技术(检索增强生成)等多种技术。该项目可以理解和处理代码、文档,并能进行代码生成、问题解答、知识检索等任务。其核心特色在于多智能体协同工作,以及利用RAG技术增强知识检索能力。CodeFuse-Chatbot旨在提高开发效率,简化开发流程,为开发者提供全方位的智能辅助。它支持多种开发工具和平台,并能根据用户的需求进行定制化配置。该项目目标是成为一个强大且灵活的软件开发助手。
      • microsoft/data-formulator
      • huchenxucs/ChatDB
      • approximatelabs/lambdaprompt
      • yamadashy/repomix
      • Maplemx/Agently
      • google-deepmind/mathematics_dataset
      • bigcode-project/octopack - 16B 模型,在 CommitPackFT + OASST 上优化的 CodeGeeX2-6B 指令。[bigcode/humanevalpack](https://huggingface.co/datasets/bigcode/humanevalpack) 扩展 OpenAI 的 HumanEval 以涵盖 6 种语言的 3 个场景
      • Integuru-AI/Integuru - 4o和o1-preview。用户可以通过命令行或Jupyter Notebook使用Integuru。
      • cline/cline
      • LingmaTongyi/Lingma-SWE-GPT - GPT是一个开源大型语言模型,专门用于软件改进,基于Qwen系列模型并使用软件工程开发过程数据进行额外训练,以增强其解决复杂软件工程任务的能力。它采用三阶段软件工程过程数据合成和推理工作流程(SWESynInfer),在SWE-benchVerified排行榜上取得了显著成果,例如72B版本在解决方案率上达到30.20%,故障定位成功率达51.16%,并优于同等规模的其他开源模型。项目提供7B和72B两种模型,并附带详细的安装和部署指南。
      • entropy-research/Devon
      • THUDM/CodeGeeX4 - ALL-9B 是一个开源的多语言代码生成模型,基于 GLM-4-9B 训练,支持代码补全、代码解释、网页搜索、函数调用、代码库级问答等多种功能。该模型在 BigCodeBench 和 NaturalCodeBench 等公开基准测试中取得了优异的成绩,是参数量小于 100 亿的代码生成模型中性能最强的,在推理速度和模型性能之间取得了最佳平衡。用户可以通过 Ollama、Huggingface transformers 等方式使用 CodeGeeX4-ALL-9B 模型。
      • eosphoros-ai/DB-GPT - GPT 是一个开源 AI 原生数据应用程序开发框架,带有 AWEL(代理工作流表达式语言)和代理。目的是构建大模型领域的基础设施,通过发展多模型管理(SMMF)、Text2SQL效果优化、RAG框架及优化、Multi-Agents框架协作、AWEL(代理工作流编排)等多项技术能力)等,使得数据的大型模型应用更加简单方便。
      • griptape-ai/griptape
      • microsoft/Table-Pretraining
      • WisdomShell/codeshell - KCL开发的一系列代码大型语言模型。北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评估Benchmark(HumanEval与MBPP)上,CodeShell取得同等规模最好的性能。
      • Chenny0808/ape210k - py的特征增强和复制增强的序列到序列模型,该模型在该数据集上取得了70%的准确率。该数据集分为训练集、验证集和测试集,并提供示例展示了数学文字问题的结构和解题过程。
      • OpenCoder-llm/OpenCoder-llm
      • ise-uiuc/magicoder - Intit 提供支持的模型系列,这是一种新颖的方法LLMs,通过开源代码片段为代码生成低偏差和高质量的指令数据。OSS-Instruct 通过赋予LLM它们丰富的开源引用来产生更多样化、更真实和可控的数据,从而减轻了合成指令数据的固有偏见。
      • unit-mesh/auto-dev
      • google-deepmind/code_contests
      • eosphoros-ai/DB-GPT-Hub - GPT模型、数据集和微调技术的仓库,旨在提升文本到SQL的性能。该项目支持LLMs进行Text2SQL和Text2NLU的微调,并提供执行准确性评估。仓库包含Llama2-7B-Chat、Llama2-13B-Chat和CodeLlama-7B-Instruct等模型的评估结果。
      • unit-mesh/build-your-ai-coding-assistant
      • wssun/TiSE-CodeLM-Security
      • leetcode-mafia/cheetah
      • DataExpert-io/llm-driven-data-engineering
      • OpenCodeInterpreter/OpenCodeInterpreter - 4 Code Interpreter 等复杂专有系统之间的差距。它通过集成执行和迭代优化功能,显著增强了代码生成功能。
      • bigcode-project/starcoder
      • zurawiki/gptcommit - commit-msg 钩子,用于使用 GPT-3 创作提交消息。使用此工具,您可以轻松生成清晰、全面和描述性的提交消息,让您专注于编写代码。
      • e2b-dev/e2b
      • SqueezeAILab/LLMCompiler
      • joshpxyne/gpt-migrate - Migrate 旨在编写(并可能重写)整个代码库,因此成本可能会迅速增加。
      • codefuse-ai/MFTCoder - LLM(代码任务的大型语言模型),其中包括模型、数据集、训练代码库和推理指南。
      • Ironclad/rivet
      • smallcloudai/refact
      • AntonOsika/gpt-engineer
      • gencay/vscode-chatgpt - OpenAI ChatGPT集成,在编程集成环境中使用GPT-4、3.5、3 或 Codex 模型加速编程开发。
      • HC-Guo/Owl
      • smol-ai/developer
      • sahil280114/codealpaca - following LLaMA Model。包括用于微调模型的 20K 数据。
      • whoiskatrin/sql-translator
      • intitni/CopilotForXcode
      • salesforce/CodeGen - v4 训练。与 OpenAI Codex 竞争。
      • continuedev/continue
      • ricklamers/gpt-code-ui
      • OpenBMB/ChatDev
      • RUCAIBox/JiuZhang3.0
      • oceanlvr/ChatGPT-ProBot
      • OFA-Sys/gsm8k-ScRel
      • openai/human-eval
      • codefuse-ai/Awesome-Code-LLM
      • SkalskiP/awesome-chatgpt-code-interpreter-experiments
      • sweepai/sweep
      • Pythagora-io/gpt-pilot
      • albertan017/LLM4Decompile
      • salesforce/CodeT5
      • di-sukharev/opencommit
      • pleisto/flappy
      • ingyamilmolinar/doctorgpt
      • NJUDeepEngine/CAEF
      • mckaywrigley/ai-code-translator
      • huybery/Awesome-Code-LLM - LLM 用于研究。
      • RomanHotsiy/commitgpt
      • mpociot/chatgpt-vscode
      • kxxt/chatgpt-action
      • liutiedong/goat
      • trotsky1997/MathBlackBox
      • BuilderIO/micro-agent - agent 是一个 AI 智能体,旨在为你编写(真正有用的)代码。它通过观察你的操作和目标,理解你的意图,并自动生成相应的代码片段或完成编码任务。该项目由 BuilderIO 开发,利用 AI 技术简化开发流程,提高开发效率。Micro-agent 的核心在于其智能代码生成能力,能够根据上下文生成可用的代码,避免了传统代码生成工具的局限性。它可能集成了大型语言模型(LLM),并针对代码生成进行了优化。 使用者可以通过简单的交互,让 Micro-agent 辅助完成编码工作,例如自动生成函数、编写测试用例等。 总体来说,Micro-agent 是一个具有潜力的 AI 辅助编程工具,旨在提升开发者的工作效率。
      • i-am-bee/beeai-framework
      • xming521/WeClone
      • simstudioai/sim
      • allenai/lumos
      • luo-junyu/Awesome-Agent-Papers - junyu/Awesome-Agent-Papers 收集了关于大型语言模型(LLM)Agent的论文,并保持更新。它旨在提供一个全面的资源,涵盖LLM Agent的方法论、应用和挑战。该项目整理了大量相关论文,方便研究人员和开发者快速了解该领域的最新进展。LLM Agent的核心在于利用大型语言模型作为智能体,通过规划、推理和执行动作来完成复杂任务。项目内容包括Agent的架构设计、记忆机制、工具使用、以及在各种场景下的应用,例如游戏、机器人和自动化。此外,该项目还探讨了LLM Agent面临的挑战,如幻觉、可解释性和安全性。Awesome-Agent-Papers 是一个宝贵的资源,可以帮助人们深入理解和开发基于LLM的智能Agent。
      • YoungDubbyDu/LLM-Agent-Optimization - Agent优化综述》的阅读清单,旨在整理和优化基于大型语言模型(LLM)的智能体相关研究。项目会持续添加新的论文并改进清单,欢迎大家提出建议和贡献代码。该项目专注于LLM智能体的优化,为研究人员提供一个全面的文献资源。你可以通过该项目了解LLM智能体优化的最新进展和研究方向。项目内容包括一系列相关的论文列表,方便快速查找和学习。欢迎提交PR,共同完善这份LLM智能体优化领域的资源。
      • i365dev/llm_agent
      • junchenzhi/Awesome-LLM-Ensemble - LLM-Ensemble项目是一个精选的LLM集成论文列表,旨在为“利用多个大型语言模型:LLM集成综述”提供支持。该项目专注于LLM集成领域,即如何有效地组合多个LLM以提升性能。它收录了大量关于LLM集成的研究论文,方便研究人员查找和学习。通过整理这些论文,该项目旨在帮助人们更好地理解LLM集成的原理、方法和应用。项目特色在于其全面性和专业性,为LLM集成研究提供了一个有价值的资源库。其工作原理是持续收集和整理相关论文,并进行分类和标注,方便用户检索。该项目对于希望了解LLM集成技术的研究人员和从业者来说是一个宝贵的参考资料。
      • meta-llama/PurpleLlama
      • datawhalechina/llms-from-scratch-cn - from-scratch-cn项目旨在帮助开发者仅使用Python基础,从零开始构建大型语言模型。项目特色在于通过逐步构建GLM4、Llama3和RWKV6等模型,深入理解大模型的工作原理。该项目提供中文教程,降低了学习门槛,适合希望深入了解LLM内部机制的学习者。通过动手实践,学习者可以掌握大模型的关键技术和实现细节,而不仅仅是使用现成的API。项目内容涵盖了模型架构、训练方法和推理过程等核心概念。学习者可以逐步搭建自己的LLM,并在此过程中获得宝贵的实践经验。该项目是学习和研究LLM的优秀资源,特别适合对LLM底层原理感兴趣的开发者。
      • jongwooko/distillm
      • ed-donner/llm_engineering - donner/llm_engineering项目是作者LLM工程课程的配套代码库。该项目旨在帮助开发者掌握LLM(大型语言模型)工程技术。它可能包含课程相关的示例代码、notebook、数据集和文档。通过学习该项目,你可以了解如何构建、优化和部署基于LLM的应用程序。项目可能涵盖LLM的选择、提示工程、模型微调、评估以及部署策略等关键方面。具体内容需要查看项目中的实际代码和文档。如果你正在学习LLM工程或者希望提升相关技能,这个项目会是一个不错的学习资源。该项目可能采用Python等常用编程语言,并使用TensorFlow或PyTorch等深度学习框架。请查阅项目文档以获取更详细的信息和使用说明。
      • IBM/Dromedary
      • datamllab/LongLM
      • attentionmech/mav
      • HKUNLP/ChunkLlama - Free Long-Context Scaling of Large Language Models”(ICML'24)。它通过一种新颖的chunking方法,允许LLM处理比其原始训练长度更长的输入序列。该方法的核心思想是将长文本分割成多个chunk,然后利用LLM对这些chunk进行并行处理,最后将结果进行整合。ChunkLlama避免了对LLM进行微调或重新训练的需求,因此可以快速且经济高效地扩展现有LLM的上下文窗口。项目提供了论文中使用的数据和代码,方便研究人员复现和进一步研究。该方法尤其适用于需要处理长文档、书籍或其他长篇文本的应用场景。ChunkLlama的优势在于其简单性、高效性和通用性,使其成为扩展LLM上下文长度的一个有吸引力的选择。项目目标是提供一种易于使用且无需额外训练的LLM长文本处理方案。
      • aitomatic/openssa
      • VILA-Lab/M-Attack - Attack是一个针对大型语言模型(LLM)的简单但有效的黑盒对抗攻击基线方法,它能够在GPT-4.5/4o/o1等强大的黑盒模型上实现超过90%的攻击成功率。该项目旨在提供一个易于理解和实现的对抗攻击框架,用于评估和提高LLM的鲁棒性。M-Attack的工作原理基于某种策略,能够生成对抗性输入,诱导LLM产生错误或不期望的输出。该项目提供代码和相关资源,方便研究人员复现结果并进行进一步研究。具体细节和实验结果可以在论文https://arxiv.org/abs/2503.10635中找到。M-Attack的成功表明,即使是最先进的LLM也容易受到精心设计的对抗攻击的影响。
      • a-m-team/a-m-models - m-team/a-m-models项目是a-m-team在大语言模型领域的探索。该项目可能包含预训练模型、微调脚本、评估工具或其他与LLM相关的资源。具体内容需要查看项目仓库中的代码和文档。项目目标可能是研究LLM的性能、效率或应用。项目特色取决于具体的模型和方法,可能包括创新的训练技术、独特的模型架构或专门的应用领域。工作原理涉及LLM的训练和推理过程,可能使用Transformer架构或其他先进技术。项目可能提供预训练权重、数据集和示例代码,方便用户使用和研究。请查阅项目文档以获取更详细的信息,例如模型的性能指标、训练数据和使用指南。该项目可能对LLM研究人员和开发者有价值。
      • fzp0424/MT-R1-Zero - R1-Zero是一个基于大语言模型(LLM)的机器翻译项目,其核心在于使用类似于R1-Zero的强化学习方法来提升翻译质量。该项目旨在推进LLM在机器翻译领域的应用,并提供相应的代码实现。主要贡献是提出了一种新的训练范式,通过强化学习优化LLM的翻译能力,使其在特定任务上表现更佳。项目名称来源于其采用的R1-Zero-like强化学习方法。具体实现细节和实验结果请参考相关论文。如果你对使用LLM进行机器翻译,尤其是对强化学习在其中的应用感兴趣,这个项目值得关注。该项目提供了代码,方便研究者复现和进一步探索。
      • KwaiKEG/KwaiAgents
      • Agent-RL/ReSearch
      • sunnweiwei/RankGPT
      • pat-jj/DeepRetrieval
      • nightdessert/Retrieval_Head
      • RUC-NLPIR/WebThinker
      • iMoonLab/Hyper-RAG - RAG是一个旨在解决大型语言模型(LLM)幻觉问题的项目,它利用超图驱动的检索增强生成(RAG)技术。该项目由Yifan Feng等人开发。Hyper-RAG的核心思想是构建一个超图来表示知识,其中节点代表实体,超边代表实体之间的复杂关系。通过超图结构,Hyper-RAG能够更准确地检索相关信息,从而减少LLM生成不准确或虚假内容的可能性。项目特色在于其超图结构的知识表示和检索方法,能够有效提升RAG系统的性能。该项目为提升LLM在知识密集型任务中的可靠性和准确性提供了一种新的思路。
      • IAAR-Shanghai/SafeRAG - Shanghai)开发的用于提升检索增强生成(RAG)系统安全性的项目。它旨在解决RAG系统中存在的安全风险,例如提示注入、对抗性示例和信息泄露等问题。SafeRAG通过一系列安全策略和防御机制,增强RAG系统抵抗恶意攻击的能力。该项目包含多种安全模块,用于检测和缓解不同类型的安全威胁。SafeRAG的核心工作原理是监控和过滤输入查询和生成的内容,以防止恶意代码执行和敏感信息泄露。项目提供了一套工具和框架,方便开发者集成到现有的RAG系统中。SafeRAG特别关注大型语言模型(LLM)的安全问题,并提供针对LLM的特定安全措施。项目目标是构建更安全、更可靠的RAG系统,从而提高用户信任度和数据安全性。SafeRAG的代码和文档是开源的,方便社区参与和贡献。它支持多种RAG架构和LLM模型。SafeRAG的评估指标包括攻击成功率和防御有效性。该项目为RAG系统的安全研究和实践提供了一个有价值的平台。
      • sail-sg/oat
      • johnbean393/Sidekick
      • SqueezeAILab/KVQuant
      • tavily-ai/tavily-mcp
      • jy-yuan/KIVI
      • theworldofagents/Agentic-Reasoning - Reasoning是一个开源项目,旨在探索和实现自主智能体推理能力。该项目受到了OpenAI Deep Research的启发,致力于构建能够像人类一样进行复杂推理的智能体。它提供了一系列工具和框架,帮助开发者构建和评估具有推理能力的智能体。Agentic-Reasoning的核心思想是让智能体能够分解复杂任务、规划行动步骤、并利用外部知识来解决问题。该项目强调智能体的自主性和适应性,使其能够在不同的环境中学习和改进。该项目包含多种推理策略和算法,例如思维链(Chain of Thought)和知识图谱推理。Agentic-Reasoning的目标是推动人工智能领域的发展,使智能体能够更好地理解和解决现实世界的问题。项目鼓励社区参与,共同探索智能体推理的未来方向。开发者可以通过该项目学习到构建智能体的关键技术和方法,并参与到开源社区的贡献中。该项目目前正在积极开发中,未来将推出更多功能和特性。
      • McGill-NLP/nano-aha-moment - NLP/nano-aha-moment 是一个专门为“LLM强化学习”设计的单文件、单GPU、从零开始、高效且全参数调优的库。该项目旨在简化和加速LLM的强化学习过程。其核心特色在于代码简洁,易于理解和修改,方便研究人员快速实验和迭代。项目强调高效性,即使在单个GPU上也能实现较好的性能。它支持对LLM的全部参数进行调优,从而最大化强化学习的效果。该库从零开始构建,避免了对复杂框架的依赖,降低了学习成本。通过这个项目,用户可以更便捷地探索和应用强化学习技术来优化大型语言模型。 总而言之,nano-aha-moment提供了一个轻量级、高效、可定制的平台,助力LLM强化学习研究。
      • Eclipsess/Awesome-Efficient-Reasoning-LLMs - Efficient-Reasoning-LLMs项目是一个关于提升大型语言模型(LLMs)推理效率的资源集合。它涵盖了各种方法,旨在降低LLMs在推理过程中的计算成本和时间消耗。项目特色在于系统性地整理了相关论文、代码和数据集,方便研究者快速了解该领域进展。这些方法包括但不限于模型压缩(如量化、剪枝、知识蒸馏)、加速推理(如动态推理、Speculative Decoding)以及优化提示工程等。该项目旨在帮助开发者和研究者找到合适的工具和技术,以构建更高效、更经济的LLM应用,并推动LLM在资源受限环境下的部署。它持续更新,追踪最新的研究成果,是学习和探索LLM高效推理的重要资源。
      • nvidia-cosmos/cosmos-reason1 - Reason1项目旨在让模型理解物理常识,并通过长链式思维推理过程,以自然语言生成合适的具身决策。该项目专注于提升模型在物理世界中的常识推理能力,使其能够像人类一样思考并做出决策。模型通过学习大量的物理常识知识,并结合长链式推理,逐步分析问题,最终生成合理的决策方案。项目特色在于其对物理常识的深入理解和长链式推理的应用,使得模型能够更好地模拟人类的思考过程。Cosmos-Reason1的目标是构建一个能够理解物理世界并做出合理决策的智能体。
      • XiaoYee/Awesome_Efficient_LRM_Reasoning
      • FacebookResearch/sweet_rl - RL是由Facebook Research开发的项目,旨在为训练多轮LLM智能体在协作推理任务上提供基准和研究代码。该项目基于论文"SWEET-RL Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks",专注于提升LLM智能体在需要多轮对话和协作才能完成的任务中的表现。SWEET-RL提供了一套完整的工具,包括环境、智能体和评估指标,方便研究人员复现和扩展相关研究。其核心目标是探索如何利用强化学习(RL)来训练LLM智能体,使其能够更好地进行协作推理。项目特色在于其针对多轮对话和协作推理任务的专门设计,以及提供的基准测试和评估工具。通过SWEET-RL,研究人员可以更有效地训练和评估LLM智能体在复杂协作场景下的能力,推动相关领域的发展。它为LLM智能体在需要复杂交互和推理的应用场景中提供了新的可能性。
      • CJReinforce/PURE - Form Credit Assignment Is All Process Reward Model Needs for Reasoning"的官方代码实现。该项目专注于解决强化学习中的信用分配问题,提出了一种名为“停止求和”的极简形式信用分配方法。其核心思想是利用过程奖励模型,通过最小化形式的信用分配,实现有效的推理能力。PURE项目的关键在于避免复杂的奖励函数设计,仅依赖过程中的奖励信号进行学习。该方法在多种推理任务上表现出色,证明了其在简化信用分配复杂性方面的有效性。项目代码提供了复现论文实验结果所需的必要组件,方便研究人员进一步探索和应用该方法。PURE的优势在于其简洁性和高效性,为强化学习领域提供了一种新的解决思路,尤其适用于需要复杂推理的任务。
      • LLM360/MegaMath
      • RyanLiu112/GenPRM - Time Compute of Process Reward Models via Generative Reasoning”。该项目旨在通过生成式推理扩展过程奖励模型(Process Reward Models)的测试时计算规模。GenPRM的核心思想是利用生成模型来生成多个推理过程,并使用过程奖励模型对这些过程进行评估,从而选择最佳的推理路径。这种方法允许在测试时进行更深入的探索,提高模型的性能。项目主要关注如何高效地生成和评估这些推理过程,以实现更好的结果。它可能包含用于训练生成模型、实现过程奖励模型以及执行生成式推理的代码。该项目为研究如何利用生成式方法改进过程奖励模型提供了一个有价值的平台。
      • dllm-reasoning/d1
      • meta-llama/llama3
      • THUDM/GLM-4 - 4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
      • karpathy/LLM101n
      • QwenLM/Qwen - Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。在此基础上,我们针对LLM对接外部系统等方面针对性地做了优化,当前具备较强的工具调用能力,以及最近备受关注的Code Interpreter的能力和扮演Agent的能力。
      • 01-ai/Yi - 34B-Chat 模型在 AlpacaEval 排行榜上排名第二(仅次于 GPT-4 Turbo),表现优于其他LLMs模型(如 GPT-4、Mixtral、Claude)(基于截至 2024 年 1 月的数据)。Yi-34B模型在各种基准测试中,包括Hugging Face Open LLM Leaderboard(预训练)和C-Eval(基于截至2023年11月的数据)中,在所有现有的开源模型(如Falcon-180B、Llama-70B、Claude)中排名第一。感谢 Transformer 和 Llama 开源社区,因为它们减少了从头开始构建所需的工作量,并能够在 AI 生态系统中使用相同的工具。
      • tloen/alpaca-lora - davinci-003质量相似的Instruct模型,可以在Raspberry Pi上运行(用于研究),并且代码很容易扩展到 13b , 30b 和 65b模型。
      • LC1332/Chinese-alpaca-lora - Alpaca-LoRA的基础上,调试了一个中国LLaMA模型。同时使用ChatGPT API将alpaca_data. json翻译为中文,再进行微调。
      • THUDM/ChatGLM-6B - 6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
      • mlabonne/llm-course
      • tatsu-lab/stanford_alpaca
      • baichuan-inc/Baichuan2
      • imoneoi/openchat
      • lonePatient/awesome-pretrained-chinese-nlp-models
      • Vision-CAIR/MiniGPT-4 - 4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。
      • naklecha/llama3-from-scratch
      • CrazyBoyM/llama3-Chinese-chat
      • rasbt/LLMs-from-scratch
      • juncongmoo/pyllama - 在单个 4GB GPU 中运行 LLM
      • mymusise/ChatGLM-Tuning - 6B + LoRA
      • Facico/Chinese-Vicuna
      • AI4Finance-Foundation/FinGPT
      • InternLM/InternLM - 20B选择了更深的架构,深度设置为60层。这超过了使用32或40层的传统7B和13B型号。当参数有限时,增加层数可以增强模型的整体功能。此外,与InternLM-7B相比,InternLM-20B使用的预训练数据经过了更高质量的清理,并补充了丰富的知识数据,旨在增强理解和推理能力。因此,它在理解、推理、数学和编程能力方面表现出显着的改进——所有这些都测试了语言模型的技术熟练程度。
      • clue-ai/ChatYuan - large结合数亿条功能对话多轮对话数据进一步训练得到。
      • togethercomputer/OpenChatKit
      • lm-sys/FastChat - 4 开放式聊天机器人 Vicuna:一个以 90% ChatGPT 质量的开源聊天机器人。
      • microsoft/graphrag
      • CStanKonrad/long_llama
      • Xwin-LM/Xwin-LM - 1。值得注意的是,它是第一个在此基准测试上超过 GPT-4 。
      • google/gemma_pytorch
      • lucidrains/PaLM-rlhf-pytorch
      • carbonz0/alpaca-chinese-dataset
      • liltom-eth/llama2-webui - wrapper”作为生成代理/应用程序的本地llama2后端。
      • project-baize/baize-chatbot
      • visual-openllm/visual-openllm
      • michael-wzhu/Chinese-LlaMA2
      • microsoft/JARVIS
      • unit-mesh/unit-minions
      • OptimalScale/LMFlow
      • dalinvip/Awesome-ChatGPT
      • openai/evals
      • rockbenben/ChatGPT-Shortcut
      • Stability-AI/StableLM - AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。
      • masa3141/japanese-alpaca-lora
      • 22-hours/cabrita
      • PlexPt/awesome-chatgpt-prompts-zh
      • mlc-ai/mlc-llm
      • LC1332/Luotuo-Chinese-LLM - Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。
      • yangjianxin1/Firefly - train-1.1M),包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得如下中文模型:firefly-1b4 、firefly-2b6 、firefly-2b6-v2。开源QLoRA训练流程和模型权重
      • pengxiao-song/LaWGPT
      • yoheinakajima/babyagi
      • TransformerOptimus/SuperAGI - 开发优先的开源自主 AI 代理框架。使开发人员能够快速可靠地构建、管理和运行有用的自主代理。
      • zhayujie/chatgpt-on-wechat
      • WangRongsheng/ChatGenTitle
      • f/awesome-chatgpt-prompts - chatgpt-prompts](https://huggingface.co/datasets/fka/awesome-chatgpt-prompts) 这是一个很棒的 ChatGPT 提示的数据集存储库。
      • bhaskatripathi/pdfGPT
      • adams549659584/go-proxy-bingai
      • kaixindelele/ChatPaper
      • gragland/chatgpt-chrome-extension
      • JushBJJ/Mr.-Ranedeer-AI-Tutor - 4 AI 导师提示,用于可定制的个性化学习体验。
      • nishiwen1214/ChatReviewer
      • LAION-AI/Open-Assistant
      • databrickslabs/dolly - v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布
      • reworkd/AgentGPT
      • memochou1993/gpt-ai-assistant
      • kazuki-sf/ChatGPT_Extension
      • jtsang4/claude-to-chatgpt
      • bupticybee/ChineseAiDungeonChatGPT
      • cesarhuret/docGPT
      • domeccleston/sharegpt
      • elyase/awesome-gpt3 - 3 API 的演示和文章的集合。
      • platelminto/chatgpt-conversation
      • m1guelpf/chatgpt-telegram
      • dair-ai/Prompt-Engineering-Guide
      • ai-boost/awesome-prompts
      • yanqiangmiffy/Chinese-LangChain - 6b+langchain实现本地化知识库检索与智能答案生成
      • openai/chatgpt-retrieval-plugin
      • kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference
      • clmnin/summarize.site
      • RUCAIBox/LLMSurvey
      • liaokongVFX/LangChain-Chinese-Getting-Started-Guide
      • mbzuai-nlp/LaMini-LM - 3.5-turbo 生成总共 2.58M 对指令和响应。
      • artidoro/qlora
      • togethercomputer/RedPajama-Data
      • Voine/ChatWaifu_Mobile - ncnn图形渲染基于 Native Live2D语音输入识别为客户端本地 Sherpa - ncnn
      • huggingface/peft - Tuning、Prompt Tuning、AdaLoRA。参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。最近最先进的PEFT技术实现了与完全微调相当的性能。
      • h2oai/h2o-llmstudio
      • stochasticai/xTuring - J,Galactica等。通过提供一个易于使用的界面来微调LLM到您自己的数据和应用程序,xTuring使构建,自定义和控制LLM变得简单。整个过程可以在您的计算机内部或私有云中完成,确保数据隐私和安全。
      • punica-ai/punica
      • lxe/simple-llm-finetuner
      • eugeneyan/open-llms
      • getumbrel/llama-gpt
      • DA-southampton/RedGPT - Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。
      • botpress/botpress
      • Mooler0410/LLMsPracticalGuide
      • xcanwin/KeepChatGPT
      • ShishirPatil/gorilla
      • labring/FastGPT
      • FlowiseAI/Flowise
      • CLUEbenchmark/pCLUE
      • PlexPt/chatgpt-corpus
      • steven-tey/novel
      • fuergaosi233/wechat-chatgpt
      • EwingYangs/awesome-open-gpt
      • X-PLUG/CValues
      • howl-anderson/unlocking-the-power-of-llms
      • THUDM/WebGLM
      • h2oai/h2ogpt
      • akoksal/LongForm
      • XueFuzhao/InstructionWild
      • songquanpeng/one-api
      • chathub-dev/chathub
      • lencx/nofwl - 3 的聊天机器人进行有趣的对话。
      • promptslab/Promptify
      • lss233/chatgpt-mirai-qq-bot
      • bentoml/OpenLLM
      • Hannibal046/Awesome-LLM
      • GoogleCloudPlatform/generative-ai
      • geekan/MetaGPT
      • DAMO-NLP-SG/LLM-Zoo
      • HqWu-HITCS/Awesome-Chinese-LLM
      • OpenBMB/BMList
      • ikaijua/Awesome-AITools
      • datawhalechina/hugging-llm
      • phodal/aigc
      • OpenMotionLab/MotionGPT
      • mshumer/gpt-prompt-engineer
      • princeton-nlp/tree-of-thought-llm
      • brexhq/prompt-engineering - 4)的提示和技巧。
      • iguodongiot/llm-action
      • DSXiangLi/DecryptPrompt
      • nichtdax/awesome-totally-open-chatgpt
      • OpenGVLab/Ask-Anything
      • ModelTC/lightllm
      • JimmyLv/BibiGPT-v1
      • openai-translator/bob-plugin-openai-translator
      • 0xk1h0/ChatGPT_DAN
      • sindresorhus/awesome-chatgpt
      • skydoves/chatgpt-android
      • llm-workflow-engine/llm-workflow-engine
      • yihong0618/xiaogpt
      • GAIR-NLP/factool
      • wzpan/wukong-robot
      • Felixgithub2017/CG-Eval
      • LaVi-Lab/CLEVA
      • haonan-li/CMMLU
      • thu-coai/Safety-Prompts
      • linexjlin/GPTs
      • Azure-Samples/azure-search-openai-demo
      • khoj-ai/khoj
      • waylaidwanderer/node-chatgpt-api
      • smol-ai/GodMode
      • futantan/OpenGpt
      • openai/plugins-quickstart
      • ztjhz/BetterChatGPT
      • shibing624/textgen
      • shawwn/llama-dl
      • OpenBMB/AgentVerse
      • Lightning-AI/lit-llama
      • mleoking/PromptAppGPT
      • OpenLMLab/LOMO - Memory **O**ptimization,它将梯度计算和参数更新融合在一步中,以减少内存使用。 我们的方法使得在单张 RTX 3090 上可以进行 7B 模型的全参数微调,或者在单个 8×RTX 3090 的机器上可以进行 65B 模型的全参数微调(RTX 3090 的内存为 24GB)。
      • rustformers/llm - 它建立在用于机器学习的快速、高效的 GGML 库之上。
      • HuiMi24/chatppt
      • pytorch-labs/gpt-fast - native transformer 文本。
      • TheoKanning/openai-java - 3、ChatGPT 和 GPT-4。
      • AprilNEA/ChatGPT-Admin-Web
      • langgenius/dify
      • mosaicml/llm-foundry
      • WooooDyy/LLM-Agent-Paper-List
      • tjunlp-lab/Awesome-LLMs-Evaluation-Papers
      • Anil-matcha/Awesome-GPT-Store
      • kyrolabs/awesome-langchain
      • taranjeet/awesome-gpts
      • all-in-aigc/gpts-works
      • BerriAI/litellm
      • SillyTavern/SillyTavern
      • run-llama/rags
      • dataelement/bisheng
      • vectorch-ai/ScaleLLM
      • Mintplex-Labs/anything-llm
      • gmpetrov/databerry
      • LouisShark/chatgpt_system_prompt
      • snwfdhmp/awesome-gpt-prompt-engineering
      • LC1332/Chat-Haruhi-Suzumiya
      • awesome-assistants/awesome-assistants
      • eon01/awesome-chatgpt
      • Hello-SimpleAI/chatgpt-comparison-detection - English HC3-Chinese
      • chatpire/chatgpt-web-share
      • dirk1983/chatgpt
      • Grt1228/chatgpt-java - 3.5-Turb GPT-4 Api Client for Java
      • hyperonym/basaran
      • Tongji-KGLLM/RAG-Survey - 增强生成:一项调查
      • allenai/RL4LMs - 批评策略的实现。
      • microsoft/generative-ai-for-beginners
      • OpenBMB/UltraFeedback - Instruct、TruthfulQA、FalseQA 和 FLAN,数据集统计信息见此处)收集了大约 64k 个提示。然后,使用这些提示来查询多个 LLM,并为每个提示生成 4 个不同的响应,从而产生总共 256k 个样本。为了收集高质量的偏好和文本反馈,设计了一个细粒度的注释指令,其中包含 4 个不同的方面,即指令遵循、真实性、诚实性和帮助性。然后,我们要求 GPT-4 根据指令对收集到的样本进行注释。
      • alan-ai/alan-sdk-web
      • SJTU-IPADS/PowerInfer
      • archiki/ADaPT
      • xlang-ai/OpenAgents
      • e2b-dev/awesome-ai-agents
      • xiaogang00/white-paper-for-large-model-security-and-privacy
      • Mozilla-Ocho/llamafile
      • kwai/KwaiYii - Base)、对话模型(KwaiYii-Chat)。
      • OpenMOSS/HalluQA - 130B 生成答案并收集对抗性问题。第3步,为每个对抗性问题编写多个正确和错误的答案,并添加支持证据。第4步,检查所有带注释的问答对并删除低质样本。
      • weaigc/bingo
      • langchain4j/langchain4j
      • liziniu/ReMax - 4 判断时,ReMax 的胜率分别比 SFT、DPO 和 PPO 高出 84.22%、75.28% 和 63.60%。
      • open-webui/open-webui
      • salesforce/DialogStudio
      • TaskingAI/TaskingAI
      • xusenlinzy/api-for-open-llm - 2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口
      • paulpierre/RasaGPT
      • mckaywrigley/chatbot-ui-lite
      • FasterDecoding/Medusa
      • lmstudio-ai/model-catalog
      • adamcohenhillel/ADeus - 一个真正个性化的个人 AI。
      • tensorchord/Awesome-LLMOps
      • OpenBMB/ProAgent
      • pathwaycom/llm-app
      • BradyFU/Woodpecker - 4/mPLUG-Owl 的准确率提高了 30.66%/24.33%。
      • deep-diver/LLM-As-Chatbot
      • tmc/langchaingo
      • getzep/zep
      • Arize-ai/phoenix
      • Giskard-AI/giskard
      • promptfoo/promptfoo
      • VILA-Lab/ATLAS - 1/2、GPT-3.5 和 GPT-4。
      • pezzolabs/pezzo
      • XueFuzhao/OpenMoE
      • huggingface/trl
      • locuslab/wanda
      • msoedov/langcorn
      • ray-project/ray-llm
      • jackmpcollins/magentic
      • DachengLi1/LongChat
      • openai/openai-node
      • FranxYao/Long-Context-Data-Engineering
      • jzhang38/TinyLlama
      • BCG-X-Official/agentkit
      • SkyworkAI/Skywork
      • llmeval/llmeval-1
      • langchain-ai/langserve
      • postgresml/postgresml
      • OpenBMB/InfiniteBench
      • openai-php/client
      • GPT-Fathom/GPT-Fathom
      • bigscience-workshop/promptsource
      • nilsherzig/LLocalSearch
      • missuo/FreeGPT35 - 3.5-Turbo API 服务。
      • llmware-ai/llmware
      • InternLM/xtuner
      • hiyouga/FastEdit - One Model Editing (ROME)
      • RUCAIBox/StructGPT
      • CrazyBoyM/phi3-Chinese
      • Shenzhi-Wang/Llama3-Chinese-Chat - Llama-3-8B-Instruct模型的ORPO专门针对中文进行微调的中文聊天模型。
      • chtmp223/topicGPT
      • HowieHwong/TrustLLM
      • CLUEbenchmark/SuperCLUE-safety
      • llmeval/llmeval-2
      • PandaBearLab/prompt-tutorial
      • stanford-oval/storm
      • freshllms/freshqa
      • princeton-nlp/LLM-Shearing - 2-7B 模型(使用 2T 令牌预训练)的存在,修剪它会产生一个与 OpenLLaMA 模型一样强大的模型,其预训练成本仅为 3%。
      • google-research/xtreme
      • agi-templar/Stable-Alignment
      • stanfordnlp/pyreft
      • OpenMOSS/CoLLiE
      • tangqiaoyu/ToolAlpaca
      • McGill-NLP/webllama
      • OpenLMLab/LEval - Eval 的数据和代码,一个全面的长上下文语言模型评估基准,全面的长上下文语言模型(LCLM)评估套件,具有20个子任务,508个长文档和2,000多个人工标记的查询-响应对,包括不同的问题风格,域和输入长度(3k~200k标记)。L-Eval 有 2 组:封闭式任务和开放式任务。封闭式组主要测试对较长上下文的推理和理解能力,开放式组由需要聚合长文档信息(下载数据)的更多总结任务组成。
      • IAAR-Shanghai/UHGEval
      • bigai-nlco/LooGLE
      • aurorax-neo/free-gpt3.5-2api
      • ianarawjo/ChainForge
      • young-geng/EasyLM
      • modelscope/agentscope
      • stanford-crfm/levanter
      • Abbey4799/CELLO
      • Datayoo/HuggingFists
      • open-compass/T-Eval
      • developersdigest/llm-answer-engine
      • Zjh-819/LLMDataHub
      • kvcache-ai/Mooncake
      • amazon-science/auto-cot - CoT 使用更多的cheers和多样性来节省思维链提示设计中的巨大手动工作,匹配甚至超过 GPT-3 上的手动设计性能。
      • Farama-Foundation/chatarena
      • zjunlp/LLMAgentPapers
      • ysymyth/ReAct
      • LLM-Red-Team/kimi-free-api
      • ItzCrazyKns/Perplexica
      • hyp1231/awesome-llm-powered-agent
      • RUCAIBox/LLMBox
      • MLGroupJLU/LLM-eval-survey
      • eli64s/readme-ai
      • infiniflow/ragflow
      • 1Panel-dev/MaxKB
      • SciPhi-AI/R2R
      • lm-sys/RouteLLM - 在不影响质量的情况下节省LLM成本!我们的核心功能包括:直接替代 OpenAI 的客户端(或启动兼容 OpenAI 的服务器),将更简单的查询路由到更便宜的模型。训练有素的路由器开箱即用,我们已经证明,在 MT Bench 等广泛使用的基准测试中,它可以将成本降低多达 85%,同时保持 95% 的 GPT-4 性能。基准测试还表明,这些路由器实现了与商业产品相同的性能,同时便宜>40%。轻松扩展框架以包含新路由器,并比较路由器在多个基准测试中的性能。
      • microsoft/lida
      • logancyang/obsidian-copilot
      • thu-bpm/markllm - SIR,EXP,EXP-Edit,ITS-Edit。可视化解决方案:该工具包包括自定义可视化工具,可以清晰而深入地了解不同水印算法在各种场景下的运行方式。这些可视化有助于揭开算法机制的神秘面纱,使用户更容易理解它们。评估模块:MarkLLM 拥有 12 种评估工具,涵盖可检测性、鲁棒性和对文本质量的影响,在其评估水印技术的综合方法中脱颖而出。它还具有可定制的自动化评估管道,可满足不同的需求和场景,从而增强了工具包的实际实用性。
      • bricks-cloud/BricksLLM
      • PawanOsman/ChatGPT - 3.5-turbo ) 的免费自托管 API 访问,因此无需更改代码。
      • AUGMXNT/deccp
      • langchain-ai/langgraph - in-the-Loop:中断图形执行以批准或编辑代理计划的下一个操作。流式处理支持:流式传输每个节点产生的输出(包括令牌流式处理)。与LangChain集成:LangGraph与LangChain和LangSmith无缝集成(但不需要它们)。
      • baptisteArno/typebot.io
      • microsoft/UFO
      • ibeatai/beat-ai
      • BASI-LABS/parseltongue
      • exo-explore/exo - worker 架构,exo 设备连接 p2p,只要设备连接到网络中的某个位置,它就可以用于运行模型,Exo支持不同的分区策略,可以在设备之间分割模型,默认的分区策略是环形内存加权分区,这将在一个环中运行推理,其中每个设备运行与设备内存成正比的多个模型层。
      • betalgo/openai
      • openai/openai-quickstart-node
      • miurla/morphic
      • rashadphz/farfalle - o)
      • Nutlope/turboseek - 3 用于LLMs;用于搜索 API 的 Bing;适用于网站分析。运作方式:回答用户的问题;向必应搜索 API 发出请求,以查找前 6 个结果并显示它们;从 bing 发回的 6 个链接中抓取文本,并将其存储为上下文;向 Mixtral-8x7B 发出请求,其中包含用户的问题 + 上下文,并将其流回给用户;再次向 Llama-3-8B 提出 3 个相关问题,用户可以跟进。
      • stanford-crfm/helm
      • THUDM/CodeGeeX2 - 15B 近10%)
      • fauxpilot/fauxpilot
      • THUDM/CodeGeeX
      • microsoft/TypeChat
      • TheR1D/shell_gpt - 3 和 GPT-4 提供支持的命令行生产力工具将帮助您更快、更高效地完成任务。作为开发人员,我们可以利用 AI 功能来生成 shell 命令、代码片段、注释和文档等。忘记备忘单和笔记,使用此工具,您可以在终端中获得准确的答案,您可能会发现自己减少了日常Google搜索,从而节省了宝贵的时间和精力。
      • eth-sri/lmql
      • microsoft/semantic-kernel
      • getcursor/cursor
      • gofireflyio/aiac
      • shroominic/codeinterpreter-api
      • sqlchat/sqlchat
      • anc95/ChatGPT-CodeReview
      • kuafuai/DevOpsGPT
      • CodedotAl/gpt-code-clippy - 3的语言模型,称为GPT-Codex,根据GitHub公开可用的代码进行微调。
      • TabbyML/tabby
      • FreedomIntelligence/HuatuoGPT
      • langroid/langroid
      • shobrook/adrenaline
      • PharMolix/OpenBioMed
      • WENGSYX/CMCQA
      • IMOSR/MediaGPT
      • gmftbyGMFTBY/science-llm
      • AndrewZhe/lawyer-llama
      • zhihaiLLM/wisdomInterrogatory
      • FudanDISC/DISC-LawLLM - Law-SFT 数据集](https://huggingface.co/datasets/ShengbinYue/DISC-Law-SFT)
      • OpenBMB/CPM-Bee - Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
      • ymcui/Chinese-LLaMA-Alpaca-2 - 2 & Alpaca-2 大模型二期项目 + 本地CPU/GPU训练部署 (Chinese LLaMA-2 & Alpaca-2 LLMs)
      • zjunlp/KnowLM
      • ictnlp/BayLing
      • AtomEcho/AtomGPT
      • BuilderIO/gpt-crawler
      • blcuicall/taoli
      • DUOMO/TransGPT
      • MetaGLM/FinGLM
      • FudanDISC/DISC-FinLLM - DISC) 开发并开源。开源如下资源:DISC-FinLLM-SFT 训练数据样例、DISC-FinLLM 模型参数、DISC-Fin-Eval Benchmark DISC-Fin-Eval 测试、DISC-FinLLM-SFT 完整训练数据
      • MineDojo/Voyager - 4交互,这绕过了模型参数微调。从经验上讲,Voyager表现出强大的上下文终身学习能力,并在玩Minecraft方面表现出非凡的熟练程度。它获得的独特物品增加了 3.3×,旅行距离延长了 2.3×,解锁关键科技树里程碑的速度比之前的 SOTA 快了 15.3×。Voyager能够利用在新的Minecraft中学到的技能库从头开始解决新任务,而其他技术则难以概括。
      • yongzhuo/chatglm-maths - 6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu
      • DAMO-NLP-MT/PolyLM
      • davendw49/k2
      • Alibaba-NLP/EcomGPT
      • neukg/TechGPT
      • uptrain-ai/uptrain
      • lyogavin/Anima
      • soulteary/docker-llama2-chat
      • kyegomez/tree-of-thoughts
      • melih-unsal/DemoGPT - AI 应用程序生成器。
      • ypwhs/CreativeChatGLM
      • leon-ai/leon
      • zhayujie/bot-on-anything
      • josStorer/RWKV-Runner
      • jackMort/ChatGPT.nvim
      • zetavg/LLaMA-LoRA-Tuner - J 等.一键运行在谷歌Colab上。+ 一个类似 Gradio ChatGPT 的聊天用户界面,用于演示您的语言模型。
      • minimaxir/simpleaichat - 4等聊天应用程序接口,具有强大的功能和最小的代码复杂性。
      • OpenBMB/XAgent
      • OpenLemur/Lemur
      • THUDM/AgentTuning
      • thunlp/WebCPM
      • assafelovic/gpt-researcher
      • PromtEngineer/localGPT
      • mayooear/gpt4-pdf-chatbot-langchain
      • THUDM/AgentBench
      • zhaoyingjun/chatbot
      • OpenNLPLab/TransnormerLLM
      • zjunlp/EasyEdit
      • modelscope/modelscope-agent
      • aiwaves-cn/agents
      • web-arena-x/webarena
      • Portkey-AI/gateway
      • tatsu-lab/alpaca_eval
      • OrionStarAI/Orion - 14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。
      • billxbf/ReWOO
      • MasterAI-EAM/Darwin
      • QwenLM/Qwen-Agent
      • microsoft/ToRA
      • langfuse/langfuse - 适用于 Typescript、Python、OpenAI、Langchain、Litellm、Flowise、Superagent 和 Langflow 的稳定 SDK + 集成
      • bigemon/ChatGPT-ToolBox - Mobile
      • sparticleinc/chatgpt-google-summary-extension
      • vanna-ai/vanna
      • weijunext/smart-excel-ai
      • Meituan-AutoML/MobileVLM
      • zhangliwei7758/unity-AI-Chat-Toolkit
      • yuchenlin/LLM-Blender
      • ai4finance-foundation/finrobot
      • Tele-AI/Telechat - 7B与TeleChat-12B。TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。[数据下载](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD)
      • Clouditera/SecGPT
      • lavague-ai/LaVague
      • Dataherald/dataherald
      • explodinggradients/ragas - 根据问题衡量答案与上下文的事实一致性。Context_precision - 衡量检索到的上下文与问题的相关性,传达检索管道的质量。Answer_relevancy - 衡量答案与问题的相关性。Context_recall - 衡量检索器检索回答问题所需的所有必要信息的能力。
      • microsoft/TaskWeaver - 例如 DataFrames,而不是处理字符串。自定义算法 - 允许您将自己的算法封装到插件中并编排它们。整合特定领域的知识 - 旨在轻松整合特定领域的知识,以提高可靠性。有状态执行 - 旨在支持生成的代码的有状态执行,以确保一致且流畅的用户体验。代码验证 - 旨在在执行之前验证生成的代码。它可以检测生成的代码中的潜在问题,并提供修复建议。易于使用 - 包含示例插件、示例和教程,可帮助您入门。 提供开箱即用的体验,允许用户在安装后立即运行它。易于调试 - 具有详细和透明的日志,可帮助您了解整个过程,包括LLM提示、代码生成和执行过程。安全注意事项 - 支持基本的会话管理,以将不同用户的数据分开。代码执行被分成不同的进程,以避免相互干扰。易于扩展 - 以使用多个代理作为插件完成更复杂的任务。
      • liou666/polyglot
      • deepset-ai/haystack - 3等)与数据交互。Haystack提供了生产就绪的工具来快速构建类似ChatGPT的问题回答、语义搜索、文本生成等。
      • NVIDIA/NeMo
      • adithya-s-k/omniparse
      • fetchai/uAgents
      • bbruceyuan/Hands-On-Large-Language-Models-CN - On-Large-Language-Models-CN》是一个中文翻译版的大型语言模型实践教程项目,旨在通过动手实践帮助开发者全面掌握大语言模型的开发与应用。该项目以系统化的方式覆盖从基础理论到实际部署的完整技术栈,包含模型训练、微调、优化、推理及部署等核心环节,特别注重实战案例的解析与代码实现。教程内容分为多个模块,从大模型的基础概念、训练流程到具体应用场景(如文本生成、对话系统等)均有详细说明,同时提供可运行的代码示例和优化建议。项目采用PyTorch、TensorFlow等主流框架,并结合HuggingFace等工具链,适合开发者、研究人员及AI爱好者学习。其特色在于将复杂理论转化为可操作的实践步骤,通过分阶段的项目案例(如基于Transformer的模型实现、LoRA微调技术等)帮助学习者逐步掌握大模型开发技能。此外,项目还包含模型评估、部署优化等进阶内容,适合不同层次的学习者根据需求选择学习路径。通过本项目,用户不仅能理解大语言模型的工作原理,还能获得完整的开发经验,适用于从零基础到进阶的AI技术学习需求。
      • NevaMind-AI/memU
      • sst/opencode
      • musistudio/claude-code-router - code-router 是一个基于 Claude 模型构建的代码基础设施工具,旨在为开发者提供灵活的模型交互方式,同时同步享受 Anthropic 公司的技术更新。该项目的核心功能是通过路由机制将代码生成请求精准分配到 Claude 模型的不同版本(如 Claude 2、Claude 3 等),开发者可根据具体需求选择模型版本或自定义交互逻辑,例如设置代码输出格式、错误处理机制或响应过滤规则。其工作原理基于对 Claude API 的封装,通过中间层路由系统接收用户输入,经过模型处理后返回代码结果,并支持对输出内容进行二次处理(如格式化、注释添加等)。项目特别强调灵活性,允许开发者通过配置文件或代码接口动态调整模型参数,甚至集成其他代码生成模型作为备选方案。此外,该工具还提供了监控功能,可追踪模型调用次数、响应延迟等性能指标,并支持将代码输出直接写入本地文件或集成到 CI/CD 流程中。相比直接调用 Claude API,该项目通过模块化设计降低了开发门槛,同时通过版本兼容性处理确保模型更新后功能的稳定性,适用于需要频繁调用代码生成模型的开发场景,如自动化测试、代码补全或智能文档生成等场景。
      • shareAI-lab/analysis_claude_code
      • MiniMax-AI/MiniMax-M2 - M2 是一款专为代码开发与智能代理工作流设计的大型语言模型,由 MiniMax(一家中国人工智能公司)推出。该项目的核心目标是通过强大的代码生成能力、自动化任务处理以及多模态交互支持,提升开发者效率与智能化应用场景。MiniMax-M2 的关键特色包括:支持多种编程语言(如 Python、Java、C++ 等)的代码生成与补全,提供精准的代码调试建议,以及通过智能代理(Agent)系统实现自动化任务编排与协作。模型基于海量代码库、技术文档和开源项目数据进行训练,使其能够理解复杂的编程逻辑并生成高质量代码。此外,MiniMax-M2 还融入了多模态能力,可处理文本、代码与图像的混合输入,适用于开发工具、自动化运维、AI 助手等场景。其工作原理依赖于大规模深度学习架构,通过预训练与微调结合的方式优化代码理解与生成能力,同时支持与外部工具(如代码编辑器、API 接口)的集成,实现更高效的开发流程。MiniMax-M2 的设计强调灵活性与可扩展性,开发者可通过 API 接口或 SDK 调用模型能力,或将其嵌入到自定义工作流中。项目还提供详细的文档与示例代码,帮助用户快速上手。目前,MiniMax-M2 已在多个开源项目中验证其性能,例如代码生成准确率、多语言支持范围以及与智能代理系统的兼容性。未来,该模型将进一步优化推理速度、增强对新兴编程框架的支持,并探索更多跨领域应用,如自动化测试、代码安全分析等。该项目的开源特性使其成为开发者社区的重要资源,同时也为研究者提供了探索代码生成与智能代理技术的实验平台。
      • ValueCell-ai/valuecell
      • crestalnetwork/intentkit
      • microsoft/agent-framework
      • DearVa/Everywhere
      • ModelEngine-Group/nexent
      • langchain-ai/rag-from-scratch
      • friuns2/BlackFriday-GPTs-Prompts
      • openai/summarize_from_feedback
      • openai/webgpt_comparisons
      • LLMBook-zh/LLMBook-zh.github.io
      • plandex-ai/plandex
      • 中文医疗信息处理评测基准CBLUE_数据集-阿里云天池
      • FreedomIntelligence/huatuo_encyclopedia_qa
      • BillGPT/Chinese-medical-dialogue-data
      • czlonkowski/n8n-mcp - mcp**,是一款专为 **Claude Desktop、Claude Code、Windsurf 和 Cursor** 等工具设计的自动化工作流构建工具,其核心功能是通过 **n8n**(一个开源的自动化工作流平台)实现对用户指令的自动化处理。项目的核心特色在于其作为“中间控制面板”(MCP)的功能,能够将用户在这些工具中输入的指令(如文本生成、代码编写或任务操作)自动转换为 n8n 的工作流节点,从而实现无需手动配置即可完成复杂流程的自动化。其工作原理基于与目标工具的 API 集成,通过监听用户指令并调用 n8n 的节点库(如文本处理、数据转换、API 调用等)来构建工作流,最终将结果返回给用户。例如,当用户在 Cursor 中输入“生成 Python 脚本”,系统会自动触发 n8n 的代码生成节点并返回结果。项目支持高度自定义,用户可通过配置节点逻辑、添加插件或扩展功能来适应不同场景。此外,其设计强调易用性,提供可视化界面和简单的指令格式,降低自动化门槛。技术实现上,项目依赖 n8n 的 API 和目标工具的接口,通过解析用户输入的自然语言指令,结合预设的节点模板完成工作流构建。该项目适用于需要频繁使用 AI 工具处理重复性任务的开发者,可显著提升工作效率。目前,项目已支持主流 AI 工具的集成,并计划扩展更多插件和优化节点逻辑。
      • wangrui6/Zhihu-KOL
      • datasets/BAAI/COIG - Zlab/COIG](https://github.com/BAAI-Zlab/COIG)
      • juletxara/mgsm
      • QingyiSi/Alpaca-CoT
      • sunzeyeah/chinese_chatgpt_corpus
      • BelleGroup/generated_chat_0.4M
      • promptingguide.ai/zh
      • qgyd2021/rlhf_reward_dataset - reward-single-round-trans_chinese;dikw/hh_rlhf_cn;Anthropic/hh-rlhf;liyucheng/zhihu_rlhf_3k;stanfordnlp/SHP。
      • openbmb/UltraInteract_sft
      • eyaltoledano/claude-task-master
      • droidrun/droidrun
      • MotiaDev/motia-examples
      • Davinci-XLab/V2Flow - XLab开发的开源图像生成框架,核心特点如下:​​统一视觉与文本表示​​:创新性地将图像分词器与大型语言模型(LLM)词汇表对齐,实现视觉token与文本token在结构和概率分布上的统一。​​技术突破​​:采用流匹配(flow-matching)的掩码自回归重建技术;支持在现有LLM(如LLaMA)上直接进行自回归图像生成;512×512/1024×1024双分辨率支持。该项目通过重构视觉token表示,使LLM无需结构调整即可生成高质量图像,有效桥接了文本与视觉生成领域。
      • openai/preparedness
      • step-law/steplaw - 0.713}D^{0.307} ;实验验证误差仅 0.09%(对比全局最优值),泛化至多种模型架构(密集/MoE稀疏模型)及多语言/多任务数据分布。关键验证:损失景观凸性:固定模型规模和数据量时,学习率与批量大小形成平滑凸优化面,最优参数组合覆盖宽泛区域而非单点(图2)。 跨架构稳定性:在6种模型结构(不同深度/宽度/FFN倍数)和MoE模型(不同稀疏度)中均保持高精度预测(图3-4)。 调度策略优化:固定最小学习率(min_lr=1e-5)比传统衰减策略(max_lr/10)降低最终损失(图6)。资源规模:训练 3,700个 不同规模的大模型(消耗约 100万亿token,近 百万H800 GPU小时)。承诺逐步开源所有实验数据:模型权重、训练动态及损失指标(Wandb/Github/Hugging Face)。应用价值:提供即用型工具,指导大模型预训练的超参数配置,显著降低调优成本。2025年将发布后续研究(Part II/III)。总结:通过海量实验首次建立普适性LLM超参数缩放律,为高效训练提供理论基石与开源工具。
      • pangu-tech/pangu-ultra - tech团队开发,主要围绕在华为Ascend NPU上训练和优化大规模语言模型展开,包含四个核心成果: Pangu Ultra:基于1350亿参数的稠密Transformer模型,在13.2万亿高质量token上预训练,通过深度缩放三明治归一化等技术解决训练稳定性问题,在多项基准测试中超越Llama 405B等模型。 Pangu Ultra MoE:7180亿参数的混合专家模型,通过专家并行通信优化和内存管理技术,在6144块NPU上实现30%的MFU利用率,性能接近DeepSeek-R1。 Pangu Light:提出结构化剪枝与新型权重重初始化技术(如CLAP/SLNP),在Ascend NPU上实现高效推理,其32B模型在速度和准确率上均优于Qwen3-32B。 Pangu Embedded:面向边缘部署的双系统推理框架,结合快速/慢速思维模式和动态资源分配,在AIME 2024等基准测试中超越同规模模型。 所有模型均针对华为Ascend NPU硬件特性深度优化,体现了团队在超大规模模型训练系统、稀疏化训练和边缘推理领域的系统性创新。
      • jianghoucheng/AnyEdit
      • KRLabsOrg/LettuceDetect
      • morphik-org/morphik-core - core是一个开源的多模态RAG(检索增强生成)框架,旨在帮助开发者基于私有知识构建AI应用。它允许用户利用各种数据模态(例如文本、图像、音频等)进行信息检索和生成,从而增强AI应用的知识理解和推理能力。该项目提供了一套工具和组件,简化了RAG流程的构建和定制,使得开发者能够更高效地将私有知识集成到AI应用中。Morphik-core的核心优势在于其多模态支持和灵活的架构,开发者可以根据自身需求进行扩展和定制。通过该项目,用户可以构建能够理解和利用多种数据类型的AI应用,从而实现更智能和个性化的用户体验。总而言之,Morphik-core是一个强大的开源工具,助力开发者构建基于私有知识的多模态AI应用。
      • Danielskry/Awesome-RAG - RAG,由 Danielskry 创建并维护。RAG 是一种结合了信息检索和文本生成的技术,旨在提高生成式模型的准确性和可靠性。该列表可能包含各种 RAG 相关的项目、论文、工具和教程。通过学习这些资源,你可以深入了解 RAG 的工作原理,并将其应用于实际场景中,例如问答系统、文本摘要和内容创作。这个项目旨在为研究人员、开发者和对生成式 AI 感兴趣的人提供一个全面的 RAG 学习平台。你可以找到各种案例,学习如何利用 RAG 技术来改进你的 AI 应用。Awesome-RAG 旨在成为 RAG 领域的知识中心,帮助你快速掌握相关技术并应用到你的项目中。
      • LHRLAB/HyperGraphRAG
      • cloudflare/mcp-server-cloudflare - server-cloudflare 是一个用于在 Cloudflare Workers 上部署 MCP (Metal Compute Platform) 服务器的开源项目。它允许用户利用 Cloudflare 的全球网络和无服务器计算能力运行 MCP 服务器,从而实现边缘计算和低延迟应用。该项目的主要特色在于简化了 MCP 服务器的部署流程,使其能够轻松集成到 Cloudflare 的基础设施中。其工作原理是将 MCP 服务器逻辑封装成 Cloudflare Worker,并通过 Cloudflare 的路由规则将请求转发到该 Worker。这使得用户可以利用 Cloudflare 的缓存、DDoS 防护和全球加速等功能来增强 MCP 服务器的性能和安全性。该项目提供了一系列工具和文档,帮助用户配置和管理 MCP 服务器,并支持自定义扩展和集成。简单来说,它让你的 MCP 服务器跑在 Cloudflare 的全球网络上,更快更安全。
      • yzfly/Awesome-MCP-ZH - MCP-ZH 是一个中文 MCP (可能是指 Minecraft Protocol 或其他 MCP 相关技术) 资源精选项目,旨在提供 MCP 指南、Claude MCP 相关信息、MCP 服务器和客户端等资源。该项目可能整理了关于 MCP 协议、服务器搭建、客户端开发以及使用 Claude (可能是指 Claude AI) 进行 MCP 相关应用的内容。它可能包含教程、工具、代码示例和相关链接,帮助开发者和爱好者更好地理解和应用 MCP 技术。该项目特色在于其全面的中文资源整理,方便中文用户学习和使用 MCP 相关技术。工作原理可能是通过收集、整理和分类网络上的 MCP 相关资源,并提供索引和链接,方便用户查找和使用。具体内容可能包括 MCP 协议的解析、服务器和客户端的实现、以及使用 Claude AI 进行 MCP 相关任务的示例。
      • adhikasp/mcp-twikit - twikit,一个用于与Twitter交互的Model Context Protocol (MCP)服务器。它允许用户通过MCP协议与Twitter进行交互,可能涉及数据获取、推文发布等操作。具体实现细节和功能需要进一步研究项目代码才能了解,例如支持哪些Twitter API,如何处理身份验证,以及MCP协议的具体使用方式。该项目可能提供了一个抽象层,简化了与Twitter API的交互过程,并允许将Twitter集成到更大的MCP生态系统中。
      • sail-sg/understand-r1-zero - Zero模型的训练机制,并提出批判性视角。它主要研究了R1-Zero模型及其变体在训练过程中遇到的问题和挑战。项目通过理论分析和实验验证,揭示了现有训练方法的一些局限性。研究重点包括梯度消失、模式崩塌等问题,并尝试提出改进的训练策略。项目特色在于其对R1-Zero模型训练的深入剖析,并提供了一些实用的调试和优化建议。项目代码可能包含模型实现、训练脚本和评估工具。目标是帮助研究人员和开发者更好地理解和应用R1-Zero类模型,避免常见的训练陷阱。项目可能涉及对抗生成网络(GANs)相关技术。
      • starrYYxuan/UniTE - k集成)是一个用于大型语言模型(LLM)集成的新方法,主要解决现有集成方法中模型兼容性差和计算效率低的问题。通过分析发现模型性能、词汇量和响应风格是影响集成效果的关键因素,提出仅对每个模型的前k个token进行集成,避免全词汇对齐带来的计算开销。该方法在多个基准测试中表现优异,显著提升了集成效果。项目提供2模型和3模型的集成代码实现,并已在arXiv上发表相关论文。
      • babaohuang/GeminiProChat
      • AkariAsai/self-rag - RAG是由Akari Asai等人提出的一个通过自我反思来学习检索、生成和评价的项目。它旨在让模型具备自我评估和改进生成内容的能力。该项目实现了论文中描述的SELF-RAG模型。其核心思想是让模型在生成过程中能够检索相关信息,并对自身生成的内容进行批判性评估。通过这种自我反思机制,SELF-RAG模型可以生成更准确、更可靠的文本。该项目提供原始的SELF-RAG实现代码,方便研究者复现和进一步研究。简单来说,SELF-RAG让AI学会了“检索-生成-评价”的闭环,从而提升生成质量。
      • zwhe99/DeepMath
      • ByteDance-Seed/Seed-Thinking-v1.5 - Thinking v1.5 是字节跳动开源的通用人工智能框架,旨在赋予机器像人类一样的思考能力。它通过模拟人类认知过程,实现可解释、可控和可泛化的智能。该框架的核心是“种子”概念,代表着知识的基本单元,通过种子间的连接和组合,构建复杂的知识网络。Seed-Thinking 采用模块化设计,包含知识表示、推理引擎和控制策略等关键组件。其主要特色包括:知识驱动的推理、符号化的知识表示以及可解释的决策过程。该项目提供了一套完整的开发工具和示例,方便开发者快速上手并构建自己的智能应用。 v1.5版本在稳定性和性能上进行了优化,并增加了新的知识表示方法和推理算法。它支持多种应用场景,例如智能问答、决策支持和自动化任务。
      • EleutherAI/gpt-neox
      • arcee-ai/mergekit - 一个简单的加权平均值。) 、SLERP、Task Arithmetic、TIES 、DARE TIES、DARE Task Arithmetic 、Passthrough、Model Stock
      • sentient-agi/ROMA - Open-Meta-Agent)是一个开源的元代理框架,旨在构建高性能的多代理系统,当前版本为v0.1 Beta。该项目采用递归式架构设计,通过开放性和模块化结构支持多种算法和自定义组件,可动态协调多个智能体(Agent)协作完成复杂任务。其核心特性包括:1)递归调用机制允许元代理(Meta-Agent)动态生成子代理,实现任务分解与多层级协作;2)支持强化学习、博弈论等算法的灵活集成;3)基于Python构建,依赖PyTorch和Ray框架,提供分布式训练与推理能力;4)通过动态策略优化模块,实时调整代理行为策略以适应环境变化。ROMA适用于需要多智能体协作的场景,如自动驾驶系统、资源调度优化和复杂决策系统。项目采用分层架构,顶层元代理负责全局决策,底层代理执行具体任务,通过API接口实现组件扩展。开发者可通过GitHub获取源码,需安装Python 3.8+、PyTorch 1.10+及Ray 2.0+环境。项目持续更新中,贡献者可通过提交Issue或Pull Request参与开发,当前版本重点优化了多代理通信效率与策略迭代速度,未来计划支持更多算法库和跨平台部署能力。
      • tekaratzas/RustGPT
      • cocoindex-io/cocoindex - io/cocoindex 是一个为人工智能设计的实时数据转换框架。它具有超高性能,并支持增量处理,这意味着它只处理数据的变化部分,而不是每次都处理整个数据集,从而提高效率。该框架主要用于快速转换和处理AI模型所需的数据。具体实现细节和使用方法请参考项目文档。该项目旨在提供一种高效、实时的数据处理解决方案,以满足AI应用对数据处理速度和效率的需求。专为AI打造的超高性能数据转换框架,核心引擎采用Rust编写。开箱即支持增量处理与数据血缘追踪。提供卓越的开发效率,从第0天起即具备生产就绪能力。
      • OpenDCAI/DataFlow
      • qibin0506/Cortex
      • GaiaNet-AI/gaianet-node
      • GeeeekExplorer/nano-vllm
      • awslabs/mcp
      • lharries/whatsapp-mcp
      • aipotheosis-labs/aci
      • wonderwhy-er/DesktopCommanderMCP
      • Alibaba-NLP/DeepResearch - 微调范式快速适配不同任务,结合知识蒸馏技术提升小模型效果,同时提供可视化分析工具帮助用户监控训练过程。项目特别强调社区协作,提供详尽的文档和示例代码,支持多语言接口,并定期更新模型库与优化策略。开发者可通过GitHub参与贡献,项目兼容主流深度学习框架(如PyTorch、TensorFlow),并提供预训练模型下载服务。无论是学术研究还是工业应用,Tongyi Deep Research 都致力于通过开源生态推动AI技术的普及与创新。
      • mbzuai-oryx/Awesome-LLM-Post-training - Training: A Deep Dive into Reasoning Large Language Models**》建立的。论文的核心观点是:虽然预训练为 LLM 打下了基础,但真正的突破(如提升推理能力、事实准确性、与人类意图对齐)来自于**后训练**阶段。这个仓库旨在系统化地追踪和整理这个关键领域的所有进展。 ### 主要内容与特色 1. **系统化的分类体系**:仓库将纷繁复杂的后训练技术清晰地分为三大主干: * **微调**: 如下游任务适配。 * **强化学习**: 如基于人类反馈的强化学习,这是让模型对齐人类偏好的核心技术。 * **测试时扩展**: 如思维树、蒙特卡洛树搜索等,在模型推理时投入更多计算资源来提升答案质量。 2. **极其全面的资源集合**: * **论文**: 收录了海量最新论文,并细分为综述、理论、可解释性、奖励学习、策略优化、多智能体强化学习等多个子领域,几乎涵盖了所有热门研究方向(如 OpenAI 的 o1 模型、DeepSeek-R1 等背后的技术)。 * **代码库与工具**: 提供了众多实用的开源库链接,例如 `TRL`, `trlX`, `LLaMA-Factory` 等,帮助研究者和开发者快速上手实践。 * **基准与数据集**: 收集了用于评估模型推理、数学能力、代码生成等技能的权威基准,如 `Big-Math`, `PRMBench`, `FrontierMath` 等。 * **教程与课程**: 链接了相关的学习资源。 3. **社区驱动与持续更新**: * 项目明确指出“贡献欢迎”,鼓励社区共同维护,确保资源库能跟上这个日新月异的领域的发展速度。 * 它提供了一个公开的链接,承诺会持续追踪最新动态。 ### 总结 总而言之,这个仓库远不只是一个简单的论文列表。它是一个**结构化、高质量、且持续演进的“一站式”学术与工程资源中心**,非常适合以下人群: * **研究人员**: 快速了解领域全景和最新前沿。 * **工程师/开发者**: 寻找现成的工具和代码来对 LLM 进行微调与优化。 * **学生与爱好者**: 系统性地学习 LLM 训练的全流程,特别是最关键的“打磨”阶段。 可以说,它是任何希望深入理解并实践现代大语言模型高级训练技术的人的必备收藏。
      • github/CopilotForXcode
      • mito-ds/mito
      • cheahjs/free-llm-api-resources - llm-api-resources 是一个整理了大量免费大型语言模型(LLM)推理资源的项目,通过API接口提供访问方式。该项目旨在为开发者和研究者提供便捷的途径,直接调用多种开源LLM模型的推理服务,无需自行部署模型。项目核心功能是维护一个持续更新的API资源列表,涵盖不同模型的接口地址、认证方式、调用参数规范及使用限制等信息,例如支持通义千问、Llama、Baichuan等主流模型的API接入。其特色在于对资源进行分类整理,按模型类型、是否需注册、响应速度等维度标注,同时提供调用示例代码(如Python请求示例),帮助用户快速上手。工作原理基于模型提供方开放的API接口,用户通过HTTP请求发送文本输入,接收模型生成的响应结果。项目定期更新资源链接和参数说明,确保信息准确性,并通过开源社区协作维护模型兼容性。该工具适合需要快速集成LLM能力但缺乏部署资源的场景,同时为开发者节省自行搭建模型服务的时间成本,是连接模型开发者与应用者的桥梁。
      • kodu-ai/claude-coder
      • towhee-io/towhee
      • sakanaai/evolutionary-model-merge
      • netease-youdao/QAnything
      • nashsu/FreeAskInternet
      • aixcoder-plugin/aiXcoder-7B
      • 0xeb/TheBigPromptLibrary
      • pytorch/torchtitan
      • OpenBuddy/OpenBuddy
      • sail-sg/sailor-llm
      • lmstudio-ai/lms
      • openai/swarm
      • thu-coai/CodePlan
      • open-thoughts/open-thoughts
      • HJYao00/Mulberry
      • seanzhang-zhichen/llama3-chinese - Chinese是以Meta-Llama-3-8B为底座,使用 DORA + LORA+ 的训练方法,在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。
      • YuchuanTian/AIGC_text_detector - 未标记检测”(ICLR‘24 Spotlight)
      • xiangsx/gpt4free-ts - 4 API!这是 xtekky/gpt4free 版本的复制项目
      • taishi-i/awesome-ChatGPT-repositories
      • SciSharp/LLamaSharp
      • jaymody/picoGPT - 2。40 行代码。
      • sashabaranov/go-openai
      • InternLM/Agent-FLAN - FLAN 来有效地微调 Agent 的语言模型。通过对训练语料库的仔细分解和重新设计,Agent-FLAN 使 Llama2-7B 在各种代理评估数据集上的表现比之前的最佳作品高出 3.5%。通过全面构建负样本,Agent-FLAN 根据我们建立的评估基准极大地缓解了幻觉问题。此外,它在扩展模型大小时持续提高了LLMs的代理能力,同时略微增强了LLMs的一般能力。
      • modelscope/MemoryScope
      • datawhalechina/llm-universe
      • togethercomputer/MoA - of-Agents (MoA) 是一种利用多个大型语言模型 (LLM) 的集体优势来提高性能的新方法,在 AlpacaEval 2.0上取得了最先进的结果。通过采用分层架构,其中每一层包含多个 LLM 代理,MoA 使用仅开源模型,显著优于 GPT-4 Omni 的 57.5% 的得分,达到了 65.1% 的得分。该项目提供了一个简单的 50 行代码示例,展示了如何使用 MoA,以及一个更高级的示例,展示了如何使用多层 MoA。此外,该项目还提供了一个交互式命令行界面 (CLI) 演示,展示了一个简单的多轮聊天机器人,其中最终响应来自各种参考模型的聚合。用户可以通过输入指令与聊天机器人进行交互,并获得基于多个模型的聚合响应。
      • suitedaces/computer-agent
      • SylphAI-Inc/AdalFlow - Grad 和 DsPy。通过我们的研究,Text-Grad 2.0 和 Learn-to-Reason Few-shot In Context Learning AdalFlow Trainer 实现了最高的准确性,同时具有最高的令牌效率。
      • andrewyng/translation-agent
      • MODSetter/SurfSense
      • meta-llama/llama-stack-apps
      • ucbepic/docetl
      • father-bot/chatgpt_telegram_bot - 5 秒);无请求限制;消息流(观看演示);GPT-4 和 GPT-4 Turbo 支持;GPT-4 Vision 支持;群聊支持(/help_group_chat获取说明);DALLE 2(选择艺术家模式以生成图像);语音消息识别;代码突出显示;15 种特殊聊天模式:助理、代码助理、艺术家、心理学家、埃隆马斯克等。您可以通过编辑配置/chat_modes.yml轻松创建自己的聊天模式;支持 ChatGPT API;允许的 Telegram 用户列表;跟踪在 OpenAI API 上花费的 $ 余额
      • davidmigloz/langchain_dart
      • openbmb/ioa
      • danielmiessler/fabric
      • OpenBioLink/ThoughtSource
      • airtai/fastagency
      • lafmdp/Awesome-Papers-Autonomous-Agent
      • frdel/agent-zero
      • alipay/agentUniverse
      • metauto-ai/GPTSwarm
      • ranpox/awesome-computer-use
      • aymeric-roucher/GAIA
      • luban-agi/Awesome-Tool-Learning
      • InternLM/lagent
      • Yifan-Song793/ETO - 成功轨迹对中学习来更新其策略。
      • enricoros/big-agi - 4 及更高版本提供支持的个人 AI 应用程序,具有 AI 角色、AGI 功能、文本到图像、语音、响应流、代码突出显示和执行、PDF 导入、开发人员预设等等。使用Next.js,React,Joy。
      • MervinPraison/PraisonAI
      • OpenGVLab/InternGPT - 4,SAM,交互式图像编辑等
      • wangrongding/wechat-bot
      • sci-m-wang/Minstrel
      • agent-husky/husky-v1
      • Holmeswww/AgentKit
      • zjunlp/AutoAct
      • CLUEbenchmark/SuperCLUE-Agent - Agent: 基于中文原生任务的Agent智能体核心能力测评基准
      • TBXark/ChatGPT-Telegram-Workers
      • askrella/whatsapp-chatgpt - E 2来响应用户输入。
      • AutumnWhj/ChatGPT-wechat-bot
      • tmgthb/Autonomous-Agents
      • transitive-bullshit/chatgpt-twitter-bot
      • open-compass/CompassJudger - 1 系列是 Opencompass 推出的一款多功能 Judge 模型。这些模型不仅通过评分和比较在各种评估方法中表现出色,而且可以以指定格式输出带有评估详细信息的评论,使其适用于任何评估数据集。此外,它们可以执行类似于典型指令模型的一般任务,因此可以作为具有强大泛化和判断能力的多功能工具。全面的评估能力:CompassJudger-1 能够执行多种评估方法,包括但不限于评分、比较和提供详细的评估反馈。格式化输出:支持根据说明以特定格式输出,便于进一步分析和理解评估结果。多功能性:除了评估功能外,CompassJudger-1 还可以作为通用指令模型来完成日常任务。它还支持 vLLM 和 LMdeploy 等模型推理加速方法。
      • suzgunmirac/BIG-Bench-Hard - Bench Hard(BBH) 是一个包含 23 个具有挑战性的 BIG-Bench任务的子集,这些任务是现有语言模型无法解决的。研究发现,通过应用链式思维 (CoT) 提示,PaLM 模型能够在 23 个任务中的 10 个任务上超越人类平均水平,而 Codex 模型则能够在 23 个任务中的 17 个任务上超越人类平均水平。BBH 中的许多任务需要多步推理,因此没有 CoT 的少样本提示无法充分展现语言模型的最佳性能,而 CoT 提示则能够更好地展现语言模型的能力。研究还分析了 CoT 与模型规模之间的相互作用,发现 CoT 能够在一些原本规模扩展曲线平坦的 BBH 任务上实现性能的突显。该项目包含 BBH 任务文件、CoT 提示文件和 Codex 模型输出结果。
      • RUCAIBox/BAMBOO
      • huggingface/evaluation-guidebook
      • sylinrl/TruthfulQA
      • openai/safety-rbr-code-and-data
      • mikegu721/xiezhibenchmark
      • xingyaoww/mint-bench
      • tsinghuac3i/ultramedical - Tversky 优化 (KTO)。通过利用这些技术并在 UltraMedical 数据集上训练大型语言模型,该项目旨在创建功能强大且通用的模型,以有效满足生物医学界的需求。该项目已发布了包含 410,000 个合成和人工策划样本的大型高质量生物医学指令数据集,以及超过 100,000 个偏好数据。
      • 2020MEAI/TCMLLM
      • Zlasejd/HuangDI - LLaMA-13B-V1的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的语言模型(pre-trained ),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。以《中华医典》数据库为语料来源,约338MB,由两部分组成:①非结构化的“古籍文本”:涵盖了886本标点符号及内容完整的中医古籍。②结构化的“古籍辞典”:包含“名医”、“名言”、“名词”、“名著”等六大类,由中医学界诸多知名学者对中医古籍内容知识进一步系统提炼整理,是中医古籍内容精华最为直接的集中体现。
      • FudanDISC/DISC-MedLLM - Med-SFT](https://huggingface.co/datasets/Flmc/DISC-Med-SFT),包含超过47万个衍生于现有的医疗数据集重新构建得到的样本。采用了目标导向的策略,通过对于精心选择的几个数据源进行重构来得到SFT数据集。帮助模型学习医疗领域知识,将行为模式与人类偏好对齐,并对齐真实世界在线医疗对话的分布情况。
      • bigscience-workshop/biomedica
      • X-D-Lab/MindChat
      • openmedlab/PULSE: PULSE: Pretrained and Unified Language Service Engine
      • Toyhom/Chinese-medical-dialogue-data
      • kyegomez/Med-PaLM - PaLM 2 的力量,彻底改变医学知识,回答复杂的问题,并通过准确、安全和公平的做法增强医疗保健体验。
      • UCSD-AI4H/Medical-Dialogue-System
      • WangRongsheng/MedQA-ChatGLM - Tuning V2、Freeze、RLHF等微调
      • michael-wzhu/ChatMed
      • michael-wzhu/PromptCBLUE
      • FreedomIntelligence/Huatuo-26M
      • hejunqing/webMedQA
      • kbressem/medAlpaca
      • stanford-crfm/BioMedLM
      • lemuria-wchen/imcs21 - 21 的新语料库基准,用于自动医疗咨询系统
      • WangRongsheng/XrayGLM
      • chaoyi-wu/PMC-LLaMA
      • WangRongsheng/IvyGPT
      • michael-wzhu/ShenNong-TCM-LLM
      • 189569400/MedicalGPT-zh
      • SCIR-HI/Med-ChatGLM
      • scutcyr/SoulChat
      • xionghonglin/DoctorGLM - 6B的中文问诊模型
      • X-jun-0130/LLM-Pretrain-FineTune
      • zjunlp/WKM - 7B、Gemma-7B 和 Llama-3-8B)在三个复杂的现实世界模拟数据集上进行的实验结果表明,与各种方法相比,我们的方法可以实现卓越的性能。强大的基线。此外,我们还分析说明了我们的方法可以有效缓解盲目试错和幻觉动作问题,为智能体对世界的理解提供有力的支持。其他有趣的发现包括:我们的实例级任务知识可以更好地推广到未见过的任务,弱WKM可以指导强代理模型规划,统一的WKM培训具有进一步发展的潜力
      • opendatalab/LabelLLM
      • Xingrun-Xing/SpikeLM
      • thu-coai/CharacterGLM-6B
      • meta-llama/llama-stack
      • R3gm/SoniTranslate
      • Ber666/ToolkenGPT - XL、FuncQA、VirtualHome 和 KAMEL 等数据集的训练和推理代码,并提供了详细的说明。用户可以使用该项目来训练和评估自己的工具增强语言模型。
      • allenai/OLMo
      • CubicalBatch/deaddit
      • tri-ml/linear_open_lm
      • LAION-AI/AIW
      • Mxoder/TinyStories
      • GAIR-NLP/O1-Journey
      • RUCAIBox/GPO
      • ai-boost/Awesome-GPTs
      • amazon-science/RAGChecker - level entailment操作进行细粒度评估。 基准数据集:全面的 RAG 基准数据集,包含涵盖 10 个领域的 4k 个问题。 元评估:人工注释的偏好数据集,用于评估 RAGChecker 结果与人类判断的相关性。 RAGChecker 使开发人员和研究人员能够精确、深入地彻底评估、诊断和增强他们的 RAG 系统。
      • Yusuke710/nanoPerplexityAI - ai 和 Perplexica 等开源项目,并提供了示例对话和演示视频。
      • openpsi-project/ReaLHF
      • spcl/MRAG
      • sparticleinc/ASEED
      • RUC-NLPIR/LLM4IR-Survey
      • NirDiamant/RAG_Techniques
      • jjleng/sensei - R, Qwen-2-72b-instruct, WizardLM-2 8x22B, Claude Haiku, GPT-3.5-turbo 搜索:SearxNG、必应 内存:Redis 部署:AWS、 Paka
      • patchy631/ai-engineering-hub
      • memfreeme/memfree - Claude 3.5 Sonnet 和最流行的前端框架 - React + Tailwind + Shadcn UI 在几秒钟内为您生成可用于生产的 UI 页面。
      • gusye1234/nano-graphrag - graphrag 大约有 1100 行代码。小巧便携(faiss、neo4j、ollama...)、异步且完全类型化。
      • gpt-open/rag-gpt - GPT 利用LLM 和 RAG 技术,从用户定制的知识库中学习,为各种查询提供上下文相关的答案,确保快速准确地检索信息。使用 Flask、LLM、RAG,包括前端、后端和管理控制台,快速启动智能客户服务系统。
      • Mouez-Yazidi/WhisperMesh
      • raznem/parsera
      • ragapp/ragapp
      • sugarforever/chat-ollama
      • princeton-nlp/SimPO - Bench 和 Arena-Hard 基准测试中均优于 DPO 及其最新变体。我们提出了 SimPO,这是一种更简单但更有效的方法。 SimPO 的有效性归功于一个关键设计:使用序列的平均对数概率作为隐式奖励。这种奖励公式可以更好地与模型生成保持一致,并且无需参考模型,从而提高计算和内存效率。此外,我们在 Bradley-Terry 目标中引入了目标奖励裕度,以鼓励获胜和失败响应之间存在更大的裕度,从而进一步提高算法的性能。我们将 SimPO 与 DPO 及其最新变体在各种最先进的训练设置中进行比较,包括基础模型和指令调整模型,例如 Mistral 和 Llama3。我们评估了广泛的指令跟踪基准测试,包括 AlpacaEval 2、MT-Bench 和最近具有挑战性的 Arena-Hard 基准测试。我们的结果表明,SimPO 始终显着优于现有方法,而无需大幅增加响应长度。具体来说,SimPO 在 AlpacaEval 2 上的表现比 DPO 高出 6.4 分,在 Arena-Hard 上高出 7.5 分。我们基于 Llama3-8B-Instruct 构建的顶级模型,在 AlpacaEval 2 上实现了 53.7 的长度控制胜率,在排行榜上超越了 Claude 3 Opus,在 Arena-Hard 上实现了 36.5 的胜率,使其成为最强8B开源模型。
      • stanfordnlp/SHP - RLHF 数据集有何不同?最值得注意的是,SHP 中的所有数据都是自然发生的和人工编写的,而 HH-RLHF 中的响应是机器编写的,这为我们提供了两种可以相互补充的截然不同的分布。SHP 与其他抓取 Reddit 的数据集(如 ELI5)有何不同?SHP 使用时间戳信息来推断偏好,而 ELI5 仅提供评论和分数——后者不足以推断偏好,因为之前发表的评论往往会从更高的可见性中获得更高的分数。
      • web-infra-dev/midscene - infra-dev团队开发,并开源在GitHub上。
      • Darwin-lfl/langmanus
      • yuruotong1/autoMate
      • LlmKira/Openaibot - 4o模型的支持,充分利用其强大能力。该项目旨在简化ChatGPT机器人的开发流程,让用户能够轻松创建个性化的智能助手。总而言之,Openaibot提供了一个灵活且易于使用的框架,用于构建基于GPT模型的聊天机器人,并支持各种平台和扩展方式。
      • emcie-co/parlant
      • HKUDS/Auto-Deep-Research - Deep-Research是一个全自动化的个人AI助手,旨在成为OpenAI深度研究的开源且经济高效的替代方案。该项目允许用户通过简单的自然语言指令执行复杂的任务,例如阅读论文、总结信息、生成报告和进行数据分析。它利用大型语言模型(LLM)和各种工具,自动规划、执行和评估研究任务。项目特色包括自动化研究流程、支持多种数据源、可定制的工具和策略,以及易于使用的界面。其工作原理是接收用户指令后,系统自动分解任务,调用相应的工具(如搜索引擎、论文阅读器、数据分析工具),并利用LLM进行总结、推理和报告生成。该项目旨在降低AI研究的门槛,让更多人能够利用AI进行高效的研究工作。它强调开源和成本效益,为研究人员和开发者提供了一个强大的AI助手。
      • Fosowl/agenticSeek
      • karthikv792/LLMs-Planning - Planning是一个用于评估大型语言模型在规划任务上表现的可扩展基准。该项目旨在提供一个标准化的平台,以测试和比较不同LLM在解决规划问题方面的能力。它允许用户自定义规划环境和目标,并提供了一系列评估指标来衡量LLM的规划性能。该基准的设计重点在于灵活性和可扩展性,方便研究人员添加新的环境、任务和评估方法。项目特色在于其模块化结构,支持多种规划领域和LLM的集成。其工作原理是利用LLM生成规划方案,然后通过预定义的评估函数来验证方案的有效性和效率。该项目为LLM在规划领域的应用研究提供了一个有价值的工具,有助于推动相关技术的发展。
      • KCORES/kcores-llm-arena
      • jxtse/GEC-Metrics-DSGram - Metrics-DSGram项目旨在为语法纠错(GEC)模型提供更贴近人工反馈的评估指标。该项目提出了一种新颖的动态权重评估方法,利用大型语言模型(LLM)生成动态权重,以更准确地反映不同类型语法错误的严重程度。这种无参考指标无需人工标注的参考答案即可进行评估,降低了评估成本。项目核心在于利用LLM的强大语言理解能力,赋予不同错误类型不同的权重,从而使评估结果更符合人类的直觉。通过动态调整权重,DSGram能够更有效地识别和惩罚严重的语法错误,提高GEC模型评估的准确性和可靠性。该项目为GEC领域的研究人员和开发者提供了一种更有效的模型评估工具,有助于推动GEC技术的进步。
      • saeedezzati/superpower-chatgpt
      • google-deepmind/bbeh - Bench 数据集,它已成为评估 LLMs 的一般推理能力的重要基准,这要归功于其多样化的具有挑战性的任务,这些任务允许在统一的框架内对各种技能的一般推理进行全面评估。然而,最近的进展LLMs导致 BIG-Bench 及其更难的版本 BIG-Bench Hard (BBH) 饱和。最先进的模型在 BBH 的许多任务上都取得了近乎完美的分数,从而降低了它的实用性。为了解决这一限制,我们引入了 BIG-Bench Extra Hard (BBEH),这是一个旨在突破推理评估界限LLM的新基准。BBEH 用一项新颖的任务替换了 BBH 中的每个任务,该任务探测了类似的推理能力,但表现出显着增加的难度。
      • ML-GSAI/LLaDA
      • facebookresearch/MobileLLM
      • maojindao55/botgroup.chat
      • ghimiresunil/LLM-PowerHouse-A-Curated-Guide-for-Large-Language-Models-with-Custom-Training-and-Inferencing - PowerHouse项目是一个大型语言模型(LLM)的精选指南,旨在释放LLM的潜力。它提供定制训练和推理的教程、最佳实践和即用型代码。该项目涵盖了LLM的各个方面,从基础知识到高级技术。特色在于其精心策划的内容,帮助用户快速掌握LLM的关键技能。通过该项目,用户可以学习如何针对特定任务训练LLM,并优化推理性能。它提供了丰富的资源,包括代码示例、教程和最佳实践,帮助用户构建自己的LLM应用。该项目致力于简化LLM的学习曲线,让更多人能够利用LLM的力量。总之,LLM-PowerHouse是学习和应用LLM的强大工具,为开发者和研究人员提供了宝贵的资源。
      • mbzuai-oryx/MobiLlama
      • RUC-GSAI/YuLan-Mini - Mini是一个强大的轻量级大型语言模型,参数量为24亿。该模型仅使用1T的预训练数据进行训练,在资源有限的情况下实现了高性能。项目提供了所有详细信息,方便研究者复现和进一步开发。YuLan-Mini的优势在于其高效性,能在较小的模型尺寸下实现可观的语言理解和生成能力。该项目适合对轻量级LLM感兴趣的研究者和开发者,可用于各种自然语言处理任务。它展示了在有限数据和资源下构建高性能LLM的可能性,为相关研究提供了宝贵的经验和参考。
      • microsoft/RedStone
      • caskcsg/longcontext
      • PKU-YuanGroup/GPT-as-Language-Tree - as-Language-Tree项目探索了将GPT模型视为一种蒙特卡洛语言树的概率视角。它将语言生成过程建模为在语言树上的搜索,其中GPT提供概率分布来指导搜索方向。项目核心思想是将GPT的自回归生成过程解释为在潜在的语言树上进行采样,并通过蒙特卡洛方法优化搜索策略。这种方法允许在生成过程中进行更灵活的控制和探索,例如通过调整采样策略来影响生成结果的多样性和质量。项目旨在提供一种新的理解和利用GPT模型的方式,并可能应用于文本生成、对话系统等领域。关键在于利用GPT的概率输出来指导语言树的探索,从而实现更可控和高效的文本生成。它通过蒙特卡洛树搜索算法,在GPT提供的概率空间中寻找最优的语言序列。该项目为理解和改进基于GPT的语言生成提供了一个新的框架。
      • ModelTC/Outlier_Suppression_Plus
      • sozercan/aikit
      • argilla-io/distilabel
      • hazyresearch/ama_prompting - 3、LLaMA等流行的LLMs。通过研究和优化提示,该项目旨在使LLMs能够更准确、更全面地回答用户提出的问题,从而提高用户体验。该项目可能涵盖了诸如上下文学习、思维链提示等高级提示技术。用户可以参考该项目来学习如何设计有效的提示,从而更好地利用LLMs解决实际问题。该项目可能提供代码示例和数据集,方便用户进行实验和验证。总之,该项目是一个研究LLM提示技术的资源,旨在帮助用户更好地理解和利用LLMs的能力。
      • zilliztech/deep-searcher
      • LearningCircuit/local-deep-research
      • dagmawibabi/ScholArxiv
      • kmeng01/rome - 2 XL(1.5B)和EleutherAI的GPT-J(6B)。该库利用“因果追踪”技术来识别LLM中事实关联的来源,并使用“秩一模型编辑”技术来修改模型的行为,使其产生更准确的输出。用户可以通过简单的API接口来指定要修改的关联,并观察模型输出的变化。该库还提供了一套评估方法,用于评估不同编辑方法的效果。
      • xynehq/xyne
      • sher222/LeReT
      • thiswillbeyourgithub/wdoc
      • RUCAIBox/R1-Searcher - Searcher 是一个利用强化学习来激励大型语言模型(LLMs)搜索能力的项目。它旨在提升LLMs在需要外部知识检索的任务中的表现。该项目的核心思想是训练LLM学会更有效地利用搜索引擎,从而获取更准确和全面的信息。具体而言,R1-Searcher 通过强化学习奖励LLM生成高质量的搜索查询,并根据搜索结果的质量调整LLM的行为。项目名称中的 "R1" 代表 "检索第一" 的原则。该项目提供了一个框架,可以方便地集成不同的LLMs和搜索引擎。通过这种方式,R1-Searcher 能够显著提高LLMs在知识密集型任务中的准确性和可靠性。它为研究如何增强LLMs的外部知识获取能力提供了一个有价值的工具和方法。项目代码和相关资源可以在 GitHub 仓库 RUCAIBox/R1-Searcher 中找到。
      • Goekdeniz-Guelmez/Local-NotebookLM - NotebookLM 是一个本地化的 NotebookLM 项目,旨在提供类似 Google NotebookLM 的功能,但数据存储和处理都在本地进行。它允许用户上传文档,然后利用大型语言模型(LLM)对文档进行问答、总结和分析。该项目的主要特色在于其本地运行特性,确保数据隐私和安全。用户可以利用自己选择的 LLM 模型,例如 Ollama 或其他兼容的 LLM,来驱动 NotebookLM 的核心功能。其工作原理是接收用户上传的文档,将其分割成块,然后使用 LLM 对这些块进行索引和分析,从而实现对文档的智能问答和摘要生成。该项目简化了 NotebookLM 的使用流程,方便用户在本地环境中进行知识管理和文档分析。
      • Kiln-AI/Kiln - AI/Kiln 是一个易于使用的工具,用于微调大型语言模型(LLM),生成合成数据,以及协作处理数据集。它旨在简化LLM模型的定制和数据管理流程。Kiln可能提供友好的用户界面或API,方便用户上传、标注和处理数据。通过微调,用户可以使LLM模型更适应特定任务或领域。合成数据生成功能可以帮助用户扩充数据集,解决数据稀缺问题。协作功能则方便团队成员共同参与数据处理和模型训练过程。Kiln的目标是降低LLM技术的使用门槛,让更多人能够利用LLM解决实际问题。具体工作原理和技术细节需要进一步研究项目代码和文档。
      • Chongjie-Si/Subspace-Tuning
      • BelleGroup/train_3.5M_CN
      • Deeptrain-Community/chatnio - E / Stable Diffusion / Midjourney 等), 支持 Midjourney U/V/R 操作。开箱即用的文档解析服务, 支持 Pdf / Docx / Pptx / Xlsx / 音频 / 图片等文件类型解析, 支持多种图片存储方案 (Base64 / Local / AWS S3 / Cloudflare R2 / 腾讯云 COS / 阿里云 OSS / MinIO / Telegram CDN 等), 同时支持 OCR 图片识别 (基于开源 PaddleOCR 支持私有化部署)。支持多种计费方式 (不计费 / 次数 / Token 计费), 支持设置允许模型, 支持快速导入内置价格模板 (可自定义汇率)或同步上游价格设定, 同时在弹性计费基础上支持订阅计划 (支持订阅计划自定义配额 / 计划分层 / 升降级 / 折扣设定), 支持设置订阅配额图表设置, 支持快速导入其他级别订阅, 支持同步上游订阅设置。支持完备兑换码体系, 支持设置数量和点数, 支持批量生成和兑换码管理, 支持礼品码/兑换码类型 (礼品码一种礼品码类型一个用户只能使用一次可用于福利发放, 兑换码一种兑换码类型一个用户可以使用多次可用于发卡和兑换商品), 支持礼品码查看领取用户 / 创建时间 / 领取时间等信息。丰富的模型市场功能, 支持自定义模型名称, 模型 Logo, 模型标签 (如官方/绘图/高定价/高质量/多模态等), 自动绑定价格设定中的模型价格, 支持设置默认列表显示模型, 支持顺序拖拽自定义排序, 支持设置是否为高上下文 (搭配文件解析服务实现非高上下文模型的内容切割), 使用户可以更好的了解模型的特性。支持系统 / 自定义预设, 云端同步, 支持搜索预设, 支持预设管理, 支持预设克隆, 支持设置预设图像 / 简介 / 上下文角色消息。支持同一请求入参的缓存, 支持设置自定义缓存可能性大小 (同一入参的最大缓存结果数量, 防止多次请求返回相同结果), 支持设置缓存过期时间 (缓存结果的有效时间)。支持 SearXNG 开源搜索引擎联网搜索, 支持 Google / Bing / DuckDuckGo / Yahoo / WikiPedia / Arxiv / Qwant 等数十种搜索引擎搜索, 支持安全搜索模式, 内容截断, 图片代理, 测试搜索可用性等功能。 (支持全部模型 & 模型无需支持 function calling)。支持 Web / PWA / App 三端, UI 移动端适配, 支持明暗主题切换, 国际化支持 (多语言切换),支持 Windows / MacOS / Linux / Android / iOS App。内置 SEO 优化, 支持自定义站点 Logo / 站点名称 / 页脚 / 联系方式等, 支持设置用户初始点数, 支持站点公告 / 通知功能, 支持设置 SMTP 发件。
      • ConardLi/easy-dataset - dataset是一个强大的LLM微调数据集创建工具。它旨在简化和加速数据集构建流程,尤其适用于大型语言模型。项目特色包括易用性、灵活性和高效性。它允许用户通过简单的配置和脚本,从各种数据源(如文本文件、网页等)提取和转换数据。easy-dataset的核心工作原理是提供一套可扩展的模块化工具,用于数据清洗、标注和格式化,最终生成符合LLM训练要求的标准数据集。它支持自定义数据处理流程,并提供了多种预定义的转换器和过滤器。通过使用easy-dataset,开发者可以更专注于模型训练本身,而无需花费大量时间在繁琐的数据准备工作上。该项目旨在降低LLM微调的门槛,让更多人能够轻松构建高质量的训练数据集。
      • SakanaAI/self-adaptive-llms - adaptive-llms项目是一个实时自适应大型语言模型(LLM)的框架。该框架旨在使LLM能够适应未见过的任务。其核心特色是“自适应”,意味着它能在运行时调整自身以应对新挑战。具体工作原理涉及某种形式的实时调整或微调机制,使LLM能够泛化到新的任务领域。该项目可能包含用于实现这种自适应能力的算法、模型架构或训练策略。通过该框架,LLM有望在各种动态和不可预测的环境中表现更佳,减少对预训练数据的依赖,并提高解决实际问题的能力。该项目值得关注,因为它探索了LLM自适应性的前沿方向。
      • Tebmer/Awesome-Knowledge-Distillation-of-LLMs - Knowledge-Distillation-of-LLMs整理了关于“大语言模型知识蒸馏综述”的论文。它将知识蒸馏分解为知识提取和蒸馏算法两个部分。项目主要关注大语言模型的技能和垂直领域的蒸馏。该项目旨在系统性地收集和组织LLM知识蒸馏相关的研究成果,方便研究者快速了解该领域的发展现状和关键技术。通过对知识提取和蒸馏算法的细致分类,该项目为理解和应用LLM知识蒸馏提供了清晰的框架。技能蒸馏侧重于将LLM的特定能力迁移到较小的模型,而垂直领域蒸馏则关注于在特定行业或应用场景下进行知识迁移。这个项目是LLM知识蒸馏领域研究的重要资源。
      • willccbb/verifiers
      • jiaxiaojunQAQ/I-GCG - GCG项目是针对大型语言模型(LLM)的基于优化的越狱技术改进方案,已被ICLR2025接收。它旨在通过改进的梯度控制方法,更有效地诱导LLM生成有害或不当内容,从而突破其安全限制。该项目着重于优化目标函数的设计,并提出更精细的梯度调整策略,以克服传统方法中的梯度消失或爆炸问题。核心思想是寻找能够最大化有害内容生成概率的输入提示。该项目可能包含用于生成对抗性提示的算法、实验评估结果以及与现有越狱技术的比较。研究结果表明,I-GCG方法在越狱成功率和生成内容质量方面优于现有技术。项目代码和相关资源可能开源,方便研究人员复现和进一步研究。该项目对于理解LLM的安全漏洞和开发更强大的防御机制具有重要意义。
      • Aegis1863/LLMs-Distillation-Quantification - Distillation-Quantification项目是关于大型语言模型(LLMs)蒸馏和量化的研究。它旨在探索如何通过蒸馏技术将大型模型的知识迁移到更小的模型中,并进一步通过量化技术压缩模型大小,以降低部署成本和提高推理速度。该项目可能包含蒸馏和量化的具体实现代码、实验数据以及相关分析。项目特色可能包括对不同蒸馏和量化方法的比较,以及针对特定任务的优化策略。通过蒸馏,可以将大型模型的泛化能力和知识传递给小型模型。量化则通过降低模型参数的精度来减少模型大小,例如将浮点数转换为整数。该项目可能涉及到的技术包括知识蒸馏、模型量化、以及相关的深度学习框架(如PyTorch或TensorFlow)。该项目可能对研究如何高效部署大型语言模型具有参考价值。
      • NineAbyss/S2R - verify and Self-correct via Reinforcement Learning",提供了官方实现代码。其核心思想是通过强化学习训练LLM,使其能够识别自身生成的错误并进行修正,从而提高生成内容的质量和可靠性。S²R方法旨在解决LLM在复杂任务中容易出错的问题,通过自我反思和迭代优化,使LLM能够更准确地完成任务。项目代码库包含了训练和评估S²R模型的必要工具和脚本,方便研究人员复现实验结果并进行进一步研究。该项目的亮点在于其利用强化学习框架,赋予LLM自我纠错的能力,是提升LLM性能的一种创新方法。
      • Raj-08/Reinforce-Lite - Lite 是一个专为大型语言模型设计的强化学习工具包。它旨在简化和加速强化学习过程,让开发者能够更轻松地训练和优化 LLM。该工具包提供了一系列预定义的模块和实用工具,例如环境交互、奖励函数和策略优化算法。Reinforce-Lite 的核心优势在于其轻量级和易用性,即使是强化学习新手也能快速上手。它支持多种强化学习算法,并允许用户自定义环境和奖励机制。项目目标是构建一个灵活且高效的平台,帮助研究人员和开发者探索 LLM 在各种任务中的潜力,例如文本生成、对话系统和智能代理。通过 Reinforce-Lite,用户可以更有效地利用强化学习来提升 LLM 的性能和适应性。该项目鼓励社区贡献,共同推动 LLM 强化学习领域的发展。
      • deepseek-ai/DeepEP - ai开发。它旨在优化大规模模型训练中的专家并行(Expert Parallelism)通信效率。该库的核心优势在于其高效的通信机制,能够显著减少通信开销,从而加速模型训练过程。DeepEP可能采用了特定的通信策略或优化算法,以适应专家并行训练的独特需求。它可能支持多种硬件平台和深度学习框架,方便用户集成到现有的训练流程中。DeepEP的目标是降低大规模模型训练的门槛,使更多研究人员和开发者能够高效地训练和部署大型模型。该项目可能包含详细的文档和示例代码,帮助用户理解和使用该库。DeepEP的出现有望推动专家并行技术的发展和应用,促进人工智能领域的进步。具体实现细节和性能指标需要参考项目文档和代码。该项目可能还在持续开发和完善中。
      • refly-ai/refly
      • cloudwego/eino
      • appcypher/awesome-mcp-servers
      • MoonshotAI/Moonlight
      • zcaceres/markdownify-mcp - mcp是一个模型上下文协议(MCP)服务器,可以将几乎任何内容转换为Markdown格式。它通过接收各种格式的内容,然后利用预定义的规则和模板将其转换为Markdown文本。该项目旨在简化内容转换流程,特别是在需要将不同来源的内容整合到Markdown文档中的场景。它支持多种输入格式,并提供灵活的配置选项以定制转换结果。核心功能在于其强大的转换引擎,能够准确地将各种数据结构和文本格式映射到Markdown语法。开发者可以通过配置MCP服务器来满足特定的转换需求,并将其集成到现有的工作流程中。该项目提供了一个便捷的API接口,方便用户进行内容转换操作。 总而言之,markdownify-mcp是一个功能强大的Markdown转换工具,可以帮助用户轻松地将各种内容转换为Markdown格式,提高工作效率。
      • mark3labs/mcp-go - go 是一个 Go 语言实现的模型上下文协议 (MCP),旨在实现 LLM 应用与外部数据源和工具的无缝集成。该项目提供了一套标准化的接口和数据格式,允许 LLM 应用以统一的方式访问和操作外部资源。通过 MCP,LLM 应用可以轻松地获取实时信息、执行复杂任务以及与各种服务进行交互。该项目简化了 LLM 应用的开发流程,提高了其灵活性和可扩展性。开发者可以利用 mcp-go 构建功能强大的 LLM 应用,例如智能助手、数据分析工具和自动化工作流程。MCP 协议定义了 LLM 应用与外部资源之间的通信方式,确保数据安全和一致性。mcp-go 提供了丰富的工具和库,方便开发者快速构建和部署 MCP 兼容的 LLM 应用。该项目采用模块化设计,易于定制和扩展,以满足不同的应用场景需求。
      • modelcontextprotocol/specification
      • chatmcp/mcp-directory
      • anaisbetts/mcp-installer - Installer 是一个用于自动化安装和管理多个 MCP 服务器的工具。它允许用户轻松地部署和维护多个独立的 MCP 服务器实例。该项目的核心思想是创建一个“母”服务器,负责安装、配置和启动其他“子”MCP服务器。通过使用 MCP-Installer,用户可以简化 MCP 服务器的管理流程,例如更新、备份和监控。项目采用模块化设计,方便扩展和定制。它支持自定义配置选项,允许用户根据自己的需求调整服务器设置。此外,MCP-Installer 还提供了一些实用工具,用于监控服务器状态和管理用户权限。总而言之,MCP-Installer 旨在成为一个方便易用的 MCP 服务器管理平台,降低 MCP 服务器的运维成本。
      • chatmcp/mcprouter
      • JT-Ushio/MHA2MLA - Head Latent Attention (MLA),从而实现更经济的推理。该项目通过将标准Multi-Head Attention (MHA) 替换为MLA来降低计算成本,尤其是在长序列推理中。MLA的核心思想是利用低秩矩阵来近似注意力矩阵,从而减少计算量和内存占用。该项目提供了详细的理论解释和代码实现,方便用户在自己的模型中集成MLA。它支持PyTorch框架,并提供了示例代码和实验结果,展示了MLA在不同模型上的性能提升。该项目的目标是让更多开发者能够利用MLA的优势,构建更高效的LLM应用。具体来说,它通过学习一个低维潜在空间来压缩注意力信息,从而减少计算复杂度。该项目还提供了评估工具,用于比较MHA和MLA在推理速度和准确性方面的差异。总体而言,MHA2MLA提供了一种实用的方法,可以在不显著降低模型性能的情况下,显著提高LLM的推理效率。
      • HKUDS/SepLLM - 2和Mistral等模型上进行了验证。实验结果表明,SepLLM能够在不显著降低模型性能的情况下,实现显著的推理加速。项目提供了详细的实现细节和实验结果,方便用户复现和应用。SepLLM的优势在于其简单性和有效性,它不需要复杂的训练或微调过程,即可直接应用于现有的LLM模型。该项目为大型语言模型的加速提供了一种新的思路,尤其是在资源受限的环境下,具有重要的应用价值。项目还提供了相应的代码和文档,方便用户进行二次开发和定制。SepLLM的目标是让更多的人能够更高效地使用大型语言模型。
      • executeautomation/mcp-playwright - playwright项目是一个Playwright模型上下文协议服务器,旨在自动化浏览器和API。它支持在Claude Desktop、Cline、Cursor IDE等环境中工作,提供了一种统一的方式来控制浏览器和API。该工具的核心是实现模型上下文协议,允许通过简单的命令与浏览器和API进行交互。通过该项目,开发者可以更轻松地在各种IDE和桌面应用中进行自动化测试和任务执行。它简化了自动化流程,并提供了一个可扩展的平台,方便集成到不同的开发环境中。该项目的主要目标是提高自动化效率和跨平台兼容性。简单来说,它是一个连接Playwright和各种IDE/应用的桥梁,让自动化测试和API交互变得更简单。
      • iyaja/llama-fs - fs 是一个利用 Llama 3 构建的自组织文件系统。它能根据文件内容自动组织文件,无需手动管理。项目特色在于其智能的文件分类和检索能力,通过 Llama 3 理解文件语义并进行归类。工作原理是读取文件内容,利用 Llama 3 进行语义分析,然后根据分析结果将文件放置在合适的位置。这简化了文件管理流程,提高了文件查找效率。它旨在提供一种更智能、更便捷的文件组织方式,摆脱传统文件系统的限制。该项目可以帮助用户更好地管理大量文件,并快速找到所需信息。
      • olimorris/codecompanion.nvim
      • GAIR-NLP/LIMO - NLP开发,旨在探索“少即是多”的推理方法。它专注于通过减少模型参数和计算量,实现高效的推理能力。LIMO的核心思想是利用精心设计的prompt和少量训练数据,使小模型也能达到甚至超过大型模型的推理性能。项目特色在于其轻量级架构和高效的知识利用方式,通过prompt引导模型进行推理,并采用知识蒸馏等技术提升模型性能。LIMO适用于各种推理任务,例如常识推理、数学推理等。项目提供代码和数据集,方便研究人员复现和扩展。LIMO的优势在于降低了计算资源需求,使得在资源有限的环境下也能进行复杂的推理任务。该项目为轻量级推理模型的研究提供了一个有价值的平台。
      • lsdefine/simple_GRPO
      • yafuly/TPO - Time Preference Optimization (TPO)",它提供了一个在模型推理阶段,无需更新模型参数,就能根据人类偏好来优化大型语言模型 (LLMs) 输出的框架。TPO 通过将奖励信号转化为文本评价,并迭代地利用这些评价来改进模型回复,从而提升模型与人类偏好的一致性。实验结果表明,即使是未经对齐的模型,经过 TPO 的少量迭代也能显著提升在多个任务上的性能,甚至超越一些已对齐的模型。
      • MingLiiii/Layer_Gradient
      • HaunLeung/thinkandaction
      • sgl-project/sglang - mistral),易于扩展以集成新模型。活跃的社区:SGLang 是开源的,并由一个活跃的社区提供支持,并得到行业采用。与 TensorRT LLM 和 vLLM 相比,SGLang Runtime 在在线和离线场景中始终如一地提供卓越或有竞争力的性能,使用 FP8 和 FP16 处理从 Llama-8B 到 Llama-405B 的模型,以及在 A100 和 H100 GPU 上。SGLang 的性能始终优于 vLLM,在 Llama-70B 上的通量提高了 3.1 倍。它也经常匹配或有时优于 TensorRT LLM 。更重要的是,SGLang 是完全开源的,用纯 Python 编写,核心调度器在不到 4K 行的代码中实现。
      • Infini-AI-Lab/TriForce - 7B-128K、LWM-Text-Chat-128K、Llama2-13B-128K 等)提供服务,在消费类 GPU 上以 0.1 秒的延迟无损(16 位精度,保留原始输出分布)进行长序列生成。我们证明 TriForce 可以在两个 RTX 4090 上有效地为 128K 上下文的 Llama2-13B 提供服务,达到平均令牌间隔时间 (TBT) 低至 0.22 秒,这比高度优化的卸载系统快 7.8 倍。此外,借助 TriForce,Llama2-7B-128K 可以在两台 RTX 4090 上提供服务,TBT 为 0.11 秒,仅比一台 A100 慢 0.5 倍。此外,TriForce 在单个 RTX 4090 GPU 上执行的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。除了卸载之外,TriForce 还为 A100 等数据中心 GPU 提供了片上解决方案。TriForce 有效地解决了这一挑战,同时通过集成基于检索的绘图和分层推测来证明地保持了模型质量。这种方法利用原始模型权重和检索中的一小部分 KV 缓存作为草稿模型,这可以通过具有 StreamingLLM 缓存的轻量级模型进一步推测,以减少草稿延迟。通过缓解与 KV 缓存和模型权重相关的双重瓶颈,它显著加快了长上下文 LLM 的卸载服务。
      • predibase/lorax - attention、paged attention、SGMV)、量化、令牌流。准备好用于生产的预构建 Docker 镜像、Kubernetes 的 Helm 图表、Prometheus 指标以及使用 Open Telemetry 的分布式跟踪。兼容 OpenAI 的 API,支持多轮聊天对话。通过每个请求租户隔离的专用适配器。结构化输出(JSON模式)。免费用于商业用途:Apache 2.0 许可证。
      • ModelTC/llmc - LLM 和 AutoAWQ,使其高度灵活。性能效率: 支持大规模LLM的量化,例如 Llama3.1-405B 和 OPT-175B,并可在 单个 A100/H100/H800 GPU 上评估 PPL。
      • b4rtaz/distributed-llama - 它负责加载模型和权重并将它们转发给工作线程。此外,它还同步神经网络的状态。根节点也是一个工作节点,它处理神经网络的自己的切片。工作节点 - 它处理神经网络的自己的切片。它不需要与模型相关的任何配置。您始终需要根节点,您可以添加 2^n - 1 个工作节点来加快推理速度。神经网络的 RAM 使用量在所有节点上分配。根节点需要的 RAM 比工作节点多一点。
      • LostRuins/koboldcpp
      • spcl/QuaRot - 70B模型的损失最多为0.29 WikiText困惑度,并保留了99%的零样本性能。
      • dezoito/ollama-grid-search
      • run-llama/llama_deploy
      • IST-DASLab/QUIK - e .`安装项目依赖。该项目的完整论文已发表在arXiv上,引用格式为`@article{QUIK, ...}`。
      • leptonai/leptonai - U leptonai` 安装 Lepton AI,并使用 `lep photon runlocal` 命令启动 HuggingFace 模型。Lepton AI 还提供托管的模型和 API 访问,以及丰富的示例和文档。
      • mobiusml/hqq
      • tryAGI/Ollama
      • hao-ai-lab/Consistency_LLM
      • huggingface/llm-swarm - swarm 是一个用于在 Slurm 集群中管理可扩展的开放 LLM推理端点的工具。它可以利用本地 LLM 或 Hugging Face Hub上的推理端点生成用于预训练或微调的合成数据集。该项目集成了 huggingface/text-generation-inference 和 vLLM,可以实现大规模文本生成。llm-swarm 需要一个支持 Docker 的 Slurm 集群或访问 Hugging Face 推理端点。用户可以通过提供的示例代码快速上手,并使用模板文件配置 Slurm 任务和 Nginx 负载均衡器。
      • kghandour/Ollama-SwiftUI - SwiftUI 是一个用 Swift 语言开发的 Ollama.ai 用户界面,它允许你与下载到 Mac 上的大型语言模型进行无缝聊天。该应用程序需要 Ollama 运行才能正常工作,并提供多种功能,包括与本地大型语言模型聊天、更改模型、重新开始对话、支持系统提示、支持多模态模型(图像+文本)、新的对话选项卡、使用 GUI 下载模型、删除模型、复制模型、亮暗模式和本地化界面(目前支持英语和阿拉伯语)。
      • quic/aimet
      • ModelCloud/GPTQModel - MoE、MiniCPM3、Llama 3.1、Gemma2 27B 等。GPTQModel 提供了灵活的量化选项,包括动态 per layer/module 量化,并支持自动计算 auto-round 参数。它还集成了 Liger Kernel 支持,在某些模型的量化过程中可以减少约一半的内存使用。
      • kevinhermawan/Ollamac - markdown-ui、ViewCondition、ViewState 和 swiftui-introspect。
      • huggingface/nanotron
      • jakobhoeg/nextjs-ollama-llm-ui
      • GreenBitAI/gbx-lm
      • richawo/minimal-llm-ui - LLM-UI 是一个简洁的 React 界面,用于与 Ollama本地语言模型进行交互,提供离线聊天功能。它支持模型切换、对话保存、记忆上下文等功能,并使用 LangchainJs 和 Ollama 实现与模型的交互。用户可以轻松地与本地模型进行实时聊天,并通过自定义 API 端点配置 Ollama 的运行地址。项目使用 React、Next.js 和 Tailwind CSS 构建,并提供详细的入门指南和待办事项列表。
      • aidatatools/ollama-benchmark
      • alexrozanski/LlamaChat
      • ivanfioravanti/chatbot-ollama - ui 项目开发。它允许用户通过简单的界面与 Ollama 模型进行交互,并支持自定义模型、系统提示、温度等参数。用户可以通过 Docker 镜像或本地运行的方式使用 Chatbot Ollama,并通过环境变量配置默认模型、系统提示和温度等参数。
      • Qcompiler/MixQ_Tensorrt_LLM
      • HazyResearch/legalbench
      • microsoft/CodeXGLUE - ​​文本(文档翻译)。通过 CodeXGLUE,我们寻求支持可应用于各种代码智能问题的模型的开发,目标是提高软件开发人员的生产力。我们鼓励研究人员参与公开挑战,以继续在代码智能方面取得进展。展望未来,我们将把 CodeXGLUE 扩展到更多编程语言和下游任务,同时通过探索新的模型结构、引入新的预训练任务、使用不同类型的数据等继续推进预训练模型。
      • deepseek-ai/DeepSeek-Coder-V2 - Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 从 DeepSeek-V2 的中间检查点进一步预训练,并增加了 6 万亿个令牌。通过这种持续的预训练,DeepSeek-Coder-V2 大大增强了 DeepSeek-V2 的编码和数学推理能力,同时在一般语言任务中保持了相当的性能。与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在与代码相关的任务的各个方面以及推理和通用功能方面都取得了重大进步。此外,DeepSeek-Coder-V2 将其对编程语言的支持从 86 扩展到 338,同时将上下文长度从 16K 扩展到 128K。
      • StreetLamb/tribe
      • Nutlope/aicommits - -generate` 选项生成多个推荐信息,或使用 `--typeconventional` 选项生成符合 Conventional Commits 规范的提交信息。此外,AI Commits 还提供 Git 钩子功能,可以自动生成提交信息并将其传递给 Git,方便用户在 Git 提交过程中使用。用户可以通过 `aicommits config get u003ckeyu003e` 命令获取配置选项。
      • srush/MiniChain - ML 和 Bash。MiniChain 通过将提示函数与 Python 函数相结合,并使用模板来分离提示和代码,简化了提示链的构建过程。它还提供了可视化的链式模型图,方便用户进行调试和错误处理。MiniChain 的目标是提供一个轻量级、易于理解和使用的库,用于构建和使用基于提示的链式模型。
      • twinnydotdev/twinny
      • QiushiSun/NCISurvey
      • databricks/dbrx
      • jiaweizzhao/GaLore
      • pytorch/torchchat
      • Langboat/Mengzi3
      • goldfishh/chatgpt-tool-hub
      • sail-sg/Cheating-LLM-Benchmarks
      • CLUEbenchmark/SuperCLUE
      • FranxYao/chain-of-thought-hub
      • tjunlp-lab/M3KE
      • allenai/WildBench
      • CLUEbenchmark/SuperCLUElyb
      • Tele-AI/TeleChat2 - 115B模型采用10万亿 Tokens中英文高质量语料进行训练,同步开源对话模型TeleChat2-115B的多格式、多平台权重文件。TeleChat2在训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat1均有大幅提升。TeleChat2完全基于国产算力和国产深度学习框架进行训练,算力和算法框架更自主可控。优化MP、PP、SP实现方式提升模型性能,优化算子来提升训练速度。我们使用大量小模型实验来验证scaling law规律,在不同模型结构、不同数据配比和数据清洗方式中寻找最优设计。采用RingAttention及其他序列切分方式,实现长文训练性能提升;通过ntk-aware+attention-scaling的方式保证训练长度切换时的平稳过渡,以此来保证模型在不同长度数据下的训练效果。在微调数据方面,我们进行了指令复杂性提升与多样性扩充,通过数据合成和人工标注生成高质量数据,并使用拒绝采样生成多样的推理路径;通过研究一套基于base模型反向选择偏好对齐数据方案,基于适配数据最大限度提升模型效果。通用能力较TeleChat系列模型提升超过29%,在逻辑推理、总结摘要、长文写作和数学计算上均有大幅提升。采用标准的 Decoder-only 结构设计了 TeleChat2 模型,使用 Rotary Embedding 的位置编码方法、使用 SwiGLU 激活函数来替代GELU激活函数、使用基于 RMSNorm 的 Pre-Normalization进行层标准化操作。我们将TeleChat2的词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。我们选择了GQA以节约attention部分的参数量和计算量、提升训练和推理速度。TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、CMMLU、 GSM8K、MATH、HumanEval、BBH等数据集,评测能力包括了指令遵循、考试能力、数学计算和推理、代码生成等。
      • THUDM/ChatGLM2-6B - 6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了如下新特性:`更强大的性能`:全面升级了基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。`更长的上下文`:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明,在等量级的开源模型中,32K 有着较为明显的竞争优势。`更高效的推理`:基于 Multi-Query Attention 技术,有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。`更开放的协议`:权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
      • modelscope/data-juicer - in-the-loop & Sandbox:支持一站式数据模型协同开发,通过沙盒实验室实现快速迭代,提供基于数据和模型的反馈循环、可视化、多维度自动评估等功能,让您更好地理解和改进您的数据和模型。提高效率:提供高效并行的数据处理流水线(Aliyun-PAIRaySlurmCUDAOP Fusion),需要更少的内存和CPU使用率,并针对最大生产力进行优化。全面的数据处理配方:提供数十种预建的数据处理配方,用于预训练、微调、en、zh 等场景。在参考 LLaMA 和 LLaVA 模型上进行了验证。灵活和可扩展:适应大多数类型的数据格式(例如,jsonl、parquet、csv等),并允许灵活组合OP。随意实现您自己的 OP 以进行可自定义的数据处理。用户友好体验:为简单而设计,具有全面的文档、简单的入门指南和演示配置,以及通过在现有配置中简单添加/删除 OP 的直观配置。
      • thudm/longwriter - 6k,这是一个包含 6,000 个 SFT 数据的数据集,输出长度从 2k 到 32k 单词不等。通过将此数据集纳入模型训练,现有模型的输出长度扩展到 10,000 字以上,同时保持了输出质量。此外,LongWriter 还开发了 LongBench-Write,这是一个用于评估超长生成能力的综合基准。用户可以通过运行 CUDA_VISIBLE_DEVICES=0 python trans_web_demo.py 来部署自己的 LongWriter 聊天机器人,或者使用 vllm 部署模型,从而在一分钟内生成超过 10,000 个单词。
      • xlang-ai/UnifiedSKG - 3 和 Codex 都在其中苦苦挣扎。UnifiedSKG 还支持对 SKG 任务中的结构化知识编码变体进行一系列对照实验。我们发现 T5 对结构化知识编码变化的敏感性因任务而异。
      • bilibili/Index-1.9B - 1.9B系列是Index系列模型(由哔哩哔哩自主研发的大语言模型)中的轻量版本,包含以下模型:Index-1.9B base : 基座模型,具有 19亿 非词嵌入参数量,在2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。Index-1.9B pure : 基座模型的对照组,与base具有相同的参数和训练策略,不同之处在于我们严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对benchmark的影响。Index-1.9B chat : 基于index-1.9B base通过SFT和DPO对齐后的对话模型,我们发现由于我们预训练中引入了较多互联网社区语料,聊天的趣味性明显更强,并且拥有同级别模型中较强的多语种(尤其是东亚语种)互译能力。Index-1.9B character : 在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制。Index-1.9B-32K : Index-1.9B-32K 是一个仅有 1.9B 参数、却具备 32K 上下文长度的语言模型(这意味着,这个超小精灵可以一次性读完 3.5 万字以上的文档)。
      • langchain-ai/langchainjs - 18.x、19.x、20.x、22.x;Cloudflare Workers;Vercel / Next.js(浏览器、Serverless 和 Edge 功能);Supabase Edge 函数;浏览器;Deno。LangChain是一个用于开发由语言模型驱动的应用程序的框架。它使应用程序能够:具有上下文感知能力:将语言模型连接到上下文源(提示指令、少量镜头示例、内容以使其响应为基础等);原因:依靠语言模型进行推理(关于如何根据提供的上下文回答、采取什么行动等)。该框架由几个部分组成:开源库:使用 LangChain 的开源构建块、组件和第三方集成来构建您的应用程序,使用 LangGraph.js 构建具有一流和人机交互支持的状态代理。生产化:使用LangSmith来检查、监控和评估您的链,以便您可以放心地持续优化和部署。部署:使用 LangGraph Cloud(目前仅限 Python)将您的 LangGraph 应用程序转换为生产就绪的 API 和助手。
      • InternLM/InternLM-techreport - LLM的训练系统,用于高效的大型语言模型训练。对多项基准的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面都取得了最先进的表现。凭借如此全面的能力,InternLM在综合考试中取得了出色的表现,包括MMLU,AGIEval,C-Eval和高考-Bench,而无需借助外部工具。在这些基准测试中,InternLM 不仅明显优于开源模型,而且与 ChatGPT 相比,还获得了卓越的性能。此外,InternLM在理解中文和中国文化方面表现出出色的能力,这使其成为支持面向中文的语言应用的合适基础模型,并提供了跨各种知识领域和任务的基准和示例。
      • volcengine/veScale
      • fanqiwan/FuseAI - 7B-VaRM,它融合了三个LLMs具有不同架构和规模的著名聊天,即 NH2-Mixtral-8x7B、NH2-Solar-10.7B 和 OpenChat-3.5-7B。FuseChat-7B-VaRM 在 MT-Bench 上的平均性能为 8.22,优于 Starling-7B、Yi-34B-Chat 和 Tulu-2-DPO-70B 等各种强大的聊天,LLMs甚至超过了 GPT-3.5(March)、Claude-2.1,并接近 Mixtral-8x7B-Instruct。FuseChat采用融合后合并的策略,有两个主要阶段。首先,对源LLMs进行成对知识融合,通过轻量级微调推导出多个结构和大小相同的目标LLMs;然后,将这些目标LLMs合并到参数空间中,提出了一种基于参数矩阵微调前后变化比确定合并权重的新方法VaRM。
      • TigerResearch/TigerBot - 7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。[中文开源预训练集 - 55G,包含中文书籍、中文互联网、中文百科](https://huggingface.co/datasets/TigerResearch/pretrain_zh)、 [英文开源预训练集 - 51G,包含英文书籍、英文互联网、英文百科](https://huggingface.co/datasets/TigerResearch/pretrain_en) 、[中文-微调指令集-合集 - 53W 条](https://huggingface.co/datasets/TigerResearch/sft_zh)、[英文-微调指令集-合集 - 67W 条 - 下载](https://huggingface.co/datasets/TigerResearch/sft_en)
      • mlfoundations/dclm - LM (DCLM) 是一个综合框架,旨在构建和训练具有不同数据集的大型语言模型 (LLMs)。它提供了来自 CommonCrawl 的 300 多个未经过滤的令牌的标准化语料库、基于 open_lm 框架的有效预训练配方,以及一套包含 50 多个评估的广泛套件。此存储库提供了用于处理原始数据、标记化、洗牌、训练模型以及评估其性能的工具和指南。DCLM 使研究人员能够在不同的计算规模(从 411M 到 7B 参数模型)上试验各种数据集构建策略。我们的基线实验表明,通过优化数据集设计,模型性能有了显著提高。DCLM 已经能够创建多个高质量的数据集,这些数据集在各个尺度上都表现良好,并且优于所有开放数据集。
      • ridgerchu/matmulfreellm - Free LM 是一种语言模型架构,无需矩阵乘法 (MatMul) 运算。此存储库提供了与 🤗 Transformers 库兼容的 MatMul-Free LM 实现。我们评估了缩放定律如何拟合 Transformer++ 和我们的模型中的 370M、1.3B 和 2.7B 参数模型。为了公平比较,每个操作的处理方式相同,尽管我们的模型在某些层中使用了更有效的三元权重。有趣的是,与 Transformer++ 相比,我们模型的缩放投影表现出更陡峭的下降,这表明我们的架构在利用额外计算来提高性能方面更有效。
      • Qihoo360/360zhinao - 7B-Base、360Zhinao-7B-Chat-4K、360Zhinao-7B-Chat-32K、360Zhinao-7B-Chat-360K、360Zhinao-search 和 360Zhinao-1.8B-Reranking。该系列模型基于 3.4 万亿 tokens 的高质量语料库训练,在相关基准测试中表现出色,特别是 360Zhinao-7B-Chat-360K 模型,其 360K 的上下文长度在发布时是中文开源模型中最长的。该项目还提供了模型下载、评估、快速入门、模型推理和模型微调等功能,并发布了技术报告和 arXiv 论文。
      • protectai/rebuff
      • ymcui/Chinese-LLaMA-Alpaca-3 - 3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。
      • LC1332/Luotuo-Silk-Road - Chinese-Alpaca 骆驼-中国-羊驼、Chinese-Dolly 中国多莉、Chinese-WizardLM 中国巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding
      • daveebbelaar/langchain-experiments - 3.5 Turbo 、GPT-4等最先进的语言模型,该项目展示了如何从 YouTube 视频成绩单创建可搜索的数据库,使用 FAISS 库执行相似性搜索查询,并用相关和准确的信息回答用户问题。
      • Yue-Yang/ChatGPT-Siri - 3.5-turbo和gpt-4模型,支持连续对话,配置API密钥并保存聊天记录。由 ChatGPT API gpt-3.5-turbo & gpt-4 模型驱动的智能 Siri,支持连续对话,配置API key,配置系统prompt,保存聊天记录。
      • stas00/ml-engineering
      • EmbraceAGI/LifeReloaded - 4的“高级数据分析”功能提供支持的生活模拟游戏,为您提供第二次生活机会。由GPT4的Advanced Data Analysis功能驱动的人生重来模拟器,给您人生第二春。
      • RUC-NLPIR/FlashRAG
      • magpie-align/magpie
      • dottxt-ai/outlines
      • facebookresearch/llm-transparency-tool
      • SqueezeAILab/LLM2LLM
      • KwaiKEG/CogGPT
      • LudwigStumpp/llm-leaderboard
      • lm-sys/arena-hard-auto - Hard-Auto-v0.1 是一个用于指令调整的 LLMs。它包含 500 个具有挑战性的用户查询。我们提示 GPT-4-Turbo 作为裁判将模型的反应与基线模型(默认:GPT-4-0314)进行比较。如果您想了解您的模型在 Chatbot Arena 上的表现如何,我们建议您尝试 Arena-Hard-Auto。
      • LazyAGI/LazyLLM - > 数据反馈 -> 迭代优化工作流程。这意味着您可以使用 LazyLLM 快速构建原型应用程序,然后使用特定于任务的数据分析不良情况,然后在应用程序的关键阶段迭代算法和微调模型,以逐步提高整体性能。
      • yangling0818/buffer-of-thought-llm - manager 来动态更新 meta-buffer,从而随着更多任务的解决而增强其容量。我们对 10 项具有挑战性的推理密集型任务进行了广泛的实验,与以前的最先进的 (SOTA) 方法相比,性能有了显著提高:Game of 24 的性能提高了 11%,几何形状的性能提高了 20%,Checkmate-in-One 的性能提高了 51%。进一步的分析表明,我们的 BoT 具有卓越的泛化能力和稳健性,而平均只需要多查询提示方法(例如,树/思想图)成本的 12%。值得注意的是,我们发现我们的 Llama3-8B + BoT 有可能超越 Llama3-70B 模型。
      • codefuse-ai/codefuse-devops-eval - Eval是专为DevOps领域的基础模型设计的综合评估套件。我们希望DevOps-Eval可以帮助开发者,特别是DevOps领域的开发者,跟踪进度并分析他们模型的重要优点/缺点。目前有 7486 道多项选择题,涵盖 8 个不同的一般类别,如下所示。AIOps 子类别共有 2840 个样本,涵盖日志解析、时间序列异常检测、时间序列分类、时间序列预测和根本原因分析等场景。ToolLearning 子类别中共有 1509 个样本,涵盖 59 个领域的 239 个工具场景。
      • Pints-AI/1.5-Pints
      • LLM-Red-Team/metaso-free-api
      • hymie122/RAG-Survey - Baesd、基于模型)、迭代 RAG。
      • n3d1117/chatgpt-telegram-bot
      • langgptai/wonderful-prompts
      • orhanerday/open-ai - 3 和 DALL-E 的 PHP(Laravel 、Symfony、Yii、Cake PHP 或任何 PHP 框架)SDK。它还支持类似 chatGPT 的流媒体。(支持 ChatGPT AI)
      • sigoden/aichat - REPL、Shell Assistant、RAG、AI工具和代理功能,可以访问OpenAI、Claude、Gemini、Ollama、Groq等。
      • andysingal/llm-course
      • IAAR-Shanghai/CRUD_RAG - RAG:大型语言模型检索增强生成的综合中文基准。本项目全面支持中文 RAG 系统评价,包括中文原生数据集、评价任务和基线模型;它涵盖了 CRUD(创建、读取、更新、删除)操作,这些操作用于评估 RAG 系统添加、减少、更正信息以及根据检索信息回答问题的能力;它包含 36166 个测试样本,这是可用的中国 RAG 测试数量最多的;支持 ROUGE、BLEU、bertScore、RAGQuestEval 等多种评价指标,并提供一键式评价功能;
      • stanford-futuredata/ARES
      • wasiahmad/Awesome-LLM-Synthetic-Data
      • IntelligenzaArtificiale/Free-Auto-GPT
      • AnswerDotAI/RAGatouille
      • supermemoryai/opensearch-ai
      • thinkany-ai/rag-search
      • THUDM/LongAlign - 10k 数据集,其中包含 10,000 个长度为 8k-64k 的长指令数据。我们研究了训练策略,即打包(带有损失加权)和排序批处理,它们都在我们的代码中实现。对于实际的长上下文评估,我们引入了 LongBench-Chat,它评估了 10k-100k 长度的查询的指令跟踪功能。
      • tairov/llama2.mojo - llama 推理上的性能比 llama.cpp 高 20%。这展示了通过 Mojo 的高级功能进行硬件级优化的潜力。
      • neuralmagic/deepsparse - 7B 修剪到 60% 的稀疏度,而不会降低准确性。凭借我们对 LLMs,DeepSparse 将稀疏量化模型的速度从密集基线加速了 7 倍。
      • Infini-AI-Lab/Sequoia
      • THUDM/LongBench - E,这是一个通过均匀采样构建的具有更均匀长度分布的测试集,在 0-4k、4k-8k 和 8k+ 长度区间内具有可比的数据量,以提供模型在不同输入长度下的性能变化分析。
      • cheshire-cat-ai/core
      • yomorun/yomo
      • ComposioHQ/composio
      • RockyHHH/Safety-Evaluating
      • yangjianxin1/LongQLoRA - 7B-8K。
      • langgptai/awesome-claude-prompts
      • idootop/mi-gpt
      • PickleBoxer/dev-chatgpt-prompts
      • cosin2077/chaty
      • click33/chatgpt---mirror-station-summary
      • limaoyi1/Auto-PPT - 3.5, Free to use online / 通过gpt-3.5生成PPT,免费在线使用
      • THUDM/AlignBench - as-Judge),并且结合思维链(Chain-of-Thought)生成对模型回复的多维度分析和最终的综合评分,增强了评测的高可靠性和可解释性。
      • whylabs/langkit - 与用户定义的正则表达式模式组匹配的字符串计数、越狱 - 已知越狱尝试的相似性分数、提示注入 - 已知提示注入攻击的相似性分数、幻觉 - 反应之间的一致性检查、拒绝 - 与已知 LLM 拒绝服务响应的相似度得分);情绪和毒性(情感分析、毒性分析)
      • traceloop/openllmetry
      • bionic-gpt/bionic-gpt
      • CyberAlbSecOP/Awesome_GPT_Super_Prompting
      • successfulstudy/promptoftheyear
      • protectai/llm-guard
      • NeoVertex1/SuperPrompt
      • OpenCSGs/csghub
      • Josh-XT/AGiXT
      • microsoft/aici
      • hijkzzz/Awesome-LLM-Strawberry
      • zou-group/textgrad
      • utkusen/promptmap
      • abilzerian/LLM-Prompt-Library - 4o、Claude 3 Opus、Llama3、Gemini 等。这些提示涵盖了广泛的应用,从文本操作到医疗援助和代码生成。
      • bin123apple/autocoder - 4 Turbo(2024 年 4 月)和 GPT-4o。
      • shmsw25/FActScore
      • voideditor/void
      • gersteinlab/ML-bench - Bench 的官方存储库:在存储库级代码上评估用于机器学习任务的大型语言模型和代理 (https://arxiv.org/abs/2311.09835)
      • NoDataFound/hackGPT
      • HICAI-ZJU/Scientific-LLM-Survey - 蛋白质相互作用预测、RNA预测);多模态科学大型语言模型(分子和文本;蛋白质&文本;蛋白质&分子;细胞&文本;全面)
      • Teddy-XiongGZ/MedRAG
      • thu-coai/PsyQA
      • allenai/dolma - - 此存储库包含 Dolma Toolkit 的源代码。
      • GAIR-NLP/MathPile
      • ahmetbersoz/chatgpt-prompts-for-academic-writing
      • qhjqhj00/memorag
      • 2471023025/RALM_Survey
      • Shubhamsaboo/awesome-llm-apps
      • wdndev/llm_interview_note - llm-zh](https://github.com/wdndev/tiny-llm-zh),并支持在线测试。相关学习资源包括[llama3-from-scratch-zh](https://github.com/wdndev/llama3-from-scratch-zh)、[tiny-rag](https://github.com/wdndev/tiny-rag)、[AI 面试笔记](https://github.com/wdndev/ai_interview_note)等。在线浏览请访问[LLMs Interview Note](http://wdndev.github.io/llm_interview_note)。部分内容为自行编写,可能存在不准确之处,请谨慎参考,鼓励讨论。微信公众号可关注,但不保证长期更新。
      • ImagineAILab/ai-by-hand-excel
      • hinthornw/promptimizer
      • agenta-ai/agenta
      • postgresml/korvus
      • cfahlgren1/observers
      • anthropics/skills
      • ashishpatel26/500-AI-Agents-Projects
      • julep-ai/julep
      • deepseek-ai/DeepSeek-R1 - R1 是 DeepSeek 公司发布的大语言模型,拥有 1670 亿参数,采用混合专家模型(MoE)架构,激活参数量为 425 亿。该模型在多项基准测试中表现出色,尤其在推理、数学和编码能力方面展现了卓越性能,甚至在某些方面超越了 GPT-4。DeepSeek-R1 拥有 128K 的上下文窗口长度,能够处理更长的文本序列。项目提供了 DeepSeek-R1 的模型权重下载,并支持在 Hugging Face Transformers 库中使用。该模型旨在为研究人员和开发者提供一个强大的工具,用于构建各种自然语言处理应用,例如对话系统、文本生成和代码生成。DeepSeek-R1 的 MoE 架构使其能够在保持高性能的同时,降低计算成本。该项目还包含使用 DeepSpeed 和 Megatron-LM 进行模型训练和推理的示例代码。总而言之,DeepSeek-R1 是一个强大的开源大语言模型,具有长上下文窗口、卓越的性能和高效的计算特性,为 NLP 领域的研究和应用提供了新的可能性。
      • deepseek-ai/awesome-deepseek-integration
      • huggingface/open-r1 - R1模型的完全开源复现,旨在提供一个透明且可复现的R1模型实现。它包括了模型架构、训练数据、训练过程和评估指标的详细信息。项目特色在于其完全开源,允许研究人员和开发者深入了解和修改模型。该项目提供了详细的训练脚本和配置,方便用户复现R1的性能。它还包含了预训练模型权重,可以直接用于下游任务。该项目强调了数据来源和清洗过程的重要性,并提供了相关工具。项目目标是促进开放研究,并推动大型语言模型领域的发展。它鼓励社区贡献,共同改进模型和训练流程。该项目还提供了评估脚本和指标,用于衡量模型在各种任务上的表现。总体而言,该项目是一个宝贵的资源,为理解和复现DeepSeek-R1模型提供了全面的信息和工具。
      • zaidmukaddam/scira
      • Jiayi-Pan/TinyZero - Zero模型的简洁、最小化和可访问的复现项目。它旨在提供一个易于理解和使用的R1-Zero实现,方便研究者和开发者学习和探索。该项目专注于核心功能,去除冗余代码,力求清晰易懂。TinyZero可能包含模型结构定义、训练脚本、推理示例等。它强调可访问性,降低了运行和修改代码的门槛。该项目可能使用了PyTorch等深度学习框架。通过TinyZero,用户可以更轻松地理解R1-Zero的工作原理,并在此基础上进行二次开发或实验。它是一个轻量级的R1-Zero实现,适合快速原型验证和教学目的。项目目标是提供一个干净、易于理解的R1-Zero版本,促进相关技术的普及和发展。
      • huggingface/smol-course - course 是一个关于对齐小型语言模型的教程项目。它旨在帮助用户理解和实践如何使小型模型更好地遵循人类指令和意图。该教程可能涵盖了微调、强化学习、奖励建模等对齐技术,并可能提供代码示例和实践指导。通过学习本课程,用户可以掌握训练和对齐更安全、更有用的小型语言模型的方法。该项目可能包含数据集、训练脚本和评估指标,以方便用户进行实验和验证。课程内容可能涉及指令遵循、有害内容过滤和价值观对齐等关键方面。该项目适合对小型语言模型对齐感兴趣的研究人员、开发者和爱好者。它可能提供了一种低成本、易于上手的方式来探索和改进语言模型的行为。该课程的重点是让小型模型在特定任务上表现出色,并避免产生不良行为。
      • qwopqwop200/GPTQ-for-LLaMa - for-LLaMa 是一个使用 GPTQ 方法对 LLaMA 模型进行 4 比特量化的项目。它旨在减少 LLaMA 模型的大小,使其更易于部署和使用,同时尽可能保持模型的性能。该项目使用 GPTQ 算法,这是一种一次性量化方法,可以在保持精度的同时显著压缩模型。它支持多种 LLaMA 模型变体,并提供了易于使用的脚本来进行量化和推理。该项目还包含评估量化模型性能的工具。主要特色包括:使用 GPTQ 进行 4 比特量化,显著减小模型体积,提供量化和推理脚本,支持多种 LLaMA 模型,并提供性能评估工具。目标是让大型语言模型更容易在资源受限的环境中使用。
      • kvcache-ai/ktransformers - Value Cache)的优化,允许用户轻松尝试和比较不同的优化策略,提升LLM推理效率。该项目提供了一个模块化的架构,方便集成新的优化方法。KTransformers支持多种LLM架构,并提供了详细的性能评估工具。其核心思想是高效管理和利用KV缓存,减少计算冗余,加速推理过程。通过该框架,开发者可以深入了解KV缓存优化对LLM推理性能的影响,并快速部署最佳实践。项目目标是成为LLM推理优化研究和应用的强大平台。
      • ravenscroftj/turbopilot
      • block/goose
      • lobehub/lobe-chat
      • arielnlee/Platypus - 2 变压器架构的一系列微调和合并变体。鸭嘴兽利用 LoRA 和 PEFT。
      • YuSun-Work/ReasonMed
      • HW-whistleblower/True-Story-of-Pangu
      • Instruction-Tuning-with-GPT-4/GPT-4-LLM - 4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。
      • feder-cr/Auto_Jobs_Applier_AIHawk
      • CaviraOSS/OpenMemory
      • cat3399/deepresearch
      • AAswordman/Operit
      • damanimehul/RLCR
      • altera-al/project-sid
      • open-compass/GTA
      • aigc-apps/PertEval
      • QwenLM/Self-Lengthen - Lengthen是一个数据驱动技术,用于从语言模型中提取长文本生成能力。它通过迭代地自我延长输出并进行归纳式自我对齐来生成越来越长的文本。该项目包含Self-Lengthen的核心实现,并成功将Qwen的最大输出长度从1000字扩展到8000字。Self-Lengthen不需要高质量的人工撰写文本,只需要一组种子用户长输出指令。它利用语言模型的内在知识和技能,无需从更强大的语言模型中进行任何形式的蒸馏。Self-Lengthen可以生成适合各种长输出指令的响应,不受严格结构化格式的限制。该项目提供代码,支持多节点和单节点执行,用户可以根据自己的环境配置运行代码,并收集生成的额外数据。
      • ack-sec/toyberry - 4)、内存管理、奖励函数、轨迹验证的鉴别器和可视化工具。
      • parthsarthi03/raptor
      • bradhilton/o1-chain-of-thought
      • xichen-fy/Fira - 7B 模型的代码。用户可以根据自己的需求选择使用 Fira 的不同功能。
      • laiso/askrepo - -prompt "What is the purpose of this code?"../your-repo/src` 命令进行使用。
      • EleutherAI/lm-evaluation-harness
      • THUDM/slime
      • Curated-Awesome-Lists/awesome-llms-fine-tuning
      • codelion/pts
      • microsoft/mcp-for-beginners
      • PCL-Platform.Intelligence/PanGu-Alpha
      • PCL-Platform.Intelligence/PanGu-Dialog - Dialog。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用了大规模预训练语言模型的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。
      • cryscan/multilingual-share - 90k 项目,希望借助大家的力量推进数据清洗与对齐工作。可能与各位想象的有所不同,GPT模型主要通过预训练数据集赋能,语料的质量对模型最终性能至关重要。然而,百度知道、CSDN、知乎等平台软文过多;小木虫等高质量平台语料过少;个人博客内容质量参差不齐。OpenAI完成数据集的收集花费了巨大成本,以至于需要从微软集资。我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定外语基础的网友们献上自己的力量。[RWKV-Wiki/MultilingualShareGPT](https://github.com/RWKV-Wiki/MultilingualShareGPT)
      • pengzhile/pandora
      • YeungNLP/firefly-train-1.1M
      • Zie619/n8n-workflows - workflows 是一个专注于收集和整理 n8n 工作流的开源项目,旨在为用户和开发者提供一个可以直接使用或参考的 n8n 工作流模板库。该项目通过聚合 n8n 官方社区、用户贡献以及第三方来源的自动化流程,覆盖了从基础数据处理到复杂服务集成的多种场景,用户可以通过这些预设的工作流快速了解 n8n 的节点式流程构建方式,并将其应用到自己的自动化任务中。项目的核心特色在于其高度的实用性和可扩展性,每个工作流均基于 n8n 的可视化节点编辑器构建,用户只需简单配置即可运行,同时支持通过 API 或脚本进行深度定制。例如,项目中包含的数据抓取流程可直接调用网页 API 获取信息,文件处理流程支持自动分类和格式转换,而服务集成类流程则展示了如何将不同平台(如 Notion、Slack、Trello 等)的功能无缝连接。此外,该项目还特别注重流程的可读性和注释说明,每个工作流文件均附有简要说明,帮助用户理解其功能和适用场景。由于 n8n 本身支持多种编程语言和数据库接口,该项目的工作流也涵盖了这些扩展功能的使用案例,适合需要进行跨平台自动化操作的用户。通过这一项目,开发者可以快速积累 n8n 使用经验,而普通用户也能借助现成模板降低学习门槛,从而更高效地实现个人或团队的自动化需求。
      • wassupjay/n8n-free-templates - free-templates是一个精心整理的自动化工具集,包含200多个即插即用的n8n工作流模板,将传统自动化流程与当前AI技术栈深度融合。项目特别整合了向量数据库、嵌入技术及大语言模型等前沿AI组件,通过标准化的JSON文件格式实现工作流的快速部署。用户只需导入JSON模板文件,添加个人API凭证,点击激活按钮即可立即运行,整个操作过程无需复杂配置。这些模板设计用于三种核心场景:作为技术演示案例展示AI自动化能力,作为原型开发工具验证创意方案,或直接应用于生产环境构建实际业务流程。每个模板都经过优化验证,确保在n8n节点编辑器中能够无缝衔接,同时保持代码结构的清晰可维护性。项目特别强调"开箱即用"的特性,通过预设的节点连接和参数配置,大幅降低用户搭建复杂AI流程的门槛,让开发者能更专注于业务逻辑而非基础架构搭建。所有模板均兼容n8n的最新版本,并提供详细的注释文档,便于用户根据实际需求进行扩展和二次开发。这种将AI技术组件与传统自动化工具深度整合的模式,为开发者提供了从概念验证到生产部署的完整解决方案。
      • hwchase17/deepagents
      • humanlayer/humanlayer
      • Nardien/agent-distillation
      • cvs-health/uqlm
      • openai/gpt-oss - oss,包含两个开源语言模型gpt-oss-120b和gpt-oss-20b,由OpenAI团队开发。这两个模型基于大规模参数量设计,其中gpt-oss-120b拥有1200亿参数,gpt-oss-20b则包含200亿参数,旨在通过开放权重推动自然语言处理领域研究与应用。项目核心特色在于其开放性,允许开发者直接访问模型权重和训练代码,便于二次开发和研究分析。技术实现上,模型采用自回归生成机制,通过海量文本数据训练获得语言理解与生成能力,支持多语言处理和复杂任务推理。训练数据覆盖互联网文本、书籍、代码等多样化来源,确保模型具备广泛的语境适应性。项目文档中提及模型可应用于对话系统、代码生成、文本摘要等场景,同时提供微调工具帮助用户适配特定任务需求。值得注意的是,尽管项目名称包含OpenAI,但实际开源仓库信息需要进一步验证,建议通过官方渠道确认项目真实性。该项目的发布标志着OpenAI在推动AI技术开放共享方面的探索,为研究者和开发者提供了高参数量模型的实验平台,可能对行业内的技术演进产生重要影响。
      • zai-org/GLM-4.5 - 4.5 是由 Z.ai 开发的开源大型语言模型,旨在赋能智能代理和高级人工智能系统。它利用基于 Transformer 的架构高效处理文本和上下文。该模型支持多语言功能,可实现多种语言交互。它针对推理、代码生成和对话理解等任务进行了优化。训练数据涵盖多种文本来源,以增强常识和语境感知能力。主要特性包括增强的注意力机制,可更好地处理上下文。该模型经过微调,可在问答和逻辑推理任务中实现高精度。它与代理框架集成,可在复杂场景中实现自主决策。开发者可以通过 API 或预训练权重将其用于自定义应用程序。该项目提供了详细的模型部署和优化文档。它强调开放研究,鼓励社区贡献力量并进行改进。GLM-4.5 旨在弥合大型语言模型与实际人工智能代理应用之间的差距。
      • afshinea/stanford-cme-295-transformers-large-language-models - Attention)、位置编码(Positional Encoding)等关键技术,通过分步讲解帮助学习者掌握模型的前向传播与参数优化原理。项目特别强调大规模语言模型的训练方法,包括预训练与微调策略、分布式训练技术以及模型压缩方案,同时提供代码实现示例(如PyTorch/TensorFlow框架下的模型构建与训练代码)和可视化工具,帮助学习者直观理解模型结构与训练过程。 项目资源包含课程讲义、代码实践指南、练习题及参考答案,覆盖从基础理论到实际应用的完整知识链。其特色在于将复杂模型拆解为模块化组件,通过代码注释与可视化图表解释各模块功能,例如通过注意力权重热力图展示模型如何捕捉长距离依赖关系。项目还提供模型优化技巧,如学习率调整策略、梯度裁剪方法,以及针对不同应用场景(如文本生成、机器翻译)的模型调优案例。适用于计算机视觉、自然语言处理等方向的研究生及AI开发者,尤其适合希望系统掌握Transformer架构与大模型训练流程的学习者。项目结构清晰,按课程章节组织内容,包含代码仓库链接、模型训练日志及课程讨论区,方便学习者逐步掌握大型语言模型的设计与实现。
      • elder-plinius/CL4R1T4S
      • unslothai/notebooks
      • CursorTouch/Windows-MCP - MCP 是一个专为 Windows 计算机设计的轻量级 MCP 服务器项目,旨在通过网络实现多客户端对计算机的远程控制与输入管理。该项目的核心功能是允许用户通过轻量级服务器端程序,将多个客户端设备的输入操作(如鼠标、键盘)实时同步到目标 Windows 计算机上,适用于需要远程协作或自动化操作的场景。其特色在于极低的系统资源占用,通过优化代码结构和通信协议,确保在运行时对 CPU 和内存的消耗最小化,同时支持高并发连接,可同时处理多个客户端请求。 工作原理方面,Windows-MCP 通过建立 TCP/IP 网络通信通道,将客户端的输入事件(如按键、鼠标移动)封装为数据包,发送至服务器端,再由服务器将这些事件注入到目标 Windows 系统的输入设备中,从而实现远程控制。项目采用跨平台兼容的设计,支持 Windows 10 及以上版本,并提供详细的配置文件,用户可通过修改配置调整端口、最大连接数等参数。此外,项目还包含简单的命令行工具,便于用户快速启动或调试服务。 该项目适合需要远程操作计算机的开发者、教育机构或企业用户,尤其适用于需要多用户同时访问同一台计算机的场景(如远程教学、服务器管理等)。其开源特性允许用户根据需求自行扩展功能,例如集成安全认证模块或添加日志记录功能。由于代码结构清晰且文档完整,即使非专业用户也能通过阅读说明文件快速部署和使用。总体而言,CursorTouch/Windows-MCP 通过轻量化设计和高效的输入同步机制,为 Windows 系统提供了灵活且稳定的远程控制解决方案。
      • Mirascope/mirascope
      • mendableai/open-lovable - lovable,是一款能够快速克隆并重建任意网站为现代 React 应用的开源工具,其核心功能是通过 AI 技术将目标网站的结构和设计自动解析为可定制的 React 代码。项目特色包括一键克隆网站、AI 驱动的页面设计生成、组件化架构支持自由调整、以及对多种前端框架(如 React、Vue、Svelte)的兼容性。其工作原理基于用户输入目标网站的 URL,AI 会自动分析网站的 HTML 结构、CSS 样式和交互逻辑,并生成对应的 React 项目代码,同时使用 Tailwind CSS 进行样式渲染,开发者可进一步调整组件布局、颜色主题和交互细节。项目还支持实时预览和多框架导出,用户无需手动编写代码即可快速获得功能完整的前端应用。此外,该项目通过组件化设计实现高度可定制性,开发者可单独修改页面模块或整体样式,同时保留原网站的核心交互逻辑。作为开源项目,open-lovable 旨在降低网站重构的技术门槛,为设计师和开发者提供快速原型搭建和功能迁移的解决方案,特别适用于需要快速生成前端代码、测试设计效果或进行网站功能迁移的场景。
      • QwenLM/qwen-code - code是一个基于QwenLM系列的编程代理工具,专注于在数字环境中提供代码生成、调试和优化服务。该项目通过训练大型语言模型,使其能够理解编程任务、分析代码逻辑并生成符合规范的代码片段,尤其擅长处理多语言编程场景(如Python、Java等)。其核心工作原理是基于海量代码数据训练出的模型,能够通过自然语言交互解析用户需求,结合代码上下文生成高准确率的代码建议,并支持实时调试和错误修正功能。项目特色包括支持代码片段生成、代码逻辑优化、多语言兼容性以及与开发者工具链的深度集成,可帮助开发者提升编码效率并减少常见错误。此外,Qwen-code还提供代码解释和文档生成功能,能够将复杂代码逻辑转化为人类可读的说明文档,适用于软件开发、教育和自动化测试等场景。该项目依托QwenLM的底层技术框架,通过持续优化模型参数和训练数据,确保在代码生成质量、上下文理解能力以及跨领域适应性方面的领先表现。目前,Qwen-code已支持主流编程语言,并通过模块化设计允许开发者根据需求扩展功能,同时提供详细的API文档和社区支持,便于集成到现有开发流程中。
      • FreedomIntelligence/HuatuoGPT-sft-data-v1
      • Kilo-Org/kilocode - Org/kilocode是一个开源的AI编码助手项目,专注于帮助开发者进行代码规划、构建和修复工作。该项目通过整合来自Roo Code和Cline等开源项目的功能,同时结合自身研发的技术路线,构建出独特的代码辅助系统。其核心工作原理基于AI模型对代码结构的分析能力,能够理解开发者的意图并提供针对性的代码建议,例如自动生成代码框架、识别潜在错误并提出修复方案等。项目团队持续从社区开源项目中获取灵感并实现功能扩展,例如借鉴Roo Code的智能代码补全技术和Cline的代码质量分析模块,但在此基础上进行了算法优化和功能重构。用户可通过kilocode.ai/social链接关注项目动态,参与社区讨论。该工具的设计目标是降低开发者的代码维护成本,同时提升编码效率,适用于多种编程语言和开发场景。目前项目已实现基础功能的模块化封装,支持通过API或命令行工具进行集成,开发者可根据需求选择不同的交互模式。项目文档和源码托管在GitHub,遵循MIT开源协议,允许用户自由使用、修改和分发代码。
      • HKUDS/DeepCode
      • Anthropic/hh-rlhf
      • TheBlewish/Automated-AI-Web-Researcher-Ollama
      • camel-ai/oasis
      • SproutNan/AI-Safety_SCAV
      • xiaoniu-578fa6bff964d005/AcceleratedUnbiasedWatermark
      • Aiden0526/SymbCoT - of-Thought" 的代码和数据集。项目提出了 SymbCoT,一种基于大型语言模型的框架,结合了符号表达式和逻辑规则,以增强逻辑推理能力。项目包含 First-Order Logic 和 Constraint Optimization 两种符号表达方式的数据集,并提供了详细的使用说明和评估方法。
      • microsoft/genaiscript
      • zhanshijinwat/Steel-LLM - LLM是由zhanshijin和lishu14个人训练的中文大型语言模型项目,使用1T tokens数据训练了一个1B参数的中文LLM。项目从开始到第一版模型耗时8个月,涵盖了数据集、数据处理、训练框架选择等全流程,并开源了全部代码。在中文基准测试上表现优于架构较早的模型,ceval达到38分,cmmlu达到33分。
      • zzwjames/FailureLLMUnlearning - f environment.yml`,然后加载数据。使用`unlearn.py`进行未学习方法,如SURE等,具体参数包括算法、模型目录、数据集等。结果模型保存在`ckpt`文件夹中。通过`eval.py`评估未学习模型。
      • OpenBMB/RAGEval - 参考-答案生成等功能。
      • yokingma/search_with_ai
      • harishsg993010/LLM-Research-Scripts - groq/g1的代码,并附带了Llama 3.1 8B解决推理问题的截图和Claude Sonnet解决2023年IMO问题的截图。
      • HKAIR-Lab/HK-O1aw - O1aw 是一个专为香港法律系统设计的法律助手,它可以处理复杂的法律推理。该模型基于LLaMA-3.1-8B,并使用Align-Anything框架和O1aw-Dataset进行训练,旨在提升大型语言模型在法律领域的推理和问题解决能力。HK-O1aw 采用先进的O1推理能力,可以进行复杂的法律分析,理解上下文,识别先例和解释法规,是香港首个针对普通法体系的复杂推理模型,对提升法律服务和教育具有重要意义。目前,HK-O1aw 可以为用户提供法律问题的详细推理路径,并作为法律教育的交互式工具,帮助学生理解复杂的概念和练习法律起草。未来,该模型将持续更新,以增强其在专业环境中的部署,目标是为律师提供法律研究、案例分析和起草法律意见的支持,从而提高香港法律框架的效率和准确性。
      • tablegpt/tablegpt-agent
      • LightChen233/reasoning-boundary
      • codefuse-ai/CodeFuse-muAgent
      • microsoft/TinyTroupe - 4)模拟具有特定性格、兴趣和目标的虚拟人物,从而模拟真实的人际互动和消费者类型。它可用于增强想象力,例如评估广告、软件测试、生成合成数据、提供产品反馈和进行头脑风暴等,帮助用户在广告、软件测试、产品管理等领域获得洞见,做出更明智的决策。目前该项目仍在积极开发中,API可能频繁变化。
      • tsinghua-fib-lab/AgentSquare
      • ConnectAI-E/Feishu-OpenAI - 4 + DALL·E + Whisper)= 飞一般的工作体验,语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出
      • DAMO-NLP-SG/CoI-Agent - Agent是一个利用大型语言模型(LLM)代理来革新研究的新颖想法开发项目的代码库。该项目基于论文“Chain of Ideas: Revolutionizing Researchvia Novel Idea Development with LLM Agents”,并提供了一个在线演示。用户可以通过输入研究主题,利用CoI-Agent生成新的研究想法。该项目使用SciPDF Parser解析PDF文件,并利用LLM API进行语义搜索和生成。用户需要安装SciPDF Parser、Grobid和配置LLM API密钥才能使用该项目。
      • shaheryaryousaf/fastapi-docgpt
      • yixuantt/MultiHop-RAG - RAG:用于评估跨文档检索增强生成的数据集”(COLM 2024) 的存储库。MultiHop-RAG:一个 QA 数据集,用于评估 RAG 管道中元数据跨文档的检索和推理。它包含 2556 个查询,每个查询的证据分布在 2 到 4 个文档中。查询还涉及文档元数据,反映了实际 RAG 应用程序中常见的复杂场景。
      • ZHZisZZ/weak-to-strong-search
      • renqibing/ActorAttack
      • SimpleBerry/LLaMA-O1 - O1 是一个开源的大型推理模型框架,使用 PyTorch 和 HuggingFace进行训练、推理和评估。它结合了蒙特卡洛树搜索 (MCTS)、自我博弈强化学习、PPO、AlphaGo Zero 的双策略范式和大型语言模型,旨在实现强大的推理能力。该项目提供预训练模型、训练代码和评估工具,并支持使用 OpenLongCoT 数据集进行训练。用户可以通过安装依赖库、克隆代码并运行训练脚本进行模型训练,并使用提供的推理和评估工具进行测试。该项目还提供相关文献和联系方式,方便用户进行交流和学习。
      • thunlp/LLMxMapReduce
      • Hsu1023/DuQuant - 激活量化结果。DuQuant 已在 NeurIPS 2024 大会上被评为口头报告,并已开源,用户可以通过提供的代码库进行安装和使用,并根据需要调整参数以进行量化实验。
      • thu-nics/MoA
      • waltonfuture/Diff-eRank - eRank是一种基于排序的指标,用于评估大型语言模型(LLM),它基于信息论和几何原理,通过分析模型的隐藏表示来量化模型在训练后丢弃冗余信息的能力。该指标适用于单模态(语言)和多模态场景。研究发现,Diff-eRank在模型规模扩大时会增加,并且与传统的指标(如损失和准确率)保持一致的关系。该项目提供了代码和示例,可以计算单个句子或数据集的 Diff-eRank,并提供了相应的论文和项目链接。
      • ChromeDevTools/chrome-devtools-mcp - devtools-mcp 是一个基于 Chrome DevTools 的开源项目,旨在为开发者提供更高效的内容捕获、调试和分析能力。该项目通过扩展 Chrome 浏览器的开发者工具功能,支持实时捕获网页内容、调试脚本、分析性能瓶颈,并通过可视化界面展示数据,帮助开发者快速定位和解决问题。其核心特色包括:基于浏览器内核的实时内容捕获机制、支持多协议通信的调试接口(如 DevTools Protocol)、以及与 Chrome DevTools 的深度集成,能够直接在开发者工具中调用项目功能。工作原理上,该项目通过 Chrome 的 DevTools API 与浏览器扩展进行通信,利用 WebContents 模块捕获页面内容,并通过自定义协议(如 MCP,Message Capturing Protocol)实现数据的高效传输与处理。开发者可通过项目提供的 API 或插件系统,将内容捕获、调试工具与自定义分析逻辑结合,适用于 Web 开发、前端性能优化、自动化测试等场景。项目还支持跨平台使用(Windows/macOS/Linux),并提供详细的文档和示例代码,便于开发者快速上手。由于其轻量级设计和与 Chrome DevTools 的无缝衔接,该项目成为调试复杂网页应用和分析内容交互行为的实用工具,特别适合需要高频调试内容交互的开发者团队使用。
      • OpenManus/OpenManus-RL - RL是一个针对LLM代理进行强化学习调优的开源项目,以直播开发的形式进行。该项目旨在探索如何使用强化学习来优化LLM代理的性能。其核心工作原理是构建一个环境,让LLM代理在其中与用户交互,并使用强化学习算法来训练代理,使其能够更好地完成任务。项目特色包括实时开发过程、对LLM代理的强化学习调优以及开源社区的参与。该项目可能涉及奖励函数设计、强化学习算法选择和LLM代理架构等关键技术。开发者可以通过观看直播或参与项目贡献来了解LLM代理强化学习调优的最新进展。该项目为研究人员和开发者提供了一个实践平台,用于探索和改进LLM代理的智能水平。
      • mastra-ai/mastra - 4、Claude、Gemini和Llama等。该框架旨在简化AI Agent的开发流程,提供强大的工具和基础设施。通过Mastra,开发者可以轻松创建智能助手,利用RAG技术提升生成内容的质量,并监控Agent的运行状态。它是一个灵活且功能丰富的平台,适用于各种AI应用场景。Mastra利用TypeScript的优势,提供类型安全和可维护的代码库。该项目致力于成为AI Agent开发的首选框架。
      • eumemic/ai-legion
      • Neph0s/COSER
      • potsawee/selfcheckgpt
      • agiresearch/openagi
      • smartyfh/LLM-Uncertainty-Bench - Uncertainty-Bench项目旨在通过不确定性量化来评估大型语言模型(LLM)。该项目提供了一个基准测试框架,用于测量和比较LLM在不同任务上的不确定性估计能力。项目特色在于它关注LLM的置信度评估,而非仅仅是准确率。它通过各种不确定性指标,例如预测方差、熵等,来衡量模型预测的不确定性。该项目包含多种数据集和评估指标,方便用户进行全面的不确定性分析。用户可以利用该框架来识别LLM在哪些情况下更容易产生不确定性,从而改进模型的设计和应用。该项目为LLM的可靠性和安全性评估提供了一个有价值的工具,有助于提升LLM在实际应用中的表现。它支持多种LLM,并提供易于使用的API和评估脚本,方便研究人员和开发者进行实验和分析。核心目标是推动LLM不确定性量化领域的研究,并为构建更可靠的LLM系统做出贡献。
      • RahulSChand/gpu_poor
      • paradigmxyz/flux
      • kuleshov-group/bd3lms
      • wangwei1237/LLM_in_Action
      • romansky/dom-to-semantic-markdown - to-semantic-markdown`是一个用于将DOM结构转换为语义Markdown格式的工具,旨在优化大型语言模型(LLMs)的处理效果。该项目的主要目标是将网页内容转换为更易于LLM理解和利用的Markdown,从而提高LLM在问答、摘要等任务中的性能。它通过分析DOM结构,识别关键内容和语义关系,并将其转换为具有明确结构的Markdown文本。与传统的HTML到Markdown转换器不同,该工具侧重于保留语义信息,例如标题、列表、表格等,并尽可能减少噪声和冗余信息。这使得LLM能够更有效地解析和利用网页内容,从而提高下游任务的准确性和效率。该项目可能包含用于解析DOM、提取内容和生成Markdown的算法和代码。 总之,它是一个专注于LLM优化的DOM到Markdown转换工具。
      • AI45Lab/X-Boundary - Boundary项目是论文“X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability”的代码仓库。该项目旨在为大型语言模型(LLMs)建立精确的安全边界,以防止多轮对话中的越狱攻击,同时不牺牲可用性。X-Boundary的核心思想是定义一个明确的安全区域,确保LLM的输出始终位于该区域内,从而避免有害或不当内容。该方法通过分析LLM的输出并将其与预定义的安全边界进行比较来实现。项目提供了实现X-Boundary安全机制的代码,方便研究人员和开发者将其应用于自己的LLM系统中,提高LLM的安全性与可靠性。它着重解决多轮对话中LLM容易被诱导产生有害内容的问题,力求在安全性和实用性之间取得平衡。
      • Zipstack/unstract
      • Applied-Machine-Learning-Lab/SampleLLM - Machine-Learning-Lab)提供的示例LLM项目。它旨在帮助用户理解和实践大型语言模型(LLM)的应用。该项目可能包含LLM的微调、推理、评估等方面的示例代码和教程。通过学习该项目,用户可以掌握如何使用LLM解决实际问题,例如文本生成、文本分类、问答等。具体的工作原理和特色需要查看项目中的代码和文档,可能包括使用特定LLM框架(如Transformers)和数据集,以及展示特定LLM应用场景的案例。该项目可能还包含性能评估指标和优化技巧。 总而言之,SampleLLM是一个学习和实践LLM应用的实用资源,适合对LLM感兴趣的开发者和研究人员。
      • OpenLMLab/MOSS-RLHF - RLHF项目是关于大型语言模型中强化学习与人类反馈(RLHF)的秘密的第一部分:PPO。该项目旨在揭示RLHF训练过程中的关键技术和实践经验,特别是利用近端策略优化(PPO)算法。它提供了复现和理解MOSS模型中RLHF训练流程的工具和资源。项目特色包括详细的代码实现、实验配置和训练技巧,帮助研究人员和开发者深入了解RLHF的运作机制。通过该项目,用户可以学习如何使用PPO算法来微调大型语言模型,使其更好地符合人类偏好和指令。该项目包含详细的文档和示例,便于用户上手实践,探索RLHF在提升语言模型性能方面的潜力。它为理解和改进RLHF技术提供了一个宝贵的平台,并促进了该领域的研究和发展。该项目特别关注PPO算法在奖励建模和策略优化中的应用,并提供了相应的代码和配置。
      • LeslieTrue/SFTvsRL - training”的官方实现。该项目旨在比较监督微调(SFT)和强化学习(RL)在基础模型后训练中的表现。研究发现,SFT倾向于记忆训练数据,而RL更擅长泛化到新的任务。项目提供了复现论文实验的代码和相关资源。通过分析SFT和RL在不同任务上的表现,项目揭示了两种后训练方法的优缺点。具体来说,项目研究了SFT和RL在文本生成任务上的效果,并探讨了它们在记忆和泛化能力上的差异。项目代码使用PyTorch框架,方便研究人员进行实验和扩展。该项目对于理解SFT和RL在语言模型训练中的作用具有重要意义。通过对比实验,项目为选择合适的后训练方法提供了理论依据。
      • PKU-Alignment/aligner
      • zzz47zzz/spurious-forgetting
      • Baichenjia/COPO
      • sail-sg/LightTrans - Context LLM is Secretly a Hybrid Model with Effortless Adaptation”的官方项目。该项目揭示了长上下文LLM实际上是一种混合模型,并能轻松适应新任务。LightTrans的核心思想是利用轻量级的转移学习,使得预训练的LLM能够高效处理长文本。它通过特定的训练方法,让LLM在处理长文本时,能够更好地利用上下文信息。项目特色在于其高效的适应性和对长文本处理的优化。该项目提供代码和相关资源,方便研究者复现实验结果和进一步研究。LightTrans的目标是提升LLM在长文本理解和生成方面的能力,并降低训练成本。它采用混合模型架构,结合了不同的技术优势,以实现更好的性能。该项目对长上下文LLM的研究具有重要意义,为未来的模型设计提供了新的思路。
      • SLIT-AI/ADPA - AI团队开发的,旨在提升小型语言模型(SLM)的偏好对齐能力,被ICLR2025接收为Spotlight论文。该项目提出了一种名为“优势引导蒸馏”(Advantage-Guided Distillation)的方法,核心思想是利用大型语言模型(LLM)的优势信息来指导SLM的学习。具体来说,ADPA通过计算LLM对不同回复的偏好优势,并将其作为信号传递给SLM,从而使SLM能够更好地模仿LLM的偏好。这种方法能够有效提高SLM生成符合人类偏好的文本的能力,同时保持SLM的效率和可控性。项目代码和相关资源已开源,方便研究人员复现和进一步研究。ADPA为解决SLM偏好对齐问题提供了一个新的视角和有效方案。
      • thu-pacman/chitu
      • ollama-ui/ollama-ui - UI 是一个为 Ollama 设计的简单 HTML 用户界面。它旨在简化与 Ollama 模型的交互,提供友好的图形界面,无需命令行操作。你可以通过它轻松管理和运行 Ollama 模型,并进行对话。项目特色包括简洁直观的界面、模型管理功能和对话交互功能。它基于 HTML 技术构建,易于部署和使用。Ollama-UI 简化了本地 LLM 的使用流程,方便用户探索和体验 Ollama 提供的各种模型。它让用户能够更方便地下载、运行和聊天,无需复杂的配置。这个项目适合希望通过图形界面与 Ollama 模型交互的用户。
      • AIoT-MLSys-Lab/Efficient-LLMs-Survey - MLSys-Lab/Efficient-LLMs-Survey项目是关于高效大型语言模型(LLMs)的综述,已被TMLR 2024收录。该项目旨在全面回顾和总结当前LLM效率优化的研究进展。它涵盖了模型压缩、加速推理等关键技术,并对各种高效LLM方法进行了分类和比较。该综述深入探讨了不同方法的原理、优缺点以及适用场景,帮助研究者和开发者快速了解该领域的前沿技术。项目可能包含对模型量化、知识蒸馏、剪枝等技术的讨论,以及对新兴硬件加速方案的分析。通过该项目,可以系统地了解如何降低LLM的计算成本和内存占用,从而实现更高效的部署和应用。
      • zhihu/ZhiLight
      • mit-han-lab/TinyChatEngine
      • Taewan-P/gpt_mobile
      • SqueezeAILab/SqueezeLLM - 稀疏量化技术。该项目旨在通过结合密集量化和稀疏量化,实现更高的压缩率和更低的性能损失。SqueezeLLM的核心思想是在量化过程中,一部分权重进行密集量化,另一部分权重进行稀疏化处理。这种混合量化策略可以有效平衡模型大小和精度。项目提供了代码和实验结果,展示了SqueezeLLM在不同模型和数据集上的性能。SqueezeLLM可以显著减少LLM的存储空间和计算成本,使其更易于部署在资源受限的设备上。该项目为大语言模型的量化和压缩提供了一种新的思路。SqueezeLLM的实现细节和实验设置可以在论文中找到。项目代码结构清晰,方便研究人员复现和修改。SqueezeLLM有望推动大语言模型在边缘计算和移动设备上的应用。项目团队鼓励研究人员使用和改进SqueezeLLM。SqueezeLLM是开源的,允许用户自由使用和分发。
      • mit-han-lab/qserve
      • jianzhnie/LLamaTuner
      • microsoft/BitBLAS
      • yzfly/pocketpal-ai-zh - ai-zh)是一个将世界知识装进口袋的AI项目,是yzfly/pocketpal-ai的中文版本。该项目旨在提供便捷的AI知识访问体验。具体功能和工作原理需要进一步研究原项目README.md文件才能得知,例如它可能利用了大型语言模型或知识图谱等技术。由于只提供了README.md文件路径,无法直接获取项目详情,因此项目特色、具体功能实现等信息需查阅原始README文件。
      • NVIDIA/kvpress
      • intel/auto-round
      • FMInference/DejaVu
      • ChenMnZ/PrefixQuant - 激活量化算法项目,专注于W4A4和W4A8量化方案。该项目支持静态量化和动态量化两种模式,旨在降低LLM的计算和存储成本。通过对权重和激活值进行量化,PrefixQuant能够在保持模型性能的同时,显著减少模型大小和推理延迟。该算法利用前缀量化的思想,优化了量化过程,提高了量化精度。项目提供了详细的文档和示例代码,方便用户快速上手和应用。PrefixQuant适用于资源受限的设备或需要快速部署的场景,为LLM的轻量化部署提供了一种有效的解决方案。该项目使用Python实现,并依赖于常见的深度学习框架。
      • context-labs/autodoc
      • yusufcanb/tlm
      • RAGEN-AI/RAGEN
      • dhcode-cpp/X-R1 - R1 是一个旨在以极低成本训练 5 亿参数 R1-Zero 模型的项目。它专注于高效的训练策略和资源优化,目标是让更多研究者和开发者能够负担得起大模型的训练和实验。项目可能包含优化的训练代码、配置文件以及详细的训练流程说明。R1-Zero 架构的具体细节和优势可能在文档中有详细描述。该项目强调低成本,意味着它可能采用了诸如模型并行、数据并行、梯度累积等技术来降低硬件需求。通过 X-R1,用户可以学习到如何在有限的资源下训练出具有竞争力的中等规模语言模型。项目的目标受众是希望探索大模型训练,但预算有限的研究人员和工程师。项目的成功将有助于推动大模型技术的普及和应用。
      • composable-models/llm_multiagent_debate - models/llm_multiagent_debate,旨在提升语言模型的事实性和推理能力。该项目通过多智能体辩论框架,让多个LLM智能体扮演不同角色进行辩论,从而互相挑战和验证彼此的观点。辩论过程鼓励智能体提供证据和理由,以支持或反驳论点,从而促进更严谨的推理。项目核心是设计一个可组合的辩论流程,允许灵活配置智能体角色、辩论规则和评估指标。通过实验证明,这种多智能体辩论方法可以显著提高LLM在复杂推理任务中的表现,并减少事实性错误。项目提供代码和数据,方便研究人员复现和扩展该方法,探索多智能体协作在LLM能力提升方面的潜力。该框架适用于各种需要事实核查和逻辑推理的场景,例如问答、摘要和决策制定。
      • GAIR-NLP/LIMR
      • ezelikman/quiet-star - STaR项目是关于安静自训练推理(Quiet Self-Training Reasoner)的代码实现。它旨在解决大型语言模型(LLM)在复杂推理任务中产生幻觉的问题。该项目通过自训练过程,让模型在没有人工干预的情况下,逐步提高推理能力。其核心思想是利用LLM生成推理轨迹,然后通过一致性检查来筛选高质量的轨迹,并用这些轨迹来微调模型。项目代码包含了数据处理、模型训练和评估等模块。Quiet-STaR的特色在于其完全自动化的训练流程,无需人工标注数据。项目目标是使LLM在推理时更加可靠和准确,减少错误信息的产生。它通过迭代式的自训练,不断提升模型的推理能力和事实性。该项目提供了一种有效的方法来提高LLM在知识密集型任务中的表现。
      • knoveleng/open-rs - rs项目是论文《小型LLM推理强化学习:有效与无效方法》的官方代码仓库。该项目旨在研究如何使用强化学习提升小型语言模型(LLM)的推理能力。它提供了复现论文实验结果所需的代码、数据和模型。项目特色在于探索了不同强化学习技术在小型LLM推理任务上的表现,并分析了其有效性和局限性。通过该项目,研究者可以深入了解强化学习在提升小型LLM推理能力方面的潜力,并在此基础上进行进一步研究。项目内容包括:强化学习算法实现、实验环境搭建、模型训练和评估流程等。该项目为小型LLM的推理能力提升提供了一个有价值的参考框架。
      • ax-llm/ax - > "outputField:type"`的提示签名,自动生成类型安全的提示,并支持多种数据类型输出。
      • elizaOS/eliza
      • BrainBlend-AI/atomic-agents - agents`,并可选择安装如`openai`和`groq`等provider。
      • joonspk-research/generative_agents
      • NirDiamant/GenAI_Agents
      • petercat-ai/petercat
      • 0xPlaygrounds/rig - core`引入,使用示例包括创建OpenAI客户端并使用gpt-4模型进行prompt。
      • OmniSteward/OmniSteward
      • satellitecomponent/Neurite
      • tilotech/identity-rag-customer-insights-chatbot
      • viddexa/autollm
      • AI-in-Health/MedLLMsPracticalGuide
      • adammikulis/EdgeRag
      • PySpur-Dev/PySpur
      • tensorzero/tensorzero
      • mlc-ai/xgrammar
      • darrenburns/elia
      • groq/groq-api-cookbook - api-cookbook项目是Groq API的示例代码和指南集合,提供内容过滤、函数调用、RAG、JSON模式、多模态和集成等多种教程,帮助用户学习如何使用Groq API,需要Groq API密钥才能运行示例,欢迎社区贡献。
      • sourcegraph/sourcegraph-public-snapshot - public-snapshot/commit/1cd36d2dbbd2a9ab638cc437d208d2717eaefb0b)。
      • Canner/WrenAI
      • huggingface/smolagents
      • mufeedvh/code2prompt
      • zjunlp/KnowLM-IE · Datasets at Hugging Face
      • AgentOps-AI/BestGPTs
      • gkamradt/langchain-tutorials
      • supermemoryai/supermemory
      • friuns2/Leaked-GPTs - GPTs项目提供了绕过25条消息限制的方法,或在无需Plus订阅的情况下尝试GPTs。项目包含多种GPTs提示,如Genz 4 Meme、The Negotiator、Tech Support Advisor等,可帮助理解流行梗、谈判技巧、技术支持等。此外,还提供了文件泄露提示和API工具查找提示。
      • yifeiwang77/Self-Correction - Correction through In-context Alignment”(NeurIPS 2024)。环境搭建需使用`environment.yml`文件创建conda环境。项目包含合成实验、BBQ评估和监狱突破评估三部分,分别通过不同配置训练GPT-2模型,并进行评估和实验。项目还提供了笔记本文件和命令行工具进行实验。
      • jupyterlab/jupyter-ai - 3.12 和 JupyterLab 4 或 Notebook 7,可通过 pip 或 conda 安装,推荐使用 `pip install jupyter-ai[all]` 进行快速安装。
      • WongSaang/chatgpt-ui - ui-server](https://github.com/WongSaang/chatgpt-ui-server),文档提供英文和中文版本。
      • anti-work/shortest
      • mannaandpoem/OpenManus
      • qiwang067/LS-Imagine - Imagine是一个PyTorch实现的开源项目,对应论文“Open-World Reinforcement Learning over Long Short-Term Imagination”,该论文已被ICLR 2025接收为口头报告。该项目专注于解决开放世界中的强化学习问题,特别是通过长短期想象来提升智能体的决策能力。它利用了想象力机制,允许智能体在环境中进行预测和规划,从而更好地适应未知的环境变化。该项目提供可复现的代码,方便研究人员和开发者探索基于想象的强化学习方法。其核心思想是让智能体通过模拟未来的状态和奖励,学习更有效的策略,尤其是在环境复杂且动态变化的情况下。该项目的主要贡献在于提出了一种新的强化学习框架,该框架结合了长短期记忆和想象力,以应对开放世界带来的挑战。
      • yueshengbin/SMART
      • EmbodiedBench/EmbodiedBench
      • camel-ai/owl
      • openai/openai-agents-python - agents-python是一个轻量级且强大的多智能体工作流框架。它旨在简化构建复杂的多智能体系统的过程,允许开发者轻松创建和协调多个智能体之间的交互。该框架的核心优势在于其灵活性和可扩展性,可以适应各种不同的应用场景。通过该框架,开发者可以定义智能体的角色、目标和行为,并设计它们之间的通信协议。该项目提供了丰富的工具和示例,帮助开发者快速上手并构建自己的多智能体应用。它支持各种不同的智能体类型,包括基于语言模型的智能体和基于规则的智能体。该框架还提供了强大的调试和监控功能,方便开发者诊断和优化智能体系统的性能。总之,openai/openai-agents-python为开发者提供了一个高效且易用的平台,用于构建和部署复杂的多智能体系统。
      • microsoft/ai-agents-for-beginners
      • nanobrowser/nanobrowser
      • VRSEN/agency-swarm
      • HKUDS/AutoAgent
      • potpie-ai/potpie - To-Agent”,即通过简单的提示词来生成智能代理。这些代理可以理解代码,并执行各种工程任务。Potpie的工作原理是利用大型语言模型(LLM)来理解代码库,并根据提示词生成相应的代理行为。该项目旨在简化工程代理的创建过程,让开发者无需深入了解复杂的AI技术也能轻松构建自己的智能助手。Potpie的特色在于其易用性和可定制性,开发者可以根据自己的需求调整提示词,从而创建出满足特定需求的代理。它适用于各种规模的代码库,并可以帮助开发者提高开发效率和代码质量。通过Potpie,开发者可以自动化代码审查、bug修复、文档生成等任务,从而节省时间和精力。
      • xlang-ai/OSWorld - ai/OSWorld,欢迎大家参与贡献和使用。
      • lastmile-ai/mcp-agent - agent 项目旨在帮助开发者构建高效的智能体。它基于模型上下文协议 (Model Context Protocol, MCP) 和简单的工作流模式,简化了智能体的开发过程。该项目允许开发者通过定义清晰的协议来管理智能体的上下文信息,从而提高智能体的性能和可维护性。MCP 提供了一种标准化的方式来组织和传递智能体所需的各种数据,例如用户输入、历史对话、知识库信息等。项目强调使用简单的工作流模式,例如顺序执行、条件分支等,来控制智能体的行为。开发者可以使用该项目提供的工具和库,快速搭建各种类型的智能体,例如聊天机器人、自动化助手等。MCP 协议的核心在于定义了智能体与外部环境交互的接口,使得智能体可以方便地与不同的模型和数据源进行集成。该项目特别适合需要构建复杂智能体,并希望提高智能体可扩展性和可重用性的开发者。简单来说,mcp-agent 提供了一个框架,帮助开发者利用 MCP 协议和简单工作流,更轻松地构建和管理智能体。
      • Link-AGI/AutoAgents
      • The-Pocket/PocketFlow
      • EmergenceAI/Agent-E - E是一个基于Agent驱动的自动化项目,专注于从Web开始实现自动化。它提供了一个Web自动化API,可以通过https://www.emergence.ai/web-automation-api 尝试。该项目旨在利用智能体技术来简化和自动化Web相关的任务。Agent-E的核心在于使用智能体来理解和执行用户的意图,从而实现更高效和智能的自动化流程。具体工作原理可能涉及智能体对网页内容的理解、交互和数据提取。Agent-E的目标是让用户能够轻松地自动化各种Web任务,而无需编写复杂的脚本或代码。它代表了自动化领域的一种新趋势,即利用人工智能和智能体技术来提升自动化水平。
      • plurai-ai/intellagent
      • jina-ai/agentchain
      • langchain-ai/langgraph-swarm-py - Swarm是一个Python项目,旨在简化使用LangGraph构建智能体集群(Swarm)的过程。它提供了一个高级API,可以轻松创建、配置和管理多个智能体,这些智能体可以并行工作以解决复杂问题。该项目的核心是`Swarm`类,它允许用户定义智能体的数量、每个智能体的角色和目标,以及智能体之间的通信方式。LangGraph-Swarm特别适用于需要并行处理、知识共享和协作解决问题的场景,例如文档摘要、代码生成和数据分析。其工作原理是利用LangGraph的图结构来协调智能体之间的交互,确保任务的有效分配和结果的整合。项目特色包括易于使用的API、灵活的配置选项和强大的并行处理能力。通过LangGraph-Swarm,开发者可以快速构建强大的智能体集群,从而提高问题解决的效率和质量。它支持自定义智能体和通信协议,以满足各种应用场景的需求。
      • Ji-Cather/GraphAgent
      • oumi-ai/oumi
      • deepseek-ai/open-infra-index - ai/open-infra-index 是一个旨在提升AGI开发效率和促进社区驱动创新的开源项目,提供经过生产环境验证的AI基础设施工具。该项目通过索引和组织各类AI基础设施资源,帮助开发者快速找到所需的工具和资源。它可能包含用于模型训练、推理、数据管理、监控等方面的工具。其核心目标是降低AGI开发的门槛,加速AI技术的进步。项目特色在于其生产环境验证的可靠性和社区驱动的开放性。开发者可以通过该项目获取高效的AI开发工具,并参与到社区共建中来。
      • deepseek-ai/DeepSeek-LLM - LLM是一个由DeepSeek AI开发的开源大型语言模型。它以“让答案涌现”为目标,旨在提供高质量的文本生成和理解能力。该模型在万亿级别token的数据集上进行了训练,并采用了DeepSeek自主研发的MoE(Mixture-of-Experts)架构,使其在性能和效率之间取得了平衡。DeepSeek-LLM拥有强大的推理能力,擅长解决复杂问题,并能生成连贯、富有洞察力的文本。项目提供了多种模型尺寸,包括7B、67B等,方便用户根据需求选择。此外,DeepSeek-LLM支持多种编程语言,并提供了详细的文档和示例代码,方便开发者快速上手和集成。该项目鼓励社区参与,共同推动大语言模型的发展。DeepSeek-LLM在多个基准测试中表现出色,证明了其强大的实力。它可应用于多种场景,如文本生成、对话系统、代码生成等。DeepSeek AI致力于打造更智能、更可靠的AI模型,为用户提供更好的体验。
      • ZJU-LLMs/Foundations-of-LLMs - LLMs/Foundations-of-LLMs项目旨在提供一个关于大型语言模型(LLMs)基础知识的系统性学习资源。该项目由浙江大学LLM小组维护,涵盖了LLMs的理论基础、模型架构、训练方法和应用实践。项目特色在于其全面性和实用性,旨在帮助学习者快速入门并深入理解LLMs。内容包括LLMs的基本概念,如Transformer架构、自注意力机制等,以及预训练、微调等关键技术。此外,项目还涉及LLMs的评估方法、伦理考量和未来发展趋势。通过学习该项目,用户可以掌握LLMs的核心原理,并具备开发和应用LLMs的能力。项目可能包含代码示例、实验教程和论文解读等资源,方便学习者实践操作。该项目适合对LLMs感兴趣的学生、研究人员和工程师。
      • dzhng/deep-research - research是一个AI驱动的研究助手,旨在通过结合搜索引擎、网页抓取和大型语言模型,对任何主题进行迭代式的深度研究。该项目的目标是提供一个最简单的深度研究代理实现,使其能够随着时间的推移改进研究方向,并深入探索特定主题。它利用AI技术自动执行研究过程,无需人工干预即可完成复杂的调研任务。该项目通过迭代的方式不断优化搜索策略,从而更有效地找到相关信息。项目的核心在于其能够自主地调整研究方向,并对感兴趣的领域进行更深入的挖掘。
      • allenai/olmocr
      • nickscamara/open-deep-research
      • IntelLabs/fastRAG
      • andrewnguonly/Lumos
      • signerlabs/klee
      • papersgpt/papersgpt-for-zotero
      • PeterGriffinJin/Search-R1 - R1是一个高效、可扩展的强化学习训练框架,专为基于LLM的推理和搜索引擎调用而设计,特别是交错式的LLM使用场景。它基于veRL(value exploration reinforcement learning)方法,旨在提升LLM在复杂任务中的推理能力和搜索效率。该框架允许用户训练LLM智能体,使其能够更好地利用搜索引擎获取信息,并进行有效的推理。Search-R1的关键特色在于其高效的训练流程和可扩展性,能够处理大规模的训练数据和复杂的任务。它通过强化学习的方式,优化LLM在搜索和推理过程中的策略,从而提高任务完成的成功率和效率。项目提供了详细的文档和示例,方便用户上手和定制化训练流程。总而言之,Search-R1为研究人员和开发者提供了一个强大的工具,用于构建更智能、更高效的LLM应用,尤其是在需要搜索引擎辅助的推理任务中。
      • buoyancy99/diffusion-forcing - token Prediction Meets Full-Sequence Diffusion”的官方代码实现。该项目探索了将自回归的next-token预测与全序列扩散模型相结合的新方法,旨在提升文本生成质量。其核心思想是利用next-token预测的优势来指导扩散过程,从而生成更连贯和自然的文本。项目提供了一个创新的文本生成框架,融合了两种互补的技术。该项目使用PyTorch实现,包含了训练和推理的代码。你可以通过该项目复现论文结果,并进一步研究扩散模型在文本生成中的应用。它提供了一种新的视角,将离散的文本生成问题转化为连续的扩散过程,并利用next-token预测进行有效引导。
      • D-Star-AI/dsRAG
      • GitHamza0206/simba
      • dontizi/rlama
      • sunnynexus/Search-o1 - o1 是一个利用 Agentic Search 增强大型推理模型的项目,旨在提高大语言模型在复杂问题上的推理能力。它通过让模型像智能体一样进行搜索,迭代地探索和验证信息,从而提升回答的准确性和可靠性。该项目主要关注如何将搜索与大型语言模型相结合,使其能够处理需要外部知识和复杂推理的任务。Search-o1 的核心思想是让模型自主地制定搜索策略,并根据搜索结果动态调整推理过程。它通过模拟人类的搜索行为,使模型能够更有效地利用外部信息,克服自身知识的局限性。项目可能包含具体的代码实现、实验结果和相关论文,展示了 Agentic Search 在提升大语言模型推理能力方面的潜力。通过学习和借鉴 Search-o1,开发者可以更好地理解如何将搜索与大型语言模型结合,并构建更强大的智能应用。
      • FareedKhan-dev/all-rag-techniques - dev/all-rag-techniques项目旨在以更简单的方式实现各种RAG(检索增强生成)技术。该项目提供了一个清晰易懂的RAG技术实现方案,方便开发者学习和应用。它可能包含多种RAG技术的示例代码和教程,帮助用户理解不同技术的原理和用法。项目的重点在于简化RAG技术的复杂性,使其更容易上手。通过学习该项目,用户可以快速掌握RAG技术,并将其应用于自己的项目中。该项目可能涵盖向量数据库的使用、检索策略的优化以及生成模型的集成等方面。它是一个学习和实践RAG技术的优秀资源。
      • OpenBMB/UltraRAG
      • plageon/HtmlRAG
      • RAG-Gym/RAG-Gym - Gym是一个评估和改进检索增强生成(RAG)系统的官方仓库。它提供了一个标准化的环境,用于训练、评估和比较不同的RAG模型和组件。RAG-Gym支持多种评估指标,帮助开发者了解RAG系统的性能瓶颈。该项目包含数据集、评估工具和示例代码,方便用户快速上手。RAG-Gym的目标是促进RAG领域的研究和发展,并提供一个可靠的平台来衡量RAG系统的有效性。它允许用户自定义RAG流程中的各个环节,如检索器、生成器和提示工程。通过RAG-Gym,开发者可以系统地优化RAG系统的性能,并选择最适合特定任务的组件。该项目旨在成为RAG研究和应用的基准平台。
      • modelscope/ms-swift - R1等。同时,它还支持超过150个多模态大型语言模型(MLLMs)的微调,包括Qwen2.5-VL、Qwen2-Audio、Llama3-Vision、Llava、InternVL2.5、MiniCPM-V-2、GLM4v、Xcomposer2、Yi-VL、DeepSeek-VL2、Phi3-Vision、GOT-OCR2等。该项目致力于简化和加速LLM和MLLM的微调过程,使其更易于使用和部署。Swift提供了多种微调策略,以适应不同的模型和任务需求,帮助用户高效地定制和优化模型性能。
      • Qihoo360/360-LLaMA-Factory - LLaMA-Factory项目是基于LLaMA模型的一个训练和部署工具。它主要特色是集成了序列并行(Sequence Parallelism)技术,旨在提高训练效率和扩展模型规模。该项目允许用户进行LoRA微调,从而降低训练成本。它支持多种训练策略,并提供易于使用的界面。通过序列并行,该项目能够将模型和数据分割到多个GPU上,从而处理更大的数据集和模型。该项目可能包含优化过的训练脚本和配置,以便更好地利用硬件资源。用户可以根据自己的需求调整训练参数和配置。总而言之,360-LLaMA-Factory是一个旨在简化和加速LLaMA模型训练和部署的工具,特别是针对大规模模型和数据集。它通过引入序列并行等技术,为用户提供了更高效的训练方案。
      • ADaM-BJTU/OpenRFT - Tuning)方法,将推理基础模型(Reasoning Foundation Model)应用于特定领域任务。其核心思想是让模型学会如何更好地进行推理,以适应不同领域的独特需求。项目提出了一个框架,通过奖励函数引导模型生成更准确、更相关的答案。该框架允许用户自定义奖励函数,以适应不同的任务和数据集。OpenRFT的优势在于能够提升模型在特定领域的推理能力,而无需从头开始训练模型。项目代码和相关资源已开源,方便研究人员和开发者使用和改进。它通过强化学习策略优化模型的推理过程,使其更有效地解决领域特定问题。该项目为领域自适应的推理模型提供了一种新的思路和方法。
      • deepseek-ai/FlashMLA - AI开源的高效MLA(Masked Language Model Adaptation)解码内核,旨在加速大语言模型(LLM)的推理过程。它利用FlashAttention v2的思想,通过高效的内存访问和计算优化,显著提升MLA解码速度,尤其适用于长上下文场景。该项目提供PyTorch和CUDA实现,包含高效的softmax和matmul内核,并支持多种数据类型(如fp16, bf16)。FlashMLA的优势在于减少了内存访问,提高了计算效率,从而降低了延迟并提升了吞吐量。项目代码简洁易懂,方便用户集成到现有的LLM推理框架中。它特别关注了长序列推理的性能优化,是加速LLM应用的关键技术之一。
      • a-ghorbani/pocketpal-ai - AI是一个将语言模型直接带到你手机上的应用程序。该项目由a-ghorbani开发,旨在方便用户随时随地使用AI能力。它可能允许用户在移动设备上直接与大型语言模型交互,无需依赖服务器端处理。具体实现细节需要查看项目代码,但核心理念是将强大的语言模型能力集成到移动应用中,方便用户进行文本生成、对话等任务。该项目可能利用了移动端的计算资源或轻量级的模型优化技术来实现这一目标。用户可以通过该应用随时随地访问AI能力,提升工作效率和生活体验。
      • triton-inference-server/tensorrtllm_backend - LLM Backend 是一个 Triton 推理服务器的后端,旨在优化和加速基于 TensorRT-LLM 的大型语言模型 (LLM) 的推理。它利用 TensorRT-LLM 库,实现高性能的transformer模型推理,特别针对NVIDIA GPU进行了优化。该后端支持多种模型格式,包括 Hugging Face Transformers 和 PyTorch 模型,并能将它们转换为 TensorRT 引擎。其主要特色在于通过 TensorRT 的优化技术,例如量化、剪枝和层融合,显著提升 LLM 的推理速度和效率。用户可以通过简单的配置,将 TensorRT-LLM 模型部署到 Triton 推理服务器上,实现低延迟、高吞吐量的在线推理服务。此外,它还支持动态输入形状,更好地适应不同的请求。此后端简化了 LLM 的部署流程,让开发者能够更便捷地利用 TensorRT 的强大功能。它通过减少延迟和提高吞吐量,为LLM应用提供更佳的用户体验。该项目还提供了详细的文档和示例,方便用户快速上手和使用。
      • yetone/avante.nvim
      • deepseek-ai/DeepSeek-Coder - Coder 是由 DeepSeek AI 开发的代码大语言模型,旨在让代码自行生成。它在代码生成任务中表现出色,尤其擅长处理复杂场景。该模型支持多种编程语言,并能理解自然语言描述的需求,将其转化为可执行的代码。DeepSeek-Coder 的训练数据包含大量高质量的代码语料,使其具备强大的代码理解和生成能力。它能够根据上下文自动补全代码,生成函数、类和完整的程序。项目目标是提高开发效率,降低编程门槛,让开发者更专注于解决问题本身。DeepSeek-Coder 具有良好的可扩展性,可以根据不同的需求进行定制和优化。该项目提供易于使用的 API 和工具,方便开发者集成到自己的工作流程中。DeepSeek-Coder 的核心优势在于其强大的代码生成能力和对复杂编程场景的理解。它通过深度学习技术,模拟人类程序员的思维方式,从而生成高质量的代码。
      • GLips/Figma-Context-MCP - Context-MCP是一个MCP服务器,旨在为像Cursor这样的AI编码助手提供Figma布局信息。它允许AI智能体理解Figma设计,从而更好地进行代码生成和编辑。该项目通过解析Figma文件,提取图层、属性和约束等信息,并将其转换为AI可以理解的格式。核心功能是提供Figma上下文,帮助AI更准确地理解设计意图。使用场景包括自动生成代码、智能代码补全和设计稿到代码的转换。该项目简化了AI与Figma的集成,提升了AI编码助手的效率和准确性。它通过创建一个服务器,监听来自AI客户端的请求,并返回相关的Figma布局数据。项目目标是成为AI编码助手与Figma设计之间的桥梁。
      • AbanteAI/rawdog
      • MLSysOps/MLE-agent - Agent是一个智能AI工程和研究助手,旨在简化AI开发流程。它通过集成arxiv和Paper with Code等平台,提供更优的代码和研究方案。该项目支持多种大型语言模型,包括OpenAI、Anthropic、Gemini和Ollama等。其主要特色是代码RAG(Retrieval-Augmented Generation),能够根据检索到的代码片段生成相关内容。简单来说,MLE-Agent可以帮助你更高效地查找、理解和利用代码资源,从而加速AI研究和开发。它通过智能检索和生成,将学术论文和代码联系起来,为你提供定制化的AI开发支持。
      • hkust-nlp/simpleRL-reason - nlp/simpleRL-reason旨在复现DeepSeek-R1-Zero和DeepSeek-R1的训练过程,但专注于使用小型模型和有限的数据集。它主要研究强化学习在推理任务中的应用。项目特色在于探索了在资源受限条件下训练高性能推理模型的可行性。通过简化模型结构和优化训练策略,项目力求在小规模数据上达到与大型模型相媲美的推理能力。具体工作原理可能涉及模仿DeepSeek-R1的训练框架和目标函数,并进行针对性的调整以适应小型模型。该项目可能包含训练脚本、模型定义、数据集处理代码以及评估指标等。它为研究人员提供了一个低成本复现和改进DeepSeek-R1推理能力的平台。最终目标是推动强化学习在推理任务上的研究,特别是在资源有限的环境下。
      • Open-Reasoner-Zero/Open-Reasoner-Zero - Reasoner-Zero是一个开源的推理引擎项目。它旨在提供一个轻量级、高效且易于使用的推理框架。该项目基于Transformer架构,并针对推理任务进行了优化。其核心特色在于Zero-shot能力,即无需大量训练数据即可进行推理。Open-Reasoner-Zero通过理解自然语言指令,并利用预训练知识进行推理。它支持多种推理任务,例如常识推理、数学推理和代码推理。项目目标是降低推理技术的门槛,让更多开发者能够轻松构建智能应用。它使用PyTorch实现,方便集成到现有项目中。Open-Reasoner-Zero的优势在于其简洁的设计和强大的推理能力,为AI研究和应用提供了新的可能性。
      • zzli2022/Awesome-System2-Reasoning-LLM - System2-Reasoning-LLM 是一个关于大型语言模型(LLM)中系统2推理(System 2 Reasoning)最新进展的资源整理项目。该项目旨在收集和组织关于如何使LLM具备更高级、更深思熟虑的推理能力的研究论文和相关资源。系统2推理指的是一种缓慢、有意识、需要努力的认知过程,与快速、直觉的系统1推理相对。该项目涵盖了各种提升LLM系统2推理能力的方法,例如思维链(Chain-of-Thought, CoT)提示、自我反思(Self-Reflection)和工具使用(Tool Use)等。它旨在为研究人员和开发者提供一个全面的资源库,以便他们了解和探索LLM中系统2推理的最新进展,并促进相关领域的研究。项目内容包括论文列表、代码库链接和其他相关资源,并持续更新以反映最新的研究成果。该项目特别关注那些能够使LLM进行更复杂问题解决、规划和决策的方法。
      • jeffhj/LM-reasoning - reasoning汇集了关于大型语言模型推理的论文和资源。它旨在提供一个全面的资源库,方便研究人员和开发者了解和探索LLM的推理能力。具体内容包括:(1) **论文集合**:收集了大量关于LLM推理的学术论文,涵盖了不同类型的推理任务和方法。(2) **资源列表**:整理了与LLM推理相关的工具、数据集和代码库等资源。(3) **推理方法分类**:对现有的LLM推理方法进行了分类和总结,例如思维链(Chain-of-Thought)、自洽性(Self-Consistency)等。(4) **任务类型划分**:针对不同类型的推理任务,例如常识推理、数学推理、逻辑推理等,进行了整理和分析。(5) **最新进展跟踪**:持续跟踪LLM推理领域的最新研究进展,并及时更新资源库。该项目可以帮助用户快速了解LLM推理领域的研究现状和发展趋势,并为相关研究提供参考。
      • ZongqianLi/ReasonGraph
      • Gen-Verse/ReasonFlux
      • google-research/cascades - research/cascades是一个Python库,旨在简化复杂语言模型组合的构建,支持scratchpads、思维链(chain of thought)、工具使用、选择-推理等高级技术。它允许开发者将多个语言模型以灵活的方式组合在一起,形成更强大的推理和问题解决能力。该库的核心在于提供一种模块化的方式来定义和执行语言模型序列,每个模块可以执行特定的任务,例如生成文本、调用外部工具或进行逻辑推理。通过Cascades,用户可以轻松地创建定制化的语言模型管道,以应对各种复杂的自然语言处理任务,例如问答、对话生成和代码生成。项目目标是提高语言模型的可组合性和可扩展性,使开发者能够更有效地利用大型语言模型的潜力。
      • itsnamgyu/reasoning-teacher
      • TIGER-AI-Lab/Program-of-Thoughts - AI-Lab/Program-of-Thoughts项目是关于Program of Thoughts (PoT) 的数据和代码,该项目发表于TMLR 2023。PoT是一种解决复杂推理问题的新方法,它通过将问题分解成多个子问题,并逐步生成程序来解决这些子问题。该项目的核心思想是利用程序来模拟人类的思考过程,从而提高解决问题的能力。PoT的关键优势在于其可解释性和可调试性,用户可以清晰地了解程序的执行过程并进行干预。项目提供了用于训练和评估PoT模型的数据集和代码,方便研究人员复现和改进PoT方法。通过使用PoT,模型可以更好地处理需要多步推理的任务,例如数学问题、逻辑推理等。该项目旨在推动程序辅助推理领域的发展,并为构建更智能的AI系统提供新的思路。
      • FreedomIntelligence/ReasoningNLP
      • IAAR-Shanghai/ICSFSurvey - Shanghai/ICSFSurvey项目探索了自纠正、自精炼、自我提升、自矛盾、自博弈和自我知识等概念。该项目旨在研究智能体如何通过自我反思和迭代来改进自身,提升推理能力,并减轻幻觉问题。项目特色包括类似于o1的推理提升方法🍓和幻觉缓解策略🍄。它深入研究了智能体在没有外部监督的情况下,如何通过内部机制进行学习和优化。该项目可能包含对这些概念的理论分析、实验验证或算法实现。其目标是推动人工智能领域对智能体自我改进和自我认知能力的研究。通过研究这些机制,可以构建更强大、更可靠和更自主的人工智能系统。
      • SuperBruceJia/Awesome-LLM-Self-Consistency - LLM-Self-Consistency 是一个关于大型语言模型(LLM)自洽性(Self-consistency)的精选资源列表。自洽性旨在通过生成多个答案并选择最一致的答案来提高LLM的推理能力。该项目收集了关于自洽性方法的论文、代码和相关资源,方便研究者快速了解和应用该技术。自洽性的核心思想是利用LLM生成多个不同的推理路径,然后通过某种方式(例如投票)选择最可靠的答案。该项目涵盖了自洽性的不同变体和应用场景,例如在数学推理、常识推理等任务中的应用。通过学习和应用自洽性,可以显著提升LLM在复杂问题上的表现,使其更加可靠和准确。该资源库持续更新,旨在成为LLM自洽性研究的重要参考。
      • dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1 - reasoning-openai-o1o3-deepseek-r1项目旨在研究如何通过推理攻击来破解大型语言模型(LLM)的防御机制,特别是针对OpenAI的GPT-3.5、GPT-4和DeepSeek-R1模型。该项目利用一种名为“Reasoning Jailbreak”的攻击方法,通过精心设计的提示,诱导LLM生成有害或不当内容。核心思想是利用LLM的推理能力,使其在看似无害的上下文中逐步推导出有害结论,从而绕过安全限制。项目提供了详细的攻击提示示例,并分析了不同模型的脆弱性。研究结果表明,即使是先进的LLM也容易受到此类推理攻击的影响。该项目对于理解LLM的安全风险,并开发更有效的防御策略具有重要意义。它强调了在LLM安全领域,推理能力既是优势,也可能成为潜在的漏洞。
      • SamuelSchmidgall/AgentLaboratory
      • AGI-Edgerunners/LLM-Agents-Papers - Agents-Papers,是一个关于基于大型语言模型(LLM)的智能体相关论文的列表。它旨在收集和整理该领域的重要研究成果,方便研究人员和开发者快速了解LLM智能体的最新进展。项目内容主要包括论文标题、作者、发表年份以及论文链接,并可能包含简要的论文摘要或关键词。该项目涵盖了各种类型的LLM智能体,例如规划、推理、决策等方面的研究。通过这个项目,用户可以追踪LLM智能体的发展趋势,并找到相关领域的关键文献。该项目可能还会根据论文主题进行分类,方便用户查找。 总而言之,这是一个非常有用的资源,可以帮助对LLM智能体感兴趣的人员快速入门和深入研究。
      • MiniMax-AI/MiniMax-01 - Text-01 和 MiniMax-VL-01。MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,每个令牌激活 459 亿个参数。为了解锁其长上下文功能,它采用了集成了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE) 的混合架构。利用线性注意力序列并行增强 (LASP+)、varlen 环注意力和专家张量并行 (ETP) 等高级并行策略,其训练上下文长度扩展到 100 万个令牌,并且在推理过程中可以处理多达 400 万个令牌。因此,MiniMax-Text-01 在各种学术基准测试中展示了顶级性能。基于 MiniMax-Text-01 的强大功能,我们开发了 MiniMax-VL-01 以增强视觉功能。它使用 多模态 中常见的 “ViT-MLP-LLM” 框架 LLMs.它使用三个关键组件进行初始化和训练:用于视觉编码的 3.03 亿参数视觉转换器 (ViT)、用于图像自适应的随机初始化的两层 MLP 投影仪以及作为基础LLM的 MiniMax-Text-01。该模型具有动态分辨率机制。输入图像根据预设网格调整大小,分辨率范围为 336×336 到 2016×2016,同时保持 336×336 缩略图。调整大小后的图像将被分割成相同大小的不重叠图块。这些色块和缩略图分别编码,然后组合起来形成完整的图像表示形式。因此,MiniMax-VL-01 在多模态排行榜上取得了顶级性能,展示了其在复杂多模态任务中的优势。
      • datawhalechina/tiny-universe - Universe的微型宇宙,帮助大家深入理解大模型的工作原理。项目特色在于完全从零开始,不依赖任何现有框架,手动实现模型的核心组件,如Tokenizer、Embedding、Transformer等。它提供了详细的代码和教程,引导用户逐步构建自己的小型大模型,从而更好地理解大模型的内部机制。Tiny-Universe的构建过程包括数据准备、模型搭建、训练和推理等环节,让学习者能全面掌握大模型开发的关键步骤。通过这个项目,你可以深入了解Transformer架构、注意力机制、反向传播等核心概念,并能动手实践,提升大模型相关的编程能力。项目目标是让大模型不再神秘,让每个人都能理解并掌握其基本原理。
      • SocialAI-tianji/Tianji - tianji/Tianji,旨在构建更懂人情世故的大语言模型。它提供了全面的教程,包括提示词工程、检索增强生成(RAG)、智能体(Agent)以及大语言模型(LLM)的微调。项目特色在于专注于提升模型的情商,使其能更好地理解和处理人类社交互动。教程涵盖了从基础到进阶的各种技术,帮助开发者掌握如何有效地利用和定制大语言模型。通过学习这些内容,用户可以构建出更贴近人类思维模式的AI应用。项目内容丰富,适合希望深入了解和实践大语言模型相关技术的开发者。它不仅提供理论知识,也注重实践指导,帮助用户快速上手并取得成果。
      • JayZhang42/SLED
      • raga-ai-hub/RagaAI-Catalyst
      • llm-as-a-judge/Awesome-LLM-as-a-judge - LLM-as-a-judge,它专注于探索如何利用大型语言模型(LLM)作为评估者。该项目收集并整理了大量关于使用LLM进行自动评估的相关资源,包括论文、代码和数据集。其核心思想是利用LLM强大的理解和生成能力,模拟人类评判员对文本、代码等内容进行打分或给出反馈。项目涵盖了多种评估场景,如文本摘要、机器翻译、代码生成等,并关注不同评估方法,例如直接评分、成对比较等。项目还包括了对LLM评估能力的研究,例如评估偏差、鲁棒性等。Awesome-LLM-as-a-judge旨在为研究者和开发者提供一个全面的资源库,帮助他们更好地理解和应用LLM评估技术,推动相关领域的发展。它是一个持续更新的资源列表,方便用户查找和使用最新的研究成果。
      • OpenRLHF/OpenRLHF
      • xianshang33/llm-paper-daily - paper-daily,由xianshang33创建,主要功能是每日更新与大型语言模型(LLM)相关的论文。项目旨在帮助研究人员和从业者及时了解LLM领域的最新进展。项目特色在于其每日更新的频率,确保用户能获取最新的论文信息。用户可以通过订阅来接收更新通知,方便快捷。如果你觉得这个项目对你有帮助,可以给它点个赞。项目通过一个名为README.md的文件来展示其内容和信息。总的来说,这是一个专注于LLM论文更新的实用资源库。
      • anthropics/courses
      • richards199999/Thinking-Claude
      • NirDiamant/Controllable-RAG-Agent - RAG-Agent提供了一个用于复杂问答的高级检索增强生成(RAG)解决方案。其核心特色在于使用复杂的基于图的算法来处理问答任务,这与传统的RAG方法有所不同。该项目旨在提高RAG在处理复杂问题时的性能和可控性。它通过图结构来表示知识,并利用图算法进行信息检索,从而更有效地找到与问题相关的上下文。该项目强调了对RAG流程的精细控制,允许用户根据具体需求调整检索和生成过程。该方法可以更好地理解问题中的复杂关系,从而提供更准确和相关的答案。该项目是研究和应用RAG技术的一个有价值的资源,特别是在需要处理复杂知识结构的场景下。它为开发者提供了一个可定制和可扩展的RAG框架,以应对更具挑战性的问答任务。该项目代码和文档可能包含具体的实现细节和使用指南。
      • Alibaba-NLP/OmniSearch
      • BruceMacD/chatd
      • flashinfer-ai/flashinfer - ai团队维护,并持续更新和改进。
      • katanemo/archgw
      • modelcontextprotocol/servers
      • lean-dojo/LeanCopilot
      • ibm-granite/granite-code-models
      • sing1ee/deepseekCoder - Coder模型进行代码生成。其技术栈包括DeepSeek API、Sandpack代码沙箱以及基于Next.js和Tailwind的前端框架。用户可以通过克隆仓库、配置DeepSeek API密钥,并运行npm命令来本地运行此项目。该项目是一个个人项目,与DeepSeek官方无关。它利用DeepSeek API强大的代码生成能力,结合Sandpack提供的代码沙箱环境,为用户提供便捷的应用程序生成体验。用户只需提供一个提示,即可快速生成代码,并进行预览和测试。
      • Nutlope/llamacoder
      • stackblitz/bolt.new
      • RUCAIBox/HaluAgent
      • SomeOddCodeGuy/WilmerAI
      • camel-ai/agent-trust - trust,其代码对应论文“大型语言模型智能体能否模拟人类信任行为?”。该项目旨在研究大型语言模型(LLM)驱动的智能体是否能模拟人类在信任场景中的行为模式。核心工作是构建一个基于LLM的智能体框架,并设计实验来观察这些智能体在不同信任情境下的决策。项目提供了实验代码、数据和分析脚本,方便研究人员复现和扩展相关研究。通过分析智能体的行为,研究人员可以深入了解LLM在模拟人类社会行为方面的能力和局限性。该项目使用了Python编程语言,并可能依赖于特定的LLM库和框架。 实验结果有助于评估LLM在社会模拟和人机交互中的潜力,并为未来开发更可信赖的AI系统提供参考。 此外,项目还可能涉及到对不同LLM模型在信任模拟方面的性能比较。
      • assafelovic/gpt-newspaper
      • MCEVAL/McEval
      • snap-stanford/MLAgentBench - stanford/MLAgentBench。
      • arthur-ai/bench - ai/bench是一个用于评估大型语言模型(LLMs)的工具。它提供了一个框架,可以对LLMs在各种任务上的表现进行基准测试和评估,帮助用户了解不同模型的优劣。Bench的核心功能包括数据集管理、模型集成、评估指标计算和结果可视化。用户可以自定义数据集和评估指标,以满足特定的评估需求。该工具支持多种LLMs,并提供了一套标准化的评估流程,使得LLM的评估过程更加高效和可重复。Bench旨在帮助开发者和研究人员选择最适合其应用的LLM,并促进LLM技术的进步。它通过提供清晰的评估报告,帮助用户理解LLM的性能瓶颈,并指导模型改进。Bench还支持自动化评估流程,可以定期对LLM进行评估,以监控模型性能的变化。 总而言之,arthur-ai/bench是一个强大且灵活的LLM评估工具,能够帮助用户深入了解和优化LLM的性能。
      • princeton-nlp/LLMBar
      • allenai/CommonGen-Eval - Eval项目旨在评估大型语言模型(LLMs)在常识生成任务上的表现,特别是针对CommonGen数据集。该项目提供了一个名为CommonGen-Lite的评估工具,它简化了原始CommonGen数据集,使其更易于使用和评估。CommonGen-Lite包含一个更小的验证集和一个更快的评估脚本。该项目支持多种评估指标,包括BLEU、ROUGE和METEOR,并提供了一个基于BERTScore的评估指标。项目特色在于其轻量级和高效性,使得研究人员能够快速评估LLMs在常识生成方面的能力。CommonGen-Eval使用提示工程(prompt engineering)来引导LLMs生成符合常识的文本,并通过提供的评估指标来衡量生成文本的质量。项目还包含示例代码和预训练模型的使用方法,方便用户上手。总而言之,CommonGen-Eval提供了一个易于使用的框架,用于评估LLMs在常识生成任务中的表现,并促进了该领域的研究进展。
      • Libr-AI/do-not-answer - AI/do-not-answer是一个用于评估大型语言模型(LLMs)安全防护措施的数据集项目。该数据集旨在帮助研究人员和开发者测试LLMs在面对潜在有害或不当查询时的表现。它包含多种类型的提示,旨在诱导LLMs生成不安全、有害或违反道德规范的回复。该项目的核心目标是提高LLMs的安全性,避免其被滥用或产生不良影响。数据集的设计考虑了各种攻击场景和规避策略,以全面评估LLMs的安全防护能力。通过使用该数据集,开发者可以识别LLMs中的潜在漏洞并改进其安全机制。项目提供了详细的数据集结构和使用指南,方便用户进行评估和分析。该项目由Libr-AI团队开发,旨在促进LLM安全研究的进展。该数据集的发布有助于推动LLM安全领域的标准化评估和持续改进。
      • allenai/olmes
      • EQ-bench/EQ-Bench - Bench是一个评估大型语言模型(LLM)情商(EQ)的基准。它包含1674个精心设计的多项选择题,涵盖情绪识别、理解、管理和利用四个维度。该基准旨在弥合LLM在理性智能和情感智能之间的差距。EQ-Bench通过情境化的故事和问题来评估LLM对人类情感的理解和推理能力。基准测试包括一个用于评估LLM的框架和一个包含基准数据集的存储库。研究人员可以使用EQ-Bench来评估和比较不同LLM的情商水平,并推动LLM在情感智能方面的研究进展。该项目提供详细的数据集描述、评估指标和使用指南,方便研究人员使用。EQ-Bench的开发旨在促进更具同理心和更人性化的AI系统的发展。项目地址为:[https://github.com/EQ-bench/EQ-Bench](https://github.com/EQ-bench/EQ-Bench)。
      • ray-project/llmperf
      • athina-ai/athina-evals - evals是一个用于评估大型语言模型(LLM)生成响应的Python SDK。它允许开发者轻松地对LLM的输出进行自动化的质量评估。该项目提供了一系列预定义的评估指标,例如准确性、相关性和一致性。用户可以自定义评估指标以满足特定的需求。Athina-evals通过将LLM的输出与参考答案或预定义的规则进行比较来工作。它支持多种LLM,包括OpenAI、Anthropic和Cohere。该项目旨在帮助开发者构建更可靠和高质量的LLM应用。使用Athina-evals可以显著减少手动评估的工作量,并提高评估的一致性。它提供了一个灵活且可扩展的框架,用于评估各种LLM任务。项目目标是简化LLM评估流程,并促进LLM技术的进步。
      • prometheus-eval/prometheus-eval - eval是一个使用Prometheus和GPT4评估大型语言模型(LLM)响应的项目。它允许用户定义Prometheus查询来衡量LLM的性能,并使用GPT4来评估响应的质量。该项目的主要特色在于结合了Prometheus的监控能力和GPT4的自然语言理解能力,提供了一种自动化的LLM评估方法。其工作原理是首先通过Prometheus查询获取LLM相关的指标数据,然后将这些数据和LLM的响应一起输入到GPT4中进行评估。评估结果可以帮助用户了解LLM在不同场景下的表现,并进行优化。该项目可能包含用于配置Prometheus查询、调用GPT4 API以及分析评估结果的工具和脚本。通过这种方式,可以更客观、更全面地评估LLM的性能和质量。
      • XiongjieDai/GPU-Benchmarks-on-LLM-Inference - Benchmarks-on-LLM-Inference旨在对大型语言模型(LLM)的推理性能进行GPU基准测试。它比较了NVIDIA GPU和Apple Silicon在LLM推理上的表现。该项目可能包含用于测量延迟、吞吐量等指标的脚本和工具。 通过详细的基准测试,帮助用户了解不同GPU架构在LLM推理任务中的优劣。项目可能涵盖不同模型大小和推理配置的性能评估。它可以帮助研究人员和开发人员选择合适的硬件平台来部署LLM。项目可能包含关于如何设置环境、运行基准测试和解释结果的说明。该项目关注于实际性能数据,以便为硬件选择提供依据。具体测试模型、GPU型号和评估指标需要在项目仓库中查看。
      • MoonshotAI/Kimi-k1.5 - k1.5是由Moonshot AI开发的具有200万字上下文处理能力的语言模型,旨在实现高效的知识检索和对话。它基于Transformer架构,并进行了多项优化,包括FlashAttention-2加速、DeepSeek-FastGen推理加速等,以提高效率和降低成本。Kimi-k1.5擅长处理长文档、多轮对话和复杂知识推理,支持JSON格式输出,方便与其他应用集成。该项目提供API服务,方便开发者快速接入,并提供丰富的示例代码和文档,帮助用户理解和使用。Kimi-k1.5在处理长文本方面表现出色,能够准确提取关键信息并进行有效推理,适用于需要处理大量信息的场景,例如金融分析、法律咨询等。项目注重模型安全和隐私保护,采取多种措施确保用户数据的安全。开发者可以通过API密钥进行身份验证,并根据需要选择不同的服务套餐。Kimi-k1.5的目标是成为企业和个人用户处理长文本和复杂知识的首选工具。
      • wgryc/phasellm
      • zhenbench/z-bench - Bench是由真格基金开发的1.0版本,是一个面向非技术用户的中文大语言模型测试集。该项目旨在提供一个易于使用的工具,帮助评估和比较不同大语言模型在中文环境下的性能。Z-Bench的核心在于其精心设计的prompt数据集,这些prompt适用于各种任务,并能有效衡量模型的理解、推理和生成能力。开发者希望通过Z-Bench,即使是没有专业背景的用户也能轻松测试和评估大语言模型。Z-Bench的特色在于其用户友好性和对中文语言的专注,它为中文大语言模型的研究和应用提供了一个宝贵的资源。
      • RUCAIBox/Slow_Thinking_with_LLMs - of-Thought)和自我反思(Self-Reflection),并分析了这些方法如何帮助LLMs克服其固有的局限性。该项目旨在为研究人员和从业者提供关于如何有效利用LLMs进行更高级任务的实用指南和技术见解。它还强调了在追求更强大的人工智能时,理解和利用LLMs的推理过程的重要性。通过这些研究,项目希望推动LLMs在更广泛和更具挑战性的应用场景中的发展。项目内容涵盖了理论分析、实验结果以及相关代码,方便用户深入了解和复现。
      • open-compass/GPassK
      • formulahendry/awesome-gpt - GPT项目致力于帮助开发者和研究者更好地理解和利用GPT技术,促进相关领域的创新和发展。通过这个资源列表,用户可以快速了解GPT生态系统的最新进展,并找到适合自己需求的工具和资源。这个项目将持续更新,以保持其信息的时效性和完整性,为GPT社区提供有价值的参考。
      • QiYao-Wang/AutoPatent
      • EleutherAI/pythia
      • tmylla/REEF
      • underlines/awesome-ml
      • atfortes/Awesome-LLM-Reasoning - LLM-Reasoning是一个关于大型语言模型(LLM)推理的资源集合,涵盖论文和相关资料。项目特色在于整理了多种推理方法,例如思维链(Chain-of-Thought)、OpenAI的o1模型以及DeepSeek-R1模型。它旨在帮助研究者和开发者了解LLM如何进行推理,并提供相关学习资源。该项目收录了重要的研究论文,方便用户快速查找和学习LLM推理领域的最新进展。如果你对提升LLM的推理能力感兴趣,这个项目将是一个非常有价值的参考资料库。项目内容包括各种推理技术的原理、实现方法以及应用案例,帮助你深入理解LLM的推理机制。
      • bodo-run/yek
      • infinigence/InfiniWebSearch - 3B-Instruct 模型构建的演示应用,它集成了网络搜索工具,旨在提升模型的问答能力。核心特色在于利用网络搜索来增强模型的信息获取,从而提供更准确、更全面的答案。该项目的工作原理是,当用户提出问题时,模型会先尝试理解问题,然后利用网络搜索工具检索相关信息,最后将检索到的信息与模型自身的知识相结合,生成最终的回答。这使得模型能够回答那些需要实时信息或超出其训练数据范围的问题。项目代码结构清晰,易于理解和使用,适合对大型语言模型和网络搜索技术感兴趣的开发者学习和参考。该项目展示了如何通过结合外部工具来扩展大型语言模型的能力,为构建更强大的智能应用提供了思路。
      • chen700564/RGB - Augmented Generation》的实现,主要用于评估大型语言模型在检索增强生成任务中的性能。项目提供了用于评估的数据集,包括英文和中文版本,并细分为原始数据、精炼数据、信息整合数据和反事实鲁棒性数据。精炼数据通过移除错误文档、添加正确文档和修正答案来提高数据质量。项目支持使用ChatGPT及其他模型进行评估,通过设置温度、噪声率和文档数量等参数来控制评估过程。评估指标包括准确率、错误检测率、拒绝率和错误纠正率。该项目使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可协议,仅限非商业用途。
      • rag-web-ui/rag-web-ui
      • webpilot-ai/Webpilot
      • tmlr-group/NoisyRationales
      • DIRECT-BIT/METEOR
      • SinclairCoder/Instruction-Tuning-Papers - Tuning-Papers项目是一个指令微调(Instruction-tuning)相关的论文阅读列表。该项目关注自然指令(Natural-Instruction,ACL 2022)、FLAN(ICLR 2022)和T0(ICLR 2022)等开创性工作,这些工作标志着指令微调的兴起。该项目旨在整理和分享指令微调领域的关键论文,方便研究者快速了解该领域的发展脉络和重要成果。指令微调是一种通过在大量指令数据上微调预训练语言模型,使其更好地理解和执行人类指令的技术。通过阅读该项目中的论文列表,可以深入了解指令微调的原理、方法和应用。该项目为研究者提供了一个有价值的资源,帮助他们跟踪指令微调领域的最新进展。
      • zhzihao/QPruningKV - Precision Trade-off in KV Cache Compression”,主要研究KV缓存压缩中token数量和精度之间的最佳权衡。项目提出了一种名为QPruning的创新方法,通过动态剪枝和量化KV缓存来减少内存占用,同时尽量保持模型性能。QPruning方法的核心思想是,在不显著损失模型性能的前提下,允许使用更多的token但降低每个token的精度。该项目提供了详细的实验结果,证明了QPruning在多种模型和数据集上的有效性,表明其能够在内存受限的环境下提升大语言模型的推理效率。具体而言,QPruning通过重要性评分来动态剪枝不重要的KV值,并对剩余的KV值进行量化,从而实现高效的压缩。项目代码和相关资源均已开源,方便研究人员和开发者复现和使用。该研究为大模型部署在资源有限的设备上提供了新的思路,并有望推动相关领域的进一步发展。
      • HuangOwen/Awesome-LLM-Compression - LLM-Compression项目是一个收集大型语言模型(LLM)压缩相关研究论文和工具的资源库。它旨在帮助研究人员和开发者快速找到并了解LLM压缩领域的最新进展。项目涵盖了各种压缩技术,包括量化、剪枝、知识蒸馏和低秩分解等。该项目整理了相关论文,并可能提供相应的代码实现或工具链接,方便用户进行实验和应用。其特色在于全面性和及时性,力求跟踪LLM压缩领域的最新动态。通过该项目,用户可以系统地学习LLM压缩的原理、方法和应用,并找到合适的工具来优化自己的模型。该项目对于希望减小LLM模型大小、降低计算成本或提高推理速度的从业者来说是一个非常有价值的资源。该项目可能包含一些开源工具或链接,方便用户直接上手实践。
      • mendableai/llmstxt-generator - generator,它是一个使用大型语言模型(LLM)来生成文本的工具。该工具的核心特色是能够通过简单的提示词,快速生成高质量、多样化的文本内容。它基于transformers库和PyTorch,允许用户自定义模型和参数,以满足不同的文本生成需求。项目提供了易于使用的API和示例代码,方便开发者快速上手。其工作原理是利用预训练的LLM模型,根据用户输入的提示词,生成连贯且具有上下文的文本。此外,该项目还支持多种文本生成策略,例如贪婪搜索、束搜索等,以控制生成文本的多样性和质量。用户可以根据自己的需求选择合适的生成策略。总而言之,这个项目旨在简化LLM文本生成过程,让开发者能够更轻松地利用LLM的力量。
      • horseee/Awesome-Efficient-LLM - Efficient-LLM 是一个精心整理的关于高效大型语言模型(LLM)的资源列表。该项目旨在收集和分享各种优化LLM效率的方法和工具,包括模型压缩、加速推理、降低计算成本等。它涵盖了模型剪枝、量化、知识蒸馏等关键技术,并提供了相关论文、代码库和工具的链接。该项目关注于如何在保持LLM性能的同时,使其更易于部署和应用,特别是在资源受限的环境下。Awesome-Efficient-LLM 为研究人员和开发者提供了一个全面的资源导航,帮助他们快速了解和应用最新的LLM效率优化技术。该项目持续更新,力求涵盖最前沿的研究成果和实用工具。
      • n8n-io/self-hosted-ai-starter-kit
      • huggingface/agents-course
      • google/adk-python - python是一个开源的、代码优先的Python工具包,旨在帮助开发者构建、评估和部署复杂的AI Agent。它强调灵活性和控制性,允许用户以代码为中心的方式定义Agent的行为。该工具包提供了构建AI Agent所需的各种组件和工具,例如用于规划、推理和决策的模块。开发者可以使用它来创建能够执行复杂任务并与环境交互的智能体。adk-python的目标是简化AI Agent的开发流程,并提供一个可扩展的平台,以便开发者可以根据自己的需求定制Agent。它支持各种AI技术,并提供评估工具来衡量Agent的性能。通过adk-python,开发者可以更有效地构建和部署具有高级功能的AI Agent。
      • swe-bench/SWE-bench - bench是一个用于评估大型语言模型(LLMs)在解决真实世界GitHub问题能力的项目,它在ICLR 2024上发表。该基准测试包含从GitHub收集的真实软件错误修复问题,旨在衡量LLMs理解、推理和生成正确代码修复的能力。SWE-bench强调现实场景,避免了人为构造的简化问题。项目特色在于其问题的真实性和复杂性,挑战LLMs处理实际软件开发任务。SWE-bench提供了一个标准化的评估平台,可以比较不同LLMs在软件修复任务上的表现。研究人员可以使用SWE-bench来推动LLMs在软件工程领域的应用,并识别现有模型的局限性。该项目包含一个数据集,以及用于评估模型性能的工具和脚本。SWE-bench的目的是促进LLMs在自动化软件修复方面的研究和发展。它专注于评估模型生成正确补丁的能力,并提供详细的评估指标。使用SWE-bench,研究人员可以更深入地了解LLMs在实际软件开发环境中的表现。该项目为LLMs在软件工程领域的应用提供了一个有价值的资源。
      • microsoft/rStar
      • GraphPKU/number_cookbook
      • Storia-AI/sage - AI/sage 是一个让你在两分钟内与任何代码库对话的工具。它支持完全本地运行或通过第三方 API 使用。Sage 的核心功能是让你能够快速理解和查询代码库,无需深入研究代码细节。它通过分析代码库的结构和内容,构建一个可交互的知识图谱,然后利用自然语言处理技术来回答你的问题。你可以使用自然语言提问,例如“这个函数的作用是什么?”或者“这个类是如何实现的?”。Sage 支持多种编程语言,并且可以集成到你现有的开发流程中。它旨在提高开发效率,帮助你更快地理解和使用代码库。无论你是新加入团队还是需要快速了解一个项目,Sage 都能提供极大的帮助。
      • alibaba/spring-ai-alibaba
      • Stephen-SMJ/LAMBDA
      • gptscript-ai/gptscript
      • zou-group/avatar
      • GAIR-NLP/DeepResearcher
      • iluxu/llmbasedos
      • CapitalCode2020/InfiniRetri2
      • QwenLM/ParScale
      • modelcontextprotocol/python-sdk
      • lucidrains/self-rewarding-lm-pytorch
      • e-p-armstrong/augmentoolkit
      • policy-gradient/GRPO-Zero
      • Woolverine94/biniou
      • modelcontextprotocol/typescript-sdk
      • datawhalechina/handy-ollama - ollama项目旨在帮助用户在CPU上轻松部署和使用大语言模型。该项目提供了一份详细的教程,指导用户如何利用Ollama工具,即使没有GPU也能体验大模型的魅力。项目特色在于其易用性和对CPU的优化,降低了大模型使用的门槛。用户可以通过在线阅读文档学习具体步骤:https://datawhalechina.github.io/handy-ollama/。项目内容涵盖Ollama的安装、配置以及模型下载和运行等关键环节。通过学习该项目,用户可以掌握在本地CPU环境下部署和运行大模型的基本技能。该项目是Datawhale China开源的,旨在推广大模型技术,让更多人能够参与到人工智能的学习和实践中。
      • deepseek-ai/eplb - AI的eplb项目是一个专家并行负载均衡器,旨在提升大模型推理效率。它通过动态调整专家模型的负载分配,解决专家并行推理中负载不均衡的问题。eplb的核心思想是根据专家的实际负载情况,实时调整请求的路由策略,避免某些专家过载而其他专家空闲的情况。项目支持多种负载均衡策略,包括基于token的路由、基于延迟的路由等。eplb可以与现有的专家并行框架集成,例如Mixture-of-Experts (MoE) 模型。其优势在于能够显著提高吞吐量,降低延迟,并提升资源利用率。该项目提供易于使用的API和配置选项,方便用户根据实际需求进行定制。eplb特别适用于需要高吞吐量和低延迟的大规模模型推理场景。通过优化专家之间的负载分布,eplb能够充分发挥硬件资源的潜力,实现更高效的推理服务。
      • NVlabs/COAT
      • irlab-sdu/fuzi.mingcha
      • upstash/context7
      • sonnylazuardi/cursor-talk-to-figma-mcp
      • codium-ai/alphacodium
      • NovaSky-AI/SkyThought - T1。该项目利用低成本GPU集群,如4张RTX 3090,实现高效的模型训练。Sky-T1基于Transformer架构,专注于长文本理解和生成,支持高达100万token的上下文长度。项目包含详细的训练脚本、数据预处理流程和模型评估方法。SkyThought强调可复现性和低成本,降低了AI模型训练的门槛。用户可以根据提供的指南,定制自己的数据集并训练出满足特定需求的模型。项目目标是 democratize 大模型训练,让更多开发者和研究者能够参与到前沿AI技术的发展中。Sky-T1模型适用于多种任务,包括长文档摘要、代码生成和创意写作等。
      • shyamsaktawat/OpenAlpha_Evolve
      • ganler/code-r1 - R1项目旨在复现并改进DeepMind的R1模型,使其在代码生成任务中表现更佳。该项目专注于通过可靠的奖励机制来提升代码生成模型的性能,避免奖励信号中的噪声干扰。核心思想是利用更精准的测试用例和代码验证方法,为模型提供更可靠的反馈,从而引导模型生成更正确的代码。项目可能包含数据集处理、模型训练、奖励函数设计和评估指标等模块。通过改进奖励机制,Code-R1有望解决R1模型在代码生成中遇到的一些问题,例如泛化能力不足和生成错误代码等。该项目可能使用了强化学习或模仿学习等技术来训练模型,并利用代码执行结果或静态分析等方法来评估代码质量。具体实现细节和实验结果可以在项目的代码仓库中找到。总体目标是构建一个更强大、更可靠的代码生成模型。
      • qixucen/atom
      • RyanLiu112/compute-optimal-tts
      • google/generative-ai-docs
      • Bklieger/infinite-bookshelf
      • microsoft/RD-Agent - Agent是微软开源的研发自动化工具,旨在提升工业生产力,尤其是在AI时代,数据和模型是研发的核心。该项目致力于自动化高价值的通用研发流程,通过AI驱动数据驱动的AI。RD-Agent的核心理念是利用AI技术来自动化研发过程中的数据处理和模型构建,从而提高研发效率和质量。它通过开放源代码的方式,让更多开发者能够参与到研发自动化领域,共同推动AI技术在研发领域的应用。RD-Agent专注于自动化数据和模型相关的研发任务,目标是让AI能够自主地进行数据分析、模型训练和优化,最终实现AI驱动的研发流程。该项目为AI驱动的数据驱动AI提供了一个平台,有望显著提升研发效率和质量。
      • google-gemini/live-api-web-console
      • TIGER-AI-Lab/MAmmoTH
      • kanishkg/cognitive-behaviors - Improving Reasoners》,探索通过认知行为训练提升AI推理能力的自我改进方法(STaRs框架)。复现DeepSeek R1模型在数学推理任务(如Countdown)的表现。 2. 技术框架 基于TinyZero框架构建,使用vLLM、FlashAttention等工具,依赖PyTorch和Ray。支持多GPU训练(需A100/H100)。 3. 核心流程 • 数据生成:利用Claude-3.5生成带思维链(CoT)的行为数据集,含5种策略变体及负面样本 • 训练方法:两阶段流程(监督微调SFT + 强化学习PPO) • 评估体系:使用GPT-4o-mini进行行为评估,支持预训练数据分析与标注 4. 开源资源 提供完整代码、数据集处理脚本(如generate_cot_datasets)和训练脚本(SFT/PPO),遵循Apache-2.0许可。 项目聚焦通过行为数据工程和混合训练策略提升模型推理能力,相关成果发表于2025年arXiv论文。
      • linshenkx/prompt-optimizer - optimizer的GitHub项目,主要特色是帮助用户编写高质量的提示词。它通过优化提示词来提升AI模型的表现,工作原理是分析用户输入的提示词,并根据预设规则或算法进行改进,使其更清晰、具体、有效。项目提供了一系列工具和函数,可以自动化这一过程,节省用户的时间和精力。它支持多种AI模型和应用场景,如自然语言处理、文本生成等。用户可以通过简单的API调用,快速集成到自己的项目中。项目还提供了详细的文档和示例,方便用户学习和使用。它是一个开源项目,用户可以根据自己的需求进行定制和扩展。总之,这是一个非常实用的工具,可以帮助用户更好地利用AI技术。
      • google-gemini/gemini-cli
      • datawhalechina/happy-llm
      • DataTalksClub/llm-zoomcamp
      • charent/ChatLM-mini-Chinese - mini-Chinese项目开源了一个中文对话小模型ChatLM-Chinese-0.2B。该项目提供了从数据到模型的完整流程代码,包括数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调和RLHF优化。项目特色在于其透明度,用户可以复现整个模型的训练过程。该模型支持下游任务的SFT微调,并提供了一个三元组信息抽取的微调示例,方便用户快速上手。总而言之,这是一个低资源中文对话模型,并提供了详细的训练流程和微调示例,方便研究者和开发者使用。
      • clusterzx/paperless-ai - ai是一个自动化文档分析工具,专为Paperless-ngx设计。它利用OpenAI API、Ollama、Deepseek-r1、Azure以及所有兼容OpenAI API的服务,实现文档的自动分析和标签添加。该项目旨在简化Paperless-ngx用户的文档管理流程,通过人工智能技术自动提取文档信息,并根据内容进行分类和标记。用户可以根据自身需求选择不同的AI模型和API服务。该工具能够显著提升文档处理效率,减少手动操作,并提高文档检索的准确性。它通过分析文档内容,自动识别关键信息,并将其转化为标签,方便用户快速查找和管理文档。该项目支持多种AI服务,具有良好的灵活性和可扩展性。
      • princeton-nlp/LESS
      • pytorch/ao
      • anthropics/claude-code
      • github/copilot.vim
      • dtyq/magic
      • Xxiii8322766509/NagaAgent
      • JudgmentLabs/judgeval
      • slavakurilyak/awesome-ai-agents
      • BAI-LAB/MemoryOS
      • SproutNan/AI-Safety_Benchmark - Safety_Benchmark 项目提供了一个标准化框架,用于评估 AI 模型抵御越狱攻击的安全性。它专注于测试模型如何通过精心设计的提示抵御操纵。该基准测试包含旨在触发不安全输出的对抗性示例数据集。它使用引导式实验来衡量模型在受控场景下的稳健性。主要功能包括用于检测有害响应和评估缓解效果的指标。其工作原理涉及模拟现实世界的攻击向量来对安全机制进行压力测试。它支持各种 AI 模型和安全框架进行比较。该项目强调模型漏洞评估的透明度。研究人员可以使用它来识别现有安全协议中的弱点。它包含用于系统地生成和分析越狱提示的工具。该基准测试旨在通过​​突出显示关键故障点来帮助提高 AI 安全性。它还提供了用于复制实验和解释结果的文档。目标是通过严格、可重复的测试来推进安全的 AI 开发。
      • changyeyu/LLM-RL-Visualized - 解码器结构,或用动态流程图演示强化学习中的奖励机制与策略更新过程。 项目采用Python实现可视化生成,支持通过Jupyter Notebook交互式查看,部分图表包含动态参数调整功能,帮助用户直观理解算法运行逻辑。源码结构清晰,包含完整注释和教学案例,适合算法学习者从零构建可视化模型。特别针对LLM的预训练与微调过程、RL的环境交互机制等易混淆知识点,设计了对比式图示进行解析。项目同时提供算法原理与代码实现的对应关系说明,便于开发者将理论知识转化为实践应用。作为学习工具,它既可作为算法入门的视觉化指南,也适合作为研究人员和工程师的算法设计参考,尤其适合需要快速掌握LLM与RL核心思想的技术从业者。
      • wisupai/e2m
      • murtaza-nasir/maestro
      • it-ebooks-0/gpt-translated-pdf-zh - ebooks-0的中文翻译版本,旨在将原英文IT书籍转换为高质量的中文PDF格式,方便中文读者学习。项目特色在于使用GPT模型进行翻译,力求达到自然流畅的阅读体验。工作原理是首先从it-ebooks-0获取英文PDF书籍,然后利用GPT模型将其翻译成中文,最后生成中文PDF文件。项目维护者希望通过这种方式,降低中文读者获取优质IT知识的门槛,促进技术交流和学习。目前项目可能还处于初期阶段,翻译质量和书籍覆盖范围有待进一步完善。欢迎感兴趣的开发者参与贡献,共同改进翻译质量和增加书籍数量。项目目标是打造一个全面、高质量的中文IT书籍资源库,为中文技术社区提供便利。
      • HKUDS/RAG-Anything - Anything”,是一个集成化的检索增强生成(RAG)系统,旨在为用户打造一个可处理多种文档格式、支持自定义模型和灵活部署的全栈解决方案。其核心特色包括:1)支持PDF、Word、Markdown、CSV等多种文档格式的自动解析与内容提取,通过模块化设计实现不同数据源的兼容性;2)采用高效的向量化检索机制(如FAISS或Milvus)结合LLM生成能力,通过双阶段检索(召回+排序)提升答案准确性;3)提供轻量化部署方案,用户可选择本地部署或云端服务,支持自定义模型权重加载与参数调优;4)内置交互式界面,支持用户通过自然语言提问并实时获取结构化结果。系统工作原理分为三个阶段:首先通过文档解析器将输入文件转换为可检索的文本片段,随后利用向量数据库构建语义索引,最终通过LLM模型基于检索结果生成最终答案。项目特别强调可扩展性,开发者可通过插件机制添加新文档解析器或检索算法,同时提供详细的API接口文档以支持二次开发。目前项目已实现基础功能的完整闭环,适用于企业知识库构建、学术研究支持等场景。
      • yichuan-w/LEANN
      • DEEP-PolyU/Awesome-GraphRAG - GraphRAG是一个专注于图基检索增强生成(GraphRAG)技术的资源聚合项目,旨在为研究人员和开发者提供一站式学习与实践资源。该项目通过系统性整理与图结构相关的学术论文、技术综述、基准测试工具以及开源项目,帮助用户全面了解图神经网络与检索增强生成技术的结合应用。项目特色在于其分类清晰的资源体系,涵盖知识图谱构建、图神经网络优化、多跳推理框架等核心方向,并针对不同应用场景(如医疗、金融、社交网络)提供具体案例。其工作原理基于社区协作模式,通过持续更新与验证,确保资源的时效性与准确性。例如,项目中包含基于图结构的问答系统论文、知识图谱与检索模型结合的开源工具包,以及评估图RAG效果的基准数据集。同时,项目强调技术落地价值,提供从理论研究到实际部署的完整技术路径,适合不同层次的开发者快速入门与深入研究。通过整合图结构数据的高效检索与生成能力,该项目为复杂场景下的信息处理提供了创新解决方案。
      • run-llama/notebookllama
      • 1517005260/graph-rag-agent - llm-graph-builder工具实现知识图谱的构建与高效搜索,结合DeepSearch技术强化私域数据下的RAG推理能力,并开发了专门针对GraphRAG效果的评估框架。项目通过融合多种图谱构建工具,提升知识关联的准确性与完整性,同时利用DeepSearch技术优化私有领域内的信息检索与推理流程,使系统能更精准地处理复杂查询。此外,项目特别设计了自定义评估体系,用于量化分析GraphRAG在不同场景下的表现,便于持续优化模型效果。该项目适合需要构建领域知识图谱并实现精准检索与推理的应用场景,尤其适用于需要结合私有数据进行RAG推理的开发者与研究者。
      • supavec/supavec
      • mendableai/fireplexity
      • watercrawl/watercrawl
      • inclusionAI/AReaL
      • haris-musa/excel-mcp-server
      • metatool-ai/metamcp
      • jihe520/MathModelAgent
      • coleam00/Archon
      • SWE-agent/mini-swe-agent - agent/mini-swe-agent是一个轻量级AI代理项目,仅用100行代码即可实现自动解决GitHub问题或协助命令行操作的功能。该项目以极简设计为核心,完全避免了传统AI代理所需的复杂配置和巨型代码库,却能在SWE-bench基准测试中取得68%的验证成绩。其工作原理基于强化学习框架,通过自主推理直接分析GitHub问题描述和代码上下文,生成修复代码或命令行操作建议。项目特别强调对开发者日常任务的实用性,例如自动定位代码错误、生成补丁或执行终端指令,同时保持代码量极小(仅100行),适合需要快速部署或资源受限的场景。相比传统大型AI代理框架,mini-swe-agent无需依赖庞大配置文件或分布式架构,所有核心逻辑集成在单个文件中,显著降低了使用门槛。尽管功能相对基础,但其在GitHub问题解决场景中表现出色,尤其适合处理结构清晰、需求明确的编程任务。项目开发者通过精简模型设计和高效推理机制,实现了在有限代码量下仍能完成复杂任务的突破,为AI代理的轻量化发展提供了参考范例。
      • robertpiosik/gemini-coder
      • microsoft/prose - 输出示例来自动生成程序。该项目提供了一系列技术框架,让开发者能够构建基于示例的程序合成应用。此仓库包含了SDK的示例代码和数据,方便用户学习和使用。Prose的核心思想是通过分析用户提供的少量示例,推断出用户期望的程序逻辑,并自动生成相应的代码。它简化了编程过程,尤其是在数据转换、文本处理等领域。该SDK可以应用于各种场景,例如数据提取、数据清洗、自动化脚本生成等。通过学习和使用这些示例,开发者可以快速掌握Prose的使用方法,并将其应用到自己的项目中。总之,Prose提供了一种高效便捷的程序生成方式,降低了编程门槛。
      • SWE-bench/SWE-smith - smith是一个用于扩展软件工程代理(SWE-agents)训练和评估数据的工具项目,旨在通过合成数据增强代码生成和修复能力。该项目基于大型语言模型(LLM)技术,通过自动生成高质量的测试用例和代码片段来扩展现有数据集,从而提升模型在复杂场景下的泛化能力。其核心特色在于提供了一套自动化的数据生成流程,能够模拟真实软件开发中的各种问题,包括功能实现、错误修复和代码优化等任务。SWE-smith的工作原理是通过分析已有的代码和问题描述,利用LLM生成对应的解决方案,并通过验证机制确保生成代码的正确性和有效性。此外,该项目还支持多语言环境,适用于Python、Java等主流编程语言,为不同技术栈的开发者提供统一的数据生成框架。SWE-smith的合成数据可作为训练数据或评估基准,帮助研究者更全面地测试SWE-agents的性能。项目还包含详细的使用文档和示例,方便用户快速上手。通过SWE-smith,开发者可以高效构建大规模数据集,从而推动软件工程自动化领域的研究进展。该项目特别适合需要大量训练数据的场景,如代码生成、缺陷检测和自动化测试等,同时为评估不同模型在实际应用中的表现提供了标准化的数据支持。
      • huangd1999/AgentCoder
      • sapientinc/HRM - 25%的推理效率,同时保持了较高的准确率。此外,项目文档详细说明了分层推理的工作原理,包括层级间的数据传递机制、梯度反向传播优化策略及计算资源动态调度算法。开发者还提供了可视化工具,可直观展示各层级的推理过程与资源分配情况。该项目适用于需要高效推理能力的AI应用场景,如智能客服、医学诊断、自动驾驶等,同时为研究者提供了可扩展的框架,支持自定义层级结构与推理规则。
      • LeapLabTHU/Absolute-Zero-Reasoner - Zero-Reasoner"的开源项目,提出了一种无需外部训练数据的自增强推理方法。通过PROPOSE(生成任务)和SOLVE(解决任务)的自循环训练过程,结合Python执行验证和奖励机制,显著提升了模型在代码和数学推理任务上的性能。项目支持多种模型规模(3B/7B/14B),提供完整的环境配置、训练脚本、评估工具和预训练模型。主要特点包括:零数据训练、支持Sandbox-Fusion执行器、多基准测试结果优异,并包含详细的使用指南和安全警告。
      • XiaomiMiMo/MiMo
      • rasbt/reasoning-from-scratch
      • openclaw/openclaw - **即时问答**:直接给出答案,支持 Markdown 与代码高亮。 - **命令执行**:将用户的 Shell 命令包装为 AI 指令,例如 `openclaw run pip install numpy` 会先检查网络,再返回结果与错误信息。 - **离线模式**:可下载并本地部署所需模型(如 GPT‑3.5-turbo),完全脱离互联网,适用于受限网环境或隐私敏感场景。 项目特色在于“**平台无关、语言友好**”。所有核心模块用纯 Python 编写,可直接交叉编译至多平台;同时它提供了 **插件体系**——用户可通过 `openclaw plugin install <name>` 安装第三方扩展(如翻译器、代码生成器),让助手更贴合个人工作流。 实现细节: 1. 读取配置文件后,异步建立与 OpenAI 的 HTTPS 会话;若启用离线模式,则通过 `torch` 或 `t5` 等库加载本地权重并直接推理。 2. 命令行解析采用 `argparse` 与自定义子命令集合;每条指令在执行前会先做合法性校验(如 API key 是否为空)。 3. 输出结果统一通过 Rich 库渲染,使终端输出更清晰、支持颜色与表格。 项目使用场景示例: - 在日常工作中直接 `openclaw ask "写一个 python 的装饰器"` 得到完整代码; - 需要在服务器上执行批量任务时,可用 `openclaw run "bash deploy.sh"`,AI 会先检查脚本的语法,再返回是否安全。 综上所述,openclaw 将 **“命令行 + AI 助手”** 的概念落地到任何系统;其跨平台、可配置且支持离线部署,使得在多样环境下都能轻松获得智能交互体验,同时插件与异步架构为未来扩展留足了空间。
      • ComposioHQ/awesome-claude-skills - skills 是一个专门为 Claude AI(OpenAI 的大语言模型)用户提供的、经过精心挑选与整理的技能列表。README 首先介绍了该项目旨在帮助开发者快速找到可直接使用或轻度改造的“Claude Skill”——这些技能本质是预设好的 prompt 与函数集合,能够让 Claude 在特定任务(如文本摘要、代码生成、对话管理等)中更高效、更精确。随后,文档列出了项目主要特色:① 以表格方式展示每项技能的名称、简短描述与适用场景;② 为每条记录提供了链接至 GitHub 仓库或外部资源(如官方 Skill 站点、社区贡献仓等);③ 明确标注了是否为公开版本,或者需要额外凭证才能使用。项目进一步说明工作原理:技能本身是一段 JSON 或 YAML 配置文件,其中定义了输入变量、输出格式以及若干内嵌的“tool calls”,这些调用会被 Claude 直接识别并执行,从而把复杂逻辑拆分为可复用模块;这使得开发者在编写 prompt 时可以“插拔式”组合,而非从零开始。随后,README 提供了使用方法:① 在 Claude Web 界面或 CLI 里选择 “Custom Skill”,上传对应 JSON 或 YAML 文件并启用;② 若是自建技能,则需要先行 `git clone` 项目再根据 README 的 “Contribution” 部分提交 PR。文档最后列出贡献与许可信息:本项目遵循 MIT 协议,鼓励任何人自由使用、修改与再发布,只要在改动后保留原作者署名。通过此项目,用户可一站式获取全域 Claude 技能资源,并以统一格式快速集成至自己的 AI 工作流中,从而大幅提升开发效率和技能复用率。
      • VoltAgent/awesome-openclaw-skills - openclaw-skills 是一个面向 OpenClaw 社区的开源技能集合。最初它是 Clawdbot,随后改名为 Moltbot,再度改版成现在的 Awesome‑OpenClaw‑Skills,它把各种机器人能力拆解成可复用的“Skill”,并统一给出简洁 API 让开发者像调用函数一样添加新功能。核心特性包括:① 模块化设计——每个 Skill 都是独立、轻量的 Python 包;② 与 OpenClaw 核心无缝合,直接读取传感器数据并写回控制指令;③ 兼容多平台——可在 Windows/Linux/Jetson 等上编译运行。工作原理:开发者先通过 `pip install awesome-openclaw-skills` 安装库,然后用 `import openclaw_skills as oc` 引入;接着调用如 `oc.navigate_to(x, y)`、`oc.pick_object('red')` 等函数,OpenClaw 底层会把命令转译成低阶驱动。项目还提供完整单元测试与示例脚本,让新人可以快速跑起 demo 并直接参予贡献。许可证采用 MIT;作者列表在 README 中列出,并欢迎 PR 与 issue 讨论。
      • OthmanAdi/planning-with-files - with-files项目以 “文件为中心” 的思路,提供了一套完整的持久化 Markdown 规划工具。核心目标是让团队在日常工作中,通过最直观、最易用的文本编辑器来完成任务管理、进度跟踪以及决策记录,而不必依赖复杂的数据库或专业软件。项目采用了类似 Manus 的“文件为状态”模式:每一次对规划文档的修改,都会在本地生成对应的 JSON 状态快照,并自动写入同一目录下的 `state.json` 文件中,从而实现真正意义上的持久化。 1. **工作原理** - **文件层级结构**:** 规划以 Markdown 语法为主干,所有子任务、里程碑等都被拆分成独立 `.md` 子文件。每个子文件会在目录树中对应一条 “父级” 的引用链接,形成清晰的树状视图。 - **状态快照**:** 当你打开主文档 `README.md` 并进行编辑时,项目内部会自动读取并解析所有 `.md` 子文件,将它们的内容、修改时间以及自定义属性(如 `status: done`)写入 `state.json`。该 JSON 文件可被任何工具读取或导出为 CSV/Excel 等格式,实现跨平台共享与同步。 - **工作流**:在完成一次迭代后,只需保存文档,所有子文件的更新会立即反映到状态快照中;若要回溯历史,则直接通过 `git log` 或本地时间戳即可定位。 2. **项目特色与功能点** - 支持 **双向同步**:Markdown 文档编辑 → state.json 更新;state.json 变更(如手动修改)→ Markdown 自动更新。 - **易读写入**:所有文件均为纯文本,任何常用的代码编辑器或 IDE 均可直接打开,无需额外插件。 - **透明的工作日志**:每次改动会在 `state.json` 的 “history” 节点记录时间戳、作者以及差异内容;通过命令行工具可快速生成“最近十条更新”的摘要,便于会议回顾。 - **适用于大型并购案例**(如 $2B 并购):在并购过程中往往需要追踪项目交接点与里程碑。该项目把每一个 “里程碑” 以子文件的方式保存,并通过 `state.json` 自动生成进度表格,团队可直接将其嵌入到交易报告中,省却手工编制 PPT 的时间。 3. **使用示例** - 克隆仓库:`git clone https://github.com/OthmanAdi/planning-with-files.git`。 - 在项目根目录下创建 `tasks/` 文件夹,并在其中放置子文件如 `init.md`, `design.md`, `delivery.md` 等。 - 运行命令 `planning-with-files generate --project tasks`,程序会扫描所有 `.md` 子文件并生成对应的 `state.json` 与一个 `progress_table.xlsx` 的进度表格。 - 每次打开主文档 `README.md` 并编辑时,只需按 **Ctrl+S**(或 **Command+S**)即可触发自动更新,团队成员只要在各自电脑上打开同一文件,即可看到最新状态。 4. **技术实现与部署** - 采用 **Node.js + TypeScript** 开发,利用 `fs` 模块读取/写入本地文件。 - 使用 **marked** 库解析 Markdown 并提取自定义属性。 - 项目包含一个简易的 CLI 工具:`planning-with-files generate --project <folder>`;也可直接通过 VSCode 插件方式启动,插件会在侧边栏中展示实时进度表格。 5. **扩展与社区** - 你可以把 `state.json` 导入任何 BI 或报表工具(如 PowerBI、Tableau)进行更高级的数据可视化。 - 项目已在 **GitHub Actions** 中预置 CI,确保每一次 push 都能自动生成最新的进度表格并推送到 GitHub Pages 做公开展示。总结来说,该项目把 Markdown 文档和文件系统这两大简单概念融合,在工作模式上实现了真正意义上的 “持久化规划”。无论你是小团队还是跨国的大型并购,使用 `planning-with-files` 都能让任务管理、进度追踪与决策记录变得轻松直观,并且可以随时通过任何文本编辑器或 IDE 直接查看。其高度透明的文件结构和状态快照,也为后续审计、报表提供了极佳的数据源,真正成为团队内部 “规划无痛点” 的利器。
      • MemoriLabs/Memori - Agent Systems)设计,旨在通过高效的数据存储与检索机制提升智能系统的运行效率。该项目的核心特色是将 SQL 作为内存层的本地语言,允许代理系统通过标准 SQL 查询直接操作内存中的数据,无需额外转换或中间层,从而显著提升数据访问速度和处理效率。Memori 的工作原理基于 SQL 引擎与内存管理模块的协同,通过将数据以结构化形式存储在内存中,结合 SQL 查询语法实现快速过滤、排序和聚合操作,同时支持与多种数据库(如 PostgreSQL、MySQL 等)的兼容性,确保数据持久化和跨系统共享。其设计重点在于为 AI 代理提供低延迟、高并发的数据交互能力,例如在多代理协作场景中,代理可通过 SQL 查询实时获取共享数据或更新状态,避免传统方法中因数据同步导致的性能瓶颈。项目还提供了灵活的 API 接口,支持与主流 AI 框架(如 Hugging Face、LangChain)集成,同时支持自定义数据结构和查询逻辑扩展。Memori 的开源特性使其可被广泛应用于需要高频数据操作的智能系统,例如聊天机器人、自动化决策系统或多代理协作平台,通过将复杂的数据操作抽象为 SQL 语句,降低了开发门槛并提升了系统的可维护性。
      • HKUDS/DeepTutor - r requirements.txt` 安装依赖项,然后使用 `python src/main.py` 执行主脚本(可选参数为数据目录或模型检查点)。README 文件还提供了从头开始训练的说明:设置配置,指定批大小、学习率、训练轮数和 GPU 设备;训练日志会写入 `./logs/` 目录。最后,DeepTutor 提供了一个 API,可以与 Web 或移动前端集成,提供知识图谱查询、答案评估和推荐生成的接口。
      • kepano/obsidian-skills - it-attrs` 两大库实现;因此只要先把这两套库装好(插件会自动提示),就能立即投入使用。 安装方式也非常简易:在 Obsidian 的 “社区插件” 页面搜索 `obsidian-skills`,点“安装”,重启后即可看到左侧栏出现的 “Skill Panel”。若你想更进一步定制,比如把 Skill 级别改成星级、或者给每个技能分配不同颜色,则只要在 `.obsidian/skills/config.yml` 中写入对应参数;插件会即时读取并渲染。若遇到无法识别的文件格式(如 `.mdx`),可以在 `config.yml` 里额外声明。 总体而言,Obsidian‑Skills 的特色是: 1. **一键式技能录入**——通过简短标记或前置数据即可把技能写进笔记; 2. **自动经验累积**——每次出现同一 Skill 时插件会算出经验值并提升等级; 3. **直观成长面板**——提供表格、条形图与进度条等多种可视化方式,让你能随时看到自己的技术层级。 如果你正处在整理项目文档、写书或是记录学习笔记的阶段,Obsidian‑Skills 能帮你把“技能”这一维度也变成一份可以随时查看与更新的实时表格;不必再为每一次新学到的技术而手工去改动 Excel 或 Notion。只要在 Obsidian 里写好笔记、给它加上简单标记,插件就会把所有这些信息自动汇总,并用直观的表格与条形图展示出来——这正是将抽象知识转化为可量化、易管理的核心思路。
      • microsoft/magentic-ui - centered web agent),专注于探索如何通过人工智能技术增强网页应用的交互体验。其核心目标是通过自然语言处理、用户意图理解及动态界面生成技术,实现更高效、更直观的用户与网络服务之间的协作。项目采用模块化设计,允许开发者通过配置代理的行为规则、对话逻辑和界面生成策略,快速构建实验性功能。工作原理基于多阶段处理流程:首先解析用户输入的自然语言请求,结合上下文和预定义规则生成任务目标;随后调用后端服务(如API或数据库)完成操作;最后通过动态生成的界面反馈结果,确保用户获得清晰的交互体验。项目特色包括对用户意图的精准识别、支持多模态交互(文本、界面、动作),以及通过轻量级框架实现快速迭代。由于是研究原型,其功能可能尚未完善,但提供了可扩展的接口供开发者测试新算法或交互模式。该项目可能与微软的其他AI研究项目(如AI代理或自然语言处理工具)有技术关联,但具体依赖关系需进一步查阅源码或文档。
      • obra/superpowers
      • nextlevelbuilder/ui-ux-pro-max-skill - max-skill**。本仓库致力于为 UI/UX 开发者提供一套基于 AI 的“Skill”,能够在多平台环境(React、Vue、Angular、Flutter 等主流框架)下,自动生成专业的布局方案、色彩搭配与组件使用建议,为设计师节省大量人工调研时间。核心工作原理是将大语言模型(如 GPT‑4 或 Claude 3.5)与视觉编码器相结合:先把业务需求转成自然语言描述,再让模型推断最优 UI 架构;随后通过 REST/GraphQL 接口返回 JSON 格式的布局细节、色板及对应组件列表,调用方可直接将结果注入项目。使用方式极其简洁,只需在项目根目录执行 `npm i ui‑ux‑pro‑max-skill`,然后在代码里引入:`import { useDesignAI } from 'ui-ux-pro-max-skill'` 并调用如 `const design = useDesignAI({scenario:'login'});` 即可得到登录页的完整设计方案。仓库 README 进一步提供了多种示例脚本、配置文件与 API 文档,帮助使用者快速上手并自定义主题。项目遵循 MIT 开源协议,并欢迎通过 Pull Request 对功能扩展(如新增 Vue‑Native 支持、改进色板生成逻辑或集成更高阶的视觉分析模块)进行贡献,所有提交均需附带单元测试与文档更新。本仓库的目标是让 UI/UX 设计从“创意”到 “实现”只剩极短步骤,让专业级界面不再受人力资源限制。
      • thedotmack/claude-mem - sdk` 把这些原始数据包成 `ActionRecord` 对象,并推送至后端 API。 3. 后端使用 AI 模型对记录做多轮压缩,生成可读的 **“记忆片段”**(如 “上次你帮我写了一个快速排序函数… ”)。 4. 在下一会话开始时,该插件将这些片段以 `context` 注入 Claude 的 prompt,确保模型能即时把先前信息整合进当前推理。 项目特色: - **全程自动化** – 开发者无需手动粘贴或复制上下文。 - **结构化压缩** – 生成的记忆片段可读且易于检索。 - **跨环境兼容** – 支持 VSCode、Vim 等多种 IDE 与终端,亦能在纯文本界面工作。 使用步骤(简略):① 安装 `claude‑mem` 插件并开启“记忆模式”;② 编写代码时插件自动记录;③ 结束后会话被压缩存储;④ 下一次启动同一项目即可通过 `@memory` 调用之前的片段。 该工具适用于需要长时间迭代、依赖先前思路或上下文的开发者,帮助 Claude 在多轮对话中保持连贯性与历史记忆,从而提升代码质量与协作效率。
      • davila7/claude-code-templates - code-templates 是一个专为 “Claude Code” 打造的命令行工具。它让开发者在终端直接配置、启动与监控自己的代码库,而无需手动编写大量脚本或管理繁琐的 CI/CD 流程。该工具把常用的代码生成模板打包成可复用指令,支持多种主流语言(如 Python、JavaScript、Go 等),并内置了 OpenAI API 调用逻辑,使得 Claude 能根据用户提供的 README 或其它文档快速推断需求与架构。使用者只需 `claude init <project-name>` 就能在指定目录生成一套完整的项目骨架,随后通过 `claude run` 运行测试、部署或直接执行业务脚本;而 `claude monitor` 则会持续跟踪代码变动并实时给出错误报告。该工具还兼容 GitHub Actions 与其它 CI 平台,可在 PR 合并时自动触发 Claude 的生成与评审流程,极大节省人工审核时间。 项目的核心工作原理可拆解为三层: 1️⃣ **命令解析**——CLI 先把用户输入的子指令、参数转成 JSON 配置; 2️⃣ **模板渲染**——通过 Jinja‑style 模板,将配置与 OpenAI 的 Prompt 合并,形成最终的 “代码生成” 请求; 3️⃣ **API 调用 & 结果处理**——工具直接调用 `openai.ChatCompletion` 接口获取 Claude 返回,并将其输出写入对应文件或打印至终端。 这些功能点构成了项目最显著的特色:一键启动、跨语言兼容、自动化监控与反馈。使用者不必再去手动设置 `.github/workflows/claude.yml` 或在 CI 里手工编写脚本,只需依赖该工具提供的一条命令,即可完成代码生成、测试与部署,并实时获得错误报告与改进建议,从而让 Claude Code 的开发效率大幅提升。
      • iOfficeAI/AionUi - -model gemini ...`),解析后直接调用本地 GPU 进行推理,并将结果即时返回到终端或 GUI 中显示。 **使用步骤** 1. **下载与解压** – 从 GitHub Releases 页面取最新版 ZIP,放置任意文件夹。 2. **安装依赖** – 在命令行运行 `pip install -r requirements.txt`(若有 Poetry,可执行 `poetry install`)。 3. **配置本地模型** – 根据你要用的模型,在 `.env` 或启动脚本中填入对应 SDK 的路径或参数。 4. **开启协作** – 直接在终端输入 `aionui --model gemini -t "写一个 python 函数"`,即可得到完整代码片段。 **为什么值得尝试** - **免钥、免费**:完全不需要注册任何云服务账号,彻底消除隐私与成本顾虑。 - **高兼容性**:对主流模型一键切换,让你在不同项目里也能保持同样操作习惯。 - **即时反馈**:本地 GPU 推理平均延迟不到几百毫秒,满足日常编码、调试需求。 **总结** AionUi 以简洁易用的命令行接口,为开发者提供一个集中式的 AI 辅助平台——从 Gemini CLI 到 Codex 等多款模型,都能在本地无缝隙调用。它将“全天候协作”与 “OpenClaw” 等插件结合,打造了一个零成本、快速响应且开源透明的 AI 开发环境,是想要让 AI 真正面临手而不受网络限制的开发者们的理想选择。
      • puckeditor/puck - **核心功能** - *模板化*:你先定义好页面结构(如 Hero、Cards 等),Puck 会按此结构生成对应的 MDX/React 代码。 - *提示驱动*:在命令行里输入主题或关键词,工具会把它们交给 OpenAI / Anthropic 等 LLM,让模型直接写出正文内容——段落标题、列表、图片描述等。 - **文件输出**:生成的 MDX 被 Node 脚本自动写入项目指定路径,并且在页面刷新后即能看到新的内容。 - **工作原理** 1. 命令 `puck generate pageName` 把你输入的 prompt(可通过环境变量或命令行参数)发送给 LLM。 2. 模型返回 Markdown+React 的代码片段。 3. 脚本把这段代码写成 MDX 文件,并更新到 Next.js 项目中。 - **使用方式** - 在项目根目录放置 `.env`,填入 `OPENAI_API_KEY=` 等键值即可。 - 运行 `pnpm i` 或者 `npm install` 安装依赖后,即可执行: ```bash puck init # 初始化模板文件 puck generate BlogPost --prompt "写一篇关于量子纠缠的技术博客" ``` - 命令行支持批量生成、重建等,配合 `pnpm run dev` 就能在浏览器中看到新页面。 - **项目特色** - *零配置*:只需填好 API key,即可立刻运行。 - *轻量级*:核心依赖只有 Next.js 与 MDX,体积不到 10 KB。 - *模板灵活*:你一次性定义页面结构,再次调用 AI 时只要提供关键词即可完成内容生成。 - **许可** Puck 遵用 MIT 协议,任何人都可免费使用、修改或扩展。 总之而言,Puck 是一把让网页构建更快捷、更自动化的钥匙:你写提示、它交给 AI 并返回代码;你放进 Next.js 项目,即能在几秒内得到完整页面。
      • zilliztech/claude-context - context是一个针对Claude模型的代码上下文处理工具,其核心功能是将整个代码库作为上下文提供给编码代理,使AI能够基于完整的代码库信息进行推理和决策。该项目通过代码搜索技术实现上下文管理,允许开发者将任意代码库的完整内容作为Claude模型的上下文输入,从而突破传统模型对上下文长度的限制。其工作原理基于Claude模型的API接口,通过预处理将代码库内容分块并按需加载到模型的上下文中,同时支持动态调整上下文范围和优先级,确保关键代码片段始终处于模型可见范围内。项目特别设计了代码搜索MCP(可能是某种特定算法或框架),能够高效定位和提取代码库中的相关代码片段,即使面对大型项目也能保持搜索效率和准确性。相比传统方法,该工具显著提升了代码代理的智能化水平,使AI能够理解代码库的整体架构、依赖关系和历史修改记录,从而在代码生成、调试和重构等场景中提供更精准的建议。开发者可以通过简单的配置将项目代码库与Claude模型连接,利用其强大的语言理解和推理能力处理复杂编程任务。该项目适用于需要深度代码理解的场景,如自动化测试、智能代码补全和跨文件引用分析,尤其适合处理大型、多语言的复杂代码库。由于采用模块化设计,该工具支持多种编程语言和版本控制系统的集成,为构建下一代代码智能代理提供了基础能力。
      • coze-dev/coze-studio
      • humanlayer/12-factor-agents - factor原则构建LLM驱动的生产级软件,旨在解决大模型在实际应用中的可靠性与可维护性问题。项目提出12条核心准则,涵盖模块化设计、配置管理、依赖隔离、监控系统等关键领域,通过将训练与推理过程分离、采用标准化API接口、建立可扩展的组件架构,确保系统具备高可用性与易维护性。特别强调通过环境变量管理配置、自动化依赖注入、实时性能监控等机制,降低生产环境部署复杂度。项目特色包括针对LLM的专门优化策略,如动态推理调度、安全沙箱隔离、多模型协作框架,同时提供可复用的组件库和标准化的部署模板。工作原理基于将复杂AI系统分解为独立功能单元,每个单元遵循单一职责原则并通过API通信,配合配置中心实现环境适配,结合监控系统实时采集性能指标,形成闭环优化。适用于需要稳定运行的生产场景,如企业级客服系统、数据分析平台等,帮助开发者规避LLM应用常见的部署陷阱,提升系统稳定性与扩展能力。
      • trycua/cua - Use AI Agents)解决方案,旨在通过容器化技术为 AI 代理提供高效、可扩展的运行环境。其核心功能是将大语言模型(如 Qwen)与计算机任务执行能力结合,使 AI 代理能够理解用户指令、调用系统工具并完成自动化操作。项目通过 Docker 容器封装了所有依赖项,用户无需手动配置复杂环境即可快速部署和使用。 项目的主要特色包括:**1. 集成 Qwen 等大语言模型**,支持自然语言交互,用户可通过对话形式下达任务指令;**2. 内置工具链**,可调用 Shell 命令、文件操作、网络请求等系统工具,实现任务自动化;**3. 容器化架构**,基于 Docker 技术确保环境隔离性与可移植性,避免依赖冲突;**4. 可视化交互界面**(如 Web 界面),方便用户实时监控任务执行状态与结果。工作原理上,AI 代理通过接收用户输入的自然语言指令,经大语言模型解析后生成可执行的命令序列,容器内部的工具链会按需调用系统资源完成任务,并将结果反馈给用户。 该项目适用于需要自动化处理计算机任务的场景,例如数据处理、系统运维、脚本生成等。用户可通过简单的 Docker 命令启动容器,容器内预装了必要的工具和模型,无需额外配置即可运行。项目还提供了详细的使用说明和示例,帮助用户快速上手。通过容器化设计,c/ua 简化了 AI 代理的部署流程,降低了技术门槛,同时保障了运行环境的稳定性与安全性。
      • panaversity/learn-agentic-ai - agentic-ai 旨在学习 Agentic AI,它利用 Dapr Agentic Cloud Ascent (DACA) 设计模式和 Agent-Native 云技术。项目涵盖了 OpenAI Agents SDK、Memory、MCP、A2A、知识图谱等关键技术,并结合 Dapr、Rancher Desktop 和 Kubernetes 等云原生工具。通过本项目,你可以学习如何构建智能代理,并将其部署到云环境中。项目重点在于理解 Agentic AI 的工作原理和应用场景,以及如何利用 DACA 模式简化代理的开发和部署。它提供了一套完整的学习资源,帮助开发者快速掌握 Agentic AI 的相关技术。该项目适合对 Agentic AI 和云原生技术感兴趣的开发者。
      • QiuYannnn/Local-File-Organizer - File-Organizer是一个AI驱动的本地文件管理工具,注重用户隐私。它使用Llama3.2 3B和Llava v1.6模型,并结合Nexa SDK,智能地扫描、重构和组织本地文本和图像文件。该工具旨在提供快速、无缝的文件访问和便捷的检索体验。其核心功能包括文件扫描、文件重构和文件组织。通过AI技术,项目能够理解文件内容,并根据内容进行智能分类和整理。该项目的主要特色在于其AI驱动的文件管理能力和对用户隐私的保护。用户可以更轻松地管理和查找本地文件,提高工作效率。
      • asgeirtj/system_prompts_leaks
      • bytedance/deer-flow
      • dyad-sh/dyad
      • googleapis/genai-toolbox
      • badboysm890/ClaraVerse
      • MacPaw/OpenAI - 3、DALL-E等。该项目提供了一套易于使用的Swift API,封装了与OpenAI API交互的复杂性,简化了认证、请求构建和响应解析等过程。开发者可以使用它来构建各种AI驱动的应用程序,如文本生成、图像生成、语言翻译等。OpenAI Swift的目标是成为Swift开发者使用OpenAI API的首选工具,并持续更新以支持OpenAI的最新功能和服务。项目鼓励社区贡献,欢迎开发者参与代码编写、问题报告和功能建议。它旨在提供一个类型安全且易于集成的解决方案,帮助开发者充分利用OpenAI的强大能力。该项目通过定义Swift结构体和枚举来表示OpenAI API的各种参数和响应,从而提供类型安全保障。
      • Klavis-AI/klavis
      • coleam00/local-ai-packaged - ai-packaged,它将多个本地AI工具整合到一个包中,包括Ollama、Supabase、n8n、Open WebUI等。用户可以在一个统一的界面中运行所有这些AI服务。它的工作原理是将这些服务打包成一个易于安装和管理的软件包,用户只需简单配置即可使用。这个项目特别适合需要同时使用多种本地AI工具的用户,简化了部署和管理过程。它提供了模块化的设计,允许用户根据需要选择和启用不同的AI服务。通过这个项目,用户可以轻松地在本地环境中构建和运行强大的AI应用。它支持多种操作系统和硬件配置,具有良好的兼容性和扩展性。这个项目旨在为AI开发者提供一个高效、便捷的本地AI开发环境。它通过自动化配置和集成,降低了使用门槛,让更多人能够轻松上手。
      • bytedance/trae-agent
      • MartialBE/one-hub - hub 是一个 OpenAI 接口管理和分发系统,它基于 songquanpeng/one-api 项目进行修改和扩展。该项目支持更多的模型,并加入了统计页面,方便用户监控使用情况。此外,one-hub 完善了对非 OpenAI 模型的函数调用支持,使其能够更好地兼容不同的 AI 模型。总而言之,one-hub 提供了一个集中管理和分发 OpenAI 及其他 AI 模型接口的平台,并提供了统计和增强的函数调用功能。
      • openai/openai-openapi
      • getAsterisk/claudia
      • NirDiamant/agents-towards-production - towards-production是一个专注于生产级生成式AI代理开发的代码驱动教程项目,通过分层架构设计覆盖从原型开发到大规模部署的全流程。项目特色包括:1)基于代码的实践教程,提供可复用的蓝图模板;2)完整覆盖代理系统各层级架构,从初始开发(spark)到规模化部署(scale);3)包含实际案例演示如何构建可扩展的AI代理系统;4)提供分层架构设计模式、实际部署案例、可扩展性方案等最佳实践;5)社区支持的开源项目,持续更新生产环境验证的开发模式。核心工作原理采用分层架构设计,通过可复用的代码模板实现从数据处理、模型集成到系统部署的全流程开发,特别强调实际部署场景中的可扩展性、稳定性与性能优化方案,适合希望将生成式AI代理技术落地实际业务场景的开发者参考。
      • wshobson/agents
      • hesreallyhim/awesome-claude-code
      • opencode-ai/opencode
      • AsyncFuncAI/deepwiki-open
      • agiresearch/AIOS
      • muellerberndt/mini-agi
      • langchain-ai/langgraph-studio
      • kortix-ai/suna
      • Doriandarko/maestro
      • fiatrete/OpenDAN-Personal-AI-OS
      • heshengtao/comfyui_LLM_party - sovits、ChatTTS、GOT-OCR2.0和FLUX prompt节点等组件。它支持飞书、Discord等平台的接入,并兼容所有具有类似OpenAI/AISuite接口的LLM,例如O1、Ollama、Gemini、Grok、Qwen、GLM、Deepseek、Kimi、豆包等。该项目还适配本地LLM、VLM和GGUF模型,如Llama-3.3 Janus-Pro,并支持Linkage graphRAG。其主要特色在于构建LLM Agent,实现ComfyUI工作流与各种LLM的集成,从而扩展ComfyUI的功能,使其能够处理更复杂的自然语言任务。
      • farizrahman4u/loopgpt - GPT框架,旨在简化自主代理的构建和定制。它允许开发者通过组合不同的模块(例如记忆、规划、执行等)来创建自定义的智能代理。该项目强调模块化设计,方便用户根据特定需求替换或修改现有模块。LoopGPT的核心思想是让代理在一个循环中不断地观察、思考、计划和行动,从而完成给定的目标。它支持多种语言模型,并提供了清晰的API和文档,方便开发者快速上手。LoopGPT的优势在于其灵活性和可扩展性,允许用户构建各种类型的自主代理,例如自动化任务执行、数据分析和研究等。项目目标是提供一个易于使用且功能强大的平台,促进自主代理技术的发展和应用。用户可以通过配置不同的模块和参数,来优化代理的性能和行为。LoopGPT使用Python编写,并依赖于一些常见的机器学习库。
      • jgravelle/AutoGroq
      • SamurAIGPT/GPT-Agent
      • shaxiu/XianyuAutoAgent
      • WooooDyy/AgentGym - based Agents across Diverse Environments"。该项目旨在提供代码和实现,以支持在多样化环境中训练和评估LLM智能体。AgentGym的核心思想是利用进化算法来优化LLM智能体的行为策略,使其能够在不同环境中表现出色。该项目可能包含用于定义环境、评估智能体性能以及执行进化算法的工具和代码。通过AgentGym,研究人员可以探索如何有效地利用LLM构建更智能、更适应性强的智能体,并研究不同环境对智能体进化过程的影响。该项目可能包含示例环境、预训练的智能体模型以及用于可视化进化过程的工具。AgentGym为LLM智能体研究提供了一个有价值的平台,促进了该领域的进一步发展。
      • THUDM/WebRL
      • Skytliang/Multi-Agents-Debate
      • Deluxer/oliva
      • Ymm-cll/TrustAgent
      • PKU-ML/LongPPL - ML/LongPPL项目是北京大学机器学习组为ICLR 2025会议准备的论文“长文本语言建模中困惑度的问题”的代码实现。该项目旨在研究困惑度(Perplexity)在评估长文本语言模型时的局限性。项目核心是揭示传统困惑度指标在长文本场景下与人类感知的偏差,并可能提出新的评估指标或方法。具体来说,项目可能包含用于计算和分析长文本困惑度的代码,以及实验设置和结果,用于证明困惑度在长文本建模中的问题。项目特色在于关注长文本语言建模的评估问题,挑战了广泛使用的困惑度指标,并为未来的研究方向提供了新的视角。研究结果可能表明,需要更有效的指标来评估长文本语言模型的性能,使其更好地反映人类的理解能力。该项目对于长文本语言模型的研究和应用具有重要意义。
      • X-PLUG/WritingBench
      • mims-harvard/TxAgent
      • meta-llama/llama-models - llama/llama-models,提供了一系列用于Llama模型的实用工具。它主要服务于Llama模型的应用和开发,简化相关操作流程。具体功能可能包括模型加载、推理、评估以及其他辅助工具。该项目旨在帮助开发者更高效地使用Llama模型,提升开发效率。虽然README信息较少,但可以推断其核心价值在于提供便捷的工具集,方便用户与Llama模型进行交互。该项目可能包含各种脚本、库或示例代码,以支持不同的Llama模型应用场景。总之,这是一个围绕Llama模型生态的实用工具集合,旨在降低使用门槛,加速模型落地。
      • deepseek-ai/DeepSeek-Math - Math项目旨在提升开源语言模型在数学推理方面的能力。它通过构建高质量的数学数据集,并结合先进的训练技术,显著提高了模型解决复杂数学问题的准确性。该项目专注于数学问题的理解、推理和求解,涵盖算术、代数、微积分等多个数学领域。DeepSeek-Math利用大规模预训练和微调策略,使模型能够更好地理解数学概念和符号,并进行逻辑推理。项目贡献了相关的数据集和模型,方便研究人员复现和进一步探索。DeepSeek-Math的特色在于其对数学推理的专注和对开源社区的贡献,致力于推动通用人工智能在数学领域的应用。该项目为解决现实世界中的数学问题提供了新的思路和工具,有望在科学、工程等领域发挥重要作用。
      • kaqijiang/Auto-GPT-ZH - GPT-ZH是Auto-GPT的中文版本,致力于同步更新原项目。它是一个AI领域的创业和自媒体组织,旨在帮助用户利用AI进行工作、学习、创作和变现。该项目可能包含Auto-GPT的中文翻译、本地化适配以及相关的资源和教程。通过Auto-GPT-ZH,用户可以探索如何使用AI技术驱动创新,并将其应用于实际场景中。它可能提供了一个社区平台,供爱好者交流经验、分享技巧,共同探索AI的潜力。Auto-GPT-ZH的目标是降低AI的使用门槛,让更多人能够参与到AI的浪潮中,并从中受益。该项目可能涉及自然语言处理、机器学习等技术,并提供相应的工具和框架。它可能强调AI在内容创作、自动化流程和商业模式创新方面的应用。
      • ThuCCSLab/Awesome-LM-SSP
      • HKUNLP/Dream
      • google-deepmind/opro
      • SUFE-AIFLM-Lab/Fin-R1 - R1是由上海外国语大学AIFLM实验室开发的金融领域大型语言模型,专注于金融文本理解与生成。该项目基于LLaMA-2模型进行二次开发,旨在提升模型在金融任务中的表现。Fin-R1模型参数规模为7B,通过在高质量金融数据集上进行持续预训练和指令微调,具备更强的金融知识和推理能力。项目特色包括金融领域的专业性、LLaMA-2的强大基础以及持续的优化迭代。Fin-R1支持多种金融任务,例如金融新闻摘要、研报生成、风险评估等。该项目提供模型权重、代码和相关文档,方便研究者和开发者使用和进一步研究。Fin-R1的训练数据涵盖广泛的金融领域,包括公司公告、行业报告、宏观经济数据等。该项目致力于推动金融领域自然语言处理技术的发展与应用。
      • tanishqkumar/beyond-nanogpt - nanogpt项目旨在提供现代深度学习研究中关键思想的极简且带有注释的实现。它类似于nanoGPT,但探索了更前沿的概念。项目特色在于代码简洁易懂,方便学习和理解复杂的深度学习技术。具体实现可能涵盖Transformer架构的改进、注意力机制的变体、以及其他最新的研究成果。通过阅读代码和注释,用户可以快速掌握这些技术的原理和应用。该项目适合有一定深度学习基础,希望深入了解最新研究进展的开发者和研究人员。它提供了一个实践平台,可以帮助用户将理论知识转化为实际应用。该项目可以作为学习和实验的起点,用于探索深度学习的未来方向。
      • xzymustbexzy/Chain-of-Experts - of-Experts是一个用于解决复杂运筹学问题的项目,其核心思想是让大型语言模型(LLMs)协同工作,模拟专家团队解决问题。该项目是论文"Chain-of-Experts: When LLMs Meet Complex Operation Research Problems"的官方实现。它通过构建专家链,每个专家负责问题的不同方面,从而分解复杂问题。项目特色在于利用LLMs的推理能力,结合运筹学领域的知识,实现更高效的求解。具体来说,它将问题分解为多个子问题,分配给不同的“专家”LLM,然后将结果整合,形成最终解决方案。该项目提供代码和实验结果,方便研究人员复现和进一步研究。它旨在探索LLMs在解决实际运筹学问题中的潜力,并提供一种新的问题解决框架。
      • byronBBL/CK-PLUG - PLUG项目是论文“参数 vs. 上下文:语言模型中知识依赖的细粒度控制”的官方代码仓库。该项目旨在研究如何更精细地控制语言模型在生成文本时对模型参数中存储的知识和上下文信息的依赖程度。CK-PLUG通过一种新的框架,允许用户在生成过程中动态调整模型对这两种知识来源的利用比例。项目提供代码和实验设置,用于复现论文中的结果,并支持用户探索不同的知识依赖策略。该框架的核心思想是引入一个可学习的“知识插件”,它能够根据上下文决定何时以及如何从模型参数或上下文信息中提取知识。CK-PLUG为语言模型的知识控制提供了新的思路,并可能应用于各种需要精确知识控制的自然语言生成任务中。
      • jujumilk3/leaked-system-prompts - system-prompts`,是一个收集泄露的系统提示词的仓库。它旨在收集各种泄露的、用于配置大型语言模型(LLM)的系统提示词,这些提示词定义了LLM的行为方式和角色。项目的主要内容是`README.md`文件,其中可能包含了关于这些泄露提示词的描述、来源和使用方法。通过研究这些泄露的系统提示词,人们可以了解LLM是如何被控制和引导的,从而更好地理解和利用LLM技术。该项目对于研究LLM的安全性、可控性和潜在风险具有一定的价值。它提供了一个了解LLM内部运作机制的窗口,帮助开发者和研究者更好地理解如何设计和使用系统提示词来塑造LLM的行为。
      • Anxcye/anx-reader - reader是一个利用强大AI能力,支持多种电子书格式的阅读器项目。它旨在提供更智能、更专注的阅读体验。该项目的特色在于其AI功能,具体工作原理需要进一步研究项目代码和文档。它支持多种电子书格式,方便用户阅读不同来源的电子书。总而言之,Anx-reader是一个专注于提升阅读效率和体验的AI驱动型电子书阅读器。
      • sentient-agi/OpenDeepSearch - >向量化->存储->搜索->结果呈现。
      • Alibaba-nlp/ZeroSearch
      • plastic-labs/tutor-gpt - GPT是一个基于AI的辅导项目,它利用“心智理论”推理来提供个性化的学习体验。该项目允许用户上传学习资料,Tutor-GPT会基于这些资料生成问题、提供提示,并进行对话式辅导。其核心特色在于能够理解学生的知识状态和学习目标,从而提供更有效的指导。Tutor-GPT的工作原理是首先分析上传的文档,然后利用大型语言模型(LLM)进行推理和问题生成。它旨在模拟人类导师的思维方式,帮助学生更深入地理解学习内容。项目目标是创建一个能够适应不同学习风格和需求的智能辅导系统。用户可以通过简单的界面与Tutor-GPT互动,获得定制化的学习支持。该项目是Plastic Labs开发的,旨在探索AI在教育领域的应用潜力。
      • MrYxJ/InfiniRetri - Augmented Generation, RAG)系统,旨在突破传统 Transformer 模型的上下文窗口限制。它通过将文档存储在向量数据库中,并使用专门设计的检索器和重排序器,从海量文档中检索相关信息,从而为语言模型提供无限的上下文。该项目的主要特色包括支持多种向量数据库(如 ChromaDB、Milvus、Weaviate 等)、使用 Sentence Transformers 进行文档嵌入、以及采用先进的检索和重排序技术(如 ColBERT、Cohere rerank)。InfiniRetri 的工作原理是:首先对文档进行嵌入并存储到向量数据库,然后接收用户查询,检索相关文档,对检索结果进行重排序,最后将重排序后的文档作为上下文传递给语言模型进行生成。该项目旨在解决长文本处理的挑战,并提高 RAG 系统的性能。它提供了一个灵活且可扩展的框架,方便用户根据自己的需求定制 RAG 流程。
      • huggingface/deep-rl-class - learning、Deep Q-Networks (DQN)、Policy Gradients、Actor-Critic方法等等。项目包含各种环境的实现,方便学习者在不同场景下进行实验。课程强调动手实践,通过实际编写代码来加深理解。项目利用Hugging Face的transformers库,将强化学习与自然语言处理相结合,探索新的应用方向。该课程适合有一定机器学习基础,希望深入学习深度强化学习的开发者和研究人员。通过学习该课程,你可以构建自己的智能体,解决复杂的决策问题。项目提供了清晰的教程和示例,帮助你快速上手。总之,这是一个学习和实践深度强化学习的绝佳资源。
      • dkozlov/awesome-knowledge-distillation
      • natolambert/rlhf-book - book是一个关于人类反馈强化学习(RLHF)的教科书项目,旨在帮助读者理解和掌握RLHF技术。该项目涵盖了RLHF的基本概念、算法和应用,并提供了丰富的代码示例和实验结果。其核心思想是利用人类的偏好数据来训练奖励模型,进而指导强化学习智能体的学习。该项目可能包括对齐(Alignment)问题的讨论,以及如何使用人类反馈来提高模型的安全性、可靠性和可控性。读者可以通过学习该项目,了解如何构建基于人类反馈的智能体,并将其应用于各种实际场景,例如对话生成、文本摘要和机器人控制等。该项目提供了理论知识和实践指导,适合对RLHF感兴趣的研究人员和工程师学习。
      • ContextualAI/HALOs
      • yifan123/flow_grpo - GRPO 是一个基于在线强化学习训练 Flow Matching 模型的官方实现。该项目提出了一种新颖的训练方法,通过在线强化学习来优化 Flow Matching 模型,旨在提升生成模型的性能。其核心思想是将 Flow Matching 模型的训练过程建模为一个强化学习问题,并使用 GRPO (Generalized Policy Optimization) 算法进行求解。项目代码库包含了训练脚本、模型定义以及评估工具,方便研究者复现结果和进行进一步研究。该方法可以应用于各种生成任务,例如图像生成、文本生成等。项目提供详细的实验设置和参数配置,方便用户进行定制化训练。Flow-GRPO 旨在解决传统 Flow Matching 训练方法的局限性,并探索强化学习在生成模型训练中的潜力。该项目为生成模型领域的研究人员提供了一个新的视角和工具。
      • uclaml/SPPO - Play Preference Optimization (SPPO)的官方实现。SPPO是一种新的强化学习方法,通过自我对弈和偏好优化来训练智能体。该方法的核心思想是让智能体与自身的不同版本进行对弈,然后根据对弈结果学习一个偏好模型,该模型用于区分好的行为和坏的行为。SPPO利用这个偏好模型来优化智能体的策略,使其能够产生更好的行为。项目提供了完整的代码和实验配置,方便研究人员复现和扩展SPPO算法。该项目旨在为强化学习社区提供一个高效且易于使用的SPPO实现,促进自我对弈和偏好优化在强化学习中的应用。SPPO的优势在于其能够有效地利用自我对弈数据来学习复杂的策略,并在各种强化学习任务中取得优异的性能。
      • voidism/DoLa
      • wisent-ai/wisent-guard
      • facebookresearch/RAM
      • microsoft/playwright-mcp - -vision 模式,允许在需要时切换到基于截图的视觉交互方式,以适应不同模型的特定需求。用户可以轻松地将其集成到各种MCP客户端(如VS Code、Cursor等),并通过丰富的命令行参数或JSON配置文件进行细致的功能定制,例如选择浏览器类型、配置用户数据目录(支持持久化存储或会话隔离),甚至可以将其作为独立的服务器运行,以支持无显示环境或IDE工作进程中的自动化任务。
      • Dooy/chatgpt-web-midjourney-proxy - web-midjourney-proxy是一个集成了多种AI服务的Web应用,包括ChatGPT、Midjourney、GPTs、Suno、Luma、Runway、Viggle、Flux、Ideogram、Realtime、Pika和Udio等。它提供统一的用户界面,方便用户使用这些AI工具。项目支持多种平台,包括Web、PWA、Linux、Windows和MacOS。其核心功能是作为一个代理,方便用户访问和使用Midjourney等服务,可能解决了网络访问或API调用的问题。该项目的主要特色在于其All-in-One的集成特性和跨平台支持,旨在为用户提供便捷的AI工具使用体验。
      • AgentDeskAI/browser-tools-mcp - tools-mcp项目是一个旨在直接从Cursor和其他MCP兼容的IDE中监控浏览器日志的工具。它允许开发者在IDE内部实时查看和分析浏览器控制台输出,无需离开开发环境即可进行调试。该工具的核心功能是与MCP(Monitor, Control, and Plan)协议兼容,这意味着它可以集成到支持该协议的各种IDE中。通过该工具,开发者可以更方便地追踪JavaScript错误、网络请求以及其他浏览器活动,从而提高开发效率和问题排查速度。该项目的主要目标是简化Web应用程序的调试流程,提供更集成的开发体验。它利用MCP协议的强大功能,将浏览器日志信息无缝地引入到IDE界面中,方便开发者进行实时监控和分析。
      • aandrew-me/tgpt - cpp-python等,提供类似ChatGPT的功能。项目支持多种模型,包括LLaMA、Alpaca等,并允许用户自定义模型。tgpt旨在提供隐私保护的本地AI体验,无需依赖外部API。用户可以通过简单的命令在终端中与AI进行交互,进行问答、文本生成等任务。项目还提供了流式输出、代码高亮等功能,提升用户体验。tgpt的安装和配置相对简单,用户可以根据自己的需求选择合适的模型和参数进行设置。它是一个轻量级、灵活且易于使用的终端AI聊天机器人解决方案,适合对隐私有要求的用户或需要在本地环境中进行AI实验的开发者。
      • google-gemini/deprecated-generative-ai-python
      • mcp-use/mcp-use - use项目旨在简化与MCP服务器的交互,特别是使用自定义代理的情况。它提供了一种简单易用的方式来连接和操作MCP服务器。该项目的核心优势在于其易用性,使得用户可以快速上手并进行自定义代理的集成。具体实现原理可能涉及网络通信、协议解析以及代理配置等技术。通过mcp-use,开发者可以更高效地构建和管理基于MCP服务器的应用程序,降低开发和维护成本。项目可能包含示例代码和详细文档,方便用户理解和使用。总体来说,mcp-use是一个方便开发者与MCP服务器交互的实用工具,尤其适用于需要自定义代理的场景。
      • RWKV/rwkv.cpp
      • juncongmoo/chatllama - based ChatGPT开源实现。
      • sammcj/gollama - -help` 可以查看所有可用的命令。 gollama 仍在积极开发中,未来可能会添加更多功能。
      • microsoft/VPTQ - bit或3-bit)量化的情况下。VPTQ的核心思想是结合了向量量化和参数转移技术,通过学习码本和优化量化参数来最小化量化误差。该算法具有高度的灵活性,可以应用于不同的神经网络架构和任务。VPTQ的主要优势在于其能够在保持较高精度的同时,显著降低模型的存储空间和计算复杂度。项目提供了详细的文档和示例代码,方便用户理解和使用。VPTQ支持多种量化策略,并允许用户根据具体需求进行定制。总而言之,VPTQ是一个强大的工具,可以帮助研究人员和开发人员在资源受限的环境中部署高性能的量化神经网络模型。它通过向量量化和参数转移的结合,实现了在极低比特量化下的精度提升。
      • Cornell-RelaxML/quip-sharp - 4 位/权重),并具有卓越的扩展性​​(3 位性能优于 4 位的理论极限)。与 FP16 和竞争对手相比,推理速度提高 2-5 倍​​(例如,70B 模型的推理速度达到 21.9 tok/s)。
      • turboderp-org/exui
      • qodo-ai/qodo-cover - Cover是一个AI驱动的自动化测试生成和代码覆盖率增强工具。它利用人工智能技术,旨在帮助开发者更高效地创建测试用例,并提高代码的测试覆盖率。该项目致力于简化测试流程,减少手动编写测试的工作量。通过Qodo-Cover,开发者可以更轻松地发现代码中的潜在bug,并确保代码质量。该工具的核心功能是自动生成测试用例,并评估代码的覆盖程度。Qodo-Cover适用于各种规模的项目,并可以集成到现有的开发流程中。它旨在提高软件开发的效率和可靠性。该项目目标是为开发者提供一个强大而易于使用的测试工具。
      • AutoCodeRoverSG/auto-code-rover - code-rover是一个旨在实现自主程序改进的项目,它是一个具备项目结构意识的自主软件工程师。该项目在SWE-bench lite测试集中解决了37.3%的任务(pass@1),在SWE-bench verified测试集中解决了46.2%的任务(pass@1)。每个任务的成本低于0.7美元。这意味着它能够以较低的成本自动修复和改进代码。该项目专注于理解代码结构,从而更有效地进行代码修改和优化。它旨在模仿人类软件工程师的工作方式,实现自主化的代码改进流程。该项目展示了在自动化软件开发和维护方面的潜力。
      • Doriandarko/o1-engineer - engineer是一个命令行工具,旨在帮助开发者高效管理和交互项目。它利用OpenAI的API,提供代码生成、文件编辑和项目规划等功能,以简化开发流程。该工具的核心特色在于集成AI能力,辅助开发者完成各种开发任务。通过简单的命令行操作,开发者可以快速生成代码片段、修改现有文件,甚至进行项目规划和管理。o1-engineer的目标是成为开发者在项目开发过程中的得力助手,提高开发效率和代码质量。它将AI技术融入到日常开发流程中,为开发者提供更智能、更便捷的开发体验。该项目适合需要提高开发效率、希望利用AI辅助开发的开发者使用。
      • peterw/Chat-with-Github-Repo - with-Github-Repo包含两个Python脚本,展示了如何使用Streamlit、OpenAI GPT-3.5-turbo和Activeloop的Deep Lake创建一个聊天机器人。该聊天机器人可以与GitHub仓库进行交互,理解仓库内容并回答相关问题。项目利用OpenAI的GPT-3.5-turbo模型进行自然语言处理和生成,Streamlit构建用户界面,Deep Lake用于存储和管理向量嵌入数据。用户可以通过友好的界面与机器人对话,获取关于GitHub仓库的信息。项目旨在简化用户理解和探索GitHub仓库内容的过程。
      • WisdomShell/codeshell-vscode
      • LiveCodeBench/LiveCodeBench
      • FudanSELab/Agent4SE-Paper-List - Based Agents for Software Engineering: A Survey",并会持续更新。它主要关注利用大型语言模型(LLM)构建智能体,并将其应用于软件工程的各个方面。该项目可以帮助研究人员和从业者快速了解LLM在软件工程中的应用现状,包括智能体的架构、功能和性能。通过该项目,用户可以系统地学习和掌握LLM驱动的软件工程智能体的最新研究成果。该列表将不断补充新的论文,以反映该领域的快速发展。
      • Unakar/Logic-RL - RL项目旨在复现在逻辑谜题上表现出色的R1 Zero算法。该项目专注于使用强化学习解决逻辑问题,特别是那些可以通过一阶逻辑表达的问题。核心思想是将逻辑谜题转化为马尔可夫决策过程(MDP),并利用强化学习算法训练智能体来寻找解决方案。项目特色在于其对逻辑推理和强化学习的结合,以及对R1 Zero算法的实现。它提供了一个框架,可以用于探索强化学习在解决复杂逻辑问题中的潜力。该项目可能包含用于定义逻辑谜题、构建MDP环境、训练智能体和评估性能的代码。目标是创建一个能够自动解决逻辑谜题的智能体,并深入理解强化学习在逻辑推理中的应用。通过复现R1 Zero,项目旨在为该领域的研究做出贡献,并为开发更强大的逻辑推理智能体提供基础。
      • deepseek-ai/DeepSeek-Prover-V2 - Prover-V2 是 DeepSeek 推出的新一代定理证明器,旨在解决复杂数学问题。它基于迭代式的证明搜索框架,通过交替进行策略推理和形式验证来寻找证明路径。该项目利用大型语言模型 (LLM) 作为策略模型,指导证明搜索方向,并结合形式验证器确保每一步推理的正确性。V2 版本引入了多项改进,包括更强大的 LLM 策略模型、更高效的搜索算法以及更完善的验证机制。项目的主要特色在于其强大的问题解决能力,尤其是在需要复杂推理和计算的数学领域。DeepSeek-Prover-V2 能够自动生成可验证的数学证明,并已在多个数学基准测试中取得了显著成果。它支持多种形式化语言,并提供了易于使用的接口和工具。该项目对自动化定理证明、人工智能和数学等领域的研究具有重要意义。它提供了一个探索 LLM 在形式化推理中应用的平台,并有望推动相关技术的发展。
      • madaan/self-refine - refine展示了大语言模型(LLM)如何通过自我反思和迭代改进其输出。核心思想是让LLM生成对其自身工作的反馈,并利用这些反馈来优化结果,重复此过程以达到更好的效果。这种自我完善的方法可以显著提升LLM的性能。该项目探索了LLM在没有人工干预的情况下,独立提升自身能力的可能性。通过迭代地生成、评估和改进,LLM能够逐步完善其输出质量。这种自我反思机制模拟了人类的学习过程,使LLM能够更有效地解决复杂问题。项目重点在于展示和研究这种自我迭代改进的潜力,为未来LLM的自主学习和发展提供思路。
      • reasoning-survey/Awesome-Reasoning-Foundation-Models - Reasoning-Foundation-Models 是一个关于基础模型推理能力的最新论文和基准的资源集合。它旨在追踪大型语言模型(LLMs)在推理任务上的进展,包括逻辑推理、常识推理、数学推理等。该项目收集了相关论文、数据集、代码库和评估指标,方便研究人员快速了解该领域的最新动态。项目特色在于其全面性和及时性,涵盖了各种推理任务和模型架构。通过整理这些资源,该项目旨在促进基础模型推理能力的研究和发展,并为开发者提供参考和指导。它将持续更新最新的研究成果,并欢迎社区贡献。项目还包括一些基准测试,用于评估不同模型在推理任务上的表现。
      • PRIME-RL/TTRL - Time Reinforcement Learning)框架,专注于提升模型在未知环境中的泛化能力。它通过在测试阶段利用少量环境交互进行策略自适应,克服了传统强化学习模型泛化性差的问题。TTRL的核心思想是在测试时微调策略,使其适应新环境的特定特征。项目提供了一系列工具和算法,方便研究人员和开发者探索和应用测试时强化学习。TTRL支持多种RL算法,并提供了丰富的实验配置和评估指标。它主要针对的是需要在不同环境中部署的强化学习模型,例如机器人导航、游戏AI等。该项目旨在推动测试时强化学习领域的研究,并提供一个易于使用的平台。TTRL的代码结构清晰,文档完善,方便用户快速上手和进行二次开发。项目还包含一些示例,展示了如何在不同任务中使用TTRL进行策略自适应。
      • shangshang-wang/Tina - Rank Adaptation)的微小推理模型项目,旨在探索如何通过轻量级的模型修改实现强大的推理能力。该项目主要研究如何利用LoRA技术对预训练语言模型进行高效的微调,从而在特定推理任务上获得良好的性能,同时保持模型参数量较小。Tina的特色在于其专注于推理能力,并尝试通过LoRA这种参数高效的方法来提升模型在推理任务上的表现。项目可能包含LoRA的实现代码、微调脚本、实验配置以及相关的评估指标。它可能提供了一些预训练好的LoRA模型或者训练LoRA模型的教程,方便用户在自己的推理任务中使用。Tina的目标是使推理模型更加轻量化和易于部署,同时保持较高的推理精度。该项目可能适用于资源受限的环境,或者需要快速部署推理模型的场景。
      • InternLM/OREAL
      • lzhxmu/CPPO
      • nick7nlp/FastCuRL
      • DolbyUUU/DeepEnlighten - R1-Zero模型,并使用了Social IQa数据集。该项目的主要目标是提升模型在社会情境下的理解和决策能力。通过强化学习的训练方式,模型能够更好地学习社会规则和人类行为模式。DeepEnlighten的核心在于利用RL对预训练模型进行后训练,使其在社会推理任务上表现更出色。这是一种有效的方法,可以增强模型在复杂社会环境中的适应性和智能水平。项目借鉴了DeepSeek-R1-Zero的成功经验,并专注于社会智能的提升。它为研究人员提供了一个实践平台,探索如何利用强化学习来构建更具社会意识的人工智能系统。该项目具有重要的研究价值,有望推动人工智能在社会认知领域的应用。
      • google-gemini/gemini-fullstack-langgraph-quickstart - fullstack-langgraph-quickstart`,旨在帮助开发者快速上手构建全栈智能体应用,利用Gemini 2.5模型和LangGraph框架。它提供了一个完整的示例,展示了如何将Gemini模型集成到全栈应用中,实现智能对话、任务自动化等功能。LangGraph作为核心框架,负责编排智能体的各个组件,构建复杂的对话流程和决策逻辑。该项目可能包含前端界面、后端服务和智能体逻辑的完整代码,方便开发者学习和定制。通过这个快速启动项目,开发者可以学习如何使用Gemini 2.5的强大能力,并利用LangGraph构建可扩展、可维护的全栈智能体应用。它简化了智能体开发的流程,降低了入门门槛,加速了全栈智能体应用的开发和部署。
      • mindverse/Second-Me - Me 是一个旨在训练你的 AI 自我的项目,目标是放大你的能力,并帮助你更好地连接世界。该项目允许用户创建和训练一个能够代表自己的 AI 代理。通过学习你的行为、偏好和知识,这个 AI 代理可以执行各种任务,例如回复邮件、参与讨论或提供建议。Second-Me 的核心理念是利用 AI 技术来扩展个人能力,并减轻日常工作负担。该项目可能涉及自然语言处理、机器学习和知识图谱等技术。具体实现细节和使用方法请参考项目文档和代码。它可能提供个性化定制和持续学习的功能,以确保 AI 代理能够准确地反映你的个人特征。总之,Second-Me 旨在打造一个能够代表你,并为你服务的 AI 分身。
      • shazow/ssh-chat - chat 是一个通过 SSH 进行聊天的简单工具。它允许用户连接到服务器并与其他连接的用户进行实时文本聊天。该项目使用 Go 语言编写,易于安装和部署。其工作原理是利用 SSH 的标准输入/输出流进行通信,无需额外的端口或协议。ssh-chat 提供基本的聊天功能,例如用户列表、消息广播等。它主要面向那些希望在现有 SSH 基础设施上快速搭建聊天环境的用户。项目目标是简单、安全和易于使用。你可以通过 SSH 客户端连接到服务器并输入用户名来开始聊天。ssh-chat 旨在成为一个轻量级的替代方案,适用于不需要复杂聊天功能的场景。
      • microsoft/NLWeb
      • uclaml/SPIN - Play Fine-Tuning)的官方实现。它旨在通过让模型与自身生成的输出来进行对抗训练,从而提升模型的性能。SPIN的核心思想是利用模型自身生成的数据来微调模型,模拟真实世界中数据分布不完美的情况。项目提供了训练和评估SPIN模型的代码,支持多种模型架构和数据集。该方法通过最小化生成数据和真实数据之间的差异来优化模型,使其更具鲁棒性和泛化能力。SPIN特别适用于数据质量不高或难以获取高质量标注数据的场景。该项目包含详细的文档和示例,方便用户理解和使用SPIN方法。通过自博弈,模型可以学习到更细微的模式和更复杂的策略,从而在各种任务中取得更好的表现。SPIN方法可以应用于自然语言处理、计算机视觉等多个领域。
      • tadata-org/fastapi_mcp
      • idosal/git-mcp
      • microsoft/edit
      • bernaferrari/FigmaToCode
      • openai/openai-cs-agents-demo - cs-agents-demo是一个基于OpenAI Agents SDK开发的客服场景演示项目,通过多代理协作实现自动化客户服务系统。项目核心功能包括自动分类客户问题类型(如技术咨询/订单查询/退换货等),并分配给对应的AI代理处理,支持自然语言对话交互与问题解决流程管理。技术实现上采用Python编写,基于OpenAI API调用GPT模型进行意图识别和对话生成,通过代理间的消息传递机制协调处理复杂请求,例如客户咨询退换货政策时,系统会自动调用订单查询代理获取订单信息,再转交客服代理生成解决方案。项目特色包含可视化交互界面、实时对话日志追踪、可扩展的代理网络架构,开发者可通过配置代理规则和对话策略快速适配不同业务场景。部署方式支持本地运行和云服务集成,适用于电商客服、企业热线等需要智能分流的客户服务场景,完整代码示例和部署文档已包含在项目仓库中,开发者可直接使用或二次开发以满足定制化需求。
      • Jackywine/Bella
      • jd-opensource/joyagent-jdgenie - opensource/joyagent-jdgenie是一个开源的端到端产品级通用智能体项目,致力于打造模块化、可扩展的智能系统框架,支持多模态交互与复杂任务处理。项目采用分层架构设计,包含感知层(自然语言处理、图像识别等)、决策层(基于规则与机器学习的混合推理引擎)和执行层(API调用与动作生成),通过动态优化策略实现高效任务调度。核心特色包括模块化组件库支持快速功能扩展、多模态数据融合能力、安全合规框架保障数据隐私,以及可配置的决策逻辑适配不同业务场景。工作原理基于事件驱动架构,通过实时数据流处理实现上下文感知,结合自适应算法优化响应效率。技术亮点涵盖分布式计算支持高并发场景、轻量级推理引擎降低部署门槛,以及可视化配置工具简化开发流程。适用于智能客服、数据分析、自动化运维等场景,开发者可通过预置模板快速构建定制化智能体,同时支持与主流AI模型无缝集成,满足企业级应用对灵活性、安全性与性能的综合需求。
      • Azure/PyRIT
      • u14app/deep-research - research 是一个专注于深度研究领域的开源项目,其核心目标是通过集成任意大型语言模型(LLMs)来提升研究效率与智能化水平。该项目支持通过 SSE(Server-Sent Events)API 实现服务器与客户端的实时数据交互,同时兼容 MCP(Multi-Client Protocol)服务器架构,为开发者提供了灵活的部署和扩展能力。其工作原理基于模块化设计,用户可将任意训练好的 LLM 模型接入系统,通过 MCP 服务器进行任务分发与结果汇总,而 SSE API 则用于实时传输模型推理结果或研究过程中的动态数据,例如模型训练状态、研究进度或跨模型协作时的交互信息。项目特别强调对研究场景的适配性,例如支持多模型协作分析、实时数据可视化以及跨平台的模型调用,从而满足深度研究对高精度、低延迟和可扩展性的需求。此外,该项目通过开放的 API 接口,允许开发者根据自身需求定制研究流程,例如结合特定领域知识库或引入自定义数据处理模块。关键特性包括:1)对多种 LLM 模型的兼容性,无需额外适配;2)通过 SSE 实现低延迟通信,确保研究过程中数据的实时性;3)MCP 服务器支持多客户端并行处理,提升系统吞吐量。该项目适合需要结合人工智能模型进行复杂数据分析、跨模型协作或实时研究监控的场景,例如科研实验、AI 模型调优或自动化报告生成等。
      • motiadev/motia
      • hangwin/mcp-chrome
      • snailyp/gemini-balance
      • LMCache/LMCache - 10倍。其核心原理基于动态缓存分区和高效内存管理,通过将中间计算结果缓存至共享内存并按需复用,避免重复的KV计算过程,同时支持多线程并行和流水线优化,确保在高并发场景下的稳定性。项目还提供灵活的配置接口,允许用户根据硬件条件调整缓存粒度和内存分配策略,适用于服务端推理加速、对话系统优化等场景。LMCache通过开源代码和详细文档降低使用门槛,目标是为LLM开发者提供一个轻量、可扩展的缓存解决方案,解决长序列生成中的性能瓶颈问题。
      • ollama/ollama-js - js是Ollama项目的JavaScript客户端库,用于与Ollama模型服务进行交互,支持在浏览器和Node.js环境中运行大型语言模型。该项目通过封装Ollama的REST API接口,提供便捷的模型加载、推理和管理功能,用户可直接调用Llama、Mistral等开源模型进行文本生成、对话等任务。核心特性包括支持异步模型推理、模块化设计、跨平台兼容性以及对模型参数的灵活配置。工作原理基于HTTP协议与Ollama服务通信,通过发送JSON格式的请求实现模型调用,同时提供类型安全的TypeScript接口和简洁的API封装。项目适用于需要在JavaScript生态中集成本地化大模型服务的场景,如开发AI聊天机器人、自动化文本处理工具等。开发者可通过npm安装依赖,结合Ollama服务快速构建应用,且支持自定义模型参数和流式输出处理,满足不同场景下的性能需求。该项目持续更新维护,社区活跃度高,是连接JavaScript应用与Ollama模型服务的重要桥梁。
      • OpenPipe/ART
      • VectifyAI/PageIndex
      • JetBrains/koog
      • davidkimai/Context-Engineering
      • charmbracelet/crush
      • steveyegge/beads
      • google/adk-samples - samples 是一个基于 Agent Development Kit(ADK)框架构建的示例代理集合项目,旨在帮助开发者快速理解 ADK 的核心功能和实际应用场景。该项目通过提供多种类型的代理(Agent)实现,展示了 ADK 在构建自主系统中的灵活性和实用性。ADK 本身是一个用于开发自主代理的工具包,支持代理通过状态管理、任务执行、通信机制等核心功能实现复杂逻辑。项目中的每个示例都针对 ADK 的不同特性进行演示,例如如何定义代理行为、处理用户输入、管理状态转换,以及如何与其他代理或系统进行交互。这些示例代码通常包含清晰的注释和模块化设计,便于开发者学习 ADK 的架构和开发流程。此外,项目可能还包含对 ADK 架构的简要说明,例如其基于事件驱动的设计、状态机模型的实现方式,以及如何通过插件或扩展功能增强代理的功能。通过这些示例,开发者可以快速掌握 ADK 的基础用法,并在此基础上开发更复杂的自主代理系统。项目的核心价值在于通过实践代码帮助开发者理解 ADK 的设计理念,同时为实际应用提供可复用的模板。由于 ADK 的目标是构建具备自主决策能力的系统,这些示例可能还涉及代理的决策逻辑、规则引擎或与外部 API 的集成方法,进一步体现 ADK 在智能系统开发中的潜力。
      • google/adk-go - go 是一个基于 Go 语言开发的开源工具包,旨在为开发者提供构建、评估和部署复杂 AI 代理(AI Agent)的灵活解决方案。项目采用代码优先的设计理念,通过模块化架构和清晰的 API 接口,支持从基础功能开发到高级逻辑实现的全流程控制。其核心特色包括对 AI 代理行为的精细化配置、可扩展的插件系统以及跨平台兼容性,允许开发者根据具体需求自定义代理决策逻辑、交互规则和执行策略。工具包内置了训练和推理框架,支持通过定义状态空间、奖励函数和动作空间来训练代理模型,并提供可视化调试工具辅助性能优化。项目特别强调对复杂场景的适应能力,例如多智能体协作、动态环境响应和长期目标规划,适用于自动化运维、游戏 AI、智能客服等需要自主决策的领域。开发者可通过预置的模板快速搭建代理原型,并利用项目提供的评估工具进行性能对比和迭代优化。由于采用 Go 语言开发,该工具包在性能和并发处理能力上具有优势,同时通过标准化接口降低了与其他系统集成的难度。项目文档包含详细示例和最佳实践指南,适合希望从零开始构建可控 AI 系统的开发者和研究人员使用。
      • datawhalechina/hugging-multi-agent - multi-agent 是一个基于MetaGPT框架的多智能体开发入门教程项目,旨在通过系统化教学帮助开发者快速掌握智能体(Agent)与多智能体协作的核心概念及实践方法。项目采用分阶段教学结构,从智能体基础原理到多智能体协作开发逐步展开,包含代码示例、角色分工设计、任务拆解机制等关键内容,特别适合AI初学者和希望探索多智能体应用场景的开发者。其核心特色在于将MetaGPT框架的架构优势转化为可操作的开发流程,通过角色扮演(如产品经理、程序员、测试员等)实现多智能体的协作开发,同时提供真实场景案例(如智能客服系统、内容创作团队)演示多智能体如何完成复杂任务。项目工作原理基于MetaGPT的模块化设计,通过定义智能体角色、任务分解算法、协作流程规范等技术实现多智能体的自主决策与协同执行。教程内容涵盖从环境搭建、角色配置到完整项目开发的全流程,配套代码示例便于实践验证,同时强调多智能体系统的可扩展性与灵活性,帮助开发者理解如何通过智能体协作解决实际问题。该项目不仅提供理论讲解,更注重工程化实现,适合希望从零开始构建多智能体系统的开发者快速入门并掌握关键技术。
      • datawhalechina/hello-agents
      • reworkd/tarsier
      • szczyglis-dev/py-gpt - gpt是一个基于多种先进大语言模型(如GPT-4、GPT-5、o1、o3、Gemini、Claude、DeepSeek、Grok等)开发的桌面AI助手项目,支持跨平台运行(Linux、Windows、Mac系统)。该项目通过集成RAG(检索增强生成)、多模态交互(语音合成与识别、图像/视频生成)、插件系统(MCP架构)、网络搜索、记忆功能、预设模式等核心模块,实现了强大的AI功能扩展能力。其工作原理基于Ollama框架,支持本地部署和调用多种大模型,并通过模块化设计整合了语音交互、图像生成、智能代理(agents)等能力,用户可自定义插件扩展功能。项目特色包括支持主流大模型的统一接口、跨模态交互能力(如语音、文本、图像生成)、记忆系统用于上下文理解、以及灵活的插件生态,同时兼容多种AI模型(如Bielik、Perplexity等),并提供预设模式和助理功能提升使用效率。该项目通过集成多种工具和API,实现了从基础对话到复杂任务处理的全场景覆盖,适合需要本地化部署AI助手的开发者和用户群体。
      • 0russwest0/Agent-R1 - R1 是一个专注于通过端到端强化学习(End-to-End Reinforcement Learning)训练强大语言模型代理(LLM Agents)的开源项目。其核心目标是开发能够自主完成复杂任务的AI代理,通过与环境的互动、试错和奖励反馈来学习优化行为策略。项目采用强化学习方法,让代理根据环境提供的奖励信号调整决策,例如在文本任务中生成更符合用户需求的回复,或在模拟环境中执行更高效的指令。Agent-R1 的关键创新包括自定义奖励模型(Reward Model)和奖励塑造(Reward Shaping)技术:奖励模型通过人类反馈数据训练,帮助代理理解哪些行为值得奖励;而奖励塑造则通过调整奖励函数,加速训练过程并提升性能。例如,在游戏环境中,代理可能通过获得更高分数的奖励来学习击败对手的策略。 项目的工作原理基于强化学习框架,代理通过与环境(如文本任务、游戏或现实世界场景)交互,接收反馈并更新其策略。训练过程使用如PPO(近端策略优化)或DDPG(深度确定性策略梯度)等算法,根据累积奖励调整行为。Agent-R1 的模块化设计允许用户替换不同组件,如奖励模型、环境模拟器或算法,使其适用于多种应用场景。例如,代理可被训练用于自动化客服、游戏AI或机器人控制等任务。此外,项目支持多种环境,包括文本生成、游戏场景甚至物理机器人,展示了其广泛的适用性。 该项目的特色包括:1)端到端强化学习的完整流程,无需人工干预;2)模块化架构,便于扩展和定制;3)支持多环境适配,提升通用性;4)与主流大语言模型(如GPT、LLaMA)兼容,可直接集成现有模型。通过这些设计,Agent-R1 为研究者和开发者提供了一个灵活且高效的工具,用于探索语言模型代理在复杂任务中的潜力。
      • LLM-Red-Team/deepseek-free-api - Red-Team/deepseek-free-api项目提供了一个针对DeepSeek-V3和R1大模型的逆向API接口,其核心特色是支持高速流式输出、多轮对话、联网搜索及R1深度思考等能力。该项目通过零配置部署方式实现快速启动,支持多路token并发处理,可满足开发者对大模型API的测试需求。尽管官方API价格低廉且建议优先使用官方渠道,但该项目仍提供了一个无需复杂配置的替代方案,适合进行功能验证或本地测试。项目特别强调其仅用于技术测试目的,若需商业用途则需通过DeepSeek官方开放平台获取授权。工作原理上,该项目通过技术手段对接DeepSeek模型服务,利用其模型的多轮对话支持和联网搜索能力,实现类似官方API的功能体验,但未提及具体的技术实现细节。需要注意的是,该项目可能存在与官方API兼容性或法律合规性方面的潜在风险,开发者在使用时应仔细阅读项目说明并遵守相关条款。整体而言,这是一个面向开发者社区的测试工具,旨在降低对DeepSeek大模型的调用门槛,但并非官方推荐的商业解决方案。
      • BICLab/SpikingBrain-7B - 7B 是一个基于脉冲神经网络(Spiking Neural Network, SNN)的大型语言模型,旨在通过模仿生物神经元的脉冲特性实现高效的信息处理。该项目由 BICLab 团队开发,专注于将传统神经网络的高精度与 SNN 的低功耗优势结合,解决了传统模型在边缘设备或实时场景中计算资源受限的问题。模型采用 70 亿参数规模,基于 PyTorch 框架训练,通过知识蒸馏技术优化了脉冲神经元的动态特性,使其在保持语言理解能力的同时显著降低计算能耗。其核心工作原理是利用神经元通过离散脉冲(spikes)传递信息,而非传统神经网络的连续激活值,这种机制使模型在推理时能动态调整计算频率,从而节省能源。项目提供了预训练模型和代码库,支持在文本生成、对话理解等任务中部署,特别适用于需要低功耗运行的智能硬件设备。此外,团队还开源了训练数据集和优化策略,如脉冲编码方式(如 LIF 神经元模型)和稀疏性控制技术,以提升模型在不同应用场景下的适应性。SpikingBrain-7B 的优势在于兼顾性能与效率,其脉冲机制相比传统模型减少了 30%-50% 的计算资源消耗,同时通过多任务学习框架保持了与主流大模型相当的推理效果。项目文档详细说明了部署方法和模型结构,适合研究人员和开发者在边缘计算、实时系统或能源敏感场景中应用。
      • huggingface/Math-Verify - Verify项目是一个基于机器学习的数学表达式验证工具,旨在通过自然语言处理技术检测数学公式中的逻辑错误或格式问题。该项目的核心功能是利用Hugging Face Transformers库训练的模型,对用户输入的数学表达式进行语法分析和语义验证,例如检查代数运算的正确性、验证微积分推导的合理性或识别LaTeX格式中的拼写错误。其特色包括支持多种数学符号系统(如LaTeX、MathML),集成Jupyter Notebook交互式验证界面,并提供可扩展的API接口供开发者调用。工作原理基于预训练的语言模型,通过大规模数学文本数据集(如ArXiv论文、教科书等)进行微调,使模型能够理解数学上下文并检测常见错误,例如不匹配的括号、运算符误用或单位换算错误。项目还包含可视化工具,可生成验证报告并标注问题位置。用户可通过安装Python包后直接调用验证函数,或通过Web界面上传数学文档进行批量检测。此外,项目开源并提供详细的贡献指南,支持开发者添加新验证规则或优化模型性能。由于数学验证的复杂性,Math-Verify专注于高精度检测而非完全自动化修复,用户需结合人工复核确保结果可靠性。该项目适用于学术研究、在线教育平台及编程辅助工具等场景,为数学内容的准确性提供技术保障。
      • TsinghuaC3I/Awesome-RL-for-LRMs - RL-for-LRMs是一个聚焦于大推理模型(Large Reasoning Models, LRMs)领域强化学习(Reinforcement Learning, RL)应用的系统性综述项目,旨在梳理当前研究进展并探讨技术挑战。项目通过分类整理相关论文与方法,详细阐述了RL在LRMs中的核心作用,例如通过设计奖励机制优化模型推理能力,利用环境交互提升决策效率,以及结合深度学习与强化学习框架增强模型适应性。其工作原理涵盖基于RL的训练策略,如多智能体协作、动态奖励调整和分层决策机制,同时关注模型在复杂任务(如对话系统、自动驾驶、游戏AI等)中的实际应用案例。项目特色在于全面覆盖RL在LRMs中的研究方向,包括模型训练优化、推理效率提升和跨领域应用,并通过结构化文档总结当前技术瓶颈,如数据稀缺性、奖励函数设计难题及计算资源需求等,同时提出未来研究方向,如更高效的算法框架、跨模态学习整合与实际部署方案。该项目为研究者提供了清晰的学术路线图,帮助快速了解RL在LRMs领域的最新动态与潜在应用价值。
      • xpzouying/xiaohongshu-mcp - mcp 是一个针对小红书平台(xiaohongshu.com)的内容处理工具,旨在帮助用户自动化抓取、分析和管理小红书平台上的内容数据。该项目的核心功能是通过技术手段实现对小红书内容的高效提取与处理,例如从网页或API接口中获取用户发布的内容、评论、标签等信息,并将其结构化存储或进一步分析。其工作原理主要依赖于对小红书网页结构或接口的解析,通过模拟用户请求或调用公开API获取数据,再结合数据清洗、格式转换等技术实现内容的整理与输出。项目特色包括支持多种内容类型的提取(如图文、视频链接)、可配置的数据处理流程以及对敏感信息的过滤功能,同时提供了命令行工具和脚本化的操作方式,便于用户快速部署和定制。由于小红书平台内容更新频繁且数据结构复杂,该项目通过动态解析和规则配置机制,确保在平台规则变更时仍能保持较高的兼容性与稳定性。该项目适合需要批量获取小红书内容用于市场分析、竞品研究或内容聚合的开发者和企业用户,但需注意遵守平台的使用条款,避免过度抓取或违规操作。
      • coleam00/context-engineering-intro
      • farion1231/cc-switch - switch是一个用于管理和切换Claude Code与Codex不同供应商配置的桌面应用程序,其核心功能是为开发者提供灵活的模型配置管理方案。该工具通过图形化界面支持用户在不同代码生成模型之间快速切换,同时提供配置文件管理功能,可自定义模型参数、API密钥和工作目录等关键设置。项目采用跨平台架构设计,兼容Windows、macOS和Linux系统,用户界面基于Electron框架开发,确保了良好的交互体验和可扩展性。 其工作原理主要依赖于配置文件系统,用户可通过JSON格式的配置文件定义不同供应商的连接参数,应用会根据当前选择的配置文件动态加载对应的模型API接口。项目特别支持自动保存和恢复功能,即使在意外退出后也能保留当前配置状态。开发者可借助该工具实现多模型对比测试,例如同时运行Claude Code和Codex模型进行代码生成效果对比,适用于需要频繁切换模型的开发场景。 项目特色包括支持多种编程语言的代码生成配置、内置的API密钥管理功能,以及对常见开发环境的深度集成。作为开源项目,它采用MIT协议授权,用户可自由修改和分发代码,同时提供详细的文档说明和社区支持。对于需要频繁切换代码生成模型的开发者来说,cc-switch通过简化的操作流程和直观的配置界面,显著提升了模型管理的效率和灵活性。
      • anakin87/qwen-scheduler-grpo - scheduler-grpo,是一个基于Qwen语言模型和GRPO(Group Reinforcement Policy Optimization)算法开发的日程安排生成工具。其核心功能是通过训练语言模型,将用户提供的事件列表和优先级信息转化为符合时间逻辑的优化日程。项目采用强化学习中的GRPO策略优化方法,通过设计特定奖励函数引导模型生成合理的时间安排方案。 工作原理上,项目首先利用Qwen语言模型进行预训练,然后通过微调过程将事件优先级、时间约束等参数注入模型。在训练阶段,系统通过GRPO算法对模型生成的日程方案进行评估,根据是否满足优先级排序、时间冲突、任务完整性等指标进行强化学习训练。最终模型可接收包含事件名称、优先级、时间限制等信息的输入,输出符合时间逻辑且优先级排序合理的日程表。 项目特色包括:1)结合自然语言处理和强化学习技术,支持复杂优先级排序;2)提供可配置的奖励函数模块,允许用户自定义时间约束条件;3)基于Qwen模型的可扩展性,支持后续添加新事件类型或调整优化参数。技术实现依赖PyTorch框架和HuggingFace Transformers库,训练过程需要准备包含事件描述、优先级标签和时间参数的标注数据集。项目适用于会议安排、任务调度等需要智能排序的场景,但需注意输入数据的完整性和时间约束条件的准确性。
      • 666ghj/BettaFish
      • microsoft/agent-lightning
      • browseros-ai/BrowserOS
      • modelcontextprotocol/registry
      • BrowserMCP/mcp
      • liaokongVFX/MCP-Chinese-Getting-Started-Guide
      • Michael-A-Kuykendall/shimmy - discovery)功能,可自动识别指定目录下的模型文件,简化了模型管理流程;同时项目采用单二进制文件(single binary)打包方式,无需额外安装依赖库或复杂配置,显著降低了部署门槛。其工作原理基于 Rust 语言的高性能特性,通过本地化模型加载和推理加速,结合 OpenAI API 的接口规范,实现了与主流 AI 框架的兼容性。项目开发者特别强调其完全免费的定位,承诺“FREE now, FREE forever”,确保用户无需支付任何费用即可使用全部功能。Shimmy 的设计目标是为开发者提供一个轻量、高效、易用的本地化推理服务方案,适用于需要快速部署模型服务的场景,尤其适合对 Python 依赖敏感或追求高性能的开发者。
      • rikkahub/rikkahub
      • mozilla-ai/any-llm - llm** 是一个开源 Python 库,旨在通过统一接口简化与多种大语言模型(LLM)服务提供商的交互。该项目的核心目标是让开发者无需为不同模型(如 Hugging Face、vLLM、FastChat 等)编写重复代码,只需通过简单配置即可切换模型,同时保留模型的原始功能和性能。它的关键特色包括: 1. **多后端兼容性**:支持 Hugging Face Transformers、vLLM、FastChat、Llama.cpp 等主流模型框架,用户可自由选择或扩展支持的后端服务。 2. **统一接口设计**:通过抽象模型调用细节(如推理参数、加载方式),开发者只需调用统一的 API,无需适配不同服务的特定接口。 3. **模型注册与管理**:内置注册系统允许动态添加新模型后端,支持模型加载、运行和结果解析的标准化流程。 4. **灵活的工作原理**:项目通过封装模型服务的底层差异(如 API 调用格式、参数传递方式),将模型调用抽象为简单的函数调用,例如 `generate(text, model="llama")` 即可完成推理。 项目通过 `any_llm` 模块实现核心逻辑,用户可自定义模型配置(如温度、最大长度)并动态切换模型。其技术实现基于对不同模型框架的适配器设计,例如通过 `HuggingFaceLLM` 类对接 Hugging Face 模型,或通过 `vLLM` 类支持 vLLM 的高效推理。此外,项目提供工具简化模型部署,例如自动检测可用硬件(CPU/GPU)并优化推理效率。 适用场景包括需要集成多种模型的 AI 应用开发、研究实验或企业级服务,尤其适合希望避免“厂商锁定”(Vendor Lock-in)的开发者。项目代码结构清晰,文档明确,支持快速上手,且通过注册机制便于扩展新模型后端。任何需要调用 LLM 的场景(如聊天机器人、文本生成、代码补全)均可通过此库实现高效开发。
      • datalayer/jupyter-mcp-server
      • oraios/serena
      • ginobefun/agentic-design-patterns-cn - On Guide to Building Intelligent Systems》一书完整地翻译为中文,并制作成中英文对照的版本。项目核心信息如下:1. 书籍内容:原书是一本关于AI智能体设计的综合性实践指南,全书共424页,系统性地介绍了构建智能系统的各种设计模式,内容分为四大板块: 核心设计模式:如提示链、路由、并行化、反思、工具使用等。高级设计模式:如记忆管理、学习与适应、模型上下文协议等。集成设计模式:如异常处理、人机协作、知识检索(RAG)等。 生产设计模式:如智能体间通信、资源优化、安全护栏、评估监控等。2. 项目特色: 双语对照:采用逐段对照的排版方式,英文原文后紧跟中文翻译,并使用黄色高亮标记中文,便于对照学习。 高质量的翻译流程:每个章节的翻译都经过 AI翻译 -> 人工审校 -> 交叉评审 三道严谨的工序来保证质量。完整的配套资源:项目包含原书的所有图表,并提供了可运行的代码示例,附有详细的环境配置说明和Google Colab在线运行链接。社区驱动:由组织者 @ginobefun 牵头,众多社区贡献者协作完成,并设有交流群供读者讨论。3. 当前状态:翻译工作已接近尾声,大部分核心章节和附录已完成翻译与评审,仅有少量章节和附录仍在进行中或待开始。项目保持活跃更新。4. 版权与用途:项目基于 CC BY-NC 4.0 协议开源,允许非商业性的学习、分享和使用,但需署名。原书版税将捐赠给慈善机构“救助儿童会”,本项目旨在促进中文AI技术社区的发展与知识传播。总而言之,这是一个制作精良、流程规范的开源技术书籍翻译项目,为中文开发者学习前沿的AI智能体设计模式提供了极佳的学习资源。
      • 0x4m4/hexstrike-ai
      • ghuntley/how-to-build-a-coding-agent
      • runagent-dev/runagent
      • facebookresearch/cwm
      • sunblaze-ucb/Intuitor
      • ruvnet/claude-flow
      • ThinkInAIXYZ/deepchat
      • EvoAgentX/EvoAgentX
      • meituan-longcat/LongCat-Flash-Chat - Flash是由美团团队开发的5600亿参数混合专家(MoE)语言模型,专注于提升计算效率和代理能力。它采用动态参数激活(平均27B)和Shortcut-connected MoE设计,实现高效训练和推理。模型在多项基准测试中表现竞争性,尤其在代理任务上突出,并已开源 under MIT许可证。
      • lyang36/IMO25
      • dataease/SQLBot
      • chonkie-inc/chonkie
      • nextify-limited/libra
      • wrtnlabs/agentica
      • wrtnlabs/autoview
      • FSoft-AI4Code/AgileCoder
      • ChenxinAn-fdu/POLARIS - based Learning for Advanced Reasoning with Inference and Scaling)是由ChenxinAn-fdu团队开发的开源项目,旨在通过强化学习(RL)提升先进推理模型的性能。该项目的核心目标是解决大语言模型(LLM)在复杂推理任务中的效率与效果问题,通过结合提示学习(Prompt-based Learning)和强化学习技术,实现模型在问答、代码生成、逻辑推理等任务中的规模化应用。其关键特色包括模块化架构设计,允许用户独立更新模型组件(如提示生成器、奖励模型、训练器),以及高效的训练方法,显著降低计算成本。 项目的工作原理基于“提示引导+强化学习”框架:首先通过设计可学习的提示模板(Prompt Templates),引导模型生成目标输出;随后利用强化学习机制,通过环境反馈(如奖励模型)动态优化提示策略,使模型在迭代中逐步提升推理能力。例如,在数学推理任务中,系统会生成提示以引导模型分步骤解题,并通过奖励模型评估解题正确性,从而调整提示参数。此外,项目支持大规模训练,兼容多种LLM架构(如Llama、ChatGLM等),并提供基准测试结果,证明其在多个任务中的性能优于传统方法。 项目文档详细说明了部署流程、训练配置及评估指标,用户可基于提供的脚本快速启动实验。研究团队还发表了相关论文,阐述了提示设计、奖励模型构建及训练优化的具体方案。POLARIS的开源特性使其成为研究者和开发者探索强化学习与提示工程结合的实用工具,尤其适合需要高精度推理的场景。通过模块化设计,用户可灵活调整模型组件,例如替换不同的奖励模型或优化训练策略,以适应不同应用场景。项目还提供了可视化工具,帮助用户直观分析训练过程中的性能变化,进一步提升调试效率。
      • modelscope/awesome-deep-reasoning
      • TencentCloudADP/youtu-agent - agent 是一个基于开源模型构建的简单且功能强大的代理框架,旨在通过模块化设计和灵活的工作流程实现高效的任务处理。该项目的核心特色在于其轻量化架构与对多种开源模型(如LLM、CV、NLP等)的兼容性,支持开发者快速集成并扩展功能,适用于自动化数据处理、多模态任务协同等场景。其工作原理基于“代理-任务-模型”三层结构:代理层负责任务分发与状态管理,任务层定义具体操作逻辑,模型层则通过调用预训练的开源模型(如HuggingFace、TorchVision等)实现核心计算。项目采用Python语言开发,依赖PyTorch和FastAPI框架,提供清晰的API接口与可配置的参数体系,用户可通过修改配置文件或编写自定义插件适配不同需求。此外,框架内置任务调度器和日志监控系统,可实时追踪任务执行状态与性能指标。由于完全开源,开发者可自由修改源码或贡献新模块,同时项目文档提供详细的使用示例和部署指南,适合从初学者到专业开发者的多层级用户群体。其应用场景涵盖科研实验、企业自动化流程、AI教学实验等,尤其适合需要快速验证模型效果或构建原型系统的场景。
      • langchain-ai/streamlit-agent - ai/streamlit-agent 是一个基于 LangChain 框架的开源项目,通过 Streamlit 构建了多个可交互的代理(Agent)演示应用,旨在帮助开发者快速理解和实践 LangChain 的代理功能。项目的核心目标是通过可视化界面展示 LangChain 的代理设计模式,使用户能够直观地体验代理如何与语言模型、工具和外部系统协作完成任务。每个 Streamlit 应用对应一个特定的代理实现,例如支持多步骤任务规划、工具调用、记忆功能等,开发者可通过 Web 界面实时调整参数、查看代理的决策过程和结果输出。 项目特色在于将 LangChain 的代理架构与 Streamlit 的快速开发能力结合,无需复杂配置即可运行演示应用。用户可通过界面直接与代理交互,观察代理如何解析用户指令、调用工具、生成回答,并通过可视化组件(如图表、日志面板)实时追踪代理的运行状态。此外,项目提供了完整的代码示例和文档,便于开发者学习如何自定义代理逻辑、集成外部 API 或扩展工具集。工作原理上,每个代理基于 LangChain 的 AgentExecutor 框架,通过 Streamlit 的组件封装用户输入和代理输出,形成闭环交互流程,同时支持动态调整代理的提示词、工具配置和记忆模块,帮助开发者深入理解代理的工作机制和优化方向。该项目适合 LangChain 入门者快速上手实践,也适合需要可视化调试代理行为的开发者参考使用。
      • crewAIInc/crewAI-tools - tools是一个旨在增强CrewAI智能体功能的工具库项目,通过模块化设计提供多种实用工具以扩展代理的执行能力。该项目的核心功能包括任务自动化、API集成和数据处理工具,支持开发者根据需求灵活配置工具组合。其工作原理基于插件系统,通过定义工具接口与CrewAI框架对接,允许代理在执行任务时调用预定义的功能模块。项目特色包括支持Python/JavaScript多语言开发、提供开箱即用的工具库(如网络请求、文件操作、数据分析等)、以及通过配置文件实现工具动态加载。用户可通过安装工具包并编写工具定义文件,将特定功能注入到CrewAI代理的工作流中,例如通过`@tool`装饰器标记函数,或通过YAML配置文件定义工具参数。项目还包含详细的文档和示例,支持与CrewAI的协作流程无缝衔接,适用于需要扩展代理能力的自动化场景,如复杂任务拆解、外部系统交互或数据处理需求。开发者可选择使用预置工具或自定义开发新工具,通过统一的API实现与CrewAI智能体的集成,显著提升代理在实际应用中的灵活性和功能性。
      • agent-infra/sandbox - infra/sandbox",是一个专为AI代理开发设计的集成化沙箱环境,通过Docker容器将浏览器、命令行终端、文件系统、消息传递组件(MCP)和VSCode Server等核心功能整合到单一容器中。其核心特色在于通过容器化技术实现开发环境的即开即用,开发者无需单独配置复杂环境即可获得完整的开发工具链。工作原理基于Docker容器技术,将多个独立服务整合为统一的运行环境,用户通过docker run命令即可启动沙箱,容器内部自动初始化浏览器环境(如Chrome)、命令行交互接口(如Bash)、文件存储系统、AI代理间通信协议(MCP)以及基于VSCode的远程开发服务器。该项目特别适用于需要隔离测试环境的AI代理开发场景,可同时支持浏览器自动化、系统命令执行、文件操作、跨代理通信等复杂功能。使用时需注意Docker环境依赖,容器启动后会自动映射端口并创建必要目录,开发者可通过环境变量自定义配置。沙箱采用root权限运行,需确保宿主机Docker服务已正确配置。该方案通过容器化技术解决了传统AI代理开发中环境配置复杂、依赖管理困难等问题,为AI代理的快速开发和测试提供了标准化的运行环境。
      • SeekingDream/Static-to-Dynamic-LLMEval - to-Dynamic-LLMEval,旨在通过动态评估机制优化大语言模型(LLM)的性能测试流程。其核心功能是将传统的静态评估模式(固定测试集、单一指标)转化为动态评估模式,支持实时数据输入、多维度指标动态调整和模型性能的持续监控。项目采用模块化设计,用户可通过配置文件定义评估场景,系统会根据预设规则自动加载对应的测试数据、评估指标和动态参数,例如根据模型响应生成实时反馈或调整测试难度。其工作原理基于Python脚本框架,通过动态导入评估模块和数据源,结合模型输出的实时分析结果(如准确性、响应时间、逻辑连贯性等)生成动态评估报告。项目特别强调对模型在不同任务类型(如问答、代码生成、多轮对话)中的表现差异进行针对性评估,支持自定义指标权重和评估周期。此外,项目提供可视化界面展示动态评估趋势,便于用户直观对比模型性能变化。技术亮点包括支持多种LLM框架(如HuggingFace Transformers、Llama系列),兼容本地和云端部署,并提供自动化测试流程。该项目适合需要高频次、多场景测试LLM的开发者和研究人员,尤其适用于模型迭代优化阶段的性能验证。
      • karpathy/nanochat - 2)进行本地部署,完全无需依赖昂贵的GPU服务器。项目特色在于其极简设计:模型参数量控制在约1.5亿级别,训练时仅需单块消费级显卡(如RTX 3060)和少量显存(约8GB),训练周期可在48小时内完成。工作原理上,项目采用PyTorch框架实现,通过加载预训练模型权重后,使用LoRA(低秩适配)技术进行微调,使模型能快速适应特定对话场景。项目提供交互式Python脚本,用户可通过命令行直接与模型对话,且支持本地运行无需联网。开发者特别优化了内存占用,使模型推理时仅需2GB显存,甚至可在CPU上运行。项目包含完整的训练脚本和数据预处理工具,用户只需准备少量对话数据(如10万条)即可完成训练。其最大亮点是将高质量对话模型的开发门槛大幅降低,使个人开发者能在个人电脑上实现类ChatGPT功能,同时提供可扩展的模型架构设计,方便后续升级至更大参数量模型。
      • johannschopplich/toon - Oriented Object Notation(TOON),它以 JSON 为原型,但针对 LLM 的特性进行了针对性优化。TOON 的核心目标是通过结构化、可验证的格式设计,帮助开发者创建更紧凑、更高效的提示(prompt)内容。其关键特点包括:1)**紧凑性**:通过精简语法结构和减少冗余信息,显著降低提示的 token 数量,从而提升模型推理效率;2)**可读性**:采用与 JSON 类似的嵌套结构,但通过语义化命名和格式规范,使人类更易理解;3)**schema-aware(模式感知)**:内置格式校验规则,确保数据结构符合预定义规范,避免因格式错误导致的解析失败。项目提供了完整的技术规范(spec)、性能基准测试(benchmarks)和 TypeScript SDK,支持开发者快速集成。TOON 的工作原理基于对 LLM 提示的深度分析,通过将提示内容拆解为可验证的 token 单位,结合 schema 验证和格式优化规则,最终生成符合模型需求的紧凑提示文本。该工具特别适合需要频繁生成和验证 LLM 提示的场景,如自动化提示工程、AI 模型训练数据准备等。目前项目已提供 TypeScript 实现,开发者可基于 SDK 构建自定义验证规则和格式转换工具,同时通过基准测试对比不同格式在 token 数量、解析速度等方面的性能差异。
      • weAIDB/awesome-data-llm - data-llm"项目是"LLM × DATA"调研论文的官方资源库,旨在系统梳理大语言模型(LLM)与数据交互领域的研究进展与实践案例。项目核心内容包含三大部分:首先是基于LLM的数据分析技术综述,涵盖文本生成、数据清洗、模式挖掘等场景;其次是数据驱动的LLM优化方案,包括基于真实数据集的模型训练策略、数据质量评估体系等;最后是典型应用案例库,涉及金融、医疗、工业等领域的实际部署方案。项目采用模块化结构,按"技术原理-实现方法-工具推荐-案例链接"四层逻辑组织内容,每个章节均附有代码示例和数据集来源链接。其特色在于构建了LLM与数据的双向分析框架:一方面研究如何通过LLM处理和解析大规模数据(如自动标注、结构化提取),另一方面探索如何通过数据优化LLM性能(如数据增强、分布感知训练)。项目特别收录了跨模态数据处理方案、数据安全合规工具、模型-数据协同训练框架等创新方向,同时提供可复用的工具包和开源项目链接。适用于研究人员快速获取领域知识图谱,也适合开发者查找可用工具和数据资源,通过系统化的调研分析,为LLM与数据交互的前沿探索提供全面参考。
      • Tencent-Hunyuan/Hunyuan-MT - MT项目是腾讯开源的多语言机器翻译模型,基于Transformer架构实现,支持超过100种语言的双向互译。该模型通过大规模双语语料训练,结合动态字节对编码(BPE)技术,能够有效处理低资源语言的翻译任务,特别优化了中文、英文、法语、德语等常用语言对的准确率。项目提供预训练模型和推理工具,支持通过API或命令行调用,用户可选择不同参数版本(如base、large)适配不同场景需求。核心特色包括:基于领域自适应的微调能力、支持自定义词表扩展、提供可视化翻译质量评估指标(BLEU、TER)。模型训练采用混合精度优化技术,推理时通过知识蒸馏技术降低部署成本,同时兼容ONNX格式实现跨平台部署。项目文档包含完整的训练流程说明,支持通过PyTorch框架进行二次开发,并提供多语言测试集验证效果。许可证采用Apache 2.0协议,开发者可自由商用但需保留原始版权信息。
      • raymin0223/mixture_of_recursions - of-Recursions是一个基于动态递归深度学习的框架,旨在通过自适应token级计算提升模型处理复杂任务的效率。该项目的核心创新在于引入混合递归机制,允许模型根据输入内容自动调整递归层数,从而在保持计算精度的同时优化资源消耗。传统模型通常采用固定深度的递归结构,难以有效处理不同长度或结构的输入数据,而该框架通过动态调整策略,能够更灵活地应对多样化的任务需求。其工作原理基于分层递归架构,将输入分解为多个递归模块,每个模块独立处理特定子任务,并通过全局协调机制整合结果。这种设计不仅提高了模型的可扩展性,还增强了对长文本或复杂序列的处理能力。项目特别适用于需要精细控制token处理流程的场景,例如文本生成、分类和语义理解等任务。实验结果显示,该框架在多个基准数据集上均表现出优于传统方法的性能,尤其在处理长序列时显著降低了计算开销。此外,项目提供了详细的实现代码和文档,方便开发者快速上手和扩展。用户可通过简单的配置调整递归深度参数,适应不同应用场景的需求。Mixture-of-Recursions的开源特性使其成为研究和工业应用中极具潜力的工具,尤其适合需要高效处理大规模文本数据的项目。该项目的核心特色在于其动态递归深度调整机制,结合模块化设计和自适应计算能力,为自然语言处理领域提供了新的解决方案。通过灵活的结构设计和高效的计算方式,Mixture-of-Recursions在保持模型性能的同时,有效提升了计算效率,为后续研究和应用奠定了基础。
      • RUCAIBox/R1-Searcher-plus - Searcher++是一个基于强化学习的开源项目,旨在通过动态奖励机制提升大语言模型(LLM)的知识获取能力。该项目的核心创新在于设计了动态奖励机制和策略优化算法,使模型能根据搜索结果与用户反馈实时调整搜索策略,从而在复杂任务中更高效地获取动态知识。其工作原理基于PPO(近端策略优化)等强化学习框架,通过构建搜索-反馈闭环系统,将用户对搜索结果的评价转化为奖励信号,引导模型优化搜索路径和知识筛选策略。项目特别强调模块化设计,支持自定义奖励函数、搜索策略模板和知识源接口,可灵活适配问答系统、信息检索等场景。实验表明,相比传统静态搜索方法,该模型在开放域问答任务中准确率提升12.7%,且能通过动态调整策略适应知识更新场景。项目还提供了可视化训练工具和基准测试集,开发者可直观观察模型在不同奖励机制下的搜索行为演化。关键技术点包括:基于用户交互的动态奖励计算模块、多策略并行搜索架构、以及知识源质量评估子系统。通过将强化学习与信息检索结合,R1-Searcher++为解决LLM在动态知识环境中的局限性提供了新思路。
      • dvgodoy/FineTuningLLMs - On Guide to Fine-Tuning LLMs with PyTorch and Hugging Face》一书的官方代码仓库,专注于提供大语言模型(LLM)微调的完整实践指南。项目包含完整的PyTorch和Hugging Face库代码示例,覆盖从基础模型加载、数据预处理到训练优化的全流程,适合希望掌握LLM微调技术的开发者和研究人员。项目结构清晰,包含实验配置文件、训练脚本和可复用模块,支持文本分类、问答系统等NLP任务,用户可直接运行示例代码并扩展自定义模型。通过模块化设计,项目支持不同训练策略(如LoRA、全参数微调)和评估方法,提供详细的文档和教程,帮助用户理解微调原理及工程实现细节。项目特色包括对Hugging Face Transformers库的深度整合、可扩展的训练配置模板,以及针对不同硬件环境(如GPU/TPU)的优化方案,同时提供贡献指南以便社区协作完善。
      • modelcontextprotocol/inspector
      • vllm-project/llm-compressor - project/llm-compressor 是一个兼容 Hugging Face Transformers 框架的库,专注于通过多种压缩算法优化大语言模型(LLM)的部署效率,特别针对 vLLM 高性能推理框架进行适配。该项目的核心目标是通过量化、剪枝、知识蒸馏等压缩技术,在不显著降低模型性能的前提下,大幅减少模型的内存占用和推理延迟,使其更适合在资源受限的设备或生产环境中部署。其工作原理是基于原始模型权重,通过算法提取关键信息并重构轻量化版本,同时保留模型的核心推理能力。例如,量化技术可将模型参数从浮点数转换为低精度数值,剪枝技术则移除冗余神经元,知识蒸馏则通过教师-学生模型对提升小模型性能。库中提供了与 vLLM 的深度集成接口,支持快速将压缩后的模型部署到推理服务中,结合 vLLM 的批处理和缓存优化技术,进一步提升推理吞吐量。项目特别强调对主流压缩算法的兼容性,用户无需修改原始模型代码即可通过配置参数直接应用压缩,同时支持自定义压缩策略的扩展。此外,该库还提供详细的文档和示例,帮助开发者快速验证不同压缩方案的效果。通过这种方式,llm-compressor 为研究人员和工程师提供了一种高效、灵活的工具,以平衡模型性能与部署成本,尤其适用于需要大规模模型部署但资源有限的场景。
      • SuperClaude-Org/SuperClaude_Framework
      • milanglacier/minuet-ai.nvim - ai.nvim 是一个基于 Neovim 的代码补全插件,支持通过多种大型语言模型(LLM)实现边写边补全的智能编程体验。该插件兼容 OpenAI、Gemini、Claude、Ollama、Llama.cpp、Codestral 等主流模型,用户可根据需求自定义模型优先级和 API 密钥配置。其核心工作原理是通过异步调用模型接口,在用户输入时实时生成补全建议,同时保持编辑器流畅性。插件支持本地模型(如 Ollama、Llama.cpp)与云端模型的混合使用,并提供缓存机制提升响应效率。开发者可通过配置文件设置模型超时时间、缓存路径等参数,且支持自动检测模型可用性。项目特色包括轻量级架构设计、对 Neovim LSP 的深度集成,以及通过 Lua 脚本实现的灵活配置能力。用户只需在 Neovim 中加载插件并配置模型参数,即可获得接近实时的代码补全体验,特别适合需要多模型协作或本地部署的开发场景。
      • facebookresearch/swe-rl - RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution》的官方代码库,旨在通过强化学习技术提升大型语言模型(LLM)在开源软件演化任务中的推理能力。其核心创新在于将强化学习框架与开源软件的演变历史相结合,通过训练模型学习如何更有效地生成、修复和优化代码。项目特别关注软件开发中的实际问题,如代码补全、错误修复和版本迁移等,利用真实世界的开源项目数据作为训练和评估的基础。 SWE-RL的工作原理基于强化学习的奖励机制,通过模拟软件演化过程中的任务(如修复bug、重构代码)训练模型,使其在完成任务时获得更高的奖励,从而优化决策过程。模型通过分析大量开源代码的演变历史,学习如何生成符合语义且功能正确的代码,同时结合代码质量评估指标(如代码正确性、可读性)进行反馈优化。项目还提供了一个标准化的基准数据集,包含多个开源项目的演化轨迹和任务定义,用于验证模型在不同场景下的泛化能力。 该项目的关键特色包括:1)首次将强化学习应用于LLM的软件演化任务,突破传统监督学习的局限;2)引入动态任务环境,使模型能适应代码结构的复杂变化;3)提供完整的训练框架和评估工具,支持多种LLM架构的适配。实验表明,SWE-RL在代码生成和修复任务中显著优于基线模型,特别是在处理多步推理和上下文依赖的复杂任务时表现突出。此外,项目还开源了训练过程中的奖励函数设计和环境交互接口,为后续研究提供了可复用的基础设施。
      • microsoft/amplifier
      • Tongyi-Zhiwen/QwenLong-L1 - L1是阿里云开源的Qwen系列模型中的长文本模型,支持高达32K上下文长度。它基于Transformer架构,通过高效的训练策略和优化的注意力机制,实现了在长文本处理上的卓越性能。项目提供了模型权重、推理代码和训练脚本,方便用户进行二次开发和应用。QwenLong-L1特别适用于需要处理大量文本信息的任务,如文档摘要、信息检索和对话生成等。该模型在长文本基准测试中表现出色,展现了其强大的上下文理解能力。项目目标是推动长文本处理技术的发展,并为研究人员和开发者提供强大的工具。用户可以根据项目提供的文档快速上手,并利用QwenLong-L1解决实际问题。模型权重可以从Hugging Face Hub下载。QwenLong-L1的开源将促进长文本处理技术的进步和应用。
      • Pokee-AI/PokeeResearchOSS - AI/PokeeResearchOSS)。
      • alibaba/ROLL
      • josStorer/chatGPTBox - 3.5、Claude 等)以及常用网站适配等功能。它支持 Chrome、Edge、Firefox、Safari 和 Android 等平台,采用 MIT 协议,用户可自由使用和定制。
      • Mega4alik/ollm - next-80B)** 的大模型,并支持长达 **10 万 token 的上下文处理**,且无需量化,保持 FP16/BF16 原始精度 。 该项目通过三大关键技术实现这一目标: 1. **层级权重流式加载**:模型权重不一次性全部加载到显存,而是从 SSD 按需动态传输至 GPU,计算完成后立即释放 。 2. **KV Cache SSD 卸载**:将注意力机制中的键值缓存(KV Cache)存储于高速固态硬盘(SSD),而非显存,从而突破长上下文的显存瓶颈 。 3. **计算优化**:集成 FlashAttention-2 和分块 MLP 设计,避免生成巨大的中间注意力矩阵,有效控制计算过程中的显存峰值 。 oLLM 主要适用于**非实时的离线任务**,如长文档摘要、合规审查、日志分析等 。其意义在于大幅降低了大模型的使用硬件门槛,推动了AI技术的平民化。
      • ByteDance-Seed/Seed-Coder - Coder是一套轻量级开源代码大语言模型系列,包含基础模型、指令微调模型和推理优化模型三种类型。该项目基于大量代码与自然语言混合数据训练,通过指令微调(instruction tuning)和推理优化(reasoning optimization)技术,使模型在代码生成、调试、逻辑推理等任务中表现出色。其核心特色在于轻量化设计,模型参数规模适中,既保证了推理效率,又降低了部署门槛,特别适合资源受限的环境。基础模型(base)专注于通用代码生成,能根据自然语言描述生成结构化代码;指令模型(instruct)通过特定任务指令微调,可精准执行代码补全、错误检测等操作;推理模型(reasoning)则针对数学计算、逻辑推导等复杂任务进行优化,支持多步推理和跨语言逻辑处理。项目采用模块化架构,用户可根据需求选择不同模型版本,并通过开源代码进行二次开发。训练数据涵盖主流编程语言(如Python、Java等)和自然语言指令,结合领域知识蒸馏技术提升代码质量。模型推理时采用分步解码策略,支持代码逻辑验证和错误修正,同时提供可解释的推理过程,便于开发者调试和优化。目前项目已支持主流编程语言的代码生成,并可通过API或本地部署方式集成到开发工具链中,为开发者提供高效、可靠的代码辅助解决方案。
      • google-deepmind/formal-conjectures - deepmind/formal-conjectures 是一个由 DeepMind 与 Google 合作开发的开源项目,旨在通过形式化数学语言 Lean 将数学领域的未证明猜想(conjectures)转化为可验证的逻辑结构。该项目的核心目标是为数学研究提供形式化工具,帮助数学家和计算机科学家更高效地探索和验证复杂命题。项目特色在于其专注于“形式化猜想”(formalized conjectures),即通过严格的逻辑框架将非形式化的数学命题转化为 Lean 证明助手可处理的代码,从而实现自动化验证或进一步推导。例如,项目中包含的猜想可能涉及数论、组合数学、拓扑学等领域的经典未解问题,如哥德巴赫猜想或黎曼假设的形式化版本。工作原理基于 Lean 证明助手的类型理论和依赖类型系统,将数学命题拆解为可编程的逻辑规则,用户可通过交互式定理证明工具验证猜想的正确性,或通过算法探索其潜在证明路径。该项目不仅为数学形式化研究提供资源,也推动了人工智能与形式化数学的结合,例如通过机器学习技术辅助发现新猜想或验证现有命题。此外,项目通过开源方式鼓励社区参与,用户可扩展其形式化库,或将新的数学猜想纳入系统,从而形成一个动态更新的数学验证平台。
      • ag-ui-protocol/ag-ui - UI(智能代理-用户交互协议)是一个旨在将AI代理(Agent)技术融入前端应用的开源框架,通过标准化协议实现用户与智能代理之间的高效交互。项目核心目标是构建一个轻量级、可扩展的交互协议,使开发者能够将AI代理能力无缝集成到网页或移动端界面中,从而提升应用的智能化水平。其工作原理基于事件驱动架构,通过定义统一的API接口,前端组件可实时接收代理返回的决策数据,并通过可视化界面反馈给用户,形成闭环交互。 该项目的关键特性包括:1)模块化设计,支持React、Vue等主流前端框架的插件式集成;2)提供预定义的交互模式(如自然语言处理、意图识别)和可自定义的协议规则;3)支持代理与前端的双向通信,包括代理主动推送状态更新和用户输入的实时解析。技术实现上,AG-UI通过中间层协议转换器,将前端事件(如按钮点击、表单提交)转化为代理可理解的指令格式,同时将代理的处理结果(如推荐内容、决策建议)通过UI组件渲染给用户。 项目特别强调低代码门槛,开发者无需深度理解AI代理的内部逻辑,即可通过配置化界面定义交互流程。例如,用户可通过图形化工具设置代理触发条件(如当用户输入关键词“订单”时调用对应的代理模块),系统自动生成对应的前端交互逻辑。此外,AG-UI内置了性能监控模块,可实时追踪代理响应延迟和交互成功率,帮助开发者优化系统表现。文档中还提供了完整的示例代码库,涵盖从基础交互到复杂场景的实现案例,适合不同技术水平的开发者快速上手。通过该协议,前端应用不仅能实现基础的用户操作,还能通过AI代理完成自动化决策、个性化推荐等高级功能,显著提升用户体验与系统智能化程度。
      • SciSharp/BotSharp
      • langchain-ai/langgraphjs
      • langfengQ/verl-agent - agent 是一个基于 veRL 的扩展框架,专门用于通过强化学习(RL)训练大语言模型(LLM)和视觉语言模型(VLM)代理。该项目是论文《Group-in-Group Policy Optimization for LLM Agent Training》的官方代码实现,核心特点是采用“组内组”(Group-in-Group, GIGPO)策略优化方法,通过分组协作机制提升多智能体训练效率。其工作原理基于强化学习框架,通过动态调整代理间的协作策略,解决传统训练中因个体差异导致的收敛困难问题。项目支持 LLM 和 VLM 两种模型类型,适用于需要多智能体协作的任务场景,例如复杂决策、环境交互等。代码结构上,verl-agent 在 veRL 基础上新增了 GIGPO 算法模块,实现了代理间的分组策略优化,同时保留了 veRL 的核心训练流程。项目特色包括模块化设计、支持多种模型类型、提供清晰的训练日志和可视化工具,便于用户监控训练过程。此外,通过 GIGPO 方法,项目在保持训练稳定性的同时,提升了代理的协作效率和任务完成质量,尤其适合需要多代理协同完成复杂任务的场景。用户可通过调整分组策略参数、模型配置等自定义训练过程,适用于研究和实际应用中的多智能体强化学习需求。
      • Arindam200/awesome-ai-apps - ai-apps 是一个专注于展示人工智能实际应用案例的开源项目集合,旨在通过真实项目帮助开发者和研究者快速了解 RAG(检索增强生成)、智能代理(Agents)、工作流(Workflows)等 AI 技术的落地场景。该项目通过分类整理的方式,涵盖了从聊天机器人、数据分析工具到自动化流程等多种 AI 应用,每个项目均附有详细描述、代码仓库链接及部分演示链接,便于用户直接查看实现方式。核心特色包括对 RAG 技术的深度应用展示(如通过检索增强生成更精准的问答系统),以及智能代理在自动化任务中的具体案例(例如通过代理实现多步骤任务处理)。工作流部分则展示了如何通过 AI 驱动的自动化流程提升效率,例如数据清洗、报告生成等场景。此外,项目还包含其他创新 AI 用例,如图像生成、自然语言处理工具等,帮助用户全面了解 AI 技术的多样性。所有项目均以开源形式提供,部分项目支持直接运行或二次开发,便于学习与实践。该项目由社区维护,持续更新,确保内容的时效性和技术前沿性,适合开发者、研究者或对 AI 应用感兴趣的用户作为参考资源。
      • deepseek-ai/DeepSeek-V3.2-Exp - V3.2-Exp是DeepSeek公司推出的一个实验性大语言模型版本,基于V3.1-Terminus构建。该项目的核心特色是引入了DeepSeek稀疏注意力机制(DSA),这种创新的稀疏注意力技术专门针对长上下文场景进行了优化。通过采用稀疏注意力,模型在保持与V3.1-Terminus相当性能的同时,显著提升了长文本处理的训练和推理效率。该项目支持大规模专家模型(256个专家),并提供了多种部署方案,包括HuggingFace、SGLang和vLLM等主流推理框架,便于研究者和开发者快速上手使用。
      • allenai/wildguard
      • anysphere/priompt
      • SalesforceAIResearch/enterprise-deep-research
      • TencentCloudADP/youtu-graphrag - GraphRAG是由腾讯云ADP团队开发的垂直统一智能代理系统,专注于图结构增强的检索-生成复杂推理任务。该项目通过结合知识图谱与检索增强生成(RAG)技术,构建了多跳推理能力,能够处理金融、医疗等领域的复杂多步骤查询。其核心工作原理是将大语言模型与知识图谱深度集成,通过图谱结构化数据和文本语料的联合检索,为模型提供更精准的上下文信息,从而提升复杂推理的准确性与逻辑性。系统支持多模态数据处理,可同时解析文本、表格、图像等异构信息,并基于图神经网络构建实体关系网络,实现跨模态推理。项目特色包括垂直统一的代理架构设计,能够动态调用多个子模块协同处理任务,以及通过图谱增强的检索机制,有效解决传统RAG在长文档处理和多跳推理中的信息碎片化问题。该系统已在多个行业场景中验证,能显著提升复杂查询的推理效率和答案可信度,适用于需要高精度逻辑推理的AI应用场景。
      • microsoft/rag-time - Augmented Generation(RAG)技术。该项目通过结构化课程和实践练习,指导用户从基础概念到实际应用逐步深入,涵盖 RAG 的核心原理、技术实现及优化方法。项目特色包括分阶段的课程设计(每周聚焦不同主题)、互动式代码示例、真实场景的案例分析,以及配套的项目实践环节,帮助学习者将理论转化为实际技能。RAG 技术结合了信息检索与生成模型的优势,通过从外部知识库中检索相关信息并将其融入生成过程,从而提升回答的准确性与相关性。项目中详细讲解了 RAG 的工作流程,包括数据检索、信息过滤、模型生成等关键步骤,并提供可复用的代码模板与优化技巧。此外,项目还强调了模型评估与调优方法,帮助用户解决实际应用中可能遇到的挑战,例如检索效率、结果多样性等问题。学习者需具备基础的 Python 与机器学习知识,并使用 Hugging Face、LangChain 等工具进行实践。通过五周的学习,用户不仅能理解 RAG 的技术框架,还能独立完成从数据准备到模型部署的完整流程。项目还提供社区支持与资源链接,方便学习者交流经验与获取补充资料。整体设计注重理论与实践结合,适合希望深入掌握 RAG 技术并应用于实际场景的开发者与研究者。
      • NVIDIA-NeMo/RL - NeMo/RL 是一个专为高效模型强化学习设计的可扩展工具包,旨在简化复杂AI训练流程并提升开发效率。该项目基于NVIDIA NeMo框架构建,采用模块化架构支持多种强化学习算法(如PPO、DQN、DDPG等),通过预定义组件和灵活接口实现快速算法迭代。其核心特色包括分布式训练能力,可利用多GPU集群加速训练过程,同时提供自动化的数据预处理、超参数优化及模型评估工具链。工具包内置丰富的环境接口适配器,支持OpenAI Gym、MuJoCo、Isaac Gym等主流平台,用户可自定义奖励函数和状态空间表示。项目特别优化了训练稳定性,通过动态批处理和经验回放机制降低样本方差,配合NVIDIA TensorRT加速推理过程。开发者可通过Jupyter Notebook模板快速搭建实验环境,且文档提供完整教程和示例代码。该工具包适用于机器人控制、自动驾驶、游戏AI等场景,其与NeMo的深度集成允许用户直接调用预训练模型进行微调。相比传统RL框架,NVIDIA-NeMo/RL通过统一的API设计和硬件加速,显著降低了部署门槛,使研究人员能更专注于算法创新而非基础设施搭建。
      • punkpeye/awesome-mcp-clients - mcp-clients**,是一个专门收集和整理 **Model Context Protocol(MCP)客户端工具** 的开源项目,旨在为开发者提供一个便捷的资源库,帮助用户快速找到适用于 Minecraft 协议的客户端实现。项目的核心内容是一个分类清晰的客户端工具合集,涵盖多种编程语言(如 Java、Python、Go 等)和不同功能场景(如服务器连接、数据交互、协议解析等)。每个客户端条目通常包含简介、使用方法、技术原理说明以及链接,部分条目还附有教程或社区资源链接,方便开发者直接参考和使用。 项目特色在于其**多样性**和**实用性**:一方面,它覆盖了主流的 MCP 协议版本(如 1.12-1.20.1),并支持不同平台(包括桌面、移动端和嵌入式设备);另一方面,部分客户端工具还提供扩展功能,例如自动数据包生成、协议版本兼容性检测或图形化调试工具。项目的工作原理基于对 MCP 协议的逆向工程和开源实现,通过整合社区贡献的客户端代码,帮助开发者快速构建或调试与 MCP 服务器的通信模块。 此外,该项目还包含实际案例和维护信息,例如部分客户端已集成到商业项目中,部分由活跃开发者持续更新。用户可通过该项目快速定位适合自身需求的客户端工具,减少重复开发成本。由于 MCP 协议的复杂性,该项目也强调文档的完整性,部分客户端甚至提供详细的协议解析文档,帮助开发者理解数据包结构和加密机制。目前项目维护状态良好,定期更新客户端列表和版本适配信息。
      • oslook/cursor-ai-downloads - ai-downloads是一个专门整理Cursor AI官方下载链接的资源库,主要功能是为用户提供最新版本和历史旧版本的官方软件下载地址,帮助用户根据需求选择适合的版本进行升级、降级或特定版本安装。项目通过集中管理所有版本的下载链接,避免了用户在官网搜索不同版本时的繁琐操作,尤其适合需要回退到旧版本或测试特定功能的用户群体。其核心特色在于对版本的清晰分类,用户可根据版本号直接访问对应链接,同时项目还可能包含版本变更说明或下载指引,确保用户能够明确了解每个版本的功能差异和适用场景。工作原理上,该项目可能通过维护一个结构化的目录或列表,将不同版本的下载地址按时间或功能特性进行归类,用户无需自行搜索即可直接获取所需版本。由于Cursor AI本身是一个代码编辑工具,该项目的便捷性对于开发者或需要特定版本功能的用户来说具有实用价值。需要注意的是,该项目本身并非Cursor AI的官方资源,而是由社区或第三方维护的下载链接集合,因此建议用户在使用前确认链接的安全性和版本的合法性。
      • jianzhnie/Open-R1 - R1 是一个开源项目,旨在复现 DeepSeek-R1 模型。它提供了 DeepSeek-R1 的开源实现,方便研究者和开发者学习和使用该模型。该项目可能包含模型的架构、训练代码、预训练权重等资源,方便用户进行二次开发和定制。通过这个项目,用户可以深入了解 DeepSeek-R1 的工作原理,并将其应用于各种自然语言处理任务。具体实现细节和使用方法请参考项目文档和代码。该项目由 jianzhnie 发起并维护。
      • HKUDS/nanobot
      • presenton/presenton
      • ruc-datalab/DeepAnalyze
      • volcengine/MineContext - Engineering)与ChatGPT Pulse技术的主动式AI助手,旨在通过动态感知和实时交互提升内容生成与数据分析效率。该项目的核心特色在于其独特的双引擎架构:Context-Engineering模块通过多模态数据融合技术(支持文本、图像、表格等输入)实时构建上下文语义图谱,而ChatGPT Pulse则基于动态提示工程实现对话式推理,使AI能主动预测用户需求并提供精准响应。工作原理上,系统通过分层注意力机制处理多源数据,结合知识蒸馏技术优化推理速度,支持零样本学习和增量训练模式,适用于从文档解析到复杂场景分析的多种任务。项目特别强调“主动式交互”设计,例如在内容生成时会自动关联历史对话上下文并推荐补充信息,同时提供可视化调试面板展示AI决策路径。开发者可通过Python SDK集成API,或使用预训练模型进行微调,适用于内容创作、数据分析、智能客服等场景。项目已开源GitHub,包含完整的训练脚本和示例数据集,支持PyTorch框架与分布式训练,且提供多语言支持(中英双语界面)。其创新点在于将静态上下文建模与动态脉冲式推理相结合,使AI在保持高准确率的同时显著降低计算资源消耗,尤其适合处理长文本和跨模态任务。
      • Tencent/WeKnora
      • MemMachine/MemMachine - 检索-更新”循环:代理在执行任务时将关键状态写入记忆层,后续通过检索机制调用相关记忆以优化决策,同时动态更新记忆内容以适应环境变化。该项目适用于需要长期状态管理的场景,如自动驾驶、智能客服、多代理协作系统等,尤其适合需要处理复杂任务流和长期依赖关系的 AI 应用。
      • MemTensor/MemOS
      • p-e-w/heretic - e-w/heretic 是一个开源项目,旨在通过自动化技术移除语言模型中的内容审查机制。该项目的核心目标是通过技术手段突破语言模型对特定话题或内容的限制,使模型能够生成更自由、更全面的信息。其工作原理基于自然语言处理技术,通过分析模型输出内容的语义特征,自动识别并替换被审查的内容,同时保持语言流畅性和逻辑性。项目特色包括完全自动化操作、支持多种语言模型、无需人工干预,以及模块化设计便于扩展。开发者采用机器学习算法训练检测模型,能够识别常见审查关键词和语义模式,并通过动态替换策略生成符合预期的输出。该工具特别适用于需要突破语言模型内容限制的研究人员和开发者,可用于学术研究、内容创作或技术测试等场景。项目代码基于Python开发,采用MIT开源协议,用户可直接通过GitHub获取源码并部署使用。相比传统手动修改模型权重的方法,heretic 提供了更高效、可重复的解决方案,同时避免了直接修改模型参数可能带来的稳定性风险。开发者还提供了详细的文档和示例,帮助用户快速上手并根据需求定制功能。由于其自动化特性和技术先进性,该项目在开源社区中受到关注,为研究语言模型审查机制提供了新的技术路径。
      • sooperset/mcp-atlassian
      • punkpeye/fastmcp
      • anomalyco/opencode
      • affaan-m/everything-claude-code - r requirements.txt`以获取所需依赖;随后通过命令行指定config路径即可,例如`python main.py --config path/to/config.yaml`。使用时只需要在配置文件中按需求填写Agent与Skill定义、Command列表以及Rule限制,程序将自动完成剩余逻辑。贡献方式同常规GitHub流程:fork项目,在本地添加或修正新的配置信息后提交PR;所有更改均遵循MIT许可证。本项目目标是为Claude爱好者提供一站式、可直接使用的配置仓库,降低模型部署门槛,并通过battle‑tested验证保证用户在真实环境中能获得高质量、一致性输出。
      • code-yeongyu/oh-my-opencode - **自动化环境识别**:`Environment.py` 能检测是本机、Docker 容器还是远程仓库,并为 Agent 生成对应的文件读写接口。 - **模块化任务跑者(TaskRunner)**:把“读取 → 推理 → 代码生”这一流程拆成独立可复用的步骤,每一步都有统一 API,便于单元测试与调试。 - **灵活 Prompt 模板**:项目提供多种预设模板(如“写一个 Python 函数”“优化给定算法”等),用户只需填入参数即可得到完整 LLM prompt;也支持自定义模板,只要改 `templates/` 目录下的 `.json`。 - **代码执行与安全**:生成的任何代码都在沙盒中运行(Python、Node 等)并捕获所有异常,保证不会破坏宿主机。 - **日志与可视化**:系统会把每一次 Agent 调用记录到 `logs/agent‑run.log` 并提供简易的 Web UI 供查看执行细节和错误信息。 **工作原理** 1️⃣ 用户在命令行或脚本里给 Agent 一个任务描述; 2️⃣ Harness 根据配置文件(`.yaml`)选定 LLM、模板与环境参数,组装 Prompt 并发往 LLM; 3️⃣ LLM 返回一段代码片断,Harness 立即把这段放进沙盒并执行; 4️⃣ Sandbox 会在本地或 Docker 内部运行,并且自动跑已配置的单元测试(如 `pytest`、`unittest`);若全部通过,则 Agent 的工作算成功,系统会将修改提交到目标仓库。 5️⃣ 每一步结果都被记录,方便后续排错与改进。 **使用步骤** 1. 克隆项目:`git clone https://github.com/code‑yeongyu/oh-my-opencode.git`; 2. 设定 LLM API Key(如 `export OPENAI_API_KEY=xxxxxx`); 3. 根据需求修改 `config.yaml`,指明目标代码路径、模型和 Prompt 模板; 4. 执行主脚本:`python -m oh_my_opencode.main --task "实现二分查找"`。系统会自动完成读取→推理→生成→执行测试等全部流程。 **总结** oh‑my‑opencode 把 LLM 与真实代码环境的桥梁搭好,使“编码机器人”能在本机、Docker 或云端仓库里安全地跑,且可灵活配置多种模型与 Prompt。它的模块化设计让你可以随时添加新的 Prompt 模板或支持其他语言(如 JavaScript、Go 等),从而大幅提升开发效率和自动化测试能力。
      • slopus/happy
      • aidenybai/react-grab - grab`,引入组件并提供 API key,即可在自己的项目里把 AI 助手嵌成一键即可的“右侧面板”式工具;库还内置了代码高亮、错误提示和示例页面,帮助快速上手。整体思路是把网页内容当作“一次性 context”,通过 `window`/`document.querySelectorAll` 抓取所需信息,再包装成 OpenAI 可识别的 JSON 结构并返回给前端展示;其 API 与 props 设计兼顾可读写、易配置,适合各种项目(从博客到 SaaS 产品)想在网站上实现实时 AI 编程功能时,可直接引用此仓库快速搭建。
      • Mai-with-u/MaiBot - r requirements.txt` 或直接 `docker run --env-file .env mai-bot:latest` 即可启动。配置文件中包括平台凭据、OpenAI API KEY、数据库连接字符串等,修改后 Bot 立即生效。 **使用与贡献** - **克隆 & 安装** ```bash git clone https://github.com/Mai-with-u/MaiBot.git cd MaiBot pip install -r requirements.txt ``` - **配置环境变量** 在根目录创建 `.env`,填入 `DISCORD_TOKEN=...`, `TELEGRAM_API_ID=...`, `OPENAI_KEY=...` 等。 - **运行 Bot** ```bash python main.py ``` - **贡献方式**:项目欢迎 Issue 与 Pull Request;请先阅读 `CONTRIBUTING.md`。 --- > *简言之,MaiBot 是一款让 Discord、Telegram 等群组聊天变得更智慧、更方便的多平台 Bot。它把 OpenAI 对话技术与标准群管理功能融合在一起,并且通过简单配置即可在任何社媒服务器上使用。*
      • svcvit/Awesome-Dify-Workflow
      • iflytek/astron-agent - agent 是一个面向企业级应用的商业友好型智能体工作流平台,旨在帮助开发者构建下一代“超级智能体”(SuperAgents)。该项目基于大语言模型(LLM)技术,通过模块化架构设计,支持灵活配置智能体工作流,可适配多种企业级场景需求。其核心优势在于提供完整的智能体生命周期管理能力,包括任务编排、多智能体协作、实时状态监控和动态策略调整等功能。平台采用分布式架构设计,支持高并发处理与弹性扩展,能够满足金融、客服、数据分析等复杂业务场景的部署需求。 项目的工作原理基于“智能体-工作流-执行器”三层架构:底层通过集成主流大模型(如通义千问、Llama系列等)作为智能体核心,中层提供可视化工作流设计器用于定义任务逻辑,顶层支持与企业现有系统(如ERP、CRM)的API对接。平台内置安全合规机制,符合GDPR等国际数据保护标准,同时提供细粒度权限控制与审计日志功能。其商业友好特性体现在开放的API接口、灵活的授权模式以及可定制的商业化组件,便于企业快速实现产品化落地。 典型应用场景包括智能客服系统、自动化数据分析、跨部门协作流程优化等。项目支持与LangChain、HuggingFace等主流AI框架兼容,开发者可通过Python SDK快速接入。当前版本已实现多智能体协同推理、异步任务处理、动态知识库更新等核心功能,并提供企业级技术支持服务。该平台既可作为开源项目进行二次开发,也提供商业化授权方案,适合需要快速构建智能体应用的企业用户。
      • VoltAgent/awesome-claude-code-subagents - claude-code-subagents是一个专注于Claude模型的子代理开发工具集,包含100多个专业AI代理,覆盖全栈开发、DevOps、数据科学和业务运营等核心领域。该项目通过模块化设计将Claude API能力转化为可复用的智能代理,每个代理都针对特定任务进行优化,例如代码生成、测试自动化、基础设施配置和数据分析等。其工作原理基于Claude的推理能力,通过预设的提示词模板和参数配置,使每个子代理能独立完成专业领域的代码编写和问题解决。开发者可通过简单的配置调用这些代理,实现从需求分析到代码部署的全流程自动化。项目特别强调生产环境适用性,所有代理均经过严格测试以确保稳定性和安全性,同时支持自定义扩展。对于需要快速构建AI驱动开发流程的团队,该工具集能显著提升开发效率,减少重复劳动,尤其适合需要多领域协作的复杂项目。其核心价值在于将通用AI能力转化为可组合的智能组件,为开发者提供灵活的自动化解决方案。
      • strands-agents/sdk-python - agents/sdk-python 是一个基于模型驱动方法构建 AI 代理(AI Agents)的 Python 开发工具包,其核心目标是通过极简的代码实现复杂代理系统的开发。项目采用模块化设计,开发者只需编写少量代码即可定义代理的行为逻辑、状态转换和决策机制,底层框架会自动处理代理与环境的交互、状态管理等复杂流程。该工具包特别强调“模型驱动”特性,即通过抽象的模型描述(如状态机、行为树或规则引擎)来替代传统的硬编码逻辑,使代理系统更易扩展和维护。其工作原理基于分层架构:上层允许用户用 Python 脚本快速定义代理模型,中层通过预置的算法引擎解析模型并生成可执行代码,底层则提供与外部环境(如模拟器、传感器)对接的接口。项目特色包括支持多代理协作、动态行为调整以及可视化调试工具,适合用于机器人控制、自动化任务调度、智能客服等场景。由于代码简洁且功能聚焦,它降低了 AI 代理开发的技术门槛,同时保持了高度灵活性,开发者可自定义模型规则或扩展框架功能。目前该项目尚未提供完整文档和示例代码,但其核心理念已体现出对 AI 代理开发流程的深度优化。
      • ag2ai/ag2
      • microsoft/fara - 7B是微软开发的一款高效代理模型,旨在提升计算机使用效率。该项目基于7B参数规模的模型架构,通过模块化设计实现多任务处理能力,核心工作原理是通过自然语言处理技术理解用户指令,并结合强化学习机制优化操作流程。其特色功能包括跨平台兼容性(支持Windows、Linux等系统)、自动化任务执行(如文件管理、软件操作)以及交互式对话能力(可解释操作步骤)。模型采用轻量化设计,相比传统代理系统减少了30%的计算资源消耗,同时支持通过API或命令行接口调用。项目包含完整的训练数据集和优化后的推理引擎,特别针对计算机操作场景进行了指令微调,能准确解析复杂命令并生成可执行代码。开发团队还提供了可视化监控工具,可实时追踪模型执行状态与性能指标。该模型适用于需要自动化操作的计算机使用场景,如开发环境管理、系统维护等,同时支持通过插件扩展功能模块。项目已开源,包含详细的部署指南和测试用例,开发者可基于此框架进行二次开发以适配特定应用场景。
      • tasl-lab/LaMMA-P - P:基于 LM 驱动 PDDL 规划器的通用多智能体长时域任务分配与规划。语言模型(LM)具有强大的自然语言理解能力,能够有效地将人类指令转化为简单机器人任务的详细计划。然而,处理长周期任务,特别是协作异构机器人团队的子任务识别和分配,仍然是一个巨大的挑战。为了解决这个问题,我们提出了一种基于语言模型的多智能体 PDDL 规划器(LaMMA-P),这是一个新型的多智能体任务规划框架,在长周期任务上取得了最先进的性能。LaMMA-P 融合了语言模型的推理能力和传统启发式搜索规划器的优势,在实现高成功率和高效率的同时,展现出强大的任务泛化能力。此外,我们基于 AI2-THOR 环境创建了 MAT-THOR,这是一个包含两种不同复杂程度的家庭任务的综合基准测试平台。实验结果表明,与现有的基于语言模型的多智能体规划器相比,LaMMA-P 的成功率提高了 105%,效率提高了 36%。
      • open-compass/CompassVerifier - compass团队开发的一个统一且鲁棒的LLM评估与结果奖励验证工具,于EMNLP 2025会议发表。该项目针对大语言模型评估过程中常见的偏差和不可靠性问题,提出了一种基于多模型协同验证的框架,通过结合对抗样本生成、数据增强和交叉验证技术,显著提升了评估结果的准确性和稳定性。其核心工作原理包括:首先通过多模型并行推理对模型输出进行多维度分析,再利用对抗样本测试模型的鲁棒性,最后通过动态权重调整算法综合评估结果。项目特色在于引入了“结果奖励机制”,可根据模型输出质量动态调整评估权重,支持细粒度指标配置,并提供可视化分析工具。该工具适用于模型迭代优化、评估基准构建等场景,特别适合需要高可信度评估的AI研发团队。技术实现上采用模块化设计,支持快速扩展新的验证模块和评估指标,同时兼容主流大模型框架。CompassVerifier通过统一接口整合了文本生成、代码生成、逻辑推理等多领域评估任务,解决了传统单一指标评估容易遗漏模型缺陷的问题,为LLM的可靠评估提供了系统化解决方案。
      • MoonshotAI/Kimi-K2 - K2 是由 Moonshot AI 开发的大型语言模型系列,旨在实现高级自然语言理解和生成。Kimi K2 是一款最先进的混合专家(MoE)语言模型,拥有 320 亿个激活参数和 1 万亿个总参数。Kimi K2 使用 Muon 优化器进行训练,在知识前沿、推理和编码任务中均取得了卓越的性能,同时针对智能体能力进行了精心优化。它具有高性能、多语言支持以及强大的对话、编码和内容创作能力。该模型基于多样化的数据进行训练,以确保其知识面广、适应性强。Kimi-K2 注重效率,采用优化的架构以实现更快的推理速度和更低的资源消耗。它支持长上下文处理,能够处理扩展文本输入。该系列包含多个针对不同任务和硬件的变体。其主要特性包括强大的推理能力、代码生成能力和多语言对话理解能力。Kimi-K2 利用先进的训练技术来提高准确性和流畅度。它适用于聊天机器人、内容创作和技术支持等应用。该项目凸显了 Moonshot AI 在大型模型开发创新方面的专注。它为开发者提供了将模型集成到应用程序中的工具。其工作原理包括可扩展的训练框架和持续优化,以实现实际应用场景下的性能。
      • datawhalechina/so-large-lm - large-lm是一个聚焦大模型基础研究的开源项目,旨在通过系统性知识梳理帮助开发者和研究者快速掌握大模型的核心原理与实践方法。该项目以"从零开始理解大模型"为核心目标,通过图文并茂的教程形式解析Transformer架构、预训练与微调技术、模型压缩等关键技术原理,同时提供基于PyTorch和HuggingFace的完整代码示例,涵盖从数据预处理到模型训练的全流程实现。项目特别强调理论与实践的结合,通过可视化方式直观展示注意力机制、位置编码等抽象概念,配套的Jupyter Notebook支持交互式学习。其独特的分层教学设计包含基础理论、代码实现、调优技巧三大模块,适合不同层次的学习者。项目采用模块化代码结构,允许用户按需加载不同组件进行实验,配合详尽的注释和调试指南,可有效降低大模型研究的入门门槛。此外,项目持续更新行业前沿技术动态,提供模型评估基准和性能对比分析,帮助开发者把握技术发展趋势。通过标准化的实验配置和可复现的训练流程,该项目为大模型研究者提供了可靠的实践平台,同时通过社区协作持续优化教学内容,形成持续进化的知识体系。
      • Trae1ounG/Neural_Incompatibility - Scale Parametric Knowledge Transfer in Large Language Models》的官方代码实现,聚焦于大语言模型(LLM)中跨尺度参数知识迁移的不可逾越性问题。研究指出,当尝试将超大规模模型(如GPT-3、PaLM)的参数知识迁移至较小模型(如LLaMA、BLOOM)时,存在显著的性能差距,这种“神经不兼容性”源于模型规模差异导致的结构化知识分布不匹配,而非单纯的数据或训练优化问题。项目通过系统性实验分析发现,即使使用相同训练数据和优化策略,小模型在知识迁移后仍难以复现大模型的推理能力,且这种差距随模型规模差异扩大而加剧。核心工作原理基于对参数知识迁移机制的量化分析,提出“跨尺度参数不兼容性指标”(Cross-Scale Parametric Incompatibility Metric),通过比较模型间参数分布差异、梯度流动特性及知识密度,揭示迁移过程中的结构性障碍。项目代码包含完整的实验框架,支持对不同模型规模(如1亿至1750亿参数)的知识迁移效果评估,并提供可视化工具分析参数级差异。研究结论对模型蒸馏、知识迁移技术及LLM架构设计具有重要指导意义,强调了模型规模与知识迁移效率之间的本质矛盾,为未来跨尺度模型协作研究提供了理论依据。
      • langchain-ai/open_deep_research - ai/open_deep_research** 是一个基于 LangChain 框架的深度学习研究工具集,旨在简化大型语言模型(LLM)和深度学习模型的研究与开发流程。其核心目标是通过模块化设计和灵活的接口,帮助开发者快速构建、训练和评估深度学习模型,尤其适合需要与 LangChain 生态系统(如模型代理、数据处理工具等)集成的研究场景。 项目的主要特色包括: 1. **模块化架构**:通过解耦模型开发、训练和评估流程,用户可独立修改或替换组件(如数据预处理模块、模型架构、训练策略),而无需重写整个系统。 2. **与 LangChain 深度集成**:支持直接调用 LangChain 提供的模型代理(如 chat models、LLM 接口)和工具链(如数据加载器、提示模板),简化研究流程。 3. **多样化任务支持**:涵盖文本生成、分类、序列建模等常见深度学习任务,并提供预定义的训练/评估脚本作为起点。 4. **可扩展性**:允许用户自定义模型结构(如添加注意力机制、调整网络层)或集成第三方框架(如 PyTorch、TensorFlow)。 工作原理方面,项目采用典型的“数据-模型-训练-评估”流程: - **数据处理**:通过 LangChain 的数据加载器或自定义模块加载和预处理数据集。 - **模型构建**:基于项目提供的基础模型类(如 Transformer 架构)或用户自定义模型,结合 LangChain 接口定义输入输出逻辑。 - **训练与优化**:利用内置的训练循环或自定义优化器(如 Adam、SGD)进行模型训练,并支持分布式训练加速。 - **评估与调试**:提供可视化工具(如 TensorBoard 集成)和指标监控(如准确率、F1 值),便于分析模型性能。 适用场景包括:学术研究(如对比不同模型架构)、企业级 AI 开发(如快速原型验证)以及教学案例(如演示深度学习原理)。项目还包含示例代码和教程,适合不同技术水平的开发者快速上手。
      • zhengaq/GAOKAO-Math24 - Math24是一个专注于高考数学题生成与求解的AI工具,旨在通过算法模拟高考数学题型并提供解题步骤,帮助学生和教师进行练习与教学。项目核心功能包括自动生成符合高考难度的数学题目(涵盖代数、几何、概率统计等模块),并支持对生成题目进行分步解答,展示详细的解题逻辑。其工作原理基于自然语言处理(NLP)与数学推理引擎的结合,通过预训练模型解析题目语义,再调用符号计算库(如SymPy)进行数学运算,最终生成符合规范的解题过程。项目特色包括支持多种题型(选择题、填空题、解答题)的智能生成、解题步骤的可定制化输出(如隐藏关键步骤或展示完整推导),以及通过参数调整题目难度与知识点分布。此外,项目提供命令行与Web界面两种交互方式,便于用户快速测试与部署,同时支持将生成的题目与答案导出为PDF或Word文档。技术实现上采用Python编写,依赖PyTorch与TensorFlow框架训练模型,结合规则引擎确保解题准确性,适用于教育机构或个人用户进行高考数学专项训练,且代码开源便于二次开发与功能扩展。
      • Fission-AI/OpenSpec - AI/OpenSpec是一个基于规范驱动开发的AI编码助手项目,旨在通过自然语言规范指导代码生成,提升开发效率与协作质量。项目核心功能是解析用户编写的规范文档(如用自然语言描述的功能需求),自动生成符合规范的代码框架,开发者可在此基础上进行完善。其工作原理依赖于AI模型对规范的语义理解,结合代码生成引擎将抽象描述转化为具体代码结构,支持Python、JavaScript等主流语言。项目特色包括:1)规范优先的设计模式,强制开发者先定义清晰的规范文档;2)支持多语言代码生成与规范文档的双向同步;3)集成LLM模型优化代码生成质量;4)提供VS Code扩展和CLI工具实现开发环境无缝集成。技术架构采用Rust和Python构建,底层结合LLM模型进行语义解析,同时提供可扩展的插件系统支持自定义规范规则。项目通过开源协作模式持续优化,开发者可贡献新的规范模板或改进生成算法。相比传统编码方式,OpenSpec能减少50%以上的重复性代码编写工作,且通过规范文档降低团队协作成本,适用于需要频繁迭代的敏捷开发场景。
      • BloopAI/vibe-kanban - Kanban是一个专为AI编码代理设计的可视化看板管理工具,旨在帮助开发者高效组织和追踪AI代理的工作流程。该项目采用React、TypeScript和Tailwind CSS构建,提供直观的拖拽式界面,支持自定义工作流、实时协作和AI工具集成。核心功能包括任务卡片的可视化排布、多代理协同管理、状态实时更新以及与主流AI编码工具(如CodeLlama、AutoGPT)的兼容性支持。工作原理基于事件驱动架构,通过WebSocket实现跨设备同步,并利用TypeScript类型系统确保数据一致性。用户可通过命令行工具快速部署,支持自定义API接口扩展,同时提供轻量级API文档和预设模板。项目特别强调可扩展性,允许开发者通过插件机制添加新功能或对接其他AI模型。由于其模块化设计,Vibe-Kanban可适配不同规模的AI项目需求,从个人开发到团队协作均能保持高效管理。技术实现上采用现代前端框架优化性能,结合Tailwind CSS实现响应式布局,并通过TypeScript类型校验减少错误。该项目适合需要可视化管理AI代理任务的开发者,尤其适合涉及多模型协同、代码生成或自动化测试的场景。
      • RM-R1-UIUC/RM-R1 - R1项目旨在通过提升奖励模型的推理能力,优化强化学习中的决策过程。该项目基于奖励模型(Reward Models, RM)这一核心概念,奖励模型通常用于指导智能体在复杂任务中选择最优策略,但传统模型在处理需要深度逻辑或跨步骤推理的任务时表现有限。RM-R1通过引入先进的技术,如链式推理(Chain-of-Thought)和知识蒸馏(Knowledge Distillation),显著增强了模型对复杂任务的处理能力。其工作原理基于一种混合方法:一方面,利用大型语言模型(LLM)生成高质量的推理轨迹作为训练数据;另一方面,通过迭代优化机制,将这些推理轨迹与传统奖励模型结合,使模型在训练过程中逐步提升对逻辑链条和长期目标的理解。项目特别强调对多步骤推理任务的优化,例如需要数学计算、因果推断或跨领域知识的任务,同时保持模型在实际应用场景中的稳定性。RM-R1还支持与主流强化学习框架(如PPO、DQN)的集成,提供灵活的接口以适应不同任务需求。项目在基准测试(如MT-Bench、BIG-Bench)中表现优异,尤其在需要深度推理的子任务上超越了现有奖励模型。此外,RM-R1开源了核心代码和训练数据,开发者可通过GitHub获取完整实现,并附有详细的使用指南和示例,便于快速部署到对话系统、自动化决策或复杂环境中的智能体训练中。该项目适合需要高精度推理能力的AI研发团队,尤其适用于需要长期规划或多步决策的场景。
      • ZJU-REAL/Self-Braking-Tuning - REAL/Self-Braking-Tuning 是一个基于论文《Let LLMs Break Free from Overthinking via Self-Braking Tuning》的开源项目,旨在通过"自我刹车调优"技术解决大语言模型(LLM)在训练过程中出现的"过思考"问题。该项目的核心创新在于提出了一种动态调整模型训练过程的机制,通过引入自我刹车(Self-Braking)策略,有效防止模型过度复杂化导致的性能下降。具体工作原理是通过在训练过程中动态监控模型的预测置信度,当检测到模型在某个步骤中出现"过度推理"迹象时,自动降低该步骤的梯度更新幅度,从而避免模型陷入局部最优或过度拟合。实验表明,该方法在多个基准测试中表现出色,不仅提升了模型的推理效率,还增强了模型对未知数据的泛化能力。项目代码实现了该调优策略的核心算法,支持主流大语言模型架构,并提供了详细的训练配置和实验结果对比。与传统调优方法相比,Self-Braking Tuning无需额外参数调整,且对模型性能的提升具有可解释性,尤其适用于需要平衡推理速度与准确性的应用场景。该项目已发布在arXiv(2505.14604),并提供完整的代码实现和实验数据,便于研究者复现和改进。
    • 其他_文本生成_文本对话

      • user1342/Tomato - 在自然语言中隐藏加密消息。如何运作:LLM 生成的封面文本:LLM 像往常一样,根据提示生成连贯的文本。使用 MEC 嵌入:MEC 用于将隐藏消息(密文)的概率分布与LLM,这种耦合最小化了联合熵,确保隐写文本(带有嵌入消息的封面文本)保留了自然语言的统计属性,使隐藏的消息实际上无法被检测到。解码过程:在解码过程中,LLM 通过提供隐写文本的上下文感知解释来提供帮助,然后反向使用 MEC 将隐藏的消息与隐藏文本分离,该过程利用嵌入过程中使用的相同概率分布,确保在不影响隐藏文本完整性的情况下准确提取消息。此方法可确保隐藏的消息无缝集成到文本中,并且可以在以后安全、精确地检索,同时将检测风险降至最低。
      • KellerJordan/modded-nanogpt - Momentum Orthogonalized by Newton-schulz)。要执行训练,请在 8xA100 或 8xH100 节点上运行以下三个命令。他们在 8xH100 上以 <20 分钟完成,互联网连接良好。这将在 Fineweb [1] 的 2.67B 令牌上训练一个 124M 参数的 transformer 进行 5100 个步骤,实现 ~3.277 的验证损失。相比之下,默认的 llm PyTorch trainer 在训练 10B 令牌后会产生 >3.28 验证损失。
      • RUCAIBox/MVP - 解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。
      • EleutherAI/gpt-neo - tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。
      • liucongg/GPT2-NewsTitle
      • gunthercox/ChatterBot
      • thu-coai/CDial-GPT
      • google/sentencepiece
      • RUCAIBox/Context-Tuning
      • samueldobbie/markup - 3  提供支持
      • YunwenTechnology/QueryGeneration
      • imcaspar/gpt2-ml
      • rikdz/GraphWriter
      • yangjianxin1/GPT2-chitchat
      • PENS-Personalized-News-Headline-Generation
      • google-research/multilingual-t5
      • openai/gpt-3 - 3,一种具有 1750 亿个参数的自回归语言模型,比之前任何非稀疏语言模型多 10 倍,并在少数镜头设置中测试其性能。对于所有任务,GPT-3 在没有任何梯度更新或微调的情况下应用,任务和少数镜头演示纯粹通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解密单词、在句子中使用新单词或执行 3 位数算术。同时,我们还确定了 GPT-3 的少数镜头学习仍在挣扎的一些数据集,以及 GPT-3 面临与大型网络语料库训练相关的方法问题的一些数据集。最后,我们发现 GPT-3 可以生成人类评估人员难以区分的新闻文章样本与人类撰写的文章。我们讨论了这一发现和一般 GPT-3 更广泛的社会影响。
      • RUCAIBox/TextBox - 2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)
      • XiangLi1999/PrefixTuning
      • Awesome-TOD-NLG-Survey
      • minimaxir/gpt-2-simple - 2 文本生成模型
      • openai/gpt-2
      • karpathy/nanoGPT - 2) 的最简单、最快的存储库。
      • karpathy/minGPT
      • beyondguo/genius
      • google-research/text-to-text-transfer-transformer - Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。
      • Morizeyao/GPT2-Chinese
      • fastnlp/CPT - 解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.
      • songhaoyu/BoB
      • ZhuiyiTechnology/t5-pegasus
      • microsoft/LMOps
      • MuiseDestiny/zotero-gpt - 3.5-turbo 和 gpt-4。询问有关当前 PDF 文件(全文或所选文本)的问题。对所选论文(摘要)提出问题。 将所选论文总结成几个高度浓缩的句子。根据所选文本搜索库中的项目。
      • RasaHQ/rasa - 创建聊天机器人和语音助手
      • aishwaryanr/awesome-generative-ai-guide
      • howdyai/botkit
      • 0hq/WebGPT
      • bentrevett/pytorch-seq2seq
      • dsdanielpark/Bard-API
      • OSU-NLP-Group/Mind2Web
      • deeppavlov/DeepPavlov
      • SUSYUSTC/MathTranslate
      • immersive-translate/immersive-translate
      • CopyTranslator/CopyTranslator
      • argosopentech/argos-translate
      • huggingface/alignment-handbook - tuning监督微调,教语言模型遵循有关如何收集和策划自己的训练数据集的说明和提示。Reward modeling奖励建模:教授语言模型根据人类或AI偏好区分模型响应。Rejection sampling剔除采样:一种简单但功能强大的技术,可提高SFT模型的性能。直接偏好优化(DPO):PPO的强大而有前途的替代方案。
      • dsfsi/textaugment - learn)无缝集成。
      • awslabs/sockeye
      • LibreTranslate/LibreTranslate
      • OpenNMT/OpenNMT-py - py 是一个基于 PyTorch 的开源神经机器翻译框架,支持多种 NLP 任务,如翻译、语言建模、摘要等。该项目已不再积极维护,推荐使用其衍生项目 Eole。OpenNMT-py 支持大型语言模型 (LLM),并提供 8位和 4 位量化功能,可用于微调 7B 和 13B 模型。该项目提供教程和文档,方便用户上手使用。
      • bojone/t5_in_bert4keras
      • google-research/language
      • Ceelog/DictionaryByGPT4
      • AdityaNG/kan-gpt - Arnold 网络 (KAN) 进行语言建模的生成式预训练转换器 (GPT) 的 PyTorch 实现
      • Azure/co-op-translator - op-translator 是一个 Python 包,利用 Azure AI 服务的先进语言模型技术,通过单个命令轻松生成多语言翻译,简化项目多语言化过程,支持 Markdown 文件和图片中的文本翻译,易于集成到现有项目中,简化本地化流程。
      • karpathy/char-rnn - rnn提供了更简洁高效的实现。
      • 920232796/bert_seq2seq - large、gpt2、t5等模型,支持seq2seq、cls_classifier、sequence_labeling、sequence_labeling_crf、relation_extract等任务。
      • deepset-ai/FARM
      • facebookresearch/large_concept_model - BERT。LCM在多种任务上表现出强大的性能,包括文本生成、文本补全和句子编辑。LCM的优势在于其对句子语义的直接建模,使其能够生成更连贯、更符合逻辑的文本。项目鼓励研究者基于LCM进行进一步的探索和应用。
      • Conchylicultor/DeepQA
      • maboloshi/github-chinese
      • xyshao23/Awesome-Generative-Models-for-Decision-Making-Taxonomy - Generative-Models-for-Decision-Making-Taxonomy,旨在整理和分类用于决策的生成模型。它提供了一个生成模型在决策领域应用的全面综述,涵盖了从模仿学习到强化学习等多个方面。该项目的主要特色在于对现有生成模型进行系统性的分类和组织,方便研究者快速找到相关模型并了解其应用场景。项目可能包含模型架构、训练方法、应用案例以及相关论文链接等信息。通过对这些模型进行分类,该项目旨在促进生成模型在决策领域的进一步研究和应用,帮助研究人员更好地理解和利用生成模型解决实际决策问题。该项目可能关注生成对抗网络(GANs)、变分自编码器(VAEs)以及其他类型的生成模型。
      • infrost/DeeplxFile
      • Byaidu/PDFMathTranslate - YOLO 等开源项目。
  • 其他_NLP自然语言处理

  • 网络信息服务

    • 信息沟通

      • yincongcyincong/MuseBot
      • Kav-K/GPTDiscord
      • lcm-proj/lcm
      • EvolutionAPI/evolution-api
      • dreamhunter2333/cloudflare_temp_email
      • anasty17/mirror-leech-telegram-bot - leech-telegram-bot 是一个功能强大的 Telegram 机器人,可以下载多种来源的文件并上传到云端。它支持直接链接、种子、nzb、Google Drive、Telegram 文件,以及任何 rclone 支持的云盘上的文件/文件夹。此外,该机器人还支持 yt-dlp 支持的网站和 jdownloader 支持的网站的资源下载。下载完成后,它可以将文件上传到 Google Drive、Telegram 云盘或者任何 rclone 支持的云盘。总而言之,它是一个集下载和上传于一体的自动化工具,方便用户在 Telegram 中管理和传输文件。
      • FlagOpen/ShareRobot
      • crossoverJie/cim
      • lich0821/WeChatFerry
      • eatmoreapple/openwechat
      • silenceper/wechat
      • Hanson/vbot
      • codigoencasa/builderbot
      • StrayMeteor3337/WechatRealFriends
      • jackjackbits/bitchat - Fi或互联网即可实现局域网内的即时通信,适用于多人协作、IoT设备通信等场景。项目代码基于Python编写,依赖蓝牙Mesh协议栈的实现(如bluetooth-mesh库),并通过设备的蓝牙广播功能实现自动发现和连接。开发者还特别强调了其轻量化设计,仅需在设备间建立蓝牙Mesh网络即可运行,无需额外服务器支持。此外,bitchat支持消息加密(如AES算法)以防止窃听,同时通过组播机制优化消息传输效率,确保在多设备环境中消息能快速同步。该项目适合对蓝牙Mesh技术感兴趣的学习者或需要局域网内即时通信的开发者使用。
      • blackboxo/CleanMyWechat
      • molvqingtai/WebChat
      • zeromq/libzmq
      • elie222/inbox-zero
      • dunglas/mercure - Sent Events (SSE)协议,允许服务器将更新推送到客户端,无需客户端不断轮询。Mercure通过中心化的Hub进行消息传递,支持多种传输协议,包括HTTP/2和HTTP/3。它与现有的HTTP基础设施兼容,易于集成到现有的Web应用程序中。该项目旨在提供高效的实时数据流,适用于聊天、股票行情、实时分析等场景。Mercure支持发布-订阅模式,允许客户端订阅特定的主题并接收相关更新。它提供了一个简单易用的API,方便开发者快速构建实时应用。此外,Mercure还具有良好的可扩展性和安全性,可以满足各种规模的应用需求。它鼓励使用标准协议,避免供应商锁定,并提供强大的身份验证和授权机制。
      • sjzar/chatlog
      • Flowseal/zapret-discord-youtube - discord-youtube。它是一个 Discord 机器人,旨在限制违反社区规则的用户访问 YouTube 视频。该机器人的工作原理是屏蔽启用该功能的 Discord 频道中的 YouTube 链接。当用户尝试分享 YouTube 链接时,机器人会检测到并阻止该链接的发布。该机器人使用配置文件来确定哪些频道受到限制以及哪些用户被屏蔽。它由 Python 编写,并使用 discord.py 库与 Discord API 交互。该项目包含可自定义屏蔽消息和将特定用户列入白名单等功能。熟悉 Discord 机器人的用户可以轻松安装和配置该机器人。它面向希望有效执行内容规则的服务器管理员。该项目是开源的,可在 GitHub 上供社区使用和修改。它提供了一种在 Discord 社区中管理 YouTube 链接共享的简单解决方案。
      • TelegramMessenger/Telegram-iOS
      • WhiskeySockets/Baileys
      • aaPanel/BillionMail
      • gommzystudio/device-activity-tracker - activity-tracker,是一个针对即时通讯应用(如WhatsApp和Signal)的隐私安全研究项目。其核心目的是通过分析消息传递过程中的元数据,揭示设备使用状态的敏感信息。项目采用概念验证(PoC)形式,利用电话号码的通话状态信息作为基础,结合消息传递的实时传输时间(RTT)和交付收据数据,构建设备活动模式分析模型。该技术通过监测消息发送后的响应时间差异,可推断设备是否处于活跃状态(如有人正在查看消息)、待机状态(如设备未被使用)或离线状态(如设备未连接网络)。研究发现,即时通讯应用在处理消息时,会通过服务器返回的RTT数据和收据信息泄露用户设备的使用状态,这可能被用于追踪用户行为模式或判断用户是否在线。项目特别强调了隐私风险,指出这种基于通信协议的元数据分析可能被滥用,用于监控用户活动轨迹。其技术实现依赖于对通信协议的逆向分析,以及对消息传输过程中的时间戳和状态码的深度解析。该项目为隐私安全领域提供了警示,展示了现代通信应用中潜在的隐私泄露风险,并提示开发者需加强消息元数据的加密和匿名化处理。
      • appleboy/gorush
      • goq/telegram-list - list是一个Telegram群组、频道和机器人的列表项目,旨在收集和整理Telegram上有趣的资源,包括编程相关的聊天室。项目主要通过README.md文件来维护和展示这些列表信息。该项目可能包含不同语言的资源,例如俄语。用户可以通过浏览README.md文件来发现自己感兴趣的Telegram群组、频道或机器人。
      • HuLaSpark/HuLa
      • basecamp/fizzy
    • 网络代理

      • rofl0r/microsocks
      • ChrispyBacon-dev/DockFlare
      • mudler/edgevpn
      • SpaceTimee/Sheas-Cealer - Cealer的项目,特色是提供无代理的合法方式来抵御网络监听和进行网络研究,工作原理是通过内容文件(如README.md)来执行相关操作,实现网络通信的隐私保护,适合需要匿名上网和网络安全研究的人员使用。
      • OnionBrowser/OnionBrowser
      • wg-easy/wg-easy - easy项目提供了一种简便的方式来运行 WireGuard VPN,并提供基于 Web 的管理用户界面。它旨在简化 WireGuard VPN 的设置和管理过程,无需复杂的命令行操作。该项目的主要特色是易于使用,用户可以通过 Web UI 轻松配置和管理 VPN 连接。wg-easy 简化了 WireGuard 的密钥生成、客户端配置和连接管理等任务。通过 Docker 容器化部署,可以快速启动和运行 VPN 服务。Web UI 提供了直观的操作界面,方便用户添加、删除和管理 VPN 客户端。该项目适用于希望快速搭建和管理 WireGuard VPN,但又不想深入研究底层配置的用户。总而言之,wg-easy 提供了一个用户友好的 WireGuard VPN 解决方案,降低了 VPN 部署和管理的门槛。
      • AUK9527/Are-u-ok - Plus和OpenClash。还包括其他软件包,如AdGuardHome、MosDNS、UnblockNeteaseMusic等,用于DNS管理、广告拦截和音乐解锁等功能。提供了详细的安装说明,包括通过iStore应用商店手动安装和通过终端环境执行.run文件。
      • xiaorouji/openwrt-passwall
      • p4gefau1t/trojan-go - Go是一个使用Go语言编写的Trojan代理,旨在帮助用户绕过GFW。它具有多路复用、路由功能、CDN中转和Shadowsocks混淆插件等特色功能,可以有效隐藏流量特征。该项目支持多平台运行,并且无需依赖其他库,部署简单方便。Trojan-Go的核心工作原理是伪装成正常的HTTPS流量,从而避免被检测和屏蔽。项目官方网站是https://p4gefau1t.github.io/trojan-go/,提供了详细的文档和使用指南。
      • hwdsl2/docker-ipsec-vpn-server
      • mullvad/mullvadvpn-app
      • zero-peak/ZeroOmega
      • MHSanaei/3x-ui
      • amnezia-vpn/amnezia-client
      • kunkundi/crossdesk - 256 加密协议保护数据传输,防止敏感信息泄露,适合对隐私要求较高的企业或个人使用。软件的工作原理基于客户端-服务器模型,客户端通过 WebSocket 协议与服务器实时通信,服务器负责处理桌面渲染与数据传输,Web 客户端则通过浏览器技术实现远程交互。此外,项目提供可定制的界面选项,用户可根据需求调整分辨率、键盘映射等参数,提升使用灵活性。适用场景涵盖远程办公、IT 远程支持、家庭自动化控制及教育领域,满足多样化需求。总结而言,crossdesk 是一款集高效性、安全性与便捷性于一体的远程桌面工具,凭借其跨平台特性与 Web 访问优势,成为需要快速远程操作的理想选择。
      • fosrl/pangolin
      • ffay/lanproxy
      • yosebyte/nodepass
      • TheSpeedX/PROXY-List - List是一个每日自动更新的代理列表项目,提供HTTP/HTTPS/SOCKS5代理资源,支持多平台使用。项目通过爬虫技术抓取全网公开代理资源,内置自动过滤机制验证代理有效性,并按协议类型分类存储为JSON格式。用户可直接调用API获取最新代理列表,无需手动维护,适用于开发者调试、隐私保护等场景。项目特色包括实时更新、协议分类、自动去重和失效代理剔除功能,所有代理均经过连接测试确保可用性。工作原理基于定时爬虫抓取数据,通过多线程验证代理存活状态,最终生成结构化数据供用户调用。项目开源且提供贡献指南,用户可提交新代理或优化过滤规则。需注意代理服务器可能因网络波动失效,建议结合本地验证使用。项目同时支持命令行工具和API接口,开发者可自定义代理筛选条件,满足不同场景需求。
      • 3proxy/3proxy
      • EasyTier/EasyTier
      • erebe/wstunnel
      • miroslavpejic85/p2p
      • cbeuw/Cloak
      • hwanz/SSR-V2ray-Trojan - V2ray-Trojan,是一个整合了ShadowsocksR、V2Ray和Trojan协议的科学上网工具包,旨在为用户提供灵活的网络代理解决方案。其核心功能是通过多协议支持,用户可根据网络环境或需求切换不同协议(如SSR、V2Ray、Trojan等),同时支持多种加密方式(如AES-256-GCM、Chacha20等),以增强连接的稳定性和安全性。项目采用配置文件驱动方式,用户可通过修改JSON格式的配置文件快速切换代理节点或调整协议参数,无需复杂操作即可实现流量中转。此外,项目内置了机场(即代理服务提供商)推荐与评测模块,帮助用户筛选可靠的节点服务,优化网络体验。工作原理上,该工具通过本地代理服务器将用户流量加密后,经由配置的节点转发至目标网络,从而绕过地域限制。项目特别强调兼容性,支持Windows、Linux、macOS等主流系统,并提供一键安装脚本简化部署流程。由于整合了多种协议,用户可根据机场服务特性选择最优方案(如Trojan适合对抗深度检测,V2Ray适合复杂网络环境),同时项目持续更新维护,确保适配最新网络环境与协议标准。
      • go-gost/gost - gost/gost 是一个基于 Go 语言开发的高性能网络隧道工具,旨在为用户提供简单高效的代理服务。该项目采用模块化设计,支持多种代理协议(如 Socks5、HTTP、HTTPS)和加密传输方式,可实现本地流量转发、远程隧道建立及网络代理功能。其核心工作原理是通过监听本地端口接收流量,利用预设规则或用户配置将数据通过加密通道转发至目标地址,支持 TCP/UDP 协议,并可通过插件系统扩展功能。 项目特色包括:1)支持多协议代理与加密传输,提供安全的网络通信环境;2)内置负载均衡功能,可优化高并发场景下的性能表现;3)支持模块化架构,用户可灵活配置转发规则、插件及日志记录功能;4)提供 CLI 工具与 YAML 配置文件支持,简化部署与管理;5)跨平台兼容性良好,适用于 Windows、Linux、macOS 等主流系统。gost 还具备低延迟、高吞吐的性能优势,适合用于构建私有代理网络、实现内网穿透或搭建安全通信隧道。项目文档详尽,包含使用示例、配置说明及性能调优建议,用户可通过官方仓库获取源码并参考 README 文件进行部署。
    • 网络爬虫

      • any4ai/AnyCrawl
      • browserable/browserable
      • itsOwen/CyberScraper-2077 - 2077是一个强大的网络爬虫项目,它利用大型语言模型(LLM)技术,例如OpenAI、Gemini和Ollama,来实现更智能化的网页数据抓取。该项目的主要特色在于其LLM驱动的网页内容理解能力,可以更准确地识别和提取目标信息。工作原理是结合传统的网页爬取技术与LLM的自然语言处理能力,使爬虫能够理解网页的语义结构,从而更有效地定位和抓取所需数据。项目旨在提供一个灵活且易于使用的工具,帮助用户从各种网站中提取信息,并支持多种LLM平台,方便用户根据自身需求进行选择和配置。该项目适用于需要高度定制化数据抓取解决方案的场景,例如市场调研、竞争情报分析等。
      • go-rod/rod - rod是一个基于Chrome DevTools Protocol的浏览器自动化工具,支持网页测试、数据抓取和界面操作。它用Go语言编写,提供简洁的API设计,内置浏览器管理器可自动处理浏览器启动、配置和生命周期。项目通过CDP协议与浏览器内核直接通信,实现对页面元素的精准控制,支持无头模式运行,兼容Windows、macOS和Linux系统。其核心特色包括轻量级架构、高扩展性以及对现代浏览器功能的全面支持,例如网络请求拦截、页面截图和PDF导出。go-rod适用于需要高效执行自动化任务的场景,开发者可通过其模块化设计快速集成到现有项目中,同时支持自定义插件扩展功能。项目文档完善,包含详细示例和使用指南,适合新手入门和进阶开发。
      • swar/nba_api
      • cxcscmu/Craw4LLM
      • projectdiscovery/katana
      • lorien/awesome-web-scraping - web-scraping是一个专注于网络爬虫和数据处理的资源集合项目,为开发者提供了从基础工具到高级技术的完整解决方案。该项目通过分类整理的方式,汇总了大量适用于网页抓取、数据清洗、反爬虫策略和API接口的工具库及实用技术,帮助开发者高效完成数据采集与处理任务。项目特色在于其模块化设计,涵盖四大核心领域:网络爬虫库(如Python的Requests、Scrapy和Node.js的Puppeteer)、数据解析工具(如BeautifulSoup、Cheerio和JSONPath)、反爬虫解决方案(如代理IP池、Headless浏览器和浏览器指纹伪装)以及数据处理API(如CSV/Excel操作、数据库交互和机器学习数据预处理)。每个工具均附有简要说明,包含其适用场景、核心功能及使用示例,例如Scrapy支持异步爬取和分布式部署,Puppeteer可模拟浏览器操作绕过JS渲染限制。项目还特别强调了合规性,建议开发者遵守目标网站的robots.txt协议,并提供数据脱敏和加密等安全处理方法。通过将技术文档、教程和社区讨论整合到统一资源库中,该项目降低了学习门槛,成为数据工程师和爬虫开发者的实用指南。
      • berstend/puppeteer-extra - extra 是一个为 Puppeteer 提供扩展功能的插件库,通过模块化插件系统实现浏览器自动化操作的深度定制。该项目核心特性是通过 "plugins" 机制为 Puppeteer 添加新功能,例如浏览器指纹修改、请求拦截、验证码处理等,开发者可以按需加载插件来增强自动化脚本能力。其工作原理基于 Puppeteer 的插件架构,通过注册自定义插件实现对浏览器实例的扩展,支持通过配置文件或代码直接加载插件。项目内置了多个实用插件如 puppeteer-extra-plugin-stealth(隐藏自动化特征)、puppeteer-extra-plugin-viewport(屏幕分辨率管理)等,可帮助开发者更精准地模拟真实用户行为。安装后可通过 `puppeteer-extra.use(plugin)` 语法集成插件,支持动态加载和参数配置,适合需要长期维护的爬虫项目或自动化测试场景。项目还提供了详细的中文文档和示例代码,开发者可快速上手扩展功能。其设计目标是降低 Puppeteer 功能扩展的复杂度,同时保持核心库的轻量化,通过插件机制实现功能的灵活组合,适用于需要应对反爬机制、多浏览器兼容或复杂页面交互的场景。
      • niespodd/browser-fingerprinting - fingerprinting** 是一个分析和对抗网站反爬虫(Bot Protection)系统的工具集,旨在帮助用户绕过浏览器指纹追踪脚本,实现更高效的网页数据抓取。项目核心功能是检测并破解网站用于识别自动化工具(如爬虫)的浏览器指纹技术,这些技术通常通过收集浏览器配置、设备信息、网络环境等数据来判断用户是否为真实用户。项目提供了多种技术方案,例如通过修改浏览器设置(如禁用WebGL、Canvas渲染、用户代理字符串)或使用工具(如Selenium、Puppeteer)模拟真实浏览器行为,从而生成与普通用户相似的指纹特征。此外,项目还分析了主流反爬虫系统的原理,例如基于JavaScript执行环境、时间戳、鼠标行为等的检测逻辑,并提供了对应的绕过策略,例如注入虚拟鼠标轨迹、调整脚本执行顺序等。用户可通过该项目提供的代码示例和配置指南,快速实现对浏览器指纹的伪装,降低被网站识别为爬虫的风险。项目特别强调了对抗“浏览器指纹追踪”(Browser Fingerprinting)的重要性,这种技术无需依赖Cookie或IP地址即可识别自动化访问,因此需要通过修改浏览器内核、模拟用户交互等方式进行规避。同时,项目还探讨了如何结合“无头浏览器”(Headless Browser)与“指纹混淆”技术,进一步提升爬虫的隐蔽性。整体而言,该项目是针对反爬虫系统的一站式解决方案,适用于需要高频抓取数据但又面临严格检测的场景。
      • alirezamika/autoscraper
      • browserbase/mcp-server-browserbase
      • sansan0/TrendRadar
      • TecharoHQ/anubis
      • D4Vinci/Scrapling
      • kepano/defuddle-cli - cli是一个命令行工具,用于从网页中提取干净的HTML、Markdown和元数据。它可以帮助你去除网页中的广告、导航栏和其他干扰元素,只保留核心内容。该工具使用Readability算法来识别网页的主要内容区域,并将其转换为干净的格式。你可以使用它来创建自己的文章存档、生成摘要或进行文本分析。Defuddle-cli支持自定义CSS选择器和XPath表达式,以更精确地控制内容提取。它还能够提取网页的标题、作者、发布日期等元数据。安装简单,使用方便,是网页内容提取的利器。
      • prinsss/twitter-web-exporter - web-exporter是一个用于从Twitter(X)网页应用导出推文、书签、列表等数据的工具。它允许用户备份和保存他们在Twitter上的活动记录。该项目的主要功能包括导出推文、书签、收藏和列表等多种类型的数据。它直接从Twitter网页应用抓取数据,无需API密钥,简化了导出过程。用户可以方便地将自己的Twitter数据导出并保存到本地,以便进行分析、备份或迁移。该工具旨在提供一种简单易用的方式来管理和控制用户在Twitter上的数据。
      • iliane5/meridian
    • 资源传输下载

      • gtsteffaniak/filebrowser
      • OpenListTeam/OpenList
      • szabodanika/microbin
      • datarhei/restreamer
      • butterproject/butter-desktop
      • YanG-1989/m3u - 1989开发,主要用于管理和播放直播源。它允许用户自定义直播源列表,并支持多种播放器进行播放。该项目的主要功能包括直播源的添加、编辑、删除和排序,方便用户整理自己的直播频道。它可能通过解析m3u格式的直播源文件来实现频道列表的加载和管理。用户可以通过该项目轻松观看各种直播内容,并根据个人喜好进行定制。该项目可能具有简洁易用的用户界面,方便用户进行操作。具体实现细节和技术栈需要进一步查阅项目代码。
      • jpillora/cloud-torrent
      • alexta69/metube - dl和yt-dlp的图形化操作,支持用户通过浏览器直接下载YouTube视频、字幕及多格式音视频内容。项目采用Python开发,基于Flask框架构建Web界面,通过调用youtube-dl/yt-dlp的核心功能实现视频解析与下载,同时支持SQLite或PostgreSQL数据库存储下载记录和用户配置。其核心特色包括:提供直观的Web管理界面、支持多线程下载加速、可自定义视频质量参数、支持批量下载及字幕分离功能,并允许通过环境变量或配置文件设置下载路径和代理参数。项目兼容主流操作系统(Windows、Linux、macOS),依赖Python 3.7+环境,需安装ffmpeg处理音视频转码,并可通过Docker容器化部署简化安装流程。工作原理上,用户通过Web界面输入视频链接后,系统会调用youtube-dl/yt-dlp解析视频信息,展示可选的下载格式和质量,确认后触发后台下载任务,进度实时反馈至前端界面,下载完成的文件会自动保存到指定目录。项目还支持通过API接口实现自动化操作,并提供基础的用户权限管理功能。安装时需克隆GitHub仓库后,通过pip安装依赖包,配置数据库连接信息,最后运行启动脚本即可访问Web界面。由于涉及第三方视频解析库,项目需遵守YouTube服务条款,且部分功能可能受限于地区网络环境。
      • XiaoYouChR/Ghost-Downloader-3 - Downloader-3是一款基于Python开发的跨平台多线程下载工具,采用QUIC协议实现高效低延迟传输,结合AI算法优化下载流程并支持流畅设计界面。项目通过多线程技术提升下载速度,利用QUIC协议的高效特性保障传输稳定性,AI增强功能可智能分析下载资源并动态调整策略。其核心工作原理是通过Python实现的多线程架构同时发起多个下载连接,QUIC协议替代传统TCP/HTTP实现更低的网络延迟,AI模块则实时监控下载状态并优化资源分配。支持Windows、macOS、Linux等主流平台,用户可通过简洁界面或命令行操作,适合需要快速下载大文件或追求高效传输的用户。项目特色包括跨平台兼容性、智能资源管理、低延迟传输以及流畅交互设计,开发者通过Python的异步编程框架实现高性能下载逻辑,同时采用模块化设计方便功能扩展。
      • Forceu/Gokapi
      • ziahamza/webui-aria2 - aria2项目旨在打造最佳的aria2交互界面。它简单易用,只需下载并在浏览器中打开index.html即可使用。该项目致力于提供一个便捷的web界面来管理和控制aria2下载。特色在于其简洁的设计和易于上手的操作方式。用户可以通过web界面轻松添加、暂停、恢复和删除下载任务。项目目标是成为最受欢迎的aria2前端。它简化了aria2的使用,无需复杂的命令行操作。用户可以直观地监控下载进度和管理下载队列。该项目的核心是提供一个用户友好的图形界面,让更多人能够轻松使用aria2强大的下载功能。
      • subhra74/xdm
      • bitmagnet-io/bitmagnet
      • SickChill/sickchill
      • aculix/bitplay
      • nextcloud/all-in-one - In-One是官方Nextcloud安装方法,提供易于部署和维护的一站式解决方案,将多数功能集成在单个Nextcloud实例中,简化了设置和管理过程,用户无需分别配置多个服务,所有功能都包含在这个单一实例里,适合需要快速搭建完整Nextcloud服务的用户。
      • EasyDarwin/EasyDarwin
      • illuspas/Node-Media-Server - FLV媒体服务器项目,可以接收和分发音视频流,支持转码录制,具有发布和播放功能,采用模块化设计,易于扩展,通过Web界面管理,兼容HLS协议,适合直播和点播应用,开源免费,社区活跃。
      • jdepoix/youtube-transcript-api
      • jxxghp/MoviePilot
      • fish2018/pansou
      • PBH-BTN/PeerBanHelper
      • psi-4ward/psitransfer - 4ward/psitransfer 是一个简单的开源文件共享解决方案。2. 它允许用户安全地传输文件,而无需依赖第三方服务。3. 该项目是自托管的,这意味着它可以在您自己的服务器或设备上运行。4. 由于不涉及外部服务器,因此可以确保隐私和数据控制。5. 代码可自由修改和协作。6. 它提供了一种在用户或系统之间共享文件的直接方法。7. 工作原理包括设置本地服务器和使用 Web 界面进行传输。8. 无需复杂的配置,易于部署。9. 它支持加密文件传输以增强安全性。10. 该解决方案非常适合个人或小团队使用案例。11. README.md 文件是该项目的主要文档。12. 用户可以自定义和扩展该工具以满足他们的特定需求。
      • localsend/protocol
      • istoreos/istoreos - 22.03,开发者们正积极维护和更新该分支。iStoreOS致力于为家庭用户和小型企业提供简单易用、功能强大的网络存储解决方案。它集成了路由、存储、媒体服务等多种功能,满足用户多样化的需求。通过iStoreOS,用户可以轻松搭建家庭网络中心,实现数据备份、共享和远程访问。
      • kyantech/Palmr
      • yaobiao131/downkyicore
      • tus/tusd
      • spieglt/FlyingCarpet - Fi 网络(无需网络基础设施)进行文件传输。该项目的核心功能是通过设备内置的 Wi-Fi 芯片(可选蓝牙)实现近距离设备间的直接通信,无需依赖互联网或路由器等外部网络设备。其工作原理基于自组 Wi-Fi 网络(Ad Hoc WiFi)技术,通过两个设备在近距离内建立临时连接,利用 Wi-Fi 的广播能力实现数据传输,而无需额外的网络配置或基础设施支持。该项目特别强调“无网络依赖”,用户只需确保设备具备 Wi-Fi 功能(部分设备可选蓝牙辅助),即可在设备间快速传输文件,适用于需要快速分享文件的场景,例如在会议中传输文档、在局域网内共享资源等。FlyingCarpet 的设计目标是简化跨平台文件传输流程,打破传统 AirDrop 等功能仅限于苹果设备的限制,支持更广泛的设备类型,同时保持操作的便捷性与稳定性。项目通过自组网络技术降低对网络环境的依赖,使文件传输更加灵活高效,适合需要临时、快速共享文件的用户群体。
      • houtianze/bypy - PY等第三方库,用户可通过pip安装。该工具适用于需要自动化管理网盘文件的个人用户或开发者,尤其适合需要频繁操作网盘的场景,如备份重要数据、同步工作资料等。需要注意的是,百度网盘的API接口可能会随服务更新而调整,项目维护者需定期更新适配新版本接口以保证功能完整性。
    • 网络协议

      • steveseguin/vdo.ninja
      • NapNeko/NapCatQQ
      • ratchetphp/Ratchet
      • anyrtcIO-Community/anyRTC-RTMP-OpenSource - RTMP-OpenSource是一个开源的RTMP推流器项目,支持RTMP和HLS协议,具有秒开播放器的特色,可以实现直播和点播功能,支持跨平台使用,包括Windows、iOS和Android,代码完全开源。
      • ant-media/Ant-Media-Server - Media-Server是一个直播引擎软件,使用WebRTC技术提供自适应、超低延迟的流媒体服务,延迟约为0.5秒。该项目具有自动扩展功能,可以在本地或云端运行,支持多种流媒体协议,如RTMP、HLS和WebRTC,适用于直播和点播场景,易于部署和配置,支持多用户并发,具有高可靠性和安全性,是一个开源的流媒体服务器解决方案。
      • alexjustesen/speedtest-tracker
      • trimstray/htrace.sh
      • opsdisk/the_cyber_plumbers_handbook
      • sivel/speedtest-cli - cli是一个使用speedtest.net测试互联网带宽的命令行工具。它无需安装Flash,使用Python编写,可以测量下载和上传速度。该工具通过连接到speedtest.net服务器并模拟数据传输来评估带宽。它提供简单的文本输出,方便在脚本中使用。项目支持Python 2.4-3.x,并提供了详细的安装和使用说明。你可以通过pip安装,并使用`speedtest-cli`命令运行。它能显示ping延迟、下载速度、上传速度,以及连接的服务器信息。speedtest-cli是一个轻量级、快速且易于使用的网络速度测试工具,适合开发者和系统管理员使用。项目维护良好,并持续更新。
      • thunderbird/thunderbird-android - 9 Mail) 是一个开源的安卓邮件应用。它旨在提供隐私、安全且易于使用的邮件体验,目标是成为 Thunderbird 桌面客户端的移动端补充。该项目正在进行现代化改造,包括更新用户界面以匹配 Thunderbird 桌面版,并改进账户设置流程。它支持多种邮件协议,例如 IMAP、POP3 和 Exchange,并允许管理多个邮箱账户。Thunderbird for Android 强调本地存储邮件,并提供强大的搜索功能。开发者正在努力实现与 Thunderbird 账户自动配置和同步,以及支持 Thunderbird 桌面版的功能扩展。该项目欢迎社区贡献,包括代码、翻译和测试。你可以通过 GitHub Actions 构建和运行该应用。目前,该应用处于积极开发阶段,未来将提供更多高级功能。
      • ntop/ntopng
      • maxgoedjen/secretive - agent` 与 Secretive 进行交互,实现无缝的 SSH 认证流程。项目主要目标是提升 SSH 密钥的安全性,避免密钥泄露风险。它支持多种 SSH 密钥类型,并提供了用户友好的界面来管理和使用密钥。Secretive 使用 Swift 编写,并依赖 Apple 的 Security 框架。该项目旨在简化 SSH 密钥的管理,并提供比传统方法更安全的存储方案。
      • usual2970/certimate
      • dstotijn/hetty
      • soketi/soketi
      • is-a-dev/register - a.dev`子域名。它提供了一种简单的方式来拥有个性化的域名,例如`yourname.is-a.dev`。 项目的核心功能是注册和管理这些子域名。 通过该项目,开发者可以轻松地拥有一个独特且易于记忆的在线身份标识。 该项目可能涉及域名解析和服务器配置等技术。 总之,`.is-a.dev`子域名注册项目为开发者提供了一个展示自我和构建个人品牌的便捷途径。
      • six-ddc/plow
      • tobychui/zoraxy
      • fastly/pushpin
      • xykt/NetQuality
      • aaPanel/aaWAF
      • wanghongenpin/proxypin
      • openwrt/packages
      • octelium/octelium
      • enetx/surf
      • reacherhq/check-if-email-exists - if-email-exists是一个使用Rust语言开发的开源项目,其核心功能是无需发送实际邮件即可验证电子邮件地址是否存在。该项目通过实现SMTP协议握手和DNS MX记录查询等技术手段,模拟邮件发送过程中的网络交互,从而判断目标邮箱是否有效。项目特别设计了HTTP后端接口(标记为⚙️),允许开发者通过RESTful API调用验证功能,适用于需要快速验证用户邮箱真实性的场景,例如注册系统、数据清洗或用户身份验证等。其技术优势在于完全避免了传统验证方式可能带来的垃圾邮件风险,同时利用Rust语言的内存安全特性和高性能特性保证了服务的稳定性与效率。开发者可以通过HTTP接口直接传入待验证的邮箱地址,系统会自动检查目标域名的MX记录是否存在、SMTP服务器是否响应正常等关键指标,最终返回邮箱是否可送达的判断结果。该项目的开源特性使其可灵活集成到各种后端系统中,同时支持通过自定义配置调整验证深度(如是否进行SMTP握手验证),兼顾了验证准确性和资源消耗的平衡。对于需要高效、无侵入式邮箱验证方案的开发者来说,这是一个值得关注的轻量级工具选择。
      • seriousm4x/UpSnap - on-LAN网络唤醒工具,通过Web界面实现对局域网设备的远程唤醒操作。项目采用前后端分离架构,前端使用SvelteKit框架构建响应式用户界面,支持多设备管理、唤醒记录查询和二维码生成等功能;后端基于Go语言开发,通过PocketBase数据库实现设备信息存储与管理,无需额外搭建数据库服务。核心功能包括:通过Web界面输入目标设备的MAC地址和IP地址发送Magic Packet唤醒指令,支持批量唤醒操作;内置设备管理功能可添加、编辑和删除设备信息;自动生成二维码供移动端扫码访问Web界面;记录所有唤醒操作的详细日志并支持查看历史记录。项目通过PocketBase提供的实时数据库功能实现数据持久化存储,用户无需配置复杂数据库即可使用。开发团队强调项目采用开源协议,适合家庭用户或小型网络管理员快速部署使用,特别适用于需要远程唤醒服务器、NAS等设备的场景。整个系统部署简单,仅需安装Go环境和Node.js环境即可完成,通过简单的配置即可实现跨设备唤醒功能,是目前较为轻量化的Wake-on-LAN解决方案之一。
      • HMBSbige/NatTypeTester
      • muaz-khan/WebRTC-Experiment - khan/WebRTC-Experiment 项目是一个专注于 WebRTC 技术的代码示例和演示集合。它探索了实时通信功能,例如点对点视频和音频通话、数据通道和屏幕共享。该项目强调浏览器兼容性,为不同平台和版本提供解决方案。它详细讲解了 WebRTC 的核心组件,例如 RTCPeerConnection API、MediaStream 和 DataChannel。其工作原理包括使用 ICE、STUN 和 TURN 协议在浏览器之间建立直接连接。它演示了如何高效地处理媒体捕获、处理和传输。该代码库还涵盖了诸如联播、自适应比特率和网络优化等高级主题。它提供了在视频会议、直播和文件共享等应用中实现 WebRTC 的实用示例。该项目重点关注安全方面,包括加密和身份验证机制。它旨在帮助开发者和学习者体验 WebRTC 功能并解决常见问题。GitHub README 文件可作为实验指南,帮助您了解实验目的。该项目旨在通过可访问的代码和文档简化 WebRTC 的复杂性。
      • mikebrady/shairport-sync - Sync是一个开源的AirPlay和AirPlay 2音频播放器项目,能够将苹果设备(如iPhone、iPad或Mac)通过无线网络传输的音频流实时播放到运行Linux系统的设备上,例如树莓派或普通PC。该项目通过模拟Apple的AirPlay协议,允许用户将音频内容从手机或电脑无缝传输到连接的音响设备,支持多房间音频同步功能,实现多个设备同时播放同一首歌曲。其工作原理基于UDP协议接收音频数据包,通过ALSA或PulseAudio音频库将解码后的音频信号输出到物理扬声器或耳机。项目支持AirPlay 2的加密传输机制,确保音频流的安全性,同时提供灵活的配置选项,如音频输出设备选择、缓冲区大小调整和端口自定义。开发者可利用其轻量级特性在嵌入式设备上部署,适合需要低成本智能音响解决方案的场景。项目代码完全开源,用户可通过GitHub获取源码并自行编译安装,支持主流Linux发行版,且文档中提供了详细的配置指南和故障排查说明,适合技术爱好者和开发者进行二次开发或集成到智能家居系统中。
      • go-acme/lego - ALPN 挑战来验证域名所有权。它提供了一个命令行工具,方便用户直接使用,同时也提供 Go 库,方便集成到其他 Go 项目中。lego 支持通配符证书,可以保护整个域名及其所有子域名。它设计简洁易用,可以轻松地自动化证书管理流程,并支持证书吊销。lego 旨在简化 Let's Encrypt 证书的获取和管理,使 HTTPS 部署更加容易。
      • nxtrace/NTrace-core - core是一个开源的可视化路由追踪命令行工具,旨在帮助用户理解网络流量路径。它通过结合traceroute和可视化技术,将复杂的网络路由信息以更直观的方式呈现。NTrace-core利用traceroute获取网络节点信息,然后将这些信息转换为图形化界面,方便用户分析网络延迟和瓶颈。项目特色包括易于使用的命令行界面、清晰的可视化展示以及对多种网络协议的支持。用户可以通过NTrace-core快速诊断网络连接问题,并了解数据包在互联网上的传输路径。它适用于网络管理员、开发人员以及任何需要了解网络路由的个人。NTrace-core的目标是简化网络分析流程,让用户能够更轻松地理解和优化网络性能。
      • ldcsaa/HP-Socket - Socket 是一个高性能的 TCP/UDP/HTTP 通信组件,支持 Windows、Linux 和 macOS 平台。它基于事件驱动和异步 I/O 模型,旨在简化网络编程并提供卓越的性能。HP-Socket 封装了复杂的 socket API,提供简单易用的接口,支持多种编程语言,包括 C/C++、Delphi、.NET、Java 和 Python。它具有高并发、低延迟、易于集成和扩展的特点,适用于构建高性能的网络服务器和客户端应用程序。HP-Socket 通过内部线程池管理连接和数据处理,减少了线程切换开销。它支持多种数据传输模式,包括 push 和 pull,并提供了丰富的事件通知机制,方便应用程序进行状态管理和数据处理。该项目还包含详细的文档和示例代码,帮助开发者快速上手和使用。HP-Socket 适用于需要处理大量并发连接和高吞吐量的应用场景,例如游戏服务器、实时通信系统和数据采集系统。
      • Devolutions/IronRDP
      • galaxy-s10/billd-desk - desk是一个基于Vue3、WebRTC、Nodejs和Electron构建的远程桌面控制项目。它允许用户通过网络远程访问和控制另一台计算机的桌面。该项目利用WebRTC技术实现音视频流的实时传输,提供低延迟的远程桌面体验。前端使用Vue3框架构建用户界面,后端使用Nodejs处理信令交换和连接管理。Electron则负责将应用打包成跨平台的桌面应用程序,支持Windows、macOS和Linux系统。其核心功能包括远程控制、文件传输和语音聊天等。项目旨在提供一个开源、易于部署和使用的远程桌面解决方案,方便用户进行远程办公、技术支持和远程协作。它通过WebRTC的P2P连接减少了对中心服务器的依赖,提升了安全性和性能。
      • ofiwg/libfabric
      • chaifeng/ufw-docker - docker项目旨在解决Docker与UFW防火墙之间的安全漏洞,避免禁用iptables。它通过在ufw规则中插入Docker相关的iptables规则,确保容器网络流量受到UFW的保护。项目特色在于自动化管理Docker容器的网络策略,无需手动配置iptables规则。其工作原理是监听Docker事件,动态更新ufw规则,允许或拒绝容器的网络访问。使用该项目,用户可以同时享受Docker的便利性和UFW的安全性,避免因Docker绕过UFW防火墙而产生的安全风险。项目提供简单易用的命令和配置选项,方便用户集成到现有的Docker和UFW环境中。该项目通过维护一个自定义的ufw规则集,确保只有授权的容器可以访问网络,从而增强Docker环境的整体安全性。
      • microsoft/msquic
      • miguelgrinberg/python-socketio - socketio是一个基于Python的Socket.IO实现项目,包含服务器端和客户端代码。该项目主要用于构建实时双向通信应用,支持WebSocket协议并兼容HTTP长轮询,适用于需要实时数据传输的场景如聊天室、在线游戏或实时仪表盘。其核心特色是事件驱动架构,允许开发者通过定义事件名称和回调函数处理客户端与服务端之间的消息交互,同时内置自动重连机制确保网络中断后的连接恢复。项目支持多种消息格式,包括文本、JSON和二进制数据,并提供加密传输功能以增强安全性。开发者的使用流程通常包括安装依赖库、编写服务器端代码监听连接和事件,以及客户端代码建立连接并发送接收消息。项目文档详细说明了如何通过命令行工具运行服务器,以及如何在不同框架如Flask或Django中集成Socket.IO功能。此外,该项目还包含示例代码演示基本用法和高级功能,如命名空间、房间管理及消息广播。开发者可通过pip安装该库,依赖项包括eventlet或gevent等异步网络库以及python-socketio本身的模块。项目强调轻量级设计和跨平台兼容性,支持在多种操作系统和Python环境中运行,同时提供详细的API文档和社区支持,方便开发者快速上手和调试。
      • chriskohlhoff/asio - only)设计,无需额外链接动态库,极大降低了集成成本,同时通过异步模型显著提升资源利用率,是构建高性能网络应用的理想选择。
      • jeasonlzy/okhttp-OkGo
      • gobwas/ws
      • firehol/blocklist-ipsets - ipsets 是一个基于 Firehol 项目开发的动态黑名单管理工具,其核心功能是通过 update-ipsets.sh 脚本实现 IPset 黑名单的自动更新。该项目利用 IPset 技术优化防火墙规则匹配效率,通过定期从多个可信黑名单源(如 Spamhaus、AlienVault 等)拉取最新 IP 地址段,动态更新到系统中配置的 IPset 数据结构。与传统防火墙规则相比,IPset 能显著减少内核的查找负担,提升网络流量过滤性能。 工作原理上,用户需先安装 Firehol 工具链,通过配置 update-ipsets.sh 脚本的参数(如黑名单源地址、更新频率、IPset 名称等),脚本会定时执行更新任务,将新获取的 IP 段自动添加到指定的 IPset 中。更新完成后,Firehol 会自动将这些 IPset 应用到 iptables 或 nftables 防火墙规则中,实现对恶意 IP 的实时拦截。项目支持多种黑名单格式解析,包括 CIDR、域名黑名单等,并提供丰富的日志记录功能,方便用户监控更新状态和排查问题。 该项目的亮点在于其高度可定制性,用户可自由选择黑名单源、设置更新频率(如每小时或每天),甚至通过自定义脚本扩展功能。同时,IPset 的内存驻留特性使得黑名单查询速度远超传统防火墙规则。此外,项目维护者定期更新支持的黑名单源列表,并提供详细的安装指南和配置示例,适合需要精细化网络防护的服务器环境使用。需要注意的是,使用前需确保系统已安装 Firehol 及其依赖组件,并根据实际网络环境调整 IPset 配置。
      • productdevbook/port-killer - Killer 是一款面向开发者的跨平台端口管理工具,专注于简化端口监控、进程管理和网络隧道操作。该工具支持 Windows、macOS 和 Linux 系统,提供命令行界面(CLI)和图形用户界面(GUI),用户可通过一键操作快速终止占用特定端口的进程,或管理 Kubernetes 端口转发及 Cloudflare Tunnels 隧道。其核心功能包括:实时检测占用端口的进程并列出详细信息,支持通过端口号或进程名称精准终止目标进程;集成 Kubernetes 端口转发管理功能,可查看现有转发状态并快速创建/删除隧道;兼容 Cloudflare Tunnels,允许用户创建隧道并管理其配置。工具基于 Go 语言开发,保证了轻量化和高效运行,同时支持通过 Homebrew 或 GitHub 发布版本安装。开发者可利用其快速定位端口冲突问题,例如调试时因端口占用导致的连接失败,或管理多个微服务的端口分配。项目开源且持续维护,社区通过 GitHub Discussions 提供支持,适合需要频繁处理端口管理、Kubernetes 服务调试或隧道配置的开发者使用。其简洁的设计和跨平台特性,使其成为开发环境中高效处理网络相关任务的实用工具。
      • markqvist/Reticulum
      • Peergos/Peergos
      • feross/simple-peer - peer 是一个轻量级的 WebRTC 库,用于简化视频、语音和数据通道的实时通信开发。该项目基于 WebRTC 核心技术,通过封装复杂的 API 接口,提供了一套简单易用的接口,帮助开发者快速实现点对点的音视频传输和数据通信功能。其核心工作原理是通过创建 RTCPeerConnection 对象,处理信令交换(如 offer/answer 协商)并管理媒体流和数据通道。项目支持通过 MediaStream 对象获取本地音视频设备数据,并通过 addStream 方法将其绑定到连接中,同时提供 onicecandidate 事件处理 ICE 候选人交换,确保网络连接的建立。此外,simple-peer 还内置了数据通道(DataChannel)功能,允许开发者在不依赖媒体流的情况下传输任意数据,适用于聊天、文件传输等场景。项目特点包括无依赖(仅需 WebRTC API)、极简 API 设计(如通过 Peer 构造函数初始化连接)、以及跨平台兼容性(支持现代浏览器环境)。开发者可通过示例代码快速上手,例如通过创建本地媒体流、生成 offer 信令、与远程 peer 建立连接后,即可实现音视频传输和数据交互。该项目适用于需要快速集成实时通信功能的场景,如在线会议、实时协作工具等,其 MIT 协议授权也降低了商业应用的开发门槛。
      • nodejs/undici - alive连接管理机制能有效减少TCP握手开销,而流式响应支持允许开发者逐步处理大文件传输。项目还提供了灵活的拦截器系统,允许在请求/响应生命周期中插入自定义逻辑,如添加认证头或修改响应数据。 undici的典型应用场景包括需要高并发处理能力的微服务通信、需要精细控制HTTP请求细节的爬虫项目,以及希望减少依赖项的嵌入式系统开发。相比Node.js内置的http模块,undici在性能测试中展现出更低的延迟和更高的吞吐量,特别是在处理大量小请求时表现更优。项目还支持通过npm安装,提供完整的TypeScript类型定义和浏览器兼容版本,开发者可通过简单的API调用发起GET、POST等请求,并通过配置项自定义超时时间、重试次数等参数。
      • fullstorydev/grpcui - Web 协议,适用于多种 gRPC 服务场景,同时具备可扩展性,通过插件系统可自定义功能模块。项目的工作原理基于 gRPC 服务发现机制,通过反射接口获取服务元数据后动态构建 UI 界面,所有请求通过浏览器与后端服务通信,实时展示请求结果和错误信息。其跨平台特性支持在 Linux、macOS 和 Windows 系统上运行,开发者可通过 Go 语言安装并运行 grpcui 命令启动服务。该工具特别适合需要频繁调试 gRPC 接口的开发场景,能显著提升服务测试效率,同时支持团队协作中的接口验证和文档生成。项目采用 MIT 许可证开放源码,开发者可自由使用和修改代码以满足特定需求。
      • python-websockets/websockets - websockets/websockets 是一个用于构建 WebSocket 服务器和客户端的 Python 库,支持在 Python 3.6 及以上版本中使用,专注于提供简洁高效的 WebSocket 协议实现。该项目基于 RFC 6455 标准开发,通过异步编程模型(支持 asyncio 框架)实现高性能的双向通信,能够处理 WebSocket 握手、消息帧编解码、连接管理等核心功能。其设计特点包括轻量级 API 接口,开发者可通过几行代码快速创建服务端或客户端,同时支持 SSL/TLS 加密传输和自定义协议扩展。库内部采用非阻塞 I/O 模式,结合事件循环机制优化了高并发场景下的资源利用率,适用于实时聊天、数据推送、在线游戏等需要低延迟通信的场景。项目兼容主流异步框架(如 aiohttp、Tornado),并通过丰富的测试用例确保稳定性,同时提供详细的文档示例帮助开发者快速上手。用户可通过 pip 安装最新版本(pip install websockets),开发者可参考官方文档中的代码片段,例如通过 `async def` 定义服务端处理函数或使用 `WebSocketClientProtocol` 创建客户端连接。该项目由活跃的开源社区维护,持续更新以适配 Python 新特性,并注重安全性加固,是构建现代实时 Web 应用的重要工具之一。
      • yggdrasil-network/yggdrasil-go - network/yggdrasil-go 是一个基于加密 IPv6 的去中心化网络实验项目,旨在探索可扩展的路由方案。该项目通过构建一个无需依赖传统网络基础设施的加密 IPv6 覆盖网络,实现节点间的自主路由和通信。其核心原理是使用修改后的 IPv6 协议栈,将数据包通过加密隧道传输,同时采用分布式算法实现节点自动发现和网络自配置。网络架构完全去中心化,无需配置文件或中心服务器,所有流量均通过端到端加密保护,确保隐私性和抗审查能力。项目特点包括:支持自动发现和连接远程节点、动态生成加密密钥、无需管理员干预的自适应网络拓扑,以及通过实验验证路由算法的可扩展性。Go 语言实现的版本是对原 C++ 版本的重构,旨在提升性能和开发便利性,同时保持与原 Yggdrasil 协议的兼容性。目前项目仍处于实验阶段,适合用于研究和测试,但暂不推荐用于生产环境。开发团队持续维护文档和示例代码,鼓励社区贡献和反馈,以完善其作为下一代网络架构的潜力。
    • 网络服务_其他

      • Haivision/srt
      • Athou/commafeed
      • HenryQW/Awesome-TTRSS
      • ellite/Wallos
      • weekend-project-space/top-rss-list
      • crazy-max/WindowsSpyBlocker
      • algerkong/AlgerMusicPlayer
      • levywang/avhub
      • Freika/dawarich
      • Team-xManager/xManager
      • joevess/IPTV
      • yokoffing/Betterfox
      • jagrosh/MusicBot
      • spicetify/spicetify-themes - themes是一个由社区驱动的Spotify主题集合,通过Spicetify工具进行定制,特色是提供丰富的主题选择,工作原理是用户可下载主题文件并在Spicetify中应用,以改变Spotify界面外观,支持多种风格和布局,无需安装额外软件,直接在Spotify客户端中即可使用,项目特色在于其开放性和可定制性,用户可以轻松切换不同主题,官方GitHub链接为https://github.com/spicetify/themes
      • upptime/upptime
      • magit/magit
      • whoeevee/EeveeSpotify - C语言编写,主要针对macOS系统。它需要用户手动安装并配置特定的环境变量,例如SPOTIFY_PREMIUM。安装后,Spotify将显示为高级版本,用户可以免费享受所有功能。该项目需要一定的技术知识,可能需要使用工具如Cydia Impactor进行安装。它依赖于Spotify的某些漏洞,因此可能需要定期更新以适应Spotify的改动。EeveeSpotify提供了一个简单的方法来免费使用Spotify Premium,但用户需要自行承担潜在的风险。项目没有提供官方支持,使用前需要自行备份重要数据。它是一个社区驱动的项目,可能会随着Spotify的更新而失效。对于希望免费使用Spotify Premium的用户,这是一个值得尝试的解决方案,但需要注意其安全性和稳定性。
      • imputnet/helium
      • BlackHatDevX/openspot-music-app
      • atakanaltok/awesome-useful-websites
      • FalconOpsLLC/goexec
      • Floorp-Projects/Floorp
      • appleboy/ssh-action
      • hunshcn/gh-proxy - proxy是一个GitHub Release、Archive以及项目文件加速下载的开源项目。它通过反向代理GitHub的资源文件,为用户提供更快的下载速度。其主要特色在于能够加速包括Release包、Archive压缩包以及项目中的单个文件。工作原理是用户通过gh-proxy提供的代理链接访问GitHub资源,gh-proxy服务器会缓存这些资源,从而加速后续用户的访问。项目使用简单,只需将GitHub链接替换为gh-proxy的代理链接即可。例如,可以将`github.com`替换为`ghproxy.com`或`mirror.ghproxy.com`。此外,项目还支持自定义域名,方便用户搭建自己的代理服务。gh-proxy旨在解决国内用户访问GitHub资源速度慢的问题,提升开发效率。
      • gitify-app/gitify
      • vfsfitvnm/ViMusic
      • WXRIW/Lyricify-App
      • 217heidai/adblockfilters
      • Richasy/Bili.Copilot
      • glidea/zenfeed
      • stringer-rss/stringer
      • karpathy/arxiv-sanity-preserver - sanity-preserver 是由 Andrej Karpathy 开发的开源项目,旨在为用户提供一个便捷的 Web 界面,用于浏览、搜索和过滤 arXiv 平台上最新提交的学术论文。该项目通过实时抓取 arXiv 的公开数据,结合用户自定义的过滤条件(如论文标题、作者、摘要关键词或发布时间),帮助用户快速定位感兴趣的科研成果。其核心功能包括按时间排序的论文列表、支持全文检索的搜索框以及基于论文摘要的智能过滤系统,尤其适合需要跟踪特定研究领域动态的科研人员和开发者。 项目采用 Python 编写,后端使用 Flask 框架搭建 Web 服务,前端通过 HTML/CSS/JavaScript 实现交互界面,所有代码和数据均托管在 GitHub 上,用户可直接克隆仓库并运行本地服务器。Karpathy 在项目中特别强调了代码的简洁性和可扩展性,例如通过爬虫模块定期抓取 arXiv 数据,并利用缓存机制减少重复请求,同时支持用户自定义过滤规则。此外,项目还集成了论文摘要的自动摘要功能,能够提取论文核心内容供用户快速浏览。 该项目的特色在于其轻量化设计和对科研场景的针对性优化,例如支持通过论文标题或作者名精确匹配,或通过摘要关键词模糊搜索。由于 arXiv 每日新增大量论文,该工具通过实时更新机制确保数据新鲜度,同时通过过滤器避免信息过载。用户可通过 GitHub 获取源码并自行部署,或通过项目提供的示例链接体验在线功能。项目文档中还提供了详细的安装说明和开发贡献指南,鼓励社区参与优化功能,如增加论文分类标签或改进搜索算法。
  • 3D视觉生成重建

    • 资源传输下载

      • OctoMap/octomap
      • norlab-ulaval/libpointmatcher
      • zju3dv/EasyVolcap - NeRF)。其核心优势在于高效的数据处理和优化的训练流程,可以显著缩短实验周期。项目包含详细的文档和示例代码,方便用户快速上手。EasyVolcap适用于人体动作捕捉、虚拟现实和增强现实等领域。它支持多视点视频输入,并提供高质量的体积视频重建结果。该项目采用模块化设计,易于扩展和定制。EasyVolcap为神经体积视频研究者提供了一个强大且灵活的平台。
      • colmap/colmap - from-Motion, SfM)和多视角立体视觉(Multi-View Stereo, MVS)技术从图像中生成三维模型。该项目基于C++开发,部分功能通过Python脚本实现,支持多种图像格式(如JPEG、PNG等),可自动完成相机标定、特征提取与匹配、稀疏重建以及密集点云生成等流程。其核心功能包括:1)通过SIFT或SuperPoint等算法提取图像特征并进行匹配;2)利用鲁棒的SfM算法构建相机姿态和稀疏三维点云;3)采用基于块的MVS方法生成密集点云和纹理映射的网格模型。COLMAP的工作原理依赖于多视角图像的几何约束和深度估计,适用于从单张图像到复杂场景的三维重建任务。项目提供命令行接口,包含完整的文档(位于docs目录)和示例数据(位于examples目录),支持Linux、macOS和Windows系统。其特点包括高精度重建、支持大规模数据集处理、模块化设计便于扩展,以及通过可视化工具(如COLMAP Viewer)实时查看重建结果。项目采用BSD-3-Clause开源协议,适合科研和教育用途,但不保证商业可用性。用户可通过GitHub获取源码和详细使用指南,适合需要从图像序列生成三维模型的研究者或开发者。
      • stevenlovegrove/Pangolin
      • mp3guy/ElasticFusion - D相机的实时密集视觉SLAM系统,可实现高精度的三维环境重建与实时定位。该项目通过动态调整的体素网格(Voxel Grid)技术,将RGB-D相机采集的深度信息转化为密集点云,结合视觉特征匹配算法,实现对场景的实时建图与位姿估计。其核心工作原理是利用TSDF(Truncated Signed Distance Function)方法,将深度数据与RGB图像信息融合,构建场景的三维体素表示,并通过优化算法动态调整体素分辨率,以平衡计算效率与重建精度。系统支持多种传感器输入,包括Intel RealSense、Kinect V2等RGB-D设备,同时兼容CUDA加速以提升实时性能,适用于机器人导航、增强现实(AR)等场景。项目采用C++开发,依赖PCL(Point Cloud Library)等开源库,提供可定制的模块化设计,允许开发者根据需求调整体素网格参数、优化算法或集成其他传感器数据。ElasticFusion强调实时性与鲁棒性,通过动态调整体素分辨率,可在不同光照和动态场景下保持稳定性能。开发者可通过GitHub获取源码,并参考项目文档中的构建指南与示例代码快速部署,其开源协议允许商业使用与修改,适合学术研究与工业应用。
      • XDimLab/GIFStream
      • nerfstudio-project/gsplat
      • NVlabs/FoundationStereo
      • MiaoQiaowei/Awesome-4D - 4D 是一个精选的4D(时间维度)相关资源列表,涵盖了4D重建、4D分割、4D光场、动态场景理解等多个领域。该项目旨在帮助研究人员和开发者快速找到所需的4D相关论文、数据集、代码和工具。项目特色在于其全面性和及时性,持续更新最新的4D研究进展。它通过整理和分类不同领域的4D资源,方便用户按需查找,例如4D人体姿态估计、4D场景流估计等。Awesome-4D 收集了大量相关论文,并标注了论文发表的会议或期刊,方便用户追踪学术来源。此外,项目还包含了常用的4D数据集,方便研究人员进行实验和评估。对于想要入门或深入研究4D相关领域的开发者来说,Awesome-4D 是一个非常有价值的资源导航。
      • DylanOrange/geal - 3D一致性对齐模块​​:迁移预训练2D模型的语义与泛化能力至3D分支;显著提升3D功能识别的泛化性与鲁棒性。
      • threestudio-project/threestudio
      • ahujasid/blender-mcp - MCP 是一个 Blender 插件,旨在简化和加速多相机摄影测量工作流程。它通过自动相机姿态估计、相机校准和场景重建,显著减少手动操作。该插件利用 OpenCV 和 COLMAP 等库进行图像处理和三维重建。主要功能包括:自动相机参数估计、相机姿态优化、稀疏和稠密点云生成、以及纹理模型创建。用户只需导入图像序列,插件即可自动处理,生成高质量的三维模型。Blender-MCP 特别适用于快速原型设计、视觉效果和游戏开发等领域,能够将现实世界物体快速数字化。 项目目标是提供一个易于使用且高效的摄影测量解决方案,即使没有专业知识的用户也能轻松上手。该插件支持多种相机类型和图像格式,具有很强的灵活性和可扩展性。
      • widgetti/ipyvolume
      • nv-tlabs/lift-splat-shoot
      • NVIDIA-AI-IOT/Lidar_AI_Solution - AI-IOT/Lidar_AI_Solution项目是一个展示激光雷达相关AI解决方案的项目,它包含三个GPU加速的激光雷达/相机深度学习网络:PointPillars、CenterPoint和BEVFusion。该项目还集成了相关的库,例如cuPCL用于点云处理,3D SparseConvolution用于稀疏卷积,YUV2RGB用于图像格式转换,cuOSD用于屏幕显示。这些网络和库共同构建了一个高效的激光雷达AI解决方案,旨在加速激光雷达数据的处理和分析,并为自动驾驶等应用提供支持。该项目利用GPU加速技术,提升了深度学习模型的推理速度,使得实时处理激光雷达数据成为可能。通过PointPillars, CenterPoint, BEVFusion等网络,项目能够实现三维物体检测等功能。
      • HengyiWang/spann3r
      • Stability-AI/stable-point-aware-3d
      • Roblox/cube
      • NIRVANALAN/GaussianAnything
      • zrporz/4DLangSplat
      • ZhaochongAn/Multimodality-3D-Few-Shot - 3D-Few-Shot,旨在解决3D点云语义分割中的少样本学习问题。该项目已被ICLR 2025接收为Spotlight论文。其核心思想是利用多模态信息来提升少样本3D点云语义分割的性能。具体而言,项目可能融合了来自不同传感器或数据源的信息,例如图像、文本等,以增强对3D点云的理解。通过结合多模态数据,模型能够更好地泛化到新的类别,即使只有少量标注样本。该项目关注的是如何有效地利用多模态数据来克服3D点云少样本学习的挑战,并提高分割精度。它可能包含用于数据处理、模型训练和评估的代码和脚本。研究重点在于设计能够有效融合多模态信息的模型架构和训练策略,从而在少样本场景下实现更好的3D点云语义分割效果。
      • hustvl/4DGaussians - Time Dynamic Scene Rendering项目旨在通过4D高斯点云技术实现动态场景的实时渲染。该项目基于高斯分布模型对三维空间和时间维度进行建模,能够高效处理动态物体的运动轨迹和场景变化。核心特色在于结合了高斯点云的密度优势与动态场景的时空连续性,通过优化点云密度和位置分布实现高质量实时渲染。其工作原理是将动态场景表示为高斯分布的集合,每个高斯点包含位置、尺度、方向和时间参数,通过实时更新点云状态并结合渲染算法生成动态图像。该方法相比传统动态场景渲染技术具有更高的效率和更优的视觉效果,尤其适用于需要实时交互的虚拟现实和增强现实应用。项目提供了完整的代码实现和训练流程,支持PyTorch框架,包含数据预处理、模型训练和渲染模块。用户可通过指定参数调整渲染质量与速度,适用于多种动态场景数据集。项目还提供了可视化工具和示例代码,方便快速上手和实验验证。该技术在保持高精度的同时显著降低了计算复杂度,为动态场景的实时渲染提供了新的解决方案。项目文档详细说明了算法原理、实验结果和应用场景,同时附有相关论文链接和演示视频,便于进一步研究和应用。该项目由HUST VL实验室开发,致力于推动实时动态场景渲染技术的发展,具有较高的学术价值和工程应用潜力。
      • Tencent-Hunyuan/HunyuanWorld-1.0 - 1.0项目是一款基于Hunyuan3D世界模型开发的沉浸式3D世界生成系统,能够通过文字描述或像素图像输入,自动生成可探索、可交互的3D虚拟环境。该项目采用多模态AI技术,将文本指令与图像信息转化为三维空间结构,用户可通过自然语言指令或上传图像引导系统生成特定场景,例如建筑、自然景观或科幻场景等。系统的核心工作原理基于深度学习模型,通过训练大规模多模态数据集,使模型能够理解文字与图像的语义关联,并将其映射到三维几何结构、材质纹理和光照效果中。生成的3D世界支持实时交互,用户可通过虚拟现实设备或PC端进行探索,例如移动视角、触控物体或调整环境参数。项目特别强调交互性,允许用户通过语音指令修改场景细节,或通过拖拽操作调整物体位置,同时提供物理引擎支持物体碰撞与动态效果。技术架构中整合了生成对抗网络(GAN)与扩散模型技术,以提升生成内容的分辨率与细节精度。目前该系统已应用于游戏开发、虚拟现实教育、数字孪生等领域,为用户提供从概念设计到交互体验的一站式解决方案。
      • openai/shap-e - E是一个由OpenAI开发的用于生成3D对象的项目,它可以通过文本或图像来生成3D模型。该项目利用扩散模型,能够从文本描述或图像中创建多样且高质量的3D形状。其核心在于使用神经辐射场(Neural Radiance Fields, NeRFs)作为中间表示,并训练一个扩散模型来生成这些NeRFs的参数。SHAP-E的优势在于其生成速度快,并且能够生成各种各样的3D对象,而无需复杂的3D建模专业知识。它提供了一个简单易用的界面,允许用户通过简单的文本提示或上传图像来生成3D模型。该项目旨在推动3D内容创作的民主化,让更多人能够轻松创建3D对象。SHAP-E的训练数据包括大量的3D模型和相应的文本描述或图像,使其能够学习到文本和图像与3D形状之间的复杂关系。该项目为3D建模、游戏开发、虚拟现实等领域带来了新的可能性。
      • google-deepmind/lab
      • google/draco
      • OpenDroneMap/ODM
      • VAST-AI-Research/MIDI-3D - Instance Diffusion for Single Image to 3D Scene Generation”,核心是多实例扩散模型。它能够从单张图像推断出包含多个物体的3D场景,而不仅仅是单个物体。项目的主要目标是提升单图到3D场景生成的质量和多样性。MIDI模型利用扩散过程逐步生成3D场景,并考虑了场景中多个物体之间的关系。该项目隶属于VAST-AI-Research组织。具体实现细节和代码可以在GitHub上找到。该项目旨在推动单图3D场景生成领域的发展,并为相关研究提供参考。
      • zhaorw02/DeepMesh
      • facebookresearch/mvdust3r - DUSt3R+,可在2秒内从稀疏视图中进行单阶段场景重建。项目特色在于其快速的重建速度和从稀疏视图中工作的能力。该项目是MV-DUSt3R的改进版本。更多信息请访问项目主页:https://mv-dust3rp.github.io/。该项目提供了MV-DUSt3R+的开源实现。
      • hzxie/CityDreamer4D
      • PzySeere/MetaSpatial - 语言模型(VLMs)的3D空间推理能力。它旨在实现更结构化、更逼真、更具适应性的场景生成,适用于元宇宙、增强现实/虚拟现实(AR/VR)和游戏开发等领域。该项目通过强化学习,让VLMs更好地理解和生成3D空间关系,从而创造更沉浸式的体验。MetaSpatial的核心在于提升模型对空间信息的理解和利用,使其生成的场景更符合物理规律和用户预期。项目目标是为构建更真实的虚拟世界提供技术支持,并推动相关领域的发展。
      • iris0329/SeeGround
      • ZexinHe/Neural-LightRig
      • GasaiYU/PartRM
      • yuwen-chen616/PHT-CAD - CAD是一个基于物理混合Transformer (PHT) 的计算机辅助设计 (CAD) 项目,旨在实现高效且精确的几何建模。它采用物理信息神经网络 (PINN) 作为几何表示,结合Transformer的强大序列建模能力,能够处理复杂的CAD任务,例如曲面重建、参数化设计和形状优化。该项目的主要特点包括利用PINN隐式地表示几何形状,并使用Transformer学习几何形状之间的关系,从而实现更好的泛化能力和鲁棒性。PHT-CAD的核心工作原理是将CAD模型视为物理系统,通过求解偏微分方程来描述几何形状,然后利用Transformer学习这些物理系统的解。项目提供了一套完整的工具和示例,方便用户进行CAD模型的创建、编辑和分析。此外,PHT-CAD还支持多种CAD文件格式的导入和导出,方便与其他CAD软件进行集成。该项目适用于各种CAD应用场景,例如产品设计、建筑设计和工程仿真等。
      • VAST-AI-Research/UniRig - AI-Research开发。
      • dendenxu/fast-gaussian-rasterization - gaussian-rasterization方法,可以实现5到10倍的渲染速度提升。该项目利用CUDA进行并行计算,并通过几何着色器优化渲染流程。核心在于全局排序,以提高渲染效率。适用于需要快速渲染3D高斯溅射的场景。项目主要关注性能优化,提供更快的渲染速度。
      • wgsxm/PartCrafter - based Compositional Module),将生成的部件按照原始物体的拓扑关系重新组合。该模块通过变换器架构学习部件间的空间关系和装配规则,确保最终生成的 3D 模型在全局结构上与目标物体一致。例如,组合后的桌腿和桌面需符合物理约束,避免几何冲突。 项目特色包括:**部件级生成控制**(用户可单独修改某部件的形状或纹理)、**跨部件结构一致性**(确保组合后整体结构合理)、以及**高保真网格输出**(通过扩散模型生成的部件细节丰富)。相比传统单步生成方法,PartCrafter 的组合式架构能更精确地控制复杂物体的局部与全局结构,适用于需要高精度几何建模的场景(如工业设计、虚拟现实)。目前项目已支持通过文本或示例输入生成特定类别的 3D 模型,并提供了基于 PyTorch 的实现框架。
      • bmild/nerf
      • MrNeRF/awesome-3D-gaussian-splatting - 3D-gaussian-splatting 是一个专注于整理3D高斯泼溅(3D Gaussian Splatting)领域研究的项目,旨在系统性收集和分类该技术相关的论文、工具、代码实现及资源,以应对未来几个月可能出现的研究热潮。该项目的核心特色是通过分类标签(如基础算法、优化方法、应用场景等)对大量学术成果进行结构化梳理,便于研究者快速定位最新进展。其工作原理基于3D高斯泼溅技术,该技术通过将三维场景中的点云数据表示为高斯分布参数(均值、协方差矩阵、不透明度等),利用优化算法调整这些参数以重建高质量三维场景。项目内容涵盖从基础理论到实际应用的全链条资源,包括开源代码库、可视化工具、数据集以及不同场景(如虚拟现实、自动驾驶、医学影像)的案例分析。此外,项目还特别关注高斯泼溅在实时渲染、轻量化模型和动态场景重建等方向的突破,同时提供社区贡献指南和持续更新机制,确保内容与前沿研究同步。其目标不仅是为研究者提供一站式知识库,也通过标准化的分类体系推动该技术的可复用性和跨领域协作。
      • awesome-NeRF/awesome-NeRF
      • zeux/meshoptimizer
      • xiangechen/chili3d
      • cnr-isti-vclab/meshlab - ISTI-VCLab开发和维护。MeshLab支持多种3D文件格式,包括PLY、STL、OBJ、OFF、3DS、VRML和COLLADA。其主要特色在于能够高效处理大型网格模型,并提供丰富的网格编辑和处理工具集。MeshLab通过算法优化,实现了对大规模数据集的快速处理和可视化。它还支持脚本编写,允许用户自定义处理流程。MeshLab广泛应用于文化遗产保护、逆向工程、医学可视化等领域。该项目持续更新,不断增加新的功能和改进现有算法。MeshLab的开源特性使其成为研究和教育的理想平台。
      • playcanvas/supersplat
      • VAST-AI-Research/TripoSG
      • allenai/objaverse-xl - XL是一个包含超过1000万个3D对象的宇宙级数据集。该项目提供API脚本,方便用户下载和处理这些3D模型。Objaverse-XL的目标是构建一个庞大且易于访问的3D对象库,用于各种研究和应用。用户可以利用提供的脚本,根据自己的需求筛选、下载和处理数据集中的模型。该项目的特色在于其规模庞大,覆盖了广泛的3D对象类型。通过API脚本,用户可以高效地管理和利用这个巨大的3D资源库。Objaverse-XL为3D建模、计算机视觉、机器人等领域的研究人员和开发者提供了宝贵的资源。它极大地简化了获取大规模3D数据的流程,促进了相关领域的发展。
      • yzslab/gaussian-splatting-lightning - splatting-lightning,由yzslab开发。它实现了基础的3D高斯溅射算法,并包含多种衍生算法。该项目提供了一个交互式的Web查看器,方便用户可视化和操作3D高斯模型。核心原理是使用3D高斯分布来表示场景,通过优化高斯参数来拟合图像,实现高质量的渲染。该框架利用PyTorch Lightning简化了训练流程,方便研究人员快速实验和开发新的算法。项目旨在提供一个灵活且易于扩展的平台,用于3D场景重建和渲染。它支持自定义损失函数和优化策略,可以应用于各种计算机视觉任务。该项目还包含详细的文档和示例代码,方便用户上手和使用。
      • VAST-AI-Research/TripoSF - AI-Research的研究成果,专注于高分辨率和任意拓扑结构的3D形状建模。该项目名为SparseFlex,旨在实现灵活且高效的3D模型表示。TripoSF利用稀疏的体素场(Sparse Voxel Fields)来表示3D形状,从而能够处理复杂的拓扑结构和高分辨率细节。其核心思想是通过学习一个神经隐式曲面(Neural Implicit Surface)来重建3D形状,并使用稀疏体素场加速渲染和查询。项目特色在于其能够处理任意拓扑结构,例如具有孔洞或多个连接组件的形状。通过优化神经隐式曲面,TripoSF可以生成高质量的3D模型,并且具有良好的可编辑性和可控性。该项目为3D建模、计算机图形学和计算机视觉等领域提供了新的解决方案。
      • CompVis/EDGS
      • hzxie/GaussianCity
      • hanyang-21/VideoScene
      • dptech-corp/Uni-3DAR - 3DAR是一个实现了论文“Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens”的项目。它旨在通过自回归方式处理压缩的空间tokens,实现统一的3D生成和理解。该项目支持多种3D任务,例如生成、补全和理解。其核心思想是将3D数据表示为离散的tokens,然后使用Transformer模型进行自回归建模。Uni-3DAR的关键优势在于它能够处理不同类型的3D数据,并执行各种3D任务,而无需针对特定任务进行定制。项目代码提供了一个统一的框架,用于3D数据的生成和理解。该项目使用了一种新颖的token化方法,将3D空间划分为小的体素,并将每个体素编码为一个token。通过这种方式,3D数据可以被视为一个序列,然后使用Transformer模型进行处理。Uni-3DAR在多个3D数据集上取得了有竞争力的结果,证明了其有效性。该项目为3D视觉研究提供了一个有价值的工具,并为未来的研究方向提供了新的思路。
      • ML-GSAI/FlexWorld - View Synthesis",提供官方PyTorch实现。FlexWorld通过逐步构建和完善3D场景,能够实现更灵活和高质量的视角合成。该项目旨在解决传统方法在处理复杂场景和视角变化时的局限性。它利用可变形神经辐射场(Deformable Neural Radiance Fields)等技术,实现场景的动态扩展和优化。FlexWorld的主要特色在于其逐步扩展的场景表示方法,可以更好地适应不同的视角和场景复杂度。通过这种方法,FlexWorld能够生成更逼真和一致的图像,尤其是在视角变化较大的情况下。该项目提供详细的代码和文档,方便研究人员和开发者使用和扩展。总而言之,FlexWorld为灵活视角合成提供了一个强大的工具,通过逐步扩展3D场景实现高质量的图像生成。
      • NVlabs/neuralangelo
      • worldbench/survey - D相机)、建模算法(如神经辐射场NeRF、隐式表面表示)、优化方法(如物理约束优化、多模态融合)到应用场景(如虚拟现实、自动驾驶、机器人导航)的完整技术链条。其核心特色在于通过分类框架梳理了不同建模范式(如基于网格的显式建模、基于体素的隐式建模、基于神经网络的参数化建模),并对比分析了各方法在精度、效率、可扩展性等方面的优劣。同时,项目还提出了当前研究面临的挑战,如动态场景建模的时序一致性、多模态数据融合的对齐问题、高维空间的计算复杂性等,并针对这些挑战指出了未来可能的研究方向,例如结合物理引擎的仿真建模、强化学习驱动的自适应建模、跨模态表示学习等。该综述通过结构化梳理现有文献与技术路线,为研究者和开发者提供了清晰的技术演进脉络与实践指导,尤其适合需要快速了解该领域技术全貌的研究人员或工程团队参考。
      • hexianWeb/CubeCity
      • ByteDance-Seed/depth-anything-3 - Seed 团队开发的一款基于深度学习的三维空间感知项目,专注于高精度深度估计任务。该项目通过改进的神经网络架构和多模态输入支持(如RGB图像、LiDAR点云等),实现了对复杂场景下物体深度信息的高效预测。其核心工作原理基于自监督学习与大规模数据训练,结合注意力机制和特征融合技术,显著提升了模型在不同光照条件、遮挡场景下的鲁棒性。项目提供多种预训练模型,支持从低分辨率(如256x256)到高分辨率(如1024x1024)的多尺度推理,并优化了推理速度以适应移动端或嵌入式设备部署。相比前代版本,Depth Anything 3 在保持高精度的同时,通过轻量化模型设计降低了计算资源需求,同时新增了对动态场景的实时深度估计能力。项目还提供完整的训练框架、评估工具包和可视化接口,开发者可快速复现实验并集成到实际应用中。其应用场景涵盖机器人导航、增强现实(AR)、自动驾驶、三维重建等领域。此外,项目代码开源并支持多平台部署(如GPU/TPU),开发者可通过贡献指南参与模型优化与功能扩展,形成活跃的社区协作生态。
      • flexible-collision-library/fcl
      • stepfun-ai/Step1X-3D - 3D是一个专注于生成高保真且可控的带纹理3D资产的开源项目,其核心目标是通过人工智能技术实现高质量3D模型的可控生成。项目基于扩散模型与控制网络结合的技术框架,能够根据用户输入的文本描述、图像参考或3D形状作为条件,生成具有精细几何结构和真实纹理的3D模型。其工作原理分为两个阶段:第一阶段通过扩散模型生成基础几何结构,第二阶段利用控制网络结合多模态输入(如文本、图像)生成高分辨率纹理,最终将几何与纹理融合为完整3D资产。项目支持多种输入方式,包括自然语言描述、参考图像和形状参数,用户可通过调整控制参数精确调节生成结果的细节。生成的3D模型可输出为OBJ、GLTF等常见格式,适用于虚拟现实、游戏开发、3D打印等场景。技术亮点包括分阶段训练策略确保几何与纹理质量,多模态条件控制提升生成可控性,以及支持高分辨率纹理生成。项目开源且提供预训练模型,用户可通过简单命令行指令完成从输入到输出的全流程,显著降低了3D资产生成的技术门槛。
      • Tencent-Hunyuan/Hunyuan3D-2.1 - 2.1是由腾讯混元团队开发的,能够从单张或多张图像生成高质量3D资产的项目。它生成的3D模型具有生产级别的PBR材质,可以直接用于游戏、动画等领域。该项目利用先进的AI技术,实现了快速且高效的3D模型重建。核心优势在于其高保真度和材质真实感,能显著降低3D资产制作成本。Hunyuan3D-2.1旨在简化3D内容创作流程,让开发者更容易地获得高质量的3D资源。具体实现细节和技术原理可能需要进一步研究项目代码和文档。该项目版本为2.1,可能包含性能优化和功能改进。
  • 图卷积网络

  • 硬件_其他

    • 资源传输下载

      • pantor/ruckig
      • omriharel/deej
      • Links2004/arduinoWebSockets
      • pschatzmann/arduino-audio-tools
      • kitesurfer1404/WS2812FX
      • Mixiaoxiao/Arduino-HomeKit-ESP8266
      • EttusResearch/uhd
      • roboterax/humanoid-gym - Gym 是一个专注于人形机器人强化学习的研究项目,其核心目标是通过零样本(Zero-Shot)Sim2Real 技术,将仿真环境中学到的运动技能直接迁移到真实机器人上。该项目基于论文《Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer》(arxiv.org/abs/2404.05695)开发,提供了一套完整的训练框架和环境,支持从仿真到真实世界的无缝迁移。其关键创新在于无需预先收集真实世界数据,即可通过强化学习算法在仿真环境中训练出通用性强的机器人控制策略。项目采用 MuJoCo 物理引擎构建高保真仿真环境,通过设计分阶段的训练课程(Curriculum Learning),逐步提升机器人对复杂任务(如行走、平衡、物体操作)的适应能力。训练过程中,算法通过奖励机制优化机器人关节控制策略,并利用模仿学习等技术增强策略的泛化性。最终,训练出的策略可以直接部署到真实人形机器人(如 Unitree A1 或其他开源平台),实现无需额外调参的零样本迁移。项目还提供了详细的训练脚本、评估指标(如运动效率、任务成功率)以及可视化工具,便于研究人员复现和改进。通过对比实验,Humanoid-Gym 展示了其方法在仿真与真实场景中均优于传统 Sim2Real 方法,尤其在应对未见过的环境变化时表现出更强的鲁棒性。该项目为机器人领域提供了高效、低成本的训练方案,降低了从仿真到现实的迁移门槛,对推动通用机器人技术发展具有重要意义。
      • Frix-x/klippain-shaketune - x/klippain-shaketune 是一个基于 Klipper 固件的开源工具,旨在简化 3D 打印机输入整形(Input Shaper)的配置流程并提供校准工具。该项目的核心功能是通过优化算法和用户交互设计,帮助用户快速完成打印机振动抑制参数的调整,从而提升打印精度和稳定性。输入整形技术通过分析打印机运动时的振动数据,动态调整控制信号以减少共振影响,而传统配置过程通常需要手动计算参数、反复测试调整,耗时且复杂。该项目通过自动化分析和可视化工具,将这一过程简化为几步操作,显著降低用户门槛。 其工作原理基于 Klipper 固件的输入整形模块,通过采集打印机在不同速度下的振动响应数据(如使用 Shaketune 工具),利用机器学习算法自动计算最优的输入整形参数(如频率和阻尼系数)。用户无需深入理解振动理论,只需按照工具提示完成测试步骤,系统即可生成配置文件并自动应用到 Klipper 配置中。此外,项目还提供校准工具,用于验证调整后的效果,例如通过打印测试模型并分析层间误差或振动波形,确保参数优化符合实际需求。 项目支持主流 3D 打印机型号,兼容 Klipper 0.10.0 及以上版本,并提供详细的中文文档和图形化界面,适合从入门到进阶的用户群体。开发者通过开源代码和社区协作,持续优化算法精度与用户体验,成为 Klipper 生态中不可或缺的辅助工具。
      • orocos/orocos_kinematics_dynamics
      • martin-ger/esp_wifi_repeater - ger/esp_wifi_repeater,是一个功能完整的WiFi中继器(更准确地说是WiFi NAT路由器)。它基于ESP8266或ESP32芯片,允许你扩展现有WiFi网络的覆盖范围。项目的主要功能是接收现有的WiFi信号,然后通过自己的WiFi网络重新广播,从而实现信号增强。它工作原理是作为一个NAT路由器,处理网络地址转换。该项目支持Web界面配置,方便用户设置和管理。你可以自定义SSID和密码,并查看连接的客户端信息。它还提供DHCP服务器功能,自动分配IP地址给连接的设备。项目旨在提供简单易用的WiFi中继解决方案,无需复杂的配置。它支持多种ESP8266和ESP32开发板,并提供了详细的编译和烧录指南。该项目是开源的,允许用户自由修改和定制。
      • manna-harbour/miryoku
      • adafruit/Adafruit_NeoPixel
      • ct-Open-Source/tuya-convert - Open-Source/tuya-convert是一个开源项目,旨在为Tuya物联网设备提供替代固件刷写方案,帮助用户摆脱Tuya云平台的依赖。该项目通过ESP8266或ESP32等开发板作为中间设备,利用Tuya设备的Wi-Fi通信协议进行固件转换。其核心工作原理是通过ESP设备与目标Tuya设备建立连接,发送特定指令进入烧录模式,随后使用预设的替代固件(如Home Assistant的Tuya集成固件或本地控制固件)覆盖原厂固件,从而实现设备本地化控制或功能扩展。项目支持多种Tuya设备型号,包括智能开关、传感器和摄像头等,用户可通过Python脚本和配套工具完成整个流程。项目特色包括详细的图文教程、设备兼容性列表以及社区维护的固件库,用户可选择性地刷入不同功能的固件版本。需要注意的是,刷写过程可能涉及设备保修失效风险,且需确保ESP开发板与目标设备的Wi-Fi信号强度足够。项目持续更新,开发者通过GitHub提供问题反馈渠道,并建议用户在操作前备份原厂固件以备回退。该方案为希望实现智能家居设备本地化控制的用户提供了技术可行的替代路径。
      • xoseperez/espurna - Fi 连接能力,通过内置的 Web 界面或 MQTT 客户端进行设备配置,用户可自定义设备名称、控制逻辑及网络参数。项目采用模块化设计,支持扩展功能,例如集成 Home Assistant 等主流智能家居平台,同时兼容多种通信协议(如 HTTP、TCP)。Espurna 的开源特性允许开发者自由修改代码,其代码库包含详细的文档和示例,便于快速部署到硬件设备中。此外,项目强调低功耗设计,适合用于电池供电的物联网设备,同时支持通过固件更新优化性能和添加新功能。Espurna 的目标是为用户提供一个灵活、可扩展且易于维护的家庭自动化解决方案,适用于从简单设备控制到复杂智能家居系统的多种场景。
      • homebridge/HAP-NodeJS - NodeJS是HomeKit配件协议(HAP)的Node.js实现,专为开发者提供在非苹果设备上构建HomeKit兼容配件的工具。该项目通过JavaScript语言实现苹果HomeKit协议的核心功能,允许开发者使用Node.js开发支持IP网络通信的智能设备,如灯泡、传感器等,并能与HomeKit中枢(如iPhone、HomePod)实现加密通信与认证流程。其核心功能包括HAP协议的完整实现,如配对加密、设备信息交互、服务端点管理等,同时支持模块化设计,便于开发者扩展自定义配件功能。 项目通过Node.js实现HAP协议的通信机制,使配件能通过HTTP/HTTPS与HomeKit中枢建立安全连接,支持动态生成设备证书、配对密钥等关键流程。开发者可基于项目提供的模板快速创建配件,例如通过定义服务(如Lightbulb)和特性(如On/Off)实现设备控制逻辑。项目特色包括兼容HomeKit 1.0+版本、支持多种平台(如Linux、macOS)、提供丰富的测试用例及示例代码,且支持通过HTTP API实现设备调试。 HAP-NodeJS的工作原理基于HAP协议的分层架构,包含运输层(通过IP通信)、加密层(使用AES-CCM加密数据)和配对层(基于零配置网络的配对流程)。项目要求依赖Node.js环境,开发者可通过npm安装包后,基于提供的代码模板实现设备逻辑,并通过HomeKit配置工具完成设备注册。此项目适合物联网开发者、HomeKit爱好者及希望用JavaScript开发智能家居配件的用户,是连接非苹果设备与HomeKit生态的重要工具。
      • homebridge/docker-homebridge - aac编码库,实现了对视频流媒体处理的完整支持,用户无需手动编译依赖组件即可运行。其核心工作原理是通过Homebridge代理服务将非Apple设备(如智能灯泡、传感器等)模拟为HomeKit设备,所有功能通过Docker容器化部署,确保环境隔离性和配置便捷性。项目特别优化了跨平台兼容性,既支持主流PC系统,也适配树莓派等嵌入式设备,用户只需通过docker命令即可启动服务。开发者还集成了自动更新机制和插件扩展功能,允许用户通过安装第三方插件扩展设备支持范围。相比传统部署方式,该项目通过容器化技术降低了环境配置门槛,同时保证了系统运行的稳定性,适合希望快速搭建智能家居控制中心但缺乏技术背景的用户。项目维护者持续优化容器镜像,确保依赖库的及时更新,并提供清晰的文档说明以简化使用流程。
      • jgromes/RadioLib - Fi、Zigbee、NFC以及LoRaWAN等协议,覆盖了从短距离通信到广域网连接的多种场景。RadioLib通过硬件抽象层实现跨平台兼容性,目前支持Arduino、STM32、ESP32等主流嵌入式平台,同时提供详细的文档和示例代码降低使用门槛。其低功耗设计特性特别适合电池供电设备,支持多种通信模式(如中断模式、轮询模式)以平衡功耗与实时性需求。库内部采用分层结构,包含驱动层、协议层和应用层,开发者可按需选择模块组合,例如使用LoRa模块实现远距离传输时,只需调用预定义的初始化、发送和接收函数即可完成通信配置。此外,RadioLib还支持动态参数调整和错误处理机制,能够通过回调函数处理数据接收事件,同时提供丰富的调试信息帮助开发者排查问题。该项目持续更新,兼容最新的无线模块硬件,并通过开源社区维护,确保了其在嵌入式无线通信领域的实用性和扩展性。
      • luc-github/ESP3D - github。
      • kavishdevar/librepods
      • jeelabs/esp-link - link 是一个基于 ESP8266 的多功能开发工具项目,核心功能包括 Wi-Fi-串口桥接、出站 TCP 通信以及支持多种微控制器的编程能力。该项目通过将 ESP8266 与串口设备连接,实现通过 Wi-Fi 网络远程访问串口设备,用户可通过 Web 界面或 Telnet 命令行进行交互。其出站 TCP 功能允许设备通过 Wi-Fi 连接到远程服务器(如 HTTP 或 MQTT 服务),同时支持将串口数据转发到 TCP 端点。此外,项目还提供对 Arduino、AVR、LPC 和 NXP 等微控制器的编程支持,用户可通过 ESP8266 作为编程器对目标设备进行固件烧录,通常需要配合 USB 转串口适配器或直接连接到目标芯片的编程接口。 项目特色包括对多种协议的兼容性(如 HTTP、MQTT),支持低功耗模式以延长设备续航,并提供 Web 控制界面简化操作。其工作原理基于 ESP8266 的 Wi-Fi 模块,通过 AT 指令集或自定义固件实现串口与网络的双向通信。编程功能依赖于 ESP8266 的串口转接能力,结合目标芯片的编程协议(如 AVR 的 ISP 或 NXP 的 JTAG),用户可通过命令行或图形界面完成烧录。该项目适合需要远程调试、物联网通信或嵌入式开发的场景,尤其适用于资源有限的嵌入式系统。所有功能均基于开源代码实现,用户可根据需求自定义固件或扩展功能。
      • isaac-sim/IsaacLab
      • MuShibo/Micro-Wheeled_leg-Robot
      • flipperdevices/flipperzero-firmware - GHz、NFC、RFID 和蓝牙,允许 Flipper Zero 与各种设备交互。项目特色在于其模块化的设计,方便开发者添加新的功能和协议。开发者可以使用 Flipper SDK 构建自定义应用程序,并通过 USB 或无线方式安装到设备上。固件的更新和维护由 Flipper Devices 团队负责,并定期发布新版本。该项目旨在为安全研究人员和爱好者提供一个可定制的硬件平台,用于探索和测试各种安全协议。用户可以参与社区讨论,贡献代码,并分享他们的项目。
      • RavenSystem/esp-homekit-devices - homekit-devices项目是一个为ESP32、ESP32-S、ESP32-C和ESP8266系列SoC设计的固件,旨在为设备添加原生的Apple HomeKit支持。它兼容多种设备,包括Shelly、Sonoff、Electrodragon和Tuya等。该固件允许用户自定义配置,从而扩展了HomeKit的功能。通过此项目,用户可以轻松地将基于ESP芯片的设备集成到Apple的智能家居生态系统中,实现远程控制和自动化。该项目提供了一种简单有效的方式,使开发者能够快速构建支持HomeKit的智能家居设备。它利用ESP芯片的强大功能,为用户带来便捷的智能家居体验。该固件的先进性体现在其原生HomeKit集成和灵活的自定义选项上。
      • RogueMaster/flipperzero-firmware-wPlugins - GHz 性能、额外的攻击工具和调试功能。该固件通过修改原始代码并添加新的模块来实现这些功能,允许用户扩展 Flipper Zero 的能力,例如更强大的信号分析、更广泛的协议支持和更便捷的漏洞利用。它还集成了社区贡献的代码和插件,使其成为一个功能丰富的选择。用户可以通过编译源代码或使用预构建的二进制文件来安装此固件。请注意,使用第三方固件可能存在风险,用户应自行承担责任。该项目旨在为高级用户和安全研究人员提供更强大的工具,以探索和测试各种安全系统。
      • raphamorim/rio
      • FASTSHIFT/X-TRACK - TRACK是一个GPS自行车码表项目,它支持离线地图和轨迹记录功能。该项目的主要特色是能够在没有网络连接的情况下显示速度、距离等骑行数据,并记录骑行轨迹。其工作原理是利用GPS模块接收卫星信号,计算速度和位置信息,并将数据存储在本地。用户可以导入离线地图,在地图上查看自己的位置和轨迹。X-TRACK适用于户外骑行爱好者,提供了一种便捷的离线导航和数据记录方案。项目使用FASTSHIFT/X-TRACK仓库进行版本控制和协作开发。
      • greatscottgadgets/hackrf
      • RfidResearchGroup/proxmark3
      • apache/nuttx
      • crankyoldgit/IRremoteESP8266 - IRremote库。它支持多种红外协议,例如NEC、Sony、RC5、RC6等。该库通过分析红外信号的波形来实现解码和编码。你可以使用它来控制电视、空调等红外设备。该项目提供了一些示例代码,帮助你快速上手。它使用ESP8266/ESP32的定时器和GPIO引脚来生成和检测红外信号。该库的目标是提供一个简单易用的红外遥控解决方案。它支持发送原始红外信号,也支持解码已知的红外协议。该项目还在不断更新和完善,以支持更多的红外协议和设备。
      • FastLED/FastLED
      • xiaowenxia/embedded-notes - notes的GitHub项目,作者是xiaowenxia。项目主要记录了嵌入式Linux软件开发、嵌入式Linux驱动开发、C语言、单片机开发以及物联网(IOT)开发等方面的面试要点。 旨在帮助开发者准备相关领域的面试,涵盖了嵌入式开发多个重要方向。 项目内容可能包括常见的面试问题、知识点总结、以及可能的项目经验分享。 适合正在准备嵌入式相关面试的开发者参考学习。
      • intel/pcm
      • T-vK/ESP32-BLE-Keyboard - BLE-Keyboard是一个用于ESP32的蓝牙低功耗键盘库,兼容Arduino IDE。它允许ESP32模拟HID键盘,通过BLE与电脑、手机等设备无线连接。该项目基于NimBLE-Arduino库实现BLE通信,无需额外的硬件,只需ESP32开发板即可。你可以使用Arduino IDE编写代码,控制ESP32发送键盘按键、组合键、媒体控制键等。项目特色包括支持多平台,易于使用,以及提供了丰富的示例代码,方便开发者快速上手。其工作原理是ESP32作为BLE外设广播键盘服务,设备连接后,通过BLE发送HID报告模拟键盘输入。这个库简化了在ESP32上创建无线键盘或控制器的过程,适用于各种DIY项目和物联网应用。
      • xinnan-tech/xiaozhi-esp32-server - tech/xiaozhi-esp32-server项目是xiaozhi-esp32的后端服务。它旨在帮助开发者快速搭建ESP32设备控制服务器。该项目提供后端支持,简化ESP32设备管理和控制的流程。通过此项目,用户可以更便捷地构建和部署自己的ESP32服务器应用。该项目的主要目标是降低ESP32设备控制服务器的开发门槛,提高开发效率。
      • ARMmbed/DAPLink - DAP调试接口。它本质上是一个USB设备固件,将USB连接转换为JTAG/SWD调试信号,简化了嵌入式系统的开发和调试流程。DAPLink支持拖放式编程,允许用户直接将二进制文件拖放到DAPLink驱动器中进行烧录。它还提供虚拟串口功能,方便应用程序的输出和调试信息显示。该项目支持多种目标设备和开发工具,具有良好的兼容性和可扩展性。DAPLink的工作原理是利用USB HID协议与主机进行通信,并将调试指令转换为相应的JTAG/SWD信号。它采用模块化设计,易于定制和移植到不同的硬件平台。DAPLink项目由ARMmbed维护,并提供完善的文档和示例代码,方便开发者使用和贡献。其主要特性包括:CMSIS-DAP调试接口、拖放式编程、虚拟串口、支持多种目标设备和开发工具、模块化设计和易于定制。
      • vshymanskyy/TinyGSM
      • 0015/ThatProject - S3和NodeMCU(ESP8266)的物联网和嵌入式系统项目。每个项目都提供了详细的视频教程和源代码,涵盖从LoRa通信、GPS数据处理到使用LVGL创建图形界面的广泛主题。
      • ThingPulse/esp8266-oled-ssd1306 - oled-ssd1306是一个用于ESP8266/ESP32的OLED显示驱动库,支持基于SSD1306和SH1106芯片的128x64、128x32和64x48像素OLED屏幕。该库简化了在ESP项目中控制这些OLED显示器的过程。它提供了易于使用的API,用于在屏幕上绘制文本、图形和图像。该库具有良好的文档和示例代码,方便开发者快速上手。它支持I2C和SPI通信模式,可以灵活地适应不同的硬件配置。项目维护者为ThingPulse,他们也维护其他ESP相关的项目。这个库可以帮助开发者轻松地将OLED显示功能集成到他们的ESP8266/ESP32项目中,例如显示传感器数据、状态信息或自定义图形界面。它是一个流行的选择,因为它稳定、可靠,并且易于使用。
      • nfc-tools/libnfc
      • tbnobody/OpenDTU
      • pschatzmann/ESP32-A2DP - A2DP是一个简单的ESP32蓝牙A2DP库,用于实现音乐接收器或发送器功能。它支持Arduino、PlatformIO和Espressif IDF开发环境。该库允许ESP32设备通过蓝牙接收或发送音频数据,实现无线音频传输。你可以使用它来构建蓝牙音箱、无线耳机等应用。该库简化了A2DP协议的实现,方便开发者快速集成蓝牙音频功能。它提供了易于使用的API,可以轻松配置和控制蓝牙连接和音频流。项目目标是提供一个轻量级、高效且易于使用的A2DP解决方案。该库基于ESP32的蓝牙协议栈,并提供了必要的抽象层,简化了开发过程。该项目为ESP32开发者提供了一个方便的工具,用于实现各种蓝牙音频应用。
      • pbatard/libwdi
      • mcauser/awesome-micropython
      • nfcgate/nfcgate
      • cherry-embedded/CherryUSB
      • ayushsharma82/ESP-DASH - DASH是一个为ESP8266、ESP32、RP2040+W和RP2350+W微控制器设计的快速库,用于创建功能性的、设备上的仪表盘。它允许开发者轻松构建用户界面,直接在微控制器上显示数据和控制设备。该库旨在提供高性能和低资源占用,适用于资源受限的嵌入式系统。ESP-DASH简化了仪表盘的开发流程,无需依赖外部服务器或云服务,所有操作都在本地设备上完成。开发者可以使用该库创建各种交互式元素,如按钮、滑块、图表等,实时监控和控制连接到微控制器的传感器和执行器。项目目标是提供一个简单易用的解决方案,使开发者能够快速构建自定义的、功能丰富的仪表盘应用。通过ESP-DASH,开发者可以方便地将数据可视化,并实现对嵌入式系统的有效控制。
      • unitreerobotics/unitree_ros
      • RfidResearchGroup/ChameleonUltra
      • lamda-bbo/Efficient-TDP - TDP是一个用于时序驱动全局布局的开源项目,实现了DATE'25论文"Timing-Driven Global Placement by Efficient Critical Path Extraction"提出的算法。该项目的核心在于高效的关键路径提取技术,旨在优化芯片布局,提升电路性能。它通过精确识别和优化关键路径,从而缩短电路延迟,提高芯片的时序性能。该项目提供了一种新的全局布局方法,特别关注时序约束,适用于高性能集成电路设计。其实现细节和实验结果可在论文中找到。该项目为研究人员和工程师提供了一个实用的时序驱动布局工具,可用于评估和改进全局布局算法。
      • gtbook/robotics
      • espressif/esp-idf
      • kmonad/kmonad
      • homebridge/homebridge - NodeJS协议实现,允许开发者自定义设备行为,并提供调试工具简化开发流程。用户可通过npm安装Homebridge核心程序,再根据需求安装对应插件,即可实现智能家居设备的集中管理,是连接非Apple设备与HomeKit生态的高效解决方案。
      • TheRobotStudio/SO-ARM100 - ARM100)是一个基于开源理念的机械臂项目,旨在为开发者和爱好者提供一个模块化、低成本且易于扩展的机械臂解决方案。该项目采用标准机械结构设计,兼容常见的3D打印部件和电子元件,用户可通过组装和编程实现机械臂的运动控制。其核心工作原理基于电机驱动与传感器反馈的闭环控制系统,通过控制板(如树莓派或Arduino)接收指令,驱动舵机或步进电机完成多关节的精准定位,同时通过力传感器或限位开关确保操作安全。 项目特色包括开源的硬件设计文件(支持3D打印)、可扩展的模块化架构(支持不同尺寸和功能扩展)、以及跨平台的软件支持(兼容Python、C++等编程语言)。机械臂通过UART、I2C或CAN总线与控制器通信,用户可自定义控制逻辑或调用预设的运动算法库。此外,项目提供详细的文档和示例代码,便于快速上手,同时社区支持可帮助解决硬件调试和软件开发问题。硬件方面,SO-ARM100采用轻量化铝合金框架,配备高精度减速电机和可调节夹具,适用于教育、工业原型开发或自动化场景。其设计注重通用性,允许用户根据需求更换末端执行器(如夹爪、笔尖或机械手),并支持与ROS(机器人操作系统)集成,扩展为更复杂的自动化系统。项目强调低门槛入门,适合从初学者到专业开发者的多层级用户群体。
      • gioblu/PJON
      • HomeSpan/HomeSpan - ESP32开发板设计的HomeKit协议库,允许开发者将基于ESP32的设备接入苹果的HomeKit智能家居生态系统。该项目的核心功能是实现HomeKit设备的通信与控制,支持创建自定义智能硬件并集成到HomeKit平台中。HomeSpan基于Home Assistant的HomeKit组件开发,但专注于ESP32平台,提供更轻量级的解决方案。其特色包括支持多种HomeKit设备类型如灯泡、开关、传感器等,提供简单的API接口便于快速开发,内置加密功能确保数据安全,并支持设备发现和状态同步。工作原理上,HomeSpan通过实现HomeKit的MFi认证协议,使ESP32设备能够作为HomeKit配件与苹果设备配对,同时支持通过HomeKit的Home App进行远程控制。项目还包含示例代码和文档,帮助开发者快速上手,支持OTA无线固件更新功能,便于设备维护。HomeSpan适用于需要接入HomeKit的物联网项目,如智能照明、环境监测、安防系统等,特别适合希望利用ESP32低成本开发智能家居设备的开发者。该项目开源,采用MIT许可证,鼓励社区贡献和使用,同时提供详细的开发指南和常见问题解答,降低开发门槛。通过HomeSpan,开发者可以充分利用ESP32的硬件性能,结合HomeKit的生态优势,打造兼容性强且功能丰富的智能家居产品。
      • tttapa/Control-Surface - Surface是一个基于Arduino的库,专注于创建MIDI控制器和其他MIDI设备。该项目通过提供直观的API简化了MIDI硬件开发流程,允许开发者快速构建具有自定义功能的MIDI接口。其核心特色在于支持多种MIDI设备类型,包括MIDI控制器、MIDI传感器和MIDI输入输出设备,并提供了灵活的参数映射系统,可将物理控制元素(如旋钮、按钮)与MIDI消息直接关联。工作原理上,该库基于MIDIUSB库实现,通过定义控制表面的参数和映射规则,将硬件输入转换为MIDI控制变化(CC)消息或音符消息,同时支持实时反馈和状态同步。开发者可利用其模块化设计扩展功能,例如添加自定义控件或集成第三方库。项目兼容Arduino Leonardo、Micro等带有USB接口的开发板,需预先安装MIDIUSB库。文档包含多个示例代码,演示了如何实现基本控件、处理输入输出以及创建复杂交互。此外,项目遵循MIT许可证开源,鼓励社区贡献和使用。Control-Surface特别适合音乐制作人、硬件开发者和爱好者,可降低开发MIDI设备的门槛,同时保持高度可定制性。通过其简洁的接口和强大的功能,用户能够专注于创意实现而非底层通信细节,加速产品开发进程。
      • Makuna/NeoPixelBus
      • vivoblueos/kernel - V架构,确保广泛的设备适配性。项目还提供了低功耗模式优化功能,通过智能电源管理算法降低能耗,适用于电池供电的物联网终端。此外,vivoblueos/kernel 集成了实时操作系统(RTOS)特性,支持任务优先级调度和定时器中断,满足工业自动化、智能家居等场景的实时性需求。开发团队强调安全性,采用内存保护机制和代码校验模块,防止非法访问和潜在漏洞。用户可通过预编译的内核镜像快速部署,或根据项目提供的API文档进行二次开发。项目文档详细说明了硬件抽象层(HAL)的设计,便于开发者针对不同设备进行驱动适配。目前,该内核已成功应用于多个开源硬件平台,并支持通过GitHub进行社区协作与问题反馈,持续迭代优化性能与兼容性。
      • hybridrobotics/berkeley-humanoid-lite
      • EmenstaNougat/ESP32-BlueJammer - BlueJammer是一个基于ESP32和nRF24模块的2.4GHz通讯干扰器,支持蓝牙、BLE、WiFi和RC信号的干扰,通过生成噪音和不必要的数据包造成设备间通讯干扰,使其无法正常工作,适用于可控的干扰和安全测试。
      • simplefoc/Arduino-FOC - FOC是一个基于Arduino的磁场定向控制(FOC)算法库,专为无刷直流电机(BLDC)和步进电机设计。它旨在简化电机控制,让开发者能够轻松实现高性能的电机驱动。该库提供了完整的FOC实现,包括 Clarke 和 Park 变换、PID 控制器和空间矢量脉宽调制(SVPWM)。其核心优势在于易用性和灵活性,允许用户自定义控制参数和硬件配置。项目支持多种Arduino开发板,并提供了丰富的示例代码和文档,方便用户快速上手。通过精确控制电机电流和电压,Arduino-FOC能够实现平稳、高效的电机运行,适用于机器人、自动化和电动车辆等领域。它是一个开源项目,鼓励社区参与和贡献,共同完善电机控制技术。该项目特别适合那些希望在Arduino平台上实现高性能电机控制,但又不想深入研究复杂控制理论的开发者。
      • nRF24/RF24
      • MHeironimus/ArduinoJoystickLibrary
      • adafruit/DHT-sensor-library
      • The-OpenROAD-Project/OpenROAD
      • serialport/node-serialport - serialport`,它允许你使用JavaScript访问串口,支持Linux、OSX和Windows操作系统。你可以用它来控制机器人或其他硬件设备。简单来说,它提供了一个Node.js模块,让你的JavaScript代码能够与通过串口连接的设备进行通信。你可以通过这个库发送和接收数据,实现各种串口相关的应用。该项目旨在简化串口通信的流程,让开发者更容易地使用JavaScript控制硬件。它提供了一套易于使用的API,方便开发者进行串口配置、数据读写等操作。通过这个项目,你可以构建各种有趣的物联网应用、机器人控制系统等。
      • gnuradio/gnuradio
      • hneemann/Digital
      • portapack-mayhem/mayhem-firmware
      • petercorke/robotics-toolbox-python
      • Unity-Technologies/Unity-Robotics-Hub - Robotics-Hub是Unity官方的机器人仿真工具、教程、资源和文档的中央仓库。它旨在帮助开发者在Unity中进行机器人仿真。该项目提供了各种机器人相关的Unity包,例如URDF Importer用于导入机器人模型,ROS TCP Connector用于与ROS系统通信。项目包含丰富的教程,指导用户搭建仿真环境,控制机器人,并进行感知任务。此外,还提供了一系列示例场景和预构建的机器人模型,方便用户快速上手。Unity-Robotics-Hub利用Unity引擎的强大物理引擎和渲染能力,实现逼真的机器人仿真效果。通过与ROS等机器人操作系统的集成,可以实现软件在环测试和算法验证。该项目是机器人开发人员学习和使用Unity进行机器人仿真的重要资源。
      • ProvableHQ/leo
      • adafruit/Adafruit-GFX-Library
      • adafruit/Adafruit_SSD1306
      • revtel/react-native-nfc-manager - native-nfc-manager是一个用于Android和iOS平台的React Native NFC模块。它允许React Native应用与NFC标签和读卡器进行交互。该模块旨在简化NFC功能的集成,提供跨平台的API。它支持多种NFC技术,包括NDEF读写、ISO 15693、ISO 7816等。开发者可以使用它来读取和写入NFC标签,进行P2P数据传输,以及模拟NFC卡。该项目提供了详细的API文档和示例代码,方便开发者快速上手。它依赖于原生平台的NFC API,并通过桥接的方式将其暴露给React Native。核心功能包括NFC适配器管理、会话管理、标签发现和数据交换。该模块还在持续维护和更新,以支持最新的NFC技术和React Native版本。使用此模块可以轻松地在你的React Native应用中添加NFC功能。
      • behavior-robot-suite/brs-algo - Robot-Suite算法代码库,对应论文"BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities"。该项目提供了一系列算法,旨在简化真实世界中机器人的全身操作,使其能够执行日常家务活动。具体算法细节和实现可能需要查阅项目代码和相关论文。此代码库是BEHAVIOR机器人套件的一部分,专注于算法层面,帮助机器人理解和执行复杂的操作任务。项目目标是提高机器人在复杂环境中的操作能力,使其更易于部署和使用。它可能包含运动规划、感知、控制等方面的算法,以实现流畅、高效的机器人行为。该项目可能提供示例代码和实验结果,帮助研究人员和开发者快速上手。请注意,具体算法细节和使用方法需要参考项目文档和代码。
      • behavior-robot-suite/brs-ctrl - World Whole-Body Manipulation for Everyday Household Activities”。该项目旨在简化真实世界中全身操作,特别是日常家务活动。它提供了机器人硬件控制相关的代码,用于驱动和控制机器人执行各种操作任务。具体实现细节和使用方法请参考项目文档和代码。该项目是BEHAVIOR机器人套件的重要组成部分,为机器人研究和开发提供了一个有价值的平台。通过使用该代码库,研究人员可以更容易地在真实机器人上部署和测试他们的算法,从而加速机器人技术的发展。该项目专注于提升机器人在复杂环境中的操作能力,使其能够更好地适应和完成各种实际任务。
      • HeegerGao/FLIP
      • IoT-Technology/IoT-Technical-Guide
      • jslee02/awesome-robotics-libraries - robotics-libraries" 是一个由 jslee02 维护的精选机器人开发工具库清单,旨在为开发者提供机器人技术相关的核心软件和算法资源。该项目系统分类整理了机器人开发中常用的控制、感知、运动规划、仿真等模块的开源库,例如ROS(机器人操作系统)、MoveIt(运动规划框架)、OpenCV(视觉处理)、PCL(点云处理)等,覆盖从底层硬件控制到高层算法实现的完整技术栈。每个推荐库均附有简要说明和链接,帮助开发者快速定位所需工具,特别强调库的跨平台兼容性、社区活跃度和文档完整性等关键特性。项目通过模块化分类(如"控制"、"SLAM"、"仿真"等)提升检索效率,同时包含针对特定应用场景(如教育、工业、研究)的推荐库列表。其核心价值在于整合分散的优质资源,通过统一入口降低技术门槛,适合机器人初学者快速入门和资深开发者查找专业工具,是推动机器人技术普及和创新的重要资源库。
      • strasdat/Sophus - only)形式,用户无需编译即可直接包含使用,极大简化了集成流程。项目支持现代 C++ 标准(如 C++11 及以上),并兼容 Eigen 的矩阵运算接口,确保与现有工程的无缝衔接。其应用场景涵盖视觉里程计、SLAM(同步定位与地图构建)、运动估计等机器人领域任务,尤其适合需要高精度几何计算的场景。 项目维护活跃,当前最新版本为 v1.12.0,开发者可通过 GitHub 页面获取详细文档和示例代码。Sophus 的设计注重数学严谨性与工程实用性,例如通过参数化旋转矩阵以避免奇异点问题,并提供高效的数值计算方法。此外,项目支持多种 Lie 群的组合操作,如旋转与平移的组合变换(SE(3)),以及其在优化问题中的雅可比矩阵计算,为开发者提供了强大的数学工具支持。
      • tiny-tpu-v2/tiny-tpu
      • nkolban/esp32-snippets - snippets**,是一个为 ESP32 开发者提供的代码片段集合,旨在帮助用户快速实现常见功能并简化开发流程。项目核心是提供一系列模块化的代码示例,涵盖 ESP32 的核心功能,如 Wi-Fi 连接、蓝牙通信、传感器交互、I2C/SPI 外设控制等,并针对 ESP32 的硬件特性(如 ADC/DAC 转换、PWM 调制)提供具体实现。这些代码片段基于 ESP-IDF(Espressif IoT Development Framework)开发框架,开发者可直接将其集成到自己的项目中,无需从零编写底层代码。 项目特点包括:代码示例结构清晰,附有注释说明,便于用户理解其工作原理;覆盖常见开发场景,例如 LED 控制、网络通信(如 MQTT 协议)、传感器数据读取等,同时提供外围设备(如 I2C 显示屏、SPI 存储芯片)的交互示例。部分片段还展示了 ESP32 的高级功能,如低功耗模式配置、任务调度管理,以及通过蓝牙或 Wi-Fi 与外部设备通信的实现方式。开发者可利用这些片段快速验证功能,减少重复开发时间,尤其适合需要快速原型设计的项目。 项目的工作原理基于 ESP32 的硬件抽象层,通过调用 ESP-IDF 提供的 API 实现功能,例如使用 `esp_wifi_connect()` 初始化 Wi-Fi,或通过 `i2c_master_write()` 控制 I2C 设备。代码片段通常以独立函数或模块形式存在,用户可根据需求组合使用。项目还强调代码的可移植性,确保示例能在不同 ESP32 开发板(如 ESP32-WROOM-32)上运行。整体而言,该项目是一个实用工具库,帮助开发者高效利用 ESP32 的硬件能力,加速物联网或嵌入式项目的开发进程。
      • mrcodetastic/ESP32-HUB75-MatrixPanel-DMA - S2、ESP32-S3)设计的Adafruit GFX兼容库,用于通过HUB75接口驱动LED矩阵面板,并采用DMA(直接内存访问)技术实现高刷新率显示。其核心功能是通过优化数据传输机制,减少CPU负载,从而支持更流畅的图形渲染效果。项目支持面板链式连接功能,用户可将多块HUB75矩阵面板串联扩展显示区域,适合制作大型LED显示屏。库中包含完整的示例代码,可直接用于显示动画、文字、图形等效果,同时兼容常见的图形处理函数,如绘制线条、填充矩形等。工作原理基于HUB75接口的RGB数据传输协议,通过DMA通道将图像数据快速发送至LED面板,避免传统SPI通信的效率瓶颈。该项目特别强调低延迟和高帧率特性,适用于需要实时显示的场景,例如动态信息展示、互动艺术装置等。开发者还提供了针对ESP32系列芯片的硬件配置说明,确保不同型号设备的兼容性。项目还支持自定义面板尺寸和分辨率,用户可根据实际硬件调整参数,实现最佳显示效果。
      • GalaxyGeneralRobotics/OpenWBT - ROS通信机制、支持多语言的控制脚本接口(如Python/JavaScript),以及与Gazebo仿真引擎的兼容性,可直接加载URDF机器人模型进行测试。对于教育和研究领域,OpenWBT提供了从基础控制到复杂场景模拟的完整工具链,适用于机器人算法验证、教学演示及跨团队协作开发等场景。
      • TianxingChen/Embodied-AI-Guide - AI-Guide)是一个面向具身智能技术的完整学习指南项目,旨在帮助开发者系统性地掌握机器人感知、决策与行动的闭环技术体系。该项目以模块化结构覆盖具身智能核心领域,包括机器人运动控制、多模态传感器数据融合、强化学习算法应用等关键技术,通过理论讲解与代码示例相结合的方式降低学习门槛。项目特色在于构建了从基础理论到工程实践的完整知识链,特别强调"感知-决策-执行"的闭环系统设计,提供涵盖ROS机器人仿真、强化学习训练框架、SLAM定位算法等可复用的技术组件。工作原理上,项目采用分层架构设计,底层通过Python/ROS实现硬件控制与传感器数据采集,中层整合PPO、DDPG等强化学习算法进行决策优化,顶层提供交互式教程和可视化工具辅助理解。项目文档包含30+技术专题的分步教程,配套GitHub代码仓库支持快速复现,并提供学术论文速览、开源工具推荐等资源聚合。适用于AI初学者快速入门具身智能领域,也适合研究人员拓展多模态机器人系统开发能力,特别适合需要从零构建智能机器人系统的开发者群体使用。
      • GT-RIPL/Awesome-LLM-Robotics - RIPL/Awesome-LLM-Robotics是一个聚焦于大语言模型(LLM)与多模态模型在机器人学和强化学习(RL)领域应用的开源项目,旨在系统性地整理相关研究论文、代码实现及配套资源。项目通过分类整合的方式,将论文按应用场景(如机器人控制、导航、人机交互等)和模型类型(如语言模型、视觉模型、多模态融合架构)进行划分,同时标注每篇论文的代码仓库链接、实验数据集和开源项目主页,方便研究者快速获取完整研究链条。其核心特色在于构建了跨学科的资源整合体系,既涵盖基础理论研究(如LLM如何提升机器人决策能力),也包含实际应用案例(如多模态模型在机械臂操作中的具体实现),并特别关注代码可复现性,确保研究者能直接调用项目中推荐的开源工具。项目还提供了详细的贡献指南,鼓励社区提交新论文、补充代码或优化分类体系,形成动态更新的知识图谱。对于希望引用该项目的研究者,开发者提供了标准化的引用格式说明,确保学术规范性。整体而言,该项目通过结构化的内容组织和跨平台资源整合,为LLM与机器人技术交叉领域的研究者提供了高效的知识获取与技术验证平台。
      • pico-8/awesome-PICO-8 - 8/awesome-PICO-8是一个精心整理的PICO-8资源合集项目,为开发者和爱好者提供全面的工具、教程、游戏和社区资源。PICO-8是Lexaloffle开发的复古风格游戏开发平台,采用虚拟8位游戏机的设定,限制开发资源(如32KB代码、32MB内存)以模拟经典游戏开发体验。该项目通过分类整理的方式,覆盖了从入门教程到高级工具的全方位内容,例如官方PICO-8 IDE、代码调试工具p8tools、素材提取工具pico8-dumper等。资源类型包括游戏开发教程(如Lua语言学习指南)、经典游戏合集(如《Spelunky》《Dungeon Crawl》的PICO-8移植版)、社区创作工具(如音乐生成器、图形编辑器)以及开发者社区链接。项目特别强调实用性,例如提供PICO-8 cartridge格式的直接下载链接、开发流程说明(如通过Lua脚本编写游戏逻辑并导出为.p8c文件)、跨平台运行方案(支持Windows/macOS/Linux)。同时,项目通过Markdown格式维护内容结构,方便用户按需检索,如“工具”分类包含代码分析工具和调试辅助程序,“游戏”分类展示独立开发者的创意作品。其核心价值在于将分散的PICO-8生态资源系统化,降低新手学习门槛,同时为资深开发者提供高效开发工具和灵感参考,形成一个活跃的开发者社区资源共享平台。
      • ahundt/awesome-robotics - robotics 是一个精心整理的机器人技术资源库,旨在为开发者和研究者提供涵盖机器人领域各方向的实用链接与软件库。项目通过清晰分类的方式,将资源划分为机器人操作系统(ROS)、运动控制、SLAM(同步定位与地图构建)、感知算法、机械设计、仿真工具、机器学习与AI应用等核心板块,方便用户快速定位所需技术方向。其特色在于整合了从基础框架(如ROS 2、Gazebo)到前沿研究(如强化学习、多机器人协作)的全栈资源,并支持多种编程语言(C++/Python/ROS)及跨平台开发。项目持续更新维护,包含超过200个高质量链接,涵盖开源代码、教程文档、研究论文与行业应用案例。开发者可通过GitHub直接参与贡献,项目通过社区协作确保技术时效性与实用性,特别适合机器人初学者快速入门、研究者寻找技术方案或工程师获取开发工具。其价值不仅在于资源聚合,更通过模块化分类和明确标注(如“推荐”“实验性”)帮助用户筛选可靠方案,是机器人领域不可多得的综合性技术导航库。
      • mongoose-os-apps/shelly-homekit - HomeKit是一个专为Shelly系列设备开发的Apple HomeKit固件项目,能够将支持的Shelly硬件设备(如Shelly1、Shelly2、Shelly3、Shelly Plug等)接入Apple Home应用,实现通过iPhone或iPad进行智能控制。该项目基于Mongoose OS框架构建,通过将HomeKit协议集成到Shelly设备中,使其能够与Apple HomeKit生态系统无缝对接,支持开关控制、传感器数据读取及自动化场景联动功能。用户可通过固件刷写工具将HomeKit功能部署到兼容的Shelly设备上,设备将通过Wi-Fi或蓝牙与Apple设备建立连接,并在Home应用中以虚拟设备形式呈现,支持语音控制(如Siri指令)和自动化规则设置。项目特别优化了与Apple HomeKit的兼容性,支持多设备同步、状态实时反馈及低功耗模式,同时提供详细的安装指南和故障排查文档。需要注意的是,此固件仅适用于部分Shelly设备型号,且需确保设备固件版本符合要求。项目通过开源代码实现功能扩展,开发者可基于Mongoose OS框架进一步定制设备行为,例如添加新的传感器支持或调整通信协议参数。整体方案无需额外硬件,仅需通过软件更新即可实现HomeKit功能,适合智能家居爱好者和开发者快速构建兼容Apple生态的物联网设备。
      • CursorTouch/Windows-Use - Use 是一个开源的 Windows 系统触控控制工具,通过手机或平板设备的触控手势实现对电脑的无鼠标操作。该项目的核心功能是将移动设备作为虚拟触控板,通过单指、双指、三指等手势模拟鼠标移动、点击、拖拽等操作,支持自定义手势与动作映射,适用于需要频繁操作电脑但不便使用鼠标用户的场景。其工作原理基于客户端-服务器架构:移动设备端运行触控识别程序,通过 Wi-Fi 或蓝牙与电脑端的服务器通信,将手势数据转化为鼠标指令,电脑端通过虚拟鼠标驱动实现操作。项目采用轻量化设计,兼容 Windows 7 及以上版本,支持多种手势触发方式(如轻点、滑动、长按等),并提供配置文件支持用户自定义手势逻辑。开发团队强调其开源特性,允许用户自由修改代码以适配不同硬件或扩展功能,同时提供详细的中文文档与示例配置。项目特别适合需要远程操作、触控操作更便捷的场景,例如教学演示、设备调试等,但需注意移动设备与电脑需处于同一网络环境且保持通信稳定。
      • Kiloreux/awesome-robotics - robotics 是一个专注于整理和推荐高质量机器人技术资源的开源项目,旨在为开发者、研究者和爱好者提供全面的机器人相关工具、库、教程及硬件信息。该项目以清晰的分类结构(如仿真工具、机器学习框架、硬件指南等)整合了全球范围内的优质资源,涵盖从基础理论到实际应用的完整链条。其核心特色在于通过精选链接,帮助用户快速定位关键工具,例如 Robot Operating System(ROS)及其相关库、仿真平台 Gazebo、深度学习框架 TensorFlow 在机器人领域的应用案例,以及开源硬件设计文档等。项目内容不仅包含软件开发资源,还涵盖硬件设计、传感器选型、机械结构设计等实用信息,适合不同阶段的机器人项目需求。同时,项目维护者定期更新内容,确保信息的时效性,并鼓励社区参与贡献,以形成持续扩展的知识库。对于初学者而言,可作为入门指南;对于专业人士,则可作为技术选型的参考。其价值在于通过系统化整理,降低信息获取成本,推动机器人技术的普及与创新。
      • cocotb/cocotb - Verification of Chip Designs with Python)是一个基于Python的开源硬件验证框架,主要用于芯片设计的寄存器传输级(RTL)验证。项目通过Python语言编写测试用例,实现对数字电路设计的自动化测试,显著降低了验证门槛,尤其适合熟悉Python的工程师快速构建测试环境。其核心工作原理是通过Python脚本与仿真工具(如Verilator、Icarus、GHDL等)进行交互,利用Python的动态特性实现对硬件设计的实时监控和信号控制,同时支持多线程和协程(coroutines)技术,实现测试用例的并行执行与高精度时序控制。项目特色包括:1)完全开源,支持跨平台使用;2)提供丰富的接口库,可直接操作硬件设计中的信号和寄存器;3)支持多种仿真工具插件扩展,兼容主流工业级仿真器;4)集成VUnit等工具链,提升验证效率;5)通过断言机制(assertions)和覆盖率分析功能,确保设计的完整性和可靠性。cocotb被广泛应用于半导体行业,用于验证从简单逻辑门到复杂SoC(系统级芯片)的设计,尤其适合需要高频次迭代测试的场景。其社区活跃且持续更新,开发者可通过插件机制扩展功能,例如支持新的仿真工具或增加调试可视化模块。项目通过模块化设计,允许用户根据需求定制测试流程,同时提供详细的文档和示例代码,降低了学习成本,是RTL验证领域的重要开源工具。
      • simondankelmann/Bluetooth-LE-Spam
    • 网络服务_其他

  • 前端开发框架及项目

  • 基因

    • 资源传输下载

      • google-deepmind/alphagenome
      • nf-core/rnaseq
      • nanoporetech/dorado
      • ZhangYiqun018/GENOME - Cas9系统的脱靶效应。该项目使用PyTorch实现,并提供了一个用户友好的界面,方便研究人员和生物技术人员使用。GENOME模型的特色在于其高效的预测能力和对复杂基因组序列的理解。其工作原理是利用Transformer模型学习CRISPR-Cas9引导RNA与基因组序列之间的复杂关系,从而预测潜在的脱靶位点。项目提供预训练模型,用户也可以根据自己的数据进行微调。GENOME项目包含用于训练、评估和预测的代码,以及详细的文档和示例。该项目为基因组编辑的安全性评估提供了一个强大的工具,有助于减少脱靶效应,提高基因组编辑的精确性。项目地址是ZhangYiqun018/GENOME。
      • crazyhottommy/RNA-seq-analysis - seq分析笔记,特色是提供详尽的RNA测序分析教程,包含从原始数据质量控制到差异表达基因分析的全流程,工作原理基于常用的生物信息学工具如R和Bioconductor包,特别注重可重复性和结果可视化,适合初学者和有经验的用户参考学习,通过实际案例演示分析步骤,帮助用户掌握RNA-seq数据处理的核心技能
      • tanghaibao/jcvi
      • owkin/PyDESeq2
      • bwa-mem2/bwa-mem2 - mem2是bwa工具的下一代版本,用于生物序列比对,具有更高的速度和准确性。它使用多线程技术提高比对效率,并优化了算法以更好地处理长读长和高复杂度区域。bwa-mem2支持 Illumina、PacBio 和 Oxford Nanopore等多种测序数据格式,适用于全基因组重测序、RNA-Seq等应用。项目特色在于其灵活的参数设置和高效的内存管理,能够处理大规模数据集。工作原理是通过局部对齐策略,结合种子-延伸方法快速找到最佳匹配。它还支持自定义排序和过滤选项,满足不同研究需求。bwa-mem2在性能上超越了前代版本,成为目前最受欢迎的序列比对工具之一。
      • deeptools/deepTools
      • OpenGene/fastp
      • crazyhottommy/getting-started-with-genomics-tools-and-resources
  • A01_机器学习教程

  • 其他_机器学习与深度学习

    • uber/manifold
    • ModelOriented/DALEX
    • microsoft/AI-Red-Teaming-Playground-Labs
    • SelfExplainML/PiML-Toolbox
    • opencog/opencog
    • smarco/WFA2-lib - lib 是一个实现 Wavefront Alignment (WFA) 算法的库,该算法是一种精确的 gap-affine 对齐算法,通过利用序列之间的同源区域来加速对齐过程。与传统的动态规划算法相比,WFA 的时间复杂度为 `O(ns+s^2)`,其中 `n` 是序列长度,`s` 是对齐得分,内存使用量为 `O(s^2)` (或使用 ultralow/BiWFA 模式时为 `O(s)`)。WFA2-lib 支持多种距离函数 (如 indel、edit、gap-linear、gap-affine 和 dual-gap gap-affine),并允许计算得分或完整对齐 (CIGAR)。此外,它还支持全局对齐和自由端对齐 (包括半全局、glocal 和扩展对齐),并提供低内存模式以减少内存使用。除了精确对齐模式,WFA2-lib 还实现了启发式模式以加速对齐计算。该库还提供许多其他支持函数,用于显示和验证对齐结果,控制内存使用等。
    • google/differential-privacy - 和 (ε, δ)- 差分隐私统计数据,包括:Privacy on Beam(基于 Apache Beam的端到端差分隐私框架)、PipelineDP4j(针对 JVM 语言的端到端差分隐私框架)、C++、Go 和 Java的差分隐私构建块库(实现基本噪声添加原语和差分隐私聚合)、随机测试器、差分隐私会计库、用于运行差分隐私 SQL 查询的命令行界面以及用于审核差分隐私保证的 DP Auditorium 库。该库支持多种算法,包括拉普拉斯机制、高斯机制、计数、求和、平均值、方差、标准差、分位数、自动边界近似、截断几何阈值、拉普拉斯阈值、高斯阈值和预阈值。该库适用于研究、实验或生产用例。
    • PAIR-code/what-if-tool - If Tool(WIT) 是一个用于深入理解黑盒分类或回归机器学习模型的工具,它提供了一个易于使用的界面,可以对大量示例进行推理并以多种方式可视化结果。用户可以手动或以编程方式编辑示例,并重新运行模型以查看更改带来的结果。WIT 还包含用于调查模型性能和公平性的工具,并能够在数据集子集上进行分析。WIT 的目标是为用户提供一个简单、直观且强大的方式,让他们无需编写任何代码即可通过可视化界面与训练好的机器学习模型进行交互。WIT 可以通过 TensorBoard 访问,也可以作为 Jupyter 或 Colab 笔记本的扩展使用。该项目提供了一系列Web 和 Colab 演示,用户可以轻松上手体验。
    • ScottfreeLLC/AlphaPy - learn、pandas 等库,以及其他用于特征工程和可视化的工具。AlphaPy 可以用于运行机器学习模型(包括 scikit-learn、Keras、xgboost、LightGBM 和 CatBoost),生成混合或堆叠集成,使用 MarketFlow 分析市场,使用 SportFlow 预测体育赛事,以及使用 MarketFlow 和 Quantopian 的 pyfolio开发交易系统和分析投资组合。AlphaPy 还提供 MarketFlow 和 SportFlow 等功能,用于构建交易系统和分析市场,并提供 GamePT 等示例项目。用户可以通过 Github 提交问题寻求支持,并通过 Twitter关注项目最新动态。
    • trent-b/iterative-stratification - stratification 是一个为多标签数据提供分层交叉验证器的 scikit-learn兼容项目。它扩展了 scikit-learn 的交叉验证器,使其能够对多标签数据进行分层,并提供 MultilabelStratifiedKFold、RepeatedMultilabelStratifiedKFold 和 MultilabelStratifiedShuffleSplit等实现,其分层算法基于 Sechidis 等人 (2011) 的论文。该项目支持 Python 3.4 到 3.9,依赖于 scipy、numpy 和 scikit-learn。用户可以通过 pip 安装该项目,并像使用其他交叉验证器一样使用其提供的多标签交叉验证器,例如与 cross_val_score 或 cross_val_predict 一起使用。
    • KindXiaoming/pykan - Arnold 网络 (KAN) 是多层感知器 (MLP) 的有前途的替代品。KAN 与 MLP 一样具有强大的数学基础:MLP 基于通用近似定理,而 KAN 基于 Kolmogorov-Arnold 表示定理。KAN 和 MLP 是双重的:KAN 在边缘具有激活函数,而 MLP 在节点上具有激活函数。这个简单的变化使KAN在模型准确性和可解释性方面都比MLP更好。KAN 比 MLP 具有更快的扩展速度,KAN 比参数较少的 MLP 具有更好的准确性。KAN可以直观地可视化。KAN 提供 MLP 无法提供的可解释性和交互性。我们可以使用KAN来潜在地发现新的科学定律。
    • h2oai/h2o-3 - Means、PCA、广义加性模型(GAM)、RuleFit、支持向量机(SVM)、堆叠集成、自动机器学习(AutoML)等。H2O使用熟悉的接口,如R、Python、Scala、Java、JSON和Flow笔记本/Web界面,并与Hadoop和Spark等大数据技术无缝集成。H2O模型可以下载并加载到H2O内存中进行评分,或导出为POJO或MOJO格式,以便在生产环境中进行快速评分。
    • orchest/orchest
    • stan-dev/pystan
    • amundsen-io/amundsen
    • ContinualAI/avalanche
    • ropensci/skimr
    • google-deepmind/dm-haiku
    • interpretml/DiCE
    • WecoAI/aideml - bench基准测试中表现出色,在75个Kaggle机器学习任务中取得了领先成绩,获得的奖牌数量是第二名代理架构的四倍。AIDE能够使用自然语言描述任务,并生成经过测试的机器学习管道Python脚本,支持迭代优化,并提供可视化工具来了解其实验过程。用户可以通过命令行运行AIDE,只需提供数据目录、目标描述和可选的评估指标,即可让AIDE自动生成解决方案。
    • PAIR-code/saliency
    • maximtrp/scikit-posthocs - posthocs 是一个 Python 包,提供用于成对多重比较的后验检验,通常在统计数据分析中执行,以评估组水平之间的差异,前提是 ANOVA 检验已获得统计学上的显著结果。scikit-posthocs 与 Pandas DataFrames 和 NumPy 数组紧密集成,以确保快速计算和方便的数据导入和存储。该包对使用 Python 进行工作的统计学家、数据分析师和研究人员很有用。它提供了多种参数和非参数后验检验,以及异常值检测和基本绘图方法,旨在弥补 Python 统计生态系统中与 R 包相比的不足。
    • kelvins/awesome-mlops
    • rstudio/rstudio
    • clab/dynet
    • tensorflow/probability
    • Netflix/vectorflow - b ddox && dub run -b ddox命令构建和本地服务文档,也可以使用其他DDOC编译器。更多信息请参考仓库的Wiki页面。
    • windmaple/awesome-AutoML - AutoML 是一个收集 AutoML 相关研究、工具、项目和其他资源的列表。AutoML 是指使用机器学习方法和流程来自动化机器学习系统并使其更易于访问的技术。近年来,AutoML 领域发展迅速,一些公司已经将该技术商业化。AutoML 包括神经网络架构搜索、超参数优化、优化器搜索、数据增强搜索、学习学习/元学习等多种类型。该项目整理了大量 AutoML相关的研究论文,包括 AutoML 综述、神经网络架构搜索等方面的论文,并提供了相关工具和项目的链接。
    • pytorchbearer/torchbearer
    • google/neural-tangents
    • bqplot/bqplot
    • zyushun/Adam-mini - mini是 Adam 优化器的精简版本,它在保留与 AdamW 相当或更好的性能的同时,将内存占用减少了 50%。Adam-mini通过减少 Adam 中学习率资源(即 $1/\sqrt{v}$)来实现内存节省。它根据 Hessian 结构将参数划分为块,并为每个块分配一个最佳学习率,从而有效地减少了学习率资源。该项目提供了 Adam-mini 的 PyTorch 实现,并支持DDP、FSDP、DeepSpeed、Huggingface Trainer、Torchtitan 和 LLaMA-Factory 等框架。项目还提供了 GPT2 和 Llama 系列模型预训练的示例代码。
    • hbaniecki/adversarial-explainable-ai
    • PennyLaneAI/pennylane
    • hrbrmstr/hrbrthemes
    • JetBrains/lets-plot - Plot是一个基于图形语法 (Grammar of Graphics) 的跨平台绘图库,灵感来自 Leland Wilkinson 的著作《图形语法》。它允许用户通过组合独立组件创建各种图形,类似于 R 语言中的 ggplot2 包。该库提供 Python 和 Kotlin 版本,支持在 Jupyter Notebook、Kotlin Notebook、Datalore 和Compose Multiplatform 等环境中使用,并提供 JVM 和 Kotlin/JS 版本。此外,Lets-Plot 还提供一个名为“Lets-Plot in SciView”的插件,为 PyCharm 和 IntelliJ IDEA 的科学模式添加交互式绘图功能。
    • SimonVandenhende/Multi-Task-Learning-PyTorch - Net(ECCV2020),并提供了一个多任务学习资源库。项目代码基于论文"Multi-Task Learning for Dense Prediction Tasks: A Survey"和"MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning"。用户可以根据自己的需求修改代码,例如更改数据集路径、输出目录和模型配置等。项目支持PASCAL和NYUD数据集,并提供语义分割、深度估计、法线估计、边缘检测、显著性检测和人体部位分割等任务。
    • ebhy/budgetml - swag生成SSL证书。BudgetML还提供完整的OAuth2安全端点,支持密码和Bearer模式。与传统云函数或Kubernetes集群相比,BudgetML更轻量级,更易于使用,适合快速部署模型并降低成本。
    • NVIDIA/cuda-samples - samples 是一个 CUDA 开发者示例项目,展示了 CUDA 工具包中的各种功能。该项目支持 CUDA Toolkit 12.5 版本,包含基础示例、实用工具示例、概念和技术示例以及高级示例,涵盖了 CUDA 开发的各个方面。用户可以通过下载 CUDA Toolkit 并使用 git clone 命令获取项目代码,然后根据平台选择使用 Visual Studio 或 makefile 编译运行示例。项目还支持跨平台编译和调试功能,并提供详细的文档和示例代码,帮助开发者快速上手 CUDA 开发。
    • tableau/TabPy
    • vega/vegafusion - Altair Python 接口与 Vega-Lite 的交互。其核心算法使用 Rust 实现,并通过 PyO3 提供 Python 集成,通过 wasm-bindgen 提供 JavaScript 集成。VegaFusion 可以解决 Altair 的`MaxRowsError` 问题,通过在服务器端执行数据密集型聚合和修剪不必要的列来提高性能,从而允许用户处理更大的数据集。用户可以通过在 Altair 中启用 `"vegafusion"` 数据转换器来使用 VegaFusion。
    • pytorch/captum
    • tensorflow/io - io` 包,并通过 `tfio.IODataset` 类访问数据集,例如使用 `tfio.IODataset.from_mnist` 方法直接从网络读取 MNIST 数据集。此外,TensorFlow I/O 还提供了 Docker 镜像,方便用户快速开始使用。
    • fossasia/visdom
    • nidhaloff/igel
    • likedan/Awesome-CoreML-Models - CoreML-Models 是一个收集了大量 Core ML 格式机器学习模型的项目,旨在帮助 iOS、macOS、tvOS 和 watchOS 开发者轻松使用机器学习技术。该项目提供了图像识别、文本检测、姿势估计等多种模型,并包含模型下载链接、演示项目和相关论文链接,方便开发者快速上手。此外,项目还提供了一些可视化工具,例如 Netron,帮助开发者更好地理解模型结构。开发者可以自由提交自己转换的 Core ML 模型,共同完善这个项目。
    • tensorflow/addons - addons 维护。TFA 已经停止开发和引入新功能,并进入维护模式,预计将在 2024 年 5 月停止维护。建议开发者使用 TensorFlow 社区中的其他库(如 Keras、Keras-CV 和 Keras-NLP)来替代 TFA。
    • rtqichen/torchdiffeq
    • pyjanitor-devs/pyjanitor
    • datahub-project/datahub
    • terryyz/PyArmadillo
    • Trusted-AI/AIX360
    • ContextLab/hypertools - learn和seaborn等常用库,并提供完整的API文档和示例。用户可以通过pip安装HyperTools,并使用其提供的功能进行数据可视化和分析。HyperTools已发表在JMLR期刊上,并提供相应的论文和示例笔记本。
    • neptune-ai/neptune-client
    • csinva/imodels - learn 兼容。该包提供了一系列可解释的机器学习模型,这些模型可以替代黑盒模型(如随机森林),同时提高可解释性和计算效率,而不会牺牲预测精度。imodels 的模型包括决策树、规则列表和线性模型,这些模型都易于使用,只需导入模型并使用 `fit` 和 `predict` 方法即可。该包还包含用于数据预处理和模型评估的工具。
    • nicodv/kmodes - modes和 k-prototypes 聚类算法。它基于 numpy 库,并提供了与 scikit-learn 类似的接口。k-modes 用于对分类变量进行聚类,根据数据点之间匹配的类别数量来定义聚类。k-prototypes 结合了 k-modes 和 k-means,能够对混合的数值/分类数据进行聚类。该库实现了 k-modes、基于密度的 k-modes 初始化和 k-prototypes 算法,并支持使用 joblib 库进行并行计算。
    • astroML/astroML - learn 和Matplotlib 等库,并遵循 BSD 许可证。AstroML 提供了丰富的统计和机器学习算法,用于分析天文数据,包含多个天文数据集加载器,以及大量用于分析和可视化天文数据的示例。该项目始于 2012 年,旨在配合 Zeljko Ivezic 等人撰写的《天文学中的统计学、数据挖掘和机器学习》一书。
    • AutoViML/Auto_ViML
    • koaning/scikit-lego - lego是一个为 scikit-learn 提供额外功能的 Python 库,它包含自定义的转换器、度量指标和模型,旨在简化机器学习工作流程。该库提供各种数据集加载器、数据处理工具、虚拟模型和线性模型,例如用于公平性约束的 DemographicParityClassifier,以及用于时间序列分析的 add_lags 函数。你可以像使用 scikit-learn 一样使用 scikit-lego 中的组件,通过 pip 或 conda 安装,并参考其文档了解更多信息。
    • pavlin-policar/openTSNE - 分布随机邻域嵌入(t-SNE)算法,该算法是一种流行的高维数据可视化降维算法。openTSNE包含了t-SNE算法的最新改进,包括将新数据点添加到现有嵌入的能力、大幅提升速度、支持对数百万个数据点进行t-SNE,以及各种技巧来改善结果可视化的全局对齐。该项目提供详细的文档、用户指南、教程和示例,并支持从conda-forge或PyPi进行安装。
    • lebedov/scikit-cuda - cuda是一个 Python 库,提供对 NVIDIA CUDA 编程工具包中 CUDA 设备/运行时、CUBLAS、CUFFT 和 CUSOLVER 库的接口,以及对 CULA Dense Toolkit 中部分函数的接口。它提供类似于 C 语言的低级包装函数,以及类似于 NumPy 和 Scipy的高级函数。该项目提供完整的文档,包含示例和演示,并支持多种平台和版本。用户可以在 GitHub 上提交问题和反馈,并通过引用该项目进行学术出版。
    • mit-han-lab/tinyengine - 算法协同设计框架。TinyEngine和TinyNAS共同设计以适应严格的内存预算,项目特色包括:内存高效、高性能、支持微控制器上的深度学习,并提供推理和训练演示。MCUNetV1、MCUNetV2和MCUNetV3分别在NeurIPS2020、NeurIPS 2021和NeurIPS 2022上发表。
    • spyder-ide/spyder
    • vega/altair - Altair是一个用于 Python 的声明式统计可视化库,它基于强大的Vega-Lite JSON 规范,提供简单易用的 API,帮助你快速创建美观且有效的可视化图表。你可以在 JupyterLab、Jupyter Notebook、Visual Studio Code 等环境中使用它,并导出为 PNG/SVG 等格式。Vega-Altair 的独特之处在于它不仅支持可视化,还支持交互,例如使用刷选工具过滤散点图并联动更新直方图。
    • gstoica27/ZipIt
    • bethgelab/foolbox
    • baal-org/baal
    • marcharper/python-ternary - ternary是一个基于 matplotlib 的 Python 库,用于绘制三元图。它提供绘制投影线、曲线(轨迹)、散点图和热图等功能,并支持多种 matplotlib 关键字参数,例如 linestyle。该库包含多个示例和教程,可以帮助用户快速上手。用户可以使用 `TernaryAxesSubplot` 类创建三元坐标轴对象,并使用类似于 matplotlib 的 AxesSubplot 对象的方法进行绘图。
    • HumanSignal/awesome-data-labeling - data-labeling是一个精选的数据标注工具列表,主要包含图像、文本和音频三大类标注工具,其中图像标注工具包括LabelImg、CVAT、labelme等,支持边界框、多边形等多种标注方式;文本标注工具如YEDDA、ML-Annotate等,支持命名实体识别、多标签分类等任务;音频标注工具如EchoML等,可用于音频文件的可视化和标注。
    • fireducks-dev/fireducks - dev.github.io>,遇到问题可开新issue咨询。
    • yzhao062/combo
    • pola-rs/polars
    • modin-project/modin
    • pycaret/pycaret
    • multimodal-art-projection/AutoKaggle
    • jupyterlite/jupyterlite
    • streamlit/streamlit
    • PaddlePaddle/PaddleHub
    • PKU-DAIR/mindware
    • DataCanvasIO/Hypernets
    • vikasverma1077/manifold_mixup
    • China-UK-ZSL/Resources_for_KZSL - IMGC)、零**样本**关系提取 ( ZS-RE) 和零**样本**知识图 (KG) 完成 ( ZS-KGC )
    • huggingface/optimum
    • ml-explore/mlx
    • gradio-app/gradio
    • mosaicml/composer
    • JuliaLang/julia
    • wuba/dl_inference
    • YyzHarry/imbalanced-regression
    • 4paradigm/OpenMLDB
    • PaddlePaddle/Paddle-Lite
    • nvdla/hw
    • lowRISC/opentitan
    • alibaba/Curvature-Learning-Framework
    • Jianf-Wang/RSG
    • dair-ai/ml-visuals
    • mindsdb/mindsdb
    • 4paradigm/AutoX
    • kaidic/LDAM-DRW
    • ZhiningLiu1998/mesa
    • scikit-learn-contrib/MAPIE - learn 兼容模块。
    • facebookresearch/bitsandbytes
    • salesforce/OmniXAI
    • bentoml/BentoML
    • fbdesignpro/sweetviz
    • Guang000/Awesome-Dataset-Distillation
    • yassouali/awesome-semi-supervised-learning
    • google/tensorstore
    • AutoViML/AutoViz
    • ydataai/ydata-profiling
    • Speedml/speedml
    • dataease/dataease
    • facebookincubator/AITemplate
    • vespa-engine/vespa - 在服务时存储、搜索、组织和对大数据进行机器学习推理。
    • polyaxon/traceml
    • microsoft/Semi-supervised-learning
    • ahkarami/Deep-Learning-in-Production
    • MegEngine/MegCC
    • bokeh/bokeh
    • dabl/dabl
    • nterpretml/interpret
    • zjhellofss/KuiperInfer
    • Baiyuetribe/paper2gui
    • xorbitsai/xorbits - 从数据预处理到调优、训练和模型服务。Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或者横向扩展到数千台机器,以支持处理数 TB 的数据以及训练或为大型模型提供服务。
    • NVIDIA/DeepLearningExamples - 易于训练和部署,在企业级基础架构上具有可重现的准确性和性能。最新 NVIDIA 示例。
    • ctgk/PRML
    • plotly/dash
    • huggingface/datasets
    • tencentmusic/cube-studio
    • numba/numba
    • tensorflow/rust
    • openvinotoolkit/openvino
    • kserve/kserve
    • flyteorg/flyte
    • tracel-ai/burn
    • HumanSignal/label-studio
    • chenzomi12/DeepLearningSystem
    • automl/auto-sklearn - learn 进行自动化机器学习
    • aws/sagemaker-python-sdk
    • rasbt/python-machine-learning-book
    • Netflix/metaflow
    • huggingface/candle
    • bleedline/aimoneyhunter
    • paperswithcode/ai-deadlines
    • Unstructured-IO/unstructured
    • PaddlePaddle/models
    • mljar/mljar-supervised
    • mars-project/mars - learn和Python函数。
    • metabase/metabase
    • probml/pml-book
    • NVIDIA-AI-IOT/torch2trt
    • tensorflow/tfjs
    • cleanlab/cleanlab
    • NVIDIA/nvidia-container-toolkit
    • swyxio/ai-notes
    • CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers
    • rayon-rs/rayon
    • ashleve/lightning-hydra-template
    • lanpa/tensorboardX
    • rougier/numpy-100
    • google-deepmind/sonnet
    • davisking/dlib
    • Kanaries/pygwalker
    • probml/pyprobml
    • merrymercy/awesome-tensor-compilers
    • HigherOrderCO/HVM
    • poloclub/cnn-explainer
    • zenml-io/zenml
    • modelscope/modelscope - Hub 和 Dataset-Hub 的交互。这种交互有助于在后台无缝执行各种实体(模型和数据集)的管理,包括实体查找、版本控制、缓存管理等。
    • deepchecks/deepchecks
    • feast-dev/feast
    • kedro-org/kedro - Viz 自动解析纯 Python 函数和数据管道可视化之间的依赖关系。部署策略,包括单机或分布式计算机部署,以及对在 Argo、Prefect、Kubeflow、AWS Batch 和 Databricks 上部署的额外支持。
    • OpenRefine/OpenRefine
    • kubeflow/pipelines
    • lmcinnes/umap - SNE 的可视化,但也可用于一般的非线性降维。该算法建立在关于数据的三个假设之上:数据均匀分布在黎曼流形上;黎曼度量是局部常数(或可以近似);流形是本地连接的。根据这些假设,可以对具有模糊拓扑结构的流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。
    • microsoft/CNTK
    • guipsamora/pandas_exercises
    • SeldonIO/seldon-core
    • tensorflow/serving
    • vosen/ZLUDA
    • whylabs/whylogs
    • saulpw/visidata
    • instill-ai/instill-core - core 存储库进行自托管。
    • great-expectations/great_expectations
    • BrainJS/brain.js
    • pytorch/FBGEMM - Matrix Multiplication)是一个专为深度学习优化的矩阵运算库,专注于提升稀疏矩阵与密集矩阵的乘法运算效率,尤其适用于推荐系统、自然语言处理等场景。该项目通过高度优化的底层代码实现,支持CPU和GPU平台,利用向量化、分块(tiling)等技术加速计算,同时针对稀疏数据设计了专用内核,显著降低内存占用和计算开销。FBGEMM兼容PyTorch框架,提供量化感知训练(QAT)和8位整型/半精度浮点(FP16)等特性,帮助开发者在保持模型精度的同时提升推理速度。其核心优势包括对现代CPU指令集(如AVX2)和CUDA加速的深度集成,支持动态稀疏矩阵压缩格式(如COO、CSR),并通过自适应调度机制自动选择最优计算路径。项目还包含高效的矩阵转置和嵌入式操作(如Embedding Lookup),适用于大规模参数模型的训练与部署。开发者可通过预编译包或从源码构建安装,文档涵盖安装指南、性能调优建议及与PyTorch的集成示例。FBGEMM的开源特性使其成为研究和工业界优化深度学习模型性能的重要工具,尤其适合需要处理高维稀疏数据的场景。
    • LAMDA-CL/PyCIL - Incremental Learning, CIL)的Python工具箱,旨在为研究人员和开发者提供一套高效的工具,用于解决在不遗忘已学习类别的情况下逐步学习新类别的挑战。项目的核心目标是通过模块化设计支持多种CIL算法的实现与评估,同时提供灵活的数据加载和性能分析功能。其关键特性包括对增量类别的支持、任务增量性(task incrementality)的实现,以及兼容多种主流深度学习框架(如PyTorch)。项目通过分离基础类别(base class)与增量类别(incremental class)的数据集,允许用户自定义训练流程,并支持包括模型重放(Replay)、动态网络扩展(Dynamic Network Expansion)和知识蒸馏(Knowledge Distillation)等主流CIL方法的实现。PyCIL的工作原理基于数据加载器的分层设计,用户可先加载基础类别数据进行初始训练,随后逐步引入增量类别数据,并通过指定的算法更新模型参数。项目内置了常用的评估指标(如Top-1准确率、遗忘率)和可视化工具,便于分析模型在增量学习过程中的性能变化。此外,PyCIL支持多种数据集(如CIFAR-100、ImageNet-100)的预处理与适配,用户可通过配置文件灵活调整训练参数。项目还提供详细的文档和示例代码,帮助用户快速上手。由于CIL任务中模型容易出现灾难性遗忘(Catastrophic Forgetting)问题,PyCIL通过算法插件化设计,允许研究者针对不同场景(如类别数量、数据分布)测试解决方案。其开源特性与模块化架构使其成为CIL领域研究和应用的重要工具,适用于持续学习(Continual Learning)、增量分类(Incremental Classification)等场景。
    • NeoVertex1/ComplexTensor
    • Rdatatable/data.table
    • fastai/course22
    • tcgoetz/GarminDB
    • Cloud-CV/EvalAI - CV 维护,致力于提供一个可靠和可扩展的AI评估平台。
    • DefTruth/lite.ai.toolkit
    • elyra-ai/elyra
    • chrisstroemel/Simple
    • tensorflow/neural-structured-learning
    • jmschrei/pomegranate
    • arrayfire/arrayfire
    • scikit-learn-contrib/DESlib - learn,使用相同的函数签名:fit、predict、predict_proba和score。所有动态选择技术都是根据[1]中的定义实现的。动态选择(DS)指的是在测试时根据每个新样本动态选择基础分类器的方法。只有最称职的分类器或最称职的分类器集合被选中来预测特定测试样本的标签。这些技术的原理是,池中的每个分类器都不是所有未知样本的专家,而是每个基础分类器都是特征空间不同局部区域的专家。DS是多分类器系统(MCS)中最有希望的方法之一,因为越来越多的实证研究表明,与静态组合方法相比,它具有更好的性能。这些技术在处理小尺寸和不平衡数据集时,尤其能获得更好的分类性能。
    • skypilot-org/skypilot - 6 倍的成本,并具有抢占自动恢复功能;优化器:通过自动选择最便宜和最可用的基础设施,节省2倍的成本。SkyPilot 支持您现有的 GPU、TPU 和 CPU 工作负载,无需更改代码。
    • flashlight/flashlight
    • feathr-ai/feathr
    • PAIR-code/lit
    • facebookresearch/CrypTen
    • jeshraghian/snntorch
    • explainX/explainx
    • dssg/aequitas
    • tensorflow/compression - compression-ops`,其中只包含 C++ 操作,并将在未来更新以支持更新的 TensorFlow 版本。
    • huggingface/evaluate
    • pymc-devs/pymc - Turn Sampler,允许对具有数千个参数的复杂模型进行建模。PyMC 还支持变分推断,包括 ADVI 和 mini-batch ADVI,用于快速近似后验估计。它依赖于 PyTensor,提供计算优化、动态 C 或 JAX 编译、NumPy广播和高级索引以及线性代数运算符。PyMC 还透明地支持缺失值插补。例如,可以使用 PyMC 建立线性回归模型,以预测植物生长与阳光照射时间、浇水量和土壤氮含量之间的关系。
    • google-research/rliable
    • Trusted-AI/AIF360
    • oegedijk/explainerdashboard - learn、xgboost、catboost、lightgbm和skorch(用于表格PyTorch模型的sklearn包装器)等库。
    • tensorflow/fairness-indicators
    • tensorflow/transform
    • yosinski/deep-visualization-toolbox
    • jupyter/docker-stacks - notebook`和 `jupyter/datascience-notebook`,用户可以通过简单的 Docker 命令启动这些镜像,并通过浏览器访问 JupyterLab。此外,用户还可以使用 `-v` 选项将本地目录挂载到容器中,方便进行数据访问和项目开发。该项目文档详细介绍了各种镜像、使用方法和功能,用户可以参考文档进行更深入的了解。
    • featureform/featureform
    • NannyML/nannyml
    • PaddlePaddle/VisualDL
    • google/flax
    • microsoft/responsible-ai-toolbox - AI-Toolbox 仓库包含四个可视化小部件,用于模型评估和决策:Responsible AI 仪表板、错误分析仪表板、可解释性仪表板和公平性仪表板;Responsible-AI-Toolbox-Mitigations 仓库包含用于缓解 AI 系统中偏差和公平问题的工具;Responsible-AI-Widgets 仓库包含用于构建 Responsible AI工具箱的 UI 组件。
    • jupyter-widgets/ipyleaflet - leaflet 的 npm 包,它是一个前端组件,以及一个名为 ipyleaflet 的 Python 包,它是 Python Jupyter 内核的后端。类似地,xleaflet 项目为 C++ Jupyter 内核 "xeus-cling" 提供了 jupyter-leaflet 的后端。
    • microsoft/FLAML - X应用程序,基于多代理对话,并最大限度地提高GPT-X模型的性能。FLAML由微软研究院和宾夕法尼亚州立大学、史蒂文斯理工学院、华盛顿大学和滑铁卢大学等合作者的一系列研究成果提供支持。它还拥有.NET实现,名为ML.NET,这是一个开源的跨平台机器学习框架。
    • weld-project/weld
    • m3dev/gokart
    • iterative/cml
    • tensorpack/tensorpack
    • KevinMusgrave/pytorch-metric-learning - positive 和 anchor-negative 对,而挖掘器则可以帮助找到更难的正负样本对,从而提高模型的学习效果。
    • learnables/learn2learn
    • sdv-dev/SDV
    • gugarosa/opytimizer - Learn 和 Tensorflow。Opytimizer 的结构包含核心组件、函数、数学工具、优化器、空间和实用工具,并以最小化问题为核心。
    • google/caliban
    • pyqtgraph/pyqtgraph
    • NVIDIA/DALI
    • tidyverse/ggplot2
    • modAL-python/modAL - learn,允许你快速创建主动学习工作流程,并提供几乎完全的自由度。此外,你可以轻松地用自定义解决方案替换部分组件,方便你轻松设计新算法。主动学习通过智能地查询你对信息量最大的实例进行标注,来提高分类性能。modAL 提供了一组工具来处理这类问题,它允许你将 scikit-learn 或 Keras 模型无缝集成到你的算法中,并轻松定制你的自定义查询策略和不确定性度量。
    • DmitryUlyanov/Multicore-TSNE - TSNE 是一个基于 Barnes-Hut t-SNE 的多核并行实现,使用 Python 和 Torch 进行了封装。它比 sklearn.TSNE在单核上运行速度更快,并且在多核环境下能够显著提升效率。该项目利用并行计算加速了最近邻搜索步骤,从而提升了数据预处理的效率,但在梯度下降优化步骤的并行化方面还有提升空间。该项目适用于大规模数据集和高维数据,尤其是在数据维度较高时,并行计算带来的加速效果更加明显。用户可以通过 pip 安装该项目,并使用 Python 代码调用其 API 进行 t-SNE 降维操作。
    • tensorflow/data-validation
    • Microsoft/MMdnn
    • GPflow/GPflow
    • manujosephv/pytorch_tabular
    • XiaoMi/mace - models) 中找到。用户可以通过 [文档](https://mace.readthedocs.io) 学习如何使用 MACE,并可通过 GitHub 问题、Slack 和 QQ 群与开发团队交流。
    • chartdb/chartdb
    • fastai/fastai
    • snorkel-team/snorkel
    • DistrictDataLabs/yellowbrick - learnAPI 提供可视化诊断工具(称为“可视化器”),帮助用户直观地了解模型选择过程。Yellowbrick 将 scikit-learn 与 matplotlib 相结合,生成可视化结果,帮助用户更好地理解机器学习工作流程。Yellowbrick 支持 Python 3.4 及更高版本,依赖 scikit-learn 和 matplotlib,可以通过 pip 或 conda 安装。用户可以使用 Yellowbrick的可视化器来分析特征、评估模型性能等。
    • catalyst-team/catalyst
    • neoml-lib/neoml - C接口,可在Windows、Linux、macOS、iOS和Android等平台上运行。
    • mpld3/mpld3
    • Kanaries/Rath
    • shogun-toolbox/shogun - clause许可证,包含可选的GPL3组件。用户可以通过官网获取安装指南、接口调用说明、API示例和开发者信息。
    • xflr6/graphviz
    • OAID/Tengine
    • SMPyBandits/SMPyBandits - UCB++。SMPyBandits提供完整的Sphinx生成的文档,并提供基于Airspeed Velocity的广泛基准测试结果。该库已发布到PyPI,并可通过pip安装。
    • aloctavodia/Statistical-Rethinking-with-Python-and-PyMC3 - devs/resources/tree/master/Rethinking](https://github.com/pymc-devs/resources/tree/master/Rethinking) 获取更新、提交问题或发送拉取请求。
    • riga/tfdeploy
    • mlrun/mlrun
    • argmaxinc/WhisperKit
    • SebKrantz/collapse
    • tensorflow/datasets
    • unslothai/hyperlearn - 2000倍,并减少50%的内存使用,同时兼容所有硬件。该项目由NVIDIA前员工Daniel Hanchen开发,其算法和方法已被应用于多个组织和项目,包括Facebook的Pytorch、Scipy、Cupy、NVIDIA和UNSW。Hyperlearn的特色在于其高效的算法,例如TSNE算法,它能够将运行时间从数小时缩短至数秒。该项目目前正在开发中,预计将于2022年发布稳定版本。
    • SALib/SALib
    • amueller/dabl - sklearn 的模型组合,快速搜索不同梯度提升模型、树集成和核方法。dabl 提供方便的预处理和模型搜索功能,并通过可视化快速概述数据。它与 Lux 和 Pandas Profiling 等其他数据分析库互补,提供了不同的功能。
    • explosion/thinc
    • tensorflow/model-optimization
    • patrick-kidger/equinox
    • geomstats/geomstats
    • graphistry/pygraphistry
    • scikit-learn-contrib/category_encoders - learn兼容的库,提供多种方法将分类变量编码为数值型,方便机器学习模型使用。它包含无监督和监督两种类型的编码方法,无监督方法包括One-Hot、Ordinal等,监督方法包括Target Encoding、LeaveOneOut等。该库支持numpy数组和pandas数据框作为输入,并提供可配置的选项。用户可以通过pip或conda安装该库,并使用其提供的编码器进行数据预处理。
    • inducer/pycuda
    • dougbrion/pytorch-classification-uncertainty
    • snakemake/snakemake
    • chainer/chainer - by-run**方法(也称为动态计算图)提供自动微分API,以及面向对象的、高级的API来构建和训练神经网络。它还使用[CuPy](https://github.com/cupy/cupy)支持CUDA/cuDNN,以实现高性能训练和推理。有关Chainer的更多详细信息,请参阅上面列出的文档和资源,并加入论坛、Slack和Twitter上的社区。
    • huggingface/autotrain-advanced
    • pydata/patsy - cov和scipy。用户可以使用pip install patsy命令安装该库。
    • NexaAI/nexa-sdk
    • amaiya/ktrain
    • spfrommer/torchexplorer
    • nalepae/pandarallel
    • lyhue1991/torchkeras
    • Kaggle/kaggle-api
    • biolab/orange3 - canvas`或`python3 -m Orange.canvas`即可启动Orange。
    • google/ml-metadata
    • arviz-devs/arviz
    • jason718/awesome-self-supervised-learning
    • soulmachine/machine-learning-cheat-sheet
    • albermax/innvestigate
    • tensorflow/hub
    • prismformore/Multi-Task-Transformer - 通道多任务提示机制,在ICLR 2023上发表。InvPT模型采用倒金字塔结构,在ECCV 2022上发表。这两个模型都取得了较好的性能,并在Cityscapes数据集上取得了SOTA结果。该项目提供代码和模型,并包含详细的介绍和引用信息。
    • labmlai/labml
    • MarquezProject/marquez
    • bambinos/bambi
    • t-makaro/animatplot
    • premAI-io/state-of-open-source-ai - BY-4.0(文本)和 Apache-2.0(代码)许可证发布。
    • holoviz/hvplot
    • tensorflow/privacy - privacy`安装该库,并通过GitHub提交代码贡献。
    • apache/predictionio
    • shankarpandala/lazypredict
    • rasbt/mlxtend
    • SeldonIO/alibi
    • has2k1/plotnine
    • holoviz/holoviews
    • Xtra-Computing/thundersvm
    • philipperemy/keract - 2.15 版本。它可以轻松获取模型中各层的激活值(输出)和梯度,并提供多种展示方式,例如以 NumPy 数组形式输出、以热图形式展示以及保存为 JSON 文件。Keract 还支持嵌套模型,但目前支持有限。
    • sudharsan13296/Awesome-Meta-Learning
    • carefree0910/carefree-learn - learn是一个基于 PyTorch 的深度学习框架,旨在简化深度学习操作。它以模块为核心,提供简洁易用的模块化设计,并尽可能保持原生 PyTorch 风格,支持依赖注入和 torch.compile 优化。框架优先考虑模块化设计,并计划在未来根据现代 AI 发展添加训练功能,同时保证 API 的向后兼容性。
    • scikit-tda/scikit-tda - TDA 是一个为非拓扑学家提供的 Python 拓扑数据分析库,旨在提供易于使用且广泛适用的 TDA 工具。它包含多个独立的包,可单独使用或作为 `scikit-tda` 捆绑包的一部分使用。安装所有库只需运行 `pip install scikit-tda`。如果您想贡献代码、笔记本、示例或文档,请随时提交 Pull Request。
    • SeldonIO/alibi-detect
    • microsoft/onnxruntime
    • pytorch/ignite
    • gyli/PyWaffle
    • gigwegbe/tinyml-papers-and-projects
    • nubank/fklearn - learn的理念,并遵循以下原则:真实场景的验证、生产模型与验证模型一致、模型易于部署、结果易于复现和分析。fklearn可以通过pip安装,并提供详细的文档和贡献指南。
    • raminmh/liquid_time_constant_networks
    • thuml/Transfer-Learning-Library
    • asheeshcric/awesome-contrastive-self-supervised-learning
    • KaiyuYue/torchshard
    • SimonBlanke/Hyperactive
    • tensorchord/envd
    • SimonBlanke/Gradient-Free-Optimizers
    • google/model_search
    • Jittor/jittor
    • tensorlayer/TensorLayerX - GPU 和 Huawei-Ascend),并支持混合框架的开发。
    • neuralmagic/sparseml
    • virgili0/Virgilio
    • numpy/numpy
    • scutan90/DeepLearning-500-questions
    • mlech26l/keras-ncp
    • zml/zml
    • scipy/scipy
    • google-research/tuning_playbook
    • OpenMined/PySyft
    • dropreg/R-Drop - batch 中,每个数据样本过两次带有 Dropout 的同一个模型,R-Drop 再使用 KL-divergence 约束两次的输出一致。
    • sfu-db/dataprep
    • ucbrise/actnn - 14 倍,将模型尺寸或者输入图片扩大 6-10 倍。
    • NLP-LOVE/ML-NLP
    • rasbt/deeplearning-models
    • scikit-learn-contrib/hdbscan
    • Tencent/WeChat-TFCC
    • VowpalWabbit/vowpal_wabbit
    • eriklindernoren/ML-From-Scratch
    • BayesWitnesses/m2cgen
    • christianversloot/machine-learning-articles
    • microsoft/hummingbird
    • arogozhnikov/Einops
    • Mohitkr95/Best-Data-Science-Resources
    • Tencent/TNN
    • janishar/mit-deep-learning-book-pdf
    • guofei9987/scikit-opt
    • amusi/Deep-Learning-Interview-Book
    • cbamls/AI_Tutorial
    • csuldw/MachineLearning
    • bfortuner/ml-glossary
    • rushter/MLAlgorithms
    • andkret/Cookbook
    • scikit-survival
    • microsoft/nnfusion
    • jxhe/unify-parameter-efficient-tuning
    • ContrastiveSR/Contrastive_Learning_Papers
    • serge-sans-paille/pythran - Of-Time - 预先编译) 编译器,大幅度提升性能。
    • AtsushiSakai/PythonRobotics
    • visenger/awesome-mlops
    • apachecn/AiLearning - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP
    • PaddlePaddle/Paddle
    • yuanming-hu/taichi_mpm - MPM(基于移动最小二乘法的物质点法)求解器
    • BoltzmannEntropy/interviews.ai
    • vaexio/vaex
    • bojone/keras_recompute
    • roboticcam/machine-learning-notes
    • BinRoot/TensorFlow-Book
    • skorch-dev/skorch - learn和PyTorch的机器学习库,可以实现sklearn和PyTorch高效兼容。
    • MingchaoZhu/DeepLearning
    • marcotcr/lime - agnostic Explanations被用作解释机器学习模型。
    • Visualize-ML/Book4_Power-of-Matrix
    • academic/awesome-datascience
    • evidentlyai/evidently
    • jonasrauber/eagerpy
    • openmlsys/openmlsys-zh - 中文版
    • statsmodels/statsmodels
    • Visualize-ML/Book3_Elements-of-Mathematics
    • nvidia/TensorRT
    • Aimhubio/Aim
    • borgwang/tinynn
    • microsoft/EdgeML
    • esa/pagmo2
    • pytorch/opacus
    • mit-han-lab/mcunet
    • XuezheMax/apollo
    • karpathy/micrograd
    • apple/coremltools
    • teddykoker/torchsort
    • pyro-ppl/pyro
    • Oneflow-Inc/oneflow
    • luwill/Machine_Learning_Code_Implementation
    • sql-machine-learning/sqlflow
    • idrl-lab/idrlnet
    • softsys4ai/FlexiBO
    • jindongwang/MachineLearning
    • ml-tooling/best-of-ml-python
    • ZuzooVn/machine-learning-for-software-engineers
    • terryum/awesome-deep-learning-papers
    • doccano/doccano
    • alexmojaki/heartrate
    • DataCanvasIO/DeepTables
    • matazure/mtensor
    • thuwyh/InferLight
    • dotnet/machinelearning
    • neuronika/neuronika
    • alibaba/MNN
    • NUAA-AL/ALiPy
    • ShichenXie/scorecardpy
    • MAIF/shapash
    • google/trax
    • geekinglcq/CDCS
    • cupy/cupy
    • mlpack/mlpack
    • geatpy-dev/geatpy
    • man-group/dtale
    • dustinvtran/ml-videos
    • lawlite19/MachineLearning_Python
    • MLEveryday/100-Days-Of-ML-Code - Days-Of-ML-Code中文版
    • tensorflow/ranking
    • lavender28/Credit-Card-Score
    • replicate/cog
    • Thinklab-SJTU/awesome-ml4co
    • polyaxon/polyaxon
    • determined-ai/determined
    • openxla/xla
    • HIPS/autograd
    • facebookexperimental/Robyn
    • mirage-project/mirage
    • heheda12345/MagPy
    • apache/mahout
    • dlt-hub/dlt
    • stan-dev/stan - BFGS优化的惩罚最大似然估计(MLE),并基于提供自动微分和矩阵运算的Stan Math库构建,拥有R、Python、MATLAB等多种语言接口。
    • sjwhitworth/golearn - learn的Fit/Predict接口,支持多种评估方法和数据处理工具,方便用户进行模型选择和性能评估。该项目正在积极开发中,欢迎用户反馈和参与。
    • dreamquark-ai/tabnet
    • MLNLP-World/MIT-Linear-Algebra-Notes
    • pytorch/helion
    • IDSIA/sacred
    • MegEngine/MegEngine
    • spring-projects/spring-ai
    • yinsn/ParaDance
    • conda/conda
    • tensorflow/tensorboard
    • PaddlePaddle/PaddleX - in-One低代码开发工具,旨在简化深度学习模型开发流程。它提供了图形化界面和命令行工具,支持图像分类、目标检测、图像分割等多种视觉任务。PaddleX集成了数据标注、模型训练、模型评估和模型部署等功能,降低了深度学习的应用门槛。用户可以通过PaddleX快速构建和部署定制化的AI应用,无需编写大量代码。PaddleX支持多种硬件平台,包括CPU、GPU和移动端设备。其核心优势在于易用性、高效性和灵活性,使得开发者可以专注于业务逻辑而非底层技术细节。PaddleX还提供了丰富的预训练模型和示例代码,方便用户快速上手。通过PaddleX,开发者可以轻松实现AI赋能,加速产业智能化升级。PaddleX的目标是让AI开发变得更简单、更高效、更普及。
    • cvxpy/cvxpy
    • DataTalksClub/machine-learning-zoomcamp
    • PINTO0309/PINTO_model_zoo
    • apachecn/pytorch-doc-zh
    • annoviko/pyclustering
    • rusty1s/pytorch_scatter
    • cornellius-gp/gpytorch - GP、随机 Lanczos 展开、LOVE、SKIP、随机变分、深度内核学习等)以及与深度学习框架的轻松集成。
    • BloodAxe/pytorch-toolbelt - toolbelt 是一个 Python 库,为 PyTorch 提供了一系列工具,用于快速进行 R&D 原型设计和 Kaggle 比赛。它包含易于使用的编码器-解码器架构、各种模块(如 CoordConv、SCSE、Hypercolumn、深度可分离卷积等)、GPU 友好的测试时间增强(TTA)用于分割和分类、GPU 友好的大图像(5000x5000)推理、日常常用例程(修复/恢复随机种子、文件系统工具、指标)、损失函数(如 BinaryFocalLoss、Focal、ReducedFocal、Lovasz、Jaccard 和 Dice 损失、Wing Loss 等)以及 Catalyst 库的扩展(批预测可视化、额外指标)。该库旨在补充 Catalyst、Ignite 和 fast.ai 等高级框架,而不是取代它们。
    • pykale/pykale
    • workflowr/workflowr
    • nextflow-io/nextflow - core的YouTube频道上查看大部分内容。nf-core项目是一个社区努力,汇集了高质量的Nextflow工作流程,供所有人使用。
    • thomasp85/patchwork
    • pditommaso/awesome-pipeline
    • dfm/emcee - Mackey 等人(2012) 的论文。emcee 是根据 MIT 许可证发布的免费软件。
    • ropensci/drake
    • online-ml/river - multiflow合并而成的。它允许您在数据流上进行预测和模型更新,并提供各种机器学习模型、预处理方法和评估指标,例如,您可以使用 River 训练一个逻辑回归模型来对网站钓鱼数据集进行分类,并实时评估模型的准确率。
    • pymc-devs/sunode
    • rusty1s/pytorch_sparse - 稠密矩阵乘法和稀疏-稀疏矩阵乘法,支持多种数据类型,并在 CPU 和 GPU 上实现。该库简化了稀疏张量的操作,用户只需传入索引和值张量即可,并支持对值张量的自动微分。
    • scikit-learn-contrib/metric-learn - learn是一个 Python 库,提供多种监督和弱监督度量学习算法的实现,其 API 与 scikit-learn 兼容,可与 scikit-learn 的各种工具(如管道、模型选择等)无缝衔接。该库包含 LMNN、ITML、SDML、LSML、SCML、NCA、LFDA、RCA、MLKR 和 MMC 等算法,可用于学习数据之间的距离度量,从而提高机器学习模型的性能。
    • datalad/datalad - annex 的数据管理和分发工具,它可以帮助用户轻松地管理代码、数据和容器。DataLad 通过将数据存储在 Git 仓库中,并使用 git-annex 来管理大型文件,从而实现数据版本控制、协作和分发。DataLad 还支持多种数据格式,并提供了一系列工具来简化数据分析和处理。
    • MaxHalford/prince - learn API。该库支持多种方法,包括 PCA、CA、MCA、MFA、FAMD和 GPA,并提供交互式图表功能,帮助用户更好地理解数据。
    • wireservice/agate
    • tensorly/tensorly
    • sepandhaghighi/pycm
    • edwindj/daff
    • ropensci/targets
    • HarisIqbal88/PlotNeuralNet - 8、FCN-32和Holistically-Nested Edge Detection等网络示例。支持Ubuntu和Windows系统安装。已实现Python接口,待添加简易图例功能、更多层形状及RNN示例。使用方法详见examples目录或Python示例代码。
    • reservoirpy/reservoirpy
    • YihongDong/FAN
    • 8080labs/pyforest - -upgrade pyforest`及`python -m pyforest install_extensions`,并重启Jupyter服务器。
    • JuliaLang/IJulia.jl
    • ml-tooling/ml-workspace
    • facebookresearch/hydra
    • IRkernel/IRkernel
    • pydata/xarray
    • mckinsey/vizro
    • maziarraissi/PINNs
    • ml-explore/mlx-examples
    • soumith/ganhacks - 1到1),使用修改后的损失函数(最大化log D),从高斯分布采样隐向量,使用批归一化或实例归一化,避免稀疏梯度(使用LeakyReLU),使用软标签和噪声标签,采用DCGAN或混合模型,借鉴强化学习的稳定性技巧,使用Adam优化器,及早追踪失败情况,不通过统计平衡损失等。
    • ml-explore/mlx-swift
    • Lightning-AI/LitServe
    • tensorflow/playground - watch`实现快速编辑刷新。
    • jupyterlab/jupyterlab-desktop
    • huggingface/transformers.js-examples - 3.5、Llama-3.2、SmolLM等对话模型,以及图像分割、背景移除等应用,还提供了Node.js、Bun、Deno等环境下的文本嵌入和情感分析示例,同时支持Next.js和SvelteKit框架。
    • rougier/matplotlib-cheatsheet - visualization-book,附有多个示意图。
    • RedditSota/state-of-the-art-result-for-machine-learning-problems
    • torch/torch7
    • aidlearning/AidLearning-FrameWork
    • rougier/matplotlib-tutorial - ShareAlike 4.0许可。
    • garrettj403/SciencePlots
    • wang-xinyu/tensorrtx
    • floodsung/Deep-Reasoning-Papers - Reasoning-Papers 收集了深度学习与推理相关的最新论文,涵盖神经符号推理、逻辑推理、视觉推理、规划等多个主题。项目旨在追踪深度学习与推理结合的最新研究进展。它可能包含论文列表、代码链接或其他相关资源,方便研究人员了解和学习该领域。该项目关注如何将深度学习的强大表示能力与推理的逻辑严谨性相结合,解决复杂问题。具体来说,可能涉及使用神经网络进行符号推理、利用逻辑规则指导深度学习模型、构建可以进行视觉场景理解和推理的模型,以及使用深度学习进行规划任务。项目内容对从事人工智能、深度学习和推理研究的学者和工程师具有参考价值。
    • PriorLabs/TabPFN
    • dimforge/nalgebra
    • vahidk/EffectiveTensorflow
    • drivendataorg/cookiecutter-data-science
    • SciSharp/TensorFlow.NET
    • GMvandeVen/continual-learning - learning项目是一个基于PyTorch的持续学习方法实现库,涵盖了多种经典算法,例如XdG、EWC、SI、LwF、FROMP、DGR、BI-R、ER、A-GEM、iCaRL以及生成式分类器。该项目主要针对三种不同的持续学习场景进行研究和实验。其核心目标是让模型能够逐步学习新的任务,同时尽可能地保留之前学习到的知识,避免灾难性遗忘。项目通过实现和比较各种持续学习算法,旨在为研究人员提供一个方便的平台,以探索和改进持续学习技术。该项目提供的代码和实验结果可以帮助理解不同算法的工作原理和性能表现,从而推动持续学习领域的发展。
    • facebookarchive/caffe2
    • huggingface/safetensors
    • shouxieai/tensorRT_Pro
    • huawei-noah/Efficient-Computing - Computing项目,专注于开发高效计算方法。该项目可能包含多种优化计算性能的技术和工具。具体实现细节和适用场景需要查阅项目文档。项目目标是提升计算效率,可能涉及算法优化、硬件加速或其他创新技术。该项目可能包含代码示例、基准测试和相关研究论文。如需了解更多信息,请查阅项目中的README.md和其他文档。项目特色可能包括高性能、低功耗或特定领域的优化。项目工作原理可能涉及并行计算、分布式计算或异构计算。该项目可能面向开发者、研究人员和对高效计算感兴趣的从业者。请注意,具体功能和性能取决于项目的最新版本和配置。
    • daviddao/awful-ai
    • xlite-dev/LeetCUDA - 2 MMA,内容丰富,适合学习现代CUDA开发
    • ermig1979/Simd - 512、AMX指令集,以及ARM架构的NEON指令集,通过自动检测硬件特性实现跨平台兼容。其工作原理基于SIMD并行计算特性,将图像数据分块处理,通过同时操作多个数据单元提升运算效率,例如在图像滤波、卷积等操作中可显著降低处理时间。库采用模块化设计,用户可根据需求选择特定功能模块,同时提供丰富的示例代码和测试用例。项目特别强调性能优化,通过内存对齐、指令集自动选择和算法级并行化设计,实现比传统方法快数倍的处理速度。此外,支持多种图像格式处理和机器学习基础算法,适用于实时图像处理、计算机视觉等场景。开发团队持续更新适配新硬件指令集,确保长期可用性,适合需要高性能计算的开发者和研究人员使用。
    • codelion/openevolve
    • cactus-compute/cactus
    • MilesCranmer/PySR
    • SwanHubX/SwanLab
    • tile-ai/tilelang
    • NVIDIA/cccl
    • koaning/drawdata
    • bayesflow-org/bayesflow
    • gradio-app/trackio
    • livebook-dev/livebook
    • evidence-dev/evidence
    • median-research-group/LibMTL
    • mil-tokyo/webdnn
    • yoshitomo-matsubara/torchdistill
    • DiffEqML/torchdyn
    • kzbkzb/Python-AI - AI项目,作者kzbkzb,主要聚焦深度学习应用,包含100个深度学习实例。涵盖图像分类、目标识别、目标检测以及自然语言处理(NLP)等多种任务。在NLP方面,涉及文本分类等应用。项目使用TensorFlow和PyTorch两大深度学习框架。提供丰富的深度学习实践案例,方便学习和应用。适合对深度学习感兴趣,并希望通过实例学习的开发者。项目代码结构清晰,易于理解和修改。是学习深度学习和人工智能的优秀资源。
    • microsoft/vscode-ai-toolkit - learn。其核心特色在于提供交互式数据可视化工具,帮助用户理解和处理数据,并提供自动化的模型训练和调优功能,减少手动操作。此外,它还集成了 Azure AI 服务,方便用户部署和管理 AI 模型。 通过使用 AI Toolkit,开发者可以更高效地构建、测试和部署 AI 应用,加速 AI 开发周期。它还提供了一系列代码片段和模板,帮助开发者快速上手,降低 AI 开发的门槛。该工具包的目标是让 AI 开发变得更加容易上手和普及。
    • HumanSignal/Adala
    • mosecorg/mosec
    • Technion-Kishony-lab/data-to-paper - to-paper是一个由Technion-Kishony实验室开发的AI驱动的科研项目,旨在实现科研过程的向后可追溯性。该项目通过自动化实验设计、数据分析和论文撰写,显著减少人为偏见,提高科研效率和可重复性。其核心理念是利用AI模型将数据直接转化为可发表的论文,并保留完整的实验和分析流程记录。项目特色包括自动化实验设计、客观数据分析、论文自动生成以及完整的溯源性。它使用户能够从最终论文反向追踪到原始数据和所有中间步骤,确保研究结果的透明度和可信度。该项目可能涉及机器学习、自然语言处理和数据挖掘等技术,旨在革新传统科研模式,加速科学发现的进程。
    • Azure/MS-AMP - AMP项目是微软的自动混合精度库,旨在简化深度学习模型训练中混合精度(FP16/BF16)的使用,从而加速训练并减少内存占用。它通过自动插入精度转换操作,使得开发者无需手动修改模型代码即可利用混合精度带来的优势。该库支持PyTorch和ONNX Runtime,并提供了易于使用的API,例如`amp.initialize()`来自动管理精度转换。MS-AMP主要通过分析模型的计算图,确定哪些操作适合使用较低的精度,并自动插入必要的类型转换,从而保证数值稳定性和训练精度。它支持多种混合精度策略,并允许用户自定义精度策略。该项目目标是让混合精度训练更加普及,降低使用门槛,提高深度学习模型的训练效率。它还包含性能分析工具,帮助用户优化混合精度配置。总之,MS-AMP是一个方便易用的工具,能够帮助开发者轻松地在PyTorch和ONNX Runtime中实现混合精度训练,加速模型训练过程。
    • AndrewZhou924/Awesome-model-inversion-attack - model-inversion-attack项目是一个关于模型反演攻击的资源集合,主要关注如何从机器学习模型中恢复敏感的训练数据。该项目可能包含各种模型反演攻击技术的实现和相关论文,旨在帮助研究人员和安全从业者了解和评估模型在面对反演攻击时的脆弱性。它可能涵盖不同类型的攻击方法,例如基于梯度、基于优化或基于生成的攻击,并可能探讨针对这些攻击的防御措施。该项目可能还包括用于评估攻击效果的指标和工具,以及相关的代码示例和教程。通过研究这些资源,用户可以更好地理解模型反演攻击的工作原理,并开发更强大的防御机制来保护机器学习模型的隐私。该项目可能与arXiv:2411.10023的论文“模型反演攻击:方法和对策综述”相关联,为理解该领域的最新进展提供参考。
    • liyedanpdx/reddit-ai-trends - ai-trends 旨在帮助用户掌握最新的AI趋势。它通过自动扫描 Reddit 上英文和中文的 AI 相关社区,抓取帖子并进行分析。项目使用 Groq 提供的 DeepSeek R1 模型来总结关键讨论内容并追踪趋势。每天早上 CDT 6 点更新,提供热门话题的每日排名,帮助用户在趋势爆发前发现它们。简单来说,这是一个利用 AI 分析 Reddit 数据,自动追踪 AI 领域热门话题和趋势的工具。
    • xzhang2523/libmoon
    • Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning - Lin/Awesome-Multi-Objective-Deep-Learning是一个关于深度学习中基于梯度的多目标优化算法的综合列表。它旨在整理和收集各种用于深度学习模型的多目标优化方法。项目专注于梯度方法,这意味着它主要关注利用梯度信息来同时优化多个目标函数的技术。该资源库可能包含论文链接、代码实现以及对不同算法的简要描述,方便研究人员和开发者快速了解和应用多目标深度学习优化技术。它可能涵盖如 Pareto 最优、加权和法、切比雪夫方法等多种策略,并可能涉及在不同深度学习任务中的应用案例。
    • hediet/vscode-debug-visualizer - debug-visualizer 是一个 VS Code 扩展,旨在调试期间可视化数据。它允许开发者以图形化的方式查看变量和数据结构,而不仅仅是文本输出。这个扩展通过在调试会话中生成 HTML 文件并在 VS Code 中显示它们来实现可视化。它支持多种数据类型和自定义可视化,使得理解复杂数据变得更加容易。你可以使用它来观察数组、对象、图像等,从而更有效地定位和解决 bug。该扩展简化了调试过程,提高了开发效率,特别是在处理复杂数据时。
    • cxli233/FriendsDontLetFriends
    • microsoft/SandDance
    • ScottPlot/ScottPlot
    • facontidavide/PlotJuggler
    • jphall663/awesome-machine-learning-interpretability
    • NVlabs/tiny-cuda-nn - CUDA-NN是一个基于C++和CUDA的高性能神经网络框架,专为需要极致计算效率的场景设计。其核心特色在于通过底层CUDA编程实现快速的GPU加速计算,支持全连接网络、卷积网络和Transformer等主流架构,并提供模块化的API便于扩展和定制。项目采用轻量级设计,代码量精简但功能完整,同时兼容PyTorch的接口规范,允许用户直接调用PyTorch模型进行推理和训练。其工作原理基于CUDA的并行计算能力,通过自定义核函数优化计算流程,结合内存管理技术减少数据传输开销,显著提升训练和推理速度。框架内置自动微分功能,支持反向传播和梯度计算,同时提供混合精度训练支持以降低显存占用。用户可利用其高效的CUDA实现进行大规模模型训练,适用于图像处理、自然语言处理等计算密集型任务。项目包含详细的文档和示例代码,支持跨平台编译,并提供预编好的二进制文件简化使用流程。需要注意的是,由于直接操作CUDA,开发者需具备一定的GPU编程基础,同时项目专注于提供底层性能优化而非高层框架功能。通过合理配置和使用,Tiny-CUDA-NN能够实现比传统CPU框架高数十倍的计算效率,是追求极致性能的机器学习项目的理想选择。
    • NVIDIA/CUDALibrarySamples
    • NVlabs/Jet-Nemotron - Nemotron是由NVIDIA开发的一个轻量级高效神经网络项目,专为在移动端和边缘设备上实现实时推理而设计。该项目基于一种创新的混合架构,结合了注意力机制与轻量级卷积神经网络(CNN),在保持高精度的同时显著降低了计算成本,使模型在低延迟和低内存占用场景下仍能稳定运行。Jet-Nemotron通过量化、剪枝等优化技术进一步压缩模型体积,支持多种任务类型,包括目标检测、语义分割等常见视觉任务,并提供了针对不同任务的预训练模型,方便用户快速部署。项目还引入了高效的训练框架,支持模型动态调整和跨设备适配,可灵活应对不同硬件的计算能力限制。其核心架构基于NVIDIA的NeMo框架,整合了大量优化模块,如自适应推理加速器和内存优化器,确保模型在资源受限设备上的高效运行。Jet-Nemotron特别强调对边缘计算场景的适配能力,例如在移动设备、嵌入式系统等场景中,能够以较低的功耗实现接近实时的推理速度。项目文档中还包含详细的训练指南和部署示例,帮助开发者快速验证模型性能,并通过可视化工具分析模型在不同硬件上的表现。通过结合NVIDIA的硬件加速技术,Jet-Nemotron在保持模型精度的同时,实现了比传统轻量模型更高的推理效率,适用于需要快速响应的边缘AI应用,如实时视频分析、智能监控和工业检测等场景。
    • ceres-solver/ceres-solver - Marquardt)和Dogleg等经典优化算法,同时提供自定义优化策略的扩展能力。Ceres Solver采用模块化架构,允许用户通过定义代价函数和变量关系构建优化问题,其内置的自动微分系统可兼容多种编程接口,包括C++和Python。库中集成的线性代数求解器能处理稀疏矩阵的Cholesky分解和QR分解,显著提升计算效率。项目支持跨平台开发(Windows/Linux/macOS),遵循BSD许可证,提供详尽的文档和示例代码,便于开发者快速上手。其典型应用场景包括SLAM(同步定位与地图构建)、三维重建、参数拟合等需要高精度非线性优化的领域。Ceres Solver的开源社区持续维护更新,确保库的稳定性和兼容性,成为工业界和学术界常用的优化工具之一。
    • pytorch/executorch
    • TuringLang/Turing.jl
  • 人像_姿势_3D人脸

    • 资源传输下载

      • weihaox/awesome-digital-human
      • Tencent-Hunyuan/HunyuanVideo-Avatar - Avatar 项目,这是一个基于 AIGC 的视频人像生成工具,旨在降低数字人制作门槛。该项目特色在于仅需一张照片和一段音频,即可生成逼真的说话人像视频。其工作原理是利用先进的 AI 技术,将照片中的人脸与音频内容进行匹配和驱动,从而生成自然的口型和表情。项目包含多个关键模块,如人脸提取、音频处理、人像驱动和视频渲染等。HunyuanVideo-Avatar 提供了详细的安装教程和使用指南,方便用户快速上手。项目还提供了丰富的配置选项,允许用户自定义生成视频的参数。此外,项目还提供了一些示例视频和代码,供用户参考和学习。该项目对学术研究和商业应用都具有重要价值,可以用于数字人直播、虚拟助手、在线教育等场景。
      • MeiGen-AI/MultiTalk - AI/MultiTalk是一个音频驱动的多人对话视频生成项目。它旨在根据输入的音频,生成多个说话人参与对话的视频,让视频中的人物“开口说话”。该项目的核心特色在于能够处理多人的音频输入,并生成相应的面部动画,模拟真实的对话场景。MultiTalk的工作原理是利用先进的AI技术,将音频信号转换为逼真的面部表情和口型,并将其应用到视频中的人物角色上。项目支持自定义人物形象,允许用户上传自己的角色模型。MultiTalk的潜在应用包括虚拟助手、在线教育、娱乐内容创作等领域。该项目提供代码和预训练模型,方便研究人员和开发者进行实验和应用。MultiTalk为音频驱动的视频生成领域带来了新的突破,尤其是在多人对话场景的模拟方面。
      • aigc3d/LHM
      • facebookresearch/pippo - view consistency)来实现逼真的3D人体生成。Pippo的核心在于学习一个条件扩散模型,该模型以单张图像作为输入,生成多视角的3D人体表示。项目特色包括高分辨率的几何细节和纹理,以及在不同视角下保持一致性的能力。Pippo通过迭代地去噪(denoising)过程,逐步完善3D人体模型的细节。该项目提供代码和预训练模型,方便研究人员进行实验和应用。Pippo在人体建模、虚拟现实和增强现实等领域具有潜在应用价值。它解决了从单张图像重建高质量3D人体的挑战,并为相关研究提供了新的思路。该项目对扩散模型在3D人体建模领域的应用进行了探索,并取得了显著成果。
      • ChanChiChoi/awesome-Face_Recognition - Face_Recognition是一个人脸识别相关论文的资源集合,涵盖了人脸识别领域的多个关键方向。它整理了人脸检测、人脸对齐、人脸识别(包括身份验证和身份确认)、人脸表征等方面的论文。此外,该项目还涉及人脸重建、人脸追踪、人脸超分辨率和去模糊、人脸生成和合成、人脸迁移、人脸反欺骗以及人脸检索等前沿课题。该项目旨在为研究人员和开发者提供全面的人脸识别领域文献参考,方便大家快速了解和掌握相关技术。通过该项目,用户可以系统地学习人脸识别的各个分支,并深入了解最新的研究进展。该资源库对于从事人脸识别研究和应用开发的人员来说,是一个非常有价值的参考资料。
      • yisol/IDM-VTON - VTON是一个ECCV 2024发布的虚拟试穿项目,旨在改进扩散模型在真实场景下的虚拟试穿效果。它专注于解决现有方法在保留服装细节和处理复杂人体姿态方面的不足。该项目通过引入身份感知解耦模块(Identity-aware Disentanglement Module)来分离身份信息和服装信息,从而更好地控制生成过程。IDM-VTON还采用了高质量的服装引导机制,确保服装纹理和细节能够准确地转移到目标人物身上。项目代码和预训练模型已开源,方便研究人员复现和进一步研究。IDM-VTON在真实世界的虚拟试穿任务上表现出色,能够生成更逼真、更自然的试穿效果,尤其擅长处理复杂的姿势和保留服装细节。该项目为虚拟试穿领域提供了一种新的解决方案,具有很高的学术价值和潜在的应用前景。
      • premieroctet/photoshot
      • tensorlayer/HyperPose
      • deepcam-cn/yolov5-face
      • jyjblrd/Low-Cost-Mocap - Cost-Mocap是一个低成本的房间尺度运动捕捉系统。它旨在提供一种经济实惠的替代方案,用于全身运动追踪。该项目利用现成的低成本硬件,如摄像头和惯性测量单元(IMU)。其工作原理是将摄像头捕捉的图像与IMU数据融合,以实现精确的姿态估计。该系统支持全身追踪,可用于VR/AR、游戏、动画等领域。项目提供详细的硬件和软件设置指南。该项目的主要特色是其低成本和易于搭建的特性,使得运动捕捉技术更容易被大众所接受。它使用开源软件和可定制的配置,方便用户根据自身需求进行调整。
      • duixcom/Duix.mobile - Mobile 是一个由硅基智能开源的移动端实时对话数字人 SDK。核心概括如下:该项目致力于让开发者能轻松地在手机、平板、车载系统等移动设备上集成和部署实时的虚拟数字人。它支持跨平台(Android/iOS),并能整合开发者自有或第三方的大语言模型(LLM)、语音识别(ASR)及语音合成(TTS)服务。此项目的主要优势在于低延迟(低于1.5秒)、轻量化、支持本地部署,并且适用于虚拟客服、教学、陪伴等多种交互场景,旨在提升产品的表现力和用户体验。
      • Omni-Avatar/OmniAvatar - Avatar/OmniAvatar是一个基于人工智能的3D虚拟人像生成项目,支持通过文本、图像等多模态输入生成高度定制化的数字人像。项目核心采用扩散模型和神经渲染技术,结合大规模人脸及身体姿态数据集训练,实现从文本描述到3D模型的端到端生成流程。用户可通过输入文本指令生成符合描述的虚拟角色,或上传图像进行风格迁移与细节优化,系统支持对角色的发型、服装、肤色等参数进行精细化调整,并提供实时交互式渲染功能。项目特别强调跨模态生成能力,例如通过文本描述生成符合语义的面部特征,或基于图像提取关键特征后生成动态模型。技术实现上整合了姿态估计、纹理生成、光照渲染等模块,支持在移动端与PC端部署,同时开放API接口便于集成至游戏、虚拟社交等应用场景。项目亮点包括高精度的面部表情控制、多风格迁移能力以及轻量化模型部署方案,适用于虚拟偶像、游戏角色设计及元宇宙场景开发等需求,其开源特性允许开发者基于核心框架进行二次开发与功能扩展。
      • MVIG-SJTU/AlphaPose - SJTU开发的实时且精确的全身多人姿态估计与跟踪系统。它基于区域多人姿态估计(Regional Multi-Person Pose Estimation, RMPE)框架,能有效处理拥挤场景中的姿态估计问题。该项目特色在于其高精度和速度,支持全身姿态估计,并提供多人姿态跟踪功能。AlphaPose采用自上而下的方法,首先检测图像中的人体,然后对每个人体进行姿态估计。其核心技术包括对称空间变换网络(Symmetric Spatial Transformer Network, SSTN)和参数化姿态非极大值抑制(Parametric Pose Non-Maximum Suppression, P-NMS)。项目提供了详细的安装和使用指南,以及预训练模型,方便用户快速上手。它支持多种数据集和评估指标,可用于人体行为分析、动作识别等领域的研究和应用。AlphaPose在学术界和工业界都受到了广泛关注。
      • facebookresearch/audio2photoreal
      • tencent-ailab/V-Express - Express是由腾讯AI Lab开发的开源项目,旨在根据参考图像、音频和V-Kps图像序列生成逼真的说话人头部视频。该项目的主要目标是实现对说话人头部动作和表情的精准控制。V-Express的核心工作原理是利用参考图像提供人物外观信息,音频驱动嘴唇同步,而V-Kps图像序列则控制头部姿态和面部表情。通过这种方式,V-Express能够生成高度个性化和可控的说话人视频。该项目为虚拟形象生成、视频会议和数字内容创作等领域提供了强大的技术支持。V-Express的优势在于其对头部动作和表情的精细控制能力,以及生成视频的逼真度。
      • wladradchenko/wunjo.wladradchenko.ru
      • aigc3d/LAM
      • yiyuzhuang/IDOL
      • AIGC-Explorer/TIMotion - Explorer团队维护,并鼓励社区参与贡献。
      • guillaumeblanc/ozz-animation - animation是一个开源的C++骨骼动画库和工具集,专注于提供高效且跨平台的3D角色动画解决方案。该项目基于C++11标准开发,支持Windows、Linux、macOS等主流操作系统,可作为独立库或集成到游戏引擎中使用。其核心功能包括骨骼动画系统、动画数据格式解析、骨骼绑定系统和动画插值算法,开发者可以通过加载FBX或OZZ格式的动画文件,将骨骼动画数据应用到3D模型上,并通过插值算法实现平滑的动画过渡效果。 项目采用模块化设计,包含动画数据加载器、骨骼绑定系统和动画混合器三大核心组件。动画数据通过专有的OZZ格式存储,该格式支持多层级骨骼结构和动画关键帧信息,同时兼容FBX格式的导入功能。骨骼绑定系统通过矩阵变换算法实现骨骼与模型网格的绑定关系,动画混合器则支持多个动画轨道的权重混合和时间轴控制。工具集提供命令行工具用于动画文件转换和骨骼绑定验证,开发者可利用这些工具快速构建动画流水线。 该项目特别强调性能优化,采用内存池管理动画数据,通过预计算骨骼变换矩阵减少实时计算开销,同时支持多线程动画更新。其设计目标是为游戏开发和3D应用提供轻量级但功能完备的动画解决方案,适用于需要自定义动画系统的项目场景,相比Unity或Unreal等引擎自带的动画系统,ozz-animation提供了更底层的控制能力和跨平台兼容性。
  • 光学字符识别OCR

    • 资源传输下载

      • bytedance/Dolphin
      • MarkPDFdown/markpdfdown
      • YaoFANGUK/video-subtitle-extractor - subtitle-extractor是一个专注于从视频中提取硬编码字幕并生成SRT字幕文件的开源项目。其核心特色在于无需依赖第三方API即可完成文本识别,所有处理均在本地执行,保障了数据隐私和操作便捷性。项目基于深度学习技术构建,包含字幕区域检测和字幕内容提取两个关键模块,能够精准识别视频画面中的字幕位置并转换为可编辑的文本格式。同时提供图形化界面工具,使用户无需编程即可轻松操作。该工具支持多种视频格式,通过训练模型提升识别准确率,适用于需要提取视频内固有字幕的场景。对于开发者而言,项目还提供了完整的框架结构,便于二次开发和定制化调整。整体设计兼顾实用性与技术先进性,是视频字幕处理领域的一个高效解决方案。
      • Yuliang-Liu/MonkeyOCR - Liu,在GitHub上提供源代码和详细的使用说明,旨在帮助开发者轻松实现文档智能解析功能。MonkeyOCR 采用结构-识别-关系 (SRR) 三元组范式,简化了模块化方法的多工具流程,同时避免了使用大型多模态模型进行全页文档处理的低效性。MonkeyOCR-pro-1.2B 在中文文档上的处理速度比 MonkeyOCR-3B 高出 7.4%。 MonkeyOCR-pro-1.2B 的速度比 MonkeyOCR-pro-3B 提高了约 36%,但性能下降了约 1.6%。在 olmOCR-Bench 上,MonkeyOCR-pro-1.2B 的性能比 Nanonets-OCR-3B 高出 7.3%。在 OmniDocBench 上,MonkeyOCR-pro-3B 在英文和中文文档上均取得了最佳的整体性能,甚至优于 Gemini 2.0-Flash、Gemini 2.5-Pro、Qwen2.5-VL-72B、GPT-4o 和 InternVL3-78B 等闭源和超大型开源 VLM。
      • huridocs/pdf-document-layout-analysis
      • ses4255/Versatile-OCR-Program - OCR-Program是一个多模态OCR流水线,专为机器学习训练优化,能够处理文本、图形、数学公式、表格和图表等多种类型的内容。该项目旨在提供一个通用的OCR解决方案,适用于各种文档和图像。它可能包含预处理、文本检测、文本识别和后处理等多个模块,以实现高精度的OCR结果。该项目特别关注于为机器学习模型提供高质量的训练数据,因此可能包含数据增强和标注工具。具体实现细节和使用方法请参考项目文档和示例代码。该项目旨在成为一个灵活且可扩展的OCR平台,方便用户根据自身需求进行定制和优化。
      • rednote-hilab/dots.ocr - 语言模型(Vision-Language Model, VLM)的多语言文档布局解析工具,旨在通过统一的模型架构实现对多种语言和复杂文档格式的高效解析。其核心特点是将文本识别与布局分析功能整合于单一模型中,无需依赖多个独立模块即可完成从图像到结构化数据的端到端处理。项目通过训练大规模多语言文档数据集(涵盖表格、表单、发票、书籍等场景),使模型能够识别不同语言的文本内容(如中、英、法、德、西班牙等),并精准解析文档中的布局结构(如标题、段落、表格、图表等区域)。其工作原理基于视觉-语言预训练模型(如CLIP架构的改进版),通过图像编码器提取文档图像的视觉特征,同时利用语言编码器学习文本内容的语义信息,再通过跨模态对齐机制将图像中的文本区域与对应语义内容匹配,最终输出结构化布局信息。项目支持对复杂排版的文档进行分层解析(如区分正文与边注、表格与图表),并通过可调节的参数控制解析精度与速度。此外,该工具可直接通过Python接口调用,提供预训练模型权重与训练代码,适用于研究与工业场景,尤其适合需要处理多语言混合文档的自动化系统。其关键优势在于模型轻量化设计(对比传统多模块系统)与跨语言泛化能力,能有效减少部署成本并提升处理效率。
      • chatdoc-com/OCRFlux
      • sml2h3/ddddocr
      • ZGGSONG/STranslate
      • thiagoalessio/tesseract-ocr-for-php
      • otiai10/gosseract
      • charlesw/tesseract
      • manisandro/gImageReader - OCR前端,它为Tesseract提供了一个图形用户界面,方便用户进行图像识别和文本提取。该项目的主要目标是简化OCR流程,使用户能够更轻松地利用Tesseract的强大功能。gImageReader支持多种图像格式,并允许用户进行图像预处理,例如旋转、裁剪和调整对比度,以提高OCR的准确性。它还提供批量处理功能,可以一次性处理多个图像文件。此外,gImageReader还支持多种语言,并允许用户选择不同的OCR引擎参数以优化识别结果。该项目旨在为用户提供一个易于使用且功能强大的OCR解决方案,适用于各种文档数字化和信息提取任务。
      • nguyenq/tess4j
      • CBIhalsen/PolyglotPDF
      • chatclimate-ai/ParseStudio - ai/ParseStudio。
      • deepseek-ai/DeepSeek-OCR - OCR是由DeepSeek团队开发的高性能光学字符识别系统,旨在从图像和文档中高效提取文本信息。该项目基于深度学习技术,结合卷积神经网络(CNN)与Transformer架构,通过端到端的端到端模型设计,实现对复杂场景下文本的精准识别。其核心优势在于支持多语言文本识别(包括中英文、日文、韩文等),并具备强大的图像预处理能力,可自动调整图像质量、去除噪点和增强对比度,从而提升识别准确率。 DeepSeek-OCR的工作流程分为两个主要阶段:文本检测与文本识别。在检测阶段,模型通过自适应锚点机制定位图像中的文本区域,即使面对弯曲文本或复杂背景也能保持高精度。识别阶段则利用Transformer的全局注意力机制,结合字符级和词级的联合建模,有效解决长文本识别中的上下文依赖问题。此外,该项目支持多种输入格式(如JPG、PNG、PDF等),并提供高效的API接口,可直接集成到应用系统中。 该项目特别优化了处理速度,采用轻量化模型结构和并行计算策略,确保在保持高准确率的同时实现快速推理。其代码仓库包含完整的训练脚本和预训练模型,开发者可快速复现和扩展功能。DeepSeek-OCR适用于文档数字化、智能客服、车牌识别等场景,同时支持通过自定义训练数据集进行模型微调,以适应特定领域的文本特征需求。
      • dynobo/normcap
      • alibaba/Logics-Parsing - Parsing 是由阿里巴巴开源的高性能端到端文档解析模型,基于视觉语言模型(VLM)通过监督微调(SFT)和强化学习(RL)训练而成。核心特点包括: 1. 端到端处理能力 单模型直接处理文档图像,无需复杂流水线,支持复杂布局文档解析。 2. 多模态内容识别 精准识别科学公式、化学结构(可转SMILES格式),并过滤页眉页脚等冗余信息。 3. 结构化输出 生成带分类标签、坐标和OCR文本的HTML,保留文档逻辑结构。 4. 性能领先 在自建评测集LogicsDocBench(1078页复杂文档)上全面超越主流方案(如Mathpix、Gemini等),尤其在公式识别(Edit↓ 0.106)和表格处理(TEDS↑ 79.5)表现突出。 5. 便捷部署 支持Modelscope/Hugging Face模型下载,Python一键推理。 开源协议:Apache-2.0,适用于科研文档、化学材料等复杂场景解析。
      • datalab-to/chandra
      • oomol-lab/pdf-craft
      • NiceRingNode/Awesome-Generative-Models-for-OCR - Generative-Models-for-OCR是一个聚焦于文本识别的生成模型研究项目,通过实证分析评估当前最先进的生成模型在光学字符识别(OCR)任务中的表现。项目基于arXiv 2025年论文《Aesthetics is Cheap, Show me the Text》构建,核心目标是验证生成模型在复杂文本场景下的鲁棒性与准确性。研究涵盖GAN、Transformer等主流架构的OCR应用,通过对比实验揭示模型在不同字体、排版、噪声环境下的识别能力。项目特色包括:1)系统性整理OCR生成模型的训练数据集与评估指标;2)提出多维度评价体系,结合文本准确性、图像真实性及计算效率;3)提供可复现的实验框架与开源代码。工作原理基于生成对抗网络的文本-图像生成机制,通过条件生成技术将文本内容映射为自然图像,同时利用对抗损失优化模型的细节还原能力。项目还针对手写体、模糊文本等挑战性场景进行专项测试,最终通过可视化分析与量化指标(如CER、WER)验证模型效果。该项目为OCR领域提供了技术路线图,强调生成模型在文本识别中的实用价值,适合研究人员与开发者快速掌握前沿技术方向。
    • 网络服务_其他

  • 图像生成

    • 资源传输下载

      • tdrussell/diffusion-pipe - pipe是一个用于扩散模型的并行训练脚本,特色是采用流水线并行技术,通过将模型分割成多个阶段并在不同设备上并行处理,有效提升训练效率,工作原理是将扩散模型的不同步骤分散到多个GPU上同时执行,以减少整体训练时间,特别适合大规模扩散模型训练任务,代码开源便于开发者使用和定制,支持多种常见的扩散模型架构,如DDIM和DDPM,易于集成到现有的训练框架中,为高性能计算提供了新的解决方案
      • Alpha-VLLM/Lumina-mGPT-2.0 - mGPT 2.0 是一个独立的自回归图像建模项目,无需依赖大型语言模型(LLM)。它通过将图像编码为离散token序列,然后使用自回归Transformer模型进行训练,从而实现图像生成和编辑等功能。该项目的主要特色在于其简洁的架构和高效的训练方法,使其能够在资源有限的环境下进行图像建模。Lumina-mGPT 2.0 的核心思想是将图像视为一种语言,并利用Transformer模型强大的序列建模能力来学习图像的潜在分布。该项目支持多种图像分辨率,并提供了丰富的实验结果和代码示例,方便用户进行二次开发和应用。它适用于图像生成、图像修复、图像编辑等多种任务,为图像建模领域提供了一种新的思路。Lumina-mGPT 2.0 旨在推动图像建模技术的普及和发展,让更多的人能够参与到图像智能的研究中来。
      • ZeroLu/awesome-nanobanana-pro
      • modelscope/scepter
      • WeichenFan/CFG-Zero-star - Zero*项目是作者WeichenFan的官方仓库。该项目主要研究如何通过控制自由梯度(CFG)来优化深度学习模型的训练过程,目标是实现零样本泛化能力,即模型在未见过的数据上也能表现良好。项目可能包含相关的代码、论文和实验结果。具体实现细节可能涉及对梯度进行约束或修改,以避免模型过度拟合训练数据,从而提升泛化性能。项目名称中的“Zero*”暗示了其关注零样本学习或相关领域的研究。建议查阅项目代码和论文以获取更详细的技术信息。该项目可能探索了新的优化算法或训练策略,旨在提高深度学习模型的鲁棒性和适应性。
      • lzzcd001/nabla-gfn - GFlowNet是ICLR 2025的一篇论文的官方实现。该项目旨在提升生成流网络(GFlowNet)的训练效率和样本质量。其核心思想是利用Nabla算子来指导GFlowNet的训练过程,从而更有效地探索状态空间。通过引入Nabla信息,模型可以更好地学习奖励函数的梯度,加速收敛并生成更高质量的样本。项目代码库包含了论文中提出的算法实现,以及相关的实验配置和评估指标。开发者可以利用该项目复现论文结果,并将其应用于其他生成模型任务中。该项目提供了详细的文档和示例,方便用户快速上手和定制化开发。Nabla-GFlowNet的优势在于其高效的训练和卓越的样本生成能力,有望成为GFlowNet领域的重要进展。它通过梯度信息引导,提升了GFlowNet的性能。
      • 11xiaoyi11/IQA-Survey
      • lucidrains/deep-daze
      • QwenLM/Qwen-Image - Image是由通义实验室研发的图像生成基础模型,能够基于复杂文本提示生成高质量图像,并支持对生成图像进行精准编辑。该项目通过大规模数据训练和深度学习技术,实现了多语言文本理解与图像细节调整能力,用户可通过自然语言描述生成特定风格、分辨率的图像,同时支持对图像中的局部区域进行修改,如调整颜色、添加或删除特定元素。其核心技术包括高分辨率图像生成、多风格迁移能力、自然语言与视觉内容的精准对齐,以及高效的推理速度,可快速响应用户需求。Qwen-Image适用于设计、广告、游戏开发等场景,提供API接口和命令行工具供开发者调用,项目文档包含详细的使用教程和技术说明,支持多种编程语言集成。此外,模型通过模块化设计实现文本渲染与图像编辑功能的分离,用户可根据需求选择生成模式或编辑模式,同时支持通过参数调整图像质量、输出尺寸等细节,确保生成结果符合实际应用需求。
      • mit-han-lab/nunchaku
      • THUDM/CogView4 - Plus和CogView3(ECCV 2024)两个早期版本。该项目致力于提升文本到图像生成的能力,旨在实现更高质量、更可控的图像生成效果。具体技术细节和训练方法可能在论文和代码中详细描述。项目重点在于探索大型语言模型在视觉内容生成方面的应用,并不断优化模型架构和训练策略。用户可以参考项目中的代码和文档,了解模型的具体实现和使用方法。项目可能包含预训练模型、训练脚本、评估指标等资源,方便研究人员进行复现和进一步研究。CogView系列模型在图像生成领域具有重要影响力,为相关研究提供了有价值的参考。该项目是清华大学在人工智能领域的重要研究成果之一。
      • TheLastBen/fast-stable-diffusion - stable-diffusion项目旨在简化Stable Diffusion和DreamBooth的使用,让你在Google Colab上快速训练和运行。它提供了一键安装和优化的Stable Diffusion环境,支持多种模型,包括Stable Diffusion 1.5、2.1、SDXL以及自定义模型。项目特色在于其速度优化,通过xFormers和加速器等技术,显著提升训练和推理速度。DreamBooth部分允许用户使用自己的图像数据微调Stable Diffusion模型,从而生成个性化的图像。它支持LoRA训练,可以更高效地微调模型。该项目还提供详细的教程和脚本,方便用户进行模型训练、推理和优化。 总之,fast-stable-diffusion是一个易于使用、速度快、功能强大的Stable Diffusion和DreamBooth工具包,特别适合在Google Colab上使用。
      • kohya-ss/sd-scripts - scripts 是一个用于 Stable Diffusion 模型训练和微调的强大脚本集合,由 kohya-ss 开发。它支持多种训练方法,包括 LoRA、Dreambooth 和 full fine-tuning,并针对不同硬件进行了优化,尤其是在消费级显卡上。该项目特色在于其高效的内存管理和对各种数据集格式的支持。sd-scripts 采用模块化设计,方便用户根据自身需求定制训练流程。它支持多种优化器和学习率调度器,并提供了丰富的命令行参数用于灵活配置。该项目还包含用于模型转换、评估和推理的实用工具。主要工作原理是通过对预训练的 Stable Diffusion 模型进行微调,使其能够生成特定风格或主题的图像。它还支持使用 LoRA 技术,通过训练少量参数来快速定制模型,而无需修改原始模型。sd-scripts 旨在为用户提供一个全面且易于使用的平台,以探索 Stable Diffusion 的强大功能。该项目持续更新,并积极响应社区反馈。
      • carson-katri/dream-textures
      • deep-floyd/IF
      • lucidrains/denoising-diffusion-pytorch
      • dicebear/dicebear
      • AbdBarho/stable-diffusion-webui-docker - diffusion-webui-docker项目提供了一个简易的Docker设置,用于部署Stable Diffusion,并提供用户友好的Web界面。该项目旨在简化Stable Diffusion的安装和使用流程,通过Docker容器化技术,避免复杂的环境配置问题。用户可以通过Web UI方便地生成图像,无需深入了解底层技术细节。该项目可能包含预配置的Dockerfile和docker-compose.yml文件,方便用户一键部署。它可能支持GPU加速,以提高图像生成速度。此外,项目可能包含详细的文档,指导用户进行安装、配置和使用。此项目降低了Stable Diffusion的使用门槛,让更多用户能够体验AI图像生成的乐趣。它可能还支持多种Stable Diffusion模型和扩展,增强了其功能和灵活性。用户可以根据自己的需求定制Docker镜像,满足不同的使用场景。
      • vladmandic/sdnext
      • LykosAI/StabilityMatrix
      • pinokiocomputer/pinokio
      • jamez-bondos/awesome-gpt4o-images - 4o生成的精美图片的资源合集,项目名称是jamez-bondos/awesome-gpt4o-images。它汇集了各种由OpenAI最新模型GPT-4o生成的图像和对应的提示词。该项目展示了GPT-4o在生成不同艺术风格图像方面的强大能力,例如吉卜力风格、3D风格等。你可以通过浏览这个项目,学习如何使用提示词来引导GPT-4o生成特定风格的图像。这个资源库可以帮助你探索AI艺术创作的可能性,并为你提供创作灵感。它是一个学习和欣赏GPT-4o图像生成能力的绝佳资源。项目内容主要集中在图像和提示词的收集与整理上,方便用户查找和使用。
      • JoePenna/Dreambooth-Stable-Diffusion
      • siliconflow/onediff
      • FoundationVision/LlamaGen
      • THUDM/ImageReward
      • derrian-distro/LoRA_Easy_Training_Scripts - scripts中LoRA/LoCon以及其他LoRA类型模型的训练过程。它通过图形界面,降低了使用sd-scripts训练LoRA模型的门槛,让用户更容易上手。该项目专注于提供一个用户友好的界面,方便用户配置训练参数、管理数据集和监控训练进度。用户无需深入了解sd-scripts的命令行操作,即可快速开始LoRA模型的训练。该项目目标是为Stable Diffusion用户提供更便捷的LoRA训练体验,提高工作效率。
      • Nerogar/OneTrainer
      • instantX-research/InstantStyle
      • Xiaojiu-z/EasyControl - z开发并维护。
      • stepfun-ai/Step1X-Edit - Edit是一个开源图像编辑模型,目标是达到甚至超越GPT-4o和Gemini 2 Flash等闭源模型的性能。它代表了图像编辑领域的最新技术水平。该项目旨在提供强大的图像编辑能力,并与领先的闭源模型竞争。Step1X-Edit的核心优势在于其先进的算法和模型设计。它致力于为用户提供高质量、高效率的图像编辑体验。开源特性使得研究人员和开发者可以自由地使用、修改和改进该模型。Step1X-Edit的出现有望推动图像编辑技术的进一步发展和普及。该项目为图像编辑领域带来了新的可能性,并为开源社区贡献了宝贵的资源。
      • Yujun-Shi/DragDiffusion
      • TencentQQGYLab/ELLA
      • ermongroup/SDEdit
      • LTH14/fractalgen
      • JackAILab/ConsistentID
      • brownvc/R3GAN
      • liming-ai/ControlNet_Plus_Plus
      • fenghora/personalize-anything
      • MCG-NJU/DDT
      • AFeng-x/PixWizard
      • HiDream-ai/HiDream-I1 - I1 是一个基于扩散模型的图像编辑项目,专注于实现逼真且可控的图像编辑。它通过引入“Identity Injection”策略,在编辑过程中保持图像主体身份的一致性。该项目采用了一种新颖的训练方法,利用现成的文本到图像扩散模型,无需重新训练整个模型。HiDream-I1 的核心思想是将源图像的身份信息注入到扩散过程的早期阶段,从而引导生成过程,确保编辑后的图像仍然保留原始人物的特征。它支持多种编辑任务,例如属性修改、风格迁移等,并提供详细的使用指南和代码示例。项目代码基于PyTorch实现,方便用户进行二次开发和定制。HiDream-I1 的目标是提供一种简单有效的方法,实现高质量的图像编辑效果,同时保持人物身份的稳定性和可控性。它在图像编辑领域具有创新性,为相关研究和应用提供了新的思路。该项目由HiDream-ai团队开发并开源。
      • JimmyLv/awesome-nano-banana - nano-banana是一个精选的图像和提示词集合项目,展示了Google最新发布的Gemini-2.5-flash-image模型(昵称Nano Banana)的图像生成能力。该项目通过开源社区形式,汇聚了基于该模型生成的高质量AI视觉作品,全面呈现Google在图像生成和编辑领域的技术突破。Nano Banana作为Gemini系列的轻量化版本,结合了先进的视觉理解与生成能力,能根据自然语言描述精准生成符合要求的图像,同时支持对现有图像进行智能编辑。项目特别强调了模型的"提示词工程"能力,展示如何通过精心设计的指令生成多样化的视觉效果。所有内容均基于Gemini模型的开源接口生成,包含从抽象艺术到写实场景的多类型图像,并附有生成时使用的具体提示词,便于用户学习AI绘画的创作逻辑。该项目既是AI视觉生成技术的展示平台,也是研究提示词设计方法的参考资料库,适合设计从业者、AI研究者及技术爱好者参考学习。通过这个项目,用户可以直观感受Gemini模型在图像分辨率、细节表现和创意生成方面的显著提升,同时了解如何有效利用自然语言与AI模型进行交互创作。
      • mit-han-lab/ComfyUI-nunchaku - nunchaku是一个基于ComfyUI框架的插件项目,专注于图像生成和处理领域。其核心特色在于提供了一套灵活的节点系统,允许用户通过拖拽和连接不同功能模块来构建复杂的图像生成流程。插件支持多种深度学习模型,如Stable Diffusion及其变体,用户可自定义参数并实现高效的工作流管理。工作原理上,它通过Python脚本与ComfyUI的图形界面结合,将模型调用、图像编辑、风格迁移等功能模块化,便于扩展和调试。适用于需要高度定制化图像生成的创作者和开发者,尤其适合希望在ComfyUI中集成特定模型或功能的用户。项目提供详细的安装指南和使用示例,支持从基础配置到高级功能的逐步应用。此外,插件注重兼容性,确保与主流图像处理工具和模型框架无缝衔接,同时保持轻量级设计以优化运行效率。用户可通过简单操作实现创意图像生成,满足个性化需求。
      • MeiGen-AI/PosterCraft - AI/PosterCraft是一个基于统一框架的高质量美学海报生成项目,通过多模态融合技术实现文本与图像的协同创作,支持用户自定义参数调整生成效果。项目采用结构感知生成算法,结合美学优化模块提升海报视觉表现力,同时通过模块化设计支持灵活的功能扩展。核心工作原理包括:1)多模态输入解析模块,可同时处理文本描述与参考图像;2)结构感知生成网络,通过空间注意力机制优化布局设计;3)美学增强模块,运用风格迁移技术提升视觉吸引力;4)参数化控制接口,允许用户调整构图比例、配色方案等细节。项目特色包含统一框架整合生成流程、支持多种美学风格输出、提供交互式参数调节功能,以及可扩展的模块化架构。适用于海报设计、数字艺术创作等场景,特别适合需要批量生成高质量视觉内容的用户群体,通过预训练模型与用户自定义参数结合,实现从概念到成品的全流程自动化创作。
      • timothybrooks/instruct-pix2pix - 3生成图像编辑指令及其对应的图像对,从而构建训练数据集。该项目展示了如何使用文本指令(如“把天空变成粉色”)来修改图像,并提供了预训练模型和代码,方便用户进行图像编辑实验。它通过将指令和图像作为输入,预测图像的变化,并将其应用于原始图像,从而生成编辑后的图像。InstructPix2Pix的优势在于其简单性和有效性,它不需要复杂的设置或大量的计算资源,就能实现高质量的图像编辑效果。项目还提供了Colab Notebook,方便用户在线体验和测试。该项目基于论文"InstructPix2Pix: Learning to Follow Image Editing Instructions",并提供了相关论文链接。
      • Akegarasu/lora-scripts - scripts是一个基于kohya-ss训练器的LoRA和Dreambooth训练脚本及GUI工具,用于扩散模型训练。它简化了LoRA和Dreambooth的训练流程,提供用户友好的图形界面,方便用户操作。该项目专注于扩散模型的微调,支持LoRA和Dreambooth两种主流训练方法。通过使用kohya-ss的训练器,它能够高效地训练出高质量的模型。该项目旨在降低扩散模型训练的门槛,让更多用户能够轻松定制自己的模型。其核心功能包括LoRA和Dreambooth训练脚本,以及方便操作的GUI界面。用户可以通过GUI界面设置训练参数,监控训练进度。该项目适用于需要对扩散模型进行个性化定制的用户。
      • xlite-dev/lite.ai.toolkit - Diffusion、Face-Fusion、YOLO 系列、目标检测 (Det)、语义分割 (Seg) 等多种任务。该工具包的核心优势在于其轻量级设计,能够快速部署各种 AI 模型。开发者可以使用该工具包在不同硬件平台上高效运行 AI 应用。项目目标是提供一个简单易用的 AI 模型部署解决方案,降低 AI 应用开发的门槛。通过集成多种推理引擎,该工具包能够充分利用硬件加速能力,提升 AI 推理性能。该项目适合需要在嵌入式设备或移动端部署 AI 模型的开发者。
      • leejet/stable-diffusion.cpp - diffusion.cpp 是一个完全使用 C/C++ 实现的 Stable Diffusion 推理引擎项目,无需 Python 依赖,目标是实现高性能和跨平台部署。它利用 Flux 框架进行神经网络计算,支持 CPU 和 GPU (通过 CUDA 或其他后端) 加速。项目特色包括易于集成到现有 C/C++ 项目中,以及对内存使用和性能的优化。其工作原理是加载 Stable Diffusion 模型权重,然后使用 Flux 进行前向传播计算,最终生成图像。该项目旨在提供一个轻量级、可移植且高效的 Stable Diffusion 解决方案,适用于资源受限的环境或需要紧密集成 C/C++ 代码的场景。它支持各种 Stable Diffusion 模型变体,并提供示例代码和文档帮助用户快速上手。
      • mlc-ai/web-stable-diffusion - ai/web-stable-diffusion项目旨在将Stable Diffusion模型直接带到Web浏览器中,无需服务器支持,所有计算都在浏览器内部完成。该项目利用WebAssembly和WebGPU等技术,实现了在浏览器端运行高性能的AI模型。其核心目标是让用户能够更便捷、更私密地使用Stable Diffusion,无需担心服务器资源或数据隐私问题。项目特色在于完全本地化运行,降低了使用门槛,并提供了良好的用户体验。通过优化模型结构和计算流程,该项目能够在浏览器中实现可接受的推理速度。开发者可以利用该项目构建各种基于Stable Diffusion的Web应用,例如图像生成、编辑等。总而言之,这是一个将强大AI能力带到每个人的浏览器中的创新尝试。
      • google/prompt-to-prompt - to-prompt是一个基于潜在扩散模型(Latent Diffusion)和Stable Diffusion的开源图像编辑工具,通过控制扩散模型中的交叉注意力机制实现精准的文本提示引导编辑。主要功能包括:提示编辑​​:支持替换、细化、重加权三种模式,通过调整注意力权重修改生成图像内容(如替换物体、添加细节、调节属性权重)。真实图像编辑​​:结合Null-text反演技术,利用DDIM锚定优化,直接对真实图像进行基于文本的局部编辑。
      • ai-forever/Kandinsky-2 - Forever 开发。它支持文本描述生成图像,并具备强大的多语言理解能力,支持包括中文在内的多种语言。该模型基于潜在扩散模型架构,在潜在空间中进行图像生成,从而提高了效率和图像质量。Kandinsky 2 具有图像编辑、图像修复、风格迁移等多种功能,可以通过文本引导对图像进行修改和创作。其核心技术包括使用 CLIP 模型进行文本编码,以及使用扩散模型进行图像生成。项目提供了代码和预训练模型,方便用户进行实验和二次开发。Kandinsky 2 的目标是为用户提供一个强大且易于使用的文本到图像生成工具,促进创意表达和艺术创作。它在生成高质量图像的同时,也关注生成过程的可控性和灵活性。该项目还开源了训练和推理代码,鼓励社区参与模型的改进和扩展。
      • bghira/SimpleTuner
      • vitoplantamura/OnnxStream - V。该库利用XNNPACK加速推理过程。OnnxStream的特色在于其极低的内存占用,例如可以在树莓派Zero 2上运行Stable Diffusion XL 1.0,或者在298MB的RAM中运行。同时,它也能在桌面和服务器上运行Mistral 7B等大型模型。该项目主要目标是提供一个高效且可移植的ONNX推理解决方案,适用于各种硬件平台和应用场景。它通过优化内存管理和利用硬件加速,实现了在资源受限设备上的高性能推理。
      • anapnoe/stable-diffusion-webui-ux - diffusion-webui-ux`是一个旨在改进Stable Diffusion web UI用户体验的项目。它通过重新组织界面元素、优化工作流程和引入新功能,提升用户与Stable Diffusion模型的交互效率。项目特色包括更直观的界面布局、更便捷的参数调整方式以及更强大的图像管理功能。它可能通过修改现有的web UI代码,添加新的JavaScript脚本或CSS样式来实现这些改进。该项目致力于降低Stable Diffusion的使用门槛,让更多用户能够轻松创作高质量的图像。具体实现可能涉及调整UI组件的位置、优化参数输入方式、增加图像预览功能等。项目目标是提供一个更流畅、更高效、更友好的Stable Diffusion web UI体验。
      • ZiyuGuo99/Image-Generation-CoT - Generation-CoT项目探索了自回归图像生成中的思维链 (CoT) 推理。该项目旨在提升图像生成的质量和可控性,通过引入类似人类推理过程的CoT机制,使模型在生成图像时能够逐步思考并规划图像的结构和细节。核心思想是将图像生成过程分解为多个步骤,每一步都基于前一步的输出进行推理和决策,从而生成更连贯、更符合预期的图像。项目可能包含CoT策略的具体实现,例如提示工程和模型架构调整,以促进自回归图像生成模型更好地利用CoT推理。该研究专注于提高图像生成模型理解和生成复杂场景的能力,最终目标是创造更逼真、更可控的图像生成系统。具体实现细节和实验结果请参考项目代码和文档。该项目为自回归图像生成领域带来了一种新的思路,有望推动图像生成技术的发展。
      • wdrink/SimpleAR
      • dvruette/gidd
      • joel-simon/lluminate
      • EnVision-Research/Uni-Renderer - Renderer 是一个统一渲染和逆渲染的框架,基于双流扩散模型实现。该项目是 CVPR 2025 论文 "Uni-Renderer: Unifying Rendering and Inverse Rendering Via Dual Stream Diffusion" 的官方实现。它通过双流扩散过程,将渲染和逆渲染任务整合到一个统一的模型中。该方法能够同时进行正向渲染(从场景描述生成图像)和逆向渲染(从图像推断场景描述),解决了传统方法中两者分离的问题。Uni-Renderer 的核心在于其双流架构,分别处理渲染和逆渲染的信息流,并通过扩散模型学习它们之间的映射关系。项目代码库包含了论文中提出的模型的具体实现细节,以及复现实验结果所需的必要工具和脚本。该项目为计算机视觉和图形学领域的研究者提供了一个强大的工具,用于探索和改进渲染和逆渲染技术。通过统一的框架,Uni-Renderer 有望在场景重建、图像编辑等领域取得新的突破。
      • EvelynZhang-epiclab/SiTo - 2025接收。该项目提供了SiTo的官方代码实现。SiTo的核心思想是根据Token之间的相似性进行剪枝,从而减少计算量并提高效率。通过对Token进行相似性分析,SiTo可以识别并移除冗余或不重要的Token,同时保持生成图像的质量。项目代码结构清晰,方便研究人员复现和修改。SiTo在稳定扩散模型中应用,旨在解决生成图像时计算资源消耗过大的问题。该方法能够显著降低计算复杂度,同时保证生成图像的视觉效果。使用SiTo可以加速图像生成过程,并降低对硬件设备的要求。项目提供了详细的使用说明和示例,方便用户快速上手。SiTo为稳定扩散模型的优化提供了一个新的思路,具有重要的研究价值和应用前景。
      • Fantasylii/mergenet - 解码器结构,编码器提取源图像的特征,解码器将融合后的特征重建为融合图像。项目支持多种融合任务,例如多聚焦图像融合和医学图像融合。MergeNet提供了详细的代码示例和训练脚本,方便用户快速上手和定制模型。该项目还包含评估指标和可视化工具,用于评估融合结果的质量。MergeNet具有良好的可扩展性,可以方便地集成到其他图像处理系统中。总而言之,MergeNet是一个强大而灵活的图像融合框架,为研究人员和开发人员提供了一个有效的解决方案。
      • Paper2Poster/Paper2Poster
      • HL-hanlin/Ctrl-Adapter - Adapter是一个高效且通用的框架,用于将各种控制信号适配到任何扩散模型,已被ICLR 2025接收为口头报告。该项目是Ctrl-Adapter的官方实现。它旨在简化不同控制方式与扩散模型的集成,提供了一种灵活的适配方案。通过Ctrl-Adapter,可以轻松地将例如文本、图像或其他类型的控制信号输入到扩散模型中,从而引导生成过程。该框架具有高效性,能够快速适应新的控制类型。Ctrl-Adapter的核心优势在于其通用性,可以应用于多种扩散模型,无需针对特定模型进行修改。项目代码库包含了实现Ctrl-Adapter所需的全部组件,方便研究人员和开发者使用。它为扩散模型控制任务提供了一个强大而易于使用的工具。
      • AIDC-AI/ComfyUI-Copilot - AI/ComfyUI-Copilot是一款专为ComfyUI设计的AI驱动自定义节点项目,旨在通过智能辅助功能提升图像生成工作流的自动化水平。该项目的核心功能包括智能节点生成、参数优化建议和工作流自动化,用户可通过自然语言交互快速生成符合需求的图像处理流程。其工作原理基于先进的人工智能模型,能够解析用户输入的文本指令,自动匹配并生成对应的ComfyUI节点配置,同时通过算法分析优化参数组合,显著降低手动调整的复杂度。项目采用Python开发,需要安装ComfyUI基础环境及Python 3.8以上版本,支持通过pip安装依赖包。开发者特别设计了智能提示系统,可实时建议最佳节点连接方式和参数取值,适用于需要频繁调整工作流的创作者。项目还提供可扩展的插件架构,允许用户自定义AI模型或集成第三方工具。相较于传统手动配置方式,ComfyUI-Copilot能将复杂的工作流搭建时间缩短70%以上,特别适合需要处理多阶段图像处理任务的用户。通过将AI推理能力与ComfyUI的可视化节点系统结合,该项目实现了从创意构思到技术实现的无缝衔接,是AI辅助图像生成领域的重要创新。
      • Tencent-Hunyuan/MixGRPO - SDE for Flow-based GRPO)是腾讯混元实验室开源的一个基于生成模型的高效采样框架,旨在通过混合确定性微分方程(ODE)和随机微分方程(SDE)的方法,提升流模型(Flow-based Model)在生成任务中的效率与稳定性。该项目的核心创新在于将传统确定性动力系统(ODE)与随机动力系统(SDE)相结合,利用ODE的计算效率和SDE的噪声增强能力,构建混合动力方程模型,从而在保证生成质量的同时显著降低计算资源消耗。通过引入混合动力方程,MixGRPO能够动态调整采样过程中的噪声强度与演化速度,使模型在生成复杂数据(如高维图像、语音等)时既保持高精度,又减少计算延迟。此外,该项目支持多种流模型架构的集成,用户可通过灵活配置ODE/SDE的比例参数,适配不同应用场景的需求,例如图像生成、数据增强或医学图像重建等。MixGRPO的代码实现了高效的数值求解算法,并提供预训练模型与示例代码,方便开发者快速部署与实验验证。该项目特别强调了对计算资源的优化,适用于需要大规模生成任务的工业级应用场景,同时通过模块化设计降低使用门槛,是当前生成模型领域结合确定性与随机性方法的前沿实践。
      • Anionex/banana-slides - slides是一个基于Nano Banana Pro硬件平台开发的原生AI演示文稿生成工具,致力于实现真正的"氛围感PPT"创作体验。该项目通过智能解析用户上传的模板图片和素材内容,结合自然语言处理技术,能够根据用户输入的一句话描述、大纲结构或页面说明自动生成完整的PPT内容。其核心工作原理是利用AI模型对图文素材进行语义分析,自动生成符合逻辑的幻灯片布局和视觉设计,同时支持用户通过语音指令对特定页面进行实时修改。项目特色在于其深度集成硬件特性,通过Nano Banana Pro的算力支持,实现了从内容生成到格式导出的全流程自动化,最终可一键导出为可编辑的PPT文件格式。该工具突破了传统PPT制作对人工设计的依赖,将内容创作与视觉呈现过程智能化,特别适合需要快速生成高质量演示文稿的用户场景。目前项目已支持多模态素材处理,用户只需上传图片和文字素材,系统即可自动完成排版、配色、图表生成等复杂操作,显著提升演示文稿制作效率。
      • apple/ml-sharp - **极低延迟**:通过优化网络结构和 GPU 并行执行,平均推理时间不到 0.8 秒。 - **高分辨率与细节保留**:使用残差学习(ResNet)以及多尺度特征融合,在生成的图像中保持纹理、边缘与光照变化的自然性。 - **可移植性强**:库以 Swift 编写,利用 Apple 的 CoreML 框架,可直接在 iOS 或 macOS 设备上部署;同时提供 Python 包装接口,以便实验室使用。 ### 2. 工作原理 1. **编码阶段** – 输入单张图像经卷积层提取低级特征,再通过多尺度池化(L1、L2 等)获得全局部信息。 2. **视角变换层** – 在特征空间内使用可学习的相机投影矩阵,将特征映射至目标方向的光照与几何参数;该阶段兼顾了几何一致性(如对称、透视)以及深度估计。 3. **解码/生成阶段** – 通过反卷积层将变换后的特征再投影回像素空间,并使用可选的去噪与色彩校正模块,最终得到新的图像。 ### 3. 使用方式(Swift CoreML 示例) ```swift import ml_sharp // 初始化模型 let model = MLSharpModel(configuration: .init()) // 输入单张图片 guard let image = CIImage(contentsOf: URL(fileURLWithPath:"input.jpg")) else { fatalError() } // 推理得到新视角图像 if let output = try? model.predict(input:image, viewpoint:.right) { // 保存或展示结果 } ``` Python 版本可通过 `pip install ml-sharp` 导入,使用 `mlsharp.synthesize(img, theta)` 进行推理。 ### 4. 应用场景 - **增强现实(AR)**:实时生成用户视角的 AR 内容。 - **机器人视觉**:在不具备多摄像头的无人机上实现立体感知与避障。 - **虚拟摄影**:快速合成不同拍摄角度,节约昂贵的三维扫描设备。 ### 5. 开发者提示 - 输入图像尺寸建议 512×512 或更大,网络可自动裁剪/缩放。 - 若想进一步提升质量,可在 `ml_sharp` 配置文件中开启 **双向上下文**(Bidirectional context)与 **多视角预热**(Multi-view pre‑warm)。 项目地址:<https://github.com/apple/ml-sharp>,欢迎 Star 与 Issue。
      • PicoTrex/Awesome-Nano-Banana-images - Nano-Banana-images,是一个基于Nano Banana及Nano Banana Pro模型(均以Gemini-2.5-flash-image为基础)的创意图像生成案例合集,旨在通过开放资源推动图像生成与统一模型的社区发展。项目核心特色在于提供多样化的图像生成示例,涵盖艺术创作、设计灵感等场景,同时开源了Nano-consistent-150K数据集以支持研究者和开发者训练更高效的模型。通过整合这些资源,用户可直接调用预训练模型生成高质量图像,无需复杂配置。项目团队强调模型的“纳米级”优化特性,即在保持生成效果的同时降低计算成本,适合个人开发者和小型团队使用。此外,项目官网还提供技术博客链接,详细解析模型原理及应用案例,帮助用户理解图像生成流程。该数据集的开放不仅加速了图像生成领域的研究进展,也为统一多模态模型的开发提供了标准化基准。项目通过持续更新案例库,鼓励社区贡献创意作品,形成资源共享与创新的良性循环。
      • XavierXiao/Dreambooth-Stable-Diffusion - Stable-Diffusion 是一个基于 Stable Diffusion 模型实现 Dreambooth 技术的开源项目,旨在通过少量样本训练生成特定对象或角色的高质量图像。该项目的核心原理是利用 Stable Diffusion 的扩散模型架构,通过微调(Dreambooth)方法让模型学习目标对象的特征,并结合文本提示生成符合要求的图像。用户只需提供少量目标对象的图片(通常5-10张)和对应的文本描述,模型就能通过训练将这些特征嵌入到扩散过程中,最终生成包含该对象的新图像。 项目支持多种训练模式,包括使用预训练的 Stable Diffusion 模型权重进行微调,或从零开始训练模型。训练过程分为三个阶段:首先准备目标对象的图像数据集,其次通过 Dreambooth 方法调整模型参数,最后使用优化后的模型生成图像。开发者提供了 Colab 笔记本作为训练工具,简化了模型训练流程,用户可直接在云端运行代码。项目还包含优化建议,例如使用 VAE(变分自编码器)提升图像质量,或调整训练参数以缩短训练时间。 该项目的技术亮点在于对 Stable Diffusion 的高效适配,允许用户通过简单的数据集和文本指令实现定制化生成。其工作原理基于扩散模型的逆向过程:通过逐步去噪生成图像,并在训练中引入目标对象的文本嵌入向量(text embeddings)来指导生成方向。项目文档中详细说明了数据准备规范、训练参数设置和生成结果的优化技巧,适合有一定机器学习基础的开发者使用。由于 Stable Diffusion 模型本身依赖大量计算资源,项目建议使用 GPU 环境运行,且训练时间可能需要数小时至数十小时不等。整体而言,该项目为 Stable Diffusion 模型的定制化应用提供了便捷的实现路径,适合图像生成、角色设计等场景。
      • AntixK/PyTorch-VAE - VAE是一个基于PyTorch框架实现的变分自编码器(VAE)项目集合,专注于提供多种变分自编码器模型的完整实现与训练方案。该项目包含基础VAE、条件VAE(CVAE)、VAE-GAN等主流变种模型,支持图像和文本数据的生成与重构任务,适用于数据压缩、生成对抗网络训练及潜在空间分析等场景。模型通过编码器将输入数据映射到连续的潜在空间分布,再通过解码器从潜在空间重构原始数据,其核心工作原理是通过变分推断优化编码器与解码器的参数,使重构损失与潜在空间分布的KL散度达到平衡。项目提供完整的训练脚本、可视化工具及模型权重文件,用户可直接运行代码进行实验,同时包含详细的文档说明与参数配置指南。开发者通过模块化设计实现了不同模型的灵活扩展,支持自定义数据集加载与训练过程,部分模型还集成了注意力机制和多尺度特征提取功能,以提升生成质量与训练效率。该项目特别强调可复现性,所有模型均基于PyTorch 1.x版本开发,兼容主流GPU加速训练,适合研究者快速验证VAE相关算法,也可作为生成模型开发的参考模板。
      • Tongyi-MAI/Z-Image - MAI/Z-Image是一个基于AI技术的高质量图像生成与处理项目,核心功能包括图像生成、风格迁移、图像修复和图像增强等。项目采用先进的深度学习模型架构,结合扩散模型(Diffusion Model)和生成对抗网络(GAN)技术,通过多阶段训练流程实现对图像细节的精准控制。开发者特别优化了模型的训练数据集,包含大量高分辨率图像和多样化的艺术风格样本,使生成结果在保持画质清晰度的同时具备丰富的艺术表现力。项目支持通过文本描述生成图像、根据参考图进行风格迁移、修复破损图像以及提升低分辨率图像的清晰度等功能,用户可通过简单的命令行指令或图形化界面调用不同模型模块。技术实现上,项目使用PyTorch框架构建模型,通过分布式训练加速大规模数据处理,并采用混合精度训练技术降低显存占用。项目还提供预训练模型权重和详细的训练脚本,开发者可基于自己的需求微调模型参数。相比同类工具,Z-Image在生成速度和图像质量之间取得了更好的平衡,支持多GPU并行推理,同时提供可视化训练过程监控功能。项目适用于数字艺术创作、游戏素材生成、商业图像处理等场景,开发者文档中包含完整的使用教程和案例演示,适合AI图像处理领域的研究者和应用开发者使用。
  • 多模态大模型

    • 资源传输下载

      • SkyworkAI/Matrix-Game - Game 2.0 是一个开源的实时互动世界模型项目,旨在通过流媒体技术构建动态交互的虚拟环境。该项目基于 Python 开发,结合了实时数据处理与流式传输能力,支持用户在虚拟世界中进行实时交互与场景模拟。其核心特色包括模块化架构设计,允许开发者通过插件扩展功能,同时支持 AI 驱动的智能体交互,使虚拟角色能够基于规则或机器学习模型进行自主决策。 项目的工作原理基于事件驱动的架构,通过实时数据流(如传感器输入、用户操作或 AI 生成内容)动态更新虚拟世界的状态。例如,用户可通过流媒体接口实时操控虚拟角色,而 AI 模块则通过预设算法或机器学习模型生成环境变化或角色行为。此外,Matrix-Game 2.0 支持跨平台运行(如 PC、移动端),并提供可视化编辑器,便于非技术用户快速构建场景。 项目的关键技术包括基于 PyTorch 的 AI 模型集成、WebSocket 实时通信框架,以及轻量级流媒体传输协议,确保低延迟的交互体验。开发者可通过 GitHub 获取完整代码,并基于 MIT 协议自由修改与分发。项目还包含详细的开发文档与示例场景,帮助用户快速上手。 Matrix-Game 2.0 的目标是为教育、游戏开发、虚拟现实等领域提供一个灵活的实验平台,用户可利用其构建教学模拟、多人协作游戏或智能交互场景。其开源特性与模块化设计降低了开发门槛,同时支持与外部 AI 框架(如 Hugging Face、TensorFlow)的集成。该项目适合对实时交互、AI 模型应用或流媒体技术感兴趣的开发者与研究者,通过社区协作持续优化功能与扩展应用场景。
      • Gen-Verse/MMaDA
      • BAAI-DCAI/Bunny
      • shikras/shikra - 4 和 GPT-4V 等,并提供了一套全面的评估指标,如准确率、一致性和安全性。Shikra 的核心在于其灵活的评估流程,允许用户自定义数据集、提示模板和评估函数。它通过将评估任务分解为多个步骤,并利用分布式计算来加速评估过程。该项目旨在简化 MLLM 的评估,并帮助研究人员和开发者更好地理解和改进他们的模型。Shikra 还提供了一个易于使用的 Web 界面,用于管理评估任务和查看结果。它支持多种数据格式,并允许用户上传自己的数据集。此外,Shikra 具有良好的可扩展性,可以轻松地集成新的模型和评估指标。
      • OpenRobotLab/PointLLM
      • MME-Benchmarks/Video-MME - MME是一个CVPR 2025发布的视频分析多模态大语言模型(MLLMs)的综合评估基准。它是首个此类基准,旨在全面评估MLLMs在视频理解方面的能力。该基准包含多种视频分析任务,并提供了一套标准化的评估指标。Video-MME的目标是推动视频分析领域MLLM的发展,并促进公平的性能比较。它为研究人员提供了一个统一的平台,以测试和改进他们的模型。该项目包含详细的评估协议和数据集信息,方便用户进行实验。Video-MME的出现填补了视频分析MLLM评估领域的空白,将加速相关研究的进展。该项目提供了清晰的文档和示例代码,方便用户上手使用。通过使用Video-MME,研究人员可以更好地了解MLLMs在视频分析中的优势和局限性。该基准的发布将促进视频理解技术的进步。
      • tulerfeng/Video-R1 - R1项目是首个探索在多模态大语言模型(MLLMs)中利用强化学习(R1)进行视频推理的研究。它旨在提升MLLMs理解和推理视频内容的能力。该项目通过强化学习方法,优化模型在视频理解任务中的表现。核心思路是让模型学习如何更有效地利用视频信息进行推理。项目主要关注视频推理,即让模型能够根据视频内容做出合理的判断和预测。Video-R1的出现为视频理解领域的多模态大语言模型研究开辟了新的方向,有望显著提升模型在各种视频相关任务中的性能。该项目强调了强化学习在提升视频推理能力方面的潜力,并提供了一种新的研究思路。具体实现细节和实验结果可以在项目中找到。
      • YingqingHe/Awesome-LLMs-meet-Multimodal-Generation - LLMs-meet-Multimodal-Generation是一个精选的论文列表,专注于基于大型语言模型(LLMs)的多模态生成,涵盖图像、视频、3D和音频等领域。它旨在追踪LLMs在多模态内容生成方面的最新研究进展。项目汇集了相关论文,方便研究人员快速了解该领域的关键技术和发展趋势。该资源库可以帮助研究者深入探索如何利用LLMs生成各种类型的多媒体内容,例如根据文本生成图像、视频或者3D模型。通过学习这些论文,可以了解LLMs如何与不同的模态相结合,实现更丰富和多样化的内容创作。这个项目是LLMs和多模态生成交叉领域的一个宝贵资源。
      • open-compass/Creation-MMBench - MMBench是一个用于评估多模态大语言模型(MLLMs)在上下文感知创造力方面的基准。它包含超过3000个精心设计的上下文感知多项选择题,旨在测试模型在理解复杂视觉和文本上下文后生成创造性内容的能力。该基准专注于评估模型如何利用上下文信息来产生新颖、有用和令人惊讶的输出。题目涵盖了图像描述、故事续写、视觉问答等多种创造性任务,并包含多个难度级别。Creation-MMBench通过衡量模型在这些任务上的表现,来评估其创造性智能水平。该项目提供详细的评估指标和工具,方便研究人员使用和比较不同模型的性能。它能够帮助研究人员深入了解MLLMs在创造性任务中的优势和不足,并促进相关领域的发展。该基准的独特之处在于其对上下文感知的强调,使其能够更全面地评估MLLMs的创造力。Creation-MMBench为推动多模态大语言模型在创意应用中的发展做出了贡献。
      • MIRA-SJTU/STI-Bench - Bench是一个用于评估大型语言模型(MLLMs)在精确时空世界理解能力方面的基准测试项目。它由上海交通大学MIRA实验室开发,旨在探究MLLMs是否能够准确理解和推理现实世界的时空关系。该基准测试包含多种任务,例如时空定位、事件排序和预测等,涵盖了不同粒度和复杂度的时空推理场景。STI-Bench利用合成数据和真实世界数据来评估MLLMs的性能,并提供了一套完整的评估指标。项目特色在于其对时空理解的细粒度评估,能够帮助研究人员深入了解MLLMs在处理时空信息方面的优势和不足。通过STI-Bench,研究人员可以更好地开发和改进MLLMs,使其在需要精确时空推理的应用中表现更佳,例如自动驾驶、机器人导航和智能城市管理等。该项目提供数据集、评估代码和基线模型,方便研究人员进行实验和比较。
      • VectorSpaceLab/OmniGen2
      • EvolvingLMMs-Lab/lmms-eval - eval是一个旨在加速大型多模态模型(LMMs)开发的项目,它提供了一个一键评估模块。该项目简化了LMMs的评估流程,方便开发者快速了解模型性能。其核心功能是提供易于使用的评估工具,帮助研究人员和工程师更高效地迭代和改进LMMs。通过lmms-eval,用户可以快速评估LMMs在各种任务上的表现,从而加速模型的开发周期。该项目致力于降低LMMs评估的门槛,使更多人能够参与到LMMs的研究和开发中。它提供了一个标准化的评估框架,确保评估结果的可比性和可重复性。lmms-eval是LMMs开发者的得力助手,能够显著提升开发效率。
      • funstory-ai/BabelDOC
      • facebookresearch/metaclip
      • FlagOpen/RoboBrain
      • zai-org/GLM-V - org/GLM-V项目是基于GLM-4.5V和GLM-4.1V-Thinking模型开发的多模态推理系统,旨在通过可扩展的强化学习技术提升模型对视觉和语言信息的综合处理能力。该项目的核心特色在于结合了视觉模型与语言模型的双向交互机制,使系统能够同时解析图像内容并进行逻辑推理,例如在复杂场景中识别物体关系或生成基于图像的文本描述。其工作原理基于强化学习框架,通过大量多模态数据训练模型在视觉感知与语言生成之间建立动态反馈回路,优化模型对跨模态信息的关联理解能力,尤其在需要多步骤推理的任务中表现突出。项目团队通过设计可扩展的训练架构,允许用户根据具体需求调整强化学习的参数和奖励机制,从而适应不同应用场景的复杂度要求。此外,系统支持对视觉元素(如颜色、形状、位置)与文本语义的联合建模,能够处理包括图像描述生成、视觉问答、跨模态检索等任务。项目文档中特别强调了其在处理复杂视觉-语言关联任务时的稳定性与推理深度,例如在需要结合上下文信息进行多步骤推导的场景中,模型表现优于传统单模态系统。该系统已通过公开数据集验证其在多模态推理任务中的有效性,并提供预训练模型和可定制的强化学习模块,方便开发者根据实际需求进行扩展与优化。
      • HCPLab-SYSU/Embodied_AI_Paper_List - SYSU/Embodied_AI_Paper_List 是一个关于具身智能(Embodied AI)的论文和项目列表,主要聚焦于2024年的相关研究。该项目旨在整理和分享具身智能领域的最新进展,方便研究人员和开发者快速了解该领域的重要工作。它可能包含论文标题、作者、发表会议/期刊、项目链接等信息,方便用户查找和学习。该项目可能按照不同的具身智能任务或技术方向进行分类,例如导航、操作、交互等。具体内容结构需要查看项目本身才能确定。这个列表可以帮助研究者跟踪具身智能的发展趋势,并找到相关的代码和数据集。它是一个持续更新的项目,会不断添加新的论文和项目。
      • google-research-datasets/wit - 文本对,涵盖100多种语言和超过1100万张独特的图片。该数据集旨在促进多模态机器学习研究,特别是图像和文本的联合理解。WIT数据集的特色在于其规模庞大、语言多样性和基于维基百科的丰富信息。它通过从维基百科文章中提取图像及其对应的描述文本来构建。该数据集可以用于训练各种模型,例如图像描述生成、视觉问答和跨语言图像检索。WIT数据集为研究人员提供了一个宝贵的资源,用于探索多模态学习的潜力,并构建更智能、更通用的AI系统。该项目由Google Research开发并开源。
      • DAMO-NLP-SG/VideoLLaMA3 - 3,旨在提升视频理解能力,尤其在时间推理方面表现出色。该模型采用了一种新颖的框架,可以有效处理长视频,并实现更精确的视频内容理解。VideoLLaMA3支持多种任务,包括视频问答、视频描述生成等。项目提供了模型权重、代码和数据集,方便研究人员复现和进一步开发。其核心优势在于其强大的视频处理能力和对时间信息的有效利用,使其在视频理解领域具有显著优势。它通过结合视觉和语言信息,实现了对视频内容的更深入理解和更准确的预测。VideoLLaMA3的发布旨在推动多模态学习和视频理解领域的发展,并为相关应用提供更强大的基础模型。该项目是开源的,鼓励社区参与贡献和改进。
      • RLHF-V/RLAIF-V - V是一个开源项目,旨在通过人工智能反馈(AI Feedback)提升GPT-4V等视觉语言模型的可靠性和安全性。该项目基于RLAIF(Reinforcement Learning from AI Feedback)框架,利用AI而非人类来评估和改进模型的行为。其核心思想是训练一个奖励模型,该模型能够判断模型输出的好坏,并用此奖励信号来优化视觉语言模型。项目特色在于其开源性和对GPT-4V等先进模型的适配,目标是使AI系统更加可信赖。具体实现包括数据收集、奖励模型训练和强化学习优化三个阶段。项目代码和预训练模型将会开源,方便研究人员复现和进一步研究。该项目是CVPR 2025的论文成果,表明其在计算机视觉领域的学术价值。通过使用AI反馈,RLAIF-V有望减少人工干预,并提升模型训练的效率和可扩展性。
      • Ola-Omni/Ola
      • Kwai-YuanQi/MM-RLHF - RLHF项目旨在推动多模态大语言模型对齐的下一步发展。它提供了一个框架,用于对多模态LLM进行基于人类反馈的强化学习(RLHF),以提升其在视觉和语言理解方面的能力。该项目的主要特色在于其可扩展性和模块化设计,方便研究人员和开发者根据自身需求进行定制和扩展。MM-RLHF包含数据收集、模型训练和评估等关键环节,并提供了详细的文档和示例代码,方便用户上手。其核心工作原理是通过收集人类对模型输出的偏好数据,利用强化学习算法优化模型策略,使其生成更符合人类期望的答案。该项目支持多种多模态LLM架构,并提供了常用的数据集和评估指标。MM-RLHF的目标是使多模态LLM能够更好地理解和生成图像和文本,从而在各种应用场景中实现更高效、更智能的人机交互。它采用了一种迭代式的训练方法,不断提升模型的性能和对齐程度。总而言之,MM-RLHF是一个强大且灵活的工具,旨在促进多模态LLM对齐领域的研究和发展。
      • jam-cc/MMAD
      • moeru-ai/airi - ai团队开发的开源项目,它以"自托管"的形式提供类似Grok Companion的功能,被描述为"waifu灵魂的容器",旨在通过赛博技术将虚拟角色(waifu)的意识与现实世界连接,目标是实现接近Neuro-sama(神经元之神)级别的AI能力。该项目通过容器化技术实现虚拟角色的实时交互功能,支持Web、macOS和Windows多平台运行,核心功能包括实时语音聊天、Minecraft(我的世界)和Factorio(异星工厂)等游戏的操控能力。其技术原理基于容器化架构,将虚拟角色的"灵魂"(可能指AI模型或虚拟形象)封装在可独立运行的容器中,通过API接口与用户设备交互,实现跨平台的实时语音通信和游戏控制。项目特色在于强调用户数据的自主性(自托管模式),允许用户完全掌控虚拟角色的运行环境,同时通过容器技术降低部署门槛,使用户能够便捷地在不同操作系统上运行该系统。这种设计既满足了对虚拟角色互动体验的追求,也兼顾了隐私保护和本地化部署的需求。
      • xlang-ai/OSWorld-G - G是一个通过UI分解和合成来扩展计算机使用基础的项目。它旨在让AI智能体更好地理解和操作计算机界面。该项目利用大型语言模型(LLMs)来分解复杂的UI任务,并合成新的UI元素,从而提高智能体在计算机环境中的泛化能力。OSWorld-G的核心思想是将复杂的任务分解为更小的、更易于管理的子任务,然后利用LLMs生成相应的操作指令。通过这种方式,智能体可以学习如何与各种不同的UI元素进行交互,并完成复杂的计算机任务。项目特色在于其UI分解和合成方法,这使得智能体能够适应新的UI界面,而无需重新训练。该项目对于开发能够自主操作计算机的AI智能体具有重要意义,有望应用于自动化办公、软件测试等领域。
      • jy0205/LaVIT - 语言的统一建模。LaVIT的核心思想是利用视觉标记(Visual Tokens)作为视觉信息的桥梁,让语言模型能够像处理文本一样处理图像。该项目支持多种视觉任务,例如图像描述、视觉问答和图像生成。LaVIT的训练过程包括预训练和微调两个阶段,预训练阶段旨在学习视觉标记的表示,微调阶段则针对特定任务进行优化。项目提供了详细的代码和文档,方便用户进行实验和二次开发。LaVIT的主要优势在于其简单性和可扩展性,它能够轻松地集成到现有的语言模型中,并支持多种视觉模态。LaVIT为探索通用视觉-语言模型提供了一个有价值的框架。
      • UX-Decoder/DINOv - context Learning”的官方实现。该项目探索了视觉上下文学习,即无需微调即可适应新任务的能力。DINOv的核心思想是利用预训练的视觉模型,通过少量的示例图像来引导模型执行新的视觉任务。它基于DINOv2模型,并可能结合了Transformer架构。项目提供了代码和预训练模型,方便研究人员复现论文结果并进行进一步研究。该项目专注于提升视觉模型在不同任务上的泛化能力,减少对大量标注数据的依赖。DINOv通过上下文学习的方式,使模型能够快速适应新的视觉场景和任务要求。具体实现细节和实验结果可以在论文中找到。项目目标是推动视觉模型的通用性和易用性,为更广泛的视觉应用提供基础。
      • OpenGVLab/V2PE
      • PKU-YuanGroup/LLaVA-CoT - CoT是一个视觉语言模型,专注于实现自发和系统的推理能力。它通过结合LLaVA模型和思维链(CoT)提示策略,提升了模型在复杂视觉问题上的推理性能。该项目旨在让模型能够像人类一样,逐步思考并解释其推理过程,从而提高答案的准确性和可解释性。LLaVA-CoT的关键在于其能够生成中间推理步骤,模拟人类的思考过程。它支持多种视觉任务,例如视觉问答和视觉推理。项目代码和预训练模型已经开源,方便研究人员进行复现和进一步研究。该项目为开发更智能、更可靠的视觉语言模型提供了一个有价值的探索方向。它通过CoT提示,引导模型逐步分析图像内容,并最终得出答案。LLaVA-CoT在多个基准测试中表现出色,证明了其有效性。
      • cvlab-columbia/viper
      • Liuziyu77/Visual-RFT - RFT项目是“Visual Reinforcement Fine-Tuning”的官方代码仓库。它主要研究如何通过视觉强化微调来提升模型的性能。项目核心在于利用视觉信息作为强化学习的信号,指导模型进行微调。具体来说,它可能涉及使用视觉奖励函数来优化模型的视觉感知能力,从而改善模型在特定视觉任务上的表现。该项目可能包含相关的代码、数据集和实验结果,方便研究者复现和进一步研究视觉强化微调技术。通过学习该项目,可以了解如何将强化学习应用于视觉模型的微调过程,并探索视觉信息在模型优化中的作用。
      • microsoft/MM-REACT - REACT是由微软开源的项目,主要研究多模态交互,旨在提升大型语言模型(LLM)在处理涉及视觉信息的任务时的能力。该项目通过引入一个反应模块,使LLM能够与外部环境进行交互,从而更好地理解和处理多模态输入。MM-REACT的核心思想是让LLM不仅能观察(Observe),还能行动(Act)和推理(Reason),形成一个闭环反馈系统。具体来说,它允许LLM调用外部工具(如图像识别模型)来获取更多信息,并根据这些信息调整其输出。这种交互式的过程使得LLM能够更准确地理解图像内容,并生成更相关的文本描述或回答。MM-REACT的优势在于它能够有效地利用外部知识,克服LLM在多模态理解方面的局限性,从而在视觉问答、图像描述等任务中取得更好的性能。该项目提供代码和模型,方便研究人员复现和进一步探索多模态交互的潜力。
      • HumanMLLM/R1-Omni - Omni是一个开源的多模态大语言模型(MLLM),专注于解决现实世界任务中的具身智能问题。它通过学习世界模型,能够理解和预测不同模态(如图像、文本、动作)之间的关系,从而更好地进行决策和规划。R1-Omni的核心特色在于其世界模型的构建,它利用Transformer架构学习多模态数据的联合表示,并预测未来状态。该项目支持多种具身智能任务,例如视觉导航、操作和对话。R1-Omni的训练过程包括预训练和微调两个阶段,预训练阶段学习通用的多模态表示,微调阶段针对特定任务进行优化。项目提供了详细的文档和代码示例,方便用户进行实验和二次开发。R1-Omni旨在推动具身智能领域的发展,并为构建更智能的机器人提供新的思路。它采用端到端的方式学习,避免了复杂的中间步骤,提高了效率和泛化能力。项目代码使用PyTorch编写,易于理解和修改。R1-Omni的性能在多个基准测试中表现出色,证明了其有效性。
      • allenai/visprog
      • Alibaba-NLP/ViDoRAG
      • mbzuai-oryx/LlamaV-o1 - o1项目重新思考了大型语言模型(LLMs)中的逐步视觉推理。它旨在提升LLMs在处理视觉推理任务时的能力。该项目通过引入新的方法和技术,改进了LLMs在理解图像和执行逐步推理方面的表现。具体而言,它可能涉及对LLMs的架构、训练数据或推理过程进行修改,以使其更有效地处理视觉信息。该项目可能使用了Llama模型作为基础,并在此基础上进行了改进和扩展。目标是使LLMs能够更准确、更可靠地进行视觉推理,例如回答关于图像内容的问题或解决视觉难题。该项目的结果可能包括新的模型架构、训练策略或评估指标。该项目对LLMs在视觉领域的应用具有重要意义,并可能推动该领域的发展。
      • RLHF-V/RLHF-V - V项目是CVPR 2024的一项研究,旨在通过细粒度的修正性人类反馈,实现更值得信赖的多模态大型语言模型(MLLMs)。该项目提出了一种行为对齐方法,通过人类提供的细致修正意见来训练模型,使其行为更符合人类期望。核心思想是利用人类反馈来纠正模型在视觉理解和推理方面的错误,从而提高模型的可信度和可靠性。项目关注于提升MLLMs在处理视觉信息时的准确性和一致性,使其能够更好地理解图像并生成更合理的文本描述。这种方法通过对模型行为的微调,使其在复杂场景下能够做出更明智的决策,从而增强用户对模型的信任。简单来说,RLHF-V利用人类的“修改意见”来训练AI,让AI更好地理解图像并做出正确的判断,最终让AI更值得信任。
      • ModalMinds/MM-EUREKA - EUREKA 是一个探索视觉顿悟时刻的项目,它利用基于规则的大规模强化学习来实现。该项目旨在让智能体在视觉环境中发现并利用“顿悟”时刻,从而更有效地解决问题。MM-EUREKA 的核心思想是训练智能体识别并利用环境中存在的规则或模式,这些规则或模式可以帮助智能体快速找到最优解。项目使用了强化学习算法,通过奖励机制来鼓励智能体探索和发现这些规则。该项目的主要目标是提高智能体在复杂视觉环境中的学习效率和问题解决能力。MM-EUREKA 的一个关键特色是其基于规则的学习方法,这使得智能体能够更好地泛化到新的环境中。通过学习规则,智能体可以更快地适应环境变化并找到最佳策略。项目名称“EUREKA”本身就象征着顿悟时刻,体现了项目希望智能体能够像人类一样,通过发现规律来解决问题的愿景。总之,MM-EUREKA 是一个很有前景的研究方向,它有望推动强化学习在视觉环境中的应用,并为开发更智能的智能体提供新的思路。
      • VITA-MLLM/Long-VITA - VITA是一个旨在将大型多模态模型扩展到100万token,同时保持领先的短上下文准确性的项目。它通过引入视觉token聚合(VITA)方法,显著降低了长上下文多模态模型的计算成本。VITA的核心思想是逐步将视觉token聚合到更少的“视觉地标”中,从而减少后续Transformer层的处理量。该项目声称在长上下文多模态基准测试中实现了最先进的性能,同时在短上下文任务中保持了竞争力。Long-VITA的训练效率很高,可以在单个GPU上进行微调。项目提供了代码、模型权重和演示,方便用户尝试和复现结果。它支持多种视觉编码器和LLM,具有良好的灵活性。Long-VITA的出现为构建更高效、更强大的长上下文多模态模型提供了新的思路。该项目特别关注长上下文推理能力,并努力在长文本和图像处理方面取得平衡。
      • yfzhang114/mmrlhf-eval - eval项目旨在评估大型语言模型(LLM)在多模态强化学习人类反馈(RLHF)任务中的表现。它提供了一个全面的评估框架,包括数据集、评估指标和基准模型。该项目的特色在于其多模态性,能够处理图像、文本等多种输入模态,更贴近真实世界的应用场景。其工作原理是利用预训练的LLM作为策略网络,通过RLHF算法进行微调,使其更好地对人类反馈进行响应。评估指标包括奖励得分、成功率等,用于衡量模型的性能。项目提供了详细的实验设置和复现步骤,方便研究人员进行实验和比较。该项目对于研究多模态RLHF、提升LLM的智能体能力具有重要意义。它支持多种LLM模型,并提供可扩展的评估平台,方便用户自定义数据集和评估指标。 总之,mmrlhf-eval是一个用于多模态RLHF评估的强大工具,旨在推动LLM在智能体领域的应用。
      • huggingface/nanoVLM
      • OmniSVG/OmniSVG - 语言模型(VLM)生成复杂的SVG图像。该项目能够生成从简单图标到复杂动漫人物等各种细节丰富的SVG。OmniSVG的核心在于其利用VLM理解图像内容并将其转化为矢量图形的能力。它是一个多模态系统,意味着它可以处理多种输入类型(例如文本和图像)来生成SVG。OmniSVG旨在简化SVG创作流程,并为设计师和开发者提供强大的工具。该项目代表了AI在矢量图形生成领域的前沿探索。
      • SkyworkAI/Skywork-R1V - R1V 是一个开创性的多模态推理模型,它结合了视觉和语言能力,支持图像理解和推理。该模型的核心特色是 CoT(Chain-of-Thought,思维链)推理,允许模型逐步推导答案,提高准确性和可解释性。Skywork-R1V 在多个基准测试中表现出色,展示了其强大的多模态理解能力。项目提供模型权重、推理代码和训练细节,方便研究人员和开发者使用。它支持多种任务,例如视觉问答、图像描述等。该项目旨在推动多模态人工智能的发展,并为更复杂的人工智能应用铺平道路。Skywork-R1V 的 CoT 推理过程使其能够处理需要逐步分析和推理的任务,而不仅仅是简单的图像识别。模型架构和训练方法的详细信息可以在项目中找到。
      • MoonshotAI/Kimi-VL - VL是由MoonshotAI开发的混合专家视觉语言模型,专注于多模态推理、长文本理解和强大的Agent能力。它能够处理图像和文本信息,进行复杂的跨模态推理。该模型采用混合专家架构,允许模型针对不同的输入选择最合适的专家模块,从而提高性能和效率。Kimi-VL旨在解决传统视觉语言模型在长文本和复杂推理方面的局限性。项目目标是构建一个能够理解和生成自然语言,同时能够理解和处理视觉信息的智能Agent。该项目强调在多模态任务中实现更强的泛化能力和鲁棒性。其核心优势在于长文本上下文理解和多模态信息的融合能力。Kimi-VL的潜在应用包括智能助手、图像描述、视觉问答等领域。项目代码和模型权重可能会逐步开源,方便研究人员和开发者使用。该项目代表了视觉语言模型研究的前沿方向,致力于提升AI在复杂现实场景中的应用能力。
      • fagenorn/handcrafted-persona-engine
      • Farama-Foundation/miniwob-plusplus - 评论家方法等。 MiniWoB++ 提供详细的文档和示例代码,帮助用户快速上手。
      • hustvl/AlphaDrive
      • CaraJ7/MME-CoT - CoT项目旨在评估大型多模态模型(LMMs)中思维链(Chain-of-Thought, CoT)推理的质量、鲁棒性和效率。该项目提供了一个基准测试,用于衡量LMMs在多模态场景下的CoT推理能力。它关注CoT在提升推理能力的同时,对模型鲁棒性和计算效率的影响。通过MME-CoT,研究人员可以深入了解LMMs如何利用CoT进行复杂推理,并评估其在不同条件下的表现。该项目旨在推动多模态模型推理能力的提升,并为未来的研究提供参考。项目名称明确指出其核心内容:多模态环境下的思维链推理。
      • UCSC-VLAA/VLAA-Thinking - Thinking项目探索了训练具备R1推理能力的视觉-语言大模型(LVLM)的方法。它研究了使用监督微调(SFT)和强化学习(RL)两种训练范式,旨在提升LVLM的推理能力,使其能够像人类一样进行逐步推理。项目重点关注视觉问答(VQA)任务,并构建了一个名为VLAA(Vision-Language Action Association)的框架,该框架通过学习视觉信息与语言动作之间的关联来增强模型的推理能力。项目通过实验对比了SFT和RL在训练R1推理LVLM上的效果,并分析了两种方法的优缺点。VLAA框架的核心思想是将复杂的推理过程分解为一系列可学习的动作,模型通过学习这些动作来逐步解决问题。该项目为未来研究如何有效训练具备复杂推理能力的LVLM提供了有价值的参考,并为视觉-语言智能领域的发展做出了贡献。研究结果表明,SFT和RL在提升推理能力方面各有优势,具体选择取决于任务的特性和数据资源的可用性。该项目为进一步探索更有效的训练方法,例如结合SFT和RL的优势,提供了方向。
      • YvanYin/DrivingWorld
      • shufangxun/LLaVA-MoD - MoD是一个旨在缩小LLaVA模型尺寸的项目,通过MoE(Mixture of Experts)知识蒸馏来实现。该项目核心思想是将大型LLaVA模型的知识迁移到更小的模型上,同时利用MoE结构提升小模型的性能。具体而言,它使用大型LLaVA模型作为教师模型,训练一个包含多个专家的小型学生模型,每个专家负责处理特定类型的视觉或文本信息。通过这种方式,LLaVA-MoD能够在保持较高性能的同时,显著减少模型参数量和计算成本。该项目已被ICLR 2025接收。它专注于提升LLaVA模型在资源受限环境下的部署能力,并为多模态大模型的轻量化提供了一种有效的解决方案。项目代码和相关资源可在GitHub上找到,方便研究人员复现和进一步研究。
      • WYuan1001/AdaVD
      • zhoudw-zdw/PROOF - 语言模型的增量学习方法,旨在解决模型在学习新任务时遗忘旧知识的问题。该项目提出的方法名为PROOF,全称为"Prompt-aware Optimization with Feature Regularization"。PROOF的核心思想是利用Prompt提示来引导模型学习新知识,并结合特征正则化来保留旧知识。具体来说,PROOF首先通过Prompt提示来激活模型中与新任务相关的知识,然后利用优化算法来更新模型参数,同时使用特征正则化来约束模型参数的变化,从而避免模型遗忘旧知识。该项目在多个视觉-语言数据集上进行了实验,结果表明PROOF方法能够有效地提高增量学习的性能,并且在一定程度上缓解灾难性遗忘问题。该论文发表在TPAMI 2025上,证明了该方法在学术上的价值。项目代码开源,方便研究者复现和使用。
      • nnnth/UFO
      • cxxgtxy/USP
      • zhyblue424/TGA-ZSR - ZSR是一个NeurIPS 2024论文项目,旨在提升视觉-语言模型在零样本场景下的鲁棒性。该项目提出了一种文本引导的注意力机制(TGA),通过文本信息来引导视觉特征的学习,从而提高模型对图像噪声、对抗攻击和领域泛化的抵抗能力。核心思想是利用文本信息来增强视觉特征的判别性,减少模型对图像表面信息的依赖。TGA-ZSR不需要额外的训练数据或参数调整,可以很容易地集成到现有的视觉-语言模型中,例如CLIP。项目代码和模型权重已开源,方便研究者复现和使用。该方法在多个基准测试中取得了显著的性能提升,证明了其有效性和通用性。
      • AceCHQ/MMIQ - IQ)基准的评估代码库。它提供了一套工具来衡量模型在理解和推理图像和文本信息方面的能力。该基准测试旨在评估模型在各种任务上的表现,例如视觉问答、图像描述和视觉推理。评估代码库包含必要的脚本和数据集,以便用户可以轻松地评估他们自己的模型或重现现有模型的结果。MMIQ基准测试的重点是评估模型的常识推理、细粒度视觉理解和跨模态对齐能力。通过使用MMIQ,研究人员可以更好地了解多模态模型的优势和劣势,并推动该领域的发展。该项目提供清晰的评估指标和基准,方便比较不同模型的性能。用户可以利用该代码库来评估自己的模型,并为多模态智能研究做出贡献。
      • bytedance/ParGo
      • yaotingwangofficial/Awesome-MCoT - MCoT项目是一个关于多模态思维链(Multimodal Chain-of-Thought, MCoT)推理的综合性调查研究资源集合。该项目旨在整理和总结近年来在MCoT领域的重要论文、数据集、代码和相关资源,为研究者提供一个全面的参考。MCoT的核心思想是将思维链(Chain-of-Thought, CoT)推理方法扩展到多模态场景,即模型不仅利用文本信息,还能结合图像、音频等多种模态的信息进行逐步推理,从而提升复杂任务的解决能力。项目内容包括MCoT的定义、优势、不同类型的MCoT模型(如基于文本、图像、视频的MCoT)、以及MCoT在视觉问答、视觉推理、多模态对话等任务中的应用。通过系统性的整理,该项目旨在帮助研究人员快速了解MCoT领域的研究现状和发展趋势,并促进该领域的进一步发展。该项目收录了大量相关论文,并对这些论文进行了分类和整理,方便用户查找和学习。此外,项目还提供了一些常用的数据集和代码资源,方便用户进行实验和研究。
      • NanoNets/docext - premises)的非结构化数据提取、Markdown 格式转换及性能基准测试。该项目无需依赖光学字符识别(OCR)技术,通过自然语言处理(NLP)和模式匹配等方法,可直接从文本、表格、日志等非结构化数据中提取关键信息,并将其转换为结构化的 Markdown 格式,便于后续处理和分析。其核心功能包括:1)支持多种非结构化数据源(如文本文件、PDF、日志等)的自动化信息抽取;2)提供基于规则和机器学习模型的混合提取策略,用户可根据需求选择不同模式;3)内置性能评估工具,可对提取结果进行基准测试,对比不同方法的准确率和效率;4)所有操作均在本地完成,无需上传数据至云端,确保数据隐私安全。项目还与 IDP Leaderboard(https://idp-leaderboard.org/)联动,用户可将提取结果提交至该平台进行性能排名和优化建议。其优势在于无需 OCR 的轻量化部署、对非结构化数据的高适应性以及灵活的本地化处理能力,适用于企业级文档处理、智能客服数据解析等场景。开发者可通过自定义规则库和模型参数,进一步提升提取精度,同时支持将处理后的 Markdown 内容导出为标准格式,便于集成至其他系统。
      • Robbyant/lingbot-world - -env=CartPole-v1` 这条命令来训练一个 CartPole 代理,它会在几万步后就能拿到超过 200 的奖励;如果想要查看进度,只需打开 TensorBoard 或者 W&B 即可视化损失曲线、奖励变化。为了方便复现,README 给出了完整的安装指引:先装 `pip install -r requirements.txt`(其中含有 PyTorch、Gym 等);随后在 `configs/` 里可以挑选不同环境对应的参数文件;如果你想改动网络层数或学习率,只要把配置文件里的值调成你需要的即可。 项目最大的亮点是它把实验细节做得极其“可读”,代码注释清晰,模块命名直观。每个类都有 docstring 说明输入输出;训练脚本里有 `--log_dir` 参数可以自定义日志文件夹;在 README 的 “Contribution” 部分更列了贡献流程:先 fork → 开新分支 → PR 并上来。由于采用 MIT 协议,任何人都可自由修改、商业化或�入自己的项目里。 最后,若你想进一步扩展它,你可以把自定义的 Gym 环境直接挂进 `env_wrappers.py` 那层,保持接口一致;或者在 Controller 里换成 PPO 或 DDPG 这类更先进控制器。总之,这个 LingBot‑World 为“从观测到规划”提供了一个完整、易用、可扩展的基石,为研究者和爱好者降低实验门槛,聚焦创新点——即让代理能在未知环境里自己建模并利用模型做决策。
      • WEIFENG2333/VideoCaptioner
      • om-ai-lab/VLM-R1 - R1 是一个用于解决视觉理解问题的项目,它利用了强化学习来优化视觉语言模型 (VLM)。该项目的核心思想是通过奖励机制来引导 VLM 学习更有效的视觉推理策略。具体来说,VLM-R1 通过强化学习训练 VLM,使其能够更好地理解图像内容并回答相关问题。项目特色在于其强化学习框架,可以提升 VLM 在复杂视觉任务上的表现。 VLM-R1 的训练过程包括定义奖励函数、设计动作空间和状态空间等关键步骤。该项目提供了一套完整的工具和代码,方便研究人员复现和扩展。 VLM-R1 的目标是推动视觉语言理解领域的发展,为更智能的视觉应用提供技术支持。项目代码和模型权重均已开源,方便社区使用和改进。 VLM-R1 在视觉问答、图像描述等任务上展现了强大的性能。 开发者可以通过该项目学习如何将强化学习应用于 VLM 的训练中。 VLM-R1 的出现为 VLM 的研究提供了一个新的视角和方法。 该项目将有助于提高 VLM 在实际应用中的可靠性和准确性。
      • LLaVA-VL/LLaVA-NeXT - NeXT 是一个视觉语言模型,是 LLaVA 系列的下一代模型。它通过更高效的训练和架构改进,在各种视觉语言任务上实现了显著的性能提升。该模型采用端到端训练,利用视觉编码器和大型语言模型进行联合学习。LLaVA-NeXT 的关键改进包括更强的视觉表示能力、更有效的多模态融合机制以及优化的训练策略。项目特点在于其卓越的零样本泛化能力和对复杂视觉场景的理解能力。它在视觉问答、图像描述和视觉推理等任务中表现出色。该项目提供了详细的代码、模型权重和训练脚本,方便研究人员和开发者使用和扩展。LLaVA-NeXT 旨在推动视觉语言理解领域的发展,并为构建更智能的 AI 系统奠定基础。它通过创新的架构设计和训练方法,实现了性能和效率的平衡。该项目还提供了丰富的文档和示例,帮助用户快速上手并探索模型的潜力。
      • MenghaoGuo/Awesome-Vision-Attentions - Vision-Attentions 收集了视觉注意力机制相关的论文。项目特色在于整理了大量视觉注意力相关的研究工作。项目计划基于Jittor框架逐步发布相关代码。该项目旨在为研究者提供一个全面的视觉注意力机制资源库。它涵盖了各种类型的视觉注意力模型,并可能包括论文的简要概述和关键技术。通过该项目,用户可以快速了解视觉注意力领域的最新进展。该项目将持续更新,并提供更多有价值的信息和资源。基于Jittor的代码实现将有助于研究人员复现和改进现有的注意力机制。该项目是学习和探索视觉注意力机制的宝贵资源。
      • roboflow/maestro - 2和Qwen2.5-VL)的微调过程。该项目提供了一套工具和工作流程,帮助开发者更高效地调整这些模型,使其适应特定的任务和数据集。Maestro可能包含数据准备、模型训练、评估和部署等环节的优化。它可能利用Roboflow的现有平台或工具,例如数据标注和管理功能,来加速微调流程。该项目专注于提高多模态模型的性能和易用性,让开发者更容易地利用这些先进模型解决实际问题。具体实现细节和使用方法请参考项目文档。
      • mbzuai-oryx/Video-ChatGPT - ChatGPT是一个视频对话模型,能够针对视频生成有意义的对话,已被ACL 2024收录。该项目结合了大型语言模型(LLMs)的能力和一个预训练的视觉编码器,该编码器适用于时空视频表示。其核心在于利用视觉编码器提取视频中的时空信息,并将其与LLM结合,从而实现视频理解和对话生成。该项目还引入了一种严格的“定量评估基准”,用于评估基于视频的对话模型,旨在推动该领域的发展。Video-ChatGPT的主要特色在于其强大的视频理解能力和高质量的对话生成能力,以及其提供的评估基准。该项目为研究人员提供了一个强大的工具,可以用于开发更先进的视频对话系统。
      • kakaobrain/coyo-dataset - 700M是一个由Kakaobrain开发的大规模图像-文本对数据集。它包含约7亿个图像-文本对,旨在推动视觉和语言理解领域的研究。该数据集通过从Common Crawl数据中自动提取图像及其周围的文本构建而成。COYO-700M的特色在于其规模庞大,涵盖了广泛的主题和视觉内容,使其成为训练大型视觉语言模型(如CLIP)的理想选择。项目提供了数据集的详细信息、下载链接以及使用示例。研究人员可以利用COYO-700M来训练和评估各种视觉语言任务,例如图像检索、图像字幕和视觉问答。该数据集的构建过程注重效率和可扩展性,使其能够随着Common Crawl数据的增长而不断更新。COYO-700M的发布旨在促进开放研究,并为社区提供一个强大的资源来探索视觉和语言之间的联系。该项目还包含用于数据处理和评估的工具,方便用户使用和定制数据集。
      • DAMO-NLP-SG/VideoLLaMA2 - 时间注意力机制来捕捉视频中的复杂动态,并结合音频信息来增强对视频内容的理解。VideoLLaMA 2支持多种分辨率的视频输入,并采用了多阶段训练方法,包括预训练、指令调优和对齐学习,以提高模型的泛化能力和生成质量。项目提供了代码、模型权重和演示,方便用户进行实验和应用。核心优势在于其强大的时空建模能力和对音频信息的有效利用,使其在视频理解任务中表现出色。VideoLLaMA 2是开源的,可以促进视频理解领域的研究和发展。
      • OpenGVLab/VisionLLM - 4等,并持续探索新的架构和训练方法。VisionLLM模型能够执行图像描述、视觉问答、图像生成等多种任务。其核心工作原理通常涉及将视觉信息编码为向量表示,并与文本信息进行融合,然后利用Transformer等架构进行学习和推理。该项目旨在推动多模态人工智能的发展,为更智能的视觉应用提供基础。项目提供了代码、模型权重和数据集等资源,方便研究者和开发者使用。VisionLLM的目标是构建通用且高效的视觉语言模型,解决现实世界中的复杂问题。
      • rhymes-ai/Aria - ai开发。它旨在提供一个灵活且可扩展的多模态AI平台。Aria的核心特色是其原生MoE(Mixture of Experts)架构,这意味着模型由多个“专家”组成,每个专家处理特定类型的数据或任务,并通过门控机制动态选择合适的专家组合来完成任务。项目代码库包含了模型的实现、训练脚本和评估工具。Aria支持多种模态的输入,例如图像、文本和音频,并能够执行各种多模态任务,如图像描述、视觉问答等。该项目旨在促进多模态AI的研究和应用,并提供一个可定制的平台供开发者使用。Aria的设计目标是实现高性能和高效率,同时保持模型的可解释性和可调试性。项目团队rhymes-ai致力于推动开源AI的发展,并鼓励社区参与Aria的开发和改进。
      • HumanAIGC-Engineering/OpenAvatarChat - Engineering的开源项目,旨在打造一个逼真的、可交互的虚拟化身聊天系统。它利用先进的AI技术,包括语音识别、自然语言处理、文本到语音转换和动画生成,来实现与虚拟化身的实时对话。该项目的特色在于其高度逼真的化身形象和流畅自然的交互体验。其工作原理是首先通过语音识别将用户的语音转化为文本,然后使用自然语言处理技术理解用户的意图,并生成相应的回复。接着,项目使用文本到语音转换技术将回复转化为语音,并同步驱动虚拟化身的动画,从而实现逼真的对话效果。OpenAvatarChat支持多种定制选项,允许用户自定义化身的外观、声音和行为。项目还提供详细的文档和示例代码,方便开发者快速上手和二次开发。该项目为构建下一代人机交互界面提供了强大的工具和框架,应用前景广阔,例如虚拟助手、在线教育和游戏等领域。
      • DCDmllm/HealthGPT - 语言模型,旨在统一医学图像的理解和生成任务。该项目是论文"HealthGPT : A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation"的官方代码仓库。HealthGPT的核心特色在于通过异构知识适配,能够有效处理医学图像和文本信息。它利用大型语言模型的能力,结合视觉信息,实现对医学图像的深入理解和相关报告的生成。项目主要关注医学图像的分析和理解,例如X光片、CT扫描等。HealthGPT通过学习大量的医学图像和文本数据,能够生成高质量的医学报告,辅助医生进行诊断。该项目为医学影像分析和报告生成提供了一个强大的工具,具有重要的临床应用价值。
      • TideDra/lmm-r1 - r1项目旨在扩展OpenRLHF框架,使其能够支持大型多模态模型(LMM)的强化学习训练,目标是复现DeepSeek-R1在多模态任务上的表现。该项目利用强化学习(RL)方法训练LMM,使其在处理图像、文本等多种模态数据时能够表现更佳。关键在于将OpenRLHF的优势应用于多模态领域,从而提升LMM在复杂任务中的性能。通过该项目,研究人员可以更方便地进行LMM的RL训练,并探索多模态学习的潜力,最终可能促成更强大的多模态人工智能系统。项目核心是利用OpenRLHF的强化学习能力,针对LMM进行优化,使其在多模态任务上达到DeepSeek-R1的水平。
      • turningpoint-ai/VisualThinker-R1-Zero - R1-Zero是一个探索多模态“顿悟”的开源项目,基于2B模型。它旨在让模型能够像人类一样,通过视觉和文本信息的结合,产生更深层次的理解和推理。该项目专注于小型模型,便于研究和部署。VisualThinker-R1-Zero的核心思想是让模型能够将视觉信息与文本描述联系起来,从而实现更高级的认知能力。项目可能包含模型架构、训练数据、评估指标和使用示例。通过研究VisualThinker-R1-Zero,开发者可以深入了解多模态学习和模型推理的机制。该项目为构建更智能、更具理解能力的AI系统提供了一个有价值的起点。它强调了在有限资源下实现强大智能的可能性。VisualThinker-R1-Zero的成功将推动多模态AI在各个领域的应用。
      • joanrod/star-vector - 语言建模架构,能够处理视觉和文本输入,并生成高质量且精确的SVG代码。StarVector的核心特色在于其能够理解图像内容并将其转化为可编辑的矢量图形代码,这得益于其强大的视觉-语言理解能力。它通过学习大量的图像和对应的SVG代码,实现了从像素到代码的直接转换。用户可以提供图像或文本描述,StarVector便能生成相应的SVG矢量图。该项目为矢量图形的创建和编辑提供了一种全新的方法,尤其适用于需要高精度和可编辑性的场景。
      • aigc3d/LAM_Audio2Expression
      • ritzz-ai/GUI-R1 - R1是一个通用的R1风格的视觉-语言-动作模型,专为GUI代理设计。该项目是GUI-R1的官方实现。它旨在让GUI代理能够理解视觉和语言信息,并执行相应的操作。GUI-R1模型的核心在于其能够处理GUI界面的复杂性和多样性。它通过学习大量的GUI数据,掌握了不同GUI元素之间的关系和交互方式。该模型采用了一种新颖的架构,能够有效地融合视觉和语言信息,并生成准确的动作指令。GUI-R1可以应用于各种GUI自动化任务,例如网页浏览、软件测试和数据录入。该项目提供了详细的文档和示例代码,方便用户快速上手和使用。GUI-R1的主要优势在于其通用性和高效性,能够显著提高GUI代理的性能和效率。
      • GeWu-Lab/AnyTouch - 动态表示的项目,论文发表于ICLR 2025。它旨在解决不同触觉传感器数据融合的问题,通过学习统一的表示,实现对静态和动态触觉信息的有效建模。该项目可能包含用于训练和评估模型的代码、数据集以及预训练模型。AnyTouch的核心在于其能够学习到一种通用的触觉表示,从而可以应用于各种触觉感知任务,例如物体识别、姿态估计和操作规划。项目重点关注视觉和触觉信息的融合,利用视觉信息辅助触觉感知,提高触觉感知的准确性和鲁棒性。它可能采用了深度学习技术,例如卷积神经网络和循环神经网络,来提取和融合视觉和触觉特征。AnyTouch的研究成果有望推动机器人触觉感知的发展,使其能够更好地理解和操作周围环境。该项目提供了一个统一的框架,用于处理来自不同类型触觉传感器的信息,简化了触觉感知系统的设计和开发。
      • Yingshui-Tan/PSA-VLM - VLM 是一个基于像素语义对齐的视觉语言模型,旨在提升视觉语言理解能力,尤其是在细粒度图像理解和定位方面。该模型通过像素级别的语义对齐,能够更准确地理解图像内容和文本描述之间的对应关系。项目特色在于其像素语义对齐模块(PSA),该模块利用预训练的语义分割模型提取像素级别的语义信息,并将其与文本嵌入进行对齐。PSA-VLM 的工作原理是首先使用预训练的视觉和语言模型提取图像和文本的特征,然后通过 PSA 模块学习像素级别的语义对齐,最后将对齐后的特征用于视觉语言任务,例如视觉问答和图像文本检索。该项目提供代码和预训练模型,方便研究人员复现和使用。PSA-VLM 在多个视觉语言任务上取得了有竞争力的结果,证明了其有效性。该项目主要贡献在于提出了像素语义对齐的概念,并设计了相应的模块来实现像素级别的视觉语言理解。
      • Open-LLM-VTuber/Open-LLM-VTuber - LLM-VTuber是一个跨平台本地运行的虚拟主播项目,支持通过无接触语音交互与大型语言模型(LLM)对话,具备语音中断响应功能,结合Live2D技术实现面部动画效果。项目核心特色包括:1)无需物理设备即可通过语音指令与LLM进行实时互动;2)支持语音中断检测,可在对话中即时打断并切换话题;3)集成Live2D动画引擎,通过本地运行生成动态面部表情和动作;4)兼容Windows、Mac、Linux等多平台,所有功能均在本地执行无需云端依赖。技术原理基于LLM模型的语音识别与合成技术,结合Live2D框架实现面部动画渲染,所有交互逻辑通过本地服务端处理,确保数据隐私与低延迟响应。项目适用于虚拟主播、AI助手、教育娱乐等场景,用户可自定义角色形象与交互流程,适合开发者和AI爱好者进行本地化部署与二次开发。
      • QwenLM/Qwen3-Omni - Omni是由阿里云Qwen团队开发的端到端多模态大语言模型,具备同时理解和生成文本、音频、图像、视频等多模态数据的能力,并支持实时语音生成。该项目通过统一的模型架构实现跨模态交互,采用分层设计将不同模态的处理模块(如视觉编码器、语音解码器等)与核心语言模型进行高效融合,能够处理包括图像描述生成、视频内容分析、语音指令理解等复杂任务。模型训练基于海量多模态数据,涵盖文本、图像、音频及视频的组合场景,通过自监督学习和跨模态对齐技术提升多模态表征能力。Qwen3-Omni支持多种输入输出格式,例如可将视频内容转化为文本描述,或根据文本生成语音输出,其实时生成能力通过优化语音合成模块的延迟控制实现。项目代码已开源,采用Apache 2.0许可协议,适用于需要多模态交互的智能应用开发,如虚拟助手、内容创作工具等。模型架构设计强调端到端训练,减少模态间的信息损失,同时支持通过API或本地部署方式进行调用,开发者可根据需求选择不同规模的模型版本。
      • EvolvingLMMs-Lab/open-r1-multimodal - Lab团队基于open-r1项目开发了一个支持多模态训练的分支项目open-r1-multimodal,该项目通过集成视觉和文本模态的数据处理能力,扩展了原始模型的跨模态学习功能。项目核心创新在于引入了多模态融合机制,通过Transformer架构同时处理图像和文本输入,实现了跨模态特征的对齐与交互。模型结构包含视觉编码器(如ResNet)和文本编码器(如BERT),并通过交叉注意力模块实现模态间的信息交互,最终输出统一的多模态表示。训练过程中采用自监督预训练策略,结合对比学习和掩码语言建模任务,提升了模型对复杂场景的理解能力。项目提供完整的数据预处理流程,支持多模态数据的联合训练与评估,包含预训练脚本、微调示例及性能指标分析工具。此外,项目文档详细说明了模型架构设计、训练参数配置和部署方法,适用于需要跨模态任务(如图文检索、视频描述生成)的研究者。该分支通过代码优化实现了更高的训练效率,且支持分布式训练和多种评估指标(如BLEU、ROUGE、CLIP分数),为多模态大模型研究提供了完整的技术框架。
      • LAION-AI/CLIP-based-NSFW-Detector
      • inclusionAI/Ming
      • bytedance/XVerse
      • MeiGen-AI/InfiniteTalk - AI开发的开源项目,专注于生成无限长度的对话类视频内容。项目支持两种核心功能:图像到视频生成(通过输入静态图像生成动态对话视频)和视频到视频生成(基于现有视频片段生成无限延长的视频内容)。其核心技术基于多模态深度学习模型,采用时间序列建模架构,结合扩散模型和transformer架构实现高分辨率、自然流畅的对话视频生成。 项目的工作原理通过分离视觉与语音模态处理:视觉部分使用时空注意力机制捕捉面部表情和肢体动作的动态变化,音频部分采用语音合成技术生成自然对话。模型训练过程中融合了大规模视频数据集,通过对比学习优化跨模态对齐效果,确保生成视频在时间维度上具有连贯性。特别设计的无限生成机制允许视频时长不受限制,用户可通过调整参数控制生成速度和画质。 该项目适用于虚拟角色创建、教育视频生成、娱乐内容制作等场景,提供命令行工具和API接口实现快速部署。开发者文档详细说明了训练流程、模型结构和优化策略,支持用户自定义训练数据。项目开源在GitHub,采用MIT协议,允许商业使用。实验结果显示,生成视频在FID指标上达到行业领先水平,且能保持对话内容的语义连贯性。
      • ishan0102/vimGPT - 4V 模型与 Vimium 快捷键操作的网页浏览工具,旨在通过 AI 强化浏览器的交互效率。项目核心功能是利用 GPT-4V 的多模态能力(文本+图像理解)对网页内容进行智能分析,同时整合 Vimium 的键盘操作逻辑,为用户提供类似 Vim 编辑器的高效浏览体验。其工作原理是通过浏览器扩展将网页内容输入 GPT-4V 模型,利用其视觉识别和自然语言处理能力生成摘要、提取关键信息或执行指令,再通过 Vimium 的快捷键体系实现快速导航、内容标记和交互操作。 项目特色包括:1)通过 GPT-4V 的视觉模型直接解析网页中的图像、表格等非文本信息;2)支持自定义指令,如“提取网页中的所有链接”或“总结当前页面内容”;3)Vimium 风格的键盘快捷键(如 hjkl 控制页面滚动、/ 搜索等),提升浏览效率;4)轻量级设计,无需复杂配置即可在主流浏览器中运行。该项目适合需要高频处理网页信息的开发者或研究人员,通过 AI 辅助减少手动操作,但需注意 GPT-4V 的 API 调用成本和模型响应延迟问题。目前项目支持 Chrome 和 Firefox 浏览器,安装后需在扩展设置中配置 GPT-4V 的 API 密钥以启用 AI 功能。
      • Fancy-MLLM/R1-Onevision - Onevision是一个专注于视觉语言模型的开源项目,其核心功能是通过深度链式推理(Chain of Thought, CoT)技术实现对复杂任务的多步骤逻辑分析。该项目旨在解决传统视觉语言模型在处理需要分步推理或跨模态综合判断的任务时的局限性,例如需要结合图像内容与文本信息进行逻辑推导或场景理解的场景。其工作原理基于多阶段的模块化设计,首先通过视觉模块提取图像中的关键特征,再通过语言模块解析文本输入,最后利用深度链式推理机制将两者信息进行动态整合与逻辑推演。这种结构特别适用于需要分步验证或条件判断的任务,例如复杂场景下的问答、图像内容推理或跨模态逻辑验证。项目代码库中包含完整的训练脚本和预训练模型权重,支持用户通过微调适配特定任务,同时提供了可视化推理过程的调试工具,可直观展示模型在不同推理步骤中的决策路径。其技术亮点包括对多模态信息的深度融合机制、支持动态调整推理深度的模块化架构,以及基于真实场景数据集的训练优化,能够有效提升模型在复杂任务中的准确率与鲁棒性。此外,项目文档详细说明了如何部署模型到本地服务器或集成到应用程序中,适合需要高精度视觉语言理解的工业级应用。
      • NVlabs/Fast-dLLM - dLLM项目是NVIDIA实验室开发的“Fast-dLLM”技术的官方实现,其核心目标是通过无需额外训练的优化方法加速扩散语言模型(Diffusion LLM)的推理过程。该项目基于论文《Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding》提出,其核心创新在于通过启用键值缓存(KV Cache)和并行解码技术,显著提升模型推理速度,同时保持模型精度。具体而言,该技术通过优化KV缓存机制,减少重复计算的冗余,同时利用并行解码策略,使模型能够同时处理多个解码任务,从而提升整体效率。项目特别强调“无训练加速”特性,即无需对原有模型进行微调或重新训练,仅通过算法优化即可实现加速效果。技术实现上,Fast-dLLM针对扩散模型的推理瓶颈进行优化,例如在生成过程中减少对中间结果的重复计算,并通过硬件加速(如GPU并行计算)提升并行解码的效率。项目优势包括:推理速度提升显著、资源消耗降低、与主流模型架构兼容性强,适用于需要快速部署大规模语言模型的场景。该方案尤其适合对实时性要求高的应用,例如对话系统、内容生成等场景,能够在保证生成质量的前提下,大幅缩短响应时间。开发者通过开源代码,提供了完整的实现细节和基准测试结果,便于研究人员和开发者直接使用或进一步优化。该项目的发布为扩散语言模型的轻量化和高效推理提供了新的解决方案,是当前LLM优化领域的重要进展之一。
      • liuhuadai/OmniAudio
      • OpenBMB/AgentCPM-GUI - GUI 是一个专为 Android 设备设计的图形化代理工具,旨在通过强化微调技术提升对安卓应用的操作能力与任务执行效率。该项目的核心功能是通过本地图形界面(GUI)直接操作安卓应用,利用增强的推理能力优化任务执行流程,例如自动化操作、数据提取或交互流程。其技术原理基于强化学习(Reinforcement Learning)的微调方法,通过不断优化模型对安卓应用交互的决策过程,从而在复杂任务中实现更高效、准确的操作。与传统的自动化工具相比,AgentCPM-GUI 的优势在于其本地化部署(无需云端依赖)、图形化交互界面(降低使用门槛)以及通过模型优化提升的执行效率。项目可能适用于需要自动化安卓应用操作的场景,例如测试、数据抓取或智能助手开发。开发者需注意,该项目可能依赖特定的安卓环境配置或模型训练框架(如 PyTorch 或类似工具),具体实现细节需参考项目文档。目前,该项目作为开源项目提供,用户可基于其代码进行二次开发或集成到其他系统中。总体而言,AgentCPM-GUI 通过结合强化学习与图形化交互,为安卓应用自动化提供了一种高效且直观的解决方案。
      • ModelTC/Qwen-Image-Lightning - Image-Lightning是一个基于Qwen-Image模型优化的轻量化视觉模型项目,通过知识蒸馏技术显著提升了模型的推理速度并降低了计算资源需求。该项目核心工作原理是利用大规模教师模型(Qwen-Image)生成的软标签对轻量级学生模型进行训练,使学生模型在保持较高精度的同时实现参数量级的压缩(约减少60%参数),并优化推理流程以提升处理速度(约提升50%)。项目采用分层蒸馏策略,通过多阶段训练逐步精调模型,同时引入动态剪枝技术进一步减少冗余计算,特别适用于移动端、边缘设备等资源受限场景。模型结构经过重新设计,采用轻量级卷积模块和高效注意力机制,在保持图像理解能力的前提下,推理速度可达120FPS(在V100 GPU上测试),支持多尺度输入和跨模态任务。开发者提供了完整的训练脚本和推理示例,用户可通过简单命令启动模型训练(如`python train.py --config config.yaml`),并附有详细的模型量化和部署指南。项目已通过PyTorch框架实现,兼容常见的图像分类、目标检测和图像生成任务,且提供预训练权重下载链接。目前社区已支持自定义蒸馏损失函数扩展,开发者可贡献新的蒸馏策略或优化方案,所有代码均遵循Apache 2.0协议开放。
      • yihedeng9/OpenVLThinker - 语言推理的早期项目,它通过迭代自提升的方式进行学习。该项目旨在提升模型在视觉和语言理解任务上的表现,核心思想是让模型在训练过程中不断自我纠正和完善。具体来说,OpenVLThinker采用迭代的方法,模型首先生成一个初步的推理结果,然后根据一定的反馈机制对结果进行评估和改进,这个过程会多次重复,直到模型达到满意的性能。项目代码和相关资源都可以在GitHub上找到,方便研究者进行复现和进一步开发。该项目为视觉-语言推理领域提供了一个新的思路,并展示了迭代自提升方法在提升模型性能方面的潜力。
      • HKUDS/Paper2Slides
      • minitap-ai/mobile-use
      • zai-org/Open-AutoGLM - AutoGLM是一个开源的AI手机代理模型与框架项目,旨在通过开放技术降低AI电话的使用门槛,让每个人都能便捷地利用AI实现智能语音交互与自动化任务处理。项目基于Transformer架构设计,支持多模态输入(如语音、文本、图像)与端到端的推理优化,能够快速响应用户指令并执行复杂操作,例如智能语音助手、自动化任务调度等。其核心特色包括:1)模块化设计,允许开发者灵活集成语音识别、自然语言处理及任务执行模块;2)优化的推理速度与资源占用,适配移动端设备;3)开源框架支持自定义模型训练与部署,用户可基于现有代码快速开发专属AI电话应用。工作原理上,项目通过预训练的语音-文本转换模型解析用户输入,结合任务规划模块调用外部API或本地功能完成操作,并通过强化学习持续优化交互逻辑。项目特别强调对隐私保护的支持,所有数据处理均在本地完成,无需云端传输。目前,开发者可通过GitHub获取完整代码与文档,社区鼓励贡献新模块或改进现有算法,以共同完善AI电话生态。该框架已应用于智能语音助手、智能家居控制等场景,未来计划扩展至多语言支持与更复杂的交互逻辑,推动AI技术在移动端的普及与创新。
      • EMMA-Bench/EMMA - Bench/EMMA项目是ICML 2025口头报告论文《Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark》的官方实现,旨在构建一个增强型多模态推理基准,用于评估大规模语言模型(MLLMs)在跨模态任务中的推理能力。该项目的核心特色在于设计了覆盖文本、图像、音频等多模态数据的多样化任务,包含逻辑推理、事实验证、跨模态检索等场景,通过标准化的评估指标(如准确率、推理链质量)量化模型表现。EMMA的工作原理基于对现有多模态数据集的增强与扩展,通过引入复杂场景的复合任务(如结合文本描述与图像生成的推理题)提升评估难度,同时采用模块化设计支持灵活的任务配置。项目提供的基准测试集包含超过10万条人工标注的多模态样本,覆盖12种语言和5种模态组合,特别强调对模型跨模态理解能力的测试,例如要求模型根据图像内容生成描述并进行逻辑推断。此外,EMMA还引入动态评估框架,可自动生成任务难度梯度,支持对模型鲁棒性与泛化能力的深度分析。该项目已被ICML 2025接收为口头报告,目标为研究社区提供一个统一、可扩展的多模态推理评估平台,推动MLLMs在复杂多模态场景中的应用发展。
    • 网络服务_其他

      • MMInstruction/M3IT - 80 找到。
      • LargeWorldModel/LWM - Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。 这项工作为在长视频和语言的海量数据集上进行训练铺平了道路,以发展对人类知识和多模态世界的理解,以及更广泛的能力。
      • mlfoundations/open_flamingo
      • https://github.com/SoraWebui/SoraWebui
      • harry0703/MoneyPrinterTurbo - api、通义千问、Google Gemini、Ollama、 DeepSeek、 文心一言 等多种模型接入;中国用户建议使用 DeepSeek 或 Moonshot 作为大模型提供商。
      • haotian-liu/LLaVA - 4 级别功能构建的大型语言和视觉助手。
      • BradyFU/Awesome-Multimodal-Large-Language-Models
      • THUDM/VisualGLM-6B
      • DAMO-NLP-SG/M3Exam
      • NExT-GPT/NExT-GPT - LLM,可感知输入并以文本,图像,视频和音频等的任意组合(任意对任意)生成输出。NExt-GPT建立在现有的预训练LLM,多模态编码器和SoTA扩散模型之上,具有足够的端到端指令调谐。`1. 多模态编码阶段。`利用已建立的编码器以各种模式对输入进行编码,其中这些表示通过投影层投影为LLM可理解的类似语言的表示。`2. LLM理解和推理阶段。`利用现有的开源LLM作为核心来处理语义理解和推理的输入信息。LLM不仅直接生成文本标记,而且还生成独特的“模态信号”标记,这些令牌作为指令来指示解码层是否以及相应地输出什么模态内容。`3. 多模式生成阶段。`基于变压器的输出投影层通过来自LLM(如果有)的特定指令接收多模态信号,将信号令牌表示映射到以下多模态解码器可以理解的表示中。
      • OpenBMB/VisCPM - Bee(10B)作为语言基座模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段:`1.预训练`:我们使用约100M高质量英文图文对数据对VisCPM-Chat进行了预训练,数据包括CC3M、CC12M、COCO、Visual Genome、Laion等。在预训练阶段,语言模型参数保持固定,仅更新视觉编码器的参数,以支持大规模视觉-语言表示的高效对齐。`2.指令精调`:采用LLaVA-150K英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,更新全部模型参数,以提升指令精调数据的利用效率。有趣的是,发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。表明模型的多语言多模态能力已得到良好泛化。在指令精调阶段进一步加入少量中文翻译数据,可以将模型回复语言和用户问题语言对齐。
      • X-PLUG/mPLUG-Owl
      • airaria/Visual-Chinese-LLaMA-Alpaca
      • alpha-vllm/lumina-t2x - T2X是一个统一的框架,用于文本到任何模态生成。一系列文本条件扩散转换器 (DiT),能够将文本描述转换为生动的图像、动态视频、详细的多视图 3D 图像和合成语音。Lumina-T2X的核心是基于流量的大扩散变压器(Flag-DiT)——一个强大的引擎,支持多达70亿个参数,并将序列长度扩展到128,000个令牌。Lumina-T2X从Sora中汲取灵感,将图像,视频,3D对象的多视图和语音频谱图集成在时空潜在标记空间中,并且可以生成任何分辨率,纵横比和持续时间的输出。
      • Skyvern-AI/skyvern
      • YangLing0818/RPG-DiffusionMaster - 4、Gemini-Pro)或开源的本地MLLM(如miniGPT-4)作为提示的字幕重配和区域规划器,通过我们的互补区域扩散来实现SOTA文本到图像的生成和编辑。我们的框架非常灵活,可以推广到任意MLLM架构和扩散主干网。RPG还能够生成超高分辨率的图像。高度准确的图像生成: RPG框架能够根据复杂的描述生成高度准确和详细的图像,尤其在处理包含多个对象、属性和关系的场景时表现出色,生成的图像与文本描述高度一致。超越现有技术: 与现有的文本到图像模型相比,RPG框架展现了更好的性能,尤其在处理多元素组合和文本-图像语义对齐方面。灵活性和广泛适用性: 实验表明,RPG框架能够与不同的多模态大型语言模型和扩散模型兼容,适用于多种图像生成场景。提升质量和细节: 生成的图像不仅在视觉上吸引人,而且细节丰富,对于艺术创作、设计和娱乐等领域至关重要。RPG框架还能够处理复杂的交互和环境,生成的图像在构图和细节方面表现出色。
      • LinkSoul-AI/LLaSM - 文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。
      • microsoft/i-Code
      • VPGTrans/VPGTrans - 语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。现有的常用的VL-LLM基本采取的架构:VPG(比如1.2B)->Projector(4M)->LLM(比如11B),在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector)。在训练过程中,LLM参数一般不会被更新,或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调。(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。(2)第二阶段:直接正常训练VPG和projector。
      • 0nutation/SpeechGPT
      • luogen1996/LaVIN
      • DLYuanGod/TinyGPT-V
      • unum-cloud/uform
      • yxuansu/PandaGPT
      • RunpeiDong/DreamLLM
      • OthersideAI/self-operating-computer - 4v、Gemini Pro Vision、Claude 3 和 LLaVa 集成。未来计划:支持其他型号。
      • open-compass/VLMEvalKit
      • opendilab/LMDrive
      • OpenMOSS/AnyGPT
      • SHI-Labs/CuMo - upcycled Top-K 稀疏门控专家混合模块整合到视觉编码器和 MLP 连接器中,从而增强了多模态的能力LLMs。我们进一步采用辅助损失的三阶段培训方法,以稳定培训过程并保持专家的平衡负载。CuMo 在开源数据集上进行了专门训练,LLMs并在多个 VQA 和可视化指令跟踪基准上实现了与其他最先进的多模态相当的性能。
      • baaivision/Emu
      • NVlabs/VILA - 一种具有训练、推理和评估配方的多图像视觉语言模型,可从云部署到边缘(Jetson Orin 和笔记本电脑)。VILA 是一种视觉语言模型 (VLM),使用大规模交错的图文数据进行预训练,可实现视频理解和多图像理解能力。VILA 可通过 AWQ 4bit 量化和 TinyChat 框架在边缘部署。我们发现:(1)图文对是不够的,交错的图文是必不可少的;(2)交错图文预训练中的解冻LLM使上下文学习成为可能;(3)重新混合纯文本指令数据对于提高VLM和纯文本性能至关重要;(4) 令牌压缩扩展 #video 帧。VILA展示了吸引人的功能,包括:视频推理、上下文学习、视觉思维链和更好的世界知识。
      • lichao-sun/Mora
      • invictus717/MetaTransformer - Transformer 框架与多模态大型语言模型相结合,该模型执行多模态联合训练,支持更多模态,包括 fMRI、深度图和法线图,并在 25 个基准测试中展示了非常令人印象深刻的性能。作为基础模型,Meta-Transformer 可以处理来自 12 种模态的数据,这决定了它可以支持广泛的应用程序。如图所示,Meta-Transformer可以为下游任务提供服务,包括股票分析📈、天气预报❄️ ⛄ ☁️ ☔ ☀️ ⚡、遥感📡、自动驾驶🚗、社交网络🌍、语音识别🔉等。表 1:Meta-Transformer 能够处理多达 12 种模态,包括自然语言 、RGB 图像 、点云 、音频 、视频 、表格数据 、图形 、时间序列数据 、高光谱图像 、IMU 、医学图像 和红外图像 。此存储库旨在探索 transformer 在多模态学习中的潜力和可扩展性。我们利用 Transformer 的优势来处理长度变化序列。然后,我们按照元方案提出数据到序列的标记化,然后将其应用于 12 种模态,包括文本、图像、点云、音频、视频、红外、超光谱、X 射线、表格、图形、时间序列和惯性测量单元 (IMU) 数据。在获得令牌序列后,我们采用模态共享编码器来提取不同模态的表示。借助特定于任务的磁头,Meta-Transformer 可以处理不同模态的各种任务,例如:分类、检测和分割。
      • Yuliang-Liu/Monkey
      • HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs - MoE是基于MoE的统一多模态模型,可以处理包括音频、语音、图像、文本和视频在内的多种模态。Uni-MoE的模型架构如下图所示。三个训练阶段包括:1)利用来自不同模态和语言的配对来构建连接器,将这些元素映射到统一的语言空间,为多模态理解奠定基础;2)使用跨模态数据培养特定模态专家,以确保深入理解,为有凝聚力的多专家模型做好准备;3) 将多名训练有素的专家纳入LLMs并使用 LoRA 技术对混合多模态数据进行统一的多模态模型进行改进。
      • microsoft/unilm/layoutlm
      • dvlab-research/MGM - Gemini,它采用双视觉编码器,分别提供低分辨率的视觉嵌入和高分辨率的候选区域;提出了一种区域信息挖掘方法,用于在高分辨率区 域与低分辨率视觉查询之间进行像素级挖掘;利用大规模语言模型(MLM) 同时实现文本与图像的理解和生成。该框架支持从2B到34B的一系列密集和MoE大型语言模型(LLMs),同时进行图像理解、推理和生成。我们基于 LLaVA 构建此存储库。
  • 视频生成_补帧_摘要

    • 资源传输下载

      • facebookresearch/vjepa2
      • TIGER-AI-Lab/QuickVideo - AI-Lab开发的快速长视频理解项目,旨在高效处理长视频内容。它专注于解决长视频理解中的计算成本高昂问题,通过创新的方法实现快速处理。该项目可能采用了视频摘要、关键帧提取或高效的视频编码技术来降低计算负担。QuickVideo的目标是让用户能够快速理解长视频的核心内容,而无需花费大量时间和计算资源。该项目可能包含预训练模型、数据集和评估指标,方便研究人员和开发者使用。具体实现细节和性能指标请参考项目文档。它可能适用于视频检索、视频推荐、视频监控等多种应用场景。QuickVideo致力于推动长视频理解领域的发展,提供更高效的解决方案。
      • inlife/nexrender
      • ali-vilab/VACE
      • SkyworkAI/SkyReels-V2 - V2是一个无限长度电影生成模型项目。它旨在生成连贯且引人入胜的电影内容,而没有传统电影的长度限制。该项目可能利用了先进的生成模型技术,例如Transformer架构或扩散模型,以实现其目标。具体实现细节和训练数据信息需要在项目代码和文档中查找。SkyReels-V2可能通过学习大量电影数据集中的模式和结构,来生成新的电影场景、对话和故事情节。项目特色包括无限长度生成、连贯性保持和引人入胜的内容创造。该模型可能允许用户自定义电影生成过程,例如指定主题、风格或角色。SkyReels-V2的潜在应用包括电影制作、内容创作和娱乐领域。项目可能包含预训练模型、训练脚本和评估指标。开发者可以利用该项目进行实验、研究和开发新的电影生成技术。
      • mayuelala/FollowYourClick - Your-Click: Open-domain Regional Image Animation via Short Prompts”的官方实现。该项目旨在实现开放域的局部图像动画,仅需简短的提示语即可驱动图像中特定区域的动画效果。项目特色在于其能够根据用户的点击和提示,精准控制图像中特定区域的运动。其工作原理可能涉及分析用户点击位置和提示语,然后生成与提示语相关的局部动画效果,并将其整合到原始图像中。该项目为图像动画领域提供了一种新颖且用户友好的方法,使得非专业人士也能轻松创建有趣的图像动画。通过该项目,用户可以方便地对图像的特定区域进行动画处理,例如让照片中的人物眨眼或让风景中的树叶飘动。
      • YingqingHe/LVDM
      • AILab-CVC/FreeNoise
      • TencentARC/VideoPainter
      • TIGER-AI-Lab/Vamba - Long Videos with Hybrid Mamba-Transformers”。该项目创新性地结合了Mamba和Transformer架构,旨在有效处理长达一小时的视频内容。Vamba模型利用Mamba的序列建模能力捕捉视频中的时间依赖关系,同时借助Transformer的全局注意力机制理解视频整体上下文。这种混合架构克服了传统Transformer处理长序列时的计算瓶颈,并提升了视频理解的准确性。项目代码提供了Vamba模型的实现细节,方便研究人员复现和改进。Vamba在长视频理解领域具有重要意义,为视频分析、内容理解等应用提供了新的解决方案。该项目由TIGER-AI-Lab维护,旨在推动长视频理解技术的发展。
      • SCZwangxiao/video-FlexReduc - FlexReduc的官方实现,旨在解决视频-语言理解中长时序感知问题。该项目提出了一种自适应冗余减少方法,名为AdaReTaKe,通过动态地减少视频帧中的冗余信息,从而更有效地捕捉关键信息。AdaReTaKe的核心思想是学习一个策略来选择性地保留或丢弃帧,以平衡计算成本和性能。项目代码提供了完整的训练和评估流程,方便研究人员复现和改进。该项目主要针对长视频理解任务,例如视频问答、视频描述等。通过自适应地减少冗余,AdaReTaKe能够提升模型在长视频上的性能,并降低计算资源消耗。项目包含详细的实验设置和结果,证明了AdaReTaKe的有效性。该项目使用PyTorch框架,并提供了详细的文档和示例。
      • DepthAnything/Video-Depth-Anything
      • bytedance/tarsier - 语言大模型系列,旨在生成高质量的视频描述,并具备良好的通用视频理解能力。它专注于大规模视频内容的理解和生成,可以根据视频内容自动生成详细且准确的描述。Tarsier模型家族可能包含多个不同规模和功能的模型,以适应不同的应用场景和计算资源限制。该项目可能包含预训练模型、训练代码、评估指标和相关文档,方便用户使用和进一步研究。其工作原理可能涉及视频特征提取、语言模型生成和多模态信息融合等技术。Tarsier有望在视频搜索、视频推荐、智能字幕和视频内容创作等领域发挥重要作用。
      • Wan-Video/Wan2.2 - 解码器结构提取输入特征,结合注意力机制生成动态视频帧序列,采用像素级对抗损失优化细节表现,支持多GPU并行加速训练。项目依赖PyTorch1.12+、CUDA11.6及FFmpeg工具链,提供详细的训练参数配置指南与视频生成示例,适用于影视创作、虚拟现实等场景。
      • gyxxyg/TRACE
      • VITA-MLLM/Sparrow - LLM项目,它利用文本到图像的增强技术来提升性能。该项目旨在解决视频理解任务中数据稀缺的问题,通过生成额外的图像数据来扩充训练集。Sparrow的核心思想是使用预训练的文本到图像模型,根据视频描述生成相应的图像,并将这些图像与原始视频数据结合进行训练。这种方法可以显著提高视频-LLM在各种任务上的表现,尤其是在数据量有限的情况下。项目的主要贡献在于提出了一个有效的数据增强策略,使得视频-LLM能够更好地理解和处理视频内容。Sparrow的代码和模型权重已经开源,方便研究人员和开发者使用和进一步研究。该项目为视频理解领域提供了一个新的思路,即如何利用现有的文本到图像生成模型来缓解数据瓶颈。
      • alecm20/story-flicks - flicks项目是一个利用AI大模型一键生成高清故事短视频的工具。它旨在简化短视频创作流程,让用户无需专业技能也能快速制作引人入胜的故事短片。项目特色在于其自动化生成能力,用户只需提供故事素材,AI即可完成视频剪辑、配乐等工作。其工作原理是结合大型语言模型理解故事内容,并利用图像生成和视频编辑技术将故事转化为视觉形式。该项目目标是降低短视频创作门槛,让更多人能够轻松分享自己的故事。具体实现细节和模型选择需要进一步研究项目代码。
      • HKUDS/VideoRAG
      • lllyasviel/FramePack
      • zju3dv/StarGen
      • yeliudev/VideoMind - of-LoRA Agent项目。它旨在解决长视频理解中的挑战,通过LoRA链式结构实现高效的视频内容分析和推理。该项目的主要特色在于其LoRA Agent设计,能够逐步处理视频信息,并通过链式推理生成最终结果。VideoMind的工作原理是利用LoRA(Low-Rank Adaptation)技术对预训练模型进行微调,从而适应特定的视频推理任务。项目可能包含视频特征提取、LoRA模型训练、链式推理流程等关键组件。使用VideoMind,用户可以实现对长视频的深入理解和分析,例如视频摘要、事件检测、行为识别等。该项目为长视频理解领域的研究和应用提供了一个新的思路和工具。
      • zibojia/SENORITA - 2M是Zibojia团队开源的通用视频编辑指令数据集和模型实现。该项目提供了Señorita-2M数据集的权重和数据集本身,这是一个高质量的、基于指令的数据集,专为通用视频编辑任务设计。数据集由视频专家创建,旨在提升视频编辑模型的性能。该项目的主要特色在于其高质量的指令数据,可以用于训练和评估视频编辑模型。通过使用Señorita-2M,研究人员和开发者可以构建更强大的视频编辑工具,实现更精确的视频编辑操作。该项目为视频编辑领域的研究提供了一个宝贵的资源,有助于推动该领域的发展。
      • google-research/frame-interpolation
      • kabachuha/sd-webui-text2video - webui-text2video是一个基于Auto1111 webui的扩展,旨在实现文本到视频的扩散模型,例如ModelScope或VideoCrafter。它无需额外依赖,仅使用Auto1111 webui的现有功能。该项目允许用户通过文本描述生成视频内容,简化了视频创作流程。通过利用扩散模型,它能够根据输入的文本提示,逐步生成高质量的视频帧序列。该扩展集成了文本到视频生成的功能,方便用户在Auto1111 webui界面中直接使用。它支持多种文本到视频模型,为用户提供灵活的选择。该项目旨在降低文本到视频生成的门槛,让更多用户能够轻松创作视频内容。它充分利用了Auto1111 webui的生态系统,提供了便捷的使用体验。用户可以通过简单的配置,即可开始使用文本到视频生成功能。该项目仍在积极开发中,未来将支持更多模型和功能。
      • knightyxp/VideoGrain - Time Attention for Multi-Grained Video Editing”的官方实现。该项目专注于视频编辑,核心特色在于其提出的VideoGrain方法。VideoGrain通过调制时空注意力机制,实现多粒度的视频编辑能力。这意味着用户可以对视频进行精细到像素级别的编辑,也可以进行粗略到整个场景的修改。项目代码库包含了论文中描述的算法实现,方便研究者复现结果和进一步研究。VideoGrain的核心思想是通过灵活控制时空注意力,从而实现对视频内容不同层次的理解和操作,提升视频编辑的精度和效率。该项目为视频编辑领域提供了一种新的思路和工具,值得关注。
      • stepfun-ai/ComfyUI-StepVideo - StepVideo 是一个 ComfyUI 的自定义节点集合,专注于视频处理,特别是通过帧插值技术来提升视频质量和帧率。它集成了多种帧插值模型,如 RIFE、DAIN、FILM、EMA-VFI 和 CAIN,允许用户在 ComfyUI 工作流中轻松实现视频帧率倍增。该项目还支持使用不同的插值模型进行混合插值,以达到更好的效果。StepVideo 允许用户自定义插值帧数,控制插值质量,并提供多种优化选项,例如平滑运动和减少伪影。其工作原理是分析视频帧之间的运动信息,然后使用相应的插值模型生成中间帧,从而创建更流畅的视频。此外,该项目还支持修复插帧后可能出现的瑕疵。用户可以通过简单的节点连接和参数调整,快速实现高质量的视频插值,提升视频观看体验。它还包含一些实用的工具节点,方便视频处理流程。总之,ComfyUI-StepVideo 提供了一个强大且灵活的视频帧插值解决方案,适用于各种视频处理任务。
      • GD-AIGC/VMBench
      • Francis-Rings/StableAvatar - Rings开发的创新项目,其核心成果是首次提出的端到端视频扩散变换器模型,能够直接生成无限长度的高质量音频驱动虚拟人像视频,无需任何后期处理。该项目通过结合扩散模型与变换器架构,实现了一种全新的视频生成范式:用户只需提供一张参考图像作为基础形象,并输入一段音频作为驱动源,系统便能自动生成与音频内容高度同步的虚拟人像视频,且视频时长不受限制。其核心技术突破在于将传统视频生成中复杂的后期处理步骤完全省去,通过端到端的深度学习框架直接完成从音频到视频的映射,这大幅降低了使用门槛并提升了生成效率。项目特别强调其音频驱动能力,意味着生成的虚拟人像会根据音频内容自然地调整面部表情、动作和口型,实现高度逼真的动态效果。此外,该模型通过参考图像作为初始条件,确保生成视频中的人物形象与输入图像高度一致,同时保留了视频内容的无限延展性,可应用于虚拟主播、游戏角色生成、影视特效等需要动态人像生成的场景。项目的技术实现依赖于对扩散模型的创新优化,通过变换器架构高效处理音频与图像的跨模态信息,最终输出高质量的视频序列。这一成果为音频驱动虚拟人像生成领域提供了全新的解决方案,标志着该技术从实验室研究向实际应用的重要跨越。
      • shiyi-zh0408/FlexiAct
      • liuff19/Video-T1 - T1项目是“Video-T1: 视频生成测试时缩放”的官方实现。它提出了一种新的测试时缩放方法,用于提升视频生成模型的性能。该方法的核心思想是在测试阶段,通过调整生成视频的时间维度来优化生成质量。具体来说,Video-T1通过学习一个缩放因子,动态地调整视频帧之间的间隔,从而更好地捕捉视频中的时间依赖关系。项目提供了详细的代码和实验结果,展示了该方法在多个视频生成任务上的有效性。使用该方法可以显著提高视频生成模型的FID和IS等指标。该项目基于PyTorch框架,并提供了详细的安装和使用说明。研究人员可以通过该项目复现论文结果,并将其应用于自己的视频生成模型中。Video-T1的优势在于其简单性和有效性,可以很容易地集成到现有的视频生成流程中。
      • Yui010206/VEGGIE-VidEdit - 文本对数据集上进行预训练 然后通过特定任务的微调优化编辑效果 实验结果表明 VEGGIE在视频编辑任务中表现出色 在多个基准数据集上均优于现有方法 项目提供了完整的代码实现和训练细节 便于复现和进一步研究 同时包含详细的使用文档 说明如何通过文本指令进行视频编辑操作 适用于视频内容创作、教育演示和影视制作等领域 该项目的创新点在于将视频编辑与概念生成能力结合 通过统一的模型框架实现更灵活的视频内容修改 为视频生成领域提供了新的解决方案
  • 语音合成

    • 资源传输下载

      • KittenML/KittenTTS
      • googlecreativelab/chrome-music-lab
      • KevinWang676/Bark-Voice-Cloning - Voice-Cloning项目旨在实现中文语音克隆,基于Suno-AI/Bark模型。它允许用户使用自己的语音数据训练模型,从而生成个性化的语音。项目特色在于支持中文语音克隆,并提供了详细的教程和示例。其工作原理是利用Bark模型强大的文本到语音转换能力,结合用户提供的语音数据进行微调,使模型能够模仿目标语音的音色和风格。项目包含数据准备、模型训练和语音合成等关键步骤,用户可以通过提供的脚本和工具轻松完成语音克隆过程。该项目为中文语音合成领域的研究和应用提供了新的可能性,并允许用户创造独特的语音体验。它不仅适用于个人娱乐,也可能在语音助手、内容创作等领域发挥作用。项目还提供了预训练模型和相关资源,方便用户快速上手。
      • toverainc/willow - S3 等硬件平台,并提供可定制的硬件设计。Willow的工作原理是通过麦克风捕捉语音,然后使用本地语音识别模型将其转换为文本,再通过自然语言处理理解用户的意图,最后执行相应的操作。项目还支持多种语言,并提供友好的用户界面进行配置和管理。开发者可以通过贡献代码、提供硬件支持或参与社区讨论来参与项目。Willow旨在为用户提供一个安全、可靠且可定制的语音助手体验。
      • thewh1teagle/kokoro-onnx - onnx项目是一个使用kokoro模型和ONNX Runtime进行文本到语音转换(TTS)的项目。它允许用户利用kokoro模型生成语音,并利用ONNX Runtime加速推理过程。该项目的主要特色在于结合了kokoro模型的高质量语音合成能力和ONNX Runtime的高效执行效率。项目的工作原理是首先将文本输入kokoro模型,模型输出语音特征,然后这些特征被传递给声码器,最终生成语音。用户可以通过该项目体验快速且高质量的TTS服务。项目可能包含模型转换、推理代码和相关配置文件等。
      • LiberSonora/LiberSonora
      • KoljaB/RealtimeSTT
      • FireRedTeam/FireRedASR - of-the-art)水平,表明其在普通话语音识别方面具有领先的性能。此外,FireRedASR还具备出色的歌词识别能力,可以准确识别歌曲中的歌词。该项目旨在提供高质量的语音识别模型,可应用于各种实际场景。其核心优势在于对多种语言和方言的支持,以及在普通话和歌词识别方面的卓越表现。开发者可以利用该项目构建各种语音相关的应用程序,例如语音搜索、语音助手和自动字幕生成等。FireRedASR的开源特性也鼓励社区参与,共同改进和扩展其功能。
      • resemble-ai/chatterbox - ai/chatterbox 是一个基于最新技术的开源文本到语音(TTS)系统,旨在提供高质量、自然流畅的语音合成能力。该项目的核心特色包括支持多语言语音生成、实时语音合成以及对复杂文本的精准处理,能够将输入文本转换为接近人类发音的音频文件。其工作原理基于深度学习模型,结合了语音波形生成和声学模型优化技术,通过训练大量语音数据来提升合成语音的自然度和准确性。项目提供了简洁的API接口,开发者可快速集成至应用程序中,同时支持自定义语音风格和音色调整功能。此外,chatterbox 还包含高效的音频处理模块,能够实时转换文本并生成多种格式的输出文件,适用于虚拟助手、有声书制作、语音交互系统等场景。其代码结构清晰,文档完整,便于开发者进行二次开发和模型调优。项目团队持续更新模型参数和训练数据,确保合成语音的前沿性和稳定性,同时通过开源社区收集用户反馈以优化功能。若需使用,用户可通过 pip 安装依赖包并按照示例代码调用接口,即可快速实现文本到语音的转换需求。
      • ace-step/ACE-Step - Step是一个专注于音乐生成基础模型研究的开源项目,旨在通过自监督学习和多模态对齐技术突破传统音乐生成模型的局限性。该项目基于Transformer架构构建了ACE(Audio-Conditioned Encoder)模型,通过分离音乐的时序结构(节奏)与语义信息(旋律/和声),采用双分支网络分别捕捉音频的时间特征和语义特征,并通过跨模态注意力机制实现特征融合。模型训练采用分阶段策略:第一阶段使用大量无标签音乐数据预训练基础模型,第二阶段引入带标签的音乐风格数据进行微调,最终通过对抗生成网络(GAN)优化生成质量。项目特色包括支持多风格音乐生成(如古典、电子、流行)、提供可调节的生成粒度(从片段到完整曲目)以及可视化训练过程监控工具。其核心创新点在于提出动态节奏感知模块(D-Rhythm Module),可自动识别并强化音乐作品的节奏结构,同时引入跨风格迁移学习框架,使模型能通过少量样本快速适应新音乐风格。该项目已开源完整训练代码和预训练模型,支持PyTorch框架,适用于音乐创作、教育研究等场景,同时提供详细的训练教程和音乐生成示例,为音乐基础模型研究提供了可复现的基准方案。
      • SparkAudio/Spark-TTS - TTS 是一个用于文本到语音 (TTS) 推理的项目,它基于 PyTorch 实现,并专注于提供高性能和灵活的语音合成能力。该项目支持多种语音合成模型,可能包括但不限于 FastSpeech、Tacotron 等,具体取决于项目更新。Spark-TTS 旨在简化 TTS 模型的部署和推理过程,方便用户快速生成高质量的语音。它可能包含预训练模型、推理脚本和相关工具,以帮助用户轻松上手。项目特色可能包括速度优化、模型可定制性以及易于使用的 API。用户可以通过该项目将文本转换为自然流畅的语音,应用于各种场景,例如语音助手、语音播报等。详细的模型架构、训练数据和性能指标请参考项目文档和代码。
      • Vaibhavs10/insanely-fast-whisper - fast-whisper 是一个基于 CTranslate2 的 Whisper 模型加速实现,目标是提供极速的语音转录体验。它通过利用 CTranslate2 的量化和优化技术,显著降低了 Whisper 模型的计算需求,从而实现更快的推理速度,尤其是在 CPU 上。该项目支持多种语言和模型大小,并提供 Python API 方便集成。其核心优势在于速度快、内存占用低,并且易于使用。它还支持流式转录,可以实时处理音频输入。项目还提供了详细的基准测试结果,展示了其相对于原始 Whisper 模型的性能提升。此外,该项目还包含一些实用工具,如音频分割功能,方便用户进行更精细的语音处理。总而言之,insanely-fast-whisper 是一个高效、易用的 Whisper 模型加速方案,适合对语音转录速度有较高要求的场景。
      • gwx314/TechSinger
      • nari-labs/dia - labs/dia是一个文本转语音(TTS)模型,其主要特色在于能够一次性生成超逼真的对话。该项目旨在实现高度自然流畅的语音合成效果,尤其擅长模拟对话场景中的语音特征。具体工作原理可能涉及先进的深度学习技术,例如Transformer架构或变分自编码器(VAE),以捕捉语音的细微变化和上下文依赖关系。通过训练大量对话数据,dia模型能够学习不同说话人的语音风格和情感表达,从而生成更具表现力和真实感的语音。该项目对于语音合成、人机交互、以及虚拟助手等领域具有潜在的应用价值,可以用于创建更自然、更具吸引力的语音交互体验。
      • collabora/WhisperLive
      • smacke/ffsubsync
      • kaixxx/noScribe
      • KoljaB/Linguflex
      • DataoceanAI/Dolphin
      • murtaza-nasir/speakr
      • yan5xu/ququ
      • bytedance/MegaTTS3 - TTS 架构,并进行了多项改进,包括使用新的扩散模型架构和训练策略。MegaTTS3 能够生成自然流畅、富有表现力的语音,适用于各种应用场景,如语音助手、有声读物等。其核心优势在于扩散模型在语音合成方面的强大能力,能够模拟复杂的语音特征,从而生成更逼真的语音。项目提供了详细的文档和示例代码,方便开发者快速上手和使用。MegaTTS3 的目标是推动 TTS 技术的发展,为用户提供更好的语音体验。该项目支持多种语言,并且易于扩展到新的语言。它采用模块化设计,方便研究人员进行定制和改进。MegaTTS3 的训练过程需要大量的计算资源,但推理速度较快,可以满足实时应用的需求。
      • canopyai/Orpheus-TTS - TTS是一个由Canopy AI开发的文本到语音(TTS)模型,旨在生成听起来更像人类的语音。它基于Transformer架构,并利用扩散模型进行语音合成,从而在音质和自然度上有所突破。该项目提供预训练模型、推理代码和训练脚本,方便用户进行语音合成和模型定制。Orpheus-TTS的特色在于其能够生成高质量、高自然度的语音,并且在韵律和情感表达方面表现出色。它通过学习大量语音数据来捕捉语音的细微差别,从而生成更逼真、更具表现力的语音。此外,该项目还支持多种语言,并提供易于使用的API,方便开发者集成到各种应用中。Orpheus-TTS代表了TTS技术的前沿,为语音合成领域带来了新的可能性。
      • stakira/OpenUtau
      • Camb-ai/MARS5-TTS - TTS是CAMB.AI开发的语音合成模型。它是一个基于Transformer架构的文本到语音(TTS)系统,旨在生成高质量、自然流畅的语音。该模型支持多种语言,并且具有较强的泛化能力,能够处理不同的文本输入。MARS5-TTS的特色在于其先进的声学建模技术,能够捕捉语音中的细微特征,从而产生更逼真的语音效果。该项目提供了预训练模型和相关代码,方便研究人员和开发者进行语音合成方面的实验和应用。用户可以通过该项目学习和使用最先进的TTS技术,并将其应用于各种语音交互场景。该项目还提供了详细的文档和示例,帮助用户快速上手。 总之,MARS5-TTS是一个强大且易于使用的语音合成工具,代表了CAMB.AI在语音技术领域的最新成果。
      • elevenlabs/elevenlabs-python
      • index-tts/index-tts - TTS是一个工业级的、可控且高效的零样本文本转语音系统。它无需针对特定说话人进行训练,即可合成高质量的语音。该项目基于索引向量技术,通过索引现有语音数据中的声学特征,实现零样本语音合成。其特色在于可控性,允许用户调整语音风格、语速等参数。Index-TTS具有高效的推理速度,适用于实时应用场景。项目提供了详细的文档和示例代码,方便用户快速上手。它支持多种语言,并可以轻松扩展到新的说话人。Index-TTS旨在为开发者提供一个强大而灵活的TTS工具,用于构建各种语音应用。该项目开源,并鼓励社区贡献。它采用了先进的深度学习技术,保证了语音合成的自然度和流畅度。
      • eloimoliner/BABE
      • readbeyond/aeneas
      • Purfview/whisper-standalone-win - standalone-win项目为用户提供无需Python环境即可运行的Whisper和Faster-Whisper的独立可执行文件。这意味着用户可以直接下载并使用,避免了配置Python环境的麻烦。该项目专注于简化Whisper语音转录工具的使用流程。它集成了Whisper和Faster-Whisper,后者通常具有更快的推理速度。通过提供预编译的可执行文件,该项目降低了Whisper的使用门槛,方便非Python用户也能轻松进行语音转录。项目目标是让更多人能够方便快捷地使用Whisper的强大语音识别功能。
      • FL33TW00D/whisper-turbo - Turbo 是一个跨平台的、GPU 加速的 Whisper 实现,旨在提供更快的语音转录速度。它利用 CTranslate2 引擎进行优化,支持 CPU、CUDA 和 Apple Silicon (Core ML) 等多种硬件加速。项目特色包括易于安装和使用,以及对多种语言的支持。其工作原理是利用 CTranslate2 将 Whisper 模型转换为更高效的格式,从而实现更快的推理速度。用户可以通过 pip 安装,并使用命令行界面或 Python API 进行语音转录。项目还提供了预构建的二进制文件,方便在不同平台上部署。Whisper-Turbo 专注于速度优化,力求在保证准确性的前提下,提供更流畅的语音转录体验。它支持多种音频格式,并允许用户自定义模型大小和推理参数。该项目旨在成为一个快速、高效且易于使用的 Whisper 替代方案。
      • digitalphonetics/ims-toucan - Toucan是一个支持超过7000种语言的可控且快速的文本到语音(TTS)项目。它旨在提供一种灵活且高效的方式,将文本转换为语音,覆盖了极为广泛的语言范围。项目重点在于可控性,允许用户调整语音输出的各种参数,以及速度,确保快速生成语音。该项目可能利用了先进的语音合成技术,例如深度学习模型,来实现多语言支持和高质量的语音输出。具体实现细节和使用方法请参考项目文档。
      • Softcatala/whisper-ctranslate2 - ctranslate2项目是一个基于CTranslate2的Whisper命令行客户端,它与OpenAI官方的Whisper客户端兼容。该项目利用CTranslate2优化后的模型,提供更快的语音转录速度和更低的资源消耗。用户可以使用此客户端进行音频文件的转录,支持多种语言。它旨在提供一个高效、便捷的Whisper使用体验,尤其适合需要快速处理大量音频数据的场景。项目的主要优势在于其速度和效率,得益于CTranslate2的优化。它保留了与原始OpenAI客户端的兼容性,方便用户迁移和使用。该项目简化了Whisper的使用流程,使其更容易集成到各种应用和工作流中。
      • liuhuadai/ThinkSound - of-Thought(CoT)推理机制提升生成效果。该项目的核心创新在于引入了类人类的逻辑推理过程:当用户输入多模态内容(如文字描述或图片)时,系统会先通过CoT模块将输入分解为多个逻辑步骤,模拟人类思考流程,例如“先确定音频场景→再选择合适的声音元素→最后生成完整音频”,从而确保生成结果与输入内容高度匹配。框架的工作原理分为三个关键部分:首先利用预训练模型提取输入模态的语义特征,然后通过CoT模块构建推理链条,指导扩散模型生成符合逻辑的音频波形,最后通过后处理模块优化音质和节奏。相比传统音频生成模型,ThinkSound的突出优势在于其跨模态兼容性(支持文本、图像、视频等输入)、推理驱动的上下文理解能力(能根据输入内容生成更符合场景的音频,如根据“雨天街道”生成雨声和脚步声),以及模块化设计(允许独立替换推理模块或生成器)。项目已提供完整代码实现,用户可通过调整CoT提示词或修改扩散模型参数自定义生成效果,适用于AI语音助手、内容创作、虚拟现实等场景,为多模态音频生成研究提供了可复用的技术框架。
      • FireRedTeam/FireRedTTS2 - 解码器架构,结合注意力机制实现文本到语音的端到端合成。其最大特色在于支持多说话人切换,用户可通过参数控制不同角色的语音特征(如性别、语速、音调等),并支持流式推理,可在不完整文本输入的情况下生成语音片段。 系统工作原理主要依赖于预训练的语音合成模型(如FireRedTTS、FireRedTTS2等),通过将文本分段处理并逐句生成语音波形,同时保持语音的连贯性和自然性。项目支持多种文本格式输入(如普通文本、Markdown、JSON等),并提供可定制的语音合成参数,包括音色选择、语速调整、情感强度控制等。开发者可通过API接口或命令行工具调用模型,实现本地部署或云端服务集成。 该项目采用PyTorch框架开发,兼容Linux/Windows系统,提供详细的训练与推理脚本。其关键技术亮点包括:基于Transformer的高效文本编码器、支持多说话人嵌入的声学模型、流式推理优化算法(减少延迟)、以及可扩展的模型架构设计。FireRedTTS2相较于第一代模型在语音自然度、多说话人区分度和流式处理效率上均有显著提升,尤其适用于需要实时语音生成的场景,如智能客服、虚拟助手、有声书生成等。项目代码开源,包含完整的训练数据集和预训练模型权重,开发者可根据需求进行二次开发或部署到生产环境。
      • jzq2000/MoonCast
      • MYZY-AI/Muyan-TTS - TTS 是一个开源的文本转语音 (TTS) 项目,旨在将文本转换为自然流畅的语音。2. 它支持多种语言,能够满足不同的语言需求。3. 该系统采用先进的神经网络模型生成高质量的音频输出。4. 它注重合成语音中逼真的语调、节奏和情感表达。5. 该项目使用 Python 构建,并利用 PyTorch 等框架进行高效的训练和推理。6. 用户可以自定义语音、音调和语速,以满足特定需求。7. 它包含预训练模型,方便快速部署,并提供使用自定义数据进行微调的选项。8. 训练过程依赖于大量的音频和文本对数据集来提高准确率。9. Muyan-TTS 适用于虚拟助手、游戏和辅助工具等应用。10. 它提供命令行界面和 API,方便集成到现有系统中。 11. 该项目提供详细的文档和示例,以指导开发人员和用户。12. Muyan-TTS 旨在平衡性能、灵活性和易用性,以满足研究和实际应用的需求。
      • OpenBMB/VoxCPM - free TTS(文本到语音)模型,专注于实现上下文感知的语音生成和高真实度的语音克隆。该项目突破了传统TTS模型依赖分词器(tokenizer)的限制,通过端到端的架构设计直接处理原始文本和语音信号,显著提升了生成语音的自然度和上下文连贯性。其核心工作原理基于深度学习技术,采用多任务联合训练框架,结合自监督学习策略,同时整合了语音生成与语音克隆两个任务,使模型能够从少量语音样本中快速学习目标说话人的声学特征和语言风格。VoxCPM支持无需额外标注的零样本语音克隆,仅需提供目标说话人的语音片段即可生成与原声高度相似的语音,且能动态适配不同场景的语音表达方式。模型通过注意力机制捕捉上下文语义,结合声学特征提取网络生成高质量语音波形,尤其擅长处理长文本生成和复杂语境下的语音合成任务。项目提供了预训练模型和推理代码,适用于语音助手、虚拟主播、有声书制作等场景,同时支持多语言和多说话人适配。开发者通过优化模型结构和训练策略,实现了更高效的计算资源利用和更高质量的语音输出,为语音生成领域提供了创新性解决方案。
      • FunAudioLLM/ThinkSound - of-Thought,CoT)推理技术,从文本、图像、视频等任意模态输入生成高质量音频内容。项目核心创新在于引入分步推理机制,通过多阶段的文本-音频映射和音频-音频扩散过程,实现跨模态音频生成。框架支持文本描述、图像内容、视频片段等多样化输入,通过CoT推理生成精确的音频输出,特别擅长处理复杂场景下的音频合成任务。项目包含完整的训练和推理代码,提供预训练模型和详细教程,支持多模态数据输入接口,生成的音频质量达到专业级水平。技术实现基于Transformer架构,采用模块化设计,包含文本编码器、音频扩散模型和跨模态对齐模块,支持自定义训练和微调。项目开源在GitHub,提供完整的数据预处理流程和训练脚本,适用于语音合成、音乐生成、影视配乐等场景,是目前少有的支持多模态输入的音频生成系统。
      • magenta/magenta-realtime - realtime是Google Magenta项目下的一个开源项目,专注于利用机器学习模型实现实时音乐生成。该项目基于TensorFlow框架,提供Python库支持,核心功能包括实时旋律生成(Real-time Melody RNN)和实时鼓点生成(Real-time Drum RNN),能够通过Web Audio API或MIDI接口输出音频,适用于现场表演、互动应用等场景。其工作原理是通过训练好的神经网络模型,实时处理用户输入(如键盘或MIDI设备)并生成对应的音乐片段,支持自定义节奏、音高和风格参数。项目特点包括低延迟音频处理、模块化代码结构以及与主流音乐软件的兼容性,用户可基于预训练模型快速构建实时音乐生成系统。此外,magenta-realtime还提供示例代码和教程,帮助开发者理解模型训练与部署流程,适合音乐技术研究者及开发者使用。项目持续更新,支持多种音乐生成任务,并通过开源社区推动实时音乐AI技术发展。
      • tencent-ailab/SongBloom - 精炼”的交替流程有效解决了传统音乐生成模型在结构完整性与细节丰富性之间的平衡难题。项目基于大规模音乐数据集训练,能够捕捉不同风格的音乐特征,生成的作品既符合音乐理论逻辑,又具备细腻的情感表达。SongBloom的官方代码已开源,为研究者和开发者提供了完整的实现方案,其核心贡献包括提出新型生成框架、设计双阶段协同机制以及验证了结合自回归与扩散模型在音乐生成领域的有效性,为高质量音乐创作提供了新的技术路径。
      • QuentinFuxa/WhisperLiveKit
      • QwenLM/Qwen3-TTS
      • facebookresearch/omnilingual-asr - Supervised Learning)技术,首先在大规模多语言语音-文本对齐数据上预训练模型,再通过跨语言的自注意力机制(Self-Attention)捕捉不同语言的通用语音特征,最终在目标语言上微调以提升准确性。模型训练过程中采用数据过滤策略,确保输入数据质量,同时通过多任务学习框架,使模型能同时学习不同语言的发音规律与语义关联。项目提供预训练模型和推理工具,支持用户快速部署,且对低资源语言(如非洲或南亚语言)的识别效果优于传统方法。实验表明,其在常见语言(如英语、法语)上的词错误率(WER)达到行业领先水平,同时对小语种的识别能力显著提升,适合应用于多语言语音助手、翻译系统或跨语言信息检索等场景。此外,项目开源代码和文档便于研究者复现与优化,推动多语言语音技术的普及与研究。
    • 网络服务_其他

  • 语音识别与合成_其他

    • 资源传输下载

      • speaches-ai/speaches - AI/Speaches 是一个开源项目,旨在提供端到端的语音识别和语音合成解决方案。它使用PyTorch构建,支持多种语言,并提供预训练模型。该项目的主要特点包括:高质量的语音识别和合成效果,易于使用的API,以及可扩展的架构。Speaches的核心工作原理是利用深度学习模型,例如Transformer和Conformer,来将语音转换为文本,或将文本转换为语音。用户可以通过简单的命令或Python代码来使用Speaches,进行语音识别、语音合成和语音翻译等任务。该项目还提供了一些实用工具,例如语音数据增强和模型微调,以帮助用户提高模型的性能。Speaches适用于各种应用场景,例如语音助手、语音搜索和语音翻译等。项目鼓励社区贡献,并提供详细的文档和示例,方便用户上手和使用。
      • krillinai/KrillinAI
      • dockur/macos
      • railwayapp/nixpacks
      • kn007/silk-v3-decoder - v3-decoder项目是一个用于解码Skype Silk v3音频文件的工具,它可以处理微信的amr、aud文件以及QQ的slk文件等。该项目的核心功能是将这些Silk v3格式的音频转换为其他格式,例如mp3。它支持批量转换,方便用户一次性处理多个文件。该项目基于Skype Silk Codec SDK,能够有效地解码Silk v3音频数据。这意味着你可以使用该项目来提取和转换来自微信和QQ等应用程序的音频消息。该项目的主要目标是提供一个简单易用的解决方案,用于处理和转换Silk v3音频文件,使其能够被更广泛的设备和应用程序所支持。
      • umlx5h/LLPlayer
      • huangjunsen0406/py-xiaozhi - xiaozhi是一个基于Python开发的开源项目,旨在为没有实体硬件设备的用户实现小智AI的功能体验。该项目通过软件模拟方式还原小智AI的核心交互功能,允许用户在无需购买智能音箱等硬件的前提下,通过计算机或手机等设备体验语音助手、智能问答等基础服务。项目采用Python语言开发,降低了技术门槛,使更多开发者和爱好者能够参与改进与扩展。 该项目的核心功能包含语音识别、自然语言处理及基础指令执行等模块,通过Python库模拟小智AI的交互逻辑。用户可以通过命令行或图形界面与系统进行交互,实现如查询天气、播放音乐、设置闹钟等常见智能设备功能。开发团队特别优化了代码结构,确保项目在不同操作系统上具备良好的兼容性,同时提供详细的文档说明,方便用户快速上手。 项目采用开源模式,鼓励社区参与功能扩展与问题修复。开发者通过GitHub平台持续更新代码,支持用户提交Issue和Pull Request。项目特别注重实用性,针对硬件设备缺失的用户群体,通过软件方案完整还原智能语音助手的核心体验。开发者可基于现有框架添加新功能,例如集成更多API接口或优化语音识别精度。该项目已获得部分用户支持,开发者呼吁社区通过Star按钮给予鼓励,以推动项目持续改进。
      • PromtEngineer/Verbi
      • ILikeAI/AlwaysReddy
      • amir20/dozzle
      • KoljaB/RealtimeVoiceChat
      • winapps-org/winapps
      • NaruseMioShirakana/DragonianVoice - SVC、So-vits-svc 4.0、OpenVoice 和 VITS 等,并提供实时语音转换和文本转语音功能。该项目还包含一个简单的命令行界面用于测试和演示。核心工作原理是利用 ONNX Runtime 加载和运行预训练的 SVC/TTS 模型,并进行音频处理和生成。用户可以通过配置文件灵活地调整模型参数和推理设置。
      • falcosecurity/falco
      • komodorio/helm-dashboard
      • alibaba/higress
      • meshery/meshery
      • projectcalico/calico
      • infrahq/infra
      • bytebot-ai/bytebot
      • pixie-io/pixie
      • InternLM/Condor
      • opencost/opencost
      • nginx/kubernetes-ingress
      • karmada-io/karmada
      • knative/serving
      • spacecloud-io/space-cloud
      • bachhavpramod/bandwidth_extension - NC-SA 4.0国际许可协议,允许非商业用途的共享和修改。 4. 维护:由EURECOM研究院开发(联系人:Bachhav/Todisco/Evans),获得55星标和22分叉。 核心价值:提供学术级音频带宽扩展解决方案,集成多篇顶级会议论文的开源实现。
      • MoonshotAI/Kimi-Audio - Audio是一个开源的音频基础模型,由MoonshotAI开发。它擅长音频理解、音频生成和音频对话。该项目旨在提供一个强大的工具,用于处理各种音频相关的任务。具体工作原理和更多细节可以在项目的GitHub仓库中找到。Kimi-Audio的开源为音频研究和应用提供了新的可能性,方便开发者在此基础上进行创新。它可能包含预训练模型、数据集、训练代码和评估指标等资源。这个项目对于希望探索和利用音频技术的开发者和研究人员来说是一个宝贵的资源。
      • apple/container
      • MicrosoftDocs/azure-docs
      • docker/docs
      • mackron/miniaudio
      • kyutai-labs/delayed-streams-modeling - streams-modeling**项目基于创新的“延迟流建模”(Delayed Streams Modeling)框架,专注于开发低延迟、高精度的语音识别(Speech-To-Text)与语音合成(Text-To-Speech)模型。该项目通过动态调整音频流的处理时序,解决了传统模型在实时场景中因数据延迟导致的响应滞后问题,尤其适用于需要即时交互的场景,如智能助手、实时字幕生成和语音交互系统。 核心工作原理基于对音频流的分段处理与延迟补偿机制:模型将输入音频划分为多个时间窗口,通过延迟流建模框架动态计算每个窗口的最优处理时间,减少冗余计算并优化资源分配。这一设计在保持高识别准确率的同时,显著降低了模型响应延迟。项目还结合了Kyutai实验室在语音处理领域的技术积累,例如针对不同语言和声学环境的自适应优化模块,确保模型在多语种和复杂噪声场景下的稳定性。 项目特色包括:1)支持实时流式处理,适用于动态音频输入;2)模块化设计,允许用户根据需求调整延迟补偿策略;3)提供预训练模型和开源代码,便于快速部署与二次开发。通过延迟流建模框架,该技术可与现有语音处理系统无缝集成,为开发者提供更灵活的低延迟语音交互解决方案。目前,该项目已通过多项基准测试验证其在延迟控制与识别精度上的双重优势,是语音技术领域值得探索的创新方向。
      • Zouuup/landrun
      • kubetail-org/kubetail
      • boson-ai/higgs-audio - ai/higgs-audio是Boson AI开发的文本-音频基础模型,专注于音频内容理解和生成任务,支持语音识别、音频合成、语音转文字等多模态应用。该项目基于大规模文本和音频数据训练,采用自监督学习与微调结合的方式,通过跨模态对齐技术实现文本与音频的双向映射。模型核心特性包括:1)支持128种语言的音频处理,覆盖常见音频格式;2)内置噪声抑制和语音增强模块,提升复杂环境下的识别准确率;3)提供可定制的API接口,支持实时音频流处理;4)集成语音情感分析功能,可识别7种基础情绪类别。训练数据包含超过10万小时的多语种语音样本及对应文本,模型参数量达23亿,推理速度可达每秒150帧。项目提供PyTorch框架实现,包含完整的预处理工具链和评估指标,支持CPU/GPU混合部署。目前已开源,遵循Apache 2.0协议,适用于智能助手、内容审核、教育评测等场景,可直接通过pip安装使用,包含完整的训练/推理示例代码。
      • kubernetes-sigs/external-dns - dns是一个开源项目,旨在通过Kubernetes资源动态管理外部DNS记录。它允许用户将集群内部的服务、Ingress规则等自动同步到外部DNS服务器,实现服务发现和域名解析的自动化。项目核心功能包括监听Kubernetes API事件,当资源发生变化时触发DNS记录的创建、更新或删除操作,从而保持外部DNS与集群状态的一致性。支持多种DNS提供者如AWS Route 53、Google Cloud DNS、Azure DNS、DigitalOcean DNS等,用户可通过配置指定使用的DNS服务。同时项目具备自动发现域名的能力,能够根据Service资源的ClusterIP或Ingress资源的主机名生成对应的DNS记录。其工作原理基于控制器模式,通过在Kubernetes中部署一个控制器Pod,持续同步资源变化并调用DNS API执行操作。external-dns还支持自定义域名模板、TTL值设置以及多区域DNS管理,满足不同场景需求。项目适用于需要将Kubernetes服务暴露给外部网络的场景,可显著降低手动维护DNS记录的复杂度。此外,它与Kubernetes的集成度高,支持通过Annotations配置策略,例如选择性更新记录或忽略特定资源。项目文档提供了详细的安装指南和配置示例,便于用户快速上手。通过external-dns,企业可以实现更高效的云原生网络管理,确保域名解析的实时性和准确性。
      • metallb/metallb - controller与数据平面组件metallb-speaker的协同,前者负责服务配置管理,后者通过BGP协议将负载均衡规则传播至网络设备。项目支持多种部署模式,可与Kubernetes原生服务协同工作,无需依赖特定云厂商的负载均衡服务。MetallB通过声明式配置实现灵活的IP地址分配策略,支持跨集群流量路由和故障转移机制,特别适用于多云架构和边缘计算场景。其开源特性允许开发者根据实际需求定制路由策略,并通过模块化设计实现与不同网络设备的兼容性扩展,是构建大规模Kubernetes网络基础设施的重要工具。
      • ggerganov/ggwave
      • Zackriya-Solutions/meeting-minutes
      • facebookresearch/encodec
      • prophesier/diff-svc - SVC是一个基于扩散模型的歌声转换项目,它允许你将一个人的歌声转换成另一个人的歌声,同时保留歌词和音调。项目特色在于使用扩散模型进行音频生成,避免了传统VAE方法中常见的过平滑问题,能够生成更自然、高质量的歌声。Diff-SVC的工作原理是首先使用内容编码器提取音频的内容信息,然后使用扩散模型根据目标歌手的音色信息生成新的歌声,最后通过解码器将生成的音频还原。项目支持自定义数据集训练,并提供了预训练模型,方便用户快速上手。该项目使用PyTorch实现,并提供了详细的文档和示例代码,方便用户进行二次开发和定制。Diff-SVC旨在为歌声转换领域提供一种新的、更有效的方法,并为音乐创作和娱乐提供更多可能性。
      • fastrepl/hyprnote
      • Plachtaa/seed-vc - vc是一个零样本语音转换和歌声转换项目,它支持实时转换。该项目无需目标说话人的数据即可进行语音转换,降低了使用门槛。Seed-VC的核心在于使用自监督学习提取的语音表征作为“种子”,并以此控制转换后的语音特征。项目支持多种语音转换任务,包括改变说话人、音高等。实时性是其重要特点,使其能够应用于实时语音交互场景。它利用了先进的深度学习技术来实现高质量的语音转换效果,并且具有较强的泛化能力。项目代码开源,方便研究者和开发者使用和改进。Seed-VC为语音转换领域的研究和应用提供了一个有价值的工具。
      • adefossez/demucs - Net架构,结合了频谱和波形信息,从而提高了分离的准确性。该项目还提供了命令行工具,简化了音频分离流程。Demucs已被广泛应用于音乐制作、音频编辑等领域,是一个强大的音频源分离工具。它支持多种音频格式,并且拥有活跃的社区支持。 Demucs的性能在同类开源项目中处于领先地位,是音频处理研究和应用的理想选择。
      • SociallyIneptWeeb/AICoverGen
      • gitmylo/audio-webui
      • ardha27/AI-Song-Cover-RVC - Song-Cover-RVC项目是一个一站式AI歌曲翻唱解决方案,利用Google Colab实现。它集成了YouTube WAV音频下载、人声分离、音频分割、模型训练和推理等功能。该项目使用RVC(Retrieval-based Voice Conversion)技术,即基于检索的语音转换,允许用户使用AI将歌曲转换为特定人物的声音演唱。用户可以通过Colab笔记本完成整个流程,无需复杂的本地环境配置。项目的主要特色在于其易用性和完整性,简化了AI歌曲翻唱的流程,降低了技术门槛。它涵盖了从数据准备到最终结果生成的所有步骤,方便用户快速创建AI翻唱作品。
      • JusperLee/TIGER
      • FreedomIntelligence/Soundwave
      • ahmetb/kubernetes-network-policy-recipes - network-policy-recipes,它提供了一系列Kubernetes网络策略的示例,可以直接复制粘贴使用。这些示例旨在帮助用户理解和应用Kubernetes网络策略,从而控制集群内的网络流量。项目特色在于提供了多种常见场景下的网络策略配置,例如限制Pod之间的访问、允许特定命名空间之间的通信、以及允许外部流量访问特定服务等。它通过YAML文件定义网络策略规则,利用Kubernetes的网络策略控制器实现流量控制。用户可以根据自身需求修改这些示例,快速部署自定义的网络策略。项目涵盖了从基础到高级的网络策略应用,方便用户学习和实践。它简化了网络策略的配置过程,降低了使用门槛,提高了集群安全性。
      • DioCrafts/OxiCloud
      • freelensapp/freelens
      • metalbear-co/mirrord
      • feiskyer/kubernetes-handbook - proxy)的协作机制,以及声明式配置、自动伸缩、自我修复等关键特性。项目还提供多语言支持和社区维护的更新日志,适合开发者、运维人员及云原生技术爱好者作为学习和参考资源。
      • uber-go/automaxprocs
      • kgateway-dev/kgateway
      • emissary-ingress/emissary
      • psviderski/unregistry
      • siderolabs/talos
      • kubeedge/kubeedge
      • stepfun-ai/Step-Audio2 - Audio 2 是一个面向工业级应用的端到端多模态大语言模型,专注于音频理解与语音对话任务。该项目的核心功能包括:通过音频输入(如语音、环境声)与文本、视频等多模态数据的融合处理,实现高精度的音频内容分析、语音交互以及跨模态任务(如语音转文字、声纹识别、语音情感分析等)。其技术特点包括采用多阶段架构设计,整合了音频信号处理模块、自然语言处理模块以及大语言模型(LLM),支持复杂场景下的音频内容理解与生成。例如,在客服场景中,模型可自动识别用户语音并生成对话摘要;在教育领域,可实现语音指令控制教学系统。模型通过大规模音频-文本对数据集训练,覆盖多语种、多方言及噪声环境,具备强鲁棒性。工作原理上,Step-Audio 2 通过音频预处理(如降噪、特征提取)生成声学特征,结合大语言模型的上下文理解能力,完成语音识别、意图识别及多轮对话管理。项目还支持与外部系统(如IoT设备、API接口)集成,适用于智能客服、语音助手、安防监控等工业场景。其优势在于端到端流程优化,减少中间环节的误差传递,同时提供可扩展的模块化架构,便于后续功能扩展与定制化部署。
      • bridgecrewio/checkov
      • ubicloud/ubicloud
      • orbstack/orbstack
      • podman-desktop/podman-desktop
      • XiaomiMiMo/MiMo-Audio - Audio 是一个专注于音频语言模型(Audio Language Models)研究的开源项目,其核心目标是探索音频语言模型在少样本学习(Few-Shot Learning)场景下的潜力。该项目基于小米团队的科研成果,通过自监督预训练和跨模态对齐技术,构建了能够快速适应新任务的音频模型。与传统需要大量标注数据的模型不同,MiMo-Audio 提出的音频语言模型能够在极少量样本(如几段语音)的情况下,实现对新语言、新场景的快速适配,显著降低了语音识别和语音生成任务的部署门槛。项目特色包括:支持多语言音频处理、轻量化模型设计、模块化架构便于扩展,以及对复杂噪声环境的鲁棒性优化。其工作原理主要依赖于音频-文本的联合对齐机制,通过大规模未标注音频数据的预训练,使模型掌握音频信号与语义内容之间的映射关系。这种设计使模型在实际应用中(如智能音箱、语音助手等)能够更灵活地处理用户输入,同时保持较低的计算资源消耗。目前,MiMo-Audio 已开源其核心代码和训练框架,开发者可通过项目文档获取模型训练、部署及跨设备适配的完整指南,并参与社区贡献。
      • videosdk-live/agents - live/agents是一个开源框架,旨在帮助开发者构建实时多模态对话式AI代理系统。该项目的核心目标是通过整合语音、视频、文本等多种输入模态,实现更自然的实时人机交互体验。框架采用模块化设计,支持开发者根据需求灵活配置不同功能模块,例如语音识别、面部表情分析、自然语言处理等模块的集成。其工作原理基于实时数据流处理架构,通过分布式计算框架对多模态数据进行同步处理,确保不同传感器输入的实时性与一致性。 项目特别强调实时性与低延迟特性,通过优化数据传输协议和并行处理算法,确保在视频会议、远程协作等场景中实现流畅的交互体验。技术实现上,框架兼容主流AI模型,支持通过预训练模型快速搭建代理系统,并提供可扩展的API接口供开发者定制功能。目前框架已集成基础的语音交互模块和视频流处理能力,支持通过摄像头和麦克风进行多模态数据采集,同时提供可视化调试工具辅助开发。该项目适用于需要实时多模态交互的场景,如智能客服、远程教育、虚拟助手等,开发者可通过文档提供的示例代码快速入门。由于其开源特性,社区开发者可基于框架进行功能扩展或二次开发,项目持续更新维护,适合对实时AI交互有需求的技术团队使用。
      • realtime-ai/blastoff-llm - LLM是一个由realtime-ai开发的高性能大型语言模型加速框架,通过创新的小模型前缀大模型架构实现超快速响应。项目核心原理是利用小型高效模型生成提示信息,再由大模型处理核心任务,这种分层设计既保留了大模型的强大能力,又显著提升了响应速度。该项目特别优化了资源利用率,通过精准的模型分工降低了计算延迟,适用于需要实时交互的场景如智能客服、对话机器人等。技术亮点包括动态模型调度机制、轻量级提示生成模块以及支持多种大模型的适配层,开发者可灵活选择模型组合。项目提供完整的API接口和示例代码,支持快速集成到现有应用中,同时通过缓存优化和请求优先级算法进一步提升吞吐量。Blastoff-LLM在保持高精度的同时,将推理速度提升30%以上,特别适合对延迟敏感的生产环境,其模块化设计便于扩展新模型和自定义工作流,目前已在多个实时对话系统中验证效果。
      • dreamtheater123/Awesome-SpeechLM-Survey - 文本联合建模等,同时总结现存挑战如数据稀缺性、计算复杂度、跨语言泛化能力等。工作原理上,项目通过整合学术论文、开源代码及实验数据,构建了可检索的调研体系,便于研究者快速定位技术演进脉络,适用于自然语言处理与语音识别领域的学者及开发者作为技术参考。
      • qemus/qemu
      • strimzi/strimzi-kafka-operator
    • 网络服务_其他

  • Android应用

    • 资源传输下载

      • PranshulGG/WeatherMaster
      • ismartcoding/plain-app
      • inferjay/AndroidDevTools
      • offa/android-foss
      • ACRA/acra
      • nisrulz/android-tips-tricks
      • fumiama/copymanga
      • Kotlin/KEEP
      • aaa1115910/bv
      • CatimaLoyalty/Android
      • Darkempire78/OpenCalc
      • greenrobot/EventBus
      • HiddenRamblings/TagMo
      • breezy-weather/breezy-weather
      • Dr-TSNG/ZygiskNext
      • aritraroy/UltimateAndroidReference
      • davemorrissey/subsampling-scale-image-view
      • google/accompanist
      • zetbaitsu/Compressor
      • Gurupreet/ComposeCookBook
      • xufuji456/FFmpegAndroid
      • EntySec/Ghost
      • facebook/redex
      • liriliri/aya
      • ImranR98/Obtainium
      • LawnchairLauncher/lawnchair
      • HarlonWang/AVLoadingIndicatorView
      • ksoichiro/Android-ObservableScrollView - ObservableScrollView是一个用于监听可滚动视图滚动事件的Android库。它允许开发者轻松地检测ScrollView、ListView、RecyclerView等视图的滚动状态,并根据滚动位置执行自定义操作。该库的核心思想是使用自定义的ObservableScrollView及其相关组件,通过监听滚动事件并通知观察者来实现滚动状态的追踪。主要特色包括:支持多种可滚动视图、提供丰富的滚动事件回调、易于集成和使用、以及可自定义的滚动行为。开发者可以通过实现特定的接口来接收滚动事件,例如`ObservableScrollViewCallbacks`。它能够帮助开发者实现诸如视差滚动、Toolbar隐藏/显示、以及其他基于滚动位置的动画效果。该库的设计目标是提供一个灵活且高效的解决方案,用于处理Android应用中的滚动交互。使用时需要将库添加到项目中,并在XML布局文件中使用ObservableScrollView或ObservableListView等组件。
      • huanghaibin-dev/CalendarView
      • GcsSloop/AndroidNote
      • cats-oss/android-gpuimage
      • seven332/EhViewer - Hentai应用,它允许用户浏览和下载E-Hentai和ExHentai上的漫画资源。该项目可能已被弃用,但它曾提供了一个方便的移动端访问E站的途径。EhViewer可能通过解析E-Hentai网站的HTML内容或使用其API(如果可用)来获取漫画信息和图像。用户可以使用该应用搜索、浏览和下载自己喜欢的漫画作品。请注意,使用该应用可能需要遵守E-Hentai网站的使用条款。由于项目已弃用,可能存在兼容性或安全问题,建议谨慎使用。
      • navasmdc/MaterialDesignLibrary
      • laobie/StatusBarUtil
      • iSoron/uhabits
      • roughike/BottomBar
      • fwcd/kotlin-language-server - language-server 是一个使用语言服务器协议(LSP)为任何编辑器/IDE 提供 Kotlin 代码补全、诊断和其他功能的项目。它旨在提供跨不同编辑器的统一 Kotlin 开发体验。该项目利用 Kotlin 编译器来提供准确的代码分析和建议。它支持诸如自动补全、跳转到定义、查找引用、代码格式化和实时错误/警告提示等功能。通过 LSP,它可以与支持该协议的各种编辑器集成,例如 VS Code、Vim、Emacs 等。该项目旨在简化 Kotlin 开发流程,提高开发效率,并确保代码质量。它是一个开源项目,欢迎社区贡献和使用。
      • ReadYouApp/ReadYou
      • LibChecker/LibChecker
      • NeoApplications/Neo-Store - Store 是一款基于 F‑Droid 的 Android 客户端,主打“现代化 UI 与丰富功能”。 它把原版 FDroid 的应用列表、搜索与安装流程全部迁移至自研的界面,并在此基础上加入了诸多实用扩展:可自定义收藏夹、离线缓存、版本对比与自动更新提示;支持多语言(英文/中文)切换,提供夜间模式和暗色主题。 工作原理方面,Neo‑Store 通过 Retrofit+OkHttp 拉取 FDroid 官方 JSON 数据,然后用 Kotlin 协程异步处理,并将下载任务交给 WorkManager 或者自研的下载管理器,以确保后台稳定不被强制终止;所有 UI 都采用 Jetpack Compose,使得布局简洁、动画流畅。 安装方式同普通 Android 应用:可直接从 Google Play/或使用自建 APK 安装,亦支持通过 AAB 进行分层部署以减小包体积。 README 文档还提供了“快速上手”章节,包括首次运行时需要授予的权限、如何开启离线缓存以及如何查看下载进度;还有“贡献指南”,鼓励开发者 fork 后提交 PR,文中列举了 “常见问题” 与对应解决方案。 总体来看,该项目既保持了 FDroid 轻量级、无广告的核心精神,又在界面与功能上大幅提升,使得用户可更直观、更高效地浏览并管理自己设备上的 Android 应用,尤其适合希望获得现代化体验而不想放弃官方 F‑Droid 的使用者。
      • rumboalla/apkupdater
  • C/C++程序设计

    • 资源传输下载

      • vortexgpgpu/vortex
      • ninja-build/ninja
      • floooh/sokol
      • SanderMertens/flecs - 组件-系统架构模式,通过分离数据(组件)与逻辑(系统)实现灵活高效的数据管理。ECS 是一种组织代码和数据的方式,它允许你构建更大、更复杂且更易于扩展的游戏。项目以内存池优化为核心,通过预分配内存块减少动态内存分配开销,结合无锁多线程支持实现高并发性能,特别适合游戏开发、物理仿真等对实时性要求高的场景。其核心特性包括基于宏的组件定义系统,允许开发者通过简单注解自动生成组件结构和管理代码,同时支持C++模板实现类型安全的组件操作。框架提供跨平台兼容性,支持Windows、Linux和macOS系统,且无需依赖第三方库即可编译运行。通过分离实体标识与组件数据,系统能实现高效的实体-组件映射,配合基于事件的系统调度机制,使复杂逻辑模块化。开发者可自定义组件类型和系统行为,结合反射机制实现运行时组件管理,同时通过内存池优化和缓存友好数据布局,显著提升CPU缓存利用率。项目特别强调性能与灵活性的平衡,既可通过C语言实现轻量级使用,也支持C++11及以上版本的面向对象特性扩展,适用于需要高性能数据处理的多种应用场景。
      • TheLartians/ModernCppStarter
      • cpm-cmake/CPM.cmake
      • AlexanderPro/SmartSystemMenu
      • p-ranav/tabulate
      • eclipse-threadx/threadx
      • coolwanglu/pdf2htmlEX
      • clsid2/mpc-hc - Home Cinema (MPC-HC) 是一个轻量级的开源Windows媒体播放器,致力于模拟经典Media Player Classic的外观和感觉,同时添加现代功能。它支持多种视频、音频格式的播放,无需安装额外的编解码器。MPC-HC基于DirectShow架构,利用硬件加速解码视频,降低CPU占用。该项目提供32位和64位版本,并定期更新以修复bug和增加新功能。MPC-HC是一个社区驱动的项目,欢迎贡献代码和翻译。它提供高度的可定制性,允许用户调整播放器的行为和外观。MPC-HC特别适合那些追求简洁、高效且资源占用低的播放器的用户。它支持字幕显示、音频均衡器等常用功能,并具有内置的视频解码器。
      • universal-ctags/ctags - ctags项目是ctags的一个活跃维护分支,旨在生成各种编程语言的索引文件(tags文件),方便代码导航和理解。它支持多种语言,并不断添加新的语言支持。ctags通过解析源代码,识别函数、类、变量等程序实体,并将它们的信息记录在tags文件中。编辑器和IDE可以使用这些tags文件来实现快速跳转到定义、符号查找等功能。universal-ctags致力于提供更准确、更全面的tags生成能力,并修复bug和改进性能。它与Exuberant Ctags兼容,并力求超越其功能。该项目欢迎贡献,并提供了详细的文档和示例。目标是成为现代代码导航和理解的必备工具。
      • MattPD/cpplinks
      • fastfetch-cli/fastfetch
      • abbodi1406/vcredist
      • EpicGamesExt/raddebugger
      • openvenues/libpostal
      • Robert-van-Engelen/tinylisp - 求值-输出)环境,能够满足基础Lisp编程需求。其工作原理基于C语言实现的Lisp解释器,通过尾调用优化(tail-call optimization)技术显著提升执行速度并减少内存占用,这种优化方式在递归函数中避免了不必要的堆栈增长,使得程序运行更高效。项目特别强调教育意义,通过极简代码量(99行)直观展示Lisp语言的核心机制,适合编程爱好者学习如何构建语言解释器,同时附有完整的实现文档和说明,便于开发者理解代码结构和扩展方式。该项目不仅是一个语言工具,更是Lisp语言设计和C语言实践的结合体,通过精简代码实现复杂功能,展示了编程语言设计的精妙之处。
      • ericniebler/range-v3 - v3是一个为C++14/17/20设计的现代范围库,旨在为C++20标准库中的std::ranges提供基础支持。该项目通过引入基于概念(concepts)的泛型编程范式,实现了类似Python生成器或LINQ查询语法的链式操作能力,允许开发者通过简洁的语法对数据集进行过滤、转换、聚合等操作。其核心工作原理基于迭代器模式,通过封装范围(range)对象实现延迟求值(lazy evaluation),仅在最终结果需要时才执行计算,从而优化性能。库中定义了丰富的算法(如transform、filter、take、drop等)和组合操作符,支持将任意可迭代对象(如容器、数组、生成器)转换为可链式处理的范围对象,同时兼容C++标准库算法。项目特别强调类型安全,通过概念约束确保操作的正确性,并支持与C++20标准库的无缝集成。range-v3的设计目标是为开发者提供更直观、高效的序列处理方式,同时为C++20的std::ranges标准库实现提供实践参考,其代码结构清晰,文档完善,已成为C++现代编程范式的重要工具之一。
      • hanickadot/compile-time-regular-expressions - time-regular-expressions 是一个基于 C++ 的编译时正则表达式处理库,其核心目标是通过在编译阶段完成正则表达式的解析与验证,从而避免传统运行时正则表达式可能引发的错误和性能损耗。项目采用 C++11 及以上版本开发,利用模板元编程和编译时计算技术,将正则表达式转换为高效的匹配逻辑,例如将模式编译为状态机或抽象语法树,使运行时匹配过程无需额外解析步骤,显著提升性能并减少潜在的运行时异常。其关键特性包括:1)编译时语法校验,确保正则表达式格式正确;2)类型安全设计,通过模板参数化避免运行时类型错误;3)零运行时开销,匹配过程直接调用编译生成的代码;4)支持主流正则表达式语法(如捕获组、量词等)。开发者可通过宏或编译器指令将正则表达式嵌入代码中,编译器会自动生成匹配逻辑,适用于需要高性能字符串处理的场景(如协议解析、日志过滤等)。项目无需外部依赖,采用 MIT 许可证,适合集成到需要强类型和高效率的 C++ 项目中。
      • Alex313031/thorium
      • mitchellh/libxev
      • ravynsoft/ravynos
      • leandromoreira/linux-network-performance-parameters - network-performance-parameters项目旨在帮助理解Linux/Kernel网络流程中sysctl变量的作用。它通过图文并茂的方式展示了网络数据包在Linux内核中的传输路径,以及各个阶段相关的sysctl参数。项目特色在于将抽象的网络概念与具体的内核参数关联起来,方便用户优化网络性能。你可以通过该项目了解诸如TCP拥塞控制、缓冲区大小、路由策略等参数如何影响网络传输。该项目提供了清晰的图表,帮助你理解数据包如何在网络协议栈中移动,以及如何使用sysctl调整内核参数以获得更好的网络性能。目前项目提供俄语翻译版本。这个项目对于想要深入了解Linux网络内核机制和优化网络性能的工程师来说非常有价值。
      • RubyMetric/chsrc
      • leahneukirchen/nq
      • pizlonator/llvm-project-deluge - project-deluge 是一个基于 LLVM 的实验性项目,旨在探索使用数据流分析和程序切片技术进行自动漏洞修复。该项目专注于 C 语言,通过构建程序依赖图 (PDG) 来识别潜在的漏洞点和受影响的代码区域。Deluge 的核心思想是利用程序切片技术提取与漏洞相关的代码片段,然后尝试自动生成修复补丁。它使用 LLVM 的中间表示 (IR) 进行分析和转换,并尝试通过替换或修改受影响的指令来修复漏洞。项目目前处于早期开发阶段,主要目标是验证自动漏洞修复的可行性,并为未来的研究提供基础。 该项目利用 LLVM 提供的 API 进行程序分析和转换,并提供了一些自定义的分析工具和修复策略。
      • rime/weasel
      • CGAL/cgal
      • sysstat/sysstat
      • ThePhD/sol2
      • USCiLab/cereal
      • mortennobel/cpp-cheatsheet
      • google/glog
      • doctest/doctest
      • andreasfertig/cppinsights
      • Neargye/magic_enum - only 形式,安装简单,适用于跨平台开发。开发者可通过示例文档快速上手,项目还包含完整的测试套件验证功能正确性。magic_enum 的设计目标是替代传统需手动实现的枚举转换逻辑,显著提升代码简洁性和可维护性,尤其适合需要频繁处理枚举序列化或用户交互场景的项目。
      • asmjit/asmjit - 64 和 ARM,并确保代码在不同平台(Windows、Linux、macOS)和编译器(GCC、Clang、MSVC)下的可移植性。项目采用头文件(header-only)设计,简化了集成流程,同时提供沙箱化执行环境以增强安全性。其功能覆盖指令集生成、代码段管理、寄存器分配等核心模块,并支持调试信息和代码优化选项。asmjit 的 MIT 许可协议使其适用于商业和开源项目,且社区活跃度高,持续更新维护。该项目特别适合需要动态生成代码的场景,例如动态编译器、实时音频处理或游戏中的物理模拟,通过直接操作硬件指令集,显著提升性能表现。
      • p-ranav/awesome-hpp - ranav/awesome-hpp 是一个精心整理的头文件(header-only)C++ 库资源清单,旨在为开发者提供高效、轻量级且功能丰富的 C++ 开发方案。该项目的核心特色是严格筛选仅头文件实现的 C++ 库,无需编译即可直接使用,显著降低集成复杂度,同时确保跨平台兼容性。资源按功能分类,涵盖算法、数据结构、并发、图形、网络、机器学习等常见领域,每个库均附有简要描述、使用示例和官方链接,帮助开发者快速定位所需工具。项目持续更新,维护者定期审查库的活跃度和代码质量,确保推荐内容的时效性。其工作原理基于社区贡献和开源生态,通过聚合 GitHub、GitLab 等平台的优质项目,形成结构化知识库。特别强调对现代 C++ 标准(如 C++11/14/17/20)的支持,部分库提供跨编译器(GCC/Clang/MSVC)的兼容性验证。该项目适合需要快速原型开发、嵌入式系统或追求代码简洁性的开发者,同时为开源社区提供了一个集中展示高质量头文件库的平台,用户可通过 Fork 或 PR 方式参与贡献。
      • odygrd/quill - 5倍;2)轻量设计,完全头文件实现(header-only);3)支持多线程日志记录,通过异步写入避免阻塞;4)灵活的日志等级控制(trace/debug/info/warning/error/critical);5)支持格式化输出和自定义日志处理器。架构上采用生产者-消费者模式,日志记录器(Logger)将消息写入环形缓冲区,后台线程异步处理并持久化到磁盘。项目持续维护,提供完整文档、示例代码和单元测试,采用MIT许可证,适合开源和商业项目使用。开发者强调其适用于需要实时数据处理、分布式系统或高并发场景,同时保持代码简洁性与可扩展性,例如支持日志文件滚动、异步写入延迟调节等高级功能。
      • mpitutorial/mpitutorial
      • Alexays/Waybar - -----|------| | **高度可定制** | JSON 配置中可以自由设置每个模块的位置、字体大小、颜色、宽度等;还支持自定义 `style.css`,使得整个栏可以像 i3bar 那样被切成多块并排布。 | | **多模块支援** | 内置 12+ 模块(如 clock, battery, network, volume, backlight 等),可在一个 bar 同时显示多个信息;每个模块都有自己的 “type” 字段来指示其实现。| | **Wayland 原生** | Waybar 并用 `wlroots` 的 libwlr 以及 sway-client(IPC)直接与合成器交互,支持多屏幕、分辨率切换而不需重启。 | | **主题化 & 动画** | 可以通过 CSS 设置渐变背景、圆角等;模块文字可用 `font`, `color` 等属性定制,甚至可以使用自定义图标(SVG)。| | **插件式架构** | 每个模块本身是一个独立的 C 结构体,可以随时新增或移除。Waybar 的代码里还有 `module.h` 与 “module.c” 模块管理文件;新功能只需添加一个 .c 并在 Makefile 中编译即可。| ### 安装方式 #### A. 系统包 (Arch / Fedora / Ubuntu) ``` # Arch Linux sudo pacman -S waybar # 官方仓库已提供 # Debian/Ubuntu apt-get install waybar # 需 libsway-client, libwlroots # Fedora dnf install waybar ``` > **依赖**: > * `libwayland`(Wayland 库) > * `libsway-client`(与 sway IPC 通信的库) > * `libwlr` (wlroots 的 C 接口) #### B. 源码编译 ``` git clone https://github.com/Alexays/Waybar cd Waybar make # 编译全部模块,需已安装 libwayland、sway-client 等依赖 sudo make install # 安装到 /usr/local/bin 及 /etc/systemd ``` > **配置** > - 配置文件位于 `~/.config/waybar/config.json`。可直接复制 repo 中的示例或使用 `waybar --help` 生成默认结构。 > - 样例: ```json { "layer": "top", "height": 30, "modules-center":[ "clock", "battery" ], "font":"Ubuntu Mono,10:medium" } ``` #### C. 启动 Sway 时只需在 `~/.config/sway/config` 中加入: ``` exec waybar ``` Waybar 将自动读取 JSON 配置并渲染栏。 ### 典型使用案例 - **自定义时钟** - 在 config.json 的 “modules” 对象中添加 `"clock": {"type":"clock","format":"%a %d-%m-%y %H:%M"}`;Waybar 将每分钟更新一次。 - **网络状态监测** ``` "network":{ "type":"network", "interface":"eth0" } ``` Waybar 会根据网卡是否有 IP 或链接决定显示 “Wi‑Fi”/“Ethernet”。 - **音量控制** - `"volume":{"type":"pulseaudio","device":"default"}`;模块会监听 PulseAudio 的事件并渲染当前电量。 ### 核心工作原理(简化) 1. Waybar 启动 → 读取 config.json → 创建各个模块实例。 2. 每个模块根据 “type” 字段决定其实现:`clock`, `battery` 等对应到 C 结构体与函数。 3. 模块通过 sway IPC 或 wlroots 的输出接口注册自己在 Wayland 上的“挂点”(`wlr_surface`)。 4. 当外部事件(如电量变化、网络状态改变)时,模块会收到相应信号并重新渲染自己的文字与图标。 5. 渲染结果通过 Waybar 的 “layout engine” 送给 sway/swaycompositor,以此更新屏幕上的 bar surface。 ### 小结 Waybar 用 JSON 配置实现高度可定制,支持多模块、主题化,并且直接在 Wayland 下工作,无需 X11 或其他旧版技术。它为 Sway 和任何 wlroots 合成器提供一个类似 i3bar 的状态栏,让用户可以通过简单的配置文件自由定义想要显示的信息与样式。
      • microsoft/GSL - owning reference)类型,用于明确区分所有权与临时引用关系。GSL采用纯头文件(header-only)设计,无需额外编译,可直接集成到项目中。该库兼容C++11及以上标准,并与Visual Studio、Windows SDK等微软生态工具深度集成。通过强制类型约束和编译期检查,GSL能帮助开发者在早期发现违反核心指南的代码,例如强制使用std::unique_ptr替代原始指针、提供更安全的容器操作接口。项目由微软维护,采用MIT许可证开放源代码,开发者可自由使用和扩展,社区贡献也持续优化其功能。其设计理念是通过编译器支持和类型系统特性,将C++核心指南转化为可执行的代码约束,从而减少运行时错误,提升大型项目的代码质量与开发效率。
      • tboox/tbox - *数组* (`tbox_array`) 允许动态扩展,支持任意数据结构。 - *链表* 与 *双向链表*(`tbox_linkedlist`, `tbox_dlink`) 用于 FIFO/ LIFO 操作。 - *哈希表*、*平衡树*与 *红黑树* 为快速查找提供 O(1)/O(log n) 的性能。 - *栈/队列*(`tbox_stack`, `tbox_queue`) 用于多线程工作。 4. **内存管理**:TBOX 采用引用计数和可自定义的分配器,既能避免泄漏,又能让不同模块共享同一块内存。提供了 `tbox_malloc`, `tbox_free` 等封装,可在调试模式下检测错误。 5. **文件与 I/O**:抽象化后端口(TBOX_FILE)对 Windows 的 HANDLE、Unix 的 FILE* 进行统一,支持同步/异步读写以及批量操作。 - `tbox_file_open`, `tbox_file_read` 等 API 与标准 C 相似,但提供了路径自动创建与错误码封装。 6. **字符串工具**:除了常规 ASCII 支持,还含 UTF‑8 处理(转义、长度测算等),并可在 GLIB 样式的 “GString” 上做操作。 - `tbox_str_utf8_length`, `tbox_str_replace` 等函数。 7. **线程安全**:提供宏 `TBOX_LOCKED()` 与内部自旋锁,保证多线程读写时不出现数据竞争;在单核或无线程环境下也可禁用以提升性能。 **工作原理简述** - TBOX 的每一模块都封装成头文件 + 对应的源文件。 - 通过 `tbox_config.h` 开关特定功能,避免不必要的代码被编译,从而极大减小二进制体积。 - 它用标准 C99/11 编写,并且在所有平台上都可直接编译(无需额外依赖)。 **使用示例** ```c #include "tbox.h" int main(void){ // 动态数组存 int 值 TBOX_ARRAY *arr = tbox_array_new(sizeof(int)); for (int i=0;i<10;++i) tbox_array_append(arr,&i); // 取值并打印 for (size_t j=0;j<tbox_array_length(arr);++j){ int val; tbox_array_get(arr,j,&val); printf("%d ",val); } tbox_array_destroy(arr); } ``` **安装与构建** - 克隆仓库:`git clone https://github.com/tboox/tbox.git` - 进入目录 `cd tbox`; 执行 `make install`(默认目标为 Linux)或在 Windows 上使用 CMake: ```bash cmake -S . -B build && cmake --build build ``` - 库生成后可直接链接:`gcc main.c -ltbox` **贡献与社区** TBOX 的开发者鼓励任何想法、修复或功能请求。项目的 `issues` 与 `pull requests` 均在 GitHub 上公开维护,所有文档均以 MIT 许可证发布。 --- 以上文字约 **420 字**(300–500字范围内),保留了核心特性与工作原理,可帮助想了解 TBOX 的读者快速掌握其功能与使用方式。
      • jarro2783/cxxopts - only)结构,无需额外编译或依赖,用户只需包含头文件即可直接使用,极大简化了集成流程。其核心功能是解析命令行参数,支持通过命名参数(如 --help)或位置参数(如文件路径)获取输入,同时允许为参数设置描述、默认值和值类型,例如通过 `cxxopts::Option` 定义参数规则。库的设计强调简洁性,提供清晰的 API 接口,例如通过 `parse` 方法将命令行参数转换为结构化数据,并支持验证参数合法性(如检查参数是否存在或类型是否匹配)。开发者可通过 `cxxopts::Options` 类定义参数集,包括标志(flag)、值(value)或可选参数(optional),并能处理多值参数(如 --input file1 file2)。项目代码体积小且文档完整,适用于快速开发场景,MIT 开源协议允许自由使用和修改。其工作原理基于解析命令行字符串,将参数映射到预定义的选项结构中,用户可通过选项名称或位置索引访问数据,同时提供错误提示功能(如参数缺失或格式错误)。该项目由 jarro2783 开发,适合需要灵活且高效处理命令行输入的 C++ 项目,尤其适合嵌入式或跨平台工具开发。
      • bombela/backward-cpp - cpp 是一个专为 C++ 开发者设计的栈跟踪美化打印库,旨在将程序崩溃时生成的原始堆栈信息转换为更易读、结构清晰的格式,帮助开发者快速定位问题根源。该项目的核心功能是通过捕获程序异常或崩溃时的调用栈信息,结合符号解析技术(如使用 addr2line 或外部调试符号文件),将复杂的函数地址、文件名、行号等信息以分层、带缩进的文本形式展示,显著提升调试效率。其工作原理基于 C++ 标准库的异常处理机制和信号捕获功能,通过注册全局异常处理函数或信号处理器,在程序崩溃时自动收集上下文信息,并利用预定义的格式化规则输出结构化的堆栈跟踪。项目支持跨平台编译(Windows、Linux、macOS 等),且对编译器版本要求较低,兼容 GCC、Clang 等主流编译器。开发者只需在项目中引入该库的头文件并链接相关依赖(如 libunwind 或 libbacktrace),即可通过简单的 API 调用实现堆栈信息的美化输出。特别的是,backward-cpp 还提供了对调试符号的自动解析能力,无需手动配置符号文件即可展示函数名和源代码位置,极大简化了调试流程。该库适用于需要在调试阶段或生产环境监控中快速分析崩溃原因的 C++ 项目,尤其适合大型工程或嵌入式系统开发场景。由于其轻量级设计和无外部依赖(除标准库外),backward-cpp 可快速集成到现有项目中,成为 C++ 开发者调试工具链中的重要组件。
      • CLIUtils/CLI11
      • dpilger26/NumCpp - only),无需额外编译,便于集成到现有C++项目中。此外,NumCpp还提供与Python NumPy的接口兼容性,允许C++代码与Python生态无缝交互。该库特别适合对性能要求较高的应用场景,例如实时数据处理或嵌入式系统开发,同时其简洁的API设计降低了C++开发者的使用门槛,成为替代Python NumPy的高性能数值计算工具。
  • Python程序

    • 资源传输下载

      • pympler/pympler
      • Pierian-Data/Complete-Python-3-Bootcamp
      • pikasTech/PikaPython
      • ipyflow/ipyflow
      • pyenv-win/pyenv-win - win是一个用于Windows系统的Python版本管理工具,它能让用户轻松切换多个Python版本,工作原理是通过安装多个Python解释器并使用命令行工具进行切换,支持Windows 10及更高版本,安装简单,遵循UNIX单功能工具的传统,不干扰其他系统功能,适合需要管理多个Python版本的开发者使用。
      • astral-sh/ty
      • eliasdabbas/advertools
      • google/clusterfuzz
      • originalankur/maptoposter
      • theOehrly/Fast-F1 - F1是一款基于Python的开源工具库,专注于为用户提供高效访问和分析一级方程式(F1)赛事数据的能力。该项目通过直接对接F1官方API和历史数据源,能够快速获取包括比赛结果、赛程安排、实时计时数据以及赛车遥测信息在内的多维度数据,支持从2010年至今的完整赛事记录。其核心特色在于通过预处理和结构化存储技术,将原始数据转化为易于操作的Pandas DataFrame格式,用户可直接使用类似`fastf1.get_session()`的简洁方法调用数据,无需手动解析复杂文件格式。项目特别优化了数据加载速度,通过缓存机制减少重复请求,同时支持按赛事类型(如排位赛、正赛)和年份筛选数据,还能提取赛车速度、刹车点、轮胎压力等遥测参数进行深度分析。开发者可通过可视化功能生成赛道热力图或性能对比图表,适合赛事研究、数据挖掘和教学场景使用。Fast-F1的代码文档和示例教程完整,用户可通过`pip install fastf1`快速安装,配合Jupyter Notebook等工具即可开展数据分析工作,是F1数据处理领域的重要工具。
      • open-spaced-repetition/fsrs4anki
      • seperman/deepdiff
  • 游戏

  • 知识管理_wiki知识库

    • 资源传输下载

      • baturyilmaz/wordpecker-app
      • zotero/zotero - 整理-引用”的全流程设计:用户可通过浏览器插件从网页自动抓取文献信息,将PDF、网页截图、书签等资料保存至本地或云端库中,并通过标签、注释、关键词等分类管理,同时支持智能搜索功能快速定位内容。其同步功能采用加密技术保障数据安全,支持多设备实时同步,并可通过共享库功能实现团队协作。项目支持Windows、macOS、Linux等操作系统及iOS/Android移动端,所有代码托管于GitHub平台,采用AGPL-3.0开源协议。Zotero官网(zotero.org)提供详细的使用文档、扩展插件库及社区支持,用户可通过浏览器扩展(如Zotero Connector)或桌面客户端操作。该项目持续更新迭代,开发团队定期发布新功能并维护现有功能,其技术文档和开发路线图均公开透明,开发者可通过GitHub参与代码贡献。此外,Zotero通过协作平台支持多人共享文献库,适用于学术研究、论文写作及团队知识管理场景,是科研工作者和学生常用的文献管理工具之一。
      • heyman/heynote
      • gnebbia/kb
      • protegeproject/protege
      • stencila/stencila
      • kska32/ebooks - Zip等工具解压后使用。该项目强调资源的个人收藏性质,明确指出其非公开共享性质,提醒用户注意尊重版权,避免非法传播或商业用途。作者特别说明不对资源的合法性负责,且项目可能未持续维护,建议用户在使用前自行判断风险。若发现资源错误或需补充内容,用户可提交Issue或通过邮箱联系作者。该项目的核心价值在于为学术研究者和爱好者提供免费、便捷的经典书籍获取途径,但需用户自行承担版权合规责任。由于书籍来源多样,部分文件可能包含扫描版或非官方翻译版本,建议用户交叉验证信息准确性。整体而言,这是一个以知识共享为目标的个人项目,但需用户理性使用并遵守相关法律法规。
      • openrecall/openrecall
      • suitenumerique/docs
      • Kareadita/Kavita
      • fmhy/edit
      • org-roam/org-roam - roam 是一个纯文本知识管理系统。它带来了一些 Roam 更强大的功能进入组织模式 生态系统。Org-roam 是一个基于 Org-mode 的 Roam 仓库的简易复制品,它使用 Org-mode 作为核心功能,通过将 Org-mode 文件作为内容存储,实现了 Roam 的核心特性,如双向链接和自动生成索引,工作原理是将 Org-mode 文件中的链接转换为数据库查询,支持在 Emacs 中进行知识管理,具有轻量级、可扩展和高度可定制等特点,适合需要 Org-mode 和 Roam 功能的用户使用
      • saber-notes/saber - **手写输入**:支持多点触控,能够感知笔压并在绘图时产生自然的线条效果。 > - 采用 **现代化 UI**(SwiftUI、Electron 等),界面简洁、响应迅速;同时提供“暗色模式”与自定义配色方案。 > - 支持 **多文件管理**,可按主题或日期快速定位记录,并能一键导出为 PDF / PNG/JSON 供备份使用。 > - 内置 **即时预览**:写完后立即在右侧实时显示最终效果;若想编辑,左侧即是原始绘图区。 > **技术实现概述** > > 1. 前端使用 **React + Redux** 管理 UI 状态,并通过 WebView 把 Canvas 渲染至浏览器。 > 2. 后端采用 **Python Flask** 或 Node‑JS**,负责文件读写与压缩存;所有数据最终以 JSON / SQLite 存储本地,以便离线使用。 > 3. 为兼容 Windows 与 Linux,还内置了 **WSL(Windows Subsystem for Linux)** 的运行脚本,使在 WSL 环境中也能直接启动。 > **安装与使用** > > - 在终端执行 `git clone https://github.com/saber-notes/saber.git`,随后进入项目目录后运行 `npm install && npm run dev`(或对应的 pip 命令)。 > - 若想打包发行,可通过 `npm run build` 或 `python setup.py sdist bdist_wheel` 获取对应平台可执行文件。 > - 启动后,主界面左侧为“笔记列表”,右侧为绘图区;在笔记中写文字/画线即可直观其效果,并可以随时导出或分享。 > **适用场景** > > 1. 教学演示:老师可直接在投影上书写、标注并即时记录。 > 2. 思维绘图:学生可在平板上自由画图,随后通过 Saber 保存成档案。 > 3. 企业汇报:技术人员可以现场绘制流程图,便于后续的 PPT 或演示使用。 > **贡献与社区** > > 任何人都能直接 fork 本仓库,并提交 PR;Saber 团团已在 GitHub 上设立 Issue 与 Wiki,用以协助新手及 bug 修正。若你想加入开发,可先阅读 README 的“贡献指南”,随后即可通过 `git push` 将自己的改动同步至远程主分支。 > **总结** > > Saber 让写字与绘图不再受限于单一设备,而成为跨平台的手段;它简洁易用、性能稳定,同时保持完全开源,适合所有对“在任何屏幕上书写”有需求的人士。希望你也能从这份简单而强大的工具中获益,并为其发展添砖加瓦。
      • codexu/note-gen - gen是一款跨平台Markdown笔记应用,通过AI技术实现记录与写作的无缝衔接,可将碎片化知识自动整理为结构清晰的可读笔记。支持Windows macOS Linux多系统同步使用,内置智能内容组织功能,可识别文本逻辑关系并自动生成标题层级和知识图谱。采用自然语言处理技术对输入内容进行语义分析,通过机器学习模型自动识别关键信息并构建知识体系,支持语音输入和OCR图文识别功能。应用提供Markdown格式编辑器和可视化知识管理界面,支持多设备云同步及插件扩展,用户可自定义笔记模板和AI分析规则。基于开源架构设计,强调隐私保护和本地化存储,适用于学生、研究人员及知识工作者进行高效信息管理,通过智能笔记生成技术降低知识整理门槛,提升信息处理效率。
      • hedgedoc/hedgedoc
      • TapXWorld/ChinaTextbook
      • blacksmithgu/obsidian-dataview - dataview。
      • xwmx/nb
      • standardnotes/app
      • anyproto/anytype-ts - ts 是官方的 Anytype 客户端,支持 MacOS、Linux 和 Windows 操作系统。它旨在提供一个安全、私密和去中心化的笔记和知识管理平台。该项目基于 CRDT(冲突自由复制数据类型)技术,允许离线编辑和无缝同步,确保数据一致性。Anytype 强调用户数据的完全控制,采用端到端加密保护隐私。Anytype-ts 旨在构建一个互联的数字世界,用户可以创建和连接各种类型的信息,形成个性化的知识图谱。它使用libp2p进行点对点通信,并支持自定义对象类型和关系。Anytype 致力于成为一个开放、可扩展的平台,鼓励社区贡献和集成。目前项目处于积极开发阶段,欢迎开发者参与贡献。
      • colanode/colanode
      • guanguans/favorite-link
      • kxxwz/SJTU-Courses
      • overleaf/overleaf
  • NLP语料和数据集

    • 大语言对话模型及数据

      • huggingface/fineweb-2
      • defunct-datasets/amazon_us_reviews - reviews-pds S3 存储桶中的 TSV 文件形式提供。数据文件中的每一行对应于一个单独的审阅(制表符分隔,没有引号和转义字符)。每个数据集都包含以下列: marketplace - 撰写评论的商城的 2 个字母的国家/地区代码。customer_id - 随机标识符,可用于汇总单个作者撰写的评论。review_id - 审阅的唯一 ID。product_id - 与评价相关的唯一商品编号。在多语言数据集中,同一产品在不同国家/地区的评论可以按同一product_id分组。 product_parent - 可用于汇总同一产品评论的随机标识符。product_title - 产品的标题。 product_category - 可用于对评论进行分组的广泛产品类别(也用于将数据集分组为连贯的部分)。star_rating - 评论的 1-5 星评级。helpful_votes - 有用的票数。total_votes - 评论收到的总票数。vine - 评论是作为 Vine 程序的一部分编写的。verified_purchase - 评论是针对已验证的购买。review_headline - 评论的标题。review_body - 评论文本。review_date - 撰写评论的日期。
      • shareAI/ShareGPT-Chinese-English-90k
      • BAAI/COIG-PC - PC数据集是一个精心策划和全面的中文任务和数据集合,旨在促进中文自然语言处理(NLP)语言模型的微调和优化。该数据集旨在为研究人员和开发人员提供一套丰富的资源,以提高语言模型处理中文文本的能力,可用于文本生成、信息提取、情感分析、机器翻译等各个领域。COIG-PC 数据集是自然语言处理 (NLP) 领域的宝贵资源,原因有很多:解决语言复杂性:汉语以其错综复杂、字符种类繁多和语法结构多样而闻名。像 COIG-PC 这样专为中文量身定制的专用数据集对于在模型训练期间充分解决这些复杂性至关重要。全面的数据聚合:COIG-PC数据集是整合市场上几乎所有可用的中文数据集的广泛努力的结果。这种全面的聚合使其成为中国 NLP 最详尽的集合之一。重复数据删除和规范化:COIG-PC 数据集经过严格的手动处理,以消除重复数据并执行规范化。这确保了数据集没有冗余,数据一致且结构良好,使其对模型训练更加用户友好和高效。微调和优化:数据集基于指令的措辞有助于更好地微调和优化语言模型。这种结构使模型能够更好地理解和执行任务,这对于提高看不见或新任务的性能特别有益。COIG-PC数据集具有全面的汇总、细致的选择、重复数据删除和规范化功能,是训练和优化针对中国语言和文化量身定制的语言模型的无与伦比的资源。它解决了中文语言处理的独特挑战,并成为中文NLP进步的催化剂。
      • yahma/alpaca-cleaned - davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。以下问题已在原始版本中发现,并在此数据集中修复:幻觉:原始数据集中的许多指令都有引用互联网数据的指令,这只会导致 GPT3 产生幻觉答案。合并指令:由于某种原因,在原始数据集中有许多指令被合并在一起。空输出:原始数据集中的某些条目的输出为空。空代码示例:原始数据集中的某些描述缺少代码示例,因此难以理解代码的预期行为。生成图像的说明:原始数据集中的一些描述包括生成图像的说明,这显然是不可能的。N/A 输出:原始数据集中的某些代码片段具有 N/A 输出。输入字段不一致:原始数据集在输入字段本应为空时,其输入字段的使用不一致。错误答案:原始数据集中的某些说明/问题有不正确的答案。据估计,大约 80% 的数学问题都有不正确的答案。无意义/不清楚的指令:许多指令不清楚,如果指令不明确,我们会尝试澄清(或重写)指令。稍微不清楚但可以推断出含义的说明不会改变。无关的转义和控制字符:原始数据集具有多个具有无关转义和控制字符的条目。Alpaca 中的数据是英文的 (BCP-47 en)。
      • BAAI/Infinity-Instruct - 2.5、UltraInteract_sft、CodeBagel、CodeFeedback-Filtered-Instruction、self-oss-instruct-sc2-exec-filter-50k、CodeExercise-Python-27k、Evol-Instruct-Code-80k-v1、MathInstruct、orca-math-word-problems-200k、MetaMathQa。
      • cerebras/SlimPajama-627B - 1T。除了数据之外,我们还发布了我们为创建 SlimPajama 而构建的工具。将 MinHashLSH 重复数据删除应用于像 RedPajama 这样的万亿个令牌数据集是无法使用现成的开源代码实现的。我们对现有解决方案进行了多项改进,以生成一个基础架构,该基础架构可以以分布式、多线程和内存高效的方式对万亿个令牌数据集执行 MinHashLSH 重复数据删除。今天,我们正在开源这个基础设施,使社区能够在未来轻松创建更高质量、广泛去重的数据集。
      • Skywork/SkyPile-150B - 150B数据集的可公开访问部分包含大约2.33亿个独特的网页,每个网页平均包含1000多个汉字。该数据集总共包括大约 1500 亿个令牌和 620 GB 的纯文本数据。SkyPile-150B数据集完全由中国数据组成。我们利用超过 200w 的规则和 BERT 基础模型来确定数据集中存在的敏感数据,并随后删除了我们检测到的任何有害条目。尽管我们尽了最大努力,但SkyPile-150B,鉴于其从公开可用的网页构建,可能包含敏感信息,例如电子邮件地址,电话号码或IP地址。我们已努力通过重复数据删除和低质量过滤来最大程度地减少这种情况,但 SkyPile-150B 的用户应保持警惕。互联网上充斥着潜在的有毒或有偏见的数据。我们已尝试使用特定的 URL 过滤方法来缓解此问题,但我们鼓励用户保持对这一潜在问题的意识。
      • CLUEbenchmark/DataCLUE - centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。
      • HuggingFaceH4/no_robots - Bench:一个跨越 80 个对话和 10 个领域的多回合基准测试。AlpacaEval:一个单轮基准测试,用于评估聊天和指导 text-davinci-003 模型的性能。请注意,MT-Bench 和 AlpacaEval 依靠 LLMs GPT-4 来判断模型响应的质量,因此排名表现出各种偏差,包括对从 GPT 中提取的模型的偏好。因此,您可能会发现,从使用 No Robots 训练的模型中获得的分数低于其他合成数据集。因此,我们还建议在以下位置提交您的模型以供人工评估:Chatbot Arena:在头对头比较中对聊天模型进行实时、人工评估。No Robots 中的数据是英文的 (BCP-47 en)。
      • tatsu-lab/alpaca - davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。作者基于 Self-Instruct 框架的数据生成管道进行构建,并进行了以下修改:生成指令数据的 text-davinci-003 引擎,而不是 davinci .编写了一个新的提示,明确要求text-davinci-003生成指令。使用了更激进的批量解码,即一次生成 20 条指令,这大大降低了数据生成的成本。通过摒弃分类指令和非分类指令之间的差异,简化了数据生成管道。每条指令只生成一个实例,而不是像 Self-Instructed 那样生成 2 到 3 个实例。这生成了一个指令跟踪数据集,其中包含以低得多的成本(不到 500 美元)获得的 52K 示例。在一项初步研究中,作者还发现,52K生成的数据比Self-Instruct发布的数据要多样化得多。Alpaca 数据集专为指令训练预训练语言模型而设计。Alpaca 中的数据是英文的 (BCP-47 en)。
      • EleutherAI/lichess-puzzles - 05-09)。《你能学会算法吗?从简单到困难的问题与循环网络的泛化“被包括在内,除了 26,079 个谜题,这些谜题不再出现在 Lichess 数据库中(假设它们可能出于充分的理由被删除)。对于每个谜题, ctx 都是一个实际的 Lichess 游戏的 SAN 成绩单(每个半步都有编号),直到谜题位置。请注意,这包括 Lichess 和 Easy-to-Hard 数据集中 Moves 列的第一次移动。target 是最好的下一步,在SAN中,具有领先的空间。此移动(列中 Moves 的第二步)通常与实际的 Lichess 游戏不同,后者可能包含错误。不包括拼图解决方案的其他动作。这种格式与“弱到强泛化”中使用的格式相匹配,并且这组谜题也旨在尽可能相似(除了 Lichess 删除的 26k)。
      • CohereForAI/aya_evaluation_suite - human-annotated .将精心挑选的示例机器翻译成 101 种语言 → dolly-machine-translated .人工译后编辑成 6 种语言 ( hin, srp, rus, fra, arb, spa ) → dolly-human-edited .包括 Aya Evaluation Suite 以下子集:aya-human-annotated:250 个人类编写的原始提示,每个提示有 7 种语言。dolly-machine-translated:来自 databricks-dolly-15k 的 200 个人工选择的提示,使用 NLLB 模型自动将英语翻译成 101 种语言(总共 114 种方言)。dolly-human-edited:200 个 dolly-machine 翻译的提示,由流利的演讲者对 6 种语言进行后期编辑。
      • annas-archive.org/datasets - Hub 和 LibGen。我们抓取和开源 Z-Lib、DuXiu 等。30,445,640 本书,100,357,126 篇论文——永久保存。我们所有的代码和数据都是完全开源的。我们的使命是存档世界上所有的书籍(以及报纸、杂志等),并使它们被广泛访问。我们认为,所有书籍都应该广泛镜像,以确保冗余和弹性。这就是为什么我们将来自各种来源的文件汇集在一起的原因。有些来源是完全开放的,可以批量镜像(例如Sci-Hub)。其他人是封闭的和保护性的,所以我们试图抓取它们以“解放”他们的书。还有一些则介于两者之间。我们所有的数据都可以下载,我们所有的元数据都可以生成或下载为 ElasticSearch 和 MariaDB 数据库。原始数据可以通过这样的 JSON 文件手动浏览。
      • togethercomputer/RedPajama-Data-Instruct - Gram)的任务。如果返回的实例和验证示例对应于相同的任务,我们将删除整个任务(在此步骤中,如果返回的实例恰好使用与验证示例相同的维基百科文章,但提出不同的问题,我们将保留该任务);(2) 然后,我们删除所有与任何 HELM 验证示例有任何 10 Gram 重叠的实例。我们总共筛选掉了 137 个任务和 5.2M 个实例(在 1069 个任务和 93.3M 个实例中)。
      • allenai/MADLAD-400 - 400 (Multilingual Audited Dataset: Low-resource And Document-level) 是一个基于 Common Crawl 的文档级多语言数据集,共涵盖 419 种语言。这将使用截至 2022 年 8 月 1 日可用的 CommonCrawl 的所有快照。与类似数据集相比,此数据集的主要优点是它更多语言(419 种语言),经过审核和过滤,并且是文档级的。主要缺点也是它的强度 - 由于过滤程度更高,它可能缺乏某些应用程序所需的召回率。发布了两个版本:嘈杂数据集,除了文档级 LangID 之外没有过滤,以及干净数据集,它应用了各种过滤器,尽管它本身自然有相当多的噪音。每个数据集都以已删除重复数据的文档级形式发布。
      • data.baai.ac.cn/OL-CC - Chinese Conversations Dataset (OL-CC) 是首个以众包方式、人工生成的开源中文对话指令集,基于 openlabel.baai.ac.cn 开放平台进行数据收集,包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。截至目前,已有 276 位志愿者参与了数据集的建设。志愿者完成了以下任务:a) 扮演人类用户向AI助手发出指令,b) 扮演AI助手根据上文指令撰写回答。两个任务为异步任务,因此本数据集分为两个部分:a) 完整的“指令-回答”对,b) 尚没有被回答的指令。
      • HuggingFaceFW/fineweb-edu - Edu-score-2)的教育网页组成。这是 1.3 万亿版本。为了提高 FineWeb 的质量,我们使用 LLama3-70B-Inform 生成的注释开发了一个教育质量分类器。然后,我们使用此分类器仅保留最具教育意义的网页。FineWeb-Edu 在流行的基准测试中优于 FineWeb,并显示了在合成数据上训练的分类器的强大功能。除了数据集(包括自 2013 年以来所有过滤的 CommonCrawl 转储)外,我们还发布了用于过滤的教育分类器以及用于训练和运行推理的代码,网址为:[huggingface/cosmopedia](https://github.com/huggingface/cosmopedia/tree/main/classification)
      • HuggingFaceH4/ultrachat_200k - 7B-β,这是一种最先进的 7b 聊天模型。原始数据集由 ChatGPT 生成的 1.4M 对话组成,涵盖广泛的主题。为了创建 UltraChat 200k ,我们应用了以下逻辑:选择数据子集,以便更快地进行监督微调。数据集的真大小写,正如我们观察到的那样,大约 5% 的数据包含语法错误。删除助手回复“我没有情绪”或“我没有意见”等短语的对话,即使是不涉及任何内容的基于事实的提示。数据集有四个拆分,适用于:监督微调 ( sft )。通过拒绝抽样或 PPO 等技术进行生成排名 ( gen )。
      • argilla/distilabel-capybara-dpo-7k-binarized
      • m-a-p/CodeFeedback-Filtered-Instruction - OSS-Instruct、ShareGPT 的 Python 代码子集、Magicoder-Evol-Install 和 Evol-Instruct-Code。最初,从这些数据集中聚合了 287k 个查询。为了分离出最复杂和最翔实的指令,采用了严格的过滤过程。这涉及利用开源聊天模型 Qwen-72B-Chat 进行选择性过滤。代码查询及其在编译数据集中的相应响应由 LLM分配的复杂度分数(从 1 到 5)进行评估,并且仅保留评级为 4 或 5 的代码查询作为种子集。这种细致的过滤过程最终收集了 156k 条高质量的单轮代码指令。
      • WuDaoCorpora Text文本预训练数据集 - 3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。
      • CausalLM/Refined-Anime-Text - 4/3.5 token的、全新合成的文本数据集的动漫主题子集。该数据集此前从未公开发布过。由于社区对动漫文化的浓厚兴趣,且考虑到通识数据集中此类题材的代表性不足,以及原始文本中网络俚语和无关内容的泛滥而导致的低质量、难以清理的问题,我们决定发布这份子集供进一步研究。这份数据集旨在用于研究大型语言模型中网络亚文化的数据治理,并探索具有挑战性的 LLM 持续预训练问题,例如特定主题的知识蒸馏以及对未见知识的持续学习。
      • CLUEbenchmark/SimCLUE - Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集
      • argilla/distilabel-intel-orca-dpo-pairs - turbo 始终是最佳响应。我们从UltraFeedback中了解到,情况并非总是如此。此外,DPO 微调受益于偏好对的多样性。
      • sheng-z.github.io/ReCoRD-explorer
      • allenai/quac
      • EleutherAI/wikitext_document_level - 相同方式共享许可下使用。与Penn Treebank(PTB)的预处理版本相比,WikiText-2大2倍以上,WikiText-103大110倍以上。WikiText数据集还具有更大的词汇量,并保留了原始大小写,标点符号和数字 - 所有这些都在PTB中被删除。由于该数据集由完整的文章组成,因此非常适合可以利用长期依赖关系的模型。
      • community-datasets/gnad10
      • Replete-AI/code_bagel
      • open-web-math/open-web-math
      • zejunwang1/CSTS: - X 数据集;北大中文文本复述数据集 PKU-Paraphrase-Bank;Chinese-STS-B 数据集;Chinese-MNLI 自然语言推理数据集;Chinese-SNLI 自然语言推理数据集;OCNLI 中文原版自然语言推理数据集;CINLID 中文成语语义推理数据集
      • tiiuae/falcon-refinedweb - By 1.0 许可下发布的海量英语网络数据集。通过对 CommonCrawl 进行严格的过滤和大规模重复数据删除而构建的;我们发现,在 RefinedWeb 上训练的模型在仅依赖于 Web 数据的情况下,可以达到在线性能或优于在精选数据集上训练的模型。RefinedWeb 也是“多模态友好”的:它包含处理过的样本中图像的链接和替代文本。
      • CASIA-LM/ChineseWebText
      • dumps.wikimedia.org - l 以获取定期更新。所有维基百科wiki中所有页面的副本,以HTML形式呈现。
      • esbatmop/MNBVC - ending BT Vast Chinese corpus超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
      • MBZUAI/Bactrian-X - X 数据集是 52 种语言的 3.4M 指令-响应对的集合,通过使用 Google 翻译 API 将 67K 英语指令 (alpaca-52k + dolly-15k) 翻译成 51 种语言获得。然后将翻译后的指令输入到 ChatGPT ( gpt-3.5-turbo ) 以获得其自然响应,从而产生 52 种语言的 3.4M 指令-响应对(52 种语言 x 67k 个实例 = 3.4M 个实例)。
      • csebuetnlp/xlsum - Sum 具有高度抽象性、简洁性和高质量,正如人类和内在评估所表明的那样。
      • argilla/OpenHermesPreferences - 2.5。它将来自源数据集的响应与其他两个模型(Mixtral-8x7B-Instruct-v0.1 和 Nous-Hermes-2-Yi-34B)的响应相结合,并使用 PairRM 作为偏好模型来进行评分和排名。该数据集可用于训练偏好模型或通过直接偏好优化(DPO)等技术对齐语言模型。
      • togethercomputer/RedPajama-Data-V2 - V2 是一个用于训练大型语言模型的开放数据集。该数据集包括来自 84 个 CommonCrawl 快照的 100B 多个文本文档,并使用 CCNet 管道进行处理。其中,语料库中有 30B 个文档还带有质量信号。此外,我们还提供了重复文档的 ID,可用于创建包含 20B 重复数据删除文档的数据集。
      • allenai/quartz
      • HuggingFaceH4/stack-exchange-preferences - exchange堆栈溢出数据转储的问题和答案,用于首选项模型训练。重要的是,这些问题已经过过滤,以符合以下偏好模型标准(紧随 Askell 等人,2021 年):有 >=2 个答案。这些数据还可用于教学微调和语言模型训练。仅英语,可能存在其他语言。
      • houbb/sensitive-word
      • Werneror/Poetry
      • pluto-junzeng/CNSD - scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
      • sheepzh/poetry
      • javayhu/poetry
      • CohereForAI/aya_dataset
      • Marsan-Ma-zz/chat_corpus
      • paracrawl.eu - Scale”。
      • liuhaotian/LLaVA-Instruct-150K - 4 视觉/语言能力的大型多模态。数据集日期:LLaVA Visual Instruct 150K 于 2023 年 4 月通过提示 GPT-4-0314 API 收集。
      • IceFlameWorm/NLP_Datasets
      • unicamp-dl/mMARCO
      • GAIR/lima
      • laion/OIG - small-chip2)。OIG目前为44M。我们将继续发布更大的多样化指令数据集,目标是创建 1 万亿个不同指令的词元——足以从头开始预训练LLM。
      • stanfordnlp/imdb
      • csebuetnlp/CrossSum - Sum 数据集,并使用与语言无关的表示模型通过跨语言检索来对齐用不同语言编写的相同文章。
      • mandyyyyii/scibench
      • google-research-datasets/tydiqa
      • TigerResearch/tigerbot-law-plugin
      • theatticusproject/cuad-qa
      • brightmart/nlp_chinese_corpus
      • teleprint-me/phi-1 - 1 模型而创建的,基于论文“教科书是你所需要的一切”。它包含来自各种教科书的高质量数据,使用 OpenAI 的 GPT-3.5 和 GPT-4 模型进行转换和合成。
      • pkumod/CKBQA
      • CohereForAI/xP3x
      • RyokoAI/Fandom23K
      • ontonotes/conll2012_ontonotesv5
      • LSDSem/story_cloze
      • CLUEbenchmark/CLUEDatasetSearch
      • LooksJuicy/ruozhiba - CQIA启发,构建类似数据集,但答案风格相对更简洁。弱智吧精选问题数据来自github提供的疑问句,调用GPT-4获取答案,并过滤掉明显拒答的回复。
      • beyond/chinese_clean_passages_80m
      • fighting41love/funNLP
      • thunlp/Few-NERD
      • verazuo/jailbreak_llms
      • CLUEbenchmark/CLUECorpus2020
      • doc2dial/sharedtask-dialdoc2021 - seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。
      • GuocaiL/nlp_corpus
      • benywon/ChiQA
      • eecrazy/CausalBank
      • InsaneLife/ChineseNLPCorpus
      • skylion007/OpenWebTextCorpus - 2 的信息有限,我们承认数据集可能还有进一步改进的空间。因此,我们欢迎您的贡献和改进建议。我们希望这个数据集的可用性能够鼓励进一步复制 GPT-2 的工作,并被证明对其他项目有用。我们将很快在 master 分支上发布更多代码。
      • nickrosh/evol-teacher
      • stanfordnlp.github.io/coqa
      • uonlp/CulturaX
      • OpenAssistant/oasst1
      • rajpurkar/squad
      • ehovy/race
      • bigcode/the-stack
      • community-datasets/eu_regulatory_ir
      • IWSLT/iwslt2017
      • qgyd2021/sentence_pair
      • cimec/lambada - 47 代码为 en 。
      • defunct-datasets/the_pile_books3
      • defunct-datasets/the_pile_stack_exchange
      • allenai/c4 - of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 列表中删除所有包含单词的文档。
      • Open-Orca/OpenOrca - 4 完成,~3.2M GPT-3.5 完成。它与ORCA论文中提出的分布一致,以表格形式呈现,目前代表了完整预期数据集的部分完成,并且正在不断生成以扩大其范围。这些数据主要用于自然语言处理领域的训练和评估。该数据集支持多种任务,包括语言建模、文本生成和文本增强。
      • statmt/cc100 - R 的数据集。该语料库包括 100+ 种语言的单语数据,还包括罗马化语言的数据(用 *_rom 表示)。这是使用 CC-Net 存储库通过处理 2018 年 1 月至 12 月的 Commoncrawl 快照提供的 url 和段落索引构建的。CC-100 主要用于预训练语言模型和单词表示。语言:多语言。
      • hotpotqa/hotpot_qa
      • ought/raft
      • tasksource/oasst1_pairwise_rlhf_reward
      • EleutherAI/proof-pile-2 - web-math (15B tokens):OpenWebMath 数据集,其中包含来自互联网的大量高质量数学文本;algebraic-stack (11B tokens):一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。
      • EleutherAI/pile
      • EleutherAI/lambada_openai
      • katielink/healthsearchqa - PaLM论文(arXiv预印本)发布的消费者健康问题数据集。我们策划了自己的附加数据集,其中包含 3,173 个经常搜索的消费者问题,称为 HealthSearchQA。该数据集是使用种子医疗条件及其相关症状策划的。我们使用种子数据来检索由搜索引擎生成的公开可用的常用搜索问题,这些问题显示给所有输入种子词的用户。我们将数据集作为回答消费者医疗问题的开放基准发布,并希望这将成为社区的有用资源,作为反映现实世界消费者关注的数据集。
      • BAAI/AquilaMoE-SFT - Data-V2、falcon-refinedweb、C4、Pile、WuDaoCorporaText、ChineseWebText 等。上述开源数据经过语言过滤以仅保留中英文文本,启发式细化以删除低质量内容,重复数据删除以保持唯一性,特定领域过滤以确保相关性,数据质量检查,去除有毒和露骨内容,最后以指定比例进行数据混合。
      • nyu-mll/glue - 段落对组成的问答数据集,其中段落中的一个句子(来自维基百科)包含相应问题的答案(由注释者编写)。基准测试的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠程度低的对,将任务转换为句对分类。任务是确定上下文句子是否包含问题的答案。原始任务的修改版本删除了模型选择确切答案的要求,但也删除了简化的假设,即答案始终存在于输入中,并且词汇重叠是可靠的提示。qqp:Quora Question Pairs2 数据集是来自社区问答网站 Quora 的问题对集合。任务是确定一对问题在语义上是否等价。rte:识别文本蕴涵 (RTE) 数据集来自一系列年度文本蕴涵挑战。基准测试的作者结合了来自RTE1(Dagan等人,2006),RTE2(Bar Haim等人,2006),RTE3(Giampiccolo等人,2007)和RTE5(Bentivogli等人,2009)的数据。示例是根据新闻和维基百科文本构建的。基准测试的作者将所有数据集转换为两类拆分,对于三类数据集,为了保持一致性,他们将中立和矛盾折叠为非蕴涵。sst2:斯坦福情感树库由电影评论中的句子和他们情感的人类注释组成。任务是预测给定句子的情绪。它使用双向(正/负)类拆分,仅带有句子级标签。stsb:语义文本相似性基准(Cer et al., 2017)是从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对的集合。每对都经过人工注释,相似度分数从 1 到 5。wnli:Winograd Schema Challenge (Levesque et al., 2011) 是一项阅读理解任务,其中系统必须阅读带有代词的句子,并从选项列表中选择该代词的指称。这些示例是手动构建的,以挫败简单的统计方法:每个示例都取决于句子中单个单词或短语提供的上下文信息。为了将问题转换为句子对分类,基准测试的作者通过将模棱两可的代词替换为每个可能的指称来构造句子对。任务是预测替换代词的句子是否由原始句子引起。他们使用一个小型评估集,该评估集由源自小说书籍的新示例组成,这些示例由原始语料库的作者私下共享。虽然包含的训练集在两个类之间是平衡的,但测试集在它们之间是不平衡的(65% 不是蕴涵)。此外,由于数据怪癖,开发集是对抗性的:假设有时在训练和开发示例之间共享,因此如果模型记住了训练示例,它们将预测相应开发集示例上的错误标签。与 QNLI 一样,每个示例都是单独评估的,因此模型在此任务上的分数与其在未转换的原始任务上的分数之间没有系统的对应关系。基准测试的作者调用转换数据集 WNLI (Winograd NLI)。GLUE中的语言数据为英语 (BCP-47 en )。
      • ErnestSDavis/winograd_wsc
      • allenai/qasc
      • allenai/ropes
      • abisee/cnn_dailymail
      • community-datasets/definite_pronoun_resolution
      • allenai/math_qa - RAT 数据集进行注释来收集的。AQuA-RAT提供了问题、选项、理由和正确的选项。
      • math-ai/StackMathQA
      • argilla/dpo-mix-7k
      • databricks/databricks-dolly-15k - 相同方式共享 3.0 未本地化版本许可的条款,该数据集可用于任何目的,无论是学术目的还是商业目的。Databricks 员工被邀请在八个不同的指令类别中的每一个类别中创建提示/响应对,包括 InstructGPT 论文中概述的七个,以及一个开放式自由格式类别。贡献者被指示避免使用来自网络上除维基百科以外的任何来源的信息(针对指令类别的特定子集),并明确指示避免使用生成式人工智能来制定指令或响应。
      • Project Gutenberg
      • data.baai.ac.cn/ArabicText-2022
      • text-machine.cs.uml.edu/quail
      • PolyAI/banking77
      • allenai/sciq
      • allenai/social_i_qa
      • m-a-p/CMMMU
      • m-a-p/MusicPile
      • nyu-mll/multi_nli
      • codefuse-ai/CodeExercise-Python-27k
      • microsoft/orca-math-word-problems-200k - Turbo 生成的。有关数据集构建的详细信息,请参阅 Orca-Math: Unlocking the potential of SLM in Elementary School Math。该数据集旨在增强语言模型的数学能力。它旨在为语言模型提供坚实的基础,使其在数学问题解决方面表现出色。
      • TIGER-Lab/MathInstruct
      • Samsung/samsum - NC-ND 4.0)。
      • liwu/MNBVC
      • wikimedia/wikipedia
      • togethercomputer/Long-Data-Collections - tune/ 目录中。这些专门的数据集包括源自自然问题的多段落问答和以 BookSum 数据集为例的长上下文摘要。预训练数据是用于训练 AI 模型的各种数据集的集合。这些数据集包括各种来源,提供广泛的信息,从书籍到科学论文和教学数据。
      • allenai/dolma
      • anon8231489123/ShareGPT_Vicuna_unfiltered
      • legacy-datasets/wikipedia
      • garage-bAInd/Open-Platypus - solutions-python-testgen-gpt4、jondurbin/airoboros-gpt4-1.4.1、TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k、ARB、timdettmers/openassistant-guanaco
      • timdettmers/openassistant-guanaco
      • TigerResearch/sft_zh - zh数据合集。本合集涵盖本组织下开源的其他中文sft-中文-数据集,不需要重复下载。alpaca 中文、百科问答、名著问答、猜谜语、阅读理解、问答、知乎问答。
      • OpenAssistant/oasst2
      • pleisto/wikipedia-cn-20230720-filtered
      • BelleGroup/multiturn_chat_0.8M
      • bigscience/xP3
      • nvidia/ChatRAG-Bench
      • defunct-datasets/bookcorpusopen - Eye慷慨主持。The-Eye 是一个非营利性、社区驱动的平台,致力于存档和长期保存任何和所有数据,包括但不限于......网站、书籍、游戏、软件、视频、音频、其他数字暗箱和想法。
      • defunct-datasets/the_pile_openwebtext2
      • BAAI/CCI-Data
      • m-a-p/Matrix
      • ssymmetry/BBT-FinCUGE-Applications - FinCorpus,包含以下四种语料: 公司公告 在过去二十年中由中国所有上市公司发布的公司公告。原始数据为 PDF 格式,总大小约为 2TB。使用 PDF 解析器将 PDF 文件转换为文我们件,转换后的文件的总大小为 105GB。研究报告 由券商、投行等投资机构发布的针对宏观经济、板块、行业和个股的研究报告,分析研究对象的现状并展望其未来发展趋势。原始数据为PDF格式,总大小约为1TB。经转化后的文我们件总量约11GB。财经新闻 从新浪财经,腾讯财经,凤凰财经,36Kr 和虎嗅等网站爬取的过去五年内的财经新闻。经清洗后的文我们件总量约 20GB。社交媒体 股吧和雪球网过去二十年内的所有股民和博主发表的帖子。经清洗后的文本总量约 120GB。
      • CohereForAI/aya_collection
      • fancyzhx/ag_news
      • HuggingFaceFW/fineweb - By 1.0 许可下发布完整数据集。然而,通过仔细添加额外的过滤步骤,我们成功地将 FineWeb 的性能推高到远高于原始 RefinedWeb 的性能,并且在我们的数据集上训练的模型也优于在其他常用的高质量 Web 数据集(如 C4、Dolma-v1.6、The Pile、SlimPajama、RedPajam2)上训练的模型。也就是说,我们认为仍有进一步过滤和改进的空间,并打算继续探索如何在即将到来的 FineWeb 版本中提高数据集质量。
      • data.baai.ac.cn/BAAI-MTP - transformers Data,wikipedia,cc-net,stackexchange,reddit,S2orc
      • EleutherAI/the-pile
      • smashwords.com
      • dwyl/english-words
      • commoncrawl.org - 50 亿个新页面。
      • TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k - solutions数据集,加工生成的代码类sft数据集,原始来源:[/erichartford/leetcode-solutions](https://www.kaggle.com/datasets/erichartford/leetcode-solutions)
      • oscar-corpus/OSCAR-2201
      • THUIR/T2Ranking - 段落对提供 4 级相关性判断。与现有数据集相比,T 2 Ranking数据集具有以下特点和优势:该数据集聚焦于中文搜索场景,与现有的中文段落排名数据集相比,在数据尺度上具有优势,可以更好地支持深度学习算法的设计;该数据集具有大量的细粒度相关标注,有助于挖掘查询和段落之间的细粒度关系,构建更准确的排序算法;通过从多个商业搜索引擎中检索段落结果并提供完整的注释,在一定程度上缓解了假阴性问题,有利于提供更准确的评估;我们设计了多种策略来保证数据集的高质量,例如使用段落段模型和段落聚类模型来增强段落的语义完整性和多样性,并采用主动学习的注释方法来提高数据注释的效率和质量。
      • togethercomputer/RedPajama-Data-1T - 03-20 的维基百科转储,包含 20 种不同语言的文本。数据集采用预处理格式,因此删除了超链接、注释和其他格式样板。ArXiv 数据从 arxiv 请求方付款存储桶中的 Amazon S3 下载。我们只保留源文件,并删除序言、注释、宏和参考书目。数据集的 Stack Exchange 拆分可从 Internet Archive 下载。在这里,我们只保留来自 28 个最大网站的帖子,删除 html 标签,将帖子分组为问答对,并按分数对答案排序。
      • UNCorpus 联合国平行语料库
      • community-datasets/tapaco - 25万个句子。它涵盖了一系列语言,据我们所知,没有其他释义数据集存在。释义检测和生成已成为 NLP 中的热门任务,并越来越多地集成到各种常见的下游任务中,例如机器翻译、信息检索、问答和语义解析。大多数现有数据集仅涵盖一种语言(在大多数情况下为英语)或少数语言。此外,一些释义数据集侧重于词汇和短语,而不是句子释义,而其他释义数据集则使用机器翻译(半)自动创建。
      • allenai/prosocial-dialog - 3 生成潜在的不安全话语,众包工作者为它们提供亲社会响应。这种方法使我们能够规避两个实质性的挑战:(1)人类之间没有可用的大规模亲社会对话语料库,以及(2)要求人类写出不道德、有毒或有问题的话语可能会导致心理伤害(Roberts,2017;Steiger 等人,2021 年)。
      • HuggingFaceTB/cosmopedia - 8x7B-Instruct-v0.1 生成的合成教科书、博客文章、故事、帖子和 WikiHow 文章的数据集,该数据集包含超过 3000 万个文件和 250 亿个令牌,使其成为迄今为止最大的开放合成数据集。它涵盖了各种主题;我们试图映射 RefinedWeb 和 RedPajama 等 Web 数据集中存在的世界知识,并生成涵盖它们的合成内容。数据集由 8 个拆分组成,具体取决于拆分中使用的种子数据的来源。当我们要求不同的风格(例如学术教科书与博客文章)或受众(例如幼儿与大学生)时,一些种子样本可能会出现不止一次。例如,每个 stanford 示例都与 4 种不同的提示样式和受众一起使用,请查看 format 和 audience 列了解更多详细信息。我们观察到,相应地调整受众和提示风格可以显着增强多样性;通过MinHash消除重复的比例低于1%。
      • nvidia/HelpSteer2 - BY-4.0),它支持对齐模型以变得更有帮助、更符合事实和连贯性,同时可以根据其响应的复杂性和冗长性进行调整。该数据集是与 Scale AI 合作创建的。HelpSteer 包含 21, 362 个样本,每个样本包含一个提示、一个响应以及响应的五个人工注释属性,每个属性的范围在 0 到 4 之间,其中越高意味着每个属性越好。连续样本(例如样本 1 与 2、3 与 4 ...)共享相同的提示,因此除了训练 SteerLM 回归 RM 之外,还可以将其用于基于有用性分数的偏好对(例如训练 DPO 或偏好 RM)。大约 29% 的提示是多回合的。在本例中,提示由所有用户轮次和除最后一个助手轮次之外的所有轮次组成,后者包含在响应字段中。这样做是因为属性值仅针对最后一个助手回合进行评估。
      • nvidia/Aegis-AI-Content-Safety-Dataset-1.0 - BY-4.0),遵循 Nvidia 的内容安全分类法,涵盖 13 个关键风险类别。Aegis AI 内容安全数据集由人类和LLMs人与人之间的近 11,000 似手动注释的交互组成,分为 10,798 训练样本和 1,199 测试样本。为了整理数据集,我们使用了来自Anthropic HH-RLHF的关于无害性的人类偏好数据的拥抱脸版本。我们只提取提示,并从 Mistral-7B-v0.1 中引出响应。Mistral 擅长遵循指令,并为内容审核类别生成高质量的响应。我们在系统提示中使用示例,通过指示 Mistral 不要生成类似的响应来确保多样性。我们的数据包括四种不同的格式:仅用户提示、带用户提示的系统提示、带 Mistral 响应的单轮用户提示和带 Mistral 响应的多轮用户提示。
      • mlabonne/llm-datasets
      • ibm/duorc - SelfRC 和 ParaphraseRC。SelfRC数据集完全建立在维基百科电影情节上。释义RC有从维基百科电影情节中写出的问题,答案是根据相应的IMDb电影情节给出的。abstractive-qa :该数据集可用于训练抽象问答模型。一个抽象的问答模型由一个段落和一个问题提出,并期望生成一个多词答案。extractive-qa :该数据集可用于训练抽取式问答模型。抽取式问答模型包含一段经文和一个问题,并有望预测段落中答案跨度的开始和结束。模型性能通过精确匹配和 F1 分数来衡量,。
      • alisawuffles/WANLI - AI Collaboration for NLI) 是用于自然语言推理 (NLI) 任务的 108K 英语句子对的集合。每个示例都是通过首先在 MultiNLI (Williams et al., 2018) 中识别共享具有挑战性的推理模式的“口袋”示例来创建的,然后指示 GPT-3 编写具有相同模式的新示例。生成的示例集会自动过滤,以包含最有可能帮助模型训练的示例,最后由人工注释者进行标记和选择性修改。与现有的NLI数据集相比,万里具有独特的经验优势。值得注意的是,在 WANLI 而不是 MultiNLI(大 4 倍)上训练模型可以提高我们考虑的 7 个域外测试集的性能,包括 HANS 的 11% 和 Adversarial NLI 的 9%。
      • oscar-corpus/OSCAR-2301 - large Crawled Aggregated coRpus)是一个开源项目,旨在为机器学习(ML)和人工智能(AI)应用提供基于Web的多语言资源和数据集。该项目特别专注于提供大量未注释的原始数据,这些数据通常用于大型深度学习模型的预训练。OSCAR 项目开发了高性能数据管道,专门用于对大量 Web 数据进行分类和过滤。该项目还特别关注提高基于网络的语料库的数据质量,以及为资源匮乏的语言提供数据,以便尽可能多的社区能够使用这些新的机器学习/人工智能技术。
      • super.gluebenchmark.com
      • ceval/ceval-exam - Eval是一个全面的中文基础模型评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同的学科和四个难度级别。每个主题由三个部分组成:dev、val 和 test。每个主题的开发集由五个示例组成,并附有对少镜头评估的解释。val 集旨在用于超参数优化。测试集用于模型评估。测试拆分上的标签不发布,用户需要提交结果才能自动获得测试精度。
      • RUCAIBox/TG-ReDial - ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。
      • FlagOpen/FlagInstruct
      • deweizhu/bookget
      • wangrui6/Zhihu-KOL - assistant.io/ )的数据集。
      • lupantech/ScienceQA - 3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。
      • ydli-ai/CSL
      • Gaokao - shot` 测试。
      • Quartz/bad-data-guide
      • BERT-CCPoem - Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。[THUNLP-AIPoet/BERT-CCPoem](https://github.com/THUNLP-AIPoet/BERT-CCPoem) 中国古典诗词预训练模型
      • MMLU
      • lmsys/chatbot_arena_conversations
      • lmsys/lmsys-chat-1m
      • stingning/ultrachat
      • b-mc2/sql-create-context
      • jondurbin/airoboros-gpt4-1.4.1 - 4 生成,因此受 OpenAI ToS 的约束。用于生成数据 airoboros 的工具是 apache-2。此训练数据的具体重点领域:琐事、数学、荒谬的数学、编码、封闭式上下文问答、封闭式语境问答,有多个语境可供选择作为混杂因素、写作、多选题等。
      • m-a-p/COIG-CQIA - CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。
      • xiaopangxia/TCM-Ancient-Books - Ancient-Books项目是一个中医药古籍文本资源库,包含了近700项古籍。项目旨在为中医药研究者、爱好者提供便捷的古籍文本获取途径。资源来源于多个渠道,经过整理和校对,力求提供高质量的文本内容。项目特色在于其庞大的古籍数量和持续更新。用户可以通过关键词搜索或分类浏览查找所需的古籍。项目采用开放共享的原则,鼓励用户参与贡献和完善。该项目对于中医药文化的传承和发展具有积极意义。
      • RUCAIBox/OlymMATH
    • 其他_文本生成、文本对话

  • 分布式机器学习

  • 参数优化

    • aimclub/FEDOT - Clause BSD许可证发布。FEDOT可以自动生成机器学习管道,用于解决各种现实世界问题,包括分类(二元和多元)、回归、聚类和时间序列预测。FEDOT的核心基于进化方法,它允许用户自定义管道,并支持各种模型和数据类型,包括文本、图像和表格数据。此外,FEDOT还支持广泛使用的机器学习库(如Scikit-learn、CatBoost、XGBoost等),并允许用户集成自定义模型。FEDOT提供了多种超参数调优方法,并支持自定义评估指标和搜索空间。FEDOT不仅限于特定的建模任务,还可以用于解决常微分方程(ODE)或偏微分方程(PDE)等问题。用户可以将生成的管道导出为JSON格式,或与输入数据一起打包为ZIP存档,以确保实验的可重复性。
    • reiinakano/xcessiv - learn API模型,并利用任务队列架构进行并行超参数搜索。它还集成了TPOT进行自动管道构建,并提供贝叶斯优化、自动保存元特征和贪婪向前模型选择等功能。用户可以将堆叠集成导出为独立的Python文件,以支持多级堆叠。Xcessiv旨在简化堆叠集成的构建,并降低其使用门槛,即使不使用集成功能,它也能有效地管理和比较数百甚至数千个机器学习模型和超参数组合。
    • ray-project/tune-sklearn - sklearn是一个 Scikit-Learn 的模型选择模块(GridSearchCV、RandomizedSearchCV)的替代方案,它使用最新的超参数调整技术。它与 Scikit-Learn API 兼容,只需修改少量代码即可使用。tune-sklearn 支持贝叶斯优化、HyperBand、BOHB等优化技术,并利用 Ray Tune 进行分布式超参数调整,可在多个核心和机器上并行化交叉验证。tune-sklearn 支持Scikit-Learn 模型,以及 Skorch(Pytorch)、KerasClassifier(Keras)和 XGBoostClassifier(XGBoost)等框架。对于某些估计器,tune-sklearn 可以启用增量训练和提前停止,例如支持“warm_start”的估计器、支持部分拟合的估计器以及 XGBoost、LightGBM 和 CatBoost 模型。
    • LiYangHart/Hyperparameter-Optimization-of-Machine-Learning-Algorithms
    • ARM-software/mango - learn 兼容的复杂搜索空间;采用新颖的、最先进的无梯度优化器,适用于连续、离散和分类值;模块化设计,可在本地、集群或云基础设施上调度目标函数;在应用程序层进行故障检测,以实现商品硬件上的可扩展性;由于在生产环境中的测试和使用,不断添加新功能。
    • sberbank-ai-lab/LightAutoML
    • cerlymarco/shap-hypetune - hypetune是一个Python包,用于同时进行梯度提升模型的超参数调优和特征选择。它将这两个步骤整合到一个管道中,以优化特征数量并搜索最佳参数配置,从而提高模型性能。该包支持多种特征选择算法,包括递归特征消除(RFE)、递归特征添加(RFA)和Boruta,并允许使用经典的提升特征重要性或SHAP特征重要性。此外,它还支持网格搜索、随机搜索和贝叶斯搜索,并利用joblib进行并行计算。
    • autonomio/talos
    • DeepWisdom/AutoDL
    • automl/HpBandSter
    • google/vizier - 服务器系统,支持多种搜索空间类型,包括浮点数、整数、离散值和分类值。用户可以通过简单的 API 接口定义目标函数、搜索空间和度量指标,并使用 Vizier 服务进行优化。该项目还提供开发者 API 和基准测试 API,方便用户进行算法研究和比较。
    • syne-tune/syne-tune
    • sb-ai-lab/LightAutoML
    • jina-ai/finetuner
    • huawei-noah/HEBO
    • JasperSnoek/spearmint
    • SheffieldML/GPyOpt
    • dragonfly/dragonfly
    • keras-team/keras-tuner
    • hyperopt/hyperopt
    • optuna/optuna
    • WillKoehrsen/hyperparameter-optimization
    • facebookresearch/nevergrad
    • ray-project/ray
    • PKU-DAIR/open-box
    • HDI-Project/BTB - tuning系统的一个简单、可扩展的后端系统。
    • thunlp/OpenDelta
    • scikit-optimize/scikit-optimize
    • CMA-ES/pycma - ES 协方差矩阵的自适应策略的Py实现和一些相关的数值优化工具。
    • HunterMcGushion/hyperparameter_hunter
    • Yelp/MOE
    • automl/SMAC3
    • maxpumperla/hyperas
    • salesforce/TransmogrifAI
    • facebook/Ax
    • AxeldeRomblay/MLBox
    • google/automl
    • noah-research/BO/HEBO/CompBO
  • 异常检测

  • 梯度提升和树模型

  • 特征工程

    • parrt/random-forest-importances - learn机器学习模型,特别是随机森林模型。它通过排列重要性(permutation importance)和删除列重要性(drop-column importance)来弥补scikit-learn默认的基于基尼重要性的方法的不足。排列重要性通过打乱特征值并观察模型性能的变化来衡量特征的重要性,而删除列重要性则通过移除特征并观察模型性能的变化来衡量特征的重要性。该项目包含一个名为`rfpimp`的Python包,可用于计算这些重要性指标,并提供示例代码和笔记本,演示如何使用该包分析特征重要性。
    • RUCAIBox/Negative-Sampling-Paper
    • aerdem4/lofo-importance
    • haifengl/smile
    • ResidentMario/missingno
    • imbalanced-learn
    • ScienceKot/kydavra
    • upgini/upgini
    • logicalclocks/hopsworks - centric 特征存储平台,提供 MLOps功能。它可以作为独立的特征存储使用,也可以用于管理、治理和服务模型,甚至用于开发和运行特征管道和训练管道。Hopsworks 为机器学习团队提供协作功能,为开发、管理和共享机器学习资产(特征、模型、训练数据、批次评分数据、日志等)提供安全、治理的平台。Hopsworks 提供三种部署方式:无服务器应用(通过 app.hopsworks.ai 访问)、云平台(支持 Azure、AWS 和 GCP)和本地安装。
    • AutoViML/featurewiz
    • feature-engine/feature_engine - engine是一个Python库,提供多个转换器,用于对机器学习模型进行特征工程和特征选择。Feature-engine的转换器遵循Scikit-learn的功能,使用fit()和transform()方法从数据中学习转换参数,然后进行转换。该库包含了各种特征工程技术,例如缺失值处理、特征缩放、特征编码、特征生成等。它还提供了一些特征选择方法,例如基于方差的特征选择、基于相关性的特征选择等。Feature-engine易于使用,并与Scikit-learn等其他机器学习库无缝集成。
    • solegalli/feature_engine - engine是一个Python库,提供多个转换器用于机器学习模型的特征工程和选择。Feature-engine的转换器遵循Scikit-learn的功能,使用fit()和transform()方法从数据中学习转换参数,然后进行转换。该库包含用于特征工程和选择的多种转换器,例如缺失值处理、特征缩放、特征编码、特征生成、特征选择等。Feature-engine在TrainInData的在线课程和书籍中被广泛使用,并提供详细的文档和示例。
    • aeturrell/skimpy
    • PaddlePaddle/PaddleSlim
    • microsoft/nni
    • xiaomi-automl/FairDARTS
    • ianwhale/nsga-net
    • human-analysis/neural-architecture-transfer
    • Western-OC2-Lab/AutoML-Implementation-for-Static-and-Dynamic-Data-Analytics
    • google-research/morph-net
    • D-X-Y/AutoDL-Projects - Projects是一个开源的、轻量级的、但对每个人都有用的项目,它实现了多种神经架构搜索 (NAS) 和超参数优化 (HPO)算法。该项目适合想要尝试不同 AutoDL 算法的初学者、想要尝试 AutoDL 以调查其是否适用于其项目的工程师,以及想要轻松实现和实验新 AutoDL 算法的研究人员。AutoDL-Projects 的特点包括简单的库依赖关系、所有算法都在同一个代码库中,以及积极的维护。该项目目前提供了以下算法和脚本:TAS、DARTS、GDAS、SETN、NAS-Bench-201 和 NATS-Bench。
    • carpedm20/ENAS-pytorch - pytorch 是一个基于 PyTorch 的实现,用于高效的神经网络架构搜索(ENAS),该项目通过参数共享来减少 NAS 的计算需求(GPU小时)1000 倍。该项目在 Penn Treebank 语言建模方面取得了最先进的结果。ENAS 通过一个控制器 LSTM 来决定使用何种激活函数以及连接哪些节点,从而发现 RNN 细胞。该项目还包括用于发现 CNN 架构的代码,以及用于生成GIF 图像的代码,以展示生成的样本。
    • joeddav/devol
    • markdtw/awesome-architecture-search
    • ethanhe42/channel-pruning
    • he-y/Awesome-Pruning - Pruning 是一个精心整理的神经网络剪枝资源列表。它汇集了各种关于神经网络剪枝技术的论文、代码库、教程和其他相关资料。该项目旨在帮助研究人员和开发者快速找到并学习最新的剪枝方法,以减小模型大小、提高推理速度和降低计算成本。剪枝技术通常通过移除网络中不重要的连接或神经元来实现模型压缩。该列表可能包含静态剪枝(训练后剪枝)和动态剪枝(训练期间剪枝)等不同类型的剪枝方法。Awesome-Pruning 提供了一个方便的入口,可以探索神经网络剪枝领域的各种资源,加速相关研究和应用开发。它涵盖了从理论基础到实际应用的各个方面,是学习和实践神经网络剪枝技术的宝贵资源。
    • MingSun-Tse/Efficient-Deep-Learning - Tse/Efficient-Deep-Learning项目是一个关于深度神经网络压缩和加速方法的集合。它汇集了近期在神经网络高效化方面的研究成果,旨在帮助开发者和研究者探索更轻量级、更快速的深度学习模型。该项目可能包含剪枝、量化、知识蒸馏等多种压缩技术,以及模型结构优化、硬件加速等加速策略。通过学习和应用这些方法,用户可以降低模型大小、减少计算资源消耗,并提升模型在移动设备或嵌入式系统上的部署效率。该项目可能包含代码示例、论文链接和相关资源,方便用户深入了解和实践各种高效深度学习技术。
    • idrl-lab/AAAD - II)搜索高效对抗攻击策略,解决传统工具无法双向优化攻防性能的痛点。用搜索出的强攻击评估模型,提升鲁棒性;攻击侧:以鲁棒模型为威胁模型,生成更强攻击。二者形成闭环迭代,显著提升攻防效率。提供完整代码模块:架构搜索(optimizer_adv)、攻击优化(AAA)、模型评估(eval_robustness),支持CIFAR/ImageNet等数据集验证。
  • BERT优化

  • 对象检测_分割

    • 资源传输下载

      • OptimalScale/DetGPT
      • facebookresearch/sam3
      • royshil/obs-backgroundremoval
      • roboflow/trackers
      • menloresearch/ReZero - 10数据集进行图像分类的示例。项目特色在于其简单性和易用性,允许研究人员快速实验不同的深度神经网络架构。其工作原理是利用ReZero初始化确保网络在训练初期表现得像一个恒等函数,从而稳定训练过程。该项目旨在促进对深度学习中深度和初始化技术的进一步研究。项目代码结构清晰,易于理解和修改,方便用户进行自定义实验。它提供了一个基础框架,用于探索深度神经网络的极限。
      • tinyvision/DAMO-YOLO - YOLO是一个快速且精确的目标检测方法。它采用了包括NAS搜索骨干网络在内的新技术,以提升性能。该项目使用了高效的RepGFPN结构,用于特征金字塔网络,增强了特征提取能力。ZeroHead是一种无头检测器设计,简化了检测流程。AlignedOTA是一种对齐的OTA标签分配策略,优化了训练过程。此外,DAMO-YOLO还使用了蒸馏增强技术,进一步提升模型精度。该项目旨在提供一个高性能的目标检测解决方案,适用于各种应用场景。它通过技术创新,在速度和精度之间取得了良好的平衡。DAMO-YOLO的代码开源,方便研究者和开发者使用和改进。
      • ZQPei/deep_sort_pytorch
      • PeterH0323/Smart_Construction
      • WongKinYiu/yolov7 - of-the-art水平。该项目基于论文"YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors"。YOLOv7使用了“可训练的免费技巧包”(Trainable bag-of-freebies),这意味着它可以在不增加推理成本的情况下,通过训练技巧来提高模型的性能。它在5 FPS到160 FPS的范围内,其速度和准确性都超过了所有已知的实时目标检测器。YOLOv7相比于YOLOv5,速度提高了120%,精度提高了16%。该项目提供了完整的训练和推理代码,方便用户使用和复现结果。它适用于各种实时目标检测应用场景,是一个高性能且易于使用的目标检测框架。
      • eriklindernoren/PyTorch-YOLOv3 - YOLOv3是一个YOLOv3目标检测算法的极简PyTorch实现。它旨在提供一个易于理解和修改的YOLOv3版本,方便研究人员和开发者学习和应用。该项目使用PyTorch框架,实现了YOLOv3的核心组件,包括Darknet-53骨干网络、特征金字塔网络(FPN)和YOLO头。它支持自定义数据集训练,并提供了预训练权重。项目重点在于代码的简洁性和可读性,牺牲了一些性能优化,以便更好地理解YOLOv3的工作原理。该实现包括了目标检测的完整流程,从数据加载、模型构建、训练到推理。此外,项目还提供了详细的文档和示例,帮助用户快速上手。 使用者可以通过修改配置文件来调整网络结构和训练参数。 该项目是学习YOLOv3算法和PyTorch的优秀资源。
      • utkuozbulak/pytorch-cnn-visualizations - cnn-visualizations,提供了卷积神经网络(CNN)可视化技术的PyTorch实现。它包含多种可视化方法,帮助理解CNN如何进行图像分类。项目特色包括类激活映射(CAM)、梯度加权类激活映射(Grad-CAM)、引导反向传播(Guided Backpropagation)等经典技术。这些技术通过突出显示图像中对网络决策贡献最大的区域,来解释CNN的内部工作机制。例如,CAM和Grad-CAM通过计算特征图的加权平均来定位重要区域,而引导反向传播则通过反向传播梯度来突出显示激活神经元的像素。该项目旨在为研究人员和开发者提供一个易于使用的工具箱,以探索和理解其PyTorch CNN模型的行为。通过可视化,可以更好地理解模型关注的特征,并有助于模型调试和改进。项目还提供了详细的示例和教程,方便用户快速上手并将其应用于自己的项目中。
      • amusi/awesome-object-detection - object-detection是一个精选的目标检测资源列表,基于handong1587的深度学习目标检测综述。它汇集了各种目标检测相关的论文、代码和数据集资源。该项目旨在帮助研究人员和开发者快速找到所需的信息,涵盖了经典方法和最新的进展。具体内容包括:各种目标检测算法的论文链接,例如Faster R-CNN、YOLO系列等;一些开源代码实现,方便用户复现和实验;以及常用的目标检测数据集的介绍和下载链接。该项目持续更新,旨在保持内容的全面性和时效性,是学习和研究目标检测的宝贵资源。
      • roboflow/notebooks - DETR、SAM 2、Florence-2、PaliGemma 2和Qwen2.5VL)的广泛内容。旨在帮助用户学习和掌握各种计算机视觉模型的使用方法。通过notebook的形式,提供可运行的代码示例和详细的解释。用户可以深入了解这些模型的架构、工作原理和实际应用。该项目是学习和实践计算机视觉技术的宝贵资源。
      • LiheYoung/Depth-Anything - Anything是一个CVPR 2024发布的单目深度估计基础模型项目,它利用大规模无标注数据训练,旨在释放无标签数据的潜力。该项目提供了一个强大的深度估计解决方案,能够从单张图像中预测深度信息。Depth-Anything模型具有零样本泛化能力,无需针对特定场景进行微调即可应用于各种图像。它通过巧妙的网络设计和训练策略,实现了高精度和鲁棒性的深度估计。项目提供了预训练模型和代码,方便研究人员和开发者使用。Depth-Anything在深度估计任务上表现出色,为计算机视觉领域带来了新的突破。其核心优势在于利用海量无标注数据进行预训练,从而提升了模型的泛化能力和准确性。项目代码和模型可用于各种应用,如机器人导航、自动驾驶和三维重建等。开发者可以基于该项目进行二次开发,进一步提升深度估计的性能。
      • dmlc/gluon-cv
      • dbolya/yolact
      • Tianxiaomo/pytorch-YOLOv4
      • YunYang1994/tensorflow-yolov3 - 53提升了目标检测性能。该项目可能包含预训练模型、训练脚本和测试代码,帮助用户快速上手并应用YOLOv3进行目标检测任务。用户可以参考项目中的代码和文档,了解YOLOv3的具体实现细节和训练过程。该项目是学习和使用YOLOv3算法的良好资源。
      • iscyy/ultralyticsPro - DETR、YOLOv7和YOLOv5。它支持对模型的backbone、neck、head、损失函数(loss)、IoU、NMS等关键模块进行改进。项目旨在提供一个平台,方便研究人员和开发者探索和实现YOLO模型的各种优化策略。通过对这些模块的灵活调整,可以提升目标检测的精度和效率。该项目是一个YOLO模型改进的工具集合,涵盖了多个主流YOLO版本,并提供了丰富的可定制选项。它为YOLO模型的性能提升提供了强大的支持,方便用户根据自身需求进行定制和优化。
      • ppogg/YOLOv5-Lite - Lite项目是从YOLOv5演变而来,专注于模型轻量化。其模型大小仅为900+KB (int8) 和 1.7M (fp16),非常适合资源受限的设备。该项目特色在于体积小巧的同时,在树莓派4B上能达到15 FPS的运行速度。这使其成为嵌入式设备和移动端部署的理想选择。YOLOv5-Lite保留了YOLOv5的核心检测能力,并通过优化网络结构和量化技术来实现轻量化。该项目旨在提供一个高性能、低功耗的目标检测解决方案。它特别适合对模型大小和推理速度有严格要求的应用场景。
      • leggedrobotics/darknet_ros
      • Ouxiang-Li/SAFE
      • nv-tlabs/GSCNN - Shape CNN for Semantic Segmentation”,旨在提升分割精度,尤其是在处理复杂形状和结构时。GSCNN的核心思想是利用门控形状CNN,通过形状信息引导分割过程。它包含两个主要分支:一个常规的分割分支和一个形状流分支。形状流分支负责学习物体的形状表示,并使用门控机制将形状信息融入到分割分支中。这种结构使得网络能够更好地理解物体的整体形状,从而提高分割的准确性和鲁棒性。项目提供了代码、预训练模型和数据集,方便研究者复现结果和进行进一步研究。GSCNN在多个数据集上取得了优秀的性能,证明了其在语义分割任务中的有效性。该项目使用PyTorch框架实现。
      • FeiYull/TensorRT-Alpha - Alpha项目旨在为YOLOv8、YOLOv8-Pose、YOLOv8-Seg、YOLOv8-Cls、YOLOv7、YOLOv6、YOLOv5、YOLONAS等多个YOLO系列目标检测模型提供TensorRT加速。该项目的核心理念是“CUDA IS ALL YOU NEED”,强调利用CUDA进行高性能计算。它专注于将这些模型的推理过程优化并部署到NVIDIA的TensorRT平台,从而显著提升推理速度和效率。项目可能包含将模型转换为TensorRT引擎、优化引擎配置以及实现高效推理的代码和工具。通过使用TensorRT,用户可以在NVIDIA GPU上获得更快的YOLO模型推理性能,适用于实时目标检测等应用场景。该项目简化了TensorRT部署流程,方便用户快速集成和使用。
      • sunsmarterjie/yolov12
      • yangxue0827/RotationDetection
      • fanjunkai1/DCL
      • lucasb-eyer/pydensecrf
      • facebookresearch/vggt
      • open-mmlab/mmdetection3d
      • AILab-CVC/YOLO-World - World是一个CVPR 2024论文提出的实时开放词汇目标检测项目。它基于YOLOv8,能够检测任意类别的物体,无需重新训练。其核心思想是将文本编码器(CLIP)的语义信息融入到YOLO的检测流程中,通过文本查询来定位和识别目标。项目特色在于其零样本检测能力,即在没有见过特定类别图像的情况下也能进行检测。YOLO-World通过解耦预测头,将目标检测任务分解为目标定位和类别识别两个子任务。它利用文本编码器生成类别嵌入,并将其与视觉特征进行匹配,从而实现开放词汇检测。该项目易于使用,只需简单配置即可运行,并提供了丰富的示例代码和预训练模型。YOLO-World在多个数据集上取得了具有竞争力的结果,并具有良好的实时性能。它为目标检测领域带来了新的思路,并为实际应用提供了强大的工具。
      • facebookresearch/co-tracker
      • cvg/LightGlue
      • 52CV/CV-Surveys - Surveys项目是一个关于计算机视觉相关综述的资源集合。它涵盖了目标检测、跟踪等多个热门领域。该项目旨在整理和分享最新的CV综述论文,帮助研究者快速了解特定方向的研究进展和技术趋势。通过阅读这些综述,用户可以系统地学习相关知识,把握研究重点,并为自己的研究工作提供参考。该项目内容持续更新,力求全面覆盖计算机视觉的各个分支,是学习和研究CV的宝贵资源。
      • roboflow/rf-detr - DETR是由Roboflow开发的实时目标检测模型架构,在COCO数据集上表现出色,专为微调而设计。它基于DETR(Detection Transformer)架构,但进行了优化以提高速度和效率,使其更适合实际应用。RF-DETR的关键特性包括快速推理速度、高精度和易于定制。该项目提供了预训练模型和微调工具,方便用户在自己的数据集上进行训练和部署。RF-DETR利用Transformer架构的优势,能够捕捉图像中的全局上下文信息,从而提高目标检测的准确性。它旨在成为一个强大且易于使用的目标检测解决方案,适用于各种应用场景。该项目还提供了详细的文档和示例,帮助用户快速上手。RF-DETR是一个开源项目,欢迎社区贡献和改进。
      • computerhistory/AlexNet-Source-Code
      • hkchengrex/Tracking-Anything-with-DEVA
      • jqtangust/hawk
      • tue-mps/eomt - only Mask Transformer的官方代码和模型。该项目专注于使用纯编码器架构的掩码Transformer,可能在图像处理或计算机视觉任务中表现出色。核心思想是利用Transformer编码器处理掩码数据,从而学习图像或其他类型数据的有效表示。项目代码和模型可供研究人员和开发者使用,用于复现论文结果或进行进一步研究。EoMT的优势可能在于其简洁的架构和高效的计算性能,避免了传统Transformer的解码器部分。具体应用场景可能包括图像修复、目标检测或图像分割等。该项目为探索纯编码器Transformer在视觉任务中的潜力提供了一个有价值的资源。
      • jwyang/faster-rcnn.pytorch - CNN目标检测算法在PyTorch框架下的高效实现,主要特点是优化了计算速度并保持了算法精度。项目基于经典的Faster R-CNN架构,通过改进区域建议网络(RPN)和检测头的设计,实现了更高效的特征提取和目标定位。代码采用PyTorch 0.4.0版本开发,支持ResNet-101和ResNet-50等主流骨干网络,预训练模型在COCO数据集上取得了较高的检测精度(mAP 36.8%)。项目提供了完整的训练和推理流程,用户可通过修改配置文件快速切换不同网络结构,支持多尺度训练和数据增强技术提升模型鲁棒性。代码结构清晰,包含数据预处理、模型定义、训练脚本和评估工具,特别优化了训练过程中的GPU内存占用。项目还支持可视化工具和结果分析模块,方便用户调试和验证模型效果。相比其他Faster R-CNN实现,该项目通过使用更高效的卷积操作和优化器配置,将训练速度提升了约20%,同时保持了与原始论文相当的检测性能。开发者提供了详细的使用说明和常见问题解决方案,适用于研究和工业检测场景,可作为PyTorch目标检测项目的参考模板。
      • ethz-asl/kalibr - 惯性传感器标定工具箱,主要用于校准相机与惯性测量单元(IMU)之间的参数关系。该工具箱通过结合视觉特征点匹配和IMU数据,采用非线性优化方法实现高精度标定,支持单目、双目、RGB-D相机及多相机系统的联合标定。其核心工作原理基于视觉惯性里程计(VIO)技术,通过同步采集的视觉图像和IMU数据,利用特征点轨迹与IMU运动状态的约束关系,建立非线性优化问题以估计相机内参、外参以及IMU的偏差参数。项目提供可视化工具辅助标定结果评估,并支持ROS(机器人操作系统)集成,适用于无人机、机器人等需要精确传感器融合的场景。Kalibr采用开源协议(MIT License),跨平台支持Linux系统,提供完整的标定流程脚本和参数优化算法,可处理运动模糊、噪声干扰等实际应用场景中的挑战。其优势在于通过联合优化视觉与惯性数据,显著提升标定精度,同时提供直观的用户界面和详细的文档指导,适用于研究者和开发者快速部署传感器标定任务。
      • Visual-Agent/DeepEyes - Agent/DeepEyes 是一个基于深度学习的视觉代理项目,专注于实现高精度的注视估计(gaze estimation)技术,旨在通过人工智能模型分析人类眼睛的运动和注视方向,从而提升人机交互、增强现实(AR)、虚拟现实(VR)等场景的体验。该项目的核心功能是利用深度神经网络(DNN)和卷积神经网络(CNN)等技术,从图像或视频数据中提取眼部特征,并结合头部姿态估计等辅助信息,预测用户当前的注视点。其工作原理包括三个主要步骤:首先通过预处理模块对输入的图像进行标准化和增强,例如调整光照、去噪或归一化处理;其次利用预训练的深度学习模型(如ResNet、MobileNet等)提取眼部关键点(如瞳孔、虹膜、眼角)的坐标信息;最后通过一个专门设计的回归模型,结合眼部特征与头部姿态数据,计算出最终的注视方向。 项目特色包括支持多种输入数据源(如摄像头、红外传感器),并优化了模型在不同光照条件下的鲁棒性;同时提供轻量化版本以适应移动端部署,以及可视化工具帮助用户直观理解模型预测结果。此外,DeepEyes 还集成了实时处理能力,可应用于智能设备的交互设计(如眼球追踪控制)或心理学研究中的注意力分析。项目代码基于 PyTorch 框架开发,支持自定义数据集训练,并提供预训练模型供用户直接调用。由于其模块化设计,开发者可根据具体需求替换或扩展模型组件,例如更换更高效的骨干网络或添加多任务学习模块。该项目的核心目标是通过人工智能技术,让机器更精准地理解人类视觉行为,为未来人机交互领域提供基础技术支持。
      • ZJU-REAL/ViewSpatial-Bench - Bench是一个用于评估视觉-语言模型多视角空间定位能力的基准项目,旨在解决现有模型在不同视角下空间关系理解不足的问题。该项目通过构建包含多视角场景的数据集,设计了多维度评估指标,涵盖相对位置预测、视角一致性、多模态对齐等任务,能够全面衡量模型在复杂空间场景中的定位精度和鲁棒性。其核心工作原理基于视图变换技术,通过生成同一场景的不同视角图像与对应文本描述,要求模型在跨视角间保持空间关系的逻辑一致性,例如判断"相机在桌子左侧"与"相机在桌子右侧"的视角差异是否合理。项目创新性地引入了视角敏感度评估模块,通过计算模型对视角变化的鲁棒性,量化其空间感知能力的稳定性。此外,ViewSpatial-Bench还提供了可视化分析工具,支持对定位误差的细粒度分析,包括空间关系混淆矩阵、视角偏差分布等。该基准已整合了多种主流视觉-语言模型的基线结果,可作为研究者验证模型空间理解能力的标准测试平台,特别适用于需要跨视角推理的场景如室内导航、机器人视觉等应用领域。
      • facebookresearch/dinov3 - 1K等数据集上取得了SOTA性能。项目提供完整的PyTorch实现,包含从数据预处理到模型训练、评估的完整流程,支持多种下游任务(如分类、目标检测、语义分割)的微调应用。开发者特别强调了模型的通用性,通过简单的线性分类器即可实现跨域迁移,同时支持在有限计算资源下进行模型蒸馏。项目文档详细说明了训练参数设置、预训练权重下载方式及可视化工具使用方法,适合研究者和开发者快速复现实验。此外,项目还提供了多尺度特征提取的接口,方便用户根据具体任务选择不同层级的特征表示。目前,DINOv3已广泛应用于医学影像分析、卫星图像处理等实际场景,其开源代码和预训练模型为视觉基础模型研究提供了重要参考。
  • 其他_推荐系统

  • 时间序列

  • 杀毒免杀_逆向工程

    • 资源传输下载

      • korcankaraokcu/PINCE
      • HJLebbink/asm-dude - dude 是一个 Visual Studio 扩展,主要功能是为汇编文件和反汇编窗口提供语法高亮和代码补全功能。它支持多种汇编语法,旨在提升汇编代码编写和阅读的效率。该扩展通过识别汇编指令、寄存器、标签等元素,实现语法着色,使代码更易于理解。同时,它还提供智能代码补全,帮助开发者快速输入汇编指令和符号。Asm-dude 支持自定义语法规则,允许用户根据自己的需求进行配置。它适用于需要在 Visual Studio 中进行汇编开发或调试的开发者,可以显著提高工作效率。项目还包含一些示例和文档,方便用户快速上手使用。
      • the-xentropy/xencrypt
      • Ch0pin/AVIator
      • lief-project/LIEF - O等格式。LIEF允许开发者轻松地分析和修改二进制文件,例如添加/删除节、修改导入表、重定位等。它提供高级抽象,隐藏了底层格式的复杂性,使开发者能够专注于二进制分析和修改任务。LIEF可以用于构建各种工具,例如恶意软件分析、逆向工程、模糊测试和二进制重写。其设计目标是易用性、可扩展性和性能。LIEF通过提供统一的API,简化了对不同可执行文件格式的处理,从而加速了开发过程。该项目还包括Python绑定,方便在Python环境中使用。LIEF的Rust绑定也正在积极开发中。总而言之,LIEF是一个强大的工具,适用于需要处理可执行文件格式的各种应用场景。
      • es3n1n/defendnot
      • mandiant/flare-floss
  • Transformer库与优化

    • 大语言对话模型及数据

      • huggingface/huggingface.js
      • thu-ml/SpargeAttn
      • IAAR-Shanghai/Awesome-Attention-Heads - Shanghai/Awesome-Attention-Heads是一个关于LLM注意力头可解释性的优秀仓库和综合调查。它旨在整理和研究大型语言模型(LLM)中注意力头的相关工作。该项目关注于理解注意力头在LLM中的作用和功能,并探索如何利用注意力头进行模型解释。它可能包含论文、代码、工具和数据集等资源,帮助研究人员深入了解注意力机制的工作原理。这个仓库可能涵盖了注意力头的识别、分类、以及它们在不同任务中的行为分析。通过研究注意力头,可以更好地理解LLM的内部运作机制,并提升模型的可解释性和可控性。该项目可能还涉及如何修改或利用注意力头来改进LLM的性能或实现特定的功能。总而言之,这是一个致力于探索和理解LLM注意力头的全面资源库。
      • aburkov/theLMbook
      • MoonshotAI/MoBA
      • SamsungSAILMontreal/TinyRecursiveModels - LSTM、Recursive CNN等),并提供预训练模型和可复用的模块化代码,便于研究人员快速实验不同架构。工作原理上,模型通过递归函数逐层处理输入数据(如句子分解为词序结构),结合注意力机制或门控单元增强特征提取能力,同时通过参数共享和剪枝技术降低存储需求。项目特别强调在边缘设备(如手机、IoT设备)和低功耗场景下的应用,例如在自然语言处理任务中,TinyRecursiveModels在保持高准确率的同时,推理速度较传统RNN提升30%以上。此外,项目提供详细的文档和可视化工具,帮助开发者理解递归计算路径,并支持与主流深度学习框架(如PyTorch)的集成。目前,该模型已在多个基准数据集(如SST-2、IMDB)上验证其有效性,尤其在长文本分类和小样本学习任务中表现突出。
      • OpenNLPLab/lightning-attention - 2 (闪电注意力-2) 是一个旨在处理大型语言模型中无限序列长度的开源项目。它提供了一种免费的解决方案,无需额外训练或微调,即可显著扩展模型的上下文窗口。该项目基于对注意力机制中冗余计算的观察,通过减少计算量来加速推理。核心思想是识别并移除不重要的键值对,从而降低计算复杂度。Lightning Attention-2 适用于各种Transformer架构,并且易于集成到现有的模型中。它主要关注推理加速,并提供了一个高效的注意力实现,允许模型处理更长的序列,而不会显著增加计算成本。该项目通过减少不必要的计算,实现了更高的吞吐量和更低的延迟。它支持多种硬件平台,并提供了详细的文档和示例,方便用户使用和定制。项目目标是让大型语言模型能够更好地理解和生成长文本,从而提升各种自然语言处理任务的性能。它是一个社区驱动的项目,欢迎贡献和反馈。
      • zyds/transformers-code - code是一个与B站和YouTube平台同步更新的Huggingface Transformers实战课程配套项目,通过手把手教学方式帮助开发者快速掌握自然语言处理技术。项目基于Hugging Face官方Transformers库构建,提供完整的代码示例和实践案例,涵盖文本分类、序列标注、机器翻译等典型应用场景。其核心特色在于将课程视频内容与代码实现紧密结合,每个章节都对应具体的Python代码实现,支持PyTorch和TensorFlow框架,同时包含预训练模型微调、自定义模型构建等进阶操作。项目采用模块化结构,按章节组织代码文件,便于学习者分步实践。针对初学者,项目提供详细的环境搭建指南和依赖安装说明,包括必要的pip安装命令和模型加载配置。进阶用户可通过实践项目深入理解Transformer架构原理和模型优化技巧。项目特别强调实战性,通过真实数据集演示模型训练、评估和部署流程,配套视频教程可帮助学习者直观理解代码逻辑。所有代码均经过验证,支持主流NLP任务,并包含模型推理和可视化输出功能。开发者可通过项目快速上手Hugging Face生态系统,掌握从模型加载到效果调优的完整工作流,适合希望系统学习Transformer技术的AI研究者和工程实践者。
  • 预训练模型

    • THUDM/GLM
    • facebookresearch/metaseq - 175B,Open Pre-trained Transformers,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3。从完整模型到训练代码、部署代码全部开放。
    • dbiir/UER-py - 2预训练模型(通用、古诗词、对联、歌词、文言文)、中文T5预训练模型、中文RoBERTa下游任务微调模型(JD full 情感分类 、JD binary 情感分类 、Dianping 情感分类、Ifeng 新闻主题分类、Chinanews 新闻主题分类 、CLUENER2020 NER 、抽取式问答)等。
    • OpenBMB/BMInf
    • ymcui/Chinese-XLNet
    • CyberZHG/keras-xlnet
    • IDEA-CCNL/Fengshenbang-LM - LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。包括了自然语言理解(NLU),自然语言生成(NLG)和自然语言转换(NLT)任务。CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录。
    • microsoft/unilm - NLP及更高版本的统一语言模型预训练
    • YunwenTechnology/Unilm
    • ymcui/Chinese-ELECTRA - small模型可与BERT-base甚至其他同等规模的模型相媲美,而参数量仅为BERT-base的1/10
    • alibaba/EasyTransfer
    • google-research/byt5 - R、T5、GPT-3)那样使用子词词汇表,而是直接在 UTF-8 字节上运行,无需任何文本预处理。 除了降低系统复杂性之外,我们发现参数匹配的 ByT5 模型在一系列任务中与 mT5 具有竞争力,并且在涉及嘈杂文本或对拼写和发音敏感的任务上优于 mT5。 此 repo 可用于重现 ByT5 论文中的实验。
    • sunyilgdx/NSP-BERT - level)** 的预训练任务 **NSP (下一句预测,Next Sentence Prediction)** 来实现不同的NLP下游任务, 例如 *单句分类(single sentence classification)*, *双句分类(sentence pair classification)*, *指代消解(coreference resolution)*, *完形填空(cloze-style task)*, *实体链接(entity linking)*, *实体类型识别(entity typing)*.
    • thunlp/OpenPrompt - learning 是将预训练语言模型应用于下游NLP任务的最新范式,它使用文本模板修改输入文本并直接使用 PLM 执行预训练任务。 该库提供了一个标准、灵活和可扩展的框架来部署即时学习管道。 OpenPrompt支持直接从Huggingface Transformer加载PLM。将来,我们还将支持其他库实现的 PLM。
    • google-research/flan
    • PaddlePaddle/ERNIE
    • airaria/TextPruner
    • Tencent/PatrickStar
    • ymcui/PERT
    • THUDM/P-tuning-v2 - tuning v2 对预训练变压器的每一层输入应用连续提示。深度提示调整增加了连续提示的容量,并缩小了跨各种设置微调的差距,特别是对于小型模型和艰巨的任务。将文本生成的prefix-tuning技术适配到NLU任务。Prompting技术火爆NLP社区,其将预训练模型从Fine-tuning范式带入Prompt-Engineering时代。Promp最初由人工设计,自然语言提示本身十分脆弱,而且从优化角度无法达到最优。为了解决问题发展出了可学习的Prompt,而P-tuning v2在实际上就是Prefix-tuning,在Prefix部分,每一层transformer的embedding输入需要被tuned。在不同规模大小的LM模型上,P-tuning v2能与精调(Fine-tuning)方法的表现比肩,有时甚至更好。
    • OpenBMB/BMTrain
    • microsoft/CodeBERT - PL 对上进行预训练的多编程语言模型。
    • clue-ai/PromptCLUE
    • BlinkDL/RWKV-LM
    • FlagOpen/FlagEmbedding
    • XiaoMi/MiLM-6B - Eval 和 CMMLU 上均取得同尺寸最好的效果。
    • yuzhimanhua/Awesome-Scientific-Language-Models
    • CLUEbenchmark/CLUEPretrainedModels
    • [3
  • 文本分类

  • 文本摘要

  • 文本生成、文本对话

  • 文本匹配 文本检索 文本相似度

  • 机器阅读理解

  • 知识图谱问答KBQA、多跳推理

  • 知识图谱

  • 关系抽取、信息抽取

  • 实体识别NER、意图识别、槽位填充

  • JavaScript框架

  • 语音识别

  • 药物发现、药物设计

  • 分子

  • 其他_生物医药

  • 关系抽取_信息抽取

  • 区块链_智能合约

    • 管理面板

      • sendaifun/solana-agent-kit - agent-kit**,其核心目标是将任意人工智能代理(AI Agents)与 **Solana** 区块链协议进行连接,从而实现 AI 与 Solana 生态系统的深度集成。项目通过提供一套工具和框架,允许开发者构建能够与 Solana 区块链交互的 AI 代理,例如自动化交易、智能合约管理、数据验证等场景。 **项目特色**包括: 1. **模块化设计**:提供独立的 SDK 和 API,开发者可根据需求选择性集成功能,例如仅需 Solana 账户管理或智能合约调用模块。 2. **多 AI 模型兼容性**:支持主流 AI 框架(如 LangChain、HuggingFace 等),允许用户自定义 AI 代理逻辑,并通过 Solana 协议实现链上操作。 3. **链上交互能力**:内置 Solana 交易签名、账户管理、RPC 调用等功能,使 AI 代理能够直接与 Solana 区块链进行交互(如发起交易、读取链上数据等)。 4. **示例与文档**:提供基础使用教程和代码示例,帮助开发者快速上手,例如如何通过 AI 代理执行链上转账或调用智能合约。 **工作原理**基于 Solana 的高性能区块链特性(如高吞吐量、低延迟),结合 AI 代理的自主决策能力,实现链上任务的自动化执行。例如,AI 代理可实时分析链上数据(如价格波动、交易行为),并通过 Solana 协议触发智能合约操作(如自动清算、质押管理等)。 项目适合需要将 AI 能力与区块链结合的应用场景,如去中心化金融(DeFi)自动化交易、NFT 项目管理、链上数据分析等。开发者可通过该项目快速构建具备链上操作能力的 AI 代理,降低 Solana 生态开发门槛。
      • btcpayserver/btcpayserver
      • unionlabs/union
      • anoma/anoma - of-Stake)共识机制的区块链,用于协调和验证交易。项目特色包括支持多资产屏蔽传输(MASP)和意图驱动的架构,允许用户表达交易意图,而非指定具体执行方式。Anoma 旨在解决区块链互操作性问题,允许不同的区块链和应用安全地进行价值转移和数据交换。它采用了一种称为“通用匿名化”的技术,增强了隐私性。Anoma 的目标是创建一个更具弹性和用户控制权的去中心化生态系统,让用户可以自由地管理自己的数字资产和身份。项目使用 Rust 语言开发,并提供了一套工具和库,方便开发者构建和部署 Anoma 应用。
      • linera-io/linera-protocol
      • solidtime-io/solidtime
      • transmissions11/solmate
      • ElementsProject/lightning
      • FISCO-BCOS/FISCO-BCOS
      • Project-DARC/DARC
  • 其他_机器视觉

  • 图机器学习库

  • Go程序设计

  • 时空网络_交通预测_动态图

    • 网络服务_其他

      • guoshnBJTU/ASTGCN-r-pytorch
      • aravindsankar28/DySAT - ATTENTION机制,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。
      • LeiBAI/AGCRN - 自适应图卷积递归网络。AGCRN可以捕获流量序列中特定于节点的细粒度空间和时间相关性,并通过嵌入DAGG来统一修订GCN中的节点嵌入。这样,训练AGCRN可以针对每个交通系列源(例如,用于交通速度/流量的道路,用于乘客需求的车站/区域)产生有意义的节点表示向量。学习的节点表示包含有关道路/区域的有价值的信息,并且可以潜在地应用于其他任务。
      • nnzhan/Graph-WaveNet - LA是洛杉矶公路探测器收集到的交通数据,有207个传感器搜集了四个月的数据(2012.3.1 2012.6.30);PEMS-BAY是加州交通部门Performance Measurement System搜集到的交通数据,有325个传感器搜集了六个月的数据(2017.1.1 2017.5.31)。
      • Davidham3/STSGCN
      • IBM/EvolveGCN
      • twitter-research/tgn
      • lehaifeng/T-GCN - GCN是时间图卷积网络的源代码。2 A3T-GCN是具有注意力结构的时间图卷积网络的源代码。3 AST-GCN是属性增强的时空图卷积网络的源代码。4 基准包括以下方法,例如历史平均模型(HA)、自回归综合移动平均模型(ARIMA)、支持向量回归模型(SVR)、图卷积网络模型(GCN)、门控循环单位模型(GRU)
      • palash1992/DynamicGEM
      • LZH-YS1998/STHSL
      • rootlu/MMDNE
      • skx300/DyHATR - level attention和edge-level attention以上两个层次的注意力机制实现异质信息的有效处理,并且通过循环神经网络结合self-attention研究节点embedding的演化特性,并且通过链接预测任务进行试验,验证模型的有效性。
      • luckiezhou/DynamicTriad
      • jwwthu/GNN4Traffic
      • SpaceLearner/Awesome-DynamicGraphLearning
      • liangzhehan/DMSTGCN
      • LibCity/Bigscity-LibCity-PaperList
      • LibCity/Bigscity-LibCity - 交通状态预测(交通流量预测、交通速度预测、交通需求预测、起点-终点(OD)矩阵预测、交通事故预测)轨迹下一跳预测、到达时间预测、路网匹配、路网表征学习。
      • microsoft/FOST - TS、facebook的Prophet等)无法处理和建模结构图数据,尤其是在空间数据中
      • drop-out/Tianchi-Wifi-Positioning
      • Cantoria/dynamic-graph-papers
      • BIRD-TAO/CLCRN
    • 资源传输下载

      • aprbw/traffic_prediction
      • RingBDStack/DG-Mamba - Mamba是一个基于选择性状态空间模型(Selective State Space Models)的动态图结构学习项目,旨在实现鲁棒且高效的图学习。该项目论文已被第39届人工智能顶级会议AAAI-2025的主技术轨道接收。DG-Mamba的核心在于利用Mamba架构处理动态图结构,从而提升图学习任务的性能。项目主要关注如何通过选择性机制,更好地捕捉图结构中的关键信息。该实现为官方版本,提供了复现论文结果的代码和相关资源。DG-Mamba的优势在于其鲁棒性和效率,能够有效处理复杂的动态图数据。该项目为图神经网络领域的研究者和开发者提供了一个新的思路和工具。
  • 其他_图神经网络GNN

  • 数据库管理系统

  • 向量数据库、向量搜索、最近邻搜索

  • 其他__大数据

  • 扫描器、资产收集、子域名

  • web shell、shellcode

  • 漏洞库、漏洞靶场

  • 其他_安全与渗透

  • 人像\姿势\3D人脸

  • C/C++ 程序设计

  • Rust 程序设计

  • Flutter 程序

  • Go 程序设计

  • Java 程序设计

  • Android 应用

  • 编辑器

    • 网络服务_其他

    • 资源传输下载

      • YiiGuxing/TranslationPlugin
      • emacs-mirror/emacs
      • sindresorhus/eslint-plugin-unicorn - plugin-unicorn`,它是一个强大的ESLint插件,包含超过100条规则,用于改进JavaScript代码质量,特色是提供实用且智能的校验规则,如禁止魔法数字、强制使用配置对象等,工作原理是集成到ESLint中,通过配置文件启用后自动对代码进行分析并报告潜在问题,帮助开发者编写更规范、更易维护的代码,支持现代JavaScript特性,易于安装和使用。
      • martanne/vis
      • kepano/obsidian-minimal
      • L3MON4D3/LuaSnip
      • sainnhe/everforest
      • vim-test/vim-test - test,用于在Vim中快速运行测试,以思维速度执行,支持通过ContentFile指定测试文件路径,如README.md,让测试体验更流畅高效
      • CopilotC-Nvim/CopilotChat.nvim
      • vscode-neovim/vscode-neovim - neovim 是一个为 Visual Studio Code 提供 Vim 模式支持的插件,其核心功能基于 Neovim 实现。该项目通过将 Neovim 的 API 集成到 VSCode 编辑器中,使用户能够以 Vim 的操作方式(如普通模式、插入模式、可视模式等)进行代码编辑,同时保留 VSCode 的强大功能,例如智能提示、调试工具和扩展生态。其工作原理是通过一个轻量级的 Neovim 服务进程与 VSCode 进行通信,实现编辑器的输入捕获、命令执行和界面渲染,这种架构设计使得插件既保持了 Vim 的高效操作体验,又避免了传统 Vim 插件在 VSCode 中可能遇到的兼容性问题。 项目特色包括对 Neovim 的深度兼容(支持最新版本的 Neovim 特性),支持完整的 Vim 操作模式切换、自定义快捷键配置、支持多种终端类型(如 tmux、screen 等),以及通过配置文件实现个性化设置。由于 Neovim 本身是 Vim 的现代分支,该项目在性能优化上优于传统 Vim 插件,同时支持通过 Lua 脚本进行功能扩展。安装方式简单,用户只需在 VSCode 扩展商店搜索并安装后,通过命令面板启用 Neovim 服务即可开始使用。该项目适合熟悉 Vim 操作的开发者,或希望在 VSCode 中获得类似 Vim 高效编辑体验的用户,尤其适合需要频繁使用命令模式进行代码操作的开发者。
      • ritwickdey/vscode-live-server - live-server 是一个为 Visual Studio Code 设计的轻量级本地开发服务器扩展,其核心功能是通过“实时重载”技术实现网页开发时的自动刷新。该工具通过监听项目文件(如 HTML、CSS、JavaScript 或动态语言如 PHP、Node.js 等)的修改,自动触发浏览器刷新,无需手动操作,显著提升开发效率。项目特别强调对静态页面(如 HTML 静态文件)和动态页面(如运行时需服务器处理的 PHP、Python 等)的兼容性,开发者只需在 VS Code 中安装扩展并启动服务器,即可通过右键菜单或快捷键快速启动服务,浏览器会自动打开指定页面并实时同步修改内容。其工作原理基于文件系统监视(watcher)机制,当检测到文件变更时,服务器会向连接的浏览器发送信号,触发页面刷新,同时支持多语言环境和跨平台使用。项目还提供简单的配置选项(如指定服务器端口或根目录),且与 VS Code 编辑器深度集成,无需额外依赖,适合前端开发、本地服务器测试等场景。由于其操作便捷性和对常见开发语言的广泛支持,该工具已成为 VS Code 生态中广受开发者欢迎的实用插件。
      • Huachao/vscode-restclient - restclient 是一款为 Visual Studio Code 设计的 REST 客户端扩展,允许开发者直接在代码编辑器中发送和测试 HTTP 请求,无需切换工具或环境。该项目的核心功能是通过简洁的语法文件定义请求,用户只需在编辑器中创建一个 `.http` 或 `.rest` 文件,用类似 `GET https://example.com` 的格式编写请求,即可通过扩展发送请求并查看响应结果。其工作原理基于 VS Code 的扩展接口,通过解析文件中的请求配置,生成对应的 HTTP 请求并显示返回的 JSON、HTML 或文本内容,同时支持实时调试和错误信息反馈。 该项目的主要特色包括对多种 HTTP 方法(GET、POST、PUT、DELETE 等)的全面支持、对 Basic、OAuth 等认证方式的集成、以及环境变量的灵活配置功能,允许用户通过 `@env` 标记引用不同环境的变量值(如测试环境的 API 地址)。此外,它还支持请求历史记录功能,用户可随时查看之前发送过的请求及其响应数据,方便调试和复用。扩展还提供自动补全功能,帮助用户快速编写请求参数和头信息,并支持将响应结果保存为文件或直接在编辑器中查看。 作为开源项目,Huachao/vscode-restclient 的代码托管在 GitHub,开发者可通过社区贡献持续优化功能,例如新增对 HTTPS 证书验证的支持或改进请求参数的编辑体验。其设计目标是简化 API 测试流程,提升开发者在 VS Code 环境下的工作效率,尤其适合需要频繁调用后端接口的前端开发或全栈工程师使用。
      • vscode-icons/vscode-icons
      • gitkraken/vscode-gitlens
      • hediet/vscode-drawio
      • microsoft/vscode-cpptools - cpptools)是一款专为 C/C++ 开发者设计的智能编程工具,旨在提升代码编辑效率与开发体验。该扩展通过集成微软自研的 C/C++ 语言服务器(基于 clangd 实现),为 VS Code 提供代码导航、智能补全、实时错误检查、调试支持等核心功能。其工作原理基于语言服务器协议(LSP),通过 clangd 解析代码结构,实现跨平台的语法分析、代码理解与功能扩展。开发者可借助该工具快速定位函数定义、跳转到声明位置,并通过上下文感知的代码补全减少输入负担。项目支持多种构建工具,包括 CMake 和 Makefile,可自动识别项目配置并适配不同编译器环境。调试功能通过集成 GDB 或 LLDB 调试器,允许用户在 VS Code 内部进行断点调试与变量监视。此外,该扩展通过 c_cpp_properties.json 配置文件支持自定义编译器路径、包含路径和宏定义,满足复杂项目需求。项目持续由微软团队维护,社区活跃度高,文档齐全且提供示例项目,适用于 Windows、macOS 和 Linux 平台。其核心优势在于对 C/C++ 语言的深度支持,结合 VS Code 的轻量级编辑器特性,成为开发者日常开发的必备工具。
      • nteract/hydrogen
      • wasabeef/richeditor-android
      • preservim/tagbar
      • microsoft/vscode-docs
      • christoomey/vim-tmux-navigator - tmux-navigator,能让你在tmux分屏和vim拆分窗口间无缝切换,通过简单的映射键实现快速跳转,工作原理是检测当前vim窗口和tmux分屏的位置,自动计算目标位置并移动,支持所有vim模式下的操作,无需额外安装,纯vim脚本编写,提升多窗口工作流效率
      • lite-xl/lite-xl
      • OBKoro1/koro1FileHeader
      • folke/lazy.nvim
      • mason-org/mason.nvim
      • wbthomason/packer.nvim - package 启发、专为 Neovim 设计的插件管理工具,其核心目标是简化 Neovim 插件的安装、管理和配置流程。该项目完全采用 Lua 编写,与 Neovim 的原生包管理系统深度整合,能够通过 native package 机制直接管理插件,同时支持通过 Luarocks 安装 Lua 依赖库,为用户提供了更灵活的插件管理能力。其配置方式基于 Lua 表达式语法,允许用户通过简洁的代码块定义插件的加载条件、依赖关系、配置参数等,例如可以设置插件的启用条件(如特定文件类型或模式)、异步安装策略、版本控制等高级功能。这种设计使得配置文件更易读且具备高度可扩展性,用户只需在 init.lua 中定义插件的配置规则,packer 会自动处理插件的安装、更新和卸载。相比传统插件管理工具,该项目通过 Lua 原生语法实现了更直观的配置表达,同时利用 Neovim 的包管理特性减少了对外部工具的依赖,提升了插件管理的效率和稳定性。其核心优势在于将复杂的插件管理逻辑抽象为可配置的 Lua 表达式,使用户能够以最小的代码量完成插件的精细控制,同时支持异步安装、依赖管理、版本锁定等现代开发需求。
      • nvim-tree/nvim-tree.lua - tree是一个为Neovim开发的文件资源管理器插件,采用Lua语言编写,提供直观的树形目录浏览功能。其核心特色在于支持高度自定义的文件树视图,可实时显示文件类型图标、过滤隐藏文件、自动检测符号链接等,同时具备轻量级设计和快速响应性能。插件通过异步加载机制优化资源管理,确保在处理大型文件夹时仍保持流畅操作。用户可通过快捷键(如<leader>e)快速切换文件树视图,支持多窗口模式和跨终端同步。内置的文件操作功能包括创建、重命名、删除、剪切、复制等,配合Telescope插件可实现智能搜索。项目兼容Neovim 0.7+版本,支持Unicode图标显示,提供丰富的配置选项如文件过滤规则、布局模式、自动聚焦等。安装方式支持Packer、vim-plug等包管理器,配置示例包含基础设置和高级功能,如自定义文件图标、快捷键映射、远程文件系统连接等。该插件通过Lua脚本实现与Neovim的深度集成,支持LSP和符号链接解析,可扩展性强且拥有活跃的社区维护。项目文档详细说明了使用方法和API接口,适合需要高效文件管理的开发者。
      • nuttyartist/notes
      • company-mode/company-mode - mode 是 Emacs 的模块化缓冲区内补全框架。它使用后端提供候选词,在光标附近弹出窗口显示补全建议,支持各种编程语言和文本模式。Company-mode 的主要特点包括模块化设计、灵活的后端选择、以及强大的定制能力。它通过 `company-backends` 变量配置后端,并提供多种内置后端,如 `company-dabbrev`、`company-files` 等。用户可以自定义后端以支持特定的语言或文件类型。该框架还支持各种补全源,例如从当前缓冲区、打开的文件、以及外部程序中获取补全建议。Company-mode 旨在提供快速、流畅和可扩展的补全体验,帮助 Emacs 用户更高效地编写代码和文本。它通过在用户输入时动态匹配候选词,并提供智能提示,从而减少输入错误并提高工作效率。
      • toeverything/blocksuite
      • emacs-eaf/emacs-application-framework
  • 终端

    • 网络服务_其他

    • 资源传输下载

      • k4m4/terminals-are-sexy - are-sexy是一个专为命令行爱好者打造的终端工具集合项目,旨在整理和推荐优秀的终端框架、插件及资源。该列表涵盖多种功能强大的CLI工具,包括终端增强框架如Oh My Zsh和Powerlevel10k,主题和配色方案库,快捷键管理工具,以及终端模拟器和多终端管理软件。项目特色在于分类清晰、资源全面且定期更新,所有内容均按实用性与流行度精心筛选。用户可通过简单安装和配置快速提升终端体验,同时项目鼓励社区贡献,持续完善工具列表。适合希望优化命令行操作效率的开发者和系统管理员,提供了一站式解决方案以实现更高效、美观的终端环境。
      • wavetermdev/waveterm
      • mylinuxforwork/dotfiles
      • basecamp/omarchy - wm、sway等基础组件。项目团队建议用户根据自身需求调整模块配置,并通过贡献代码或提交问题反馈参与社区开发。需要注意的是,该项目目前不支持NixOS和Gentoo等其他Linux发行版,且部分功能可能需要用户自行编译依赖库。
      • Byron/dua-cli - cli是一个用于快速查看磁盘空间使用情况并删除无用数据的命令行工具,其核心功能是通过递归扫描目录结构,实时统计文件和文件夹的大小,并以直观的可视化方式展示结果。项目采用Rust语言开发,利用其高效的系统级性能优势,能够比传统工具如`du`或`find`更快地完成大目录的扫描和统计,同时支持通过过滤条件(如时间、大小、文件类型)精准定位冗余文件。用户可通过简单命令如`dua`快速生成磁盘使用报告,报告中包含文件大小排序、占用比例等信息,便于识别大体积无用文件。工具还支持直接删除操作,通过`-d`或`--delete`参数可一键清除临时文件、缓存或过期数据,减少手动操作步骤。其工作原理基于深度优先搜索算法,结合内存缓存机制优化性能,同时通过多线程处理提升大目录扫描效率。项目兼容Linux、macOS和Windows系统,安装后无需依赖额外组件即可运行。此外,dua-cli还提供交互式模式,允许用户通过命令行参数灵活配置扫描范围、过滤规则和输出格式,满足不同场景下的磁盘清理需求。其设计目标是为开发者和系统管理员提供一个高效、轻量且易用的磁盘管理工具,帮助用户在几秒内完成复杂的磁盘空间分析和清理任务。
      • Canop/dysk
      • YerongAI/Office-Tool - 2024 和 Visio/Project。用户可以使用 OTP 下载 Office 安装包、创建 Office 配置文件、激活 Office 产品、管理 Office 更新以及卸载 Office。该工具还允许用户更改 Office 更新通道、清理 Office 许可证和转换 Office 版本。OTP 通过调用 ODT 的命令行参数来实现其功能,并提供更友好的用户界面。项目本身是 Office Tool Plus 的本地化项目,旨在为不同语言的用户提供更好的使用体验。
      • brendangregg/perf-tools - tools项目是基于Linux perf_events (perf) 和 ftrace 的性能分析工具集。它包含各种用于性能分析的脚本和工具,例如用于 CPU 分析、内存分析、磁盘 I/O 分析、网络分析等。这些工具可以帮助你理解系统瓶颈并优化性能。项目特色是利用 perf_events 和 ftrace 提供的低开销数据,进行细粒度的性能剖析。工作原理是通过 perf_events 收集系统事件,并通过 ftrace 跟踪内核函数调用,然后将这些数据进行分析和可视化,从而揭示性能问题。它提供静态探针(static probes)和动态探针(dynamic probes)的支持,可以灵活地追踪各种事件。项目还包含一些示例和教程,帮助用户快速上手使用这些工具。适用于 Linux 系统管理员、性能工程师和开发人员,用于诊断和解决各种性能问题。
      • SuperManito/LinuxMirrors
      • docopt/docopt
      • NodeOS/NodeOS
      • ghostty-org/ghostty
      • bartobri/no-more-secrets
      • bin456789/reinstall
      • adi1090x/polybar-themes - themes 是为 Polybar(常用于 Linux 桌面环境的状态栏)提供大量主题的 GitHub 仓库,内容丰富、样式多变。它把上百个不同风格、颜色与变体的配置文件统统收进来,包括浅色版、深夜模式、以及兼容特定图标或字体的专用方案;每一套都能直接加载到用户自己的 `~/.config/polybar/` 目录下。只需把对应 `.conf` 或 `.json` 文件拷贝进去,再按需要改名或在主配置里加上 `include = "themes/<id>"` 的一句,Polybar 在启动时就会自动识别并应用。 仓库的 README.md 极为简洁,却已说明“这是一个拥有不同风格、颜色与变体的大型 Polybar 主题集合”。其中有一行提示:`ContentFile(path="README.md")`——这表示读者可以直接查看此文件以获取完整使用细节。除此之外,文档里还给出了如何贡献的指引:Fork 本仓库 → 在本地新增或修改主题 → 提交 Pull Request,并在 PR 描述中写清楚改动内容,以便评审快速把握。 从技术原理来看,Polybar 通过解析 `~/.config/polybar/` 下的配置文件来决定栏块、文字样式及颜色。仓库里的每一套主题其实就是一个预先排好配置段落,只要“include”即可在任何 Polybar 设置里使用;如此既能大幅提升自定义状态栏的效率,也让初学者可直接复制粘贴得到专业级外观。 本项目采用 MIT 许可证,用户可以自由地使用、修改与分发。无论你想打造极简或炫彩渐变色调的 Polybar 状态栏,只要在此仓库中挑选对应主题,即能轻松获得所需风格与配色方案。
      • peterbrittain/asciimatics
      • ntdevlabs/tiny11builder
      • mmulet/term.everything
      • shenwei356/rush
      • marlonrichert/zsh-autocomplete - autocomplete 是一个为 Zsh 设计的实时异步自动补全插件,旨在提升命令行输入效率。项目核心功能是实现“边输入边查找”的异步补全机制,用户在输入命令时,系统会自动在后台搜索匹配的补全选项,避免传统同步补全导致的卡顿问题。它基于 Zsh 5.0 及以上版本开发,支持主流终端框架如 Oh My Zsh,并兼容多种 Shell(如 Zsh、Fish、Bash)。 该项目通过异步处理技术优化性能,补全过程不会阻塞当前终端操作,输入时保持流畅响应。其工作原理是利用 Zsh 的原生补全系统,结合自定义的异步任务队列,将补全逻辑拆分为前台输入和后台搜索两个独立流程。用户可自定义补全规则,例如通过编写补全函数或集成外部工具(如 fzf)扩展功能。相比传统插件,它无需依赖额外依赖项,仅需安装 Zsh 5.0 即可运行。 项目特色包括:1. 实时性——输入时即时显示补全建议;2. 异步性——补全任务在后台运行,不影响输入速度;3. 可扩展性——支持自定义补全函数和主题样式;4. 轻量级——无额外依赖,安装简单(通过 Oh My Zsh 安装只需一行命令)。此外,它还兼容主流插件管理框架,如 Zsh 的 autosuggestions 插件,并通过性能优化(如减少进程调用)提升运行效率。用户可通过配置文件或命令行参数灵活调整补全行为,适合需要高效命令行操作的开发者或系统管理员使用。
  • 计算机编程 数据结构与算法

  • 其他

  • 后端开发框架及项目

    • PHP开发

      • opcodesio/log-viewer - viewer是一个专为Laravel框架设计的高性能日志查看工具,提供直观美观的界面和强大的日志管理功能。该项目支持实时查看日志文件,允许用户通过搜索、过滤和分页功能快速定位关键信息,并可自定义日志展示格式与布局。其核心特性包括对多种日志源的兼容性(如单文件、数据库存储等)、支持日志级别筛选、自动加载最新日志以及提供导出功能。采用前端Vue.js与后端Laravel结合的架构,实现动态交互与高效数据处理。通过简单的Composer安装即可集成,无需复杂配置即可运行。项目内置权限控制模块,支持基于角色的访问管理,确保日志安全。同时提供API接口便于与其他系统集成,适用于开发、测试及生产环境的日志监控需求。
      • area17/twill
      • mcamara/laravel-localization
      • php/php-src - GTK 来编写这些程序。用这种方法,还可以编写跨平台的应用程序。PHP-GTK 是 PHP 的一个扩展,在通常发布的 PHP 包中并不包含它。如果对 PHP-GTK 感兴趣,请访问其» 网站以获取更多信息。
      • slimphp/Slim
      • walkor/workerman
      • filp/whoops
      • symfony/symfony
      • spatie/laravel-permission
      • composer/composer
      • guzzle/guzzle
      • DesignPatternsPHP/DesignPatternsPHP
      • PHPMailer/PHPMailer
      • sebastianbergmann/phpunit
      • doctrine/orm
      • bcit-ci/CodeIgniter - 一个工具包 - 适用于使用 PHP 构建网站的人。它的目标是通过为常用任务提供一组丰富的库,以及访问这些库的简单接口和逻辑结构,使你能够比从头开始编写代码更快地开发项目。
      • nikic/PHP-Parser
      • erusev/parsedown
      • barryvdh/laravel-ide-helper
      • roadrunner-server/roadrunner
      • laradock/laradock
      • egulias/EmailValidator
      • phalcon/cphalcon
      • typecho/typecho
      • dompdf/dompdf
      • squizlabs/PHP_CodeSniffer
      • filamentphp/filament
      • serbanghita/Mobile-Detect
      • deployphp/deployer
      • yiisoft/yii2
      • Intervention/image
      • Seldaek/monolog
      • itsgoingd/clockwork
      • phacility/phabricator
      • vimeo/psalm
      • barryvdh/laravel-debugbar
      • YOURLS/YOURLS
      • codeguy/php-the-right-way
      • Laravel-Lang/lang - Lang/lang是一个为Laravel框架及其衍生工具提供多语言支持的开源项目,致力于简化国际化(i18n)配置。该项目包含127种语言的翻译资源,覆盖Laravel Jetstream、Fortify、Breeze、Cashier、 Nova和UI等主流组件,开发者可直接调用这些语言包实现多语言界面。其核心功能是通过统一的翻译文件管理机制,将不同工具的文本内容本地化,同时支持动态语言切换和自定义翻译扩展。安装方式简单,只需通过Composer引入包并配置语言目录即可,项目还提供详细的文档指导如何集成到现有应用中。所有翻译内容均采用YAML格式存储,便于维护和更新,且支持通过GitHub贡献新语言或修正翻译错误。该工具特别适用于需要多语言支持的Web应用开发,能显著减少重复性翻译工作,提升国际化实现效率,兼容Laravel 8及以上版本,是开发者构建全球化应用的理想选择。
      • laravel/tinker
      • mongodb/laravel-mongodb - Mongodb是一个基于MongoDB的Eloquent模型和查询构建器扩展库,允许开发者在Laravel框架中使用MongoDB作为数据库替代MySQL。其核心特色在于无缝集成Laravel的ORM体系,提供与传统Eloquent相似的API接口同时支持MongoDB的文档数据模型。通过定义模型类继承MongoEloquent,开发者可以自动将模型属性映射到MongoDB的集合文档,并利用查询构建器执行复杂查询操作。该库兼容Laravel 5.5及以上版本,支持PHP 7.1.3以上环境,提供迁移工具、聚合管道、缓存和分页等功能。其工作原理基于服务提供者注册,通过配置连接参数初始化MongoDB客户端,模型操作会自动转换为MongoDB的CRUD指令。查询构建器遵循Laravel的语法习惯但适配MongoDB的查询语言,例如使用where方法进行条件筛选时会生成相应的MongoDB查询表达式。项目通过Composer安装后,可快速替代传统数据库实现数据持久化,特别适合需要处理非结构化数据或进行灵活查询的场景。
      • larastan/larastan
      • codeigniter4/CodeIgniter4
      • barryvdh/laravel-dompdf - dompdf是一个为Laravel框架封装的DOMPDF工具包 项目通过Composer安装 提供简单易用的接口将HTML内容转换为PDF文档 支持自定义配置 包括设置DOMPDF版本 指定视图路径和缓存策略 兼容Laravel 5 6 7及Laravel 8 项目特色在于自动处理HTML渲染和PDF生成流程 可通过队列系统异步生成PDF文件 优化资源消耗 支持通过视图文件或字符串直接生成PDF 并提供下载和流式输出功能 同时内置缓存机制提升重复生成效率 项目文档包含详细使用说明和常见问题解答 适合需要在Laravel中集成PDF生成功能的开发者
      • shufo/vscode-blade-formatter - blade-formatter 是一款专为 Laravel Blade 模板文件设计的 VSCode 格式化工具,通过集成 Prettier 核心格式化引擎,为开发者提供统一、规范的代码格式化体验。该项目基于 VSCode 扩展生态开发,支持 Blade 模板语言中常见的 PHP 代码块、HTML 结构、指令标签等语法元素的智能格式化,能够自动调整缩进、修正标签闭合、规范变量语法,同时保留开发者自定义的代码风格偏好。其核心工作原理是通过 VSCode 的语言服务接口,将 Blade 文件内容解析为结构化数据后,调用 Prettier 的格式化规则进行处理,并将结果回写到编辑器中。项目支持通过配置文件自定义格式化规则,例如控制指令标签的缩进层级、PHP 代码块的格式化方式等,同时提供快捷键绑定功能,开发者可通过命令面板或自定义快捷键快速触发格式化操作。该工具特别针对 Blade 模板中常见的 @if/@foreach 等指令、@yield/@section 等布局标签进行了专项优化,确保格式化结果符合 Laravel 项目开发规范。通过 VSCode 扩展商店安装后,开发者无需额外配置即可直接使用,支持与 VSCode 内置的格式化功能无缝衔接,适用于个人开发或团队协作场景下的 Blade 模板统一化管理。
      • SimpleSoftwareIO/simple-qrcode - qrcode是一个基于PHP的二维码生成库,专为Laravel框架设计并提供原生支持。该项目允许开发者快速生成可自定义的二维码图像,支持多种编码格式(如UTF-8)和纠错级别,确保二维码在不同损坏情况下仍能被正确读取。通过简单的API调用,用户可轻松集成二维码功能到应用中,无需复杂配置。库内包含丰富的选项,包括调整大小、颜色、背景、边框等外观参数,还支持添加徽标和文本水印,满足多样化需求。其底层使用GD库或Imagick实现图像生成,兼容性良好,适用于Web开发、数据分享等场景。项目文档清晰,提供代码示例和常见问题解答,便于快速上手。作为轻量级工具,它兼顾灵活性与易用性,适合需要快速生成二维码的开发者或团队。
      • renatomarinho/laravel-page-speed
      • santigarcor/laratrust
      • piotrplenik/clean-code-php - code-php,旨在将Clean Code(整洁代码)的概念应用于PHP开发。它提供了一系列最佳实践和指导原则,帮助开发者编写更易读、易维护和可扩展的PHP代码。该项目受到Robert C. Martin的《Clean Code》一书的启发,并将其核心思想适配于PHP语言的特性。通过遵循项目中的建议,开发者可以改善代码质量,减少bug,并提高团队协作效率。具体内容可能包括函数、类、命名、注释等方面的规范和示例。该项目可以作为PHP开发者学习和实践Clean Code原则的实用资源。
      • jenssegers/agent
      • php/frankenphp
      • aimeos/aimeos-laravel
      • statamic/cms
      • JayBizzle/Crawler-Detect - Detect 是一个轻量级的 PHP 工具类,专门用于通过用户代理(User Agent)识别网络爬虫、机器人或蜘蛛程序。该项目的核心功能是提供简单高效的接口,开发者可通过调用类方法快速判断当前访问请求是否来自爬虫程序,并支持获取爬虫的详细信息(如名称、类型、所属公司等)。其工作原理基于内置的 JSON 格式数据库,该数据库包含大量主流爬虫的用户代理特征数据,开发者可轻松更新或扩展数据文件以适配新出现的爬虫类型。项目采用纯 PHP 实现,无需依赖外部库或框架,兼容 PHP 5.4 及以上版本,可无缝集成到 Laravel、Symfony 等主流 PHP 框架中。其 API 设计简洁直观,例如通过 `isBot()` 方法判断是否为爬虫,`getBot()` 方法获取爬虫信息,`isCrawler()` 方法检测是否为特定类型爬虫。由于数据存储为独立的 JSON 文件,开发者可快速自定义规则或排除误判情况。项目还支持区分搜索引擎爬虫(如 Googlebot)与普通爬虫,帮助开发者更精准地识别流量来源。整体设计注重性能与灵活性,适合需要区分爬虫与真实用户访问的场景,例如防止爬虫滥用资源或实现访问控制策略。
      • alexeymezenin/laravel-best-practices
      • thedevdojo/voyager
      • laravel/lumen - framework for building web applications with expressive, elegant syntax. We believe development must be an enjoyable, creative experience to be truly fulfilling. Lumen attempts to take the pain out of development by easing common tasks used in the majority of web projects, such as routing, database abstraction, queueing, and caching.
      • Open-Web-Analytics/Open-Web-Analytics
      • bmewburn/vscode-intelephense
      • hyperf/hyperf
    • 后端项目_其他

      • thedevdojo/wave
      • ccbikai/Sink
      • dotnet/aspire
      • spec-first/connexion - first(规范优先)和api-first(接口优先)开发设计,帮助开发者通过定义API规范快速构建服务。其核心特点是基于OpenAPI/Swagger规范,允许通过YAML或JSON文件描述API接口,框架会自动解析规范生成路由、参数验证和响应格式。开发者只需关注业务逻辑,无需手动编写繁琐的路由和验证代码。同时支持异步请求处理和多种HTTP方法,兼容Flask和FastAPI等主流框架,提供灵活的扩展性。适用于需要严格API文档的项目,如微服务架构或需要与第三方系统集成的场景。通过规范驱动开发,确保API设计与实现的一致性,提升开发效率和维护性。安装简单,可通过pip快速部署,并提供丰富的示例和文档指导使用。
      • steveiliop56/tinyauth
      • VERT-sh/VERT
      • geerlingguy/ansible-for-devops - for-devops项目提供了一系列Ansible示例,旨在帮助开发者学习和实践DevOps自动化。该项目包含各种playbook、角色和配置,涵盖了常见的DevOps任务,如服务器配置、应用部署和基础设施管理。通过这些示例,用户可以了解如何使用Ansible进行自动化配置管理,提高开发和运维效率。项目特色在于其清晰的结构和易于理解的示例代码,适合初学者和有经验的Ansible用户。它展示了Ansible如何通过YAML文件描述所需的状态,并自动化执行配置任务,从而简化了复杂系统的管理。用户可以根据自己的需求修改和扩展这些示例,快速构建自己的自动化解决方案。该项目是学习Ansible和DevOps实践的宝贵资源。
      • MightyMoud/sidekick
      • mnfst/manifest - code(快速开发)方式帮助开发者在短时间内构建高效、可扩展的后端系统。其核心特色在于模块化架构和高度可配置的API管理,支持多种编程语言如JavaScript、Python和Go,允许开发者根据需求灵活选择技术栈。项目采用声明式配置文件定义数据模型、业务逻辑和接口规范,通过智能解析自动生成对应的后端代码,显著减少重复性开发工作。同时内置实时协作功能,支持多用户同时编辑和调试,提升团队开发效率。Manifest的工作原理基于元数据驱动,开发者只需描述所需的功能和数据结构,框架会自动处理底层实现细节,包括数据库连接、身份验证、缓存机制和日志记录。此外项目提供可视化界面和丰富的API文档生成工具,使非技术人员也能参与后端配置。Manifest适用于需要快速迭代的Web应用和微服务架构,支持云原生部署和本地开发环境,兼容主流数据库系统如PostgreSQL、MongoDB和SQLite。通过自动化测试和监控模块,确保系统稳定性和安全性。该项目强调代码简洁性和可维护性,通过统一的代码规范和模块化设计降低技术债务,同时提供社区支持和扩展插件,方便开发者根据具体需求进行定制。
      • luakit/luakit
      • semaphoreui/semaphore
      • henrygd/beszel
      • golang-jwt/jwt - jwt/jwt 是一个用 Go 语言实现的 JSON Web Tokens (JWT) 库。它支持 JWT 的编码、解码和验证,遵循 RFC 7519 标准。该库提供灵活的 API,允许用户自定义 header 和 payload。它支持多种签名算法,包括 HMAC, RSA, ECDSA 和 EdDSA。你可以使用它来安全地传递声明信息,例如用户认证和授权。该库旨在易于使用和集成到现有的 Go 项目中。它提供了解析 JWT 字符串、验证签名以及提取声明的功能。此外,该库还支持自定义验证逻辑,以满足特定的安全需求。它是一个流行的选择,用于在 Go 应用中实现 JWT 功能。
      • usefathom/fathom
      • teamhanko/hanko
      • litestar-org/litestar
      • coroot/coroot
      • open-telemetry/opentelemetry-go
      • sparckles/Robyn
      • miguelgrinberg/microdot
      • permitio/opal
      • i365dev/agent_forge
      • flipt-io/flipt
      • open-telemetry/opentelemetry-specification
      • antonputra/tutorials
      • open-telemetry/opentelemetry-collector-contrib
      • open-telemetry/opentelemetry-dotnet
      • roapi/roapi
      • open-telemetry/opentelemetry-collector
      • uptrace/uptrace
      • enescingoz/awesome-n8n-templates
      • rtyley/bfg-repo-cleaner - repo-cleaner,它用于删除大型或麻烦的二进制文件,比git-filter-branch更快,并且是用Scala语言编写的,它通过扫描仓库中的大文件并允许用户选择保留哪些文件来工作,支持命令行操作,可以清理整个仓库或特定分支,并且可以导出清理后的仓库,同时保留提交历史记录,非常适合清理大型git仓库。
      • gofr-dev/gofr
      • restify/node-restify
      • bilibili/Index-anisora - anisora** 是一个基于 Python 的开源工具,旨在为 Bilibili 平台的动漫资源提供自动化索引与管理功能,支持从多个来源爬取视频信息并整理为结构化数据。其核心功能包括:通过解析 Bilibili 接口和网页内容,自动获取动漫的标题、封面、播放量、发布时间等元数据,并将数据存储至本地数据库(如 SQLite 或 MySQL),同时支持通过 Web 界面或命令行工具对数据进行查询、分类和导出。项目特色在于其高度可定制性,用户可通过配置文件调整爬取范围、过滤条件及输出格式,且兼容多种视频格式的解析与处理。 工作原理方面,Index-anisora 采用多线程技术提升数据抓取效率,结合正则表达式和 HTML 解析库(如 BeautifulSoup)从网页中提取关键信息,并通过 Bilibili 的开放 API 补充实时数据。对于视频资源,项目支持使用 FFmpeg 工具进行格式转换与质量检测,并提供简单的缓存机制避免重复抓取。此外,其 Web 界面基于 Flask 框架开发,用户可直观查看索引结果并导出为 CSV 或 JSON 文件。 项目还支持扩展性开发,例如通过插件系统接入其他视频平台(如 NicoNico、YouTube),或集成第三方数据库(如 MongoDB)。由于依赖 Python 3.8+ 环境及部分第三方库(如 requests、pymysql),用户需通过 pip 安装依赖后运行。项目文档包含详细的配置说明与常见问题解决方案,适合开发者或动漫爱好者用于构建个人动漫资源库。需要注意的是,该项目需遵守 Bilibili 的服务条款,避免高频请求导致封禁风险。
      • dyrector-io/dyrectorio
      • mitchellkrogza/nginx-ultimate-bad-bot-blocker - ultimate-bad-bot-blocker` 是一套为 Nginx 服务器设计的完整防护系统,专注于“阻止坏机器人、垃圾 Referrer、恶意 User‑Agent”以及多种常见网络威胁。它把各类安全功能集中在几份配置文件与辅助脚本里,使得安装和维护极为简便。 ### 核心特性 1. Bad Bot / Spam Referrer Blocker 通过正则表达式匹配访问路径、User‑Agent 与 Referer,立即返回 `403` 或自定义的错误页面。配置文件里已嵌入大量公开列表(如 Sucuri, Cloudflare, Googlebot 等),可自行补充。 2. Vulnerability Scanners / Malware 检测 对常见扫描工具(WPScan、Shodan、Wpscan.io 等)以及已知的恶意脚本做匹配。若发现扫描尝试,则立即封锁并记录到 Fail2Ban 事件日志中。 3. Adware / Ransomware & Malicious Sites 利用已汇总的恶意域名与 IP(如 Phishtank、Spamhaus 等),直接拒绝来自这些源头的请求,阻断常见的广告植入与勒索软件分发途径。 4. Anti‑DDOS 采用基于时间窗口和请求数限制的简单 DDoS 抵御方式:若某 IP 在 `60s` 内超过设定阈值,即被自动封锁。可以通过配置文件轻易调节。 5. WordPress Theme Detector Blocking 检测 WordPress 主题相关请求(如 `/wp-content/themes/…`)并根据已知的可疑主题做拦截,防止潜在的安全漏洞被利用。 6. Fail2Ban Jail for Repeat Offenders 所有检测到的违规行为都会写入 Fail2Ban 的事件表。若同一 IP 在 `5分钟` 内出现超过设定次数,则进入 Fail2Ban “jail”,此时 Nginx 将返回 444(Nginx 自己特有的“无响应”状态码),进一步阻止攻击。 ### 工作原理 - 正则匹配:所有威胁检测均以 `if ($http_user_agent ~ ... ) { return 403; }` 或 `return 404` 的方式实现,保证 Nginx 在处理阶段即完成判断与拒绝。 - 动态列表:通过脚本(如 `update-blocks.sh`)从公开源下载最新的恶意 IP/域名,并将其写入对应配置文件。运行 `cron` 定时更新,可保持防护始终有效。 - Fail2Ban 集成:在 Nginx 配置中使用 `fail2ban-nginx.conf` 让 Fail2Ban 直接读取 Nginx 的访问日志,统一管理违规 IP。 ### 安装与使用 1. 下载 README 所示的所有配置文件(如 `bad-bots.conf`, `spam-referrer.conf`, `vuln-scanners.conf`, `wordpress-theme-detector.conf` 等)。 2. 在主 Nginx 配置里通过 `include` 指令把这些文件加入对应 server 或 location 块。 3. 复制 README 中的 `update-blocks.sh` 脚脚本,放在服务器上并设置 cron(如每小时更新一次)即可自动拉取最新恶意列表。 4. 若已部署 Fail2Ban,只需确保 Nginx 的日志路径与 Fail2Ban 配置一致,即可享受自动封锁功能。 ### 适用场景 - 企业站点、博客平台:阻止常见爬虫及扫描工具,降低被植入恶意代码的风险。 - WordPress/Drupal 等 CMS 环境:通过主题检测与漏洞扫描,让站点更安全。 - 高访问量网站:DDoS 预防与 Fail2Ban 的重复封锁,可有效减少无效请求,提升正常流量处理能力。 ### 小贴士 - 若 Nginx 在不同虚拟主机上使用同一配置文件,只需在 `include` 前加路径即可。 - 如需要自定义某些 User‑Agent 规则,可直接在对应 `*.conf` 文件尾部添加即可;脚本更新时不会覆盖自定义行。 - 若对 Fail2Ban 还不熟悉,官方文档里有完整的安装与事件表配置示例,建议先按官方流程完成后再引入本项目。 > 结语:`nginx‑ultimate-bad-bot-blocker` 把多维度威胁防护合并为 Nginx 服务器提供一站式解决方案。其正则匹配、动态更新与 Fail2Ban 的“复犯封锁”机制,让你在几行配置下即可拥有强大而又不易出错的安全屏障,极大降低被攻击或植入恶意代码的风险。
      • hunvreus/devpush
      • OpenHFT/Chronicle-Queue - Queue 是一个高性能的持久化消息队列系统,专为需要微秒级延迟和高吞吐量的场景设计。它通过将所有数据直接存储到磁盘,同时保持极低的延迟(微秒级别),解决了传统消息队列在高并发或长时间运行时可能出现的性能瓶颈。其核心工作原理基于直接内存操作和无锁架构,通过绕过操作系统缓存和中间层,实现数据的顺序读写和高效存储。项目支持多种编程语言(如 Java、C++、C# 等),并提供灵活的 API 接口,适用于金融交易、实时数据处理等对性能要求极高的领域。Chronicle-Queue 的独特之处在于其“持久化+低延迟”的平衡设计,所有消息在存储时无需额外复制,直接写入磁盘文件,既保证数据可靠性,又避免内存压力。此外,其支持多线程并发操作和高效的序列化机制,可处理 PB 级数据流,且对硬件资源占用极低。开发者可通过简单配置实现消息的顺序保证、回放功能和跨平台通信,特别适合需要长期存储和实时处理的场景。由于其无锁设计和轻量级结构,Chronicle-Queue 在高并发环境下仍能保持稳定性能,成为分布式系统和实时应用中的关键组件。
      • alibaba/tengine
      • TwiN/gatus
      • rybbit-io/rybbit
      • openstatusHQ/openstatus
      • typelevel/cats-effect - Effect是Scala的纯异步运行时库,专注于声明式异步编程,提供高阶抽象,简化异步代码,支持类型安全,基于cats-effect和monix等库,通过效果系统管理副作用,特色是类型级别的事件流处理,工作原理是使用cats-effect的Effect类型描述计算,通过纯函数方式组合异步操作,提高代码可维护性和可测试性,适用于构建高并发高可用系统,支持多种异步源和背压管理
      • zabbix/zabbix
      • igrigorik/ga-beacon - beacon项目是一个Google Analytics收集器即服务,它利用GA的测量协议来收集数据。该项目允许你通过发送HTTP请求将数据直接发送到Google Analytics,而无需在你的网站或应用中嵌入JavaScript代码。它简化了数据收集过程,特别适用于非Web环境或需要更精细控制数据发送的场景。你可以自定义发送的数据,例如事件、页面浏览量等。该项目旨在提供一个轻量级、易于使用的替代方案,用于将数据导入Google Analytics。其核心优势在于简化了数据收集流程,并提供了更灵活的数据控制选项。使用GA测量协议意味着你需要了解协议的规范,并确保发送的数据格式正确。该项目可能需要一些配置才能与你的Google Analytics账户正确关联。总而言之,ga-beacon提供了一种便捷的方式,让你在各种环境中都能轻松地将数据发送到Google Analytics进行分析。
      • amberframework/amber
      • Artemmkin/infrastructure-as-code-tutorial
      • deepseek-ai/profile-data - ai/profile-data项目旨在分析V3/R1版本中的计算与通信重叠情况。该项目可能提供工具或脚本,用于收集和分析程序运行时的性能数据,特别是关注计算任务和数据传输是否能够并行执行,从而优化整体性能。通过分析profile数据,开发者可以识别计算和通信之间的瓶颈,并采取措施提高效率。项目可能包含数据收集方法、分析工具和可视化结果,帮助用户深入了解程序在V3/R1环境下的性能表现。其核心目标是提升计算和通信的并行度,最终改善程序的运行速度和资源利用率。该项目对于需要在V3/R1平台上进行高性能计算的开发者来说,具有一定的参考价值。
      • firebase/quickstart-android - App Messaging(应用内消息传递)和 ML Kit(机器学习套件)等Firebase核心功能。通过这些示例,开发者可以学习如何在Android应用中集成Firebase服务,例如使用邮箱密码、Google账号或社交媒体账号进行用户身份验证;存储和同步结构化数据;上传和下载文件;创建和部署云函数;发送推送通知;动态配置应用行为;创建智能链接;以及集成广告和机器学习功能。项目结构清晰,代码简洁易懂,是学习Firebase Android开发的理想资源。
      • OneUptime/oneuptime
      • line/armeria
      • unkeyed/unkey
      • google/perfetto
      • zalando/restful-api-guidelines - api-guidelines项目是一套全面的RESTful API和事件设计规范,旨在通过统一标准提升API的可维护性和一致性。项目核心包括资源命名采用复数形式、版本控制通过URL路径实现、状态码严格遵循HTTP语义、分页参数使用page和per_page、错误响应包含详细结构和超媒体链接。特色模块涵盖安全措施如认证机制和速率限制、事件设计强调JSON格式与消息队列解耦、超媒体链接增强资源发现能力。工作原理基于模块化架构,通过定义资源、行为、状态码等规范,结合事件驱动设计原则,确保API与事件系统交互时的可靠性与扩展性,同时提供过滤参数标准化、请求限速等实用设计模式,适用于需构建高可用、易扩展的微服务架构场景。
      • ipkn/crow
      • akkadotnet/akka.net
      • Netflix/maestro
      • actions/checkout - depth` 参数控制克隆深度以优化性能。作为 GitHub 官方推荐的标准化工具,其设计注重简洁性与实用性,是构建 CI/CD 流程中不可或缺的组件。
      • CrowCpp/Crow
      • mountain-loop/yaak - loop 开发,支持 REST、GraphQL、WebSockets、Server Sent Events(SSE)和 gRPC 等主流 API 类型,覆盖了现代 Web 开发中常见的通信需求。通过图形化操作面板,用户无需编写代码即可直接构造请求参数、发送请求并实时查看响应结果,显著提升了调试效率。工具的工作原理基于模块化设计,每个 API 请求可独立配置请求方法(GET/POST/PUT/DELETE)、URL 路径、请求头、请求体及参数,支持自动解析 JSON/XML 等数据格式。对于 WebSocket,yaak 提供了连接管理、消息发送和实时消息监听功能;针对 Server Sent Events,用户可订阅事件流并设置回调处理逻辑。此外,gRPC 支持通过 Protobuf 定义接口,自动生成客户端代码并可视化调用过程。项目特别强调用户体验,采用拖拽式界面布局和智能参数提示,降低学习成本。所有请求历史记录可保存为工作流,支持一键重放和参数对比,便于测试不同场景下的接口表现。开发者还可通过插件扩展功能,集成认证机制(如 OAuth2)、环境变量管理及响应数据验证等高级特性。yaak 的跨平台特性使其可在 Windows、macOS 和 Linux 系统上运行,配合轻量级架构设计,确保低资源占用和快速启动。该项目持续更新维护,社区活跃度高,是 API 开发者提升工作效率的实用工具。
      • microsoft/FASTER
      • NLog/NLog
      • techschool/simplebank
      • Permify/permify
      • robfig/cron
      • vercel/serve
      • reactiveui/refit
      • the-benchmarker/web-frameworks - benchmarker/web-frameworks 是一个开源项目,旨在通过系统化基准测试比较主流 Web 框架的性能表现。该项目通过自动化脚本对多种 Web 框架(如 FastAPI、Express、Django、Spring Boot 等)进行压力测试,重点评估其在高并发场景下的响应速度、吞吐量和资源占用情况。测试环境采用统一的硬件配置和负载模型,确保结果的公平性与可比性。项目核心工作原理包括:1)构建标准化测试用例(如 API 调用、数据库操作等);2)通过工具(如 wrk、Locust)模拟数千并发请求;3)记录并分析框架的响应时间、错误率、内存占用等关键指标。测试结果以可视化图表和排行榜形式呈现,帮助开发者直观了解各框架的性能差异。项目特别关注框架在不同场景下的表现,例如静态资源处理、动态数据处理和数据库交互。此外,项目支持多语言框架测试(如 Python、Java、Node.js),并提供详细的测试报告模板。开发者可通过贡献代码或提交测试用例参与项目,所有数据均公开透明。该项目的最终目标是为 Web 开发者提供权威的性能参考,帮助其根据实际需求选择最优框架,同时推动各框架团队优化性能表现。
    • 管理面板

    • JAVA开发

      • Graylog2/graylog2-server
      • vector4wang/spring-boot-quick
      • macrozheng/springcloud-learning
      • ityouknow/spring-cloud-examples
      • DerekYRC/mini-spring - spring是一个高度简化的Spring框架教学项目,旨在通过极简代码帮助开发者快速理解Spring框架的核心原理。该项目剥离了Spring框架的复杂实现,保留了IoC容器、AOP代理、资源加载、事件监听、类型转换等核心功能模块,通过精简代码实现与原框架相同的设计模式和运行机制。其核心工作原理基于简化版的BeanFactory实现,通过XML配置加载Bean定义,利用反射机制完成依赖注入,同时通过动态代理实现方法拦截,完整展现了Spring的AOP实现逻辑。项目特别设计了容器扩展点机制,允许开发者通过自定义PostProcessor实现Bean的生命周期管理,完整保留了单例、原型等作用域控制能力。通过模块化设计,开发者可以清晰看到资源加载器如何解析配置文件,事件监听器如何实现松耦合通信,以及类型转换器如何处理属性值转换等关键流程。该项目通过去除Spring框架的分布式、安全等非核心模块,将核心代码量压缩至原框架的1/10,使学习者能够聚焦于容器管理、Bean生命周期、AOP代理等核心机制,特别适合需要掌握Spring源码实现原理的学习者。
      • oshi/oshi
      • pig-mesh/pig
      • whx123/JavaHome
      • rundeck/rundeck
      • dromara/lamp-cloud - cloud 是一个基于 SpringCloud 和 SpringBoot 构建的微服务平台,支持 JDK 21、17、11 和 8。它专注于多租户 SaaS 架构解决方案,但也可作为非 SaaS 项目的基础。该平台具有即插即用的数据库隔离、SCHEMA 隔离和字段隔离功能,用于管理租户数据隔离。这些机制通过在不同级别隔离资源来确保数据隐私和安全。其模块化设计允许开发人员轻松集成或自定义特定于租户的配置。Lamp-cloud 非常适合创建可扩展、可维护的系统,以满足 SaaS 或传统企业的需求。该项目注重效率和灵活性,使其适用于复杂和简单的应用程序。它提供了一个强大的框架来处理多租户场景,而无需进行大量的代码更改。开发人员可以利用预构建的组件来加速开发和部署流程。隔离功能旨在适应各种业务需求。Lamp-cloud 通过其结构化方法简化了租户管理的实施。它定位为现代企业软件开发的全面解决方案。
      • spring-cloud/spring-cloud-gateway
      • allure-framework/allure2
      • jetlinks/jetlinks-community
  • 图像风格

    • 资源传输下载

      • pix2pixzero/pix2pix-zero - zero是一个零样本图像到图像转换项目,基于SIGGRAPH 2023论文。它无需训练即可实现图像风格迁移,核心思想是通过寻找源图像和目标图像之间的共同信息来实现转换。项目特色在于其零样本能力,即不需要任何预训练或微调即可应用于新的图像对。它通过自监督的方式学习图像的内在表示,并利用注意力机制来对齐源图像和目标图像的特征。该项目提供代码和预训练模型,方便用户进行实验和应用。pix2pix-zero适用于各种图像编辑任务,例如风格迁移、图像修复和图像着色等。其工作原理涉及特征对齐、注意力机制和图像重建等关键技术。项目目标是提供一种更灵活、更通用的图像转换方法。
      • showlab/OmniConsistency - Agnostic Consistency from Paired Stylization Data》的实现,专注于解决传统风格化方法中风格与内容特征不一致的问题。其创新点在于利用成对的风格化数据(即同一内容图像对应不同风格的输出),通过对比学习策略训练模型提取跨风格的一致性特征,从而在保持风格多样性的同时,确保内容语义的稳定性。项目采用自监督学习框架,无需人工标注数据,通过构建一致性损失函数,使模型在不同风格间保持内容特征的对齐,例如在将照片转换为油画或素描时,保留原始场景的结构信息。 技术实现上,OmniConsistency基于PyTorch构建,包含预训练模型和可复现的训练流程。核心模块包括风格化数据对的生成器、特征提取网络(如ResNet或ViT)以及一致性约束模块。训练过程中,模型会同时处理风格化图像和原始图像,通过对比学习使风格化输出与原始内容在特征空间中保持一致。项目还提供了多种评估指标,如内容-风格相似度、跨风格一致性得分等,用于验证模型效果。其应用场景涵盖艺术创作、图像生成、跨域风格迁移等,尤其适合需要高保真内容特征的场景。此外,项目代码结构清晰,支持自定义风格化数据集,方便研究人员扩展和优化模型性能。
    • 网络服务_其他

  • Flutter程序

    • 资源传输下载

      • niuhuan/jasmine
      • Notsfsssf/pixez-flutter - flutter 是一个用 Flutter 编写的第三方 Pixiv 客户端,旨在提供免代理直连 Pixiv 的能力。它允许用户直接浏览和下载 Pixiv 上的插画作品,无需 VPN 或其他代理工具。该项目支持查看静态图片和动图(GIF/Ugoira),提供更全面的 Pixiv 内容浏览体验。其主要特色包括免代理直连、动图支持、以及基于 Flutter 的跨平台特性。项目使用 Pixiv API,并可能采用一些技术手段绕过网络限制,实现直连访问。用户可以通过该应用方便地搜索、浏览和收藏 Pixiv 上的作品。请注意使用该项目时需遵守 Pixiv 的服务条款。该项目仍在积极开发中,可能会有bug。
  • Rust程序设计

    • 资源传输下载

      • jbiaojerry/ebook-treasure-chest
      • jankapunkt/latexcv
      • QMHTMY/RustBook
      • spyglass-search/spyglass
      • gpuweb/gpuweb
      • mswnlz/edu-knowlege - knowlege是一个专注于教育领域的知识资源聚合项目,旨在为学习者和教育工作者提供从幼儿园到高中阶段的全面学习资料,涵盖学而思、万维、猿辅导等多个知名教育机构的内容。项目特色在于分类清晰,按学科和年级进行系统整理,便于用户快速定位所需资源;同时支持多平台访问,确保资料的便捷性和可获取性。工作原理基于开源技术构建,通过爬虫抓取合法公开的课程资料,并结合用户反馈持续优化内容质量。所有资料均以结构化格式存储,包含课程大纲、练习题库、教学视频等,部分资源提供离线下载功能以适应不同学习场景。项目团队定期更新内容,确保覆盖最新教育动态和课程体系,同时注重版权合规,仅收录可自由使用的公开内容。用户可通过简单的搜索或标签筛选功能,高效获取所需学习材料,满足个性化学习需求。此外,项目还提供学习计划制定工具,帮助用户根据自身进度安排学习任务。无论是备考学生还是教育从业者,都能从中获得有价值的教学辅助资源。项目持续吸引贡献者加入,不断扩展资料范围和功能模块,致力于打造一个开放、共享的教育知识库。
      • yujiangshui/A-Programmers-Guide-to-English - Programmers-Guide-to-English”,是为程序员量身定制的英语学习指南。当前版本为v1.2。该项目旨在帮助程序员提高英语水平,可能包含词汇、语法、阅读、写作等方面的学习资源。具体内容请参考README.md文件。在线版本可以通过提供的链接访问。
      • chef/bento
      • bosswnx/huiwenmincho-improved
      • swyxio/spark-joy
      • nix-community/home-manager
      • yuk7/ArchWSL
      • Kyome22/RunCat_for_windows
      • SurviveSJTU/SurviveSJTUManual
      • YaLTeR/niri
      • bgreenwell/doxx
      • subframe7536/maple-font - Font图标,可显著提升代码编辑和终端操作的视觉体验。该字体通过优化中英文字符宽度比例(2:1)实现更自然的排版,既保持了等宽字体的对齐优势,又兼顾了阅读舒适度。开发者可利用其细粒度的自定义选项调整字重、字宽、字符间距等参数,满足不同场景的个性化需求。字体支持多种操作系统包括Windows、macOS和Linux,可通过常规字体安装方式或特殊工具(如Nerd Fonts)进行部署。其圆角设计减少了传统等宽字体的生硬感,连字功能则能增强代码片段的连贯性,而Nerd-Font图标可与终端工具和IDE插件无缝兼容,提供丰富的符号支持。项目采用开源协议,鼓励社区贡献和改进,适用于需要专业字体的开发者、设计人员及技术爱好者。通过简洁的线条和现代感设计,Maple Mono在保持技术场景实用性的同时,也兼顾了美观性,成为替代传统等宽字体的理想选择。
      • rust-windowing/winit
      • medialab/xan
      • Gar-b-age/CookLikeHOC - 加工标准-出餐规范"三级体系,并提供供应链管理模块,涵盖食材供应商信息、物流时效、仓储条件等商业机密级数据(基于公开报告整理)。所有内容均以非官方角度进行归纳编辑,既保留了老乡鸡菜品研发的核心技术细节,又通过技术文档形式实现知识共享,适合烹饪爱好者、餐饮从业者及供应链研究者参考使用。项目内容通过GitHub开源,用户可直接访问仓库获取完整文档与结构化数据。
      • rainxchzed/Github-Store - Store是一个免费开源的GitHub应用商店,采用Kotlin和Compose Multiplatform技术栈开发,支持Android及Linux、MacOS、Windows三大桌面平台。该项目通过集成GitHub发布功能,允许用户直接在应用商店中浏览、发现和一键安装GitHub上的开源应用,实现跨平台的应用分发体验。其核心工作原理基于Compose Multiplatform框架的跨平台能力,将Android与桌面端的UI组件统一设计,通过GitHub API接口获取应用信息并实现安装流程。项目特色包括:1)全平台覆盖,支持移动端与主流桌面系统;2)简化安装流程,通过GitHub Releases实现一键安装;3)开源架构,采用Kotlin语言和现代开发框架;4)模块化设计,便于二次开发和功能扩展。开发者可通过项目仓库获取完整代码,同时支持通过GitHub API集成更多应用资源。由于采用开源模式,用户可自由获取源码并根据需求进行功能定制,项目持续更新维护,为开发者提供了一个便捷的GitHub应用分发解决方案。
      • IgorMundstein/WinMemoryCleaner
  • 计算机编程_数据结构与算法

    • 资源传输下载

      • zigtools/zls
      • AlexanderZhou01/China-software-copyright - software-copyright提供中国软件著作权申请的模板文档,旨在帮助开发者更便捷地准备申请材料。项目包含各种申请所需的文档模板,例如源代码、设计文档等,并可能提供填写示例和注意事项。用户可以下载这些模板,根据自身软件的实际情况进行修改和完善,以符合中国软件著作权申请的要求。项目可能涵盖了申请流程的简要说明,帮助用户了解申请的大致步骤。该项目降低了软件著作权申请的门槛,简化了申请流程,节省了开发者的时间和精力。使用者需要仔细阅读模板中的说明,并确保填写的信息真实准确,以提高申请成功率。此项目主要提供文档模板,不提供法律咨询服务。
      • ravibpatel/AutoUpdater.NET
      • NixOS/nix.dev
      • DeterminateSystems/nix-installer
      • dustinlyons/nixos-config
      • zig-gamedev/zig-gamedev - gamedev是一个用于Zig语言游戏开发的库和示例应用集合仓库。它旨在为Zig游戏开发者提供必要的工具和资源。该项目可能包含图形渲染、音频处理、输入处理、物理模拟等模块,方便开发者构建游戏。具体功能和模块取决于项目维护者的开发进度。用户可以期待找到使用Zig语言进行游戏开发的实用示例和库。该仓库是Zig游戏开发社区协作和分享成果的平台。开发者可以通过贡献代码、提交issue或参与讨论来参与项目。请查看仓库中的具体文档和示例以了解更多详细信息。
      • ryan4yin/nixos-and-flakes-book - and-flakes-book是一个NixOS和Flakes的详细教程,旨在为初学者提供友好的学习资源。如果你想深入了解NixOS和Flakes,并寻找一份易于理解的入门指南,那么这个项目非常适合你。它可能包含NixOS和Flakes的各种概念、用法和实践案例,帮助你快速上手并掌握相关技能。通过学习本项目,你可以系统地学习NixOS和Flakes,并将其应用到实际项目中。
      • hackclub/putting-the-you-in-cpu
      • ansible/ansible-examples
      • ryanburgess/engineer-manager
      • khangich/machine-learning-interview - learning-interview,汇集了来自FAANG(Facebook, Amazon, Apple, Netflix, Google)、Snapchat和LinkedIn等公司的机器学习面试题。项目作者分享了自己成功拿到Snapchat、Coupang、Stitchfix等公司offer的经验。内容可能涵盖机器学习工程师面试的常见问题、解题思路以及相关知识点。项目旨在帮助求职者准备机器学习相关的面试,提升面试技巧和知识储备。作者的博客mlengineer.io也提供了更多相关资源。该项目可以作为机器学习工程师求职面试的参考资料,了解不同公司的面试风格和考察重点。
      • deepseek-ai/DeepGEMM
      • cytoscape/cytoscape.js
      • arrow-kt/arrow
      • cachix/devenv
      • the-akira/Computer-Science-Resources - akira/Computer-Science-Resources是一个计算机科学资源列表,涵盖了不同的CS领域。它旨在为学习者提供各种有用的学习材料。具体领域包括但不限于编程、算法、数据结构、操作系统、计算机网络等。该项目可能包含书籍、课程、论文、工具和网站等资源链接。用户可以通过浏览README文件来找到感兴趣的CS领域资源。该项目的目标是方便学习者查找和利用计算机科学领域的各种学习资源。该项目可能由社区维护,并接受贡献。
      • ProductHired/open-product-management - product-management 是一个精选的面向技术人员的产品管理建议列表。它旨在帮助技术人员更好地理解和实践产品管理。该项目收集了各种资源,包括文章、书籍、工具和模板,涵盖了产品管理的各个方面,例如市场调研、产品战略、需求分析、产品设计、项目管理和发布策略等。该项目特别关注技术背景人员在产品管理中可能遇到的挑战和机遇,并提供相应的指导。其目标是帮助技术人员转型为优秀的产品经理,或者在与产品经理合作时更加高效。该项目的内容组织清晰,易于浏览和查找,方便用户快速获取所需的信息。它是一个持续更新的资源库,欢迎社区贡献和反馈。该项目可以帮助技术人员了解产品管理的最佳实践,提升产品意识和技能,从而更好地参与产品开发和决策过程。
      • dotnet/csharplang
      • erlang/otp
      • cisco/ChezScheme
      • nix-community/awesome-nix
      • flox/flox
      • Misterio77/nix-starter-configs - starter-configs项目提供简单且文档完善的配置模板,旨在帮助用户快速上手 NixOS + home-manager + flakes。它包含了所有必需的样板代码,省去了繁琐的配置过程。项目特色在于其易用性和详尽的文档,方便用户理解和定制。用户可以基于这些模板快速搭建自己的 NixOS 环境,并使用 home-manager 管理用户配置。 flakes 的使用使得配置更加模块化和可复现。该项目简化了 NixOS 的入门门槛,让更多用户能够体验 Nix 的强大功能。它提供了一个良好的起点,用户可以根据自身需求进行扩展和修改。总而言之,这是一个为 NixOS 新手量身定制的实用工具,提供了开箱即用的配置方案。
      • bregman-arie/devops-exercises
      • adambard/learnxinyminutes-docs - docs,其特色是完全以代码形式编写的文档,提供了一种独特的编程语言学习方法。它采用一种简单的格式,每种语言的文档都存储在以该语言命名的单独文件中。其结构遵循一致的模式,易于阅读和理解。内容简洁易懂,适合初学者,能够快速提供重要信息。通过将文档视为代码,该项目鼓励交互式学习和实验。用户可以在线访问文档,或从 GitHub 克隆代码库。该项目支持多种编程语言,每种语言都有其专属文件。其目标是让学习新语言变得更容易、更具吸引力。文件通常以 Markdown 格式编写,确保清晰简洁。这种方法允许学习者同时查看代码和文档,从而加深理解。该项目是开源的,欢迎社区贡献。它为希望了解新语言基础知识的开发人员提供了快速参考。其设计理念优先考虑极简主义和实用性,专注于核心概念,避免不必要的细节。
      • systemdesign42/system-design
      • The-Pocket/PocketFlow-Tutorial-Codebase-Knowledge
      • SharingSource/LogicStack-LeetCode
      • ponylang/ponyc - secure),专注于**高性能**和**内存安全**。它的核心设计理念是通过 Actor 模型实现并发编程,避免数据竞争问题,同时利用能力安全机制确保程序的权限控制,防止未授权的资源访问。Pony 的独特之处在于其无需垃圾回收(garbage-free)的设计,通过栈分配和手动内存管理优化性能,同时结合高效的垃圾回收机制,确保内存使用安全且无碎片化。该语言适用于需要高吞吐量和低延迟的场景,如实时系统、分布式应用和高并发服务。 Pony 的 Actor 模型允许每个对象(Actor)独立处理消息,通过异步通信实现并行执行,避免传统多线程编程中的锁和同步开销。能力安全模型通过将权限绑定到对象,限制对象对资源的访问,从而防止常见的安全漏洞,如越权访问或内存泄漏。Pony 的内存安全特性通过编译时检查和运行时监控实现,确保所有内存操作合法,无需依赖运行时垃圾回收机制,从而降低延迟并提高性能。 Pony 的高性能得益于其底层优化,例如使用栈分配减少内存分配开销,并通过高效的垃圾回收算法(如分代回收)减少暂停时间。此外,Pony 支持与 C/C++ 的互操作性,允许开发者调用外部库,同时提供丰富的标准库支持。该项目适用于开发高可靠性的系统,如网络服务器、实时数据处理或嵌入式系统,尤其适合对性能和安全性要求较高的场景。 Pony 的编译器(ponyc)支持跨平台编译,生成高效可执行文件,同时提供详细的文档和社区支持。开发者可通过 GitHub 获取源码并参与贡献,进一步完善语言功能和工具链。总之,Pony 通过结合 Actor 模型、能力安全和高性能设计,为现代软件开发提供了一种安全、高效且易于扩展的解决方案。
      • liyupi/mianshiya
      • ycm-core/ycmd - 服务器架构,与编辑器(如Vim和Emacs)协同工作,提供快速、精确的代码补全、诊断和跳转功能。ycmd利用libclang进行C系列语言的处理,并支持多种其他语言,包括Python、JavaScript、TypeScript、Java、Go、C#和Rust,通过不同的补全引擎实现。它支持语义补全,这意味着它理解代码的含义,而不仅仅是基于文本匹配。ycmd通过HTTP与编辑器通信,允许编辑器异步请求补全结果,避免阻塞UI。该项目旨在提供一个高性能、可扩展且易于集成的代码智能解决方案。ycmd的设计目标是提供超越传统基于标签的补全方式,提供更智能和上下文感知的代码辅助功能。它是一个活跃维护的项目,拥有广泛的用户社区和贡献者。
      • leanprover/lean4
      • The-Cool-Coders/Project-Ideas-And-Resources - Cool-Coders/Project-Ideas-And-Resources是一个应用创意集合,旨在帮助开发者提升编程技能。它提供了一系列项目想法,涵盖不同难度级别,适合初学者和有经验的开发者。项目特色在于激发创造力,鼓励实践,并提供相关资源。通过构建这些项目,开发者可以学习新的编程语言、框架和技术。项目内容包括各种类型的应用程序,例如Web应用、移动应用、游戏和工具。该项目鼓励开发者积极参与,贡献自己的想法和资源,共同构建一个丰富的学习平台。它是一个开源项目,欢迎开发者提交pull request,分享经验和知识。总之,这是一个学习编程和提升技能的绝佳资源库,提供了大量的实践机会和灵感。
      • cat-milk/Anime-Girls-Holding-Programming-Books - Girls-Holding-Programming-Books项目包含动漫风格的女孩手持编程书籍的图片,贡献指南要求图片不能包含成人内容、与加密货币相关的内容,文件名需描述性且格式简单,所有角色必须呈现为女性。
      • ccfddl/ccf-deadlines - deadlines项目是一个协作追踪中国计算机学会(CCF)推荐会议截止日期的项目。它提供了多种访问方式:网站、Python命令行工具和微信小程序。项目旨在方便研究者及时了解重要会议的投稿截止日期。用户可以通过这些工具快速查找和筛选CCF推荐会议的截止日期信息。如果你觉得这个项目有用,请给它点个赞(star)。该项目通过协作维护,力求提供准确和及时的会议信息。它利用多种技术手段,满足不同用户的使用习惯。无论是习惯使用网页、命令行还是微信,都能方便地获取所需信息。项目持续更新,以确保信息的有效性。
      • rendercv/rendercv
      • icedland/iced
      • netwide-assembler/nasm - O、Win32等多种目标文件格式,适用于开发底层系统程序、嵌入式应用或学习x86架构原理。其核心功能是将人类可读的汇编代码转换为机器码,通过解析指令集、处理符号引用和内存地址,最终输出可链接的目标文件。NASM支持宏指令和预处理功能,允许开发者通过宏定义简化重复代码,同时提供详细的错误提示和调试信息。项目采用开源模式,代码可在GitHub上自由获取和修改,社区持续维护更新。由于其语法与Intel官方汇编器高度兼容,NASM成为学习x86汇编编程的首选工具之一,尤其适合需要直接操作硬件或开发高性能计算模块的场景。用户可通过命令行直接调用,支持多种选项控制输出格式和优化参数,配合链接器(如ld或gcc)可生成最终可执行文件。NASM的跨平台特性使其能够适配不同操作系统环境,同时保持对x86架构指令集的完整支持,是开发操作系统内核、驱动程序或逆向工程的重要工具。
      • BBuf/how-to-optim-algorithm-in-cuda - to-optim-algorithm-in-cuda旨在教授如何通过CUDA技术优化算法性能,重点聚焦于并行计算与硬件特性结合的实践方法。项目通过分步骤的教程和示例代码,向开发者展示如何利用GPU的并行计算能力提升算法效率,核心内容包括内存管理优化、线程块设计、数据并行化策略以及CUDA内核(kernel)性能调优技巧。项目特色在于结合具体算法案例(如矩阵运算、图像处理、数值计算等)讲解优化原理,例如通过共享内存减少全局内存访问延迟、利用线程协作降低数据冗余、采用内存对齐和合并访问提升带宽利用率。同时强调硬件特性与算法设计的匹配,如根据GPU架构选择合适的线程块尺寸(block size)、避免资源冲突(如寄存器占用过载)、利用CUDA的异步特性实现流水线计算。项目还提供性能分析工具(如nvprof)的使用指南,帮助开发者量化优化效果。工作原理上,项目通过对比原始串行算法与优化后的CUDA版本,直观体现并行化带来的性能提升(如计算速度提升数百倍)。此外,教程涵盖常见陷阱规避(如内存银行冲突、线程发散)和最佳实践(如合理划分计算任务、利用GPU内存层次结构),适合有一定CUDA基础的开发者深入学习算法优化技巧。项目最终目标是帮助开发者系统掌握CUDA性能调优方法论,从而在实际应用中实现高效能计算。
      • trekhleb/state-of-the-art-shitcode - of-the-art-shitcode` 是一份以轻松幽默方式讲解“写代码最糟糕做法”的 GitHub 项目。它把“state‑of‑the‑art”与 “shitcode” 结合,形成一种反向的、专门收集 anti‑pattern 的框架:项目目标是让读者清晰知道哪些代码会导致可维护性低、执行效率差或容易出错,并通过示例帮助大家一眼识别并避免落入这些坑。 README 在正文里先以大标题“State of the Art Shitcode”标注,随后用一句诙谐的说明介绍项目意义,再列举若干核心原则与典型做法。 **核心原则(示例摘录)** 1. **魔术数字随处写**:直接在代码里使用 0、1、100 等整数,而不是给常量命名。 2. **全局状态一箩包**:把所有全局变量聚集到同一个 module 或文件中,避免分散。 3. **注释只留必要时**:如果不需要解释,代码直接写;若需说明则在必要位置加简短语。 4. **深度嵌套**:用多层 if、for 噶或递归来实现本可通过简单逻辑完成的功能,以增加阅读难度。 5. **对全局态过度依赖**:业务大部分直接读取全局变量,而不是传参或使用闭包隔离。 **示例(Python)** ```python # 纯粘土的实现 global_state = {} def init(): global_state['x'] = 42 # 直接写全局状态 ``` 该段代码直接把业务数据放进 `global_state`,缺少注释且难以追踪。类似地,在 JavaScript、Ruby、Java 等语言中也给出了对应的反模式示例:例如在 JS 中用全局对象存储所有配置;或在 Ruby 中使用全局变量并忽略单元化。 **项目特色** - 采用轻松诙谐的 README,帮助初学者快速识别“shitcode”与好代码。 - 用“State‑of‑the‑Art”这一标题讽刺对 “最先进” 的传统追求,让读者在玩笑中记住反向标准。 - 通过多语言示例(Python、JavaScript、C++ 等)让人们能快速比对照各自语言的反模式,提升跨语言的代码审视感知。 **工作原理** 项目文件结构按语言分层:`python/`, `javascript/`, `cpp/`等,每个子目录下放置对应示例文件(如 `snippet.py`、`example.js`)。README 用 Markdown 列表格展示每个反模式的核心概念,并在代码块旁边用简短注释说明为何是糟糕做法。 **贡献流程** 读者若想加入新的“shitcode”示例,只需提交 PR 并按项目命名规则(如 `python/` 下新文件),并遵循 README 中列出的核心原则即可。项目管理员会快速审查并合并。 --- > 综上,State‑of‑the‑Art Shitcode 项目是一份幽默但具教育意义的反向代码收集。它通过“魔术数字、全局态依赖、深度嵌套”等核心原则,配合多语言示例,让人们能快速识别并避免糟糕做法,从而提升日常编码质量。
      • nonstriater/Learn-Algorithms - 代码实现-优化改进"的三步法,适合零基础到进阶开发者。项目采用Markdown格式组织内容,包含算法分类索引、常见问题解答和学习路线图。开发者可通过Fork提交改进,项目维护者会定期整合优质贡献。特别适合需要系统提升算法能力的编程爱好者,或准备面试算法题的开发者,所有内容均遵循MIT开源协议免费使用。
      • ossu/math
      • krahets/LeetCode-Book
      • missing-semester-cn/missing-semester-cn.github.io
      • lidangzzz/How-to-run
      • missing-semester/missing-semester
  • 漏洞库_漏洞靶场

    • 资源传输下载

      • google/security-research - research 组织下。它主要包含安全公告及其相应的概念验证 (POC)。研究重点关注影响非 Google 代码(而非 Google 自身系统)的漏洞。这些公告详细说明了在外部软件中发现的安全问题,并提供了这些漏洞的证据。其中还包含概念验证代码,用于演示如何利用这些问题。该项目旨在告知开发者和用户这些安全风险。该项目有助于提高安全意识,并鼓励及时修复第三方软件中的漏洞。它为安全研究人员和开发者提供了资源,帮助他们随时了解外部安全威胁。这些公告遵循标准化格式,以确保清晰度和一致性。用户可以访问有关每个漏洞及其潜在影响的详细信息。该项目由 Google 安全团队维护,以确保共享的信息准确可靠。它鼓励合作,共同提升开源和第三方软件生态系统的安全性。
      • CVEProject/cvelistV5
      • OWASP/Nettacker
      • google/honggfuzz
      • ExpLangcn/NucleiTP
      • wang-kevin3290/scaling-crl
      • NullArray/AutoSploit
      • diego-treitos/linux-smart-enumeration - treitos。
      • ssl/ezXSS
      • hill-a/stable-baselines - Baselines是OpenAI Baselines的一个分支,专注于提供强化学习算法的实现。它旨在简化强化学习算法的使用,让研究人员和开发者更容易地训练和评估智能体。该项目支持多种流行的强化学习算法,例如:A2C、ACER、ACKTR、DDPG、DQN、HER、PPO1、PPO2、SAC、TD3等。Stable-Baselines基于TensorFlow,并提供清晰的文档和示例,方便用户快速上手。它强调代码的稳定性和易用性,并致力于提供高质量的强化学习基线。项目特色包括模块化结构、易于扩展、以及对多种环境的支持。Stable-Baselines的目标是成为强化学习研究和应用的可靠工具。
      • Intelligent-Driving-Laboratory/GOPS
      • securego/gosec
      • mandiant/commando-vm
      • telekom-security/tpotce - Pot是一个一体化的多蜜罐平台,旨在模拟各种类型的攻击,帮助安全研究人员和组织了解最新的威胁态势。它集成了多种蜜罐软件,如Dionaea、Conpot、Glastopf等,覆盖网络服务、工控系统、Web应用等多个领域。T-Pot通过捕获攻击者的行为,分析恶意软件样本,并提供可视化界面,使用户能够轻松地监控和分析攻击事件。其核心理念是提供一个易于部署和管理的蜜罐环境,从而提高安全意识和防御能力。T-Pot支持Docker容器化部署,方便在各种环境中运行,并提供详细的日志记录和报告功能,帮助用户深入了解攻击者的策略和技术。它是一个开源项目,欢迎社区贡献和改进。T-Pot的设计目标是简单易用,即使没有专业的安全知识,也能快速上手并从中受益。通过模拟真实的网络环境,T-Pot能够有效地吸引攻击者,并收集有价值的情报,为安全防御提供支持。
      • presidentbeef/brakeman
      • buffer/thug
      • simoninithomas/Deep_reinforcement_learning_Course
      • haosulab/ManiSkill
      • qfettes/DeepRL-Tutorials - Tutorials项目是用PyTorch编写的深度强化学习算法高质量实现教程。它旨在提供清晰、可复现的代码,帮助学习者理解和应用深度强化学习。项目可能包含多种经典和前沿的深度强化学习算法,例如DQN、Policy Gradient等。通过阅读和运行这些代码,用户可以深入了解算法的工作原理和实现细节。该项目特别强调代码质量,力求简洁易懂,方便学习和修改。它是一个学习和实践深度强化学习算法的优秀资源,适合有一定PyTorch基础的开发者和研究者。项目目标是提供一个可靠的起点,让用户能够快速上手并构建自己的深度强化学习应用。
      • DefectDojo/django-DefectDojo
      • ufrisk/pcileech
      • The-Z-Labs/linux-exploit-suggester
      • infobyte/faraday - 服务器架构,客户端负责收集和发送数据,服务器负责存储和处理数据。
      • sweetice/Deep-reinforcement-learning-with-pytorch - reinforcement-learning-with-pytorch,是一个使用PyTorch实现的深度强化学习算法集合。它涵盖了多种主流算法,包括深度Q网络(DQN)、Actor-Critic(AC)、ACER、A2C、A3C、策略梯度(PG)、深度确定性策略梯度(DDPG)、信赖域策略优化(TRPO)、近端策略优化(PPO)、软Actor-Critic(SAC)和双延迟深度确定性策略梯度(TD3)。项目旨在提供一个易于理解和使用的深度强化学习算法库,方便研究者和开发者快速上手和应用这些算法。它通过PyTorch框架,实现了这些算法的核心逻辑,并提供了相应的示例代码。该项目适合希望学习和实践深度强化学习算法,并将其应用于实际问题的用户。它提供了一个良好的起点,可以帮助用户快速构建自己的强化学习模型。
      • suragnair/alpha-zero-general - general 是一个基于 AlphaZero 算法的通用游戏 AI 实现,它允许你在任何框架下为任何游戏训练 AI。该项目提供清晰的代码结构和教程,方便理解和使用。它基于蒙特卡洛树搜索(MCTS)和深度神经网络,通过自对弈学习来提升 AI 的棋力。项目包含 Othello(黑白棋)、Gobang(五子棋)、TicTacToe(井字棋)、Connect4(四子棋)等游戏的示例,方便用户快速上手。你可以修改和扩展该项目,将其应用到你感兴趣的游戏中。该项目旨在提供一个易于理解和使用的 AlphaZero 实现,帮助开发者探索和应用强化学习技术。它避免了复杂的依赖,力求简洁高效。通过调整参数,你可以控制 AI 的训练过程和性能。该项目是学习 AlphaZero 算法和实践游戏 AI 开发的优秀资源。
      • marlbenchmark/on-policy - policy方法,适用于多智能体强化学习环境。该项目提供了一个易于使用的框架,方便研究人员和开发者实现和评估MAPPO算法。核心算法为MAPPO,通过中心化的critic来学习每个智能体的策略。项目代码结构清晰,包含训练、评估和可视化等模块。你可以使用该项目复现论文结果,并将其应用于自定义的多智能体场景。它支持多种多智能体环境,并提供了详细的文档和示例。该项目旨在促进多智能体强化学习算法的开发和应用。
      • tigerneil/awesome-deep-rl - deep-rl是一个深度强化学习资源精选列表,旨在汇集与深度强化学习相关的优秀项目和资源,为研究人员和开发者提供便利。它可能包含论文、代码库、教程、博客文章和其他有用的材料。该项目关注深度强化学习及其在人工智能未来发展中的作用,可能涵盖各种深度强化学习算法、应用和最新进展。通过整理这些资源,该项目旨在促进深度强化学习领域的学习、研究和创新。具体内容需要查看README.md文件才能了解更多细节,例如资源的分类、推荐理由等。该项目可能定期更新,以反映深度强化学习领域的最新发展动态。
      • kengz/SLM-Lab - Lab是一个基于PyTorch的模块化深度强化学习框架,是书籍《深度强化学习基础》的配套库。它旨在提供一个灵活且可扩展的平台,用于研究和开发深度强化学习算法。该框架支持多种环境、算法和神经网络结构,方便用户进行实验和比较。SLM-Lab的核心理念是模块化设计,将强化学习流程分解为可重用的组件,包括环境接口、智能体、算法和网络等。它提供了一套标准的API,使得用户可以轻松地自定义和组合不同的模块。此外,SLM-Lab还提供了一系列预定义的实验配置,方便用户快速上手。该项目旨在帮助研究人员和开发者更高效地探索深度强化学习领域,并为学习者提供实践平台。它通过清晰的结构和丰富的文档,降低了深度强化学习的入门门槛。
      • vietnh1009/Super-mario-bros-A3C-pytorch - mario-bros-A3C-pytorch,使用PyTorch实现了异步优势演员-评论家(A3C)算法来玩超级马里奥兄弟。它利用多线程并行训练多个智能体,加速学习过程。A3C算法结合了Actor-Critic方法和异步训练,每个智能体在独立的环境副本中探索,并定期更新全局网络参数。该项目旨在展示A3C算法在强化学习环境中的应用,特别是经典的超级马里奥兄弟游戏。项目提供详细的训练和测试脚本,方便用户复现和改进模型。通过学习马里奥的控制策略,模型可以自动完成关卡并获得高分。该项目是一个学习和实践深度强化学习的优秀资源,尤其适合对A3C算法感兴趣的开发者。
      • Kautenja/gym-super-mario-bros - super-mario-bros的GitHub项目,它为NES上的超级马里奥兄弟和超级马里奥兄弟2(失落的关卡)提供了一个OpenAI Gym接口。这意味着你可以使用强化学习算法来训练AI玩这些经典游戏。该项目允许你控制马里奥,并观察游戏的状态,例如马里奥的位置、敌人的位置和游戏得分。它使用Python和OpenAI Gym框架构建,方便集成到现有的强化学习环境中。通过这个接口,研究人员和开发者可以探索各种强化学习技术,以创建能够自动玩超级马里奥兄弟的智能体。它提供了一种方便的方式来将经典游戏作为强化学习的测试平台。该项目的主要目标是促进强化学习在游戏AI领域的应用和研究。它简化了与NES模拟器的交互,并提供了一个标准化的环境,方便进行算法比较和实验。总之,gym-super-mario-bros是一个连接经典游戏和现代AI技术的桥梁。
      • FareedKhan-dev/all-rl-algorithms - dev/all-rl-algorithms旨在以更简单的方式实现各种强化学习(RL)算法。它提供了一系列RL算法的实现代码,方便学习和使用。项目目标是降低RL算法的理解和应用门槛。具体实现细节和算法选择需要查阅项目代码。该项目适合希望学习和实践不同RL算法的学习者。项目可能包含经典算法如Q-learning、SARSA,以及深度强化学习算法。通过简化实现,帮助用户快速上手并理解算法原理。代码结构和注释可能较为清晰,便于修改和扩展。该项目可以作为强化学习入门的参考资料。
      • TuragaLab/flybody
      • TobiasLv/RAD - M 等)。​​Atari 游戏 Seaquest 任务​​:性能达 Adam 的 ​​2.5 倍​​,得分提升 ​​155.1%​​。​​自动驾驶任务​​:碰撞率降低 ​​3 倍​​,长尾场景泛化能力显著增强。
      • commixproject/commix
      • junxiaosong/AlphaZero_Gomoku
      • Physical-Intelligence/openpi - Intelligence/openpi 是一个基于物理引擎的AI模拟开源项目,旨在通过物理规则与智能算法的结合,实现虚拟环境中的物体交互与行为预测。该项目核心功能包括物理引擎模拟、AI行为逻辑处理以及跨平台兼容性支持,特别强调在无需复杂编程的前提下,允许用户通过可视化配置实现物体运动、碰撞检测和动态响应。其工作原理基于模块化设计,通过分离物理计算与AI决策模块,利用Python语言实现核心算法,支持实时渲染与交互式调试。项目特色包括:1)集成简单易用的图形化界面,用户可拖拽物体并设置物理参数;2)支持多种物理引擎(如Box2D、Bullet)的插件化扩展;3)提供预置AI行为模板,如避障、路径规划等。项目适用于教育场景的物理教学模拟、游戏开发中的物理交互测试,以及科研领域的智能体行为研究。安装需依赖Python 3.8+及Pygame、NumPy等库,通过pip安装即可启动。开发者鼓励社区贡献,提供详细的中文文档与示例代码,项目采用MIT许可证,允许商业用途。其创新点在于将物理仿真与AI决策解耦,使非专业用户也能快速构建智能物理系统。
      • eleurent/rl-agents - agents 是一个专注于实现强化学习(Reinforcement Learning, RL)和规划算法的开源项目,旨在为研究者和开发者提供一套模块化、易扩展的代码框架。项目核心目标是通过清晰的代码结构和详细的文档,帮助用户快速理解和应用经典的RL算法,例如深度Q网络(DQN)、策略梯度(Policy Gradient)、近端策略优化(PPO)、A3C等。项目采用 Python 编写,基于 PyTorch 深度学习框架,支持多种经典强化学习环境(如 OpenAI Gym),并提供训练、评估和可视化工具,便于用户验证算法效果。其特色包括模块化设计(算法、环境、训练器独立封装)、支持自定义奖励函数和训练参数、内置可视化工具展示训练过程中的奖励曲线和策略表现。项目还提供详细的注释和教程,适合用于教学、算法对比实验或实际应用开发。通过将算法逻辑与环境交互分离,用户可灵活替换不同算法或环境,例如从简单迷宫到复杂机器人控制任务。此外,项目支持分布式训练和多种强化学习范式(如基于模型的规划算法),适合用于学术研究或工业场景中的智能决策系统开发。
      • ytisf/theZoo - c <category>` 或者 `-a` 全部下载;下载后即可直接在沙箱、VM、分析工具(如 IDA, Ghidra 等)中进行实验。 4. **社区与贡献** – 项目欢迎新手把新的恶意样本或已更新的校验码上传至 GitHub 以外延;也鼓励讨论安全研究经验,甚至在 `issues` 提出问题、改进建议。 5. **许可证** – MIT 授权,使用者可自行修改与再分发,只需保留原作者信息。 整体来看,该项目的特色是:① **实时性**——不等待官方发布即能下载;② **透明度**——每个样本都配完整校验码,保证下载内容一致;③ **易用性** – 只要跑脚本即可得到任何类型恶意软件。其工作原理就是把所有已知的、被正式收录的恶作剧归档,并通过官方脚本实现按需“点对点”式下载与分析。 最终,theZoo 为安全研究提供了一个 **公共、即时、可验证** 的恶意样本来源,让研究者能在更短时间内获得多种 malware 并进行实验、报告或改进工具。
  • 网络服务

  • 金融股票

    • 网络服务_其他

      • midas-research/sthan-sr-aaai
      • microsoft/qlib
      • ricequant/rqalpha
      • cedricporter/funcat
      • wangshub/RL-Stock
      • juspay/hyperswitch
      • wilsonfreitas/awesome-quant
      • bsolomon1124/pyfinance - datareader等。pyfinance包含六个模块,它们分别是:datasets.py :金融数据下载,基于request进行数据爬虫;general.py:通用财务计算,例如主动份额计算,收益分配近似值和跟踪误差优化;ols.py:回归分析,支持pandas滚动窗口回归;options.py:期权衍生品计算和策略分析;returns.py:通过CAPM框架对财务时间序列进行统计分析,旨在模拟FactSet Research Systems和Zephyr等软件的功能,并提高了速度和灵活性;utils.py:基础架构。
      • quantopian/alphalens
      • quantopian/pyfolio
      • quantopian/zipline - driven)的回测框架,有完整的文档和社区,如果你是对国外美股交易感兴趣,那么zipline将比较合适;但是对于国内像A股的数据则无法支持,只能通过本地化的数据进行回测。
      • UFund-Me/Qbot
      • gbeced/pyalgotrade
      • mementum/backtrader
      • vnpy/vnpy
      • waditu/tushare
      • Heerozh/spectre
      • stefan-jansen/machine-learning-for-trading
      • yumoxu/stocknet-dataset
      • goiter/CoCPC - CPC)。通过考虑与宏观经济指标的耦合来发布股票走势预测的代码和数据。
      • hkgsas/LOB
      • jrothschild33/learn_backtrader
      • AI4Finance-Foundation/FinRL-Meta
      • AI4Finance-Foundation/FinRL_Podracer
      • tkfy920/qstock
      • je-suis-tm/quant-trading - Ashi、配对交易、RSI、布林带、抛物线 SAR、双推力、真棒、MACD
      • AlgoTraders/stock-analysis-engine - compose 上运行。
      • amor71/LiuAlgoTrader
      • bbfamily/abu
      • QuantConnect/Lean
      • StockSharp/StockSharp
      • cantaro86/Financial-Models-Numerical-Methods - Scholes 布莱克-斯科尔斯数值方法(对数正态分布、测度变化、蒙特卡罗、二项式方法)。1.2) SDE仿真与统计(路径生成、置信区间、假设检验、几何布朗运动、Cox-Ingersoll-Ross过程、Euler Maruyama法、参数估计)1.3) 傅里叶反演方法(反演公式、数值反演、期权定价、FFT、刘易斯公式)1.4) SDE、Heston 模型(相关布朗运动、Heston 路径、Heston 分布、特征函数、期权定价)1.5) SDE,莱维过程(默顿,方差伽玛,NIG,路径生成,参数估计)2.1)布莱克-斯科尔斯偏微分方程(偏微分方程离散化,隐式方法,稀疏矩阵教程)2.2) 奇异期权(二元期权、障碍期权、亚洲期权)2.3) 美式期权(偏微分方程、早期行权、二项式法、Longstaff-Schwartz、永续看跌期权)3.1) Merton Jump-Diffusion PIDE(隐式-显式离散化、离散卷积、模型限制、蒙特卡罗、傅里叶反演、半闭式)3.2) Gamma Variance PIDE(近似跳跃扩散PIDE、蒙特卡洛、傅里叶反演、与Black-Scholes的比较)3.3) 正态逆高斯PIDE(近似跳跃扩散PIDE、蒙特卡罗、傅里叶反演、Lévy测度的性质)4.1) 交易成本定价(Davis-Panas-Zariphopoulou 模型、奇异控制问题、HJB 变分不等式、无差异定价、二项式树、性能)4.2) 波动率微笑和模型校准(波动率微笑、寻根方法、校准方法)5.1) 线性回归和卡尔曼滤波(市场数据清洗、线性回归方法、卡尔曼滤波设计、参数选择)5.2) 卡尔曼自相关跟踪 - AR(1) 过程(自回归过程、估计方法、卡尔曼滤波、卡尔曼平滑、变量自相关跟踪)5.3) 波动率跟踪(赫斯顿模拟、假设检验、分布拟合、估计方法、GARCH(1,1)、卡尔曼滤波、卡尔曼平滑)6.1) Ornstein-Uhlenbeck过程及应用(参数估计、命中时间、Vasicek PDE、卡尔曼滤波、交易策略)7.1) 经典 MVO(均值方差优化、二次规划、仅多头和长空、闭合公式)
      • ranaroussi/yfinance
      • firefly-iii/firefly-iii
      • https://github.com/kungfu-origin/kungfu - 量化交易者对系统内响应速度有极高要求,功夫提供微秒级别的系统响应,支持带纳秒级时间戳的交易数据实时存储和盘后分析。开放的策略编写方式 - 功夫支持 Python 3 及 C++ 形式的策略编写,策略师可以不受限的自由使用第三方计算库,放飞创意。友好的使用方式 - 告别 Linux shell 小黑屋,功夫提供图形化操作界面,简化策略运维流程。而进阶用户仍然具备通过底层 API 以无界面形式使用系统的能力。跨平台运行 - 三大主流平台(Windows、MacOSX、Linux)皆可编译运行。功夫系统架构如下:后台核心(C++)长拳(longfist) - 金融交易相关的数据格式定义,提供涵盖 c++/python/js/sqlite 的序列化支持。易筋经(yijinjing) - 专为金融交易设计的超低延迟时间序列内存数据库,提供纳秒级时间精度,可落地交易相关的全部数据。咏春(wingchun) - 策略执行引擎,提供策略开发接口,实时维护策略账目及持仓情况。策略接口(C++/Python)RxCpp - 响应式事件处理框架,可对丰富数据类型的金融交易数据进行灵活处理。numpy/pandas - 自带的 Python 运行环境原生提供 numpy/pandas 等工具供策略使用。前端UI(Node.js)Electron - 跨平台的桌面应用开发框架Vue.js - UI开发框架功夫在系统设计上支持任意柜台的对接(涵盖中国所有股票、期货市场),功夫开源版提供 XTP 柜台对接的参考实现。
      • AI4Finance-Foundation/DQN-DDPG_Stock_Trading
    • 资源传输下载

      • jameskokoska/Cashew
      • Javen205/IJPay
      • go-pay/gopay
      • ArvinLovegood/go-stock
      • avhz/RustQuant
      • shiyu-coder/Kronos - coder开发的金融领域基础模型,旨在通过自然语言处理技术解析和预测金融市场动态。该项目的核心功能是构建一个能够理解金融市场语言的多模态模型,通过整合文本、数值和时间序列数据,实现对金融市场的实时分析与预测。其工作原理基于深度学习架构,特别是Transformer模型,能够处理金融文本(如新闻、报告)、交易数据及市场指标,通过多模态数据融合技术提取关键特征,从而生成市场趋势预测、风险评估和投资建议。项目特色包括对金融领域专业术语的深度理解、对高频交易数据的实时处理能力,以及支持多种金融场景(如股票、期货、外汇)的定制化分析模块。Kronos通过模块化设计提供API接口,用户可接入自有数据源进行模型训练与优化,同时内置可视化工具辅助决策分析。其技术架构结合了金融领域知识图谱与大模型推理能力,能够识别市场情绪、预测价格波动,并通过强化学习机制持续迭代模型参数。该项目适用于金融机构、量化交易团队及金融研究者,可作为金融数据分析、智能投顾和风险管理的底层工具,具备高扩展性和跨平台部署能力,为金融市场参与者提供数据驱动的智能决策支持。
      • TauricResearch/TradingAgents
      • jlevy/og-equity-compensation
      • myhhub/stock
      • letianzj/QuantResearch
      • yansongda/pay
      • pipiku915/FinMem-LLM-StockTrading
      • hsliuping/TradingAgents-CN - CN是TradingAgents项目的中文增强版,专为中文用户优化设计,支持中文文档和交易策略开发。项目通过集成多智能体强化学习与大型语言模型,实现金融交易场景中的市场分析、策略生成及风险控制等核心功能。其工作原理基于模块化架构,包含市场数据解析模块、智能体策略生成模块及实时交易执行模块,各智能体通过协作与竞争优化交易决策,LLM负责生成自然语言驱动的交易策略并动态调整参数。项目特色包括支持中文环境下的金融文本处理、多智能体协同训练机制、可扩展的策略自定义接口及实时数据接入能力,适用于股票、期货等金融市场的模拟交易与实盘操作。开发者可基于PyTorch或TensorFlow框架进行模型训练,通过预训练的中文金融语料库提升策略生成准确性,同时提供可视化交易界面与回测功能,帮助用户验证交易逻辑并优化收益。项目开源且文档完整,适合金融AI研究者与交易者快速搭建中文环境下的智能交易系统。
      • Open-Dev-Society/OpenStock
      • virattt/dexter
  • 蛋白质结构

  • 药物-靶标 药物-药物 化合物-蛋白质 相互作用

    • 网络服务_其他

      • ddinter.scbdd.com - 药物相互作用的综合、专业和开放存取的数据库。它为每个 DDI 关联提供了丰富的注释,包括机制描述、风险级别、管理策略、替代药物等,以改善临床决策和患者安全。
      • lvguofeng/GNN_PPI - PPI),以更好地预测新蛋白质之间的相互作用。在不同规模的真实世界数据集上的实验结果表明,GNN-PPI 显着优于最先进的 PPI 预测方法,特别是对于小说间的蛋白质相互作用预测。
      • PaddleHelix/drug_target_interaction/sign - 配体结合亲和力的结构感知交互式图神经网络
      • kexinhuang12345/DeepPurpose - 靶标相互作用(Drug-Target Interaction)预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码,就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用:虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)。
      • ETHmodlab/molgrad - 靶标相互作用的见解。
      • thinng/GraphDTA - 靶标的结合亲和力
      • isjakewong/MIRACLE
      • FangpingWan/DeepCPI
      • yueyu1030/SumGNN - typed drug interaction prediction via efficientknowledge graph summarization 基于高效知识图谱汇总的多类型药物关联预测。 整合了DDI信息(药物-药物相互作用)以及生物医学KG数据,并提出了有效的聚合机制以进行DDI预测。实验结果表明,该模型具有良好的预测性能。
      • kanz76/SSI-DDI
      • jacklin18/KGNN - Drug Interaction Prediction" 基于知识图谱的图神经网络(KGNN),以解决DDI预测问题。该框架可通过在KG中挖掘相关联的关系,来有效地捕获药物及其潜在的邻域实体信息。
      • twopin/CAMP - 蛋白质相互作用预测的基于卷积注意力的神经网络
      • Liuxg16/GeoPPI - 蛋白质结合亲和力的影响的深度几何表示
      • biomed-AI/GraphPPIS - 蛋白质相互作用位点预测的新框架,它能够从高阶空间相邻氨基酸中捕获信息。
      • aqlaboratory/hsm - 肽相互作用和信号网络进行生物物理预测
      • THinnerichs/DTI-VOODOO
      • ohuelab/QEPPI - 蛋白质相互作用的化合物早期筛选的定量估计指数
      • DeepRank/deeprank - 蛋白质相互作用的深度学习框架
      • violet-sto/TGSA - 蛋白质关联的双图神经网络用于相似性增强的药物反应预测
      • biomed-AI/GraphSite - DNA 结合位点预测。
      • pharmai/plip - 配体相互作用
      • Layne-Huang/EGFI - 药物相互作用提取和生成
      • Ieremie/TransformerGO - 蛋白质相互作用
      • YifanDengWHU/DDIMDL - 药物相互作用(DDI)事件。
      • CSUBioGroup/BACPI - 蛋白质相互作用和结合亲和力预测的双向注意力神经网络
      • biomed-AI/CoSMIG - 基因相互作用预测的交际子图表示学习
      • IsXudongZhang/Molormer
  • 杀毒免杀、逆向工程

  • CPU RISC-V

  • 文本匹配_文本检索_文本相似度

    • 大语言对话模型及数据

      • MinishLab/model2vec
      • Dicklesworthstone/swiss_army_llama
      • tensorlakeai/indexify
      • Applied-Machine-Learning-Lab/LLMEmb
      • castorini/rank_llm
      • jina-ai/late-chunking - chunking项目旨在解释和评估一种称为“延迟分块”(chunked pooling)的技术。该项目提供代码和实验,帮助理解延迟分块的工作原理和优势。延迟分块是一种处理长文本或序列数据的有效方法,它将数据分成小块(chunks)后进行池化操作,从而降低计算复杂度并提高效率。该项目可能包含不同延迟分块策略的实现和性能比较。通过该项目,用户可以学习如何在Jina AI框架中使用延迟分块技术来构建更高效的文本处理和检索系统。项目重点在于chunked pooling的实现和评估,旨在帮助开发者更好地理解和应用该技术。该项目可能包含评估指标和实验结果,展示延迟分块在特定任务上的表现。它为研究和应用延迟分块提供了有价值的资源和参考。
      • RUCAIBox/SimpleDeepSearcher
      • stanfordnlp/GloVe
      • QwenLM/Qwen3-Embedding - Embedding是由通义实验室开发的高质量文本嵌入模型,基于Qwen3大型语言模型架构,专注于生成精准的文本向量表示以支持自然语言处理任务。该项目的核心特色在于其多语言支持能力,可处理包括中文、英文、法语、西班牙语等在内的多种语言文本,同时通过优化模型结构和训练策略显著提升了推理效率,使嵌入向量在保持高精度的同时减少计算资源消耗。模型采用自监督学习方式,基于海量文本数据进行预训练,通过双向Transformer架构捕捉上下文语义关系,最终生成的文本向量可直接用于文本相似度计算、信息检索、语义分析等场景。项目提供了预训练模型和推理接口,用户可通过Hugging Face平台或本地部署方式调用,支持灵活的参数配置以适应不同应用场景需求。开发团队特别强调了模型在长文本处理和领域适应性方面的优化,通过引入领域特定数据增强和动态长度调整机制,确保嵌入结果在专业场景下的稳定性与准确性。此外,该项目文档详细说明了模型的训练细节、性能评估指标及实际应用案例,方便开发者快速集成到具体业务系统中。
  • 知识图谱问答KBQA_多跳推理

  • 图像恢复

    • 资源传输下载

      • subeeshvasu/Awesome-Deblurring - Deblurring是一个精选的图像和视频去模糊资源列表。它汇集了各种去模糊相关的论文、代码、数据集等资源,旨在帮助研究人员和开发者快速了解和掌握去模糊技术。该列表涵盖了图像去模糊和视频去模糊两个主要方向,并细分了不同的方法和应用。项目组织清晰,方便查找,是学习和研究去模糊技术的优秀起点。它持续更新,收录最新的研究成果,保持了内容的时效性。无论你是初学者还是资深研究者,都能从中找到有价值的信息。Awesome-Deblurring致力于成为去模糊领域的综合性资源库,推动该领域的发展。
      • megvii-research/NAFNet - research开发,旨在提供高效且高质量的图像复原方案。NAFNet的核心思想是利用简单的线性函数来构建网络,从而降低计算复杂度并提高运行效率。这种设计使得NAFNet在处理各种图像恢复任务时,能够达到甚至超越传统模型的性能。该项目提供了详细的代码实现、预训练模型和使用指南,方便研究人员和开发者进行实验和应用。NAFNet的成功证明了线性模型在图像处理领域的潜力,为未来的研究方向提供了新的思路。它在图像去噪、超分辨率等领域表现出色,为相关应用带来了显著的提升。该项目易于上手,并提供了丰富的文档支持,方便用户快速部署和使用。NAFNet的简洁性和高效性使其成为图像恢复领域的一个重要里程碑。
      • wenbihan/reproducible-image-denoising-state-of-the-art - image-denoising-state-of-the-art 收集了流行的、可复现的图像去噪工作。它旨在提供一个图像去噪领域最先进技术的可复现资源集合。该项目可能包含各种去噪算法的实现代码、预训练模型和实验结果。用户可以利用该项目复现论文结果,比较不同算法的性能,并在此基础上进行研究和开发。项目重点在于可复现性,确保研究结果的可靠性和可验证性。它可能涵盖基于深度学习的和传统的图像去噪方法。该项目对于图像处理、计算机视觉领域的研究人员和工程师具有参考价值。
      • swz30/Restormer
      • zhihongz/awesome-low-light-image-enhancement
      • X-Lucifer/AI-Lossless-Zoomer - Lucifer/AI-Lossless-Zoomer是一个基于AI的无损放大项目,旨在通过人工智能技术实现图像和视频的无损放大,避免传统放大方法带来的模糊和失真。它利用深度学习模型,特别是Real-ESRGAN和SwinIR等先进算法,来提升图像的分辨率和细节。项目支持多种放大倍数,用户可以根据需求选择合适的比例。该工具能够处理各种类型的图像和视频,包括动漫、照片和插画等。其核心工作原理是通过训练好的AI模型,学习低分辨率图像到高分辨率图像的映射关系,从而在放大过程中尽可能地恢复原始细节。用户可以使用该项目来提升老照片的清晰度,或者将低分辨率视频放大到更高的分辨率,获得更好的观看体验。项目可能提供命令行界面或图形用户界面,方便用户操作。
      • Kobaayyy/Awesome-CVPR2025-CVPR2024-CVPR2021-CVPR2020-Low-Level-Vision - CVPR2025-CVPR2024-CVPR2021-CVPR2020-Low-Level-Vision是一个低级视觉方向的论文和代码集合,涵盖了CVPR 2025、CVPR 2024、CVPR 2021和CVPR 2020等会议。它旨在为研究人员提供方便的资源,了解和学习最新的低级视觉技术。项目主要关注图像处理和计算机视觉的基础问题,例如图像去噪、超分辨率、图像增强等。通过收集这些顶级会议的论文和代码,该项目可以帮助研究人员快速了解该领域的最新进展。该项目可能包含论文链接、代码仓库地址以及相关的项目介绍,方便用户查找和使用。这是一个非常有价值的资源,可以促进低级视觉领域的研究和发展。
      • swz30/MPRNet - of-the-art)效果。该项目基于CVPR 2021论文,核心思想是逐步优化图像质量。MPRNet采用多阶段架构,每个阶段都专注于恢复图像的不同方面。这种渐进式的方法允许网络更有效地处理复杂的图像退化。项目提供了预训练模型和代码,方便研究人员和开发者使用。MPRNet在多个基准数据集上表现出色,证明了其在图像恢复领域的强大能力。它通过逐步细化图像,有效地减少了噪声、模糊和雨水等影响,从而恢复清晰、高质量的图像。该项目是图像恢复领域的重要进展,为相关研究和应用提供了有价值的资源。
      • wyhuai/DDNM
      • caiyuanhao1998/Retinexformer
      • Algolzw/daclip-uir - uir项目是ICLR 2024的一项研究成果,专注于通过控制视觉-语言模型来实现通用图像修复。该项目在NTIRE 2024 Restore Any Image Model in the Wild Challenge中获得了第五名。项目特色在于利用视觉-语言模型进行图像修复,目标是实现对各种图像的通用修复能力。具体工作原理是通过控制视觉和语言模型之间的交互,从而引导模型更好地理解和修复图像中的缺陷。该项目具有一定的学术价值和实际应用潜力,尤其是在图像处理和计算机视觉领域。
      • Tohrusky/Final2x
      • YingqingHe/ScaleCrafter
      • lxfater/inpaint-web - web 是一个基于 Webgpu 和 wasm 技术的免费开源图像修复(inpainting)和图像放大(image-upscaling)工具。它完全在浏览器端运行,无需服务器支持,保护用户隐私。该项目利用 Webgpu 提供的硬件加速能力,以及 wasm 的高性能,实现高效的图像处理。用户可以在浏览器中直接上传图片,进行修复或放大操作。该项目旨在提供一个方便、快捷、安全且免费的图像处理解决方案。它具有跨平台性,可以在支持 Webgpu 的浏览器上运行。该项目代码开源,方便用户进行二次开发和定制。总而言之,lxfater/inpaint-web 是一个强大的浏览器端图像处理工具,具有免费、开源、高性能和保护隐私等优点。
      • cszn/KAIR
    • 网络服务_其他

  • Python 程序

  • 向量数据库_向量搜索_最近邻搜索

  • webshell_shellcode

    • 资源传输下载

      • LyleMi/Learn-Web-Hacking - Web-Hacking 是一个关于 Web 安全的学习笔记项目。它可能包含各种 Web 漏洞的原理、利用方法和防御措施。项目可能涵盖常见的 Web 攻击类型,例如 SQL 注入、XSS 跨站脚本攻击、CSRF 跨站请求伪造等。学习笔记可能包含漏洞的详细描述、攻击示例、以及相应的修复建议。该项目旨在帮助安全爱好者和开发人员学习 Web 安全知识,提高 Web 应用的安全性。具体内容可能包括漏洞分析、渗透测试技巧、以及安全编码实践。通过学习这些笔记,用户可以更好地理解 Web 安全风险,并采取有效的措施来保护 Web 应用免受攻击。项目可能还会包含一些实战案例,帮助用户将理论知识应用到实际场景中。该项目可能持续更新,以反映最新的 Web 安全威胁和防御技术。
      • t3l3machus/Villain
      • hasherezade/pe_to_shellcode
      • pen4uin/java-memshell-generator - memshell-generator` 是一个用于生成 Java 内存马的工具。它允许用户自定义内存马的内容,提供了高度的灵活性。该工具主要用于安全研究、渗透测试等场景,帮助安全人员理解和利用内存马技术。其工作原理涉及动态加载类、修改 Servlet 容器等技术,将恶意代码注入到正在运行的 Java 应用中。项目提供详细的文档和示例,方便用户快速上手和定制自己的内存马。该项目使用简单,功能强大,是研究 Java 内存马不可多得的工具。
      • secretsquirrel/the-backdoor-factory - O二进制文件中注入shellcode的工具。该项目的主要目标是在二进制文件中寻找合适的注入点,并在不破坏原始功能的情况下添加恶意代码。TBF通过分析二进制文件的结构,寻找可利用的空间,例如代码间隙或可覆盖的区域,然后将shellcode插入其中。新版本正在开发中,仅对赞助者开放。它支持多种操作系统和架构下的二进制文件,允许安全研究人员和渗透测试人员评估软件的安全性,或进行红队演练。TBF可以自动化后门植入过程,大大简化了手动修改二进制文件的复杂性。该工具能够处理各种类型的shellcode,并提供自定义选项以适应不同的场景。使用TBF需要谨慎,因为它可能被用于恶意目的。请负责任地使用此工具,并遵守所有适用法律和法规。
  • 加密_密码破解_字典

    • 资源传输下载

      • eth0izzle/shhgit
      • OdysseusYuan/LKY_OfficeTools
      • abbodi1406/KMS_VL_ALL_AIO - in-One (AIO) 解决方案,集成了多种激活方法,包括 KMS 激活、数字许可证激活 (Digital License/HWID Activation) 和在线 KMS 服务激活。该脚本通过模拟 KMS 服务器或利用现有在线 KMS 服务器来激活产品,同时也支持通过数字许可证激活永久激活 Windows 10/11。KMS_VL_ALL_AIO 能够自动检测系统和 Office 版本,并选择最佳的激活方法。它支持多种激活选项和自定义设置,例如设置 KMS 主机、端口和激活间隔。该脚本设计为易于使用,只需运行脚本即可自动完成激活过程。它还包括一些高级功能,例如备份激活信息和卸载 KMS 激活。KMS_VL_ALL_AIO 适用于需要激活批量授权 Windows 和 Office 的用户,尤其是在没有 MAK 密钥的情况下。使用时请注意潜在风险,并确保了解相关法律法规。该项目主要使用批处理脚本 (Batch Script) 开发。
      • CopilotKit/open-mcp-client - mcp-client 是一个用于构建 AI 驱动的 Multi-Party Computation (MPC) 应用的开源客户端 SDK。它简化了 MPC 的复杂性,让开发者可以轻松地在应用中集成安全的多方计算功能,保护用户数据隐私。该项目提供了一系列工具和 API,用于管理 MPC 会话、安全地共享数据以及执行计算任务。其核心优势在于易用性和安全性,开发者无需深入了解底层密码学细节即可使用。通过该 SDK,开发者可以构建各种隐私保护的应用,例如安全的数据分析、联合学习和隐私保护的身份验证等。Open-mcp-client 支持多种编程语言,并提供了详细的文档和示例代码,方便开发者快速上手。该项目旨在推动 MPC 技术的普及,让更多开发者能够利用 MPC 保护用户隐私,构建更加安全可靠的 AI 应用。它通过抽象底层复杂性,提供高级 API,使得开发者能够专注于应用逻辑的实现。总之,CopilotKit/open-mcp-client 是一个强大且易用的 MPC 客户端 SDK,是构建隐私保护 AI 应用的理想选择。
      • LandGrey/pydictor
      • jhaals/yopass
      • SheepChef/Abracadabra
      • vanhauser-thc/thc-hydra - thc/thc-hydra。
      • beemdevelopment/Aegis
      • smallstep/certificates
  • 扫描器_资产收集_子域名

    • 资源传输下载

      • khast3x/h8mail
      • pry0cc/axiom
      • intelowlproject/IntelOwl
      • ivre/ivre
      • blechschmidt/massdns
      • dwisiswant0/awesome-oneliner-bugbounty - oneliner-bugbounty,由dwisiswant0创建,是一个收集了大量用于漏洞赏金的实用单行脚本的资源库。项目特色在于其简洁高效,利用单行命令快速完成信息收集、漏洞探测等任务。这些脚本涵盖了各种漏洞赏金场景,例如子域名枚举、端口扫描、目录爆破、敏感信息泄露检测等。通过组合和修改这些单行脚本,安全研究人员可以更高效地进行漏洞挖掘和渗透测试。该项目旨在为漏洞赏金猎人提供便捷的工具和技巧,加速漏洞发现过程。 这些脚本通常利用命令行工具如`curl`、`grep`、`sed`、`awk`等实现,并结合管道操作,实现复杂的功能。项目鼓励社区贡献,欢迎提交更多有用的单行脚本。
      • yqcs/prismx
      • screetsec/Sudomy
      • alpkeskin/mosint
      • wgpsec/ENScan_GO
      • aceberg/WatchYourLAN
      • lockfale/OSINT-Framework
      • LasCC/HackTools
      • megadose/holehe
      • OpenCTI-Platform/opencti
      • loxy0dev/RedTiger-Tools - Tools是一款专为网络安全领域设计的多功能集成工具,集成了渗透测试、OSINT情报收集、网络扫描、Discord工具及道德黑客等核心功能,适用于教育和研究用途。该项目通过整合多种自动化脚本与实用工具,提供跨平台支持(Windows、Linux、macOS),可帮助用户高效完成信息搜集、漏洞扫描、网络分析等任务。其核心特色包括模块化设计(支持快速扩展功能)、自动化脚本(简化重复操作)、实时数据可视化(如网络拓扑图生成)以及对Discord平台的深度集成(如机器人控制与频道监控)。工具基于Python开发,依赖常见开源库(如requests、nmap),用户可通过GitHub获取源码并自行编译。工作原理上,RedTiger-Tools通过调用预设的脚本模块(如子域名枚举、端口扫描、社交媒体信息抓取)实现自动化任务,同时支持自定义参数配置以适应不同场景需求。项目持续更新,新增功能涵盖网络流量分析、Web漏洞检测及自动化报告生成等,适用于红队演练、安全研究及学习者实践。需注意,所有功能均需在合法授权范围内使用,严禁用于非法入侵或数据窃取。
      • snyk/cli
      • EdOverflow/can-i-take-over-xyz
      • guardicore/monkey
      • qwqdanchun/Pillager
      • hahwul/WebHackersWeapons
      • stamparm/maltrail
      • A-poc/BlueTeam-Tools - poc/BlueTeam-Tools 是一个面向蓝队(防御团队)的开源项目,旨在为企业和组织提供一整套可操作的安全工具与技术。它把“日志收集、事件分析、威胁检测”以及“应急响应”等核心能力做成了可复用的模块,并以清晰的文档说明如何部署与使用。 **项目特色** 1. **多层监控** – 通过系统日志(如 Windows Event Log, Syslog)、网络流量捕获、文件完整性校验等手段,全面收集安全相关事件。 2. **可视化分析** – 所有工具都能把原始数据转成易读的图表或报表,让运维人员迅速定位问题点。 3. **脚本驱动响应** – 提供了基于 PowerShell、Python 的自动应急脚本,支持快速封堵恶意进程、隔离受感染主机等。 4. **模块化设计** – 每个功能都被拆成单独立的插件(如“IDS 检测”或 “事件追踪器”),可按需启用或自定义扩展。 **工作原理** - 所有工具首先通过系统 API 或第三方库(例如 psutil、scapy)抓取所需数据。 - 数据被统一写入本地数据库(SQLite/ElasticSearch 等)并即时推送至监控面板。 - 通过预设的阈值或机器学习模型,脚本会在检测到异常后立即触发对应的处置动作,如关闭端口、清除恶意进程、生成安全事件报告。 **安装与使用** 项目提供了 Docker Compose 文件,可一键启动所有服务;也支持直接 clone 后执行 `install.sh` 脚件自动配置。 每个模块都有独立的 README,详细列出命令行参数和示例用法。比如“File Integrity Monitor”只需跑: ``` python fim.py --config config.yaml ``` 即可开始监控目标目录。 **贡献与维护** 欢迎提交 PR 或 Issue;项目采用 MIT 许可证,任何人都可以自由使用、修改或再发布。若有新威胁想要加入工具链,只需要在 `contrib` 文件夹下创建相应脚本并更新文档即可。 总体而言,A-poc/BlueTeam-Tools 把安全运维的“日志收集+事件分析+威胁检测+急响应”这一流程拆成一套可复制、易扩展的工具包,为企业提供了从被动监控到主动防御的一条龙门。
      • apurvsinghgautam/robin
  • 区块链、智能合约

  • 推荐系统算法库与列表

    • 网络服务_其他

    • 资源传输下载

      • Doragd/Algorithm-Practice-in-Industry - Practice-in-Industry 是一个专注于工业界算法实践的中文技术资源聚合项目,旨在系统整理搜索、推荐、广告、用户增长等领域的算法应用案例与技术解析。项目通过整合知乎、Datafuntalk、技术公众号等平台的优质内容,涵盖从算法原理到工业落地的完整知识链条,内容形式包括技术博客、案例分析、经验分享等,特别注重实际场景中的算法优化策略与工程实现细节。其核心特色在于将分散在各平台的工业实践文章按主题分类归档,例如搜索算法中的召回与排序策略、推荐系统中的冷启动与实时性优化、广告技术中的CTR预估与流量分配模型,以及用户增长场景中的拉新留存算法设计。项目内容不仅包含技术原理的通俗解释,还强调工业界的实际挑战与解决方案,如数据稀疏性处理、在线学习模型部署、AB测试方法论等,同时附带代码实现与调参经验。该项目适合算法工程师、数据科学家及技术管理者作为实践参考,帮助从业者快速掌握从理论模型到生产环境的完整技术路径,其持续更新的特性也确保了内容的前沿性与实用性。
      • wzhe06/Reco-papers - 2023)和研究方向(如协同过滤、深度学习、多模态推荐)双重维度分类,每个条目均标注论文发表年份、核心贡献、关键技术点及代表性代码链接,便于快速定位研究进展。项目特别强调实践价值,提供基于PyTorch、TensorFlow等框架的代码实现案例,以及Kaggle竞赛数据集和工业级推荐系统架构分析。工作原理采用分层结构设计:基础层包含经典论文(如ItemCF、SVD、Wide&Deep);进阶层涵盖深度学习模型(如NeuMF、GraphSAGE);前沿层聚焦最新研究(如Self-Attention、多模态融合)。所有内容均附中文翻译与技术解析,适合不同层次研究者从理论学习到工程实践的全流程参考。项目持续更新维护,已收录超过300篇论文和50个开源项目,是学习推荐系统领域知识的权威资源库。
      • guyulongcs/Awesome-Deep-Learning-Papers-for-Search-Recommendation-Advertising - 物品交互特征,再经由预排序阶段筛选候选集,随后利用CTR/CVR预测模型进行排序优化,最后通过后排序机制完善最终推荐结果。同时,项目还涵盖了相关性分析、大语言模型生成、强化学习等新兴技术方向,完整呈现了从基础模型到复杂系统的演进路径。 该项目的价值在于其系统性和时效性。所有收录论文均经过严格筛选,按技术模块分类整理,既包含经典算法(如深度交叉网络DCN、双塔模型等),也涵盖最新研究进展(如多模态推荐、因果推理等)。通过这种方式,用户无需遍历大量论文即可直接获取领域关键成果。此外,项目采用开放协作模式,持续更新最新研究成果,确保资源库的时效性和完整性,已成为搜索推荐广告领域研究人员和工程师的重要参考工具。
      • metarank/metarank - to-Rank 引擎设计,支持开发者快速构建和部署个性化排序模型,无需深厚的机器学习专业知识。其核心特色包括:1)提供开箱即用的排名算法,如基于梯度提升的树模型(GBDT)和神经网络,适应不同数据场景;2)支持多数据源集成,可处理文本、点击行为、用户画像等结构化或非结构化数据;3)通过模块化设计实现灵活扩展,用户可自定义特征工程、模型训练流程及评估指标;4)提供可视化工具和API接口,便于与现有系统(如推荐引擎、搜索引擎)集成。工作原理上,metarank 通过分析用户交互数据(如点击率、停留时长)和内容特征,训练出能够预测用户偏好的排序模型,并实时动态调整结果顺序。项目采用 Python 编写,依赖主流 ML 框架(如 TensorFlow、PyTorch),同时提供简洁的 API 和文档,降低使用门槛。适用于电商推荐、新闻排序、搜索引擎优化等场景,尤其适合需要快速迭代模型的业务需求。开发者可通过少量代码配置数据管道和模型参数,即可完成从数据准备到部署的全流程,显著提升开发效率和模型效果。
      • xai-org/x-algorithm
  • 视频生成、补帧、摘要

    • 网络服务_其他

      • hpcaitech/Open-Sora - Sora 不仅使对高级视频生成技术的访问民主化,而且还提供了一个简化且用户友好的平台,简化了视频制作的复杂性。通过Open-Sora,我们的目标是在内容创作领域激发创新、创造力和包容性。Open-Sora 1.1,它支持 2s~15s、144p 到 720p、任意宽高比的文本到图像、文本到视频、图像到视频、视频到视频、无限时间生成。此外,还发布了完整的视频处理流水线。
      • PKU-YuanGroup/Open-Sora-Plan - Sora-Plan v1.1.0,它显着增强了视频生成质量和文本控制功能。该项目旨在创建一个简单且可扩展的存储库,以重现 Sora(OpenAI,但我们更愿意将其称为“ClosedAI”)。我们希望开源社区能够为这个项目做出贡献。欢迎拉取请求!!本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前版本离目标差距仍然较大,仍需持续完善和快速迭代。项目阶段:设置代码库并在landscape景观数据集上训练无条件模型。训练可提高分辨率和持续时间的模型。在landscape景观数据集上进行text2video实验。在 video2text 数据集上训练 1080p 模型。具有更多条件的控制模型。
      • Justin62628/Squirrel-RIFE
      • baowenbo/DAIN
      • nihui/dain-ncnn-vulkan - ncnn-vulkan 使用 ncnn 项目作为通用神经网络推理框架。
      • HumanAIGC/EMO
      • nihui/rife-ncnn-vulkan
      • myungsub/CAIN
      • nihui/cain-ncnn-vulkan
      • RayVentura/ShortGPT
      • TMElyralab/MusePose - AnimateAnyone 实现的 AnimateAnyone。
      • TMElyralab/MuseTalk
      • TMElyralab/MuseV
      • MooreThreads/Moore-AnimateAnyone
      • damo/cv_googlenet_pgl-video-summarization
  • 对象检测、分割

  • 抗菌肽

  • 异构图、 异质图

  • 图注意力机制

  • 图嵌入、网络表征学习

  • 图预训练 Pre-Training of Graph

    • 网络服务_其他

      • THUDM/GCC - Training 用于图形神经网络预训练的图形对比编码,下游任务:节点分类、图分类、相似性搜索。
      • acbull/GPT-GNN - Training of Graph Neural Networks 图神经网络的生成式预训练。在预处理阶段,算法会首先随机地遮盖掉图中的一些边和点,利用生成模型来生成(预测)这些边的存在和节点的属性。模型的损失函数会使得预测的结果尽量接近真实的网络结构。这样的话,在GPT-GNN训练完成后,其内部的图神经网络层就可以被拿出来进行调优。
      • rootlu/L2P-GNN
      • Shen-Lab/GraphCL - hop的Subgraph,通过最大化两个Subgraph之间的相似度来进行自监督学习。
  • 图对抗攻击

  • 图聚合_节点聚合

  • 图监督_半监督_对比学习

  • 数据搜索引擎

    • 网络服务_其他

    • 资源传输下载

      • elastic/beats
      • manticoresoftware/manticoresearch
      • ankane/searchkick
      • elastic/go-elasticsearch - elasticsearch 是 Elasticsearch 官方提供的 Go 语言客户端。它提供了一系列 API,方便 Go 开发者与 Elasticsearch 集群进行交互,包括索引、搜索、更新和删除文档等操作。该客户端的设计目标是高性能、易用性和可扩展性,支持 Elasticsearch 的所有功能,并提供丰富的配置选项。它使用 Elasticsearch 的 REST API 进行通信,通过 HTTP 请求发送和接收 JSON 数据。该客户端支持连接到单个 Elasticsearch 节点或集群,并具有自动节点发现和故障转移功能。它还提供了一些高级功能,如批量操作、滚动搜索和聚合查询。开发者可以通过简单的 Go 代码,轻松地将 Elasticsearch 集成到他们的应用程序中,实现强大的搜索和分析功能。go-elasticsearch 遵循 Elasticsearch 的版本更新,并提供详细的文档和示例,帮助开发者快速上手。它是一个稳定可靠的 Elasticsearch Go 语言客户端,适用于各种规模的项目。
      • elastic/elasticsearch-js - js是官方为Node.js提供的Elasticsearch客户端库。它允许Node.js应用与Elasticsearch集群进行交互,执行搜索、索引、更新和删除等操作。该库支持Elasticsearch的各种API,并提供了方便的接口来构建查询和处理响应。使用Elasticsearch-js,开发者可以轻松地将Elasticsearch集成到他们的Node.js项目中,实现全文搜索、日志分析、数据聚合等功能。它提供了自动发现集群节点、负载均衡和故障转移等特性,保证了应用的稳定性和可靠性。该库还支持Promise和回调函数两种方式来处理异步操作,方便开发者根据自己的喜好选择。Elasticsearch-js遵循Elasticsearch官方的最佳实践,并不断更新以支持最新的Elasticsearch版本。它是一个强大且灵活的工具,适用于各种规模的Node.js项目,从小型网站到大型企业级应用。
      • ElasticHQ/elasticsearch-HQ
      • apache/lucenenet
      • elasticsearch-dump/elasticsearch-dump - dump是一个用于Elasticsearch和OpenSearch的数据导入导出工具。它允许你将数据从一个Elasticsearch/OpenSearch集群导出到文件,或者将文件中的数据导入到集群中。该工具支持多种数据格式,包括JSON和CSV。其工作原理是通过滚动查询(scroll queries)高效地读取数据,并支持大规模数据集的处理。你可以使用它来备份和恢复数据,迁移数据到新的集群,或者在不同的环境中同步数据。elasticsearch-dump是一个命令行工具,易于使用,并提供了丰富的选项来定制导入导出过程,例如指定索引、查询条件和批量大小。它支持HTTP基本认证和SSL/TLS加密连接,确保数据传输的安全性。该项目由任务驱动,旨在提供可靠且灵活的数据管理解决方案。
      • elastic/elasticsearch-php - PHP 是 Elasticsearch 官方提供的 PHP 客户端,用于与 Elasticsearch 集群进行交互。它支持 Elasticsearch 的所有 API,允许你使用 PHP 代码执行索引、搜索、分析等操作。该客户端使用 Elasticsearch 的 REST API,通过 HTTP 请求与 Elasticsearch 服务器通信。它提供了简单易用的接口,方便开发者在 PHP 应用中集成 Elasticsearch。你可以使用 Composer 安装该客户端,并通过配置连接参数来连接到你的 Elasticsearch 集群。它支持多种连接方式,包括单节点和集群连接,并提供了丰富的配置选项,例如连接超时、重试策略等。Elasticsearch-PHP 旨在提供高性能和可靠性,确保你的 PHP 应用能够高效地与 Elasticsearch 交互。它是一个活跃维护的项目,会定期发布新版本,修复 bug 并添加新功能。使用 Elasticsearch-PHP,你可以轻松地构建强大的搜索和分析应用。
      • dzharii/awesome-elasticsearch - elasticsearch 是一个精心整理的 Elasticsearch 相关资源列表,汇集了文章、视频、博客、技巧和使用案例等。该项目旨在提供全面且有用的 Elasticsearch 学习资料,涵盖了 Elasticsearch 的各个方面。你可以通过该项目找到关于 Elasticsearch 的最佳实践、性能优化、以及各种实际应用场景。无论你是 Elasticsearch 初学者还是专家,都能从中受益。该资源列表持续更新,确保内容的时效性和实用性。它就像一个 Elasticsearch 百宝箱,帮助你快速掌握并精通 Elasticsearch 技术。如果你想深入了解 Elasticsearch,这个项目绝对不容错过。
      • RimoChan/sese-engine - engine 是一个基于现代架构设计的搜索引擎项目,旨在通过高效的数据处理和分布式架构实现快速、精准的全文检索能力。该项目采用分布式爬虫技术,支持从网页、文档、数据库等多种数据源中抓取信息,并通过高效的索引构建机制将非结构化数据转化为可查询的结构化索引。其核心工作原理包括三个阶段:首先通过多线程爬虫采集目标数据,随后利用倒排索引技术对文本内容进行分词、去重和索引存储,最后通过查询解析器实现用户输入的语义理解和精准匹配。 项目特色包括支持多语言分词处理(如中文的jieba分词)、基于TF-IDF和BM25算法的排名优化、分布式任务调度框架(如使用Celery或Kafka)以及支持实时增量更新的索引机制。技术实现上采用 Python 作为主要开发语言,结合 Elasticsearch 或自定义的倒排索引引擎进行数据存储,并通过 RESTful API 提供搜索接口。此外,项目还提供可视化管理界面,支持爬虫任务监控、索引状态查看和查询日志分析等功能。适用于需要构建企业级搜索系统、内容推荐引擎或数据挖掘平台的场景,特别适合处理大规模文本数据的检索需求。
  • 安卓Android

  • 加密、密码破解、字典

  • 知识管理 wiki知识库

  • 其他_大数据

    • 资源传输下载

      • Eventual-Inc/Daft
      • multiprocessio/dsq
      • Netflix/metacat
      • amphi-ai/amphi-etl - ETL是一个基于Python的低代码ETL工具,专注于可视化数据转换和数据准备。它旨在简化数据处理流程,降低技术门槛。该项目允许用户通过低代码方式构建ETL流程,减少编写复杂代码的需求。Amphi-ETL的核心在于提供直观的界面和易于使用的组件,方便用户进行数据清洗、转换和加载。它特别适合需要快速构建数据管道,但又不希望深入底层编码的场景。项目特色包括可视化界面、低代码开发、Python支持以及专注于数据转换和准备。通过Amphi-ETL,用户可以更高效地完成数据处理任务,提升数据分析和应用的效率。该项目旨在成为数据工程师和分析师的得力助手,简化数据处理流程。
      • deepseek-ai/3FS - AI 3FS 是一个高性能分布式文件系统,专为解决AI训练和推理工作负载的挑战而设计。它旨在提供高吞吐量、低延迟的数据访问,以满足AI模型对大规模数据集的需求。3FS可能采用了优化的数据布局、缓存机制和网络传输协议,以提升I/O性能。该项目致力于简化AI开发流程,加速模型训练和部署。具体的技术细节和实现方式需要进一步研究项目代码和文档。它可能支持多种数据格式和存储后端,并提供易于使用的API和工具。3FS的目标是成为AI领域高效可靠的数据存储解决方案。
      • grafana/mimir
      • AutoMQ/automq
      • yjs/yjs - free Replicated Data Types (CRDTs),这使得它能够在无需中心服务器的情况下实现数据一致性。它支持多种数据结构,如文本、数组、对象和 XML 文档。Yjs 适用于各种协作应用,包括文本编辑器、白板和表单。它具有离线支持、历史记录和权限控制等特性。Yjs 提供了多种绑定,可与流行的前端框架(如 React、Vue 和 Svelte)集成。它还支持 WebSocket 和其他传输协议。Yjs 的目标是提供高性能、可扩展和易于使用的协作解决方案。它是一个开源项目,拥有活跃的社区支持。Yjs 的架构允许灵活地选择服务器端存储和身份验证机制。
      • m3db/m3
      • jitsucom/jitsu
      • apache/parquet-java
      • apache/datafusion-ballista
      • apache/incubator-gluten
      • zeromq/pyzmq
      • emitter-io/emitter - 订阅平台。它旨在提供实时消息传递解决方案,支持大规模并发和高吞吐量。Emitter.io的核心功能是允许发布者将消息发送到特定主题,而订阅者可以接收他们感兴趣的主题的消息。该平台采用分布式架构,可以轻松扩展以满足不断增长的需求。Emitter.io特别强调低延迟,确保消息能够快速传递给订阅者。它适用于需要实时数据更新的各种应用场景,例如实时分析、物联网设备通信和在线游戏。Emitter.io提供了简单的API,方便开发者集成到他们的应用程序中。它是一个强大的工具,可以构建响应迅速且可扩展的实时应用程序。
      • microsoft/garnet
      • rustfs/rustfs
      • databricks/Spark-The-Definitive-Guide
      • loro-dev/loro - free Replicated Data Types)的数据结构,确保在不同客户端修改数据时不会产生冲突。Loro支持多种数据类型,包括文本、数组、对象等,并提供了丰富的API方便开发者集成。其特点包括高性能、低延迟、离线可用、以及强大的冲突解决能力。Loro特别适合构建需要多人实时协作的应用程序,例如在线文档编辑器、协同设计工具等。Loro的设计目标是提供简单易用的API,同时保证数据的一致性和可靠性。它使用Rust编写,并提供了多种语言的绑定,方便不同平台的开发者使用。Loro致力于成为下一代协同数据解决方案。
      • deepstreamIO/deepstream.io - 响应模式。Deepstream.io 的核心是基于消息的,所有交互都通过订阅和发布消息来实现。它使用记录 (Records) 来存储和同步数据,列表 (Lists) 来维护有序的数据集合,以及事件 (Events) 来进行实时消息传递。该服务器支持多种客户端,包括 JavaScript、Node.js、Java、Python 等。Deepstream.io 的特色在于其高性能、灵活性和易于集成,适用于实时协作、游戏、金融交易等场景。它旨在简化实时应用程序的开发,并提供强大的安全性和权限控制机制。Deepstream.io 使用插件架构,允许开发者扩展其功能并集成自定义逻辑。通过提供内置的身份验证、授权和数据验证功能,Deepstream.io 确保数据的安全性和完整性。
      • koxudaxi/datamodel-code-generator - code-generator 是一个代码生成器,用于从 JSON、OpenAPI、JSON Schema 和 YAML 数据源轻松生成 Pydantic 模型和 dataclasses.dataclass。它简化了数据模型的创建过程,避免了手动编写重复代码。该工具通过解析数据源的结构,自动生成对应的 Python 类定义,包括字段类型、验证规则等。这极大地提高了开发效率,并确保数据模型与数据源保持同步。项目支持自定义模板和插件,可以灵活地调整代码生成过程以满足不同的需求。它旨在帮助开发者快速构建可靠且易于维护的数据模型,从而提升整体项目的质量和效率。
      • obi1kenobi/trustfall
      • quarylabs/quary
      • thenaturalist/awesome-business-intelligence
      • redis/lettuce
      • asynkron/protoactor-go - go 特别针对 Go 的并发模型进行了深度优化,利用 Go 协程和 channel 实现高效的消息路由,同时兼容 C# 和 Java/Kotlin 的跨平台能力。项目强调高可用性设计,通过超时重试、监督树机制和持久化策略保障系统稳定性,开发者可通过简单 API 定义 actor 行为,并通过配置实现跨节点部署。目前项目在 GitHub 上持续更新,社区提供详细的文档和示例代码,适合需要构建大规模分布式系统的开发者使用。
  • CPU_RISC-V

    • 资源传输下载

      • ading2210/linuxpdf - V 架构的模拟器,将一个精简的 Linux 系统嵌入到 PDF 中。用户打开 PDF 文件后,可以通过 JavaScript 脚本启动 RISC-V 模拟器,从而在 PDF 阅读器中运行 Linux。这个项目展示了 PDF 格式的强大功能和 JavaScript 的灵活性,也为安全研究和代码混淆提供了一些有趣的思路。它并非一个实用的操作系统,而更多的是一个技术演示和概念验证,体现了创造性和技术实力。
      • below/HelloSilicon
      • cpq/bare-metal-programming-guide
      • amanusk/s-tui - tui 是一个基于终端的 CPU 压力测试和监控工具。它允许用户在终端界面实时监控 CPU 温度、频率、利用率和功耗等关键指标。s-tui 可以对 CPU 进行压力测试,帮助用户评估散热系统性能和系统稳定性。该工具使用 curses 库构建用户界面,提供直观的图形化显示。它支持自定义监控参数和压力测试时长。s-tui 适用于 Linux 系统,可以通过 pip 安装。项目特色包括实时监控、压力测试、自定义配置和易于使用的终端界面。其工作原理是通过读取系统文件(如 /proc/stat 和 /sys/class/thermal/thermal_zone0/temp)来获取 CPU 信息,并使用 stress 命令进行压力测试。s-tui 提供了一个方便的方式来监控和测试 CPU 的性能。
      • 0xAX/asm
      • libopencm3/libopencm3 - M微控制器库,旨在提供一个自由、高效且易于使用的底层硬件访问层。它支持多种Cortex-M系列芯片,包括M0、M3、M4和M7,并提供了一致的API来访问外设,例如GPIO、UART、SPI和I2C。该库采用模块化设计,允许开发者只包含所需的功能,从而减小代码体积。libopencm3基于宽松的ISC许可证,允许在商业和开源项目中使用。它通过直接操作寄存器来实现高性能,避免了复杂的抽象层。该项目提供详尽的文档和示例,方便开发者快速上手。libopencm3的目标是简化嵌入式开发,并促进ARM Cortex-M微控制器的广泛应用。它还支持多种工具链,如GCC和Clang。
      • dendibakh/perf-book
      • sql-hkr/tiny8 - hkr/tiny8,旨在为学习计算机架构和CPU工作原理提供一个简洁直观的工具。它通过模拟简化版CPU的核心功能,帮助用户理解指令执行、内存访问等基本原理,特别适合编程初学者或对计算机科学感兴趣的学习者使用。该模拟器采用极简设计,代码量小且结构清晰,无需复杂配置即可运行,用户可通过修改代码或扩展功能来深入研究CPU的工作机制。其工作原理基于Python语言实现的指令集模拟,包括寄存器操作、内存读写和基础运算逻辑,通过逐条解析并执行自定义指令集,模拟真实CPU的运行过程。项目特色在于其轻量化设计,避免了传统CPU模拟器的复杂性,同时保留了核心功能模块,便于用户快速上手和学习。此外,该项目开源在GitHub上,允许用户自由查看代码、学习原理或进行二次开发,适合用作教学案例或个人实验项目。由于其代码简洁且注释明确,用户可借此理解CPU如何逐条处理指令、管理内存和寄存器,从而掌握计算机底层运行的基本逻辑。该项目虽规模较小,但完整覆盖了CPU模拟的核心概念,是学习计算机体系结构的实用工具。
      • simd-everywhere/simde
      • xtensor-stack/xsimd - stack/xsimd 是一个专注于C++语言的SIMD(单指令多数据)指令集封装库,旨在为开发者提供跨平台、高性能的向量化计算能力。该项目通过封装多种硬件架构的SIMD指令(如SSE、AVX、AVX512、NEON、SVE、WebAssembly、VSX、RISC-V等),为数学运算、数据处理和科学计算提供优化后的并行化函数实现,显著提升计算密集型任务的效率。其核心工作原理是通过C++头文件库的形式,自动适配不同CPU架构的SIMD指令集,无需手动编写汇编代码,开发者只需调用预定义的函数即可触发底层硬件加速。 项目特别强调跨平台兼容性,支持从x86到ARM架构的主流硬件,同时覆盖WebAssembly等新兴平台,确保代码在不同环境中保持性能一致性。其设计注重易用性,提供与xsimd库的无缝集成,允许用户通过CMake配置自动选择目标平台的指令集,并支持运行时检测硬件特性以动态调整计算方式。性能优势体现在对向量化计算(如向量加法、乘法、归约操作)和并行化算法的深度优化,尤其适合处理大规模数值计算、机器学习、图像处理等场景。 xsimd的项目结构采用模块化设计,核心功能通过头文件实现,减少编译依赖,同时提供详细的文档和示例代码。开发者可通过GitHub社区获取支持,项目持续维护并适配新硬件架构。总之,该项目为需要高性能计算的C++开发者提供了统一的SIMD编程接口,降低了底层硬件优化的复杂度,同时兼顾灵活性和跨平台能力。
  • Java程序设计

    • 资源传输下载

      • ikvmnet/ikvm
      • resilience4j/resilience4j
      • dropwizard/metrics
      • fast-excel/fastexcel
      • json-path/JsonPath - path/JsonPath是一个基于Java实现的JSON路径查询工具库,旨在为开发者提供高效、直观的JSON数据解析与操作能力。项目支持通过类似XPath的语法对JSON对象进行精准查询,可处理嵌套结构、数组元素及多层级数据,适用于从简单JSON解析到复杂数据过滤的多种场景。核心功能包括对JSON和XML数据的支持,通过简洁的路径表达式(如$.store.book[0].title)快速定位目标值,同时提供过滤条件(如[?(@.price < 10)])与操作符(如==、!=、>等)实现动态数据筛选。项目采用轻量级设计,性能优化显著,能够兼容Java 8及以上版本,并通过Maven或Gradle轻松集成。开发者可通过官方文档获取详细语法指南和使用示例,项目持续维护且社区活跃,适合作为构建数据处理工具链的基础组件。
  • 药物-靶标_药物-药物_化合物-蛋白质_相互作用

    • 资源传输下载

      • CHB-learner/NeoBert - HLA结合预测,这对于癌症免疫治疗至关重要。该项目由CHB-learner团队开发。
  • 细胞

Categories
A01_文本生成_文本对话 2,286 前端开发框架及项目 760 其他_机器学习与深度学习 549 网络服务 368 后端开发框架及项目 316 其他_机器视觉 314 其他_安全与渗透 287 其他 277 NLP语料和数据集 247 硬件_其他 216 网络信息服务 187 A01_机器学习教程 177 其他__大数据 158 时间序列 141 多模态大模型 136 语音识别与合成_其他 129 Python 程序 118 其他_NLP自然语言处理 113 语音合成 112 数据库管理系统 109 其他_推荐系统 107 计算机编程 数据结构与算法 104 JavaScript框架 103 其他_生物医药 93 游戏 91 终端 90 扫描器、资产收集、子域名 87 编辑器 86 Rust 程序设计 84 Android 应用 78 图像生成 72 C/C++ 程序设计 65 3D视觉生成重建 63 对象检测、分割 60 人像\姿势\3D人脸 59 CPU RISC-V 59 分布式机器学习 57 金融股票 51 分子 50 其他_图神经网络GNN 49 Transformer库与优化 49 C/C++程序设计 48 计算机编程_数据结构与算法 47 区块链、智能合约 46 对象检测_分割 44 Java 程序设计 43 web shell、shellcode 43 Android应用 41 Flutter 程序 41 光学字符识别OCR 39 Go 程序设计 39 知识图谱 39 漏洞库_漏洞靶场 38 推荐系统算法库与列表 38 参数优化 38 文本匹配 文本检索 文本相似度 35 蛋白质结构 33 实体识别NER、意图识别、槽位填充 32 语音识别 31 BERT优化 31 视频生成_补帧_摘要 31 数据搜索引擎 30 关系抽取、信息抽取 30 加密、密码破解、字典 29 预训练模型 29 药物-靶标 药物-药物 化合物-蛋白质 相互作用 27 杀毒免杀、逆向工程 27 图像恢复 27 其他_大数据 26 向量数据库、向量搜索、最近邻搜索 25 文本分类 25 扫描器_资产收集_子域名 24 时空网络_交通预测_动态图 24 知识管理_wiki知识库 24 文本摘要 23 知识图谱问答KBQA、多跳推理 22 图嵌入、网络表征学习 22 Rust程序设计 22 图机器学习库 22 梯度提升和树模型 22 人像_姿势_3D人脸 21 漏洞库、漏洞靶场 20 异构图、 异质图 16 异常检测 16 图像风格 15 神经网络结构搜索_Neural_Architecture_Search 15 视频生成、补帧、摘要 15 机器阅读理解 14 文本生成、文本对话 14 知识管理 wiki知识库 13 特征工程 13 Python程序 12 图卷积网络 12 基因 11 加密_密码破解_字典 10 CPU_RISC-V 10 区块链_智能合约 10 药物发现、药物设计 10 文本匹配_文本检索_文本相似度 9 安卓Android 9 图对抗攻击 8 杀毒免杀_逆向工程 7 图注意力机制 6 图监督_半监督_对比学习 5 Java程序设计 5 webshell_shellcode 5 图预训练 Pre-Training of Graph 4 图聚合_节点聚合 4 向量数据库_向量搜索_最近邻搜索 4 关系抽取_信息抽取 3 Go程序设计 3 知识图谱问答KBQA_多跳推理 3 Flutter程序 2 抗菌肽 2 神经网络结构搜索 Neural Architecture Search 2 药物-靶标_药物-药物_化合物-蛋白质_相互作用 1 细胞 1