Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/wuwenjie1992/StarryDivineSky
精选了5K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 5000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!
https://github.com/wuwenjie1992/StarryDivineSky
List: StarryDivineSky
awesome awesome-list biomedicine cv data-science deep-learning hacker language-model large-language-models machine-learning nlp web
Last synced: 3 months ago
JSON representation
精选了5K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 5000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!
- Host: GitHub
- URL: https://github.com/wuwenjie1992/StarryDivineSky
- Owner: wuwenjie1992
- License: other
- Created: 2020-08-17T13:29:06.000Z (about 4 years ago)
- Default Branch: master
- Last Pushed: 2024-08-11T07:21:04.000Z (3 months ago)
- Last Synced: 2024-08-11T08:30:21.991Z (3 months ago)
- Topics: awesome, awesome-list, biomedicine, cv, data-science, deep-learning, hacker, language-model, large-language-models, machine-learning, nlp, web
- Homepage: https://www.wuwenjie.xyz
- Size: 18.6 MB
- Stars: 618
- Watchers: 11
- Forks: 87
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- ultimate-awesome - StarryDivineSky - 精选了6K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 6000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star! . (Other Lists / PowerShell Lists)
README
StarryDivineSky
精选了6K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。
Selected more than 6000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc.
让更多优秀的项目被人发现,让更多的人感受开源的魅力。
Let more excellent projects be discovered by people, let more people feel the charm of open source.
持续更新!欢迎🌟star!😀😀😀 Continue to update! Welcome to star! 😀😀😀
# 目录
- [机器学习与深度学习](#机器学习与深度学习)
- [NLP自然语言处理](#NLP自然语言处理)
* [🚀🚀🚀大语言对话模型及数据](#大语言对话模型及数据)
- [网络与前后端开发](#网络与前后端开发)
- [推荐系统](#推荐系统)
- [机器视觉](#机器视觉)
- [因果推断](#因果推断)
- [金融股票与时间序列](#金融股票与时间序列)
- [强化学习](#强化学习-reinforcement-learning)
- [语音识别与合成](#语音识别与合成)
- [生物医药](#生物医药)
- [图数据库 图算法](#图数据库图算法)
- [图神经网络GNN](#图神经网络GNN)
- [大数据](#大数据)
- [虚拟化](#虚拟化)
- [安全与渗透](#安全与渗透)
- [硬件](#硬件)
- [其他项目](#其他项目)# Star🌟数变化
* [![关注者](https://starchart.cc/wuwenjie1992/StarryDivineSky.svg)](https://starchart.cc/wuwenjie1992/StarryDivineSky)
# 加入社区
# 机器学习与深度学习
* [Coursera-ML-AndrewNg-Notes](https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes) ![stars](https://img.shields.io/github/stars/fengdu78/Coursera-ML-AndrewNg-Notes.svg?style=social) 吴恩达老师的机器学习课程个人笔记
* [d2l-ai/d2l-zh](https://github.com/d2l-ai/d2l-zh) ![stars](https://img.shields.io/github/stars/d2l-ai/d2l-zh.svg?style=social) 《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被60多个国家的400多所大学用于教学。
* [apachecn/AiLearning](https://github.com/apachecn/AiLearning) ![stars](https://img.shields.io/github/stars/apachecn/AiLearning.svg?style=social) AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP
* [microsoft/ai-edu](https://github.com/microsoft/ai-edu) ![stars](https://img.shields.io/github/stars/microsoft/ai-edu.svg?style=social) 微软人工智能教育与学习共建社区。由**基础教程**、**实践案例**、**实践项目**三大模块构成,通过系统化的理论教程和丰富多样的实践案例,帮助学习者学习并掌握人工智能的知识,并锻炼在实际项目中的开发能力。
* [microsoft/Data-Science-For-Beginners](https://github.com/microsoft/Data-Science-For-Beginners) ![stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social) 10 周20 节课,全民数据科学!
* [mli/paper-reading](https://github.com/mli/paper-reading) ![stars](https://img.shields.io/github/stars/mli/paper-reading.svg?style=social) 深度学习经典、新论文逐段精读。包括视频讲解。
* [josephmisiti/awesome-machine-learning](https://github.com/josephmisiti/awesome-machine-learning) 机器学习框架、库和软件的精选列表
* [AMAI-GmbH/AI-Expert-Roadmap](https://github.com/AMAI-GmbH/AI-Expert-Roadmap) 2022年成为人工智能专家的路线图
* [dair-ai/ML-YouTube-Courses](https://github.com/dair-ai/ML-YouTube-Courses) 在 YouTube 上发现最新的机器学习/人工智能课程。
* [visenger/awesome-mlops](https://github.com/visenger/awesome-mlops) 机器学习操作 (MLOps),可自动执行并加速机器学习生命周期。精选的参考文献列表。
* [fuzzylabs/awesome-open-mlops](https://github.com/fuzzylabs/awesome-open-mlops) MLOps(机器学习操作)是一门帮助人们在生产环境中成功训练、部署和运行机器学习模型的学科。因为这是一个快速发展的新领域,所以有很多工具,而且新的工具一直在出现。这是 Fuzzy Labs 指南,介绍了免费和开源 MLOps 工具的世界。
* [kelvins/awesome-mlops](https://github.com/kelvins/awesome-mlops) 精选的精彩 MLOps 工具列表。包括:AutoML 自动机器学习、用于机器学习的 CI/CD、Cron作业监控、数据目录、数据扩充、数据探索、数据管理、数据处理、数据验证、数据可视化、漂移检测、特征工程、功能商店、超参数调优、知识共享、机器学习平台、模型公平性和隐私性、模型可解释性、模型生命周期、模型服务、模型测试和验证、优化工具、简化工具、可视化分析与调试、工作流工具、资源、文章、书、事件、其他列表、播客、Slack、网站链接、贡献
* [fengdu78/lihang-code](https://github.com/fengdu78/lihang-code) 《统计学习方法》第二版的代码实现
* [Dod-o/Statistical-Learning-Method_Code](https://github.com/Dod-o/Statistical-Learning-Method_Code) 实现李航《统计学习方法》中全部算法
* [datawhalechina/pumpkin-book](https://github.com/datawhalechina/pumpkin-book) 本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节。
* [ShusenTang/Dive-into-DL-PyTorch](https://github.com/ShusenTang/Dive-into-DL-PyTorch) 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。
* [datawhalechina/leedl-tutorial](https://github.com/datawhalechina/leedl-tutorial) 《李宏毅深度学习教程》,PDF下载
* [ageron/handson-ml2](https://github.com/ageron/handson-ml2) 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。
* [fengdu78/deeplearning_ai_books](https://github.com/fengdu78/deeplearning_ai_books) deeplearning.ai(吴恩达老师的深度学习课程笔记及资源)
* [GokuMohandas/Made-With-ML](https://github.com/GokuMohandas/Made-With-ML) 了解如何设计、开发、部署和迭代生产级 ML 应用程序。在本课程中,将从实验(设计 + 开发)到生产(部署 + 迭代)。我们将通过激励组件来迭代地做到这一点,这些组件将使我们能够构建可靠的生产系统。
* [kmario23/deep-learning-drizzle](https://github.com/kmario23/deep-learning-drizzle) 通过从这些令人兴奋的讲座中学习,让自己沉浸在深度学习、强化学习、机器学习、计算机视觉和 NLP
* [cbamls/AI_Tutorial](https://github.com/cbamls/AI_Tutorial) 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。算法大牛笔记汇总
* [EthicalML/awesome-production-machine-learning](https://github.com/EthicalML/awesome-production-machine-learning) 精选的开源库列表,用于部署、监控、版本控制和扩展您的机器学习
* [FavioVazquez/ds-cheatsheets](https://github.com/FavioVazquez/ds-cheatsheets) 统治世界的数据科学备忘单列表
* [nndl/nndl.github.io](https://github.com/nndl/nndl.github.io) 《神经网络与深度学习》 邱锡鹏著
* [ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code](https://github.com/ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code) 500个AI机器学习 深度学习 计算机视觉 NLP 代码项目
* [ZuzooVn/machine-learning-for-software-engineers](https://github.com/ZuzooVn/machine-learning-for-software-engineers) 学习成为机器学习工程师的完整日常计划。
* [NirantK/awesome-project-ideas](https://github.com/NirantK/awesome-project-ideas) 机器学习、NLP、视觉、推荐系统项目创意的精选列表
* [Mikoto10032/DeepLearning](https://github.com/Mikoto10032/DeepLearning) 深度学习入门教程, 优秀文章
* [chefyuan/algorithm-base](https://github.com/chefyuan/algorithm-base) 用动画将算法说的通俗易懂
* [MorvanZhou/tutorials](https://github.com/MorvanZhou/tutorials) 机器学习相关教程
* [rougier/scientific-visualization-book](https://github.com/rougier/scientific-visualization-book) 一本关于使用 python 和 matplotlib 进行科学可视化的开放获取书籍
* [bangoc123/learn-machine-learning-in-two-months](https://github.com/bangoc123/learn-machine-learning-in-two-months) 在 2 个月内学习好机器学习所需的知识。
* [ukas/ml-class](https://github.com/lukas/ml-class) 专为工程师设计的机器学习课程和教学项目
* [Mohitkr95/Best-Data-Science-Resources](https://github.com/Mohitkr95/Best-Data-Science-Resources) 该存储库包含最好的数据科学免费精选资源,可为您提供所有行业驱动的技能和面试准备工具包。
* [academic/awesome-datascience](https://github.com/academic/awesome-datascience) 很棒的数据科学存储库,用于学习和应用现实世界的问题。
* [eugeneyan/applied-ml](https://github.com/eugeneyan/applied-ml) 生产中的数据科学和机器学习的精选论文、文章和博客。
* [eriklindernoren/ML-From-Scratch](https://github.com/eriklindernoren/ML-From-Scratch) 从头开始机器学习。机器学习模型和算法的裸骨 NumPy 实现,重点关注可访问性。旨在涵盖从线性回归到深度学习的所有内容。
* [roboticcam/machine-learning-notes](https://github.com/roboticcam/machine-learning-notes) 不间断更新的机器学习,概率模型和深度学习的讲义(2000+页)和视频链接
* [donnemartin/data-science-ipython-notebooks](https://github.com/donnemartin/data-science-ipython-notebooks) 数据科学Python笔记本:深度学习(TensorFlow,Theano,Caffe,Keras),scikit-learn,Kaggle,大数据(Spark,Hadoop MapReduce,HDFS),matplotlib,pandas,NumPy,SciPy,Python essentials,AWS和各种命令行。
* [NLP-LOVE/ML-NLP](https://github.com/NLP-LOVE/ML-NLP) 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。
* [tangyudi/Ai-Learn](https://github.com/tangyudi/Ai-Learn) 人工智能学习路线图,整理近200个实战案例与项目,免费提供配套教材,零基础入门,就业实战!包括:Python,数学,机器学习,数据分析,深度学习,计算机视觉,自然语言处理,等热门领域
* [dragen1860/Deep-Learning-with-TensorFlow-book](https://github.com/dragen1860/Deep-Learning-with-TensorFlow-book) 深度学习入门开源书,基于TensorFlow 2.0案例实战。
* [openmlsys/openmlsys-zh](https://github.com/openmlsys/openmlsys-zh) 《机器学习系统:设计与实现》- 中文版
* [PKUFlyingPig/cs-self-learning](https://github.com/pkuflyingpig/cs-self-learning/) 计算机自学指南深度学习入门开源书,基于TensorFlow 2.0案例实战。
* [mml-book/mml-book.github.io](https://github.com/mml-book/mml-book.github.io) 《机器学习数学》一书的配套网页
* [afshinea/stanford-cs-229-machine-learning](https://github.com/afshinea/stanford-cs-229-machine-learning) 斯坦福大学 CS 229 机器学习的 VIP 备忘单
* [abmlai/annotated_deep_learning_paper_implementations](https://github.com/labmlai/annotated_deep_learning_paper_implementations) 神经网络和相关算法的简单 PyTorch 实现的集合。将这些呈现为并排格式化的笔记。我们相信这些将帮助您更好地理解这些算法。
* [yunjey/pytorch-tutorial](https://github.com/yunjey/pytorch-tutorial) 深度学习研究人员的 PyTorch 教程
* [PyTorchLightning/PyTorch-lightning](https://github.com/PyTorchLightning/PyTorch-lightning) 基于Pytorch的轻量高级计算框架,相当于Keras框架。
* [bharathgs/Awesome-pytorch-list](https://github.com/bharathgs/Awesome-pytorch-list) github上pytorch相关内容的完整列表,例如不同的模型,实现,帮助程序库,教程等。
* [sgrvinod/Deep-Tutorials-for-PyTorch](https://github.com/sgrvinod/Deep-Tutorials-for-PyTorch) 使用 PyTorch 自行实现深度学习模型的深入教程。
* [apachecn/pytorch-doc-zh](https://github.com/apachecn/pytorch-doc-zh) Pytorch 中文文档
* [zergtant/pytorch-handbook](https://github.com/zergtant/pytorch-handbook) pytorch handbook是一本开源的书籍,目标是帮助那些希望和使用PyTorch进行深度学习开发和研究的朋友快速入门,其中包含的Pytorch教程全部通过测试保证可以成功运行
* [pytorch/examples](https://github.com/pytorch/examples) 一组关于 pytorch 在视觉、文本、强化学习等方面的示例。
* [ELS-RD/kernl](https://github.com/ELS-RD/kernl/) 第一个使用 OpenAI Triton 编写的 OSS 推理引擎,这是一种由 OpenAI 设计的新语言,可以更轻松地编写 GPU 内核。每个内核不到200行代码,易于理解和修改。
* [BoltzmannEntropy/interviews.ai](https://github.com/BoltzmannEntropy/interviews.ai) 深度学习面试书:数百个完全解决的工作面试问题,来自 AI 的广泛关键主题。
* [ChristosChristofidis/awesome-deep-learning](https://github.com/ChristosChristofidis/awesome-deep-learning) 精选深度学习教程、项目和社区列表。
* [microsoft/AI-For-Beginners](https://github.com/microsoft/AI-For-Beginners) Microsoft的 Azure 云倡导者很高兴提供为期 12 周、每节课的人工智能课程。
* [google-research/tuning_playbook](https://github.com/google-research/tuning_playbook) 系统地最大化深度学习模型性能的手册。重点是超参数调优的过程。我们涉及深度学习训练的其他方面,例如管道实现和优化,但我们对这些方面的处理并不打算完整。
* [floodsung/Deep-Learning-Papers-Reading-Roadmap](https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap) 深度学习论文阅读路线图,适合任何渴望学习这项惊人技术的人!
* [scutan90/DeepLearning-500-questions](https://github.com/scutan90/DeepLearning-500-questions) 深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 分为18个章节,50余万字。
* [mrdbourke/pytorch-deep-learning](https://github.com/mrdbourke/pytorch-deep-learning) 学习用于深度学习的 PyTorch:从零到精通课程的材料。
* [ageron/handson-ml3](https://github.com/ageron/handson-ml3) 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。
* [girls-in-ai/Girls-In-AI](https://github.com/girls-in-ai/Girls-In-AI) 免费学代码系列:小白python入门、数据分析data analyst、机器学习machine learning、深度学习deep learning、kaggle实战
* [kailashahirwar/cheatsheets-ai](https://github.com/kailashahirwar/cheatsheets-ai) 深度学习和机器学习工程师的基本备忘单
* [cbamls/AI_Tutorial](https://github.com/cbamls/AI_Tutorial) 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。
* [apachecn/pytorch-doc-zh](https://github.com/apachecn/pytorch-doc-zh) Pytorch 中文文档,PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (张量库)
* [PaddlePaddle/Paddle](https://github.com/PaddlePaddle/Paddle) 『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署
* [alibaba/MNN](https://github.com/alibaba/MNN) 轻量级的深度神经网络推理引擎
* [Tencent/TNN](https://github.com/Tencent/TNN) 移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势
* [microsoft/nnfusion](https://github.com/microsoft/nnfusion) 灵活高效的深度神经网络(DNN)编译器,可从DNN模型描述生成高性能的可执行文件。
* [apache/incubator-tvm](https://github.com/apache/incubator-tvm) 用于深度学习系统的编译器堆栈。它旨在缩小以生产力为中心的深度学习框架与以性能和效率为重点的硬件后端之间的差距。TVM与深度学习框架一起使用,以提供对不同后端的端到端编译
* [geohot/tinygrad](https://github.com/geohot/tinygrad) 不到1000行的深度学习框架,麻雀虽小,但五脏俱全,这个深度学习框架使用起来和PyTorch类似
* [karpathy/micrograd](https://github.com/karpathy/micrograd) 微型标量自动求导引擎,类似PyTorch API的神经网络库
* [Jittor/jittor](https://github.com/Jittor/jittor) 基于 JIT 编译和元运算符的高性能深度学习框架。整个框架和元运算符是及时编译的。它使我们能够生成专门针对您的模型的高性能代码。Jittor 还包含丰富的高性能模型库,包括:图像识别、检测、分割、生成、可微渲染、几何学习、强化学习等。
* [wandb/client](https://github.com/wandb/client) Weights and Biases 组织和分析机器学习实验 它与框架无关,并且比TensorBoard轻巧。每次您运行带有的脚本时wandb,都会保存您的超参数和输出指标。在训练过程中可视化模型,并轻松比较模型的版本。我们还将自动跟踪您的代码状态,系统指标和配置参数。
* [NUAA-AL/ALiPy](https://github.com/NUAA-AL/ALiPy) 基于Python实现的主动学习工具包
* [facebookresearch/nevergrad](https://github.com/facebookresearch/nevergrad) 无梯度优化平台
* [yzhao062/combo](https://github.com/yzhao062/combo) 用于机器学习**模型组合**的 Python 工具箱。模型组合可以被认为是整体学习的子任务,并且已被广泛用于诸如Kaggle [3]之类的现实任务和数据科学竞赛中。
* [google/trax](https://github.com/google/trax) 代码更清晰的神经网络代码库
* [Oneflow-Inc/oneflow](https://github.com/Oneflow-Inc/oneflow) OneFlow是一个以性能为中心的开源深度学习框架。
* [jonasrauber/eagerpy](https://github.com/jonasrauber/eagerpy) 编写与PyTorch,TensorFlow,JAX和NumPy本地兼容的代码
* [tensorlayer/TensorLayerX](https://github.com/tensorlayer/TensorLayerX) 跨平台开发框架,支持TensorFlow, Pytorch, MindSpore, PaddlePaddle, OneFlow和Jittor,用户不需要修改任何代码即可以运行在各类操作系统和AI硬件上(如Nvidia-GPU 和 Huawei-Ascend),并支持混合框架的开发。
* [borgwang/tinynn](https://github.com/borgwang/tinynn) 用 Python3 编写的轻量级深度学习框架(用于学习目的)。
* [rushter/MLAlgorithms](https://github.com/rushter/MLAlgorithms) 机器学习算法
* [MLEveryday/100-Days-Of-ML-Code](https://github.com/MLEveryday/100-Days-Of-ML-Code) 100-Days-Of-ML-Code中文版
* [csuldw/MachineLearning](https://github.com/csuldw/MachineLearning) csuldw/MachineLearning
* [luwill/machine-learning-code-writing](https://github.com/luwill/machine-learning-code-writing) luwill/machine-learning-code-writing
* [geekinglcq/CDCS](https://github.com/geekinglcq/CDCS) CDCS 中国数据竞赛优胜解集锦
* [mlpack/mlpack](https://github.com/mlpack/mlpack) C++ 快速、灵活的机器学习库
* [apple/coremltools](https://github.com/apple/coremltools) 包含用于 Core ML模型转换、编辑和验证的支持工具。
* [tensorflow/ranking](https://github.com/tensorflow/ranking) TensorFlow中的排名学习
* [scikit-survival](https://github.com/scikit-survival) 生存分析
* [ShichenXie/scorecardpy](https://github.com/ShichenXie/scorecardpy) Scorecard Development in python, 评分卡
* [lavender28/Credit-Card-Score](https://github.com/lavender28/Credit-Card-Score) 申请信用评分卡模型
* [modin-project/modin](https://github.com/modin-project/modin) 通过更改一行代码来扩展加速pandas
* [vaexio/vaex](https://github.com/vaexio/vaex) 适用于Python的核外DataFrame,以每秒十亿行的速度可视化和探索大型表格数据
* [cupy/cupy](https://github.com/cupy/cupy) 使用 CUDA 加速类似 NumPy 的 API
* [serge-sans-paille/pythran](https://github.com/serge-sans-paille/pythran) 将 Python 代码转成 C++ 代码执行 一个 AOT (Ahead-Of-Time - 预先编译) 编译器,大幅度提升性能。
* [RAPIDS Open GPU Data Science](http://rapids.ai) RAPIDS 开放 GPU 数据科学库。cuDF - GPU DataFrame Library GPU数据表库。cuML - RAPIDS Machine Learning Library RAPIDS 机器学习库。cuGraph - RAPIDS Graph Analytics Library RAPIDS 图分析库。cuSignal - RAPIDS Signal Processing Library RAPIDS信号处理库
* [AtsushiSakai/PythonRobotics](https://github.com/AtsushiSakai/PythonRobotics) 包括了机器人设计中常用的定位算法、测绘算法、路径规划算法、SLAM 、路径跟踪算法。
* [sql-machine-learning/sqlflow](https://github.com/sql-machine-learning/sqlflow) 连接 SQL 引擎的桥接,与机器学习工具包连接
* [esa/pagmo2](https://github.com/esa/pagmo2) 大规模并行优化的科学库 生物启发式算法和进化算法
* [geatpy-dev/geatpy](https://github.com/geatpy-dev/geatpy) 高性能遗传进化算法工具箱
* [guofei9987/scikit-opt](https://github.com/guofei9987/scikit-opt) 强大的启发式算法Python模块 遗传算法 粒子群优化 模拟退火 蚁群算法 免疫算法 人工鱼群算法
* [interpretml/interpret](https://github.com/interpretml/interpret) 训练可解释的机器学习模型和解释黑匣子系统
* [alexmojaki/heartrate](https://github.com/alexmojaki/heartrate) 调试 Python程序执行的简单实时可视化
* [bojone/keras_recompute](https://github.com/bojone/keras_recompute) 通过重计算来节省显存,参考论文《Training Deep Nets with Sublinear Memory Cost》。
* [yuanming-hu/taichi_mpm](https://github.com/yuanming-hu/taichi_mpm) 带有切割和耦合(CPIC)的高性能MLS-MPM(基于移动最小二乘法的物质点法)求解器
* [pytorch/opacus](https://github.com/pytorch/opacus) Opacus是一个库,可以使用不同的隐私训练PyTorch模型。
* [pycaret/pycaret](https://github.com/pycaret/pycaret) Python中的开源,低代码机器学习库
* [thuml/Transfer-Learning-Library](https://github.com/thuml/Transfer-Learning-Library) 用于迁移学习的开源且文档齐全的库。它基于具有高性能和友好API的纯PyTorch。当前支持的算法包括:领域对抗神经网络(DANN)深度适应网络(DAN)联合适应网络(JAN)条件域对抗网络(CDAN)最大分类器差异(MCD)Margin Disparity Discrepancy 保证金差异(MDD)
* [jxhe/unify-parameter-efficient-tuning](https://github.com/jxhe/unify-parameter-efficient-tuning) 参数高效迁移学习 (PETL) 方法仅调整少量(额外)参数以使大型预训练模型适应下游任务。
* [FedML-AI/FedML](https://github.com/FedML-AI/FedML) 面向研究的联邦学习库。支持分布式计算,移动/IoT设备训练和模拟
* [bytedance/fedlearner](https://github.com/bytedance/fedlearner) 字节开源联邦机器学习平台,采用的是一套云原生的部署方案。数据存放在HDFS,用MySQL存储系统数据。通过Kubernetes管理和拉起任务。每个Fedlearner的训练任务需要参与双方同时拉起K8S任务,通过Master节点统一管理,Worker建实现通信。以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。
* [mit-han-lab/mcunet](https://github.com/mit-han-lab/mcunet) IoT硬件上精简的深度学习库 Tiny Deep Learning on IoT Devices
* [Aimhubio/Aim](https://github.com/Aimhubio/Aim) 一个超级简单的记录、查找、比较AI实验的库。
* [microsoft/onnxruntime](https://github.com/microsoft/onnxruntime) 跨平台深度学习训练和推理机加速器,与深度学习框架,可以兼容TensorFlow、Keras和PyTorch等多种深度学习框架。Open Neural Network Exchange 是用于表示深度学习模型的开放格式,定义了通用运算符、机器学习和深度学习模型的构建块以及通用文件格式,可与各种框架工具和编译器一起使用。
* [microsoft/hummingbird](https://github.com/microsoft/hummingbird) 将训练有素的机器学习模型编译为张量计算,以加快推理速度。 用于将经过训练的传统ML模型编译为张量计算的库。
* [microsoft/EdgeML](https://github.com/microsoft/EdgeML) Microsoft Research India开发的边缘设备提供了机器学习算法。
* [ml-tooling/best-of-ml-python](https://github.com/ml-tooling/best-of-ml-python) 很棒的机器学习Python库的排名列表。
* [terryyz/PyArmadillo](https://github.com/terryyz/PyArmadillo) Python 语言的线性代数库,强调易用性。该库旨在提供类似于 Matlab 或者 Octave 的高级语法和功能,使得用户以熟悉且自然的方式表达数学运算。提供了用于矩阵和多维数据集(cube)的对象,以及 200 多个用于处理对象中存储数据的相关函数。所有功能都可以在一个平面结构中访问,并且支持整数、浮点数和复数。通过集成 LAPACK 或者 Intel MKL、OpenBLAS 等高性能替代产品,该库可以提供各种矩阵分解。
* [raminmh/liquid_time_constant_networks](https://github.com/raminmh/liquid_time_constant_networks) 一种能适应实时世界系统的变化的神经网络。神经网络的设计灵感来自生物大脑,设计灵感直接来自秀丽隐杆线虫(C. elegans)。他说:「它的神经系统仅有 302 个神经元,但却可以产生超出预期的复杂动态。」 Liquid 网络的流动性使其能更弹性地应对意料之外的数据或噪声数据。
* [mlech26l/keras-ncp](https://github.com/mlech26l/keras-ncp) 设计灵感直接来自秀丽隐杆线虫 由感官神经元接收环境信息、而后经过中间神经元,传递给指令神经元进而形成决策信息,最后由动作神经元完成决策的执行并完成动作。
* [skorch-dev/skorch](https://github.com/skorch-dev/skorch) 综合scikit-learn和PyTorch的机器学习库,可以实现sklearn和PyTorch高效兼容。
* [OpenMined/PySyft](https://github.com/OpenMined/PySyft) 用于安全和私有深度学习的Python库。PySyft使用联合学习,差分隐私和加密计算(例如PyTorch和TF中的多方计算 (MPC) 和同态加密 (HE) 将模型训练中的私人数据进行解耦。
* [pyro-ppl/pyro](https://github.com/pyro-ppl/pyro) 基于PyTorch作为后端的通用概率编程语言 (PPL)。
* [PytorchLightning/metrics](https://github.com/PytorchLightning/metrics) PyTorch原生的函数和度量模块的集合,用于简单的性能评估。可以使用常见的指标,如准确性,召回率,精度,AUROC, RMSE, R²等,或者创建你自己的指标。支持超过25个指标,并不断增加更多通用任务和特定领域的标准(目标检测,NLP等)。
* [teddykoker/torchsort](https://github.com/teddykoker/torchsort) 快速可微分排序算法PyTorch包,配有自定义C ++和CUDA
* [man-group/dtale](https://github.com/man-group/dtale) pandas数据结构的可视化工具
* [google/model_search](https://github.com/google/model_search) 帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小化编程时间和计算资源。
* [neuronika/neuronika](https://github.com/neuronika/neuronika) 纯Rust的张量和动态神经网络库。
* [matazure/mtensor](https://github.com/matazure/mtensor) 一个tensor计算库, 支持cuda的延迟计算
* [e-tony/best-of-ml-rust](https://github.com/e-tony/best-of-ml-rust) 一个令人赞叹的Rust机器学习排名表。
* [awslabs/autogluon](https://github.com/awslabs/autogluon) 为文本、图像、表格数据开发的自动机器学习库(AutoML)。
* [luwill/Machine_Learning_Code_Implementation](https://github.com/luwill/Machine_Learning_Code_Implementation) 机器学习算法的数学推导和纯Python代码实现。
* [ml-tooling/best-of-ml-python](https://github.com/ml-tooling/best-of-ml-python) 一个令人赞叹的python机器学习排名表,每周更新。
* [thuwyh/InferLight](https://github.com/thuwyh/InferLight) 提高模型的线上推理吞吐量近2.5倍。
* [ContrastiveSR/Contrastive_Learning_Papers](https://github.com/ContrastiveSR/Contrastive_Learning_Papers) 对比学习的相关论文列表。内容包括:计算机视觉、NLP、推荐系统、图模型等方面的应用。
* [Tencent/WeChat-TFCC](https://github.com/Tencent/WeChat-TFCC) C++深入学习推理框架。提供以下工具包,便于您开发和部署训练 DL 模型:TFCC深度学习推理库的核心、TFCC 代码生成器、TFCC 运行时。
* [idrl-lab/idrlnet](https://github.com/idrl-lab/idrlnet) 基于内嵌物理知识神经网络的开源求解框架
* [KaiyuYue/torchshard](https://github.com/KaiyuYue/torchshard) 马里兰大学帕克分校计算机科学系的研究者开源了一个轻量级的引擎,用于将 PyTorch 张量切片成并行的 shard。当模型拥有大量的线性层(例如 BERT、GPT)或者很多类(数百万)时,TorchShard 可以减少 GPU 内存并扩展训练规模,它具有与 PyTorch 相同的 API 设计。
* [marcotcr/lime](https://github.com/marcotcr/lime) LIMELocal Interpretable Model-agnostic Explanations被用作解释机器学习模型。
* [MAIF/shapash](https://github.com/MAIF/shapash) 非常炫酷的模型解释性工具包。
* [microsoft/ML-For-Beginners](https://github.com/microsoft/ML-For-Beginners) 微软给初学者开源了一份机器学习课程。
* [sfu-db/dataprep](https://github.com/sfu-db/dataprep) Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。
* [scikit-learn-contrib/hdbscan](https://github.com/scikit-learn-contrib/hdbscan) 用无监督学习来查找数据集的集群聚类或密集区域的工具。主要算法是HDBSCAN。该算法的高性能实现,以及用于分析结果聚类的工具。
* [nvidia/TensorRT](https://github.com/nvidia/TensorRT) C++库,用于对 NVIDIA GPU 和深度学习加速器进行高性能推论。
* [dropreg/R-Drop](https://github.com/dropreg/R-Drop) 填补Dropout缺陷,简单又有效的正则方法。在每个 mini-batch 中,每个数据样本过两次带有 Dropout 的同一个模型,R-Drop 再使用 KL-divergence 约束两次的输出一致。
* [ucbrise/actnn](https://github.com/ucbrise/actnn) PyTorch的激活压缩训练框架。在同样内存限制下,通过使用 2 bit 激活压缩,可将 batch size 扩大 6-14 倍,将模型尺寸或者输入图片扩大 6-10 倍。
* [softsys4ai/FlexiBO](https://github.com/softsys4ai/FlexiBO) 基于成本感知的多目标优化深度神经网络
* [XuezheMax/apollo](https://github.com/XuezheMax/apollo) Apollo:用于非凸随机优化的自适应参数对角拟牛顿法
* [statsmodels/statsmodels](https://github.com/statsmodels/statsmodels) Statsmodels:Python 中的统计建模和计量经济学库。
* [evidentlyai/evidently](https://github.com/evidentlyai/evidently) 在验证或生产监控期间分析机器学习模型的交互式报告。
* [louisfb01/best_AI_papers_2021](https://github.com/louisfb01/best_AI_papers_2021) 按发布日期列出的人工智能最新突破(2021 年)的精选列表,附有清晰的视频说明、更深入文章的链接和代码。
* [DataCanvasIO/DeepTables](https://github.com/DataCanvasIO/DeepTables) DeepTables:表格数据的深度学习工具包
* [arogozhnikov/Einops](https://github.com/arogozhnikov/Einops) 深度学习操作被彻底改造(用于 pytorch、tensorflow、jax 等). einops(爱因斯坦标记法),让代码可读性更强.
* [haifengl/smile](https://github.com/haifengl/smile) Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。
* [wesm/pydata-book](https://github.com/wesm/pydata-book) Wes McKinney的“Python for Data Analysis”材料和IPython笔记本,由O'Reilly Media出版
* [Visualize-ML/Book3_Elements-of-Mathematics](https://github.com/Visualize-ML/Book3_Elements-of-Mathematics) Book_3_《数学要素》 | 鸢尾花书:从加减乘除到机器学习
* [roatienza/Deep-Learning-Experiments](https://github.com/roatienza/Deep-Learning-Experiments) 了解深度学习的视频、笔记和实验
* [MingchaoZhu/DeepLearning](https://github.com/MingchaoZhu/DeepLearning) 该书为《深度学习》(花书) 数学推导、原理剖析与源码级别代码实现
* [aladdinpersson/Machine-Learning-Collection](https://github.com/aladdinpersson/Machine-Learning-Collection) 在此存储库中,您将找到与机器学习相关的教程和项目。我尝试使代码尽可能清晰,目标是用作学习资源和查找问题以解决特定问题的方法。对于大多数人,如果您想要代码的演练,我还在YouTube上做了视频解释。
* [fastai/fastai](https://github.com/fastai/fastai) 一个深度学习库,它提供了高级组件,可以在标准深度学习领域快速轻松地提供最先进的结果,并为研究人员提供可以混合和匹配以构建新方法的低级组件。它旨在做到这两件事,而不会在易用性、灵活性或性能方面做出实质性妥协。这要归功于精心分层的架构,该架构以解耦抽象的形式表达了许多深度学习和数据处理技术的共同底层模式。这些抽象可以通过利用底层Python语言的动态性和PyTorch库的灵活性来简洁明了地表达。
* [rasbt/deeplearning-models](https://github.com/rasbt/deeplearning-models) 各种深度学习架构、模型和技巧的集合。Jupyter Notebooks中TensorFlow和PyTorch的深度学习架构、模型和技巧的集合。
* [bfortuner/ml-glossary](https://github.com/bfortuner/ml-glossary) 机器学习术语表
* [fastai/fastbook](https://github.com/fastai/fastbook) 这些笔记本介绍了深度学习、fastai 和 PyTorch。fastai 是用于深度学习的分层 API。
* [ZuzooVn/machine-learning-for-software-engineers](https://github.com/ZuzooVn/machine-learning-for-software-engineers) 学习成为机器学习工程师的完整日常计划。
* [terryum/awesome-deep-learning-papers](https://github.com/terryum/awesome-deep-learning-papers) 被引用最多的深度学习论文 on Oct 19, 2018
* [d2l-ai/d2l-en](https://github.com/d2l-ai/d2l-en) 交互式深度学习书籍,包含多框架代码、数学和讨论。被斯坦福大学、麻省理工学院、哈佛大学和剑桥大学等 60 个国家的 400 所大学采用。
* [dragen1860/TensorFlow-2.x-Tutorials](https://github.com/dragen1860/TensorFlow-2.x-Tutorials) TensorFlow 2.x版本的教程和示例,包括CNN,RNN,GAN,Auto-Encoders,FasterRCNN,GPT,BERT示例等。 TF 2.0版入门实例代码,实战教程。
* [BayesWitnesses/m2cgen](https://github.com/BayesWitnesses/m2cgen) 将 ML 模型转换为零依赖的本机代码(Java、C、Python、Go、JavaScript、Visual Basic、C#、R、PowerShell、PHP、Dart、Haskell、Ruby、F#、Rust)
* [Jack-Cherish/Machine-Learning](https://github.com/Jack-Cherish/Machine-Learning) 机器学习实战(Python3):kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归
* [Vay-keen/Machine-learning-learning-notes](https://github.com/Vay-keen/Machine-learning-learning-notes) 周志华《机器学习》又称西瓜书是一本较为全面的书籍,书中详细介绍了机器学习领域不同类型的算法(例如:监督学习、无监督学习、半监督学习、强化学习、集成降维、特征选择等),记录了本人在学习过程中的理解思路与扩展知识点,希望对新人阅读西瓜书有所帮助!
* [Yorko/mlcourse.ai](https://github.com/Yorko/mlcourse.ai) 由 OpenDataScience (ods.ai) 领导的开放式机器学习课程,由 Yury Kashnitsky(Yorko)领导。Yury拥有应用数学博士学位和Kaggle竞赛大师级学位,旨在设计一门在理论与实践之间取得完美平衡的ML课程。因此,该课程在讲座中为您提供数学公式,并以作业和 Kaggle 课堂竞赛的形式进行大量练习。目前,该课程处于自定进度模式。
* [lawlite19/MachineLearning_Python](https://github.com/lawlite19/MachineLearning_Python) 机器学习算法python实现
* [jindongwang/MachineLearning](https://github.com/jindongwang/MachineLearning) 一些关于机器学习的学习资料与研究介绍
* [dotnet/machinelearning](https://github.com/dotnet/machinelearning) .NET 的开源和跨平台机器学习框架。
* [dustinvtran/ml-videos](https://github.com/dustinvtran/ml-videos) 机器学习视频资源的集合
* [Visualize-ML/Book4_Power-of-Matrix](https://github.com/Visualize-ML/Book4_Power-of-Matrix) Book_4_《矩阵力量》 | 鸢尾花书:从加减乘除到机器学习;上架!
* [ShusenTang/Deep-Learning-with-PyTorch-Chinese](https://github.com/ShusenTang/Deep-Learning-with-PyTorch-Chinese) 将PyTorch官方书籍《Deep learning with PyTorch》(基本摘录版)翻译成中文版并给出可运行的相关代码。
* [ritchieng/the-incredible-pytorch](https://github.com/ritchieng/the-incredible-pytorch) 一个精选的教程、项目、库、视频、论文、书籍以及与令人难以置信的 PyTorch 相关的任何内容。
* [virgili0/Virgilio](https://github.com/virgili0/Virgilio) 开源计划,旨在指导和指导数据科学领域的任何人。我们的愿景是让每个人都有机会参与这个领域,从实践者开始,获得新技能,并学会在无限的资源网络中导航,并找到对您有用的资源。
* [louisfb01/start-machine-learning](https://github.com/louisfb01/start-machine-learning) 机器学习 (ML)、人工智能 (AI) 的完整指南,无需任何该领域背景,并随时了解最新消息和最先进的技术!
* [scipy/scipy](https://github.com/scipy/scipy) SciPy(发音为“Sigh Pie”)是一款用于数学、科学和工程的开源软件。它包括用于统计、优化、积分、线性代数、傅里叶变换、信号和图像处理、常微分方程求解器等模块。
* [numpy/numpy](https://github.com/numpy/numpy) 使用 Python 进行科学计算的基础包。它提供:一个强大的 N 维数组对象、复杂的(广播)功能、用于集成 C/C++ 和 Fortran 代码的工具、有用的线性代数、傅里叶变换和随机数功能。
* [jakevdp/PythonDataScienceHandbook](https://github.com/jakevdp/PythonDataScienceHandbook) 包含完整的 Python 数据科学手册,其形式为 (免费!Jupyter 笔记本。
* [andkret/Cookbook](https://github.com/andkret/Cookbook) 数据工程手册
* [ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide](https://github.com/ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide) 为本科生或任何想在扎实基础上深入研究人工智能领域的任何人提供详细和量身定制的指南。本指南适用于任何具有基本编程知识或计算机科学背景的人,有兴趣成为深度学习和 NLP 研究科学家。
* [doccano/doccano](https://github.com/doccano/doccano) 面向机器学习从业者的开源注释工具。
* [mrdbourke/machine-learning-roadmap](https://github.com/mrdbourke/machine-learning-roadmap) 2020 年机器学习路线图(2023 年仍有 90% 有效),连接机器学习中许多最重要概念的路线图,如何学习它们以及使用哪些工具来执行它们。
* [VowpalWabbit/vowpal_wabbit](https://github.com/VowpalWabbit/vowpal_wabbit) 机器学习系统,它通过在线、哈希、allreduce、reductions、learning2search、active 和交互式学习、Bandit等技术推动了机器学习的前沿。
* [janishar/mit-deep-learning-book-pdf](https://github.com/janishar/mit-deep-learning-book-pdf) 麻省理工学院深度学习书 PDF 格式(完整和部分),作者:Ian Goodfellow、Yoshua Bengio 和 Aaron Courville
* [amusi/Deep-Learning-Interview-Book](https://github.com/amusi/Deep-Learning-Interview-Book) 深度学习面试宝典(含数学、机器学习、深度学习、计算机视觉、自然语言处理和SLAM等方向)
* [xenova/transformers.js](https://github.com/xenova/transformers.js) 最先进的 Web 机器学习。直接在浏览器中运行🤗Transformers,无需服务器! 被设计为在功能上等同于 Hugging Face 的 transformers python 库,这意味着您可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模式的常见任务,例如:自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。计算机视觉:图像分类、物体检测和分割。音频:自动语音识别和音频分类。多模态:零样本图像分类。Transformers.js使用 ONNX 运行时在浏览器中运行模型。最好的部分是,您可以使用 🤗 Optimum 轻松地将预训练的 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX。
* [MorvanZhou/PyTorch-Tutorial](https://github.com/MorvanZhou/PyTorch-Tutorial) 轻松快速地构建您的神经网络, 莫烦Python中文教学
* [tensorpack/tensorpack](https://github.com/tensorpack/tensorpack) 基于图模式 TensorFlow 的神经网络训练接口。另一个 TF 高级 API,具有以下亮点:注重训练速度。Tensorpack 的速度是免费的——它以高效的方式使用 TensorFlow,没有额外的开销。在普通的 CNN 上,它的训练速度比等效的 Keras 代码快 1.2~5 倍。如果使用 Tensorpack 编写,您的训练可能会更快。可扩展的数据并行多 GPU/分布式训练策略是现成的。有关更多基准测试,请参阅 tensorpack/benchmarks。符号编程(例如 tf.data )不提供研究所需的数据处理灵活性。Tensorpack 通过各种自动并行化策略从纯 Python 中榨取最大的性能。
## 特征工程
* [FeatureLabs/featuretools](https://github.com/FeatureLabs/featuretools) 特征工程工具箱
* [ScienceKot/kydavra](https://github.com/ScienceKot/kydavra) 特征筛选工具
* [aerdem4/lofo-importance](https://github.com/aerdem4/lofo-importance) LOFO(Leave One Feature Out)重要性基于选择的度量计算一组特征的重要性,对于选择的模型,通过迭代地从集合中删除每个特征,并评估模型的性能。
* [imbalanced-learn](https://github.com/scikit-learn-contrib/imbalanced-learn) 解决机器学习中不平衡数据集
* [ResidentMario/missingno](https://github.com/ResidentMario/missingno) 灵活且易于使用的缺失数据可视化和实用程序,可让您快速直观地了解数据集的完整性(或缺乏完整性)。
* [RUCAIBox/Negative-Sampling-Paper](https://github.com/RUCAIBox/Negative-Sampling-Paper) 该知识库收录了与负采样方法相关的 100 篇论文,涵盖推荐系统(RS)、计算机视觉(CV)、自然语言处理(NLP)和对比学习(CL)等多个研究领域。
* [haifengl/smile](https://github.com/haifengl/smile) Smile(统计机器智能和学习引擎)是Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。
## 异常检测
* [leibinghe/GAAL-based-outlier-detection](https://github.com/leibinghe/GAAL-based-outlier-detection) 基于盖尔的异常检测
* [yzhao062/pyod](https://github.com/yzhao062/pyod) 异常检测库
* [hoya012/awesome-anomaly-detection](https://github.com/hoya012/awesome-anomaly-detection) 异常检测列表
* [kLabUM/rrcf](https://github.com/kLabUM/rrcf) 用于异常检测的鲁棒随机砍伐森林算法的实现
* [mangushev/mtad-gat](https://github.com/mangushev/mtad-gat) 基于图注意力网络的多变量时间序列异常检测模型
* [d-ailin/GDN](https://github.com/d-ailin/GDN) 基于图神经网络的多变量时间序列异常检测
* [DHI/tsod](https://github.com/DHI/tsod) 时间序列数据异常检测
* [manigalati/usad](https://github.com/manigalati/usad) 多变量时间序列的无监督异常检测
* [awslabs/realtime-fraud-detection-with-gnn-on-dgl](https://github.com/awslabs/realtime-fraud-detection-with-gnn-on-dgl) 实时欺诈检测(利用图形数据库 Amazon Neptune)的端到端解决方案,使用 Amazon SageMaker 和DGL从表格数据构建异构图形并训练GNN模型来检测IEEE-CIS 数据集中的欺诈交易。
* [safe-graph/UGFraud](https://github.com/safe-graph/UGFraud) 用于欺诈检测的基于图的无监督工具箱
* [squareRoot3/Rethinking-Anomaly-Detection](https://github.com/squareRoot3/Rethinking-Anomaly-Detection) 重新思考用于异常检测的图神经网络
* [yzhao062/anomaly-detection-resources](https://github.com/yzhao062/anomaly-detection-resources) 异常检测相关书籍、论文、视频和工具箱
## 参数优化
* [hyperopt/hyperopt](https://github.com/hyperopt/hyperopt) 分布式超参数优化
* [optuna/optuna](https://github.com/optuna/optuna) 超参数优化框架
* [WillKoehrsen/hyperparameter-optimization](https://github.com/WillKoehrsen/hyperparameter-optimization) 超参数优化
* [HDI-Project/BTB](https://github.com/HDI-Project/BTB) Bayesian Tuning and Bandits,auto-tuning系统的一个简单、可扩展的后端系统。
* [scikit-optimize/scikit-optimize](https://github.com/scikit-optimize/scikit-optimize) 一个简单高效的库,可最大限度地减少(非常)昂贵且嘈杂的黑盒功能。它实现了几种基于顺序模型优化的方法。
* [automl/SMAC3](https://github.com/automl/SMAC3) 基于序列模型的算法配置 优化任意算法的参数
* [CMA-ES/pycma](https://github.com/CMA-ES/pycma) 基于CMA-ES 协方差矩阵的自适应策略的Py实现和一些相关的数值优化工具。
* [SheffieldML/GPyOpt](https://github.com/SheffieldML/GPyOpt) 使用GPy进行高斯过程优化
* [pytorch/botorch](https://github.com/pytorch/botorch) PyTorch中的贝叶斯优化
* [JasperSnoek/spearmint](https://github.com/JasperSnoek/spearmint) 机器学习算法的实用贝叶斯优化
* [facebookresearch/nevergrad](https://github.com/facebookresearch/nevergrad) 用于执行无梯度优化的Python工具箱
* [Yelp/MOE](https://github.com/Yelp/MOE) 用于现实世界的指标优化的全局黑匣子优化引擎。
* [fmfn/BayesianOptimization](https://github.com/fmfn/BayesianOptimization) 具有高斯过程的全局优化的Python实现。
* [dragonfly/dragonfly](https://github.com/dragonfly/dragonfly) 用于可扩展的贝叶斯优化
* [ray-project/ray](https://github.com/ray-project/ray) Tune可伸缩超参数调整
* [keras-team/keras-tuner](https://github.com/keras-team/keras-tuner) keras的超参数调整库。
* [PKU-DAIR/open-box](https://github.com/PKU-DAIR/open-box) 通用且高效的黑盒优化系统。旨在解决泛化的黑盒优化(BBO)问题, 例如自动化超参数调优、自动化A/B测试、 实验设计、数据库参数调优、处理器体系结构和电路设计、资源分配等。
* [jina-ai/finetuner](https://github.com/jina-ai/finetuner) 微调任何 DNN 以更好地嵌入神经搜索任务
* [noah-research/BO/HEBO/CompBO](https://github.com/huawei-noah/noah-research/tree/CompBO/BO/HEBO/CompBO) 使用组合优化器进行贝叶斯优化,由华为研发、诺亚方舟实验室(伦敦)开发的贝叶斯优化代码库
* [huawei-noah/HEBO](https://github.com/huawei-noah/HEBO) 华为诺亚方舟库开发的贝叶斯优化库
* [thunlp/OpenDelta](https://github.com/thunlp/OpenDelta) 用于参数高效方法的工具包(增量调整),用户可以通过它灵活地分配(或添加)少量参数以进行更新,同时保持大多数参数不变。
* [HunterMcGushion/hyperparameter_hunter](https://github.com/HunterMcGushion/hyperparameter_hunter) 跨机器学习算法和库的轻松超参数优化和自动结果保存
## 梯度提升和树模型
* [dmlc/xgboost](https://github.com/dmlc/xgboost) 可扩展、可移植和分布式梯度提升(GBDT、GBRT 或 GBM)库,适用于 Python、R、Java、Scala、C++ 等。 在单机、Hadoop、Spark、Dask、Flink 和 DataFlow 上运行。
* [microsoft/LightGBM](https://github.com/microsoft/LightGBM) 基于决策树算法的快速、分布式、高性能梯度提升(GBT、GBDT、GBRT、GBM 或 MART)框架,用于排名、分类和许多其他机器学习任务。
* [motefly/DeepGBM](https://github.com/motefly/DeepGBM) 为在线预测任务提炼的深度学习GBDT框架
* [catboost/catboost](https://github.com/catboost/catboost) 一个快速、可扩展、高性能的决策树梯度提升库,用于 Python、R、Java、C++ 的排名、分类、回归和其他机器学习任务。 支持在 CPU 和 GPU 上进行计算。
* [Xtra-Computing/thundergbm](https://github.com/Xtra-Computing/thundergbm) ThunderGBM:GPU 上的快速 GBDT 和随机森林
* [GBDT-PL/GBDT-PL](https://github.com/GBDT-PL/GBDT-PL) 使用分段线性树进行梯度提升
* [mesalock-linux/gbdt-rs](https://github.com/mesalock-linux/gbdt-rs) MesaTEE GBDT-RS:一个快速且安全的 GBDT 库,支持 Intel SGX 和 ARM TrustZone 等 TEE
* [tensorflow/decision-forests](https://github.com/tensorflow/decision-forests) 一组最先进的算法,用于训练、服务和解释 Keras 决策森林模型。
* [kingfengji/gcForest](https://github.com/kingfengji/gcForest) 这是论文“深度森林:走向深度神经网络的替代方案”的官方实现
* [LAMDA-NJU/Deep-Forest](https://github.com/LAMDA-NJU/Deep-Forest) Deep Forest 2021.2.1的实现
* [hlamotte/decision-tree](https://github.com/hlamotte/decision-tree) 在C++的决策树
* [augboost-anon/augboost](https://github.com/augboost-anon/augboost) 逐步特征增强的梯度提升。
* [DataCanvasIO/HyperGBM](https://github.com/DataCanvasIO/HyperGBM) 用于表格数据的完整管道 AutoML 工具, 涉及多个梯度提升树模型(GBM),即XGBoost、LightGBM和Catboost。
* [Microstrong0305/WeChat-zhihu-csdnblog-code](https://github.com/Microstrong0305/WeChat-zhihu-csdnblog-code) Regression Tree 回归树 深入理解提升树(Boosting tree)算法 深入理解GBDT回归 GBDT二分类算法 GBDT多分类算法 XGBoost LightGBM CatBoost 深入浅出Word2Vec原理解析 Doc2vec原理解析及代码实践
* [antmachineintelligence/mtgbmcode](https://github.com/antmachineintelligence/mtgbmcode) 提出了多任务梯度提升机 (MT-GBM),这是一种基于 GBDT 的多任务学习方法。MT-GBM 可以根据多任务损失找到共享树结构和拆分分支。
* [parrt/dtreeviz](https://github.com/parrt/dtreeviz) 用于决策树可视化和模型解释的 python 库。决策树是梯度提升机和随机森林 (tm) 的基本构建块,这可能是结构化数据中两种最流行的机器学习模型。在了解这些模型的工作原理和解释模型时,可视化决策树是一个巨大的帮助。可视化效果的灵感来自 R2D3 的教育动画;机器学习的视觉介绍。请参阅如何可视化决策树,以更深入地讨论我们的决策树可视化库和我们所做的可视化设计决策。目前 dtreeviz 支持:scikit-learn、XGBoost、Spark MLlib、LightGBM 和 Tensorflow。作者:特伦斯·帕尔 (Terence Parr) 是谷歌的技术主管,直到 2022 年,他是旧金山大学的数据科学/计算机科学教授,并于 2012 年担任旧金山大学数据科学硕士课程的创始主任。Tudor Lapusan ;Prince Grover。主要代码和可视化清理由 Matthew Epland (@mepland) 完成。
## 神经网络结构搜索 Neural Architecture Search
* [huawei-noah/CARS](https://github.com/huawei-noah/CARS) 华为提出基于进化算法和权值共享的神经网络结构搜索
* [microsoft/nni](https://github.com/microsoft/nni) 用于自动化机器学习生命周期的开源AutoML工具包,包括功能工程,神经体系结构搜索,模型压缩和超参数调整。
* [awslabs/autogluon](https://github.com/awslabs/autogluon) 用于深度学习的AutoML工具包 [autogluon.mxnet.io](https://autogluon.mxnet.io)
* [researchmm/CDARTS](https://github.com/researchmm/CDARTS) 循环可微架构搜索
* [xiaomi-automl/FairDARTS](https://github.com/xiaomi-automl/FairDARTS) 消除差异化架构搜索中的不公平优势
* [ianwhale/nsga-net](https://github.com/ianwhale/nsga-net) 使用多目标遗传算法的神经架构搜索
* [human-analysis/neural-architecture-transfer](https://github.com/human-analysis/neural-architecture-transfer) 神经架构迁移
* [PaddlePaddle/PaddleSlim](https://github.com/PaddlePaddle/PaddleSlim) 一个用于深度模型压缩和架构搜索的开源库。提供低比特量化、知识蒸馏、稀疏化和模型结构搜索等模型压缩策略,帮助用户快速实现模型的小型化。
## 分布式机器学习
* [horovod/horovod](https://github.com/horovod/horovod) Uber开源的分布式训练框架。它的发展吸取了Facebook "Training ImageNet In 1 Hour" 与百度 "Ring Allreduce" 的优点,可为用户实现分布式训练提供帮助。
* [dask/dask](https://github.com/dask/dask) 用Python编写的,是一个灵活的、开源的并行计算库,提供大规模性能 高级并行性。
* [hpcaitech/ColossalAI](https://github.com/hpcaitech/ColossalAI) 用于大规模并行训练的统一深度学习系统,具有高效并行化技术的集成大规模模型训练系统。可以让您在几行代码内快速开始分布式训练,通过并行化策略、异构内存管理为深度学习任务加速或者节省显存。
* [microsoft/DeepSpeed](https://github.com/microsoft/DeepSpeed) 深度学习优化库,它使分布式训练变得容易,高效和有效。
* [FMInference/FlexGen](https://github.com/FMInference/FlexGen) 高吞吐量的生成引擎,用于在GPU内存有限的情况下运行大型语言模型。FlexGen允许通过IO高效分载、压缩和大有效批处理大小生成高吞吐量。
* [microsoft/SynapseML](https://github.com/microsoft/SynapseML) 简单和分布式机器学习。基于 Apache Spark 分布式计算框架构建,与 SparkML/MLLib 库共享相同的 API,允许您将 SynapseML 模型无缝嵌入到现有的 Apache Spark 工作流程中。
* [Oneflow-Inc/libai](https://github.com/Oneflow-Inc/libai) 基于OneFlow的大规模模型训练开源工具箱。支持丰富的并行训练配置,包括但不限于分布式训练、混合精度训练、后向重计算、ZeRO,多样化的训练技巧,同时支持视觉与自然语言处理任务、简单易用,便于上手。
* [Qihoo360/XLearning](https://github.com/Qihoo360/XLearning) 支持多种机器学习、深度学习框架调度系统。基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。
* [sql-machine-learning/elasticdl](https://github.com/sql-machine-learning/elasticdl) Kubernetes原生的深度学习框架,支持容错和弹性调度,支持TensorFlow和PyTorch。
* [kubeflow/kubeflow](https://github.com/kubeflow/kubeflow) 用于机器学习操作的云原生平台 - 管道、训练和部署。
* [alibaba/euler](https://github.com/alibaba/euler) 大规模分布式的图学习框架,配合TensorFlow或者阿里内部的XDL等深度学习工具,可以支持数十亿点数百亿边的复杂异构图上进行模型训练。
* [Angel-ML/angel](https://github.com/Angel-ML/angel) 用于大规模机器学习的灵活而强大的参数服务器。基于参数服务器理念的高性能分布式机器学习和图计算平台。
* [ray-project/ray](https://github.com/ray-project/ray) 提供用于构建分布式应用程序的简单通用API的开源框架。Ray与RLlib(可扩展的强化学习库和Tune(可扩展的超参数调优库)打包在一起。
* [alibaba/Alink](https://github.com/alibaba/Alink) Alink是基于Flink的机器学习算法平台,由阿里巴巴计算平台的PAI团队开发。
* [kakaobrain/torchgpipe](https://github.com/kakaobrain/torchgpipe) pytorch的可扩展管道并行性库,可有效地训练大型的,消耗内存的模型。
* [tensorflow/mesh](https://github.com/tensorflow/mesh) 简化模型并行化 Mesh TensorFlow: Model Parallelism Made Easier
* [uber/fiber](https://github.com/uber/fiber) 简化AI的分布式计算 该项目是实验性的,API不稳定。
* [petuum/adaptdl](https://github.com/petuum/adaptdl) 资源自适应深度学习(DL)训练和调度框架。AdaptDL的目标是使分布式DL在动态资源环境(如共享集群和云)中变得轻松高效。
* [learning-at-home/hivemind](https://github.com/learning-at-home/hivemind) 一个用于在互联网上训练大型神经网络的库
* [petuum/adaptdl](https://github.com/petuum/adaptdl) 一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。
* [huggingface/accelerate](https://github.com/huggingface/accelerate) 一个简单的API,将与多GPUTPU、fp16相关的样板代码抽离了出来,保持其余代码不变。PyTorch 用户无须使用不便控制和调整的抽象类或编写、维护样板代码,就可以直接上手多 GPU 或 TPU。Accelerate 支持的集成包括:CPU 单 GPU 单一节点多 GPU 多节点多 GPU TPU 带有本地 AMP 的 FP16.
* [BaguaSys/bagua](https://github.com/BaguaSys/bagua) 八卦是由快手科技和DS3 Lab共同开发的PyTorch深度学习训练加速框架。目前支持:高级分布式训练算法:用户只需添加几行代码(可选择弹性模式)即可将单个 GPU 上的训练扩展到多 GPU(可能跨多台机器)。
* [facebookresearch/fairscale](https://github.com/facebookresearch/fairscale) 用于高性能和大规模训练的 PyTorch 扩展。
* [PKU-DAIR/Hetu](https://github.com/PKU-DAIR/Hetu) 针对大规模和自动化分布式训练的高性能分布式深度学习系统。
* [alibaba/FederatedScope](https://github.com/alibaba/FederatedScope) 综合性的联邦学习平台,为学术界和工业界的各种联邦学习任务提供方便的使用和灵活的定制。FederatedScope基于事件驱动的架构,集成了丰富的功能集合,以满足联邦学习日益增长的需求,旨在构建一个易于使用的平台,以安全有效地促进学习。
* [FederatedAI/FATE](https://github.com/FederatedAI/FATE) FATE(Federated AI Technology Enabler)是全球首个工业级联邦学习开源框架,使企业和机构能够在保护数据安全和隐私的同时进行数据协作。它实现了基于同态加密和多方计算(MPC)的安全计算协议。FATE支持各种联邦学习场景,现在提供了大量的联邦学习算法,包括逻辑回归、基于树的算法、深度学习和迁移学习。
* [Xtra-Computing/FedTree](https://github.com/Xtra-Computing/FedTree) 基于树的模型的联合学习系统。它的设计目的是高效、有效和安全。目前具有以下特点:梯度提升决策树的联合训练。多核 CPU 和 GPU 上的并行计算。支持同态加密、安全聚合和差分隐私。支持分类和回归。
* [youngfish42/Awesome-Federated-Learning-on-Graph-and-Tabular-Data](https://github.com/youngfish42/Awesome-Federated-Learning-on-Graph-and-Tabular-Data) 图形和表格数据相关论文、框架和数据集的联邦学习。
* [microsoft/PersonalizedFL](https://github.com/microsoft/PersonalizedFL) 面向研究的个性化联邦学习代码库
* [microsoft/DeepSpeedExamples](https://github.com/microsoft/DeepSpeedExamples) 此存储库包含各种示例,包括训练、推理、压缩、基准测试和使用 DeepSpeed 的应用程序。
## 其他_机器学习与深度学习
* [JuliaLang/julia](https://github.com/JuliaLang/julia) 用于科学计算的高级、高性能动态语言。
* [vikasverma1077/manifold_mixup](https://github.com/vikasverma1077/manifold_mixup) 数据增强⽅法,目标是通过插入示例的隐藏状态来学习鲁棒的特征。 我们的方法学习到的表征更具判别性和紧凑性。
* [pytorch/serve](https://github.com/pytorch/serve) 在生产环境中提供、优化和扩展 PyTorch 模型。特色:`模型管理 API`:通过优化从角色到模型的分配进行多模型管理、`推理 API`:对批量推理的 REST 和 gRPC 支持、`TorchServe 工作流`:使用多个相互依赖的模型部署复杂的 DAG、`导出模型以进行优化推理`:开箱即用的Torchscript,ORT和ONNX,IPEX,TensorRT,FasterTransformer、`性能指南`:内置支持优化、基准测试和分析 PyTorch 和 TorchServe 性能、`富有表现力的处理程序`:一种富有表现力的处理程序体系结构,通过开箱即用的支持,支持对用例的推理变得微不足道、`指标 API`:通过 Prometheus 导出、自定义指标和 PyTorch 分析器支持对系统级指标的开箱即用支持
* [PaddlePaddle/PaddleHub](https://github.com/PaddlePaddle/PaddleHub) 基于PaddlePaddle的真棒预训练模型工具包。(400+模型,包括图像,文本,音频,视频和跨模态,易于推理和服务)
* [streamlit/streamlit](https://github.com/streamlit/streamlit) 用 Python 构建数据应用程序的最快方法
* [ml-explore/mlx](https://github.com/ml-explore/mlx) Apple 机器学习研究团队推出的基于 Apple 芯片的机器学习阵列框架。主要功能包括:熟悉的 API:MLX 有一个紧跟 NumPy 的 Python API。MLX 还有一个功能齐全的 C++ API,它与 Python API 非常相似。MLX 具有更高级别的包,例如 API mlx.optimizers ,这些包与 PyTorch 密切相关, mlx.nn 以简化构建更复杂的模型。可组合函数变换:MLX支持可组合函数变换,实现自动微分、自动矢量化、计算图优化等功能。延迟计算:MLX 中的计算是延迟的。数组仅在需要时具体化。动态图构建:MLX中的计算图是动态构建的。更改函数参数的形状不会触发缓慢的编译,并且调试简单直观。多设备:操作可以在任何受支持的设备(当前为 CPU 和 GPU)上运行。统一内存:与 MLX 和其他框架的显着区别是统一内存模型。MLX 中的数组位于共享内存中。可以在任何受支持的设备类型上执行对 MLX 阵列的操作,而无需传输数据。
* [huggingface/optimum](https://github.com/huggingface/optimum) 性能优化工具,AI 生态发展迅速,越来越多的专用硬件及其优化每天都在涌现,可实现在目标硬件上训练和运行模型的最高效率。
* [mosaicml/composer](https://github.com/mosaicml/composer) 将神经网络训练速度提高 7 倍 更低的成本和更高的准确度更快地训练神经网络。我们已经实现了两打以上的加速方法,只需几行代码即可应用于您的训练循环,或与我们的内置 Trainer 一起使用。
* [China-UK-ZSL/Resources_for_KZSL](https://github.com/China-UK-ZSL/Resources_for_KZSL) KZSL:对知识驱动的零样本学习进行基准测试.用于零**样本**图像分类 ( ZS-IMGC)、零**样本**关系提取 ( ZS-RE) 和零**样本**知识图 (KG) 完成 ( ZS-KGC )
* [alibaba/Elastic-Federated-Learning-Solution](https://github.com/alibaba/Elastic-Federated-Learning-Solution) 经过百亿规模工业级场景实战验证的跨互联网企业信息合作的联邦学习框架。EFLS有以下核心特性:云原生支持自定义特征工程——大规模高可用;首开水平聚合,层次聚合双模型——更强大更便捷。
* [wuba/dl_inference](https://github.com/wuba/dl_inference) 通用深度学习推理工具,可在生产环境中快速上线由TensorFlow、PyTorch、Caffe框架训练出的深度学习模型。
* [activeloopai/Hub](https://github.com/activeloopai/Hub) AI的数据集格式。为深度学习构建、管理和可视化数据集。将数据实时流式传输到PyTorch/TensorFlow并对其进行版本控制。
* [gradio-app/gradio](https://github.com/gradio-app/gradio) 在 3 分钟内使用 Python 为您的机器学习模型创建 UI
* [PKU-DAIR/mindware](https://github.com/PKU-DAIR/mindware) 一个高效的开源 AutoML 系统,用于自动化机器学习生命周期,包括特征工程、神经架构搜索和超参数调整。
* [DataCanvasIO/Hypernets](https://github.com/DataCanvasIO/Hypernets) 通用自动化机器学习框架,用于简化特定领域中端到端 AutoML 工具包的开发。包括 tensorflow、keras、pytorch 等深度学习框架,以及 sklearn、lightgbm、xgboost 等机器学习库。引入了抽象的搜索空间表示,同时兼顾了超参数优化和神经架构搜索(NAS)的要求,使 Hypernets 成为能够适应各种自动化机器学习需求的通用框架。
* [KindXiaoming/pykan](https://github.com/KindXiaoming/pykan) Kolmogorov-Arnold 网络 (KAN) 是多层感知器 (MLP) 的有前途的替代品。KAN 与 MLP 一样具有强大的数学基础:MLP 基于通用近似定理,而 KAN 基于 Kolmogorov-Arnold 表示定理。KAN 和 MLP 是双重的:KAN 在边缘具有激活函数,而 MLP 在节点上具有激活函数。这个简单的变化使KAN在模型准确性和可解释性方面都比MLP更好。KAN 比 MLP 具有更快的扩展速度,KAN 比参数较少的 MLP 具有更好的准确性。KAN可以直观地可视化。KAN 提供 MLP 无法提供的可解释性和交互性。我们可以使用KAN来潜在地发现新的科学定律。
* [RadeonOpenCompute/ROCm](https://github.com/RadeonOpenCompute/ROCm) ROCm - 用于 HPC 和超大规模 GPU 计算的开源平台
* [PaddlePaddle/Paddle-Lite](https://github.com/PaddlePaddle/Paddle-Lite) 飞桨多端多平台高性能深度学习推理引擎.支持多平台:涵盖 Android、iOS、嵌入式 Linux 设备、Windows、macOS 和 Linux 主机。支持多种语言:包括 Java、Python、C++。轻量化和高性能:针对移动端设备的机器学习进行优化,压缩模型和二进制文件体积,高效推理,降低内存消耗
* [nvdla/hw](https://github.com/nvdla/hw) NVIDIA 深度学习加速器 (NVDLA) 是一种免费的开放式架构,它促进了设计深度学习推理加速器的标准方法。凭借其模块化架构,NVDLA 具有可扩展性、高度可配置性,并且旨在简化集成和可移植性。
* [lowRISC/opentitan](https://github.com/lowRISC/opentitan) OpenTitan是一个开源硅信任根 (RoT) 项目。使企业、平台提供商和芯片制造商的硅 RoT 设计和实现更加透明、可信和安全,以生产高质量的开放 IP 以作为全功能产品的实例化。制造商越来越多地开始关注防篡改处理器(或其中一部分),通常被称为“安全区域(Secure Enclave)”,以阻止各种攻击。芯片中使用“信任根(Root of Trust)”,在系统每次启动时进行加密检查,确保没有任何内容被恶意篡改。如果发现问题,安全区域会阻止计算机启动。
* [scikit-hep/awkward-1.0](https://github.com/scikit-hep/awkward-1.0) 使用类似 NumPy 的习语来处理类似 JSON 的数据。
* [alibaba/Curvature-Learning-Framework](https://github.com/alibaba/Curvature-Learning-Framework) 基于Tensorflow的非欧深度学习框架。实现了多种非欧流形、非欧算子和黎曼优化器,基于与Tensorflow相似的底层接口,可以便捷的迁移模型空间而不改变模型细节。背景:欧氏空间不可能无损表征树、环结构,然而双曲(负曲率)、球面(正曲率)空间无损表征。由于对结构性强的如无尺度网络、层次数据、环状数据等的优良表征能力,非欧深度学习逐渐应用到各个领域并展示出优越性,包括链接预测、推荐系统等。
* [facebookresearch/bitsandbytes](https://github.com/facebookresearch/bitsandbytes) 用于 8 位优化器和量化例程的库。
* [openai/triton](https://github.com/openai/triton) OpenAI的Triton是一种类 Python 的开源编程语言。能够高效编写 GPU 代码。它可以用不到 25 行代码写出与 cuBLAS 性能相匹配的 FP16 矩阵乘法内核。此外,使用 Triton 成功生成比同类实现效率高 2 倍的内核。
* [nebuly-ai/nebullvm](https://github.com/nebuly-ai/nebullvm) 易于使用的库,可利用最先进的优化技术促进 AI 推理。利用多种优化技术(深度学习编译器、量化、稀疏性、蒸馏等),以确定在特定硬件上执行 AI 模型的最佳方式。可以在不损失性能的情况下将您的模型加速 2 到 10 倍,如果为超低延迟和更轻的模型牺牲准确度/精度,则可加速至 30 倍.
* [baifanxxx/awesome-active-learning](https://github.com/baifanxxx/awesome-active-learning) 很棒的主动学习精选列表。主动学习是机器学习的特殊情况,它可以与专家进行交互(或其他信息源),再使用输出的新样本进行学习。
* [4paradigm/OpenMLDB](https://github.com/4paradigm/OpenMLDB) 一个开源机器学习数据库,它提供了一个计算一致特征的特征平台,用于训练和推理。
* [scikit-learn-contrib/MAPIE](https://github.com/scikit-learn-contrib/MAPIE) 用于估计预测间隔的 scikit-learn 兼容模块。
* [4paradigm/AutoX](https://github.com/4paradigm/autox) 高效的 automl 工具,针对具有表格数据的数据挖掘任务。
* [dair-ai/ml-visuals](https://github.com/dair-ai/ml-visuals) 包含图形和模板,重复使用和自定义以改进您的科学写作。
* [mindsdb/mindsdb](https://github.com/mindsdb/mindsdb) 使用 SQL语法,在数据库和数据仓库启用机器学习工作流。
* [kaidic/LDAM-DRW](https://github.com/kaidic/LDAM-DRW) 使用标签分布感知边际损失学习不平衡数据集
* [Jianf-Wang/RSG](https://github.com/Jianf-Wang/RSG) 可以在训练过程中生成稀有类样本,并且可以与任何骨干网络相结合。RSG 仅用于训练阶段,因此在测试阶段不会给骨干网带来额外的负担。
* [ZhiningLiu1998/mesa](https://github.com/ZhiningLiu1998/mesa) 设计元知识驱动的采样器解决类别不平衡问题
* [YyzHarry/imbalanced-regression](https://github.com/YyzHarry/imbalanced-regression) 深度不平衡回归(DIR)旨在从具有连续目标的不平衡数据中学习,解决某些区域的潜在缺失数据,并推广到整个目标范围。
* [dataease/dataease](https://github.com/dataease/dataease) 开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。
* [google/tensorstore](https://github.com/google/tensorstore) 用于读取和写入大型多维数组的库。
* [ahkarami/Deep-Learning-in-Production](https://github.com/ahkarami/Deep-Learning-in-Production) 有关在生产中部署基于深度学习的模型的有用说明和参考。
* [bentoml/BentoML](https://github.com/bentoml/BentoML) ML模型服务框架.创建部署和扩展机器学习服务变得容易。
* [iterative/dvc](https://github.com/iterative/dvc) Data 版本控制、用于数据和模型的 Git、机器学习实验管理
* [bokeh/bokeh](https://github.com/bokeh/bokeh) 浏览器中的交互式数据可视化,来自 Python
* [nterpretml/interpret](https://github.com/interpretml/interpret) 适合可解释的模型。 解释黑盒机器学习。
* [Guang000/Awesome-Dataset-Distillation](https://github.com/Guang000/Awesome-Dataset-Distillation) 数据集蒸馏是合成一个小数据集的任务,使得在其上训练的模型在原始大数据集上实现高性能。 数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证/测试集)上在该蒸馏数据集上训练的测试模型进行评估。 一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,持续学习、隐私、神经架构搜索等)。
* [TimDettmers/bitsandbytes](https://github.com/TimDettmers/bitsandbytes) PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;LLM.int8() 推理;8 位优化器:Adam、AdamW、RMSProp、LARS、LAMB(节省 75% 的内存);稳定嵌入层:通过更好的初始化和规范化;提高稳定性 8 位量化:分位数、线性和动态量化;快速分位数估计:比其他算法快 100 倍
* [ydataai/ydata-profiling](https://github.com/ydataai/ydata-profiling) 从 pandas DataFrame 对象创建 HTML 分析报告
* [fbdesignpro/sweetviz](https://github.com/fbdesignpro/sweetviz) 用一行代码可视化和比较数据集、目标值和关联。
* [AutoViML/AutoViz](https://github.com/AutoViML/AutoViz) 使用一行代码自动可视化任何大小的任何数据集。
* [pola-rs/polars](https://github.com/pola-rs/polars) 速度极快的 DataFrames 库,使用 Apache Arrow Columnar Format 作为内存模型在 Rust 中实现。
* [facebookincubator/AITemplate](https://github.com/facebookincubator/AITemplate) Python 框架,可将神经网络渲染为高性能 CUDA/HIP C++ 代码。 专门用于 FP16 TensorCore(NVIDIA GPU)和 MatrixCore(AMD GPU)推理。
* [salesforce/OmniXAI](https://github.com/salesforce/OmniXAI) 用于可解释 AI (XAI) 的 Python 机器学习库,提供全向可解释 AI 和可解释机器学习功能,以解决实践中解释模型做出的决策时的许多痛点。
* [MegEngine/MegCC](https://github.com/MegEngine/MegCC) 一个运行时超轻量,高效,移植简单的深度学习模型编译器
* [microsoft/Semi-supervised-learning](https://github.com/microsoft/Semi-supervised-learning) 统一的半监督学习基准,可应用于人脸识别、语音识别和音频分类
* [polyaxon/traceml](https://github.com/polyaxon/traceml) 用于机器学习/数据跟踪、可视化、可解释性、漂移检测和仪表板的引擎。
* [dabl/dabl](https://github.com/dabl/dabl) 数据分析基线库,当前主要侧重于探索性可视化和预处理。
* [Speedml/speedml](https://github.com/Speedml/speedml) 一个Python包,用于加速启动机器学习项目。
* [TimDettmers/bitsandbytes](https://github.com/TimDettmers/bitsandbytes) 用于 PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;8位优化器:Adam,AdamW,RMSProp,LARS,LAMB,Lion(节省75%的内存);稳定嵌入层:通过更好的初始化和规范化提高稳定性;8 位量化:分位数、线性和动态量化、快速分位数估计:比其他算法快 100 倍。
* [yassouali/awesome-semi-supervised-learning](https://github.com/yassouali/awesome-semi-supervised-learning) 最新和精选的令人敬畏的半监督学习论文,方法和资源列表。未标记的数据可能相对容易收集,但很少有方法可以使用它们。半监督学习通过使用大量未标记的数据以及标记的数据来构建更好的分类器来解决此问题。由于半监督学习需要更少的人力并且具有更高的准确性,因此它在理论和实践中都非常有趣。
* [vespa-engine/vespa](https://github.com/vespa-engine/vespa) 开放的大数据服务引擎。开放的大数据服务引擎 - 在服务时存储、搜索、组织和对大数据进行机器学习推理。
* [ctgk/PRML](https://github.com/ctgk/PRML) 实现Bishop的书“模式识别和机器学习”中描述的算法的Python代码
* [slundberg/shap](https://github.com/slundberg/shap) 一种博弈论方法,用于解释任何机器学习模型的输出。SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。它将最优信用分配与局部解释联系起来,使用博弈论中的经典Shapley值及其相关扩展(有关详细信息和引用,请参阅论文)。虽然SHAP可以解释任何机器学习模型的输出,但我们已经为树集成方法开发了一种高速精确算法(请参阅我们的Nature MI论文)。XGBoost,LightGBM,CatBoost,scikit-learn和pyspark tree模型支持快速C++实现。
* [Baiyuetribe/paper2gui](https://github.com/Baiyuetribe/paper2gui) 让每个人都简单方便的使用前沿人工智能技术。一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持 40+AI 模型,内容涵盖 AI 绘画、语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域。支持 Windows、Mac、Linux 系统。
* [zjhellofss/KuiperInfer](https://github.com/zjhellofss/KuiperInfer) 带你从零实现一个高性能的深度学习推理库
* [huggingface/datasets](https://github.com/huggingface/datasets) 最大的 ML 模型即用型数据集中心,提供快速、易用和高效的数据处理工具
* [NVIDIA/DeepLearningExamples](https://github.com/NVIDIA/DeepLearningExamples) 按模型组织的最先进的深度学习脚本 - 易于训练和部署,在企业级基础架构上具有可重现的准确性和性能。最新 NVIDIA 示例。
* [xorbitsai/xorbits](https://github.com/xorbitsai/xorbits) 一个开源计算框架,可以轻松扩展数据科学和机器学习工作负载 - 从数据预处理到调优、训练和模型服务。Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或者横向扩展到数千台机器,以支持处理数 TB 的数据以及训练或为大型模型提供服务。
* [plotly/dash](https://github.com/plotly/dash) 下载量最大,最值得信赖的Python框架,用于构建ML和数据科学Web应用程序。
* [trekhleb/homemade-machine-learning](https://github.com/trekhleb/homemade-machine-learning) 流行的机器学习算法的Python示例,并解释了交互式Jupyter演示和数学
* [MorvanZhou/tutorials](https://github.com/MorvanZhou/tutorials) 莫烦Python 机器学习相关教程
* [rougier/numpy-100](https://github.com/rougier/numpy-100) 100 个 numpy 练习(含解决方案)
* [fastai/numerical-linear-algebra](https://github.com/fastai/numerical-linear-algebra) 用于计算线性代数课程 fast.ai Jupyter 笔记本的免费在线教科书
* [numba/numba](https://github.com/numba/numba) 开源的、NumPy 感知的 Python 优化编译器,由 Anaconda, Inc. 赞助。它使用 LLVM 编译器项目从 Python 语法生成机器代码。Numba 可以编译一个以数字为中心的 Python 子集,包括许多 NumPy 函数。此外,Numba 还支持循环的自动并行化、GPU 加速代码的生成以及 ufuncs 和 C 回调的创建。
* [lanpa/tensorboardX](https://github.com/lanpa/tensorboardX) PyTorch的张量板(以及Chainer,MXNET,Numpy等)。使用简单的函数调用编写张量板事件。
* [swyxio/ai-notes](https://github.com/swyxio/ai-notes) 软件工程师了解新 AI 开发速度的说明。用latent.space 编写和产品头脑风暴的数据存储,但已清理 /Resources 文件夹下的规范引用。
* [tensorflow/tfjs](https://github.com/tensorflow/tfjs) WebGL 加速的 JavaScript 库,用于训练和部署 ML 模型。
* [tensorflow/rust](https://github.com/tensorflow/rust) TensorFlow 的 Rust 语言绑定。
* [aws/sagemaker-python-sdk](https://github.com/aws/sagemaker-python-sdk) 用于在 Amazon SageMaker 上训练和部署机器学习模型的库
* [ggerganov/ggml](https://github.com/ggerganov/ggml) 用于机器学习的张量库,用 C 语言编写、16 位浮点支持、整数量化支持(4 位、5 位、8 位等)、自动区分、ADAM和L-BFGS优化器、针对苹果芯片进行了优化、在x86架构上利用AVX / AVX2内部函数、在 ppc64 架构上利用 VSX 内部函数、无第三方依赖关系、运行时内存分配为零
* [probml/pyprobml](https://github.com/probml/pyprobml) Kevin Murphy的“概率机器学习”一书的Python代码
* [rasbt/python-machine-learning-book](https://github.com/rasbt/python-machine-learning-book) “Python Machine Learning (1st edition)” 一书代码存储库和信息资源
* [huggingface/candle](https://github.com/huggingface/candle) Rust 的极简主义 ML 框架,专注于性能(包括 GPU 支持)和易用性。
* [ashleve/lightning-hydra-template](https://github.com/ashleve/lightning-hydra-template) PyTorch Lightning + Hydra。一个非常用户友好的 ML 实验模板。
* [mljar/mljar-supervised](https://github.com/mljar/mljar-supervised) 用于表格数据 AutoML 的 Python 包,具有特征工程、超参数优化、解释和自动文档
* [kserve/kserve](https://github.com/kserve/kserve) 提供了一个 Kubernetes 自定义资源定义,用于在任意框架上提供机器学习 (ML) 模型。它旨在通过为 Tensorflow、XGBoost、ScikitLearn、PyTorch 和 ONNX 等常见 ML 框架提供高性能、高抽象的接口来解决生产模型服务用例。
* [Kanaries/pygwalker](https://github.com/Kanaries/pygwalker) 将 pandas 数据帧转换为交互式 UI 以进行可视化分析
* [mars-project/mars](https://github.com/mars-project/mars) 基于张量的统一框架,用于大规模数据计算,可扩展numpy,pandas,scikit-learn和Python函数。
* [CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers](https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers) 又名“黑客的贝叶斯方法”:介绍贝叶斯方法+概率编程,以计算/理解为先,数学为第二的观点。一切都在纯python
* [tracel-ai/burn](https://github.com/tracel-ai/burn) 使用 Rust 构建的新的综合动态深度学习框架,其主要目标是极高的灵活性、计算效率和可移植性。
* [rayon-rs/rayon](https://github.com/rayon-rs/rayon) Rust 的数据并行库。它非常轻巧,可以轻松地将顺序计算转换为并行计算。它还保证了数据竞争的自由。
* [flyteorg/flyte](https://github.com/flyteorg/flyte) 可扩展且灵活的工作流编排平台,可无缝统一数据、ML 和分析堆栈。
* [davisking/dlib](https://github.com/davisking/dlib) 用于在 C++ 中制作真实世界机器学习和数据分析应用程序的工具包
* [HumanSignal/label-studio](https://github.com/HumanSignal/label-studio) 具有标准化输出格式的多类型数据标注和标注工具
* [metabase/metabase](https://github.com/metabase/metabase) 以最简单、快捷的方式为公司中的每个人提供商业智能和分析
* [chenzomi12/DeepLearningSystem](https://github.com/chenzomi12/DeepLearningSystem) 跟大家一起探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着 ZOMI 在工作当中所积累、梳理、构建 AI 系统全栈的内容。希望跟所有关注 AI 开源项目的好朋友一起探讨研究,共同促进学习讨论。
* [datastacktv/data-engineer-roadmap](https://github.com/datastacktv/data-engineer-roadmap) 2021 年成为数据工程师的路线图
* [ujjwalkarn/Machine-Learning-Tutorials](https://github.com/ujjwalkarn/Machine-Learning-Tutorials) 包含机器学习和深度学习教程、文章和其他资源的主题精选列表。其他很棒的列表可以在此列表中找到。
* [lexfridman/mit-deep-learning](https://github.com/lexfridman/mit-deep-learning) 麻省理工学院深度学习相关课程的教程、作业和竞赛。[deeplearning.mit.edu](https://deeplearning.mit.edu/)
* [google-deepmind/sonnet](https://github.com/google-deepmind/sonnet) 基于 TensorFlow 2 构建的库,旨在为机器学习研究提供简单、可组合的抽象。
* [Hvass-Labs/TensorFlow-Tutorials](https://github.com/Hvass-Labs/TensorFlow-Tutorials) 带有 YouTube 视频的 TensorFlow 教程
* [aamini/introtodeeplearning](https://github.com/aamini/introtodeeplearning) 麻省理工学院 6.S191 实验室资料:深度学习简介
* [dusty-nv/jetson-inference](https://github.com/dusty-nv/jetson-inference) Hello AI World 指南,介绍如何使用 TensorRT 和 NVIDIA Jetson 部署深度学习推理网络和深度视觉基元。
* [unifyai/ivy](https://github.com/unifyai/ivy) Ivy 是一个开源机器学习框架,使您能够:自动调整模型:使用 ivy. autotune 自动查找适合您特定用例的最佳框架、编译器基础结构和硬件。将代码转换为任何框架:通过使用 ivy.transpile 将任何代码从一个框架转换为另一个框架,在任何模型、库或设备的基础上使用和构建。编写与框架无关的代码:在 ivy 中编写一次代码,然后选择最合适的 ML 框架作为后端,以利用所有优势和工具。
* [tencentmusic/cube-studio](https://github.com/tencentmusic/cube-studio) 开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式算法训练,超参搜索,推理服务VGPU,多集群调度,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型一键微调,llmops,私有知识库,AI应用商店,支持模型一键开发/推理/微调,私有化部署,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/ tf/ mxnet/ deepspeed/ paddle/ colossalai/ horovod/ spark/ ray/ volcano分布式
* [bleedline/aimoneyhunter](https://github.com/bleedline/aimoneyhunter) ai副业赚钱资讯信息的大合集,将在全网搜索并整理ai副业赚钱的相关方法、技术、工具、以及一些可以赚钱的平台和渠道。 期望能在AI时代,打破信息茧房,利用AI智能化做副业,赚取工作之余的额外收益。
* [cleanlab/cleanlab](https://github.com/cleanlab/cleanlab) 通过自动检测 ML 数据集中的问题来帮助您清理数据和标签。为了促进对混乱的真实数据进行机器学习,这个以数据为中心的 AI 包使用现有模型来估计数据集问题,这些问题可以修复以训练更好的模型。
* [owainlewis/awesome-artificial-intelligence](https://github.com/owainlewis/awesome-artificial-intelligence) 人工智能 (AI) 课程、书籍、视频讲座和论文的精选列表。
* [aws/amazon-sagemaker-examples](https://github.com/aws/amazon-sagemaker-examples) 示例 Jupyter 笔记本,演示如何使用 Amazon SageMaker 构建、训练和部署机器学习模型
* [Netflix/metaflow](https://github.com/Netflix/metaflow) 轻松构建和管理现实生活中的 ML、AI 和数据科学项目
* [chenyuntc/pytorch-book](https://github.com/chenyuntc/pytorch-book) 书籍《深度学习框架PyTorch:入门与实践(第2版)》的对应代码,但是也可以作为一个独立的PyTorch入门指南和教程。
* [NVIDIA-AI-IOT/torch2trt](https://github.com/NVIDIA-AI-IOT/torch2trt) 易于使用的 PyTorch 到 TensorRT 转换器
* [PaddlePaddle/models](https://github.com/PaddlePaddle/models) 飞桨产业级开源模型库,官方维护,PaddlePaddle支持,包括CV、NLP、Speech、Rec、TS、大模型等。
* [dair-ai/ML-Papers-Explained](https://github.com/dair-ai/ML-Papers-Explained) ML 中关键概念的解释
* [automl/auto-sklearn](https://github.com/automl/auto-sklearn) 使用 scikit-learn 进行自动化机器学习
* [probml/pml-book](https://github.com/probml/pml-book) “概率机器学习”——凯文·墨菲 (Kevin Murphy) 的系列丛书
* [paperswithcode/ai-deadlines](https://github.com/paperswithcode/ai-deadlines) 倒数计时,用于跟踪CV/NLP/ML/RO 会议截止日期。
* [openvinotoolkit/openvino](https://github.com/openvinotoolkit/openvino) 用于优化和部署 AI 推理的开源工具包,提高计算机视觉、自动语音识别、自然语言处理和其他常见任务中的深度学习性能。使用通过 TensorFlow、PyTorch 等流行框架训练的模型。减少资源需求,并在从边缘到云的一系列英特尔®平台上高效部署。
* [Unstructured-IO/unstructured](https://github.com/Unstructured-IO/unstructured) 开源库和 API,用于构建用于标记、训练或生产机器学习管道的自定义预处理管道。
* [NVIDIA/nvidia-container-toolkit](https://github.com/NVIDIA/nvidia-container-toolkit) NVIDIA 容器工具包允许用户构建和运行 GPU 加速容器。该工具包包括一个容器运行时库和实用程序,用于自动配置容器以利用 NVIDIA GPU。
* [microsoft/CNTK](https://github.com/microsoft/CNTK) 统一的深度学习工具包,它通过有向图将神经网络描述为一系列计算步骤。在此有向图中,叶节点表示输入值或网络参数,而其他节点表示输入的矩阵运算。CNTK允许用户轻松实现和组合常用模型类型,例如前馈 DNN、卷积网络 (CNN) 和循环网络 (RNN/LSTM) 。它实现了随机梯度下降(SGD,误差反向传播)学习,并在多个 GPU 和服务器之间实现了自动微分和并行化。
* [guipsamora/pandas_exercises](https://github.com/guipsamora/pandas_exercises) 练习python Pandas库, 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析),提供高性能、易于使用的数据结构和数据分析工具。
* [kedro-org/kedro](https://github.com/kedro-org/kedro) 用于生产就绪型数据科学的工具箱。它使用软件工程最佳实践来帮助你创建可重现、可维护和模块化的数据工程和数据科学管道。基于Cookiecutter数据科学的标准、可修改且易于使用的项目模板。一系列轻量级数据连接器,用于跨多种不同的文件格式和文件系统(包括本地和网络文件系统、云对象存储和 HDFS)保存和加载数据。数据目录还包括基于文件的系统的数据和模型版本控制。使用 Kedro-Viz 自动解析纯 Python 函数和数据管道可视化之间的依赖关系。部署策略,包括单机或分布式计算机部署,以及对在 Argo、Prefect、Kubeflow、AWS Batch 和 Databricks 上部署的额外支持。
* [great-expectations/great_expectations](https://github.com/great-expectations/great_expectations) 由数据工程师设计并为数据工程师设计的数据质量平台。它可以帮助您快速、清晰地发现问题,同时还可以更轻松地与非技术利益相关者协作。
* [lancedb/lance](https://github.com/lancedb/lance) 用于 ML 的现代列式数据格式,并在 LLMs Rust 中实现。只需 2 行代码即可从 parquet 转换,随机访问、矢量索引和数据版本控制速度提高 100 倍。兼容 Pandas、DuckDB、Polars、Pyarrow,还有更多集成即将推出。
* [allegroai/clearml](https://github.com/allegroai/clearml) ClearML - 自动神奇的 CI/CD,可简化您的 AI 工作负载。实验管理、数据管理、管道、编排、调度和服务在一个 MLOps/LLMOps 解决方案中
* [personqianduixue/Math_Model](https://github.com/personqianduixue/Math_Model) 数学建模、美赛、美国大学生数学建模竞赛、全国大学生数学建模竞赛、华为杯研究生数学建模、国赛LaTeX模板、美赛LaTeX模板、mathorcup、电工杯、华中赛、APMCM、深圳杯、中青杯、华东杯、数维杯、东三省数学建模、认证杯、数学建模书籍、常用matlab算法、国赛评阅要点、软件模型算法汇总、智能算法、优化算法、现代的算法
* [BrainJS/brain.js](https://github.com/BrainJS/brain.js) GPU 加速了适用于浏览器和 Node.js 的 JavaScript 中的神经网络
* [OpenRefine/OpenRefine](https://github.com/OpenRefine/OpenRefine) 基于 Java 的强大工具,它允许您加载数据、理解数据、清理数据、协调数据,并使用来自 Web 的数据进行扩充。所有这些都来自网络浏览器以及您自己计算机的舒适性和隐私性。
* [saulpw/visidata](https://github.com/saulpw/visidata) 用于表格数据的交互式多功能工具。它将电子表格的清晰度、终端的效率和 Python 的强大功能结合到一个轻量级实用程序中,可以轻松处理数百万行。VisiData 支持 tsv、csv、sqlite、json、xlsx (Excel)、hdf5 和许多其他格式。
* [finos/perspective](https://github.com/finos/perspective) 数据可视化和分析组件,特别适用于大型和/或流数据集。使用它来创建用户可配置的报告、仪表板、笔记本和应用程序,然后在浏览器中独立部署,或与 Python 和/或 Jupyterlab 协同部署。一个快速、内存高效的流式查询引擎,用 C++ 编写并针对 WebAssembly 和 Python 编译,具有用于 Apache Arrow 的读/写/流式处理,以及基于 ExprTK 的高性能列式表达式语言。一个与框架无关的用户界面,打包为自定义元素,通过 WebAssembly 在浏览器内提供支持,或通过 WebSocket 服务器 (Python/Node) 虚拟提供支持。JupyterLab 小部件和 Python 客户端库,用于笔记本中的交互式数据分析,以及可扩展的生产 Voila 应用程序。
* [HigherOrderCO/HVM](https://github.com/HigherOrderCO/HVM) 基于Rust的一个大规模并行交互的高阶虚拟机。通过将高级语言(如 Python 和 Haskell)的程序编译为 HVM,可以直接在大规模并行硬件(如 GPU)上运行这些语言,并具有近乎理想的加速。HVM2 是 HVM1 的继任者,HVM1 是该概念的 2022 年原型。与其前身相比,HVM2 更简单、更快,最重要的是更正确。HOC为其PAPER上列出的所有功能提供长期支持。该存储库提供了用于指定 HVM2 网络的低级 IR 语言,以及从该语言到 C 和 CUDA 的编译器。它不适合直接供人类使用。如果您正在寻找一种与 HVM2 交互的高级语言,请选Bend。
* [tensorflow/serving](https://github.com/tensorflow/serving) 灵活、高性能的机器学习模型服务系统,专为生产环境而设计。它涉及机器学习的推理方面,在训练后获取模型并管理其生命周期,通过高性能、引用计数的查找表为客户提供版本化访问。TensorFlow Serving 提供与 TensorFlow 模型的开箱即用集成,但可以轻松扩展以服务其他类型的模型和数据。
* [feast-dev/feast](https://github.com/feast-dev/feast) 用于机器学习的开源功能存储。Feast 是管理现有基础设施的最快途径,用于生产用于模型训练和在线推理的分析数据。通过管理离线存储(用于处理用于横向扩展批量评分或模型训练的历史数据)、低延迟在线存储(支持实时预测)和经过实战测试的功能服务器(用于在线提供预先计算的功能),使功能始终可用于训练和服务。通过生成时间点正确的特征集来避免数据泄露,以便数据科学家可以专注于特征工程,而不是调试容易出错的数据集连接逻辑,这可确保将来的特征值不会在训练期间泄漏到模型中。通过提供单个数据访问层将特征存储从特征检索中抽象出来,将 ML 与数据基础架构分离,确保模型在从训练模型迁移到服务模型、从批处理模型迁移到实时模型以及从一个数据基础设施系统迁移到另一个数据基础设施时保持可移植性。
* [pytorch/tutorials](https://github.com/pytorch/tutorials) PyTorch 教程。熟悉 PyTorch 概念和模块。在本快速入门指南中了解如何加载数据、构建深度神经网络、训练和保存模型。
* [SeldonIO/seldon-core](https://github.com/SeldonIO/seldon-core) MLOps 框架,用于打包、部署、监视和管理数千个生产机器学习模型。Seldon core 将您的 ML 模型(Tensorflow、Pytorch、H2o 等)或语言包装器(Python、Java 等)转换为生产 REST/GRPC 微服务。Seldon 可处理扩展到数千个生产机器学习模型,并提供开箱即用的高级机器学习功能,包括高级指标、请求日志记录、解释器、异常值检测器、A/B 测试、金丝雀等。
* [kubeflow/pipelines](https://github.com/kubeflow/pipelines) 机器学习 (ML) 工具包,致力于使 Kubernetes 上的 ML 工作流部署变得简单、可移植和可扩展。Kubeflow 流水线是使用 Kubeflow Pipelines SDK 构建的可重用的端到端 ML 工作流。Kubeflow 流水线服务具有以下目标:端到端编排,启用和简化端到端机器学习管道的编排;轻松实验,让您轻松尝试众多想法和技术,并管理您的各种试验/实验;易于重用,使您能够重用组件和管道,以快速拼凑端到端解决方案,而无需每次都重新构建。
* [hibayesian/awesome-automl-papers](https://github.com/hibayesian/awesome-automl-papers) 自动化机器学习论文、文章、教程、幻灯片和项目的精选列表,自动化机器学习 (AutoML) 提供了使机器学习可供非机器学习专家使用的方法和流程,以提高机器学习的效率并加速机器学习的研究。
* [lazyprogrammer/machine_learning_examples](https://github.com/lazyprogrammer/machine_learning_examples) 机器学习示例和教程的集合。
* [PAIR-code/facets](https://github.com/PAIR-code/facets) 包含两个用于理解和分析机器学习数据集的可视化效果:Facets Overview 和 Facets Dive。可视化作为 Polymer Web 组件实现,由 Typescript 代码提供支持,可以轻松嵌入到 Jupyter 笔记本或网页中。
* [lmcinnes/umap](https://github.com/lmcinnes/umap) 均匀流形近似和投影 (UMAP ,Uniform Manifold Approximation and Projection) 是一种降维技术,可用于类似于 t-SNE 的可视化,但也可用于一般的非线性降维。该算法建立在关于数据的三个假设之上:数据均匀分布在黎曼流形上;黎曼度量是局部常数(或可以近似);流形是本地连接的。根据这些假设,可以对具有模糊拓扑结构的流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。
* [D-X-Y/Awesome-AutoDL](https://github.com/D-X-Y/Awesome-AutoDL) 自动化深度学习:神经架构搜索不是终点(AutoDL 资源精选列表和深入分析)。自动化深度学习相关资源的精选列表。灵感来自令人敬畏的深度愿景、令人敬畏的对抗性机器学习、令人敬畏的深度学习论文和令人敬畏的架构搜索。
* [merrymercy/awesome-tensor-compilers](https://github.com/merrymercy/awesome-tensor-compilers) 张量计算和深度学习的出色编译器项目和论文列表。
* [vosen/ZLUDA](https://github.com/vosen/ZLUDA) ZLUDA 允许您在 Intel AMD GPU 上以近乎原生的性能运行未经修改的 CUDA 应用程序。ZLUDA 目前是 alpha 质量,但已被确认可以与各种原生 CUDA 应用程序一起使用:Geekbench、3DF Zephyr、Blender、Reality Capture、LAMMPS、NAMD、waifu2x、OpenFOAM、Arnold(概念验证)等。ZLUDA完全建立在ROCm/HIP之上。
* [amusi/AI-Job-Notes](https://github.com/amusi/AI-Job-Notes) AI算法岗求职攻略:涵盖校招时间表、准备攻略、刷题指南、内推、AI公司清单和答疑等资料。AI算法岗方向涉及:AIGC、大模型、深度学习、机器学习、计算机视觉、自然语言处理、图像处理、自动驾驶、元宇宙、AIGC、SLAM等。
* [poloclub/cnn-explainer](https://github.com/poloclub/cnn-explainer) 使用交互式可视化学习卷积神经网络。
* [modelscope/modelscope](https://github.com/modelscope/modelscope) ModelScope 建立在“模型即服务”(MaaS) 的概念之上。它旨在汇集来自人工智能社区的最先进的机器学习模型,并简化在实际应用中利用人工智能模型的过程。此存储库中开源的核心 ModelScope 库提供了允许开发人员执行模型推理、训练和评估的接口和实现。特别是,ModelScope 库具有丰富的 API 抽象层,可提供统一的体验,以探索跨 CV、NLP、语音、多模态和科学计算等领域的最先进模型。不同领域的模型贡献者可以通过分层 API 将模型集成到 ModelScope 生态系统中,从而轻松统一地访问他们的模型。集成后,只需几行代码即可完成模型推理、微调和评估。同时,还提供了灵活性,以便在必要时可以定制模型应用程序中的不同组件。除了包含各种不同模型的实现外,ModelScope 库还支持与 ModelScope 后端服务进行必要的交互,尤其是与 Model-Hub 和 Dataset-Hub 的交互。这种交互有助于在后台无缝执行各种实体(模型和数据集)的管理,包括实体查找、版本控制、缓存管理等。
* [zenml-io/zenml](https://github.com/zenml-io/zenml) 构建可移植、生产就绪的 MLOps 管道。ZenML 是一个 MLOps 框架,适用于希望标准化机器学习实践的数据科学家或 ML 工程师。只需将@step和@pipeline添加到现有的 Python 函数中即可开始使用。轻松预配 MLOps 堆栈或重用现有基础架构:该框架是从业者构建复杂 ML 管道的温和切入点,几乎不需要了解底层基础设施的复杂性。ZenML 管道可以在 AWS、GCP、Azure、Airflow、Kubeflow 甚至 Kubernetes 上运行,而无需更改任何代码或了解底层内部结构。ZenML提供了不同的功能,可以帮助人们在远程环境中快速上手。如果要在所选云提供商上从头开始部署远程堆栈,可以通过仪表板使用一键式部署功能。在生产基础架构上轻松运行工作负载:配置 MLOps 堆栈后,可以轻松地在其上运行工作负载;跟踪模型、管道和工件:创建生成人员、地点以及生成数据和模型的完整谱系,您将能够找出谁在什么时间生成了哪个模型,使用哪些数据以及代码的哪个版本。这保证了完全的可重复性和可审计性。专为机器学习而构建,可集成到您喜爱的工具中:虽然 ZenML 带来了很多盒子的价值,但它也可以集成到您现有的工具和基础设施中,而您不必被锁定。
* [deepchecks/deepchecks](https://github.com/deepchecks/deepchecks) Deepchecks:用于持续验证ML模型和数据的测试。Deepchecks 是一个整体的开源解决方案,可满足您所有的 AI 和 ML 验证需求,能够彻底测试您的数据和模型,从研究到生产。Deepchecks 是一个全面的开源解决方案,可满足您所有的 AI 和 ML 验证需求,使您能够彻底测试从研究到生产的数据和模型。Deepchecks的核心包括各种内置检查,用于测试所有类型的数据和模型相关问题。这些检查针对各种模型和数据类型(表格、NLP、视觉)实现,并且可以轻松自定义和扩展。检查结果可用于自动对模型的生产准备情况做出明智的决策,并在生产中随时间推移对其进行监控。检查结果可以通过可视化报告进行检查(通过将它们保存到 HTML 文件,或在 Jupyter 中查看它们),使用代码进行处理(使用其 pythonic / json 输出),并使用 Deepchecks 的动态 UI 进行检查和协作(用于检查测试结果和生产监控)。
* [instill-ai/instill-core](https://github.com/instill-ai/instill-core) Inthrow Core 是一款用于数据、模型和管道编排的全栈 AI 基础设施工具,旨在简化构建多功能 AI 优先应用程序的各个方面。访问 Instill Core 很简单,无论您是选择 ☁️ Instill、Cloud 还是通过 instill-core 存储库进行自托管。
* [whylabs/whylogs](https://github.com/whylabs/whylogs) 用于机器学习模型和数据管道的开源数据记录库。提供对数据质量和模型性能随时间变化的可见性。支持隐私保护数据收集,确保安全性和稳健性。
* [zetane/viewer](https://github.com/zetane/viewer) 免费的 Zetane Viewer 是一款帮助理解和加速机器学习和人工神经网络发现的工具。它可以通过可视化和理解模型的架构和内部数据(特征图、权重、偏差和层输出张量)来打开 AI 黑匣子。它可以被认为是一种工具,用于对人工神经网络和机器学习算法进行神经成像或脑成像。您还可以使用 Zetane Python API 通过几个命令直接从现有脚本或笔记本启动您自己的 Zetane 工作区。
# NLP自然语言处理
## Transformer库与优化
* [huggingface/transformers](https://github.com/huggingface/transformers) 支持Pytorch、TensorFlow和JAX的最先进的机器学习Transformers库。提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。
* [jadore801120/attention-is-all-you-need-pytorch](https://github.com/jadore801120/attention-is-all-you-need-pytorch) PyTorch 实现的Transformer模型在“注意力就是你所需要的一切”。
* [adapter-hub/adapter-transformers](https://github.com/adapter-hub/adapter-transformers) HuggingFace 的 Transformers 的友好分支,将适配器添加到 PyTorch 语言模型。可用作 HuggingFace 的直接替代品,并定期同步新的上游更改。
* [microsoft/DeBERTa](https://github.com/microsoft/DeBERTa) 注意力分散的增强解码的BERT,使用了BERT和RoBERTa模型,显着提高了预训练的效率和下游任务的性能。
* [pytorch/fairseq](https://github.com/pytorch/fairseq) Python的Facebook AI Research Sequence-to-Sequence包。
* [ml-jku/hopfield-layers](https://github.com/ml-jku/hopfield-layers) NLP 领域里大热的 Transformer,其网络更新规则其实是和 Hopfield 网络在连续状态下是相同的。Transformer 中的这种注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。作者来自奥地利林茨大学、挪威奥斯陆大学,与 Jürgen Schmidhuber 合著 LSTM 的 Sepp Hochreiter 也是作者之一。
* [laiguokun/Funnel-Transformer](https://github.com/laiguokun/Funnel-Transformer) Transformer优化,一种新的自我注意模型,可以将隐藏状态的序列逐渐压缩为较短的状态,从而降低了计算成本。
* [mit-han-lab/hardware-aware-transformers](https://github.com/mit-han-lab/hardware-aware-transformers) 用于高效自然语言处理的硬件感知型Transformers.实现高达3倍的加速和3.7倍的较小模型尺寸,不会降低性能。
* [mit-han-lab/lite-transformer](https://github.com/mit-han-lab/lite-transformer) 具有长距离短距离注意的Lite transformer
* [allenai/longformer](https://github.com/allenai/longformer) 用于长文档的类似BERT的模型
* [Tencent/TurboTransformers](https://github.com/Tencent/TurboTransformers) 在 CPU 和 GPU 上进行Transformer推断的快速且用户友好的运行库。
* [idiap/fast-transformers](https://github.com/idiap/fast-transformers) Pytorch实现的快速Transformer库
* [bytedance/lightseq](https://github.com/bytedance/lightseq) 高效的序列处理与生成库,提供 Bert, GPT, Transformer,beam search, diverse beam search, topp/topk sampling
* [google-research/bigbird](https://github.com/google-research/bigbird) 基于稀疏注意力(随机注意力机制+局部注意力机制+全局注意力机制)的transformer,它将基于transformer的模型(例如 BERT)扩展到更长的序列。 由于能够处理更长的上下文,BigBird 极大地提高了各种 NLP 任务(例如问答和摘要)的性能。
* [lucidrains/performer-pytorch](https://github.com/lucidrains/performer-pytorch) 一个高效的线性广义注意力框架(generalized attention framework),允许基于不同相似性度量(核)的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+(Fast Attention Via Positive Orthogonal Random Features)来实现,后者能够提供注意力机制的可扩展低方差、无偏估计,这可以通过随机特征图分解(常规 softmax-attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的softmax运算。此外,还可以和可逆层等其他技术进行互操作。
* [microsoft/fastformers](https://github.com/microsoft/fastformers) 实现Transformers在CPU上223倍的推理加速 它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。论文FastFormers的作者表明,利用知识蒸馏、结构化剪枝和数值优化可以大幅提高推理效率。我们表明,这种改进可以达到200倍的加速,并在22倍的能耗下节省超过200倍的推理成本。
* [mit-han-lab/lite-transformer](https://github.com/mit-han-lab/lite-transformer) 轻量级Transformer,注意力长短搭配 长依赖和短依赖的剥离,并引入卷积来捕捉短依赖,总体思想和Transformer之自适应宽度注意力有点类似。文章中发现低层次上的注意力都比较短,层次越高,注意力的所关注的依赖越长。
* [ThilinaRajapakse/simpletransformers](https://github.com/ThilinaRajapakse/simpletransformers) 用于分类、NER、QA、语言建模、语言生成、T5、多模态和会话AI的transformer
* [cloneofsimo/RealFormer-pytorch](https://github.com/cloneofsimo/RealFormer-pytorch) 通过在Transformer架构上进行改造来提升BERT训练效果,具体为:使用attention残差机制改造Transformer。1、realformer在标签数量较少的分类任务上有一定的提升效果,提升的幅度与数据集和任务难度有关,一般越难的任务提升的幅度越大。2、realformer在标签数量达到一定的数值时,其效果便会大打折扣,在某些数据集上甚至会无法学习。
* [openai/sparse_attention](https://github.com/openai/sparse_attention) 稀疏Attention
* [sacmehta/delight](https://github.com/sacmehta/delight) 提出了一个更深更轻的Transformer,DeLighT,它的性能与Transformer相似,甚至更好,平均少了2到3倍的参数。
* [BSlience/transformer-all-in-one](https://github.com/BSlience/transformer-all-in-one) 记录了学习Transformer过程中的一些疑问和解答,并且实现Transformer的全过程。
* [mlpen/Nystromformer](https://github.com/mlpen/Nystromformer) 利用了 Nyström 方法来近似标准的Attention。
* [xuanqing94/FLOATER](https://github.com/xuanqing94/FLOATER) 基于连续动态系统学习更加灵活的位置编码
* [ELS-RD/transformer-deploy](https://github.com/ELS-RD/transformer-deploy) Hugging Face Transformer 亚毫秒推理和部署到生产环境
* [lucidrains/x-transformers](https://github.com/lucidrains/x-transformers) 一个简单但完整的全注意力转换器,具有来自各种论文的一组有希望的实验特征 Full encoder / decoder 、Decoder-only (GPT-like) 、Encoder-only (BERT-like) 、Image -> caption 。
* [lucidrains/FLASH-pytorch](https://github.com/lucidrains/FLASH-pytorch) 线性时间的Transformer变体
* [NVIDIA/FasterTransformer](https://github.com/NVIDIA/FasterTransformer) Transformer相关优化,包括BERT、GPT 。提供了一个脚本和配方来运行高度优化的基于转换器的编码器和解码器组件,它由 NVIDIA 测试和维护。可以带来性能加速。
* [HazyResearch/flash-attention](https://github.com/HazyResearch/flash-attention) 快速且节省内存的精确注意力
* [NetEase-FuXi/EET](https://github.com/NetEase-FuXi/EET) 针对Transformer-based大模型和长序列场景的高性能pytorch推理插件。高性能:设计高度优化的CUDA内核。灵活:提供包括op api、model api和pipelines应对不同需求。 使用: 几行代码即可完成。适配主流ai框架,包括fairseq和transformers。bert模型整体性能加速1.2x到7.x倍,gpt模型整体性能加速2.x到7.x倍。
* [NVIDIA/transformer-ls](https://github.com/NVIDIA/transformer-ls) 将原始 Transformer 的全部自注意力替换为考虑长期和短期相关性的有效注意力。每个查询都关注分段滑动窗口中的标记以捕获短期相关性,以及动态投影特征以捕获长期相关性。为了对齐原始特征、投影特征向量的范数并提高聚合的效率,使用两组层归一化对原始特征向量和投影特征向量进行归一化。
* [thuml/Flowformer](https://github.com/thuml/Flowformer) 任务通用的线性复杂度Transformer 。在图论中的经典网络流(Flow network)模型中,“守恒”(Conservation)是一个重要现象,即每个节点的流入量等于流出量。受到“固定资源情况下,必定引起竞争”的启发,通过网络流视角重新分析经典注意力机制中的信息流动,并通过守恒性质将竞争引入注意力机制设计,以避免平凡注意力问题。
* [alipay/Pyraformer](https://github.com/alipay/Pyraformer) 用于长期时间序列建模和预测的低复杂度金字塔注意。
* [NVIDIA/Megatron-LM](https://github.com/NVIDIA/Megatron-LM) 由 NVIDIA 的应用DL研究团队开发的大型、强大的transformer。开发了高效、模型并行(张量、序列和流水线)和多节点预训练,基于 Transformer 的模型(例如 GPT、BERT 和 T5)使用混合精度。
* [facebookresearch/bit](https://github.com/facebookresearch/bit) 鲁棒二值化多次蒸馏Transformer
* [Tongjilibo/bert4torch](https://github.com/Tongjilibo/bert4torch) 优雅的pytorch transformers库
* [cmhungsteve/Awesome-Transformer-Attention](https://github.com/cmhungsteve/Awesome-Transformer-Attention) 包含视觉转换器和注意力机制(Vision Transformer&Attention)的综合论文列表,包括论文,代码和相关网站。
* [FlagOpen/FlagAttention](https://github.com/FlagOpen/FlagAttention) 用 Triton 语言实现的内存高效注意力运算符的集合。它的灵感来自FlashAttention和FlashAttention v2,并扩展了它们以满足大型语言建模研究的需求。FlashAttention 和 FlashAttention-2 可以节省内存占用和流量以提高内存效率,但要修改它们并添加更多选项和功能需要熟练掌握 cuda 编程。因此,Flag Attention 是用 Triton 语言实现的,它更容易用于编写自定义 GPU 内核。
* [microsoft/torchscale](https://github.com/microsoft/torchscale) PyTorch 库,允许研究人员和开发人员高效地扩展 Transformers。为基础模型和 A(G)I 开发新的架构,重点是建模通用性和能力,以及训练稳定性和效率。
* [NielsRogge/Transformers-Tutorials](https://github.com/NielsRogge/Transformers-Tutorials) HuggingFace的 Transformers 库制作的演示。
* [lucidrains/recurrent-memory-transformer-pytorch](https://github.com/lucidrains/recurrent-memory-transformer-pytorch) 在 Pytorch 中实现 Recurrent Memory Transformer (openreview)。他们最近发表了一篇简短的后续论文,证明它至少能够复制 100 万个词元的信息。毫无疑问,在我看来,RMT 会成为比 AdA 更强大的 RL 代理,AdA 只是一个 Transformer-XL - 更新:递归内存决策转换器
* [lhao499/RingAttention](https://github.com/lhao499/RingAttention) 使用块态变换器实现近乎无限的上下文的环形(Ring)注意力。Blockwise Parallel Transformer (BPT) 以分块方式计算注意力和前馈,允许训练和推断序列,其长度是标准内存效率注意力方法(如flash(闪光)注意力)可管理的序列的四倍。Ringwise Parallel Transformer 的环形注意力使训练序列的长度达到“设备数量”的长度,比 BPT 的长度长几倍。这是通过将注意力和前馈计算分布在多个设备上并将通信与计算重叠来实现的。由于注意力和前馈网络的块计算,可以在上下文大小上使用数千万个令牌进行训练,而不会增加任何通信或计算开销。
* [lucidrains/MEGABYTE-pytorch](https://github.com/lucidrains/MEGABYTE-pytorch) 在 Pytorch 中实现 MEGABYTE,使用多尺度转换器预测百万字节序列。为了解决当前transformer模型对输入的限制,MetaAI提出的MetaByte引入了一个概念,称为patch,将模型的输入序列分割成固定大小的patches,这是一个类似于token的概念,但是显然比token覆盖的范围要宽。然后通过一个全局的模块,建立一个大的自回归transformer,把输入和输出从tokens变成patches。同时,引入了一个本地的模块,用于每个patch内部的字节的预测,其输入是从全局模块来的上下文patches表示结果,输出是预测下一个patch,这是一个小的自回归模型。
## BERT优化
* [google-research/bert](https://github.com/google-research/bert) Bidirectional Encoder Representations from Transformers 来自Transformers的双向编码器表示法
* [google-research/ALBERT](https://github.com/google-research/ALBERT) 用于语言表达自我监督学习的Lite BERT
* [bojone/bert-of-theseus](https://github.com/bojone/bert-of-theseus) BERT 模型压缩方法 ,theseus(忒修斯之船 如果忒修斯的船上的木头被 逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),将原始大模型切分为多个大模块,固定大模型权重,训练时随机替换为小模块,充分训练后,将小模型继续微调。
* [brightmart/albert_zh](https://github.com/brightmart/albert_zh) 使用TensorFlow 进行自我监督学习语言表示的Lite Bert的实现预训练的汉语模型
* [bojone/bert4keras](https://github.com/bojone/bert4keras) 更清晰、更轻量级的keras版bert,提供丰富的应用例子。
* [codertimo/BERT-pytorch](https://github.com/codertimo/BERT-pytorch) 谷歌AI 2018 BERT pytorch实现。Google AI的BERT论文显示了各种NLP任务(新的17个NLP任务SOTA)的惊人结果,包括在SQuAD v1.1 QA任务上优于人类F1分数。本文证明了基于Transformer(自注意力)的编码器可以作为先前语言模型的替代方法,并采用适当的语言模型训练方法。
* [huawei-noah/Pretrained-Language-Model](https://github.com/huawei-noah/Pretrained-Language-Model) 华为诺亚方舟实验室开发的预训练语言模型及其相关优化技术NEZHA是一种经过预训练的中文语言模型,可以在多项中文NLP任务上实现最先进的性能TinyBERT是一种压缩的BERT模型,推理时可缩小7.5倍,加快9.4倍
* [ymcui/MacBERT](https://github.com/ymcui/MacBERT) MacBERT是一种改进的BERT,具有新颖的M LM校正预训练任务,它减轻了预训练和微调的差异。我们建议使用类似的词来进行掩蔽,而不是使用在微调阶段从未出现过的 [MASK] 令牌进行掩蔽。通过使用基于 word2vec (Mikolov et al., 2013) 相似度计算的Synonyms 工具包 (Wang and Hu, 2017)获得相似词。如果选择 N-gram 进行掩码,我们将单独找到相似的单词。在极少数情况下,当没有相似词时,我们会降级为使用随机词替换。
* [Lisennlp/TinyBert](https://github.com/Lisennlp/TinyBert) 基于华为的TinyBert进行修改的,简化了数据读取的过程,方便我们利用自己的数据进行读取操作。
* [epfml/collaborative-attention](https://github.com/epfml/collaborative-attention) 整合多头注意力,任何经过预训练的注意力层重新配置为协作注意力层。
* [ZhuiyiTechnology/WoBERT](https://github.com/ZhuiyiTechnology/WoBERT) 以词为基本单位的中文BERT(Word-based BERT)
* [autoliuweijie/FastBERT](https://github.com/autoliuweijie/FastBERT) 具有自适应推断时间的自蒸馏BERT pip install fastbert
* [alexa/bort](https://github.com/alexa/bort) 论文 Optimal Subarchitecture Extraction for BERT. “ BERT的最佳子体系结构提取”的代码。Bort是用于BERT架构的最佳子集,它是通过对神经架构搜索应用完全多项式时间近似方案(FPTAS)提取的。 Bort的有效(即不计算嵌入层)大小是原始BERT大型体系结构的5.5%,是净大小的16%。它在CPU上也比基于BERT的速度快7.9倍,并且比体系结构的其他压缩变体和某些非压缩变体性能更好。与多个公共自然语言理解(NLU)基准上的BERT-large相比,它的平均性能提高了0.3%至31%。
* [valuesimplex/FinBERT](https://github.com/valuesimplex/FinBERT) 基于 BERT 架构的金融领域预训练语言模型
* [yitu-opensource/ConvBert](https://github.com/yitu-opensource/ConvBert) ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。依图研发团队从模型结构本身的冗余出发,提出了一种基于跨度的动态卷积操作,并基于此提出了 ConvBERT 模型。
* [wtma/CharBERT](https://github.com/wtma/CharBERT) 字符敏感的预训练语言模型 通过结合字符级别和词级别的信息实现了更为全面的输入编码,同时,结合 RNN 和 CNN 的优势,基本上 CNN,RNN,Transformer 都使用上了,体现了新老研究成果的结合在一定程度上能进一步提升方法的性能。
* [Sleepychord/CogLTX](https://github.com/Sleepychord/CogLTX) 将BERT应用于长文本CogLTX遵循一种特别简单直观的范式,即抽取关键的句子=>通过BERT得到答案的两步流程。
* [ShannonAI/service-streamer](https://github.com/ShannonAI/service-streamer) 服务流媒体BERT服务,每秒处理1400个句子的BERT服务.
* [Sleepychord/CogLTX](https://github.com/Sleepychord/CogLTX) 可将当前类似BERT的预训练语言模型应用于长文本。使用动态规划算法将长文本划分为文本块集合;使用MemRecall对原长句中的子句进行打分:从而选择出分数最高的子句组成 再进行训练,这样一来的话,COGLTX相当于使用了了两个bert,MemRecall中bert就是负责打分,另一个bert执行原本的NLP任务。
* [bojone/BERT-whitening](https://github.com/bojone/BERT-whitening) 简单的线性变换(白化)操作,就可以达到BERT-flow的效果。
* [thunlp/ERNIE](https://github.com/thunlp/ERNIE) 用知识图谱增强 BERT 的预训练效果
* 1) 对于抽取并编码的知识信息,研究者首先识别文本中的命名实体,然后将这些提到的实体与知识图谱中的实体进行匹配。研究者并不直接使用 KG 中基于图的事实,相反他们通过知识嵌入算法(例如 TransE)编码 KG 的图结构,并将多信息实体嵌入作为 ERNIE 的输入。基于文本和知识图谱的对齐,ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。
* 2) 与BERT类似,采用了带Mask的语言模型,以及预测下一句文本作为预训练目标。除此之外,为了更好地融合文本和知识特征,研究者设计了一种新型预训练目标,即随机 Mask 掉一些对* [ShannonAI/ChineseBert](https://github.com/ShannonAI/ChineseBert) 融合字形与拼音信息的中文Bert预训练模型
* [alibaba/AliceMind/LatticeBERT](https://github.com/alibaba/AliceMind/tree/main/LatticeBERT) Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models 利用多粒度的词格信息(word lattice),相对字级别的模型取得了性能提升。
* [Langboat/Mengzi](https://github.com/Langboat/Mengzi) 孟子预训练模型 轻量级但更强大,对部署和工业落地更友好的模型。
* [huawei-noah/DynaBERT](https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT) dynamic BERT 可以通过选择自适应宽度和深度来灵活地调整网络大小,从而得到一个尺寸可变的网络。首先通过知识蒸馏的方法将teacher BERT的知识迁移到有自适应宽度的子网络student DynaBERTw中,然后再对DynaBERTw进行知识蒸馏得到同时支持深度自适应和宽度自适应的子网络DynaBERT。
* [microsoft/LoRA](https://github.com/microsoft/LoRA) 大型语言模型的低秩适应。 冻结原始权重的同时学习成对的秩分解矩阵来减少可训练参数的数量。降低了适用于特定任务的大型语言模型的存储需求,并在部署期间实现了高效的任务切换,所有这些都不会引入推理延迟。在 GLUE 基准上获得与完全微调相当或更好的结果,同时只训练和存储一小部分参数。
* [guillaume-be/rust-bert](https://github.com/guillaume-be/rust-bert) Rust-native 最先进的自然语言处理模型和管道。 Hugging Face 的 Transformers 库的端口,使用 tch-rs crate 和 rust-tokenizers 预处理。 支持多线程标记化和GPU推理。 公开了模型基础架构、特定于任务的头和随时可用的管道。
* [volcengine/veGiantModel](https://github.com/volcengine/veGiantModel) 字节跳动应用ML团队的基于torch的高效训练库。 使巨型模型(例如GPT、BERT和T5)训练变得简单高效。 建立在 Megatron 和 DeepSpeed 之上,通过集成高效通信库BytePs并提供定制的管道分区来提高通信效率。
* [extreme-bert/extreme-bert](https://github.com/extreme-bert/extreme-bert) 可加速 BERT 在自定义数据集上的预训练和微调。
* [allenai/scibert](https://github.com/allenai/scibert) 在科学文本上训练的 BERT 模型。SciBERT 接受过 semanticscholar.org 语料库中的论文培训。语料库大小为1.14M论文,3.1B词元。我们在培训中使用论文的全文,而不仅仅是摘要。SciBERT 有自己的词汇表(scivocab),旨在与训练语料库最匹配。我们训练了有大小写和无大小写的版本。我们还纳入了在原始 BERT 词汇表(basevocab)上训练的模型进行比较。它在广泛的科学领域 nlp 任务上实现了最先进的性能。评估的细节在论文中。评估代码和数据包含在此存储库中。
## 预训练模型
* [THUDM/GLM](https://github.com/THUDM/GLM) 一种预训练的通用语言模型,具有自回归空白填充目标,可以根据各种自然语言理解和生成任务进行微调。
* [facebookresearch/metaseq](https://github.com/facebookresearch/metaseq) Meta AI开放了一个“重达”1750亿参数的大语言模型OPT-175B,Open Pre-trained Transformers,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3。从完整模型到训练代码、部署代码全部开放。
* [dbiir/UER-py](https://github.com/dbiir/UER-py) 一个用于对通用语料进行预训练并对下游任务进行微调的工具包。提供了非常丰富的模型库。包括:中文RoBERTa、基于词的中文RoBERTa、中文GPT-2预训练模型(通用、古诗词、对联、歌词、文言文)、中文T5预训练模型、中文RoBERTa下游任务微调模型(JD full 情感分类 、JD binary 情感分类 、Dianping 情感分类、Ifeng 新闻主题分类、Chinanews 新闻主题分类 、CLUENER2020 NER 、抽取式问答)等。
* [OpenBMB/BMInf](https://github.com/OpenBMB/BMInf) BMInf (Big Model Inference) 是一个用于大规模预训练语言模型(PLM)推理阶段的低资源工具包。最低支持在NVIDIA GTX 1060单卡运行百亿大模型。在此基础上,使用更好的gpu运行会有更好的性能。模型能力覆盖文本补全、文本生成与对话场景。文本生成能力大幅提高。目前支持下列模型:
* **CPM2.1**. CPM2.1是CPM2 [[1](https://bminf.readthedocs.io/zh_CN/latest/introduction-zh.html#ref)] 的升级版本。拥有110亿参数的通用中文预训练语言模型。基于CPM2,CPM2.1新增了一个生成式的预训练任务并基于持续学习范式进行训练。CPM2.1比CPM2具有更好的生成能力。
* **CPM1.** CPM1 [[2](https://bminf.readthedocs.io/zh_CN/latest/introduction-zh.html#ref)] 是拥有26亿参数的生成式中文预训练语言模型。CPM1的模型架构与GPT [[4](https://bminf.readthedocs.io/zh_CN/latest/introduction-zh.html#ref)] 类似,它能够被应用于广泛的自然语言处理任务,如对话、文章生成、完形填空和语言理解。
* **EVA.** EVA [[3](https://bminf.readthedocs.io/zh_CN/latest/introduction-zh.html#ref)] 是有着28亿参数的中文预训练对话模型。EVA在很多对话任务上表现优异,尤其是在多轮人机交互对话任务上。* [CyberZHG/keras-xlnet](https://github.com/CyberZHG/keras-xlnet) XLNet的非官方实现。
* [hwchase17/langchain](https://github.com/hwchase17/langchain) 通过可组合性使用大型语言模型构建应用程序 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度
* [IDEA-CCNL/Fengshenbang-LM](https://github.com/IDEA-CCNL/Fengshenbang-LM) Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。包括了自然语言理解(NLU),自然语言生成(NLG)和自然语言转换(NLT)任务。CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录。
* [ymcui/Chinese-XLNet](https://github.com/ymcui/Chinese-XLNet) 面向中文的XLNet预训练模型
* [microsoft/unilm](https://github.com/microsoft/unilm) UniLM-NLP及更高版本的统一语言模型预训练
* layoutlm 多模态文档理解预训练模型LayoutLM 2.0,模型首先将文本、图像、布局三种模态的输入转换成向量表示,然后再交给编码器网络,最终输出的表示向量可以供下游任务使用。下游任务:表单理解、票据理解、复杂布局长文档理解、文档图像分类、视觉问答。* [YunwenTechnology/Unilm](https://github.com/YunwenTechnology/Unilm) UniLM模型既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。论文来自微软研究院。模型虽然强大,但微软并没有开源中文的预训练模型。因此云问本着开源之前,将我们预训练好的中文unilm_base模型进行开源。
* [ymcui/Chinese-ELECTRA](https://github.com/ymcui/Chinese-ELECTRA) 中文ELECTRA预训练模型 其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美,而参数量仅为BERT-base的1/10
* [THUDM/GLM-130B](https://github.com/THUDM/GLM-130B) 开放的双语(英汉)双向密集模型,1300亿参数,使用通用语言模型(GLM)进行预训练。 支持单台A100(40G * 8)或V100(32G * 8)服务器上具有130B参数的推理任务。 通过 INT4 量化,降低到 4 * RTX 3090(24G),而性能几乎没有下降。 截至 2022 -7-3 ,已接受了超过 4000 亿个文本标记(中文和英文各 200B)的训练。
* [alibaba/EasyTransfer](https://github.com/alibaba/EasyTransfer) 自然语言处理的迁移学习工具。主要特性:预训练语言模型工具,丰富且高质量的预训练模型库 BERT, ALBERT, RoBERTa, T5, etc,丰富且易用的NLP应用 如文本匹配、分本分类、机器阅读理解MRC,自动化的知识蒸馏,易用且高效的分布式训练。
* [google-research/byt5](https://github.com/google-research/byt5) ByT5:通过预先训练的字节到字节模型迈向无令牌的未来.ByT5 是 mT5 模型的无标记器扩展。 我们的 ByT5 模型不像大多数其他预训练语言模型(BERT、XLM-R、T5、GPT-3)那样使用子词词汇表,而是直接在 UTF-8 字节上运行,无需任何文本预处理。 除了降低系统复杂性之外,我们发现参数匹配的 ByT5 模型在一系列任务中与 mT5 具有竞争力,并且在涉及嘈杂文本或对拼写和发音敏感的任务上优于 mT5。 此 repo 可用于重现 ByT5 论文中的实验。
* [sunyilgdx/NSP-BERT](https://github.com/sunyilgdx/NSP-BERT) 利用**句子级别(sentence-level)** 的预训练任务 **NSP (下一句预测,Next Sentence Prediction)** 来实现不同的NLP下游任务, 例如 *单句分类(single sentence classification)*, *双句分类(sentence pair classification)*, *指代消解(coreference resolution)*, *完形填空(cloze-style task)*, *实体链接(entity linking)*, *实体类型识别(entity typing)*.
* [thunlp/OpenPrompt](https://github.com/thunlp/OpenPrompt) Prompt-learning 是将预训练语言模型应用于下游NLP任务的最新范式,它使用文本模板修改输入文本并直接使用 PLM 执行预训练任务。 该库提供了一个标准、灵活和可扩展的框架来部署即时学习管道。 OpenPrompt支持直接从Huggingface Transformer加载PLM。将来,我们还将支持其他库实现的 PLM。
* [google-research/flan](https://github.com/google-research/flan) 微调语言模型是零样本学习器
* [PaddlePaddle/ERNIE](https://github.com/PaddlePaddle/ERNIE) ERNIE 家族各种预训练模型的官方实现,涵盖语言理解与生成、多模态理解与生成等主题。
* [airaria/TextPruner](https://github.com/airaria/TextPruner) 用于预训练语言模型的基于 PyTorch 的模型修剪工具包.它提供了**低成本**和**免训练的**方法,通过去除冗余神经元来减小模型大小并加快模型推理速度。在 TextPruner 中,共有三种剪枝模式:**词汇剪枝**、**变压器剪枝**和**管道剪枝**。
* [Tencent/PatrickStar](https://github.com/Tencent/PatrickStar) 提供更大、更快、更环保的预训练模型,并为所有人普及人工智能。PatrickStar 的内存管理支持将模型的当前计算部分以外的所有内容卸载到 CPU 以节省 GPU。此外,在扩展到多个 GPU 时,基于块的内存管理对于集体通信非常有效。通过**异构训练**(DeepSpeed Zero Stage 3 也使用它),PatrickStar 可以充分利用 CPU 和 GPU 内存,这样您就可以使用更少的 GPU 来训练更大的模型。
* [ymcui/PERT](https://github.com/ymcui/PERT) 提出了一种基于乱序语言模型的预训练模型,在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。PERT在部分中英文NLU任务上获得性能提升,但也在部分任务上效果较差,请酌情使用。
* [THUDM/P-tuning-v2](https://github.com/THUDM/P-tuning-v2) P-tuning v2 对预训练变压器的每一层输入应用连续提示。深度提示调整增加了连续提示的容量,并缩小了跨各种设置微调的差距,特别是对于小型模型和艰巨的任务。将文本生成的prefix-tuning技术适配到NLU任务。Prompting技术火爆NLP社区,其将预训练模型从Fine-tuning范式带入Prompt-Engineering时代。Promp最初由人工设计,自然语言提示本身十分脆弱,而且从优化角度无法达到最优。为了解决问题发展出了可学习的Prompt,而P-tuning v2在实际上就是Prefix-tuning,在Prefix部分,每一层transformer的embedding输入需要被tuned。在不同规模大小的LM模型上,P-tuning v2能与精调(Fine-tuning)方法的表现比肩,有时甚至更好。
* [EleutherAI/gpt-neox](https://github.com/EleutherAI/gpt-neox) 基于 DeepSpeed 库的 GPU 上模型并行自回归转换器(autoregressive transformers)的实现。目前基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。希望在此过程中训练和开源 175B 参数 GPT-3 复制。
* [OpenBMB/BMTrain](https://github.com/OpenBMB/BMTrain) 高效的大型模型训练工具包,可用于训练具有数百亿参数的大型模型。 它可以以分布式方式训练模型,同时保持代码像单机训练一样简单。
* [microsoft/CodeBERT](https://github.com/microsoft/CodeBERT) 针对编程语言的预训练模型,在Py、Java、JS、PHP、Ruby、Go的 NL-PL 对上进行预训练的多编程语言模型。
* [clue-ai/PromptCLUE](https://github.com/clue-ai/PromptCLUE) 大规模多任务Prompt预训练中文开源模型。千亿中文token上大规模预训练,累计学习1.5万亿中文token,亿级中文任务数据上完成训练,训练任务超过150+。比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。
* [BlinkDL/RWKV-LM](https://github.com/BlinkDL/RWKV-LM) 具有 Transformer 级 LLM 性能的 RNN。它可以像 GPT(可并行化)一样直接训练。因此,它结合了 RNN 和 Transformer 的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限”ctx_len 和自由句子嵌入。
* [FlagOpen/FlagEmbedding](https://github.com/FlagOpen/FlagEmbedding) 可以将任何文本映射到低维密集向量,该向量可用于检索、分类、聚类或语义搜索等任务。它也可以用于LLM的矢量数据库。
* [XiaoMi/MiLM-6B](https://github.com/XiaoMi/MiLM-6B) 由小米开发的一个大规模预训练语言模型,参数规模为64亿。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。
* [yuzhimanhua/Awesome-Scientific-Language-Models](https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models) 科学领域(例如,数学、物理、化学、生物学、医学、材料科学和地球科学)中预训练语言模型的精选列表,涵盖不同的模型大小(从 <100M 到 70B 参数)和模态(例如,语言、视觉、分子、蛋白质、图形和表格)。
* [CLUEbenchmark/CLUEPretrainedModels](https://github.com/CLUEbenchmark/CLUEPretrainedModels) 高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型
## 文本分类
* [kk7nc/Text_Classification](https://github.com/kk7nc/Text_Classification) 一项文本分类算法的调查
* [cnn_multilabel_classification](https://github.com/tcxdgit/cnn_multilabel_classification) 基于TextCNN和Attention的多标签分类
* [ilivans/tf-rnn-attention](https://github.com/ilivans/tf-rnn-attention) Tensorflow实现文本分类任务的关注机制。
* [skdjfla/toutiao-text-classfication-dataset](https://github.com/skdjfla/toutiao-text-classfication-dataset) 中文文本分类数据集 共38.2万条,分布于15类中。
* [xiaoqian19940510/text-classification-surveys](https://github.com/xiaoqian19940510/text-classification-surveys) 文本分类资源汇总,包括深度学习文本分类模型,如SpanBERT、ALBERT、RoBerta、Xlnet、MT-DNN、BERT、TextGCN、MGAN、TextCapsule、SGNN、SGM、LEAM、ULMFiT、DGCNN、ELMo、RAM、DeepMoji、IAN、DPCNN、TopicRNN、LSTMN 、Multi-Task、HAN、CharCNN、Tree-LSTM、DAN、TextRCNN、Paragraph-Vec、TextCNN、DCNN、RNTN、MV-RNN、RAE等,浅层学习模型,如LightGBM 、SVM、XGboost、Random Forest、C4.5、CART、KNN、NB、HMM等。介绍文本分类数据集,如MR、SST、MPQA、IMDB、Ye…
* [649453932/Chinese-Text-Classification-Pytorch](https://github.com/649453932/Chinese-Text-Classification-Pytorch) 中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。
* [649453932/Bert-Chinese-Text-Classification-Pytorch](https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch) 使用Bert,ERNIE,进行中文文本分类
* [SanghunYun/UDA_pytorch](https://github.com/SanghunYun/UDA_pytorch) Unsupervised Data Augmentation with BERT 一种半监督学习方法,可在多种语言和视觉任务上实现SOTA结果。仅用20个标记的示例,UDA的性能就优于之前在25,000个标记的示例上训练的IMDb上的SOTA。
* [TextCNN与ALBERT分类效果的实践](https://zhuanlan.zhihu.com/p/443782891) 详解小样本短文本多分类-对比TextCNN与ALBERT分类效果的实践(附Pytorch代码)
* [GT-SALT/MixText](https://github.com/GT-SALT/MixText) 文本半监督方法MixText 提出一种全新文本增强方式——TMix,在隐式空间插值,生成全新样本。对未标注样本进行低熵预测,并与标注样本混合进行TMix。MixText可以挖掘句子之间的隐式关系,并在学习标注样本的同时利用无标注样本的信息。超越预训练模型和其他半监督方法
* [beyondguo/label_confusion_learning](https://github.com/beyondguo/label_confusion_learning) 利用标签之间的混淆关系,提升文本分类效果。利用标签信息时能够充分考虑标签之间的重叠或者依赖关系。
* [AIRobotZhang/STCKA](https://github.com/AIRobotZhang/STCKA) 基于知识图谱的文本分类.将每个短文本与其在KB中的相关概念相关联,将概念信息作为先验知识整合到深度神经网络中。
* [ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification](https://github.com/ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification) 在大规模通用领域预训练的前提下,更好地利用大规模领域内无标注语料与标注语料,从而最大限度地提升模型效果.足量的领域内语料U使模型不需要再在通用领域语料上预训练;无论是采用预训练还是自训练的方式,都可以显著提升模型效果,二者结合可以得到最佳结果;当领域内标注数据D较小的时候,在伪平行数据D'上训练、再在D上微调可以提升更多的效果;当D更大的时候,在D和D'上联合训练取得的效果更好。
* [xmu-xiaoma666/External-Attention-pytorch](https://github.com/xmu-xiaoma666/External-Attention-pytorch) 17篇注意力机制 PyTorch 实现
* [DunZhang/LM-MLC](https://github.com/DunZhang/LM-MLC) 基于完型填空(模板)的多标签分类算法.
* [bojone/r-drop](https://github.com/bojone/r-drop) 使用r-drop机制实验了中文文本分类、文本生成任务,有提升。
* [BUPT-GAMMA/CompareNet_FakeNewsDetection](https://github.com/BUPT-GAMMA/CompareNet_FakeNewsDetection) 与知识比较:使用外部知识进行图神经假新闻检测 (ACL 2021)
* [pangwong/pytorch-multi-label-classifier](https://github.com/pangwong/pytorch-multi-label-classifier) pytorch 实现的多标签分类分类器
* [xuyige/BERT4doc-Classification](https://github.com/xuyige/BERT4doc-Classification) 如何微调 BERT 进行文本分类
* [timoschick/pet](https://github.com/timoschick/pet) 该存储库包含“利用小样本文本分类和自然语言推理的完形填空题”的代码.介绍了模式利用训练 (PET),这是一种半监督训练程序,可将输入示例重新表述为完形填空式短语。在低资源环境中,PET 和 iPET 显着优于常规监督训练、各种半监督基线甚至 GPT-3,尽管需要的参数减少 99.9%。PET 的迭代变体 (iPET) 训练多代模型,甚至可以在没有任何训练数据的情况下使用。
* [YerevaNN/warp](https://github.com/YerevaNN/warp) ACL'2021 论文 WARP Cyclone Word-level Adversarial ReProgramming 的代码。 在 SuperGLUE 少样本文本分类上优于“GPT-3”。提出了一种基于对抗性重编程的替代方法,它是自动扩展提示模板生成的早期工作。而且参数量少了好多个数量级。
* [whatissimondoing/CoG-BART](https://github.com/whatissimondoing/CoG-BART) 对比度和生成使BART成为很好的对话情感识别器
* [hiyouga/Dual-Contrastive-Learning](https://github.com/hiyouga/dual-contrastive-learning) 双重对比学习。 通过在同一空间内同时学习输入样本的特征和分类器的参数,为监督分类任务提出了一种新颖的对比学习框架。
* [thunlp/KnowledgeablePromptTuning](https://github.com/thunlp/KnowledgeablePromptTuning) 将知识整合到 Prompt Verbalizer 中进行文本分类
* [zhouj8553/FlipDA](https://github.com/zhouj8553/FlipDA) 提供了一种基于 T5 和翻转标签自训练的自动数据增强方法。 我们在 FewGLUE 上对其进行评估,并提高其性能。
## 文本摘要
* [xcfcode/Summarization-Papers](https://github.com/xcfcode/Summarization-Papers) 文本摘要论文总结
* [ritun16/llm-text-summarizations](https://github.com/ritun16/llm-text-summarization) 使用大型语言模型 (LLMs) 进行文本摘要的综合指南和代码库。深入研究从分块到聚类的技术,并利用 GPT-3.5 和 GPT-4 LLMs 等的力量。
* [abisee/pointer-generator](https://github.com/abisee/pointer-generator) 使用指针生成器网络进行汇总
* [AIKevin/Pointer_Generator_Summarizer](https://github.com/AIKevin/Pointer_Generator_Summarizer) 指针生成器网络:具有关注,指向和覆盖机制的Seq2Seq,用于抽象性摘要。 tensorflow 2.0
* [kjc6723/seq2seq_Pointer_Generator_Summarizer](https://github.com/kjc6723/seq2seq_Pointer_Generator_Summarizer) 中文会话中生成摘要总结的项目 tensorflow 2.0
* [steph1793/Pointer_Transformer_Generator](https://github.com/steph1793/Pointer_Transformer_Generator) 指针生成器网络 tensorflow 2.0
* [magic282/NeuSum](https://github.com/magic282/NeuSum) 通过共同学习评分和选择句子进行神经文本摘要
* [dmmiller612/bert-extractive-summarizer](https://github.com/dmmiller612/bert-extractive-summarizer) BERT易于使用的提取文本摘要
* [nju-websoft/NEST](https://github.com/nju-websoft/NEST) 输入知识图谱的基于联合编码的弱监督神经实体摘要方法
* [bojone/SPACES](https://github.com/bojone/SPACES) 端到端的长本文摘要模型(法研杯2020司法摘要赛道)
* [xcfcode/Summarization-Papers](https://github.com/xcfcode/Summarization-Papers) 文本摘要论文列表,包括各种主题。
* [yym6472/ms_pointer_network](https://github.com/yym6472/ms_pointer_network) 用多来源Pointer Network的产品标题摘要方法.从两个信息来源:原始商品标题和知识信息knowledge中抽取信息,然后将二者进行综合得到最后的结果。
* [FeiSun/ProductTitleSummarizationCorpus](https://github.com/FeiSun/ProductTitleSummarizationCorpus) Dataset for CIKM 2018 paper "Multi-Source Pointer Network for Product Title Summarization" 用于产品标题摘要的多源指针网络
* [jiacheng-ye/kg_one2set](https://github.com/jiacheng-ye/kg_one2set) 解决关键词生成任务,给一篇源文档(比如论文的摘要),关键词预测任务就是预测出一些表达文档重点信息的关键词,或者更准确的说是关键短语。提出了模型SetTrans,其特点是能够预测更多、更准确而且重复率更低的关键词集合。并行预测,在 inference 效率上是Transfomer的6.44倍。
* [MaartenGr/keyBERT](https://github.com/MaartenGr/keyBERT) 一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。
* [xcfcode/PLM_annotator](https://github.com/xcfcode/PLM_annotator) 探索对话总结的 DialoGPT
* [RowitZou/topic-dialog-summ](https://github.com/RowitZou/topic-dialog-summ) 具有显着性感知主题建模的客户服务的面向主题的口语对话摘要。数据集是从阿里巴巴客户服务中心收集的。所有对话都是在客户和服务代理之间进行的普通话来电。脱敏数据可在 [Google Drive](https://drive.google.com/file/d/1X3-C9vTYfk43T5NIEvRsdRIJkN1RuG7b/view?usp=sharing)或[百度盘](https://pan.baidu.com/s/1AvkGnerKpQHUNbwkz9kO7A)(提取码:t6nx)上获得。
* [maszhongming/MatchSum](https://github.com/maszhongming/MatchSum) 背景: 传统抽取式摘要模型都是基于句子级提取的,即未考虑句子间关系,对所有句子逐个打分,取topN的句子为摘要。主要贡献:考虑句子间的关系,通过候选句间的组合句来抽取摘要;基于摘要与原文档在语义上应该有较大匹配度的考量,本文提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的模型.对六个摘要提取数据集进行分析,验证了句子级得分高的摘要并不是摘要级得分最高的。如果仅以句子级,容易产生pearl-summary, 即虽然句子得分较低,但其实是较好的摘要,作者称为沧海遗珠。
* [nlpyang/PreSumm](https://github.com/nlpyang/PreSumm) 基于BERT的文档级编码器,该编码器能够表达文档的语义,并获得文档的句子表示。并分别提出了抽取式和生成式的摘要模型。
* [nlpyang/BertSum](https://github.com/nlpyang/BertSum) BERT的简单变体 用于抽取式文本摘要,主要是选择性抽取文本中的句子作为最后的摘要。这个任务最大的问题是如何获得每个句子向量,然后把向量用于二分类,判断去留。而 BERT 原模型只能生成单句的句子向量,或者句子对的。(1)将文档中每句话前加 [CLS]后加[SEP],然后输入 BERT,而每个[CLS]对应的位置就是每句的句向量。(2)为了进一步增加句之间的互动,在 BERT 之上加了一层 Transformer 的 Summarization Layer,只输入每个[CLS]的向量,最后输出预测当前句是否保留,finetune。
* [OpenSUM/CPSUM](https://github.com/OpenSUM/CPSUM) 半监督抽取式摘要的噪声注入一致性训练和熵约束伪标签
* [krystalan/ClidSum](https://github.com/krystalan/ClidSum) 一个跨语言对话摘要的基准数据集
## 文本生成、文本对话
### 大语言对话模型及数据
* [karpathy/LLM101n](https://github.com/karpathy/LLM101n) 在本课程中,我们将构建一个 Storyteller AI 大型语言模型 (LLM)。携手合作,您将能够使用 AI 创建、完善和说明小故事。我们将从头开始构建从基础到类似于 ChatGPT 的功能 Web 应用程序的所有内容,从头开始使用 Python、C 和 CUDA,并且具有最少的计算机科学先决条件。到最后,你应该对人工智能LLMs和更普遍的深度学习有相对深入的了解。
* [Significant-Gravitas/Auto-GPT](https://github.com/Significant-Gravitas/Auto-GPT#auto-gpt-an-autonomous-gpt-4-experiment) 使用GPT4来自动完成目标任务。一个实验性开源应用程序,展示了 GPT-4 语言模型的功能。该程序由 GPT-4 驱动,将 LLM 的“思想”链接在一起,以自主实现您设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。
* [meta-llama/llama3](https://github.com/meta-llama/llama3) Meta Llama 3 官方 GitHub 站点。我们正在释放大型语言模型的力量。我们最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业使用,以便他们可以负责任地试验、创新和扩展他们的想法。此版本包括预训练和指令调整的 Llama 3 语言模型的模型权重和起始代码,包括 8B 到 70B 参数的大小。此存储库旨在作为加载 Llama 3 模型和运行推理的最小示例。
* [facebookresearch/llama](https://github.com/facebookresearch/llama) facebook LLaMA 模型的推理代码。最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业访问,以便他们可以负责任地进行实验、创新和扩展他们的想法。
* [facebookresearch/llama-recipes](https://github.com/facebookresearch/llama-recipes) facebook LLaMA 模型的示例和手册
* [THUDM/GLM-4](https://github.com/THUDM/GLM-4) GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
* [THUDM/ChatGLM3](https://github.com/THUDM/ChatGLM3) ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
* [THUDM/ChatGLM2-6B](https://github.com/THUDM/ChatGLM2-6B) 开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了如下新特性:`更强大的性能`:全面升级了基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。`更长的上下文`:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明,在等量级的开源模型中,32K 有着较为明显的竞争优势。`更高效的推理`:基于 Multi-Query Attention 技术,有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。`更开放的协议`:权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
* [THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B) 开源的、支持中英双语的对话语言模型,基于 [General Language Model (GLM)](https://github.com/THUDM/GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
* [THUDM/GLM-130B](https://github.com/THUDM/GLM-130B) GLM-130B是一个开放的双语(英汉)双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 上具有 130B 参数的推理任务。通过 INT4 量化,硬件可以进一步降低到具有 4 * RTX3090 24G 的单个服务器,几乎没有性能下降。
* [QwenLM/Qwen](https://github.com/QwenLM/Qwen) 阿里云提出的 Qwen (通义千问) 聊天和预训练大型语言模型的官方存储库。开源了Qwen(通义千问)系列工作,当前开源模型的参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。当前基础模型已经稳定训练了大规模高质量且多样化的数据,覆盖多语言(当前以中文和英文为主),总量高达3万亿token。在相关基准评测中,Qwen系列模型拿出非常有竞争力的表现,显著超出同规模模型并紧追一系列最强的闭源模型。此外,我们利用SFT和RLHF技术实现对齐,从基座模型训练得到对话模型。Qwen-Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。在此基础上,我们针对LLM对接外部系统等方面针对性地做了优化,当前具备较强的工具调用能力,以及最近备受关注的Code Interpreter的能力和扮演Agent的能力。
* [QwenLM/Qwen1.5](https://github.com/QwenLM/Qwen1.5) Qwen1.5 是 Qwen 团队、阿里云开发的大型语言模型系列 Qwen 的改进版本。即 Qwen2 的 beta 版本。与 Qwen 类似,它仍然是一个仅解码器的变压器模型,具有 SwiGLU 激活、RoPE、多头注意力。目前,我们已经取得了以下成就:6种型号尺寸:0.5B、1.8B、4B、7B、14B、72B;聊天模型中的模型质量显著提高;加强了基础模型和聊天模型中的多语言功能;所有模型都支持令牌的 32768 上下文长度;所有型号都启用系统提示,这意味着可以进行角色扮演。
* [baichuan-inc/Baichuan2](https://github.com/baichuan-inc/Baichuan2) 百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本对学术研究完全开放。同时,开发者通过邮件申请并获得官方商用许可后,即可免费商用。
* [baichuan-inc/Baichuan-13B](https://github.com/baichuan-inc/Baichuan-13B) 由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。开源免费可商用:B对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,可免费商用。
* [01-ai/Yi](https://github.com/01-ai/Yi) 01.AI 从头开始训练的下一代开源大型语言模型。作为双语语言模型,并在 3T 多语言语料库上进行训练,Yi 系列模型成为全球最强大的LLM模型之一,在语言理解、常识推理、阅读理解等方面显示出前景。Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二(仅次于 GPT-4 Turbo),表现优于其他LLMs模型(如 GPT-4、Mixtral、Claude)(基于截至 2024 年 1 月的数据)。Yi-34B模型在各种基准测试中,包括Hugging Face Open LLM Leaderboard(预训练)和C-Eval(基于截至2023年11月的数据)中,在所有现有的开源模型(如Falcon-180B、Llama-70B、Claude)中排名第一。感谢 Transformer 和 Llama 开源社区,因为它们减少了从头开始构建所需的工作量,并能够在 AI 生态系统中使用相同的工具。
* [naklecha/llama3-from-scratch](https://github.com/naklecha/llama3-from-scratch) llama3 从头开始实现,此外,我将直接从 Meta 为 llama3 提供的模型文件加载张量。详细解释 llama3 大模型每一个运算步骤。
* [CrazyBoyM/llama3-Chinese-chat](https://github.com/CrazyBoyM/llama3-Chinese-chat) Llama3 中文仓库(聚合资料:各种网友及厂商微调、魔改版本有趣权重 & 训练、推理、部署教程视频 & 文档)
* [mlabonne/llm-course](https://github.com/mlabonne/llm-course) 使用路线图和 Colab 笔记本来学习大型语言模型 (LLMs) 的课程。该LLM课程分为三个部分:LLM 基础知识涵盖有关数学、Python 和神经网络的基本知识。科学家LLM专注于LLMs使用最新技术构建最佳产品。LLM 工程师专注于创建LLM基于应用程序并部署它们。
* [rasbt/LLMs-from-scratch](https://github.com/rasbt/LLMs-from-scratch) 从头开始逐步实现类似ChatGPT的 LLM
* [imoneoi/openchat](https://github.com/imoneoi/openchat) 使用不完善的数据推进开源语言模型。OpenChat是一系列基于监督微调(SFT)的开源语言模型。我们利用 ~80k ShareGPT 对话与条件反射策略和加权损失,尽管我们的方法很简单,但仍实现了卓越的表现。我们的最终愿景是开发一个高性能、开源和商用的大型语言模型,并且我们正在不断取得进展。
* [lonePatient/awesome-pretrained-chinese-nlp-models](https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models) 高质量中文预训练模型集合。包括:基础大模型、对话大模型、多模态对话大模型、大模型评估基准、开源模型库平台、开源数据集库、中文指令数据集。
* [Vision-CAIR/MiniGPT-4](https://github.com/Vision-CAIR/MiniGPT-4) MiniGPT-4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。
* [ggerganov/llama.cpp](https://github.com/ggerganov/llama.cpp) 纯C/C++中LLaMA模型的CPU推理。2023年FacebookResearch 开源了大规模语言模型LLaMA,包含从 7B 到 65B 的参数范围,训练使用多达 1.4万亿 tokens 语料。LLaMA-13B在大部分基准测评上超过了GPT3-175B,LLaMA可能是目前公开模型权重中效果最好的语言模型。
* [juncongmoo/pyllama](https://github.com/juncongmoo/pyllama) LLaMA - 在单个 4GB GPU 中运行 LLM
* [tatsu-lab/stanford_alpaca](https://github.com/tatsu-lab/stanford_alpaca) 斯坦福大学的LLaMA羊驼模型。用2K数据微调模型,构建和共享一个遵循指令的LLaMA模型。
* [LC1332/Chinese-alpaca-lora](https://github.com/LC1332/Chinese-alpaca-lora) 在LLaMA、斯坦福大学Alpaca、Alpaca LoRA、Cabrita、Japanese-Alpaca-LoRA的基础上,调试了一个中国LLaMA模型。同时使用ChatGPT API将alpaca_data. json翻译为中文,再进行微调。* [tloen/alpaca-lora](https://github.com/tloen/alpaca-lora) 在消费者硬件上使用指令来微调LLaMA模型。使用低秩自适应(LoRA)重现斯坦福大学Alpaca结果的代码。我们提供了一个与 text-davinci-003质量相似的Instruct模型,可以在Raspberry Pi上运行(用于研究),并且代码很容易扩展到 13b , 30b 和 65b模型。
* [mymusise/ChatGLM-Tuning](https://github.com/mymusise/ChatGLM-Tuning) 平价的chatgpt实现方案, 基于ChatGLM-6B + LoRA
* [OpenLMLab/MOSS](https://github.com/OpenLMLab/MOSS) 支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数。开源数据: moss-002-sft-data: 多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。moss-003-sft-data: 多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。moss-003-sft-plugin-data: 插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。moss-003-pm-data: 偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据。
* [baichuan-inc/baichuan-7B](https://github.com/baichuan-inc/baichuan-7B) 百川开发的大规模7B预训练语言模型。一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿词元上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。
* [InternLM/InternLM](https://github.com/InternLM/InternLM) InternLM开源了70亿和200亿参数基础模型,以及针对实际场景和训练系统量身定制的聊天模型。开源的轻量级训练框架,旨在支持模型预训练,而无需广泛的依赖关系。通过单个代码库,它支持在具有数千个 GPU 的大规模集群上进行预训练,并在单个 GPU 上进行微调,同时实现卓越的性能优化。InternLM 在 1024 个 GPU 上训练期间实现了近 90% 的加速效率。InternLM-20B选择了更深的架构,深度设置为60层。这超过了使用32或40层的传统7B和13B型号。当参数有限时,增加层数可以增强模型的整体功能。此外,与InternLM-7B相比,InternLM-20B使用的预训练数据经过了更高质量的清理,并补充了丰富的知识数据,旨在增强理解和推理能力。因此,它在理解、推理、数学和编程能力方面表现出显着的改进——所有这些都测试了语言模型的技术熟练程度。
* [InternLM/InternLM-techreport](https://github.com/InternLM/InternLM-techreport) 书生·浦语由上海人工智能实验室和商汤科技(同等贡献)与香港中大、复旦和上海交大联合开发的多语言大语言模型。具有104B参数的多语言基础语言模型。在具有 1.6T 词元的大型语料库上进行预训练,并具有多阶段渐进过程,然后进行微调以符合人类偏好。我们还开发了一个名为Uniscale-LLM的训练系统,用于高效的大型语言模型训练。对多项基准的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面都取得了最先进的表现。凭借如此全面的能力,InternLM在综合考试中取得了出色的表现,包括MMLU,AGIEval,C-Eval和高考-Bench,而无需借助外部工具。在这些基准测试中,InternLM 不仅明显优于开源模型,而且与 ChatGPT 相比,还获得了卓越的性能。此外,InternLM在理解中文和中国文化方面表现出出色的能力,这使其成为支持面向中文的语言应用的合适基础模型,并提供了跨各种知识领域和任务的基准和示例。
* [mistralai/mistral-src](https://github.com/mistralai/mistral-src) Mistral AI 7B v0.1 模型的参考实现。一个功能强大且快速的模型,适用于许多用例。虽然速度快 6 倍,但它在所有基准测试中都与 Llama 2 70B 相当或更胜一筹,会说多种语言,具有自然的编码能力。它处理 32k 序列长度。
* [clue-ai/ChatYuan](https://github.com/clue-ai/ChatYuan) 用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。
* [Xwin-LM/Xwin-LM](https://github.com/Xwin-LM/Xwin-LM) 旨在为大型语言模型开发和开源对齐技术,包括监督微调(SFT),奖励模型(RM),拒绝采样,来自人类反馈的强化学习(RLHF)等。我们的第一个版本建立在Llama2基本模型的基础上,在AlpacaEval上排名TOP-1。值得注意的是,它是第一个在此基准测试上超过 GPT-4 。
* [PCL-Platform.Intelligence/PanGu-Alpha](https://openi.pcl.ac.cn/PCL-Platform.Intelligence/PanGu-Alpha) 2000亿开源中文预训练语言模型「鹏城·盘古α」,以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏城·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。
* [PCL-Platform.Intelligence/PanGu-Dialog](https://openi.pcl.ac.cn/PCL-Platform.Intelligence/PanGu-Dialog) 鹏城.盘古对话生成大模型,简称PanGu-Dialog。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用了大规模预训练语言模型的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。
* [CStanKonrad/long_llama](https://github.com/CStanKonrad/long_llama) 一种大型语言模型,能够处理256k个甚至更多的长上下文。建立在OpenLLaMA的基础上,并使用聚焦变压器(FoT)方法进行微调。聚焦转换器:上下文缩放的对比训练 (FoT) 提供了一种简单的方法,使语言模型能够处理可能包含数百万个令牌的上下文,同时在明显更短的输入上进行训练。FoT 允许注意力层的子集访问(键、值)对的内存缓存,以扩展上下文长度。FoT的独特之处在于其训练程序,借鉴了对比学习。具体来说,将内存注意层暴露给相关和不相关的键(如来自不相关文档的负样本)。这种策略激励模型区分与语义上不同的值相关的键,从而增强它们的结构。反过来,这使得推断有效上下文长度远远超出训练中看到的范围成为可能。
* [lm-sys/FastChat](https://github.com/lm-sys/FastChat) 令人印象深刻的 GPT-4 开放式聊天机器人 Vicuna:一个以 90% ChatGPT 质量的开源聊天机器人。
* [project-baize/baize-chatbot](https://github.com/project-baize/baize-chatbot) 使用 LoRA 训练的开源聊天模型.它使用通过让 ChatGPT 与自己聊天生成的 100k 对话。还使用羊驼的数据来提高其性能。已发布了 7B、13B 和 30B 模型。
* [wenge-research/YaYi](https://github.com/wenge-research/YaYi) 为客户打造安全可靠的专属大模型,基于大规模中英文多领域指令数据训练的 LlaMA 2 & BLOOM 系列模型,由中科闻歌算法团队研发。在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。
* [AI4Finance-Foundation/FinGPT](https://github.com/AI4Finance-Foundation/FinGPT) 以数据为中心的 FinGPT。开源开放金融!革新
* [EleutherAI/gpt-neox](https://github.com/EleutherAI/gpt-neox) 在GPU上训练大规模语言模型。基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。目标是使这个存储库成为一个集中且可访问的地方,以收集用于训练大规模自回归语言模型的技术,并加速对大规模训练的研究。
* [microsoft/graphrag](https://github.com/microsoft/graphrag) 基于图形的模块化检索增强生成 (RAG) 系统,GraphRAG 项目是一个数据管道和转换套件,旨在使用 LLMs的强大功能从非结构化文本中提取有意义的结构化数据。该存储库提供了一种使用知识图谱记忆结构来增强LLM输出的方法。GraphRAG 是一种基于 AI 的内容解释和搜索功能。使用 LLMs,它解析数据以创建知识图谱并回答用户有关用户提供的私有数据集的问题。GraphRAG 能够连接大量信息中的信息,并使用这些连接来回答使用关键字和基于向量的搜索机制难以或无法回答的问题。在上一个问题的基础上,提供关于系统如何为各种用途提供功能的半技术性、高级信息。这使得系统可以使用 GraphRAG 来回答问题,其中答案涵盖许多文档以及主题问题,例如“此数据集中的顶级主题是什么?GraphRAG的预期用途是什么?GraphRAG 旨在支持关键信息发现和分析用例,在这些用例中,获得有用见解所需的信息跨越许多文档、嘈杂、混杂着 MI 和/或虚假信息,或者当用户旨在回答的问题比底层数据可以直接回答的问题更抽象或主题化时。GraphRAG 设计用于用户已经接受过负责任的分析方法培训并期望进行批判性推理的环境;GraphRAG 能够提供对复杂信息主题的高度洞察力,但是需要领域专家对答案进行人工分析,以验证和增强 GraphRAG 生成的响应。GraphRAG 旨在与特定领域的文本数据语料库一起部署和使用;GraphRAG 本身不收集用户数据,但鼓励用户验证所选LLM用于配置 GraphRAG 的数据隐私政策。如何评估 GraphRAG?使用哪些指标来衡量绩效?GraphRAG 已通过多种方式进行了评估;主要关注点是 1) 数据集的准确表示,数据集的准确表示已经通过手动检查和自动测试进行了测试,并针对从随机选择的测试语料库子集创建的“黄金答案”;2) 提供响应的透明度和基础性,通过自动答案覆盖率评估和对返回的底层上下文的人工检查来测试回复的透明度和基础性;3) 对提示和数据语料库注入攻击的弹性,我们使用手动和半自动技术测试用户提示注入攻击(“越狱”)和交叉提示注入攻击(“数据攻击”); 4) 低幻觉率,幻觉率是使用索赔覆盖率指标、手动检查答案和来源以及对抗性攻击来评估幻觉率的,这些攻击是通过对抗性和极具挑战性的数据集尝试强迫幻觉。GraphRAG的局限性是什么?用户在使用系统时,如何最大程度地减少 GraphRAG 限制的影响?GraphRAG 依赖于一个构造良好的索引示例;对于一般应用(例如,以人、地点、组织、事物等为导向的内容),我们提供了示例索引提示;对于独特的数据集,有效的索引可能依赖于对特定领域概念的正确识别;索引是一项相对昂贵的操作;缓解索引编制的最佳做法是在目标域中创建一个小型测试数据集,以确保索引器在执行大型索引操作之前具有性能。哪些操作因素和设置允许有效和负责任地使用 GraphRAG?GraphRAG 专为具有领域复杂性和应对困难信息挑战经验的用户而设计;虽然该方法通常对注入攻击和识别相互冲突的信息源很鲁棒,但该系统是为受信任的用户设计的;对回答进行适当的人工分析对于产生可靠的见解非常重要,并且应追踪信息的来源,以确保人类与作为答案生成的一部分所做的推论达成一致;GraphRAG 在自然语言文本数据上产生最有效的结果,这些文本数据共同关注一个整体主题或主题,并且具有丰富的实体——实体是可以唯一识别的人、地点、事物或物体;虽然 GraphRAG 已经过评估,因为它对提示和数据语料注入攻击的弹性,并且已经针对特定类型的危害进行了探究,LLM但用户使用 GraphRAG 配置可能会产生不适当或令人反感的内容,这可能使得在没有特定于用例和模型的额外缓解措施的情况下,不适合针对敏感上下文进行部署。开发人员应评估其上下文的输出,并使用可用的安全分类器、对特定安全过滤器和功能进行建模,或适合其用例的自定义解决方案。
* [google/gemma_pytorch](https://github.com/google/gemma_pytorch) Gemma 是一个轻量级、最先进的开放模型系列,由用于创建 Google Gemini 模型的研究和技术构建而成。它们是文本到文本、仅解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调整变体。这是 Gemma 模型的官方 PyTorch 实现。我们使用 PyTorch 和 PyTorch/XLA 提供模型和推理实现,并支持在 CPU、GPU 和 TPU 上运行推理。
* [visual-openllm/visual-openllm](https://github.com/visual-openllm/visual-openllm) 文心一言的开源版,基于 ChatGLM + Visual ChatGPT + Stable Diffusion
* [hikariming/alpaca_chinese_dataset](https://github.com/hikariming/alpaca_chinese_dataset) 人工精调的中文对话数据集和一段chatglm的微调代码
* [michael-wzhu/Chinese-LlaMA2](https://github.com/michael-wzhu/Chinese-LlaMA2) META最新发布的LlaMA2的汉化版! (完全开源可商用)
* [ymcui/Chinese-LLaMA-Alpaca](https://github.com/ymcui/Chinese-LLaMA-Alpaca) 中文LLaMA模型和经过指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,在中文LLaMA的基础上,本项目使用了中文指令数据进行指令精调,显著提升了模型对指令的理解和执行能力。
* [Facico/Chinese-Vicuna](https://github.com/Facico/Chinese-Vicuna) 一个中文低资源的llama+lora方案,结构参考alpaca
* [lucidrains/PaLM-rlhf-pytorch](https://github.com/lucidrains/PaLM-rlhf-pytorch) 在PaLM架构上实现RLHF(人工反馈强化学习),类似ChatGPT
* [liltom-eth/llama2-webui](https://github.com/liltom-eth/llama2-webui) 从任何地方(Linux/Windows/Mac)在GPU或CPU上本地运行任何Llama 2。使用“llama2-wrapper”作为生成代理/应用程序的本地llama2后端。
* [togethercomputer/OpenChatKit](https://github.com/togethercomputer/OpenChatKit) 一个强大的开源基础,可以为各种应用程序创建专用和通用聊天机器人。该工具包包括一个指令调优的语言模型,一个审核模型,和一个可扩展的检索系统,用于包括来自自定义存储库的最新响应。
* [LianjiaTech/BELLE](https://github.com/LianjiaTech/BELLE) 开源中文对话大模型,现阶段基于开源预训练大语言模型(如BLOOM),针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。开放了数据集:Stanford Alpaca 生成的中文数据集1M + 0.5M;0.25M数学指令数据集和0.8M多轮任务对话数据集。
* [carbonz0/alpaca-chinese-dataset](https://github.com/carbonz0/alpaca-chinese-dataset) alpaca中文指令微调数据集
* [cryscan/multilingual-share](https://huggingface.co/datasets/cryscan/multilingual-share) 为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了 ShareGPT-90k 项目,希望借助大家的力量推进数据清洗与对齐工作。可能与各位想象的有所不同,GPT模型主要通过预训练数据集赋能,语料的质量对模型最终性能至关重要。然而,百度知道、CSDN、知乎等平台软文过多;小木虫等高质量平台语料过少;个人博客内容质量参差不齐。OpenAI完成数据集的收集花费了巨大成本,以至于需要从微软集资。我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定外语基础的网友们献上自己的力量。[RWKV-Wiki/MultilingualShareGPT](https://github.com/RWKV-Wiki/MultilingualShareGPT)
* [TigerResearch/TigerBot](https://github.com/TigerResearch/TigerBot) 多语言多任务LLM,在 BLOOM 基础上的模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。[中文开源预训练集 - 55G,包含中文书籍、中文互联网、中文百科](https://huggingface.co/datasets/TigerResearch/pretrain_zh)、 [英文开源预训练集 - 51G,包含英文书籍、英文互联网、英文百科](https://huggingface.co/datasets/TigerResearch/pretrain_en) 、[中文-微调指令集-合集 - 53W 条](https://huggingface.co/datasets/TigerResearch/sft_zh)、[英文-微调指令集-合集 - 67W 条 - 下载](https://huggingface.co/datasets/TigerResearch/sft_en)
* [masa3141/japanese-alpaca-lora](https://github.com/masa3141/japanese-alpaca-lora) 日文指令来微调LLaMA模型
* [nlpxucan/WizardLM](https://github.com/nlpxucan/WizardLM) 由Evol-Instruct提供支持的遵循指令的LLM系列:WizardLM,WizardCoder和WizardMath。基于GPT-4的自动评估框架来评估聊天机器人模型的性能。WizardLM-30B取得了比Guanaco-65B更好的结果。
* [luban-agi/Awesome-Domain-LLM](https://github.com/luban-agi/Awesome-Domain-LLM) 本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。
* [22-hours/cabrita](https://github.com/22-hours/cabrita) 葡萄牙语微调指令LLaMA
* [zilliztech/GPTCache](https://github.com/zilliztech/GPTCache) LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。将您的LLM API成本降低10倍,将速度提高100倍。采用了语义缓存等替代策略。语义缓存识别并存储相似或相关的查询,从而提高缓存命中概率并提高整体缓存效率。采用嵌入算法将查询转换为嵌入,并使用向量存储对这些嵌入进行相似性搜索。此过程允许 GPTCache 从缓存存储中识别和检索类似或相关的查询。
* [Stability-AI/StableLM](https://github.com/Stability-AI/StableLM) 稳定性AI语言模型。使用 Stanford Alpaca 的程序对模型进行了微调,结合了五个最近的对话代理数据集:Stanford 的 Alpaca 、Nomic-AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。
* [LC1332/Luotuo-Chinese-LLM](https://github.com/LC1332/Luotuo-Chinese-LLM) 中文大语言模型开源项目,包含了一系列语言模型。Luotuo-Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。
* [FreedomIntelligence/LLMZoo](https://github.com/FreedomIntelligence/LLMZoo) 一个为大型语言模型提供数据,模型和评估基准的项目。发布基于BLOOMZ的凤凰Phoenix7B模型、Chimera奇美拉模型。Phoenix-inst-chat-7b 达到85.2% 的ChatGPT效果。
* [openai/evals](https://github.com/openai/evals) 一个评估LLM和LLM系统的框架,也是一个开源的基准测试表。
* [pengxiao-song/LaWGPT](https://github.com/pengxiao-song/LaWGPT) 基于中文法律知识的大语言模型
* [MediaBrain-SJTU/MedicalGPT-zh](https://github.com/MediaBrain-SJTU/MedicalGPT-zh) 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型
* [dandelionsllm/pandallm](https://github.com/dandelionsllm/pandallm) 海外中文开源大语言模型,基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练。
* [OptimalScale/LMFlow](https://github.com/OptimalScale/LMFlow) 一个可扩展、方便和高效的工具箱,用于微调大型机器学习模型。我们的目标是开发一套用户友好、快速可靠,并对整个社区开放的全流程微调代码库。
* [yangjianxin1/Firefly](https://github.com/yangjianxin1/Firefly) Firefly(流萤): 中文对话式大语言模型,包括高质量的包含1.1M中文多任务[指令微调数据集](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M),包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得如下中文模型:firefly-1b4 、firefly-2b6 、firefly-2b6-v2。开源QLoRA训练流程和模型权重
* [PlexPt/awesome-chatgpt-prompts-zh](https://github.com/PlexPt/awesome-chatgpt-prompts-zh) ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。
* [dalinvip/Awesome-ChatGPT](https://github.com/dalinvip/Awesome-ChatGPT) ChatGPT资料汇总学习
* [rockbenben/ChatGPT-Shortcut](https://github.com/rockbenben/ChatGPT-Shortcut) 让生产力加倍的 ChatGPT 快捷指令,按照领域和功能分区,可对提示词进行标签筛选、关键词搜索和一键复制。
* [PhoebusSi/Alpaca-CoT](https://github.com/PhoebusSi/Alpaca-CoT) 将CoT数据扩展到Alpaca以提高其推理能力,同时我们将不断收集更多的instruction-tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。[Alpaca-CoT · Datasets](https://huggingface.co/datasets/QingyiSi/Alpaca-CoT)
* [unit-mesh/unit-minions](https://github.com/unit-mesh/unit-minions) 《AI 研发提效研究:自己动手训练 LoRA》,包含 Llama (Alpaca LoRA)模型、ChatGLM (ChatGLM Tuning)相关 Lora 的训练。训练内容:用户故事生成、测试代码生成、代码辅助生成、文本转 SQL、文本生成
* [microsoft/JARVIS](https://github.com/microsoft/JARVIS) 一个将LLM与ML社区联系起来的系统。该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。
* [mlc-ai/mlc-llm](https://github.com/mlc-ai/mlc-llm) 使每个人都能在每个人的设备上本地开发、优化和部署 AI 模型。解决方案的基石是机器学习编译(MLC),我们利用它来有效地部署AI模型。我们建立在开源生态系统的肩膀上,包括来自Hugging Face和Google的令牌化器,以及Llama,Vicuna,Dolly,MOSS,RWKV等开源LLM。我们的主要工作流程基于 Apache TVM Unity。
* [mlc-ai/web-llm](https://github.com/mlc-ai/web-llm) 将大语言模型和聊天引入 Web 浏览器。一切都在浏览器中运行,没有服务器支持。WebLLM是MLC LLM的姊妹项目。它重用了模型工件并构建了MLC LLM的流程。
* [wangzhaode/ChatGLM-MNN](https://github.com/wangzhaode/ChatGLM-MNN) 纯C++,易于部署的ChatGLM-6B。
* [vllm-project/vllm](https://github.com/vllm-project/vllm) 适用于 LLM 的高吞吐量和内存效率推理和服务引擎。在吞吐量方面,vLLM 的性能比拥抱面转换器 (HF) 高出 24 倍,文本生成推理 (TGI) 高出 3.5 倍。使用**PagedAttention**分页注意力高效管理注意力键和值存储器。
* [yizhongw/self-instruct](https://github.com/yizhongw/self-instruct) 一种将预训练语言模型与指令对齐的方法。可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。
* [adams549659584/go-proxy-bingai](https://github.com/adams549659584/go-proxy-bingai)用 Vue3 和 Go 搭建的微软 New Bing 演示站点,拥有一致的 UI 体验,支持 ChatGPT 提示词,国内可用。
* [f/awesome-chatgpt-prompts](https://github.com/f/awesome-chatgpt-prompts) 包含 ChatGPT 提示,以更好地使用 ChatGPT。[fka/awesome-chatgpt-prompts](https://huggingface.co/datasets/fka/awesome-chatgpt-prompts) 这是一个很棒的 ChatGPT 提示的数据集存储库。
* [humanloop/awesome-chatgpt](https://github.com/humanloop/awesome-chatgpt) ChatGPT和GPT-3的惊人工具、演示和文档
* [encx/ChatGPT](https://github.com/lencx/ChatGPT) ChatGPT 桌面应用程序(Mac、Windows 和 Linux)
* [xtekky/chatgpt-clone](https://github.com/xtekky/chatgpt-clone) 具有更好用户界面的聊天GPT界面
* [wong2/chatgpt-google-extension](https://github.com/wong2/chatgpt-google-extension) 浏览器扩展,用ChatGPT增强搜索引擎效果
* [acheong08/ChatGPT](https://github.com/acheong08/ChatGPT) 逆向工程 ChatGPT 的API
* [ddiu8081/chatgpt-demo](https://github.com/ddiu8081/chatgpt-demo) 基于 OpenAI GPT-3.5 Turbo API 的 demo。
* [LAION-AI/Open-Assistant](https://github.com/LAION-AI/Open-Assistant) 基于聊天的助理,它理解任务,可以与第三方系统互动,并能动态地检索信息。将提供基于RLHF的大型语言模型,并公开训练数据。
* [acheong08/EdgeGPT](https://github.com/acheong08/EdgeGPT) 微软必应聊天的逆向工程API
* [yoheinakajima/babyagi](https://github.com/yoheinakajima/babyagi) 使用GPT3/4来自动完成任务。一个 AI 支持的任务管理系统示例. 该系统使用 OpenAI 和 Pinecone API 创建, 优先级排序和执行任务. 该系统背后的主要思想是基于先前任务的结果和预定义的目标创建任务. 脚本然后使用 OpenAI 的自然语言处理(NLP)能力根据目标创建新任务, 并使用 Pinecone 存储和检索任务结果以获得上下文. 这是原始的[任务驱动的自驱代理](https://twitter.com/yoheinakajima/status/1640934493489070080?s=20)的简化版本.
* [TransformerOptimus/SuperAGI](https://github.com/TransformerOptimus/SuperAGI) SuperAGI - 开发优先的开源自主 AI 代理框架。使开发人员能够快速可靠地构建、管理和运行有用的自主代理。
* [StanGirard/quivr](https://github.com/StanGirard/quivr) 将所有文件和想法转储到您的生成式AI(如chatgpt)的第二大脑中并与之聊天。旨在轻松存储和检索非结构化信息。
* [transitive-bullshit/chatgpt-api](https://github.com/transitive-bullshit/chatgpt-api) OpenAI提供的ChatGPT的Node.js包装器。
* [zhayujie/chatgpt-on-wechat](https://github.com/zhayujie/chatgpt-on-wechat) 用ChatGPT搭建微信聊天机器人
* [openai/openai-python](https://github.com/openai/openai-python) OpenAI Python库提供了从用Python语言编写的应用程序对OpenAI API的方便访问。
* [chenking2020/FindTheChatGPTer](https://github.com/chenking2020/FindTheChatGPTer) ChatGPT/GPT4开源“平替”汇总,持续更新
* [madawei2699/myGPTReader](https://github.com/madawei2699/myGPTReader) 由chatGPT提供支持,Slack上的一个机器人,可以阅读和总结任何网页,包括电子书在内的文档,甚至是YouTube上的视频。它可以通过语音和你交流。
* [JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset) Guanaco 模型的数据集旨在增强多语言能力并解决各种语言任务。以 Alpaca 模型的 175个任务为基础,提供了用不同语言重写的种子任务,并添加了专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别设计的新任务。数据集总共包含53万个条目,以6k美元的低成本生成。英语\中文\日语。
* [thunlp/UltraChat](https://github.com/thunlp/UltraChat) 大规模、信息丰富、多样化的多轮聊天数据(和模型)
* [ziliwangnlp/RefGPT](https://github.com/ziliwangnlp/RefGPT) 包含5万对中文多轮对话数据。用如下方法自动生成数据。采集优质的事实型文档,reference,来源是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题。利用已有LLM生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型。称作Reference-to-Dialogue GPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。需要关注2个要点。Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或网站。调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。
* [gururise/AlpacaDataCleaned](https://github.com/gururise/AlpacaDataCleaned) 经过清理和整理的斯坦福的羊驼数据集
* [wangrui6/Zhihu-KOL](https://huggingface.co/datasets/wangrui6/Zhihu-KOL) 知乎对话数据,parquet格式400多MB的大小
* [BAAI/COIG](https://huggingface.co/datasets/BAAI/COIG) 中文开放教学通才 (COIG) 项目,以维护一套无害、有用且多样化的中文对话语料库。具体包括:人工验证的翻译指令 (67798) 、考试指令 (63532) 、人类价值对齐指令 (34471) 、反事实修正多轮聊天(13653)、Leetcode 指令 (11737)
* [nomic-ai/pyllamacpp](https://github.com/nomic-ai/pyllamacpp) 支持 llama.cpp + gpt4all 的 Python 绑定
* [abetlen/llama-cpp-python](https://github.com/abetlen/llama-cpp-python) llama.cpp 的 Python 绑定
* [BlinkDL/ChatRWKV](https://github.com/BlinkDL/ChatRWKV) 使用RWKV语言模型(100%RNN)的类ChatGPT开源聊天模型。
* [rawandahmad698/PyChatGPT](https://github.com/rawandahmad698/PyChatGPT) 非官方 ChatGPT API 的 Python 客户端,具有自动令牌重新生成、对话跟踪、代理支持等功能。
* [qunash/chatgpt-advanced](https://github.com/qunash/chatgpt-advanced) 一种浏览器扩展,可通过网络结果增强您的 ChatGPT 提示。
* [liady/ChatGPT-pdf](https://github.com/liady/ChatGPT-pdf) 用于将 ChatGPT 历史下载为 PNG、PDF 或创建可共享链接的 Chrome 扩展
* [imartinez/privateGPT](https://github.com/imartinez/privateGPT) 使用 LLM 的强大功能,无需互联网连接就可以对您的文档提出问题。 100% 私有,任何时候都没有数据离开您的执行环境。您可以在没有互联网连接的情况下提取文档和提问!
* [xtekky/gpt4free](https://github.com/xtekky/gpt4free) 免费使用GPT4模型 [typescript版本](https://github.com/xiangsx/gpt4free-ts)
* [saharmor/awesome-chatgpt](https://github.com/saharmor/awesome-chatgpt) 精选的 ChatGPT 演示、工具、文章等
* [JushBJJ/Mr.-Ranedeer-AI-Tutor](https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor) GPT-4 AI 导师提示,用于可定制的个性化学习体验。
* [binary-husky/chatgpt_academic](https://github.com/binary-husky/chatgpt_academic) 科研工作专用ChatGPT/GLM拓展,特别优化学术Paper润色体验,模块化设计支持自定义快捷按钮&函数插件,支持代码块表格显示,Tex公式双显示,新增Python和C++项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持gpt-3.5/gpt-4/chatglm
* [AetherCortex/Llama-X](https://github.com/AetherCortex/Llama-X) 关于将LLaMA提高到SOTA LLM的开放学术研究
* [WangRongsheng/ChatGenTitle](https://github.com/WangRongsheng/ChatGenTitle) 使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型
* [nishiwen1214/ChatReviewer](https://github.com/nishiwen1214/ChatReviewer) 使用ChatGPT分析论文优缺点,提出改进建议
* [bhaskatripathi/pdfGPT](https://github.com/bhaskatripathi/pdfGPT) 允许您使用 GPT 功能与 PDF 文件的内容聊天。在聊天机器人中转换您的 pdf 文件的唯一开源解决方案
* [kaixindelele/ChatPaper](https://github.com/kaixindelele/ChatPaper) 全流程加速科研,利用chatgpt进行论文总结+润色+审稿+审稿回复
* [eimenhmdt/autoresearcher](https://github.com/eimenhmdt/autoresearcher) 使用 GPT 自动化科学工作流程
* [gragland/chatgpt-chrome-extension](https://github.com/gragland/chatgpt-chrome-extension) ChatGPT Chrome 扩展。将 ChatGPT 集成到互联网上的每个文本框中。
* [vincelwt/chatgpt-mac](https://github.com/vincelwt/chatgpt-mac) Mac 版 ChatGPT,就在您的菜单栏中。
* [huggingface/chat-ui](https://github.com/huggingface/chat-ui) 开源模型的聊天界面,例如OpenAssistant或Llama。SvelteKit应用程序,它为 hf.co/chat 上的HuggingChat应用程序提供支持。
* [GaiZhenbiao/ChuanhuChatGPT](https://github.com/GaiZhenbiao/ChuanhuChatGPT) 为ChatGPT ChatGLM LLaMA StableLM MOSS等多种LLM提供了一个轻快好用的Web图形界面
* [sonnylazuardi/chat-ai-desktop](https://github.com/sonnylazuardi/chat-ai-desktop) 使用 Tauri 和 Rust 的 Mac 和 Windows 菜单栏的非官方 ChatGPT 桌面应用程序
* [xx025/carrot](https://github.com/xx025/carrot) 准备了众多免费好用的ChatGPT镜像站点,当前100+站点
* [LiLittleCat/awesome-free-chatgpt](https://github.com/LiLittleCat/awesome-free-chatgpt) 免费的 ChatGPT 镜像网站列表,持续更新。
* [yzfly/awesome-chatgpt-zh](https://github.com/yzfly/awesome-chatgpt-zh) ChatGPT 中文指南,ChatGPT 中文调教指南,指令指南,精选资源清单,更好的使用 chatGPT 让你的生产力
* [terry3041/pyChatGPT](https://github.com/terry3041/pyChatGPT) OpenAI的ChatGPT API的非官方Python包装器
* [platelminto/chatgpt-conversation](https://github.com/platelminto/chatgpt-conversation) 用你的声音与 ChatGPT 对话,让它回话。
* [202252197/ChatGPT_JCM](https://github.com/202252197/ChatGPT_JCM) OpenAI管理界面,聚合OpenAI的所有接口进行界面操作(所有模型、图片、音频、微调、文件)等,支持Markdown格式(公式、图表,表格)等
* [memochou1993/gpt-ai-assistant](https://github.com/memochou1993/gpt-ai-assistant) 使用 OpenAI API 和 LINE 消息传递 API 实现的应用程序。通过安装过程,您可以使用LINE移动应用程序开始与自己的AI助手聊天。
* [ai-boost/awesome-prompts](https://github.com/ai-boost/awesome-prompts) 来自 GPT 商店中最受好评的 GPT 的精选 chatgpt 提示列表。提示工程,提示攻击和提示保护。高级提示工程论文。
* [yanqiangmiffy/Chinese-LangChain](https://github.com/yanqiangmiffy/Chinese-LangChain) 小必应,Q.Talk,强聊,QiangTalk,基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成
* [cesarhuret/docGPT](https://github.com/cesarhuret/docGPT) ChatGPT 直接在 Google Docs 中作为编辑器的插件
* [ConnectAI-E/Feishu-OpenAI](https://github.com/ConnectAI-E/Feishu-OpenAI) 飞书 ×(GPT-3.5 + DALL·E + Whisper)= 飞一般的工作体验 rocket 语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出
* [terror/chatgpt.nvim](https://github.com/terror/chatgpt.nvim) 在 Neovim 中查询 ChatGPT
* [clmnin/summarize.site](https://github.com/clmnin/summarize.site) 浏览器扩展使用ChatGPT总结网页内容
* [Zero6992/chatGPT-discord-bot](https://github.com/Zero6992/chatGPT-discord-bot) 将 ChatGPT 集成到您自己的discord机器人中
* [m1guelpf/chatgpt-telegram](https://github.com/m1guelpf/chatgpt-telegram) 运行您自己的GPT电报机器人,只需一个命令
* [transitive-bullshit/chatgpt-twitter-bot](https://github.com/transitive-bullshit/chatgpt-twitter-bot) ChatGPT API支持的Twitter机器人
* [kxxt/chatgpt-action](https://github.com/kxxt/chatgpt-action) 让 ChatGPT 为您审查 PR 拉取请求
* [RomanHotsiy/commitgpt](https://github.com/RomanHotsiy/commitgpt) 使用 ChatGPT 自动生成git提交消息
* [oceanlvr/ChatGPT-ProBot](https://github.com/oceanlvr/ChatGPT-ProBot) 基于 ChatGPT 的 GitHub APP,键入 /chatgpt 与机器人 robot 聊天。
* [kazuki-sf/ChatGPT_Extension](https://github.com/kazuki-sf/ChatGPT_Extension) 非常简单的Chrome扩展(v3),您可以从网络上的任何地方访问OpenAI的ChatGPT。
* [abielzulio/chatgpt-raycast](https://github.com/abielzulio/chatgpt-raycast) ChatGPT raycast(Mac的快捷启动器) 扩展
* [bupticybee/ChineseAiDungeonChatGPT](https://github.com/bupticybee/ChineseAiDungeonChatGPT) 中文版的ai地牢,直接使用的openai的ChatGPT api作为讲故事的模型。
* [domeccleston/sharegpt](https://github.com/domeccleston/sharegpt) 轻松与您的朋友分享 ChatGPT 对话的永久链接
* [Yidadaa/ChatGPT-Next-Web](https://github.com/Yidadaa/ChatGPT-Next-Web) 一键拥有你自己的 ChatGPT 网页服务。
* [pengzhile/pandora](https://github.com/pengzhile/pandora) 实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。
* [Chanzhaoyu/chatgpt-web](https://github.com/Chanzhaoyu/chatgpt-web) 用Express和Vue3搭建的 ChatGPT 演示网页
* [elyase/awesome-gpt3](https://github.com/elyase/awesome-gpt3) 关于 OpenAI GPT-3 API 的演示和文章的集合。
* [dair-ai/Prompt-Engineering-Guide](https://github.com/dair-ai/Prompt-Engineering-Guide) 提示工程是一门相对较新的学科,用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解大型语言模型 (LLM) 的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务(例如问题回答和算术推理)上的能力。开发人员使用提示工程来设计与 LLM 和其他工具交互的强大且有效的提示技术。
* [reworkd/AgentGPT](https://github.com/reworkd/AgentGPT) 在浏览器中组装、配置和部署自治 AI 代理。为您自己的自定义 AI 命名,让它开始任何可以想象的目标。它将尝试通过思考要完成的任务、执行它们并从结果中学习来达到目标。
* [openai/chatgpt-retrieval-plugin](https://github.com/openai/chatgpt-retrieval-plugin) ChatGPT 检索插件可让您通过自然语言提问来轻松查找个人或工作文档。
* [kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference](https://github.com/kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference) 在本地CPU推理上运行Llama 2和其他开源LLM,用于文档问答
* [Bin-Huang/chatbox](https://github.com/Bin-Huang/chatbox) 开源的 ChatGPT API (OpenAI API) 桌面客户端,Prompt 的调试与管理工具,支持 Windows、Mac 和 Linux
* [openai/openai-cookbook](https://github.com/openai/openai-cookbook) 使用 OpenAI API 的示例和指南
* [smol-ai/developer](https://github.com/smol-ai/developer) 随着Anthropic Claude的100k 上下文窗口的出现,现在每个开发人员都可以拥有自己的辅助开发助手
* [e2b-dev/e2b](https://github.com/e2b-dev/e2b) 允许您创建和部署虚拟软件开发人员。这些虚拟开发人员由专门的 AI 代理提供支持,这些代理可以根据您的指令构建软件并可以使用工具。
* [csunny/DB-GPT](https://github.com/csunny/DB-GPT) 使用本地 GPT 与您的数据和环境交互,无数据泄漏,100% 私密,100% 安全 目前支持Vicuna(7b, 13b), ChatGLM-6b(int4, int8)
* [acheong08/Bard](https://github.com/acheong08/Bard) Google 的 Bard 聊天机器人 API 的逆向工程
* [jtsang4/claude-to-chatgpt](https://github.com/jtsang4/claude-to-chatgpt) 将 Anthropic 的 Claude 模型的 API 转换为 OpenAI Chat API 格式。
* [databrickslabs/dolly](https://github.com/databrickslabs/dolly) dolly-v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布
* [openlm-research/open_llama](https://github.com/openlm-research/open_llama) 一个在RedPajama数据集上训练的Meta AI的LLaMA 7B的许可开源复制品。
* [mbzuai-nlp/LaMini-LM](https://github.com/mbzuai-nlp/LaMini-LM) 来自大规模指令的多样化蒸馏模型群。从ChatGPT提炼出来的小型高效语言模型的集合,并在2.58M指令的大规模数据集上进行训练。我们通过执行句子/离线提炼从大型语言模型中提取知识。我们基于几个现有的提示资源,使用 gpt-3.5-turbo 生成总共 2.58M 对指令和响应。
* [microsoft/TaskMatrix](https://github.com/microsoft/TaskMatrix) 连接了ChatGPT和一系列Visual Foundation模型,以便在聊天期间发送和接收图像。
* [huggingface/peft](https://github.com/huggingface/peft) 最先进的参数高效微调 (PEFT) 方法,LoRA、Prefix Tuning、P-Tuning、Prompt Tuning、AdaLoRA。参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。最近最先进的PEFT技术实现了与完全微调相当的性能。
* [artidoro/qlora](https://github.com/artidoro/qlora) 量化LLM的有效微调。QLoRA使用bitsandbytes进行量化。QLoRA是一种高效的微调方法,可减少内存使用量,足以在单个 48GB GPU 上微调 65B 模型,同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练LM将梯度反向传播到低秩适配器 (LoRA) 中。我们最好的模型 Guanaco,在 Vicuna 基准测试中优于之前所有公开的模型,达到了 ChatGPT 性能水平的 99.3%,而只需在单个 GPU 上进行 24 小时的微调。QLoRA 引入了许多创新,以在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4),一种理论上最适合正态分布权重的新数据类型 (b) 双重量化,通过量化常量来减少平均内存占用,以及 (c) 分页优化器来管理内存峰值。我们使用QLoRA对1k个模型进行微调,对 8 个指令数据集、多种模型(LLaMA、T5)和模型规模(如33B和65B参数)的指令遵循和聊天机器人性能进行详细分析。结果表明,QLoRA在小型高质量数据集上进行微调可以产生最先进的结果,即使用比以前的SoTA更小的模型也是如此。GPT4评估是人类评估的廉价且合理的替代方案。当前的聊天机器人基准测试不值得信赖,无法准确评估聊天机器人的性能水平。我们发布了所有模型和代码,包括用于 4 位训练的 CUDA 内核。
* [hiyouga/ChatGLM-Efficient-Tuning](https://github.com/hiyouga/ChatGLM-Efficient-Tuning) 基于 PEFT 的高效 ChatGLM 微调
* [ZrrSkywalker/LLaMA-Adapter](https://github.com/ZrrSkywalker/LLaMA-Adapter) 在1小时内遵循指令微调LLaMA , 1.2M参数
* [h2oai/h2o-llmstudio](https://github.com/h2oai/h2o-llmstudio) 用于微调LLM的框架和无代码GUI。轻松有效地微调LLM,无需任何编码经验。使用专为大型语言模型设计的GUI。使用各种超参数微调任何LLM。使用最新的微调技术,例如低秩适配 (LoRA) 和具有低内存占用的 8 位模型训练。使用强化学习 (RL) 微调模型(实验性)。使用高级评估指标来判断模型生成的答案。直观地跟踪和比较模型性能。
* [stochasticai/xTuring](https://github.com/stochasticai/xTuring) 轻松构建、定制和控制您自己的 LLM。提供快速、高效和简单的LLM微调,如LLaMA,GPT-J,Galactica等。通过提供一个易于使用的界面来微调LLM到您自己的数据和应用程序,xTuring使构建,自定义和控制LLM变得简单。整个过程可以在您的计算机内部或私有云中完成,确保数据隐私和安全。
* [punica-ai/punica](https://github.com/punica-ai/punica) 将多个 LoRA 微调 LLM 作为一个整体提供服务。Punica 支持运行多个 LoRA 微调模型,但代价是运行一个模型。通过分段收集矩阵向量乘法 (SGMV)的 LoRA 是高效的,并保留了强大的批处理效果.
* [Instruction-Tuning-with-GPT-4/GPT-4-LLM](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM) 共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。存储库包含:英语教学 - 遵循数据由 GPT-4 使用 Alpaca 提示进行微调 LLM。由 GPT-4 使用由 ChatGPT 从羊驼翻译的中文提示生成的中文指令跟踪数据。按 GPT-4 排名以训练奖励模型的比较数据。关于非自然指令的答案 来自 GPT-4 的数据,用于大规模量化 GPT-4 和指令调整模型之间的差距。
* [lxe/simple-llm-finetuner](https://github.com/lxe/simple-llm-finetuner) 初学者友好的界面,旨在通过商用NVIDIA GPU上的PEFT库,使用LoRA方法微调各种语言模型。使用较小的数据集和 256 的样本长度,您甚至可以在常规的 Colab Tesla T4 实例上运行它。
* [Jittor/JittorLLMs](https://github.com/Jittor/JittorLLMs) 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点。成本低:相比同类框架,本库可大幅降低硬件配置要求(减少80%),没有显卡,2G内存就能跑大模型;支持广:目前支持了4种大模型:[ChatGLM大模型](https://github.com/THUDM/ChatGLM-6B)、鹏程[盘古大模型](https://openi.org.cn/pangu/)、BlinkDL的[ChatRWKV](https://github.com/BlinkDL/ChatRWKV)、国外Meta的[LLaMA大模型](https://github.com/facebookresearch/llama)等;可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch);速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。
* [RUCAIBox/LLMSurvey](https://github.com/RUCAIBox/LLMSurvey) 与大型语言模型相关的论文和资源集合。
* [Lunabot](https://cn.lunabot.ai/zh/) 在任何网页为你服务的AI助理,通过快捷指令释放AI工作潜力,无需KEY和ChatGPT账号
* [jerryjliu/llama_index](https://github.com/jerryjliu/llama_index) 您的 LLM 应用程序的数据框架。高级 API 允许初学者使用 LlamaIndex 在 5 行代码中摄取和查询他们的数据。我们的低级 API 允许高级用户自定义和扩展任何模块(数据连接器、索引、检索器、查询引擎、重新排名模块)以满足他们的需求。
* [amazon-science/mm-cot](https://github.com/amazon-science/mm-cot) 语言模型中的多模式思维链推理。包括两个训练阶段:(i) 基本原理生成和 (ii) 答案推理。这两个阶段共享相同的模型架构,但输入和输出不同。
* [LC1332/Luotuo-Silk-Road](https://github.com/LC1332/Luotuo-Silk-Road) 中文大语言模型的数据。对话与指令数据集:Luotuo-Chinese-Alpaca 骆驼-中国-羊驼、Chinese-Dolly 中国多莉、Chinese-WizardLM 中国巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding
* [logspace-ai/langflow](https://github.com/logspace-ai/langflow) LangChain(大语言模型链式开发工具,强大的框架,可以简化构建高级语言模型应用程序的过程。) 的 UI,采用反应流设计,提供一种轻松的方式来实验和原型流。
* [liaokongVFX/LangChain-Chinese-Getting-Started-Guide](https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide) LangChain 的中文入门教程
* [YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M) 收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。
* [togethercomputer/RedPajama-Data](https://github.com/togethercomputer/RedPajama-Data) 包含用于准备大型数据集以训练大型语言模型的代码。重现LLaMA训练数据集的开源配方。Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia、StackExchange。合计1.2万亿令牌
* [Voine/ChatWaifu_Mobile](https://github.com/Voine/ChatWaifu_Mobile) 移动版二次元 AI 老婆聊天器 语言大模型来自 GhatGPT\语音推理为客户端本地 VITS - ncnn\图形渲染基于 Native Live2D\语音输入识别为客户端本地 Sherpa - ncnn
* [yizhongw/self-instruct](https://github.com/yizhongw/self-instruct) 将预训练的语言模型与自身生成的指令数据对齐。自我指导是一个框架,可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己的代数来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。自指令过程是一种迭代引导算法,它从一组手动编写的指令种子开始,并使用它们来提示语言模型生成新指令和相应的输入输出实例。然后对这些世代进行过滤以删除低质量或类似的代数,并将生成的数据添加回任务池。此过程可以重复多次,从而产生大量教学数据,可用于微调语言模型以更有效地遵循说明。
* [Timothyxxx/Chain-of-ThoughtsPapers](https://github.com/Timothyxxx/Chain-of-ThoughtsPapers) 大型语言模型中的思维链促使引出推理。思想链论文集合
* [zilliztech/GPTCache](https://github.com/zilliztech/GPTCache) LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。
* [pashpashpash/vault-ai](https://github.com/pashpashpash/vault-ai) 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。
* [YiVal/YiVal](https://github.com/YiVal/YiVal) 一个开源的 GenAI-Ops 工具,用于使用可自定义的数据集、评估方法和改进策略来调整和评估提示、配置和模型参数。
* [jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese](https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese) 聚宝盆(Cornucopia): 基于中文金融知识的LLaMA微调模型;涉及SFT、RLHF、GPU训练部署等
* [THUDM/WebGLM](https://github.com/THUDM/WebGLM) 迈向具有人类偏好的高效网络增强问答系统。WebGLM希望使用100亿参数的GLM,提供高效且具有成本效益的Web增强问答系统。它旨在通过将 Web 搜索和检索功能集成到预先训练的语言模型中来改进实际应用程序部署。
* [FlowiseAI/Flowise](https://github.com/FlowiseAI/Flowise) 拖放UI以构建自定义LLM流程
* [xcanwin/KeepChatGPT](https://github.com/xcanwin/KeepChatGPT) ChatGPT的畅聊与增强插件。开源免费。不仅能解决所有报错不再刷新,还有保持活跃、取消审计、克隆对话、净化首页、展示大屏、展示全屏、言无不尽、拦截跟踪、日新月异等多个高级功能。让我们的AI体验无比顺畅、丝滑、高效、简洁。
* [ShishirPatil/gorilla](https://github.com/ShishirPatil/gorilla) LLM的API商店 。使 LLM 能够通过调用 API 来使用工具。给定一个自然语言查询,Gorilla 会提出语义和语法上正确的 API 来调用。通过Gorilla,我们是第一个演示如何使用LLM准确调用1,600+(并且不断增长的)API调用,同时减少幻觉的人。
* [microsoft/guidance](https://github.com/microsoft/guidance) 指南使你能够比传统的提示或链接更有效、更高效地控制新式语言模型。指导程序允许您将生成、提示和逻辑控制交错到单个连续流中,以匹配语言模型实际处理文本的方式。简单的输出结构,如思维链及其许多变体(例如,ART,Auto-CoT等)已被证明可以提高LLM的性能。像 GPT-4 这样更强大的 LLM 的出现允许更丰富的结构,而 guidance 使该结构更容易、更便宜。
* [fuergaosi233/wechat-chatgpt](https://github.com/fuergaosi233/wechat-chatgpt) 通过微信在微信上使用ChatGPT
* [steven-tey/novel](https://github.com/steven-tey/novel) Notion风格的所见即所得编辑器,具有 AI 驱动的自动完成功能。
* [h2oai/h2ogpt](https://github.com/h2oai/h2ogpt) 私人问答和文档+图像摘要或与本地GPT聊天,100%私人,Apache 2.0。支持 LLaMa2、llama.cpp等。
* [chat2db/Chat2DB](https://github.com/chat2db/Chat2DB) 一个智能且通用的通用SQL客户端和数据库报告工具,集成了ChatGPT功能。能够将自然语言转换为SQL。还可以将SQL转换为自然语言,并为SQL提供优化建议,从而大大提高开发人员的效率。
* [Instruction-Tuning-with-GPT-4/GPT-4-LLM](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM) 旨在共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。
* [akoksal/LongForm](https://github.com/akoksal/LongForm) 使用语料库提取生成长文本的指令调优数据集和模型。通过利用英语语料库示例和增强指令创建的。从现有的语料库(如C4和维基百科)中选择一组多样化的人类编写的文档,并通过LLM为给定的文档生成指令。然后,用结构化的语料库示例(如Stack Exchange和WikiHow)和任务示例(如问答,电子邮件写作,语法错误更正,故事/诗歌生成和文本摘要)来扩展这些示例。
* [BelleGroup/train_3.5M_CN](https://huggingface.co/datasets/BelleGroup/train_3.5M_CN) 约350万条由BELLE项目生成的中文指令数据。
* [BelleGroup/train_2M_CN](https://huggingface.co/datasets/BelleGroup/train_2M_CN) 约200万条由BELLE项目生成的中文指令数据。
* [BelleGroup/train_1M_CN](https://huggingface.co/datasets/BelleGroup/train_1M_CN) 约100万条由BELLE项目生成的中文指令数据。
* [BelleGroup/train_0.5M_CN](https://huggingface.co/datasets/BelleGroup/train_0.5M_CN) 约50万条由BELLE项目生成的中文指令数据。
* [BelleGroup/generated_chat_0.4M](https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M) 包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。
* [BelleGroup/school_math_0.25M](https://huggingface.co/datasets/BelleGroup/school_math_0.25M) 包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程。
* [juletxara/mgsm](https://huggingface.co/datasets/juletxara/mgsm) 多语言小学数学基准(MGSM)是小学数学问题的基准。8.5K高质量语言多样化的小学数学单词问题的数据集。创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。
* [XueFuzhao/InstructionWild](https://github.com/XueFuzhao/InstructionWild) InstructWild v2,其中包括超过 110K 个基于用户的高质量指令。我们没有使用自导来生成任何指令。我们还用指令类型和特殊标签标记这些指令的子集。
* [sunzeyeah/chinese_chatgpt_corpus](https://huggingface.co/datasets/sunzeyeah/chinese_chatgpt_corpus) 该存储库收集了用于监督微调(SFT)和来自人类反馈的强化学习(RLHF)的中文语料库。
* [PlexPt/chatgpt-corpus](https://github.com/PlexPt/chatgpt-corpus) ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型
* [zxbsmk/webnovel_cn](https://huggingface.co/datasets/zxbsmk/webnovel_cn) 从12560本网文提取的约21.7M条可用于训练小说生成的中文指令数据
* [QingyiSi/Alpaca-CoT](https://huggingface.co/datasets/QingyiSi/Alpaca-CoT) 该存储库将不断收集各种指令调优数据集。并且我们将不同的数据集标准化为相同的格式,可以直接通过羊驼模型的代码加载。
* [datasets/BAAI/COIG](https://huggingface.co/datasets/BAAI/COIG) 中文开放教学通才(COIG)项目来维护一套无害、有用和多样化的中文教学语料库。[BAAI-Zlab/COIG](https://github.com/BAAI-Zlab/COIG)
* [CLUEbenchmark/pCLUE](https://github.com/CLUEbenchmark/pCLUE) 基于提示的大规模预训练数据集,用于多任务学习和零样本学习,120万训练数据。
* [X-PLUG/CValues](https://github.com/X-PLUG/CValues) 面向中文大模型价值观的评估与对齐研究。邀请中国知名专家学者,每位专家提出100个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注。项目吸引了环境科学、心理学、法理学等多个领域专家参与,并召开了专家研讨会,会后发布业内首个大语言模型治理开源中文数据集100PoisonMpts,包含专家提出的问题、专家自己撰写或认可的答案。
* [DA-southampton/RedGPT](https://github.com/DA-southampton/RedGPT) 提出一种自动生成事实型对话的方法,并公开我们的部分数据。我们公开的第一批数据(RedGPT-Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。
* [X-PLUG/ChatPLUG](https://github.com/X-PLUG/ChatPLUG) 旨在建立和共享一个中文开放域对话系统。在推理过程中集成外部知识是灵活的,这是一个可选的输入。您可以利用 获取最新信息或使用本地知识库获取 search engine 领域知识。通过设置 bot profiles 或使用 role-paly instructions 来自定义对话和字符的样式很容易。它通过多轮对话展示了其在开放领域对话方面的熟练程度,同时也在广泛的 NLP 任务上表现出色 multi-task abilities 。
* [chathub-dev/chathub](https://github.com/chathub-dev/chathub) 多合一的聊天机器人客户端。在一个应用程序中使用不同的聊天机器人,目前支持ChatGPT,新的Bing Chat,Google Bard,Claude和10 +开源模型,包括Alpaca,Vicuna,ChatGLM等。
* [lencx/nofwl](https://github.com/lencx/nofwl) 一个跨平台的桌面应用,它可以让你和一个基于 GPT-3 的聊天机器人进行有趣的对话。
* [songquanpeng/one-api](https://github.com/songquanpeng/one-api) OpenAI 接口管理 & 分发系统,支持 Azure、Anthropic Claude、Google PaLM 2、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问以及 360 智脑,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用.
* [labring/FastGPT](https://github.com/labring/FastGPT) 基于 LLM 构建的基于知识的 QA 系统,提供开箱即用的数据处理和模型调用功能,允许通过 Flow 可视化进行工作流编排
* [go-skynet/LocalAI](https://github.com/go-skynet/LocalAI) 自托管、社区驱动、本地 OpenAI 兼容 API。在消费级硬件上运行LLM的OpenAI的直接替代品。免费的开源OpenAI替代品。LocalAI是一个运行ggml兼容模型的API:llama,gpt4all,rwkv,whisper,vicuna,koala,gpt4all-j,cerebras,falcon,dolly,starcoder和许多其他
* [getumbrel/llama-gpt](https://github.com/getumbrel/llama-gpt) 一个自托管的、离线的、类似 ChatGPT 的聊天机器人。由骆驼 2 提供动力。100%私密,没有数据离开您的设备。新功能:代码支持
* [sunner/ChatALL](https://github.com/sunner/ChatALL) 同时与ChatGPT,Bing Chat,Bard,Alpaca,Vicuna,Claude,ChatGLM,MOSS,讯飞星火,文心一言等聊天,发现最佳答案
* [li-plus/chatglm.cpp](https://github.com/li-plus/chatglm.cpp) C++实现ChatGLM-6B和ChatGLM2-6B,以便在MacBook上进行实时聊天。
* [ztxz16/fastllm](https://github.com/ztxz16/fastllm/) 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
* [gventuri/pandas-ai](https://github.com/gventuri/pandas-ai) Python库,它将生成人工智能功能集成到Pandas中,使数据帧成为对话式的。为流行的数据分析和操作工具pandas添加了生成AI功能。
* [howl-anderson/unlocking-the-power-of-llms](https://github.com/howl-anderson/unlocking-the-power-of-llms) 使用 Prompts 和 Chains 让 ChatGPT 成为神奇的生产力工具
* [eugeneyan/open-llms](https://github.com/eugeneyan/open-llms) 可用于商业用途的开放LLM列表。
* [Mooler0410/LLMsPracticalGuide](https://github.com/Mooler0410/LLMsPracticalGuide) LLM实用指南资源的精选列表。它基于我们的调查论文:在实践中利用LLM的力量:关于ChatGPT及其他的调查。该调查部分基于本博客的后半部分。我们还构建了现代大型语言模型(LLM)的进化树,以追踪近年来语言模型的发展,并重点介绍一些最著名的模型。
* [imaurer/awesome-decentralized-llm](https://github.com/imaurer/awesome-decentralized-llm) LLM资源的集合,可用于构建您可以“拥有”的产品或进行可重复的研究。
* [Open LLM Leaderboard ](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard) 开放LLM排行榜旨在跟踪,排名和评估LLM和聊天机器人的发布。
* [EwingYangs/awesome-open-gpt](https://github.com/EwingYangs/awesome-open-gpt) GPT相关开源项目合集
* [botpress/botpress](https://github.com/botpress/botpress) 由 OpenAI 提供支持的下一代聊天机器人和助手的终极平台。开始以闪电般的速度为您的项目或业务构建令人难以置信的助手。
* [dice2o/BingGPT](https://github.com/dice2o/BingGPT) 新必应AI聊天的桌面应用程序(Windows,macOS和Linux)
* [josStorer/chatGPTBox](https://github.com/josStorer/chatGPTBox) 将 ChatGPT 深度集成到您的浏览器中,您需要的一切都在这里
* [lss233/chatgpt-mirai-qq-bot](https://github.com/lss233/chatgpt-mirai-qq-bot) 一键部署!真正的 AI 聊天机器人!支持ChatGPT、文心一言、讯飞星火、Bing、Bard、ChatGLM、POE,多账号,人设调教,虚拟女仆、图片渲染、语音发送 | 支持 QQ、Telegram、Discord、微信 等平台
* [promptslab/Promptify](https://github.com/promptslab/Promptify) 使用 LLM 解决 NLP 问题,并使用 Promptify 轻松为流行的生成模型(如 GPT、PaLM 等)生成不同的 NLP 任务提示
* [enricoros/big-agi](https://github.com/enricoros/big-agi) 由 GPT-4 及更高版本提供支持的个人 AI 应用程序,具有 AI 角色、AGI 功能、文本到图像、语音、响应流、代码突出显示和执行、PDF 导入、开发人员预设等等。使用Next.js,React,Joy。
* [jaymody/picoGPT](https://github.com/jaymody/picoGPT) NumPy实现的一个不必要的微小的GPT-2。40 行代码。
* [bentoml/OpenLLM](https://github.com/bentoml/OpenLLM) 用于在生产中操作大型语言模型 (LLM) 的开放平台。轻松微调、服务、部署和监控任何 LLM。
* [karpathy/llama2.c](https://github.com/karpathy/llama2.c) 在一个纯 C 文件中推理Llama 2大型语言模型
* [geekan/MetaGPT](https://github.com/geekan/MetaGPT) 多代理框架:给定一行需求,返回 PRD、设计、任务、存储库。为 GPT 分配不同的角色,以形成用于复杂任务的协作软件实体。
* [ModelTC/lightllm](https://github.com/ModelTC/lightllm) 基于Python的LLM(大型语言模型)推理和服务框架,以其轻量级设计,易于扩展和高速性能而著称。LightLLM利用了许多备受推崇的开源实现的优势,包括但不限于FasterTransformer,TGI,vLLM和FlashAttention。
* [PanQiWei/AutoGPTQ](https://github.com/PanQiWei/AutoGPTQ) 易于使用的LLM量化包,有用户友好的API,基于GPTQ算法。
* [princeton-nlp/tree-of-thought-llm](https://github.com/princeton-nlp/tree-of-thought-llm) 正式实现“思想之树:用大语言模型刻意解决问题”
* [thomas-yanxin/LangChain-ChatGLM-Webui](https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui) 基于LangChain和ChatGLM-6B等系列LLM的针对本地知识库的自动问答
* [ssbuild/chatglm_finetuning](https://github.com/ssbuild/chatglm_finetuning) Chatglm 6b微调和羊驼微调
* [liucongg/ChatGLM-Finetuning](https://github.com/liucongg/ChatGLM-Finetuning) 基于ChatGLM-6B、ChatGLM2-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等
* [HqWu-HITCS/Awesome-Chinese-LLM](https://github.com/HqWu-HITCS/Awesome-Chinese-LLM) 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。
* [ OpenGVLab/Ask-Anything](https://github.com/OpenGVLab/Ask-Anything) [视频聊天GPT]聊天GPT与视频理解!还有更多支持的LM,如miniGPT4,StableLM和MOSS。
* [OpenMotionLab/MotionGPT](https://github.com/OpenMotionLab/MotionGPT) 一个统一且用户友好的运动语言模型,用于学习两种模态的语义耦合,并在多个运动任务上生成高质量的运动和文本描述。
* [Hannibal046/Awesome-LLM](https://github.com/Hannibal046/Awesome-LLM) 大型语言模型(LLM)已经席卷了NLP社区AI社区的整个世界。以下是关于大型语言模型的精选论文列表,尤其是与 ChatGPT 相关的论文。它还包含LLM培训框架,部署LLM的工具,有关LLM的课程和教程以及所有公开可用的LLM检查点和API。
* [DSXiangLi/DecryptPrompt](https://github.com/DSXiangLi/DecryptPrompt) 总结Prompt&LLM论文,开源数据&模型,AIGC应用
* [GoogleCloudPlatform/generative-ai](https://github.com/GoogleCloudPlatform/generative-ai) 包含笔记本、代码示例、示例应用和其他资源,用于演示如何使用 Google Cloud 上的生成式 AI 使用、开发和管理生成式 AI 工作流程,这些工作流由 Vertex AI 和生成式 AI App Builder 提供支持。
* [catqaq/ChatPiXiu](https://github.com/catqaq/ChatPiXiu) 开源chatgpt替代方案/实现的调查,复制和领域/任务适应。
* [DAMO-NLP-SG/LLM-Zoo](https://github.com/DAMO-NLP-SG/LLM-Zoo) 本项目收集了以下各种开源和闭源LLM的信息
* [wgwang/LLMs-In-China](https://github.com/wgwang/LLMs-In-China) 旨在记录中国大模型发展情况
* [OpenBMB/BMList](https://github.com/OpenBMB/BMList) 希望使用此列表来显示大模型的最新趋势。
* [nichtdax/awesome-totally-open-chatgpt](https://github.com/nichtdax/awesome-totally-open-chatgpt) ChatGPT 的完全开放的替代品列表
* [ikaijua/Awesome-AITools](https://github.com/ikaijua/Awesome-AITools) 收藏AI相关的实用工具,大型语言模型
* [datawhalechina/prompt-engineering-for-developers](https://github.com/datawhalechina/prompt-engineering-for-developers) 面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版
* [datawhalechina/hugging-llm](https://github.com/datawhalechina/hugging-llm) 拥抱LLM,拥抱未来。介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。
* [promptingguide.ai/zh](https://www.promptingguide.ai/zh) 提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。基于对大语言模型的浓厚兴趣,我们编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。
* [phodal/aigc](https://github.com/phodal/aigc) 《构筑大语言模型应用:应用开发与架构设计》一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。
* [prompt-engineering/understand-prompt](https://github.com/prompt-engineering/understand-prompt) 理解 Prompt:基于编程、绘画、写作的 AI 探索与总结
* [brexhq/prompt-engineering](https://github.com/brexhq/prompt-engineering) 使用大型语言模型(如 OpenAI 的 GPT-4)的提示和技巧。
* [mshumer/gpt-prompt-engineer](https://github.com/mshumer/gpt-prompt-engineer) 只需输入任务的描述和一些测试用例,系统就会生成、测试和排名大量提示,以找到性能最佳的提示。
* [km1994/LLMsNineStoryDemonTower](https://github.com/km1994/LLMsNineStoryDemonTower) 分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。
* [iguodongiot/llm-action](https://github.com/liguodongiot/llm-action) 本项目旨在分享大模型相关技术原理以及实战经验。
* [hiyouga/LLaMA-Efficient-Tuning](https://github.com/hiyouga/LLaMA-Efficient-Tuning) 易于使用的LLM微调框架(LLaMA-2,BLOOM,Falcon,Baichuan,Qwen,ChatGLM2)
* [FlagOpen/FlagEval](https://github.com/FlagOpen/FlagEval) AI大型基础模型的评估工具包。我们的目标是探索和整合科学、公平、开放的基础模型评估基准、方法和工具。FlagEval将在未来支持在不同模态(如NLP,音频,CV和多模态)中/跨基础模型的多维评估(如准确性,效率,鲁棒性等)。我们希望通过对基础模型的评估,加深对基础模型的理解,促进相关的技术创新和产业化应用。
* [InternLM/opencompass](https://github.com/InternLM/opencompass) LLM评估平台,支持超过50 +数据集的各种模型(LLaMA,LLaMa2,ChatGLM2,ChatGPT,Claude等)。
* [OpenLMLab/GAOKAO-Bench](https://github.com/OpenLMLab/GAOKAO-Bench) 一个评估框架,利用高考问题作为数据集来评估大型语言模型。
* [mikegu721/xiezhibenchmark](https://github.com/mikegu721/xiezhibenchmark) 獬豸是语言模型(LMs)的综合评估套件。它由249587道多项选择题组成,涵盖 516 个不同的学科和四个难度级别。希望可以帮助开发人员跟踪进度并分析其LM的重要优势/缺点。
* [haonan-li/CMMLU](https://github.com/haonan-li/CMMLU) 综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
* [CLUEbenchmark/SuperCLUElyb](https://github.com/CLUEbenchmark/SuperCLUElyb) SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
* [Felixgithub2017/MMCU](https://github.com/Felixgithub2017/MMCU) 本评测只是对大模型语义理解能力的测试,并不能代表模型的全面能力评测,评测结果仅供参考。整个评测方式、评测数据集、评测记录都公开,确保可以复现。
* [Felixgithub2017/CG-Eval](https://github.com/Felixgithub2017/CG-Eval) 此项测试中,受测的中文大语言模型需要对科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试这六个大科目类别下的55个子科目的1.1W不同类型问题做出准确且相关的回答。 我们设计了一套复合的打分系统,对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和。对于计算题目,我们会提取最终计算结果和解题过程,然后综合打分。
* [GAIR-NLP/factool](https://github.com/GAIR-NLP/factool) 工具增强框架,用于检测由大型语言模型(例如ChatGPT)生成的文本的事实错误。Factool现在支持4个任务:基于知识的QA:Factool检测基于知识的QA中的事实错误。代码生成:Factool检测代码生成中的执行错误。数学推理:Factool检测数学推理中的计算错误。科学文献综述:Factool检测幻觉的科学文献。
* [jeinlee1991/chinese-llm-benchmark](https://github.com/jeinlee1991/chinese-llm-benchmark) 中文大模型能力评测榜单:覆盖文心一言、chatgpt、通义千问、讯飞星火、belle / chatglm 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
* [CLUEbenchmark/CLUE](https://github.com/CLUEbenchmark/CLUE) 中文语言理解测评基准 中文理解评估基准:数据集、基线、预训练模型、语料库和排行榜
* [CLUEbenchmark/SuperCLUE](https://github.com/CLUEbenchmark/SuperCLUE) 中文通用大模型综合性基准。[superclueai](https://www.superclueai.com)
* [hkust-nlp/ceval](https://github.com/hkust-nlp/ceval) 一个全面的中文基础模型评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同的学科和四个难度级别
* [LaVi-Lab/CLEVA](https://github.com/LaVi-Lab/CLEVA) 由香港中文大学LaVi实验室开发的中文模型评估平台,主要功能包括:综合中文基准,包含31个任务(11个应用评估+20个能力评估任务),共37万个中文测试样本(33.98%是新采集的,缓解数据污染问题);标准化的基于提示的评估方法,包含对所有数据的统一预处理,并使用一套一致的中文提示模板进行评估。值得信赖的排行榜,因为使用大量新数据来最大限度地减少数据污染并定期组织评估。
* [EleutherAI/lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) 自回归语言模型的少样本评估框架。
* [declare-lab/instruct-eval](https://github.com/declare-lab/instruct-eval) 用于定量评估指令调优模型的代码。Flan-T5和Alpaca等指令调整模型代表了一个令人兴奋的方向,以更低的成本接近ChatGPT等大型语言模型(LLM)的性能。但是,定性比较不同模型的性能具有挑战性。为了评估模型在各种看不见和具有挑战性的任务中的泛化程度,我们可以使用MMLU和BBH等学术基准。与评估工具和 HELM 等现有库相比,此存储库可以简单方便地评估多个模型。支持HuggingFace Transformers 的大多数模型。
* [tjunlp-lab/M3KE](https://github.com/tjunlp-lab/M3KE) 面向汉语大语言模型的大规模多层次多学科知识评估基准
* [thu-coai/Safety-Prompts](https://github.com/thu-coai/Safety-Prompts) 中文安全prompts,评估和提升大模型的安全性。
* [linexjlin/GPTs](https://github.com/linexjlin/GPTs) 此存储库收集泄露的 各种 GPT 提示词。
* [RUCAIBox/HaluEval](https://github.com/RUCAIBox/HaluEval) 大型语言模型的大规模幻觉评估基准。包括 5,000 个带有 ChatGPT 响应的一般用户查询和来自三个任务的 30,000 个特定于任务的示例,即问答、基于知识的对话和文本摘要。
* [noahshinn024/reflexion](https://github.com/noahshinn024/reflexion) 反思:语言代理与语言强化学习,提出了Reflexion框架,使用语言反馈信号(verbalre inforcement)来帮助agent从先前的失败经验中学习。具体地,Reflexion将传统梯度更新中的参数信号转变为添加在大模型上下文中的语言总结,使得agent在下一个episode中能参考上次执行失败的失败经验,从而提高agent的执行效果。这个过程和人类反思(reflexion)过程十分相似。
* [Azure-Samples/azure-search-openai-demo](https://github.com/Azure-Samples/azure-search-openai-demo) 在 Azure 中运行的检索增强生成模式的示例应用,使用 Azure 认知搜索进行检索,并使用 Azure OpenAI 大型语言模型为 ChatGPT 风格和问答体验提供支持。
* [sindresorhus/awesome-chatgpt](https://github.com/sindresorhus/awesome-chatgpt) 基于ChatGPT 开发的应用的列表 — 由 OpenAI 开发的人工智能聊天机器人
* [smol-ai/GodMode](https://github.com/smol-ai/GodMode) AI聊天浏览器:快速,完整的网络应用程序访问ChatGPT / Claude / Bard / Bing / Llama2
* [llm-workflow-engine/llm-workflow-engine](https://github.com/llm-workflow-engine/llm-workflow-engine) 适用于 LLM 的 命令行工具 和工作流管理器(核心包)
* [Yue-Yang/ChatGPT-Siri](https://github.com/Yue-Yang/ChatGPT-Siri) Siri的快捷方式使用ChatGPT API gpt-3.5-turbo和gpt-4模型,支持连续对话,配置API密钥并保存聊天记录。由 ChatGPT API gpt-3.5-turbo & gpt-4 模型驱动的智能 Siri,支持连续对话,配置API key,配置系统prompt,保存聊天记录。
* [skydoves/chatgpt-android](https://github.com/skydoves/chatgpt-android) 在 Android 上使用 Stream Chat SDK for Compose 演示 OpenAI 的 ChatGPT。
* [Licoy/ChatGPT-Midjourney](https://github.com/Licoy/ChatGPT-Midjourney) 一键拥有自己的 ChatGPT+Midjourney 网页服务
* [JimmyLv/BibiGPT-v1](https://github.com/JimmyLv/BibiGPT-v1) 音视频内容 AI 一键总结 & 对话:哔哩哔哩丨YouTube丨推特丨小红书丨抖音丨快手丨百度网盘丨阿里云盘丨网页丨本地文件等
* [0xk1h0/ChatGPT_DAN](https://github.com/0xk1h0/ChatGPT_DAN) 越狱提示,巧妙的解决方法,使我们能够充分利用 ChatGPT 的全部潜力。
* [waylaidwanderer/node-chatgpt-api](https://github.com/waylaidwanderer/node-chatgpt-api) ChatGPT 和 Bing AI 的客户端实现。可用作node.js模块、REST API 服务器和 CLI 应用程序。
* [khoj-ai/khoj](https://github.com/khoj-ai/khoj) 第二个大脑的AI副驾驶。在线或离线搜索和聊天您的个人知识库
* [yihong0618/xiaogpt](https://github.com/yihong0618/xiaogpt) 使用小米AI扬声器播放ChatGPT和其他LLM
* [openai/plugins-quickstart](https://github.com/openai/plugins-quickstart) 在 5 分钟内启动并运行 ChatGPT 插件!
* [futantan/OpenGpt](https://github.com/futantan/OpenGpt) 在几秒钟内创建您自己的聊天GPT应用程序。
* [wzpan/wukong-robot](https://github.com/wzpan/wukong-robot) 一个简单、灵活、优雅的中文语音对话机器人/智能音箱项目,支持ChatGPT多轮对话能力,还可能是首个支持脑机交互的开源智能音箱项目。
* [openai-translator/bob-plugin-openai-translator](https://github.com/openai-translator/bob-plugin-openai-translator) 基于 ChatGPT API 的文本翻译、文本润色、语法纠错 Bob 插件,让我们一起迎接不需要巴别塔的新时代
* [ConnectAI-E/Feishu-OpenAI](https://github.com/ConnectAI-E/Feishu-OpenAI) 飞书 ×(GPT-4 + DALL·E + Whisper)= 飞一般的工作体验,语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出
* [xiangsx/gpt4free-ts](https://github.com/xiangsx/gpt4free-ts) 提供免费的OpenAI GPT-4 API!这是 xtekky/gpt4free 版本的复制项目
* [sashabaranov/go-openai](https://github.com/sashabaranov/go-openai) 为 OpenAI API 提供了非官方的 Go 客户端
* [ztjhz/BetterChatGPT](https://github.com/ztjhz/BetterChatGPT) OpenAI的ChatGPT(网站+ Windows + MacOS + Linux)的惊人UI。Better ChatGPT 是任何想要体验对话式 AI 无限力量的人的终极目的地。没有限制,完全免费使用,充分利用OpenAI的ChatGPT API的全部潜力,为您提供无与伦比的聊天机器人体验。
* [ramonvc/freegpt-webui](https://github.com/ramonvc/freegpt-webui) GPT 3.5/4 与聊天网页用户界面。无需 API 密钥。
* [vercel/ai](https://github.com/vercel/ai) 使用 React、Svelte、Vue 和 Solid 构建 AI 驱动的应用程序
* [reorx/awesome-chatgpt-api](https://github.com/reorx/awesome-chatgpt-api) 精选的应用程序和工具列表,这些应用程序和工具不仅使用新的 ChatGPT API,还允许用户配置自己的 API 密钥,从而免费和按需使用自己的配额。
* [embedchain/embedchain](https://github.com/embedchain/embedchain) LLM 的数据平台 - 加载、索引、检索和同步任何非结构化数据,可以在任何数据集上轻松创建LLM驱动的机器人。支持的数据类型:视频、PDF、网页、网站地图、文档等
* [shibing624/textgen](https://github.com/shibing624/textgen) 文本生成模型的实现,包括LLaMA,BLOOM,GPT2,BART,T5,SongNet等。文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。
* [wangrui6/Zhihu-KOL](https://huggingface.co/datasets/wangrui6/Zhihu-KOL) 用于训练开放助手的知乎数据
* [JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset) Guanaco模型的数据集旨在增强多语言能力并解决各种语言任务。它以 Alpaca 模型中的 175 个任务为基础,提供不同语言的种子任务重写,并添加专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别而设计的新任务。该数据集总共包含 534,530 个条目,以 6K 美元的低成本生成。
* [shawwn/llama-dl](https://github.com/shawwn/llama-dl) 高速下载 LLaMA,Facebook 的 65B 参数 GPT 模型
* [mit-han-lab/streaming-llm](https://github.com/mit-han-lab/streaming-llm) 具有注意力接收器的高效流语言模型,可以无限长度地输入LLM进行推理,而不会牺牲效率和性能。在需要长时间交互的多轮对话等流应用程序中部署大型语言模型 (LLM),但存在两个主要挑战。首先,在解码阶段,缓存先前令牌的键和值状态 (KV) 会消耗大量内存。其次,流行的LLM不能推广到比训练序列长度更长的文本。窗口注意,其中仅缓存最新的 KV,是一种自然的方法---但我们表明,当文本长度超过缓存大小时,它会失败。我们观察到一个有趣的现象,即注意力下沉,即保留初始词元的 KV 将在很大程度上恢复窗口注意力的性能。在本文中,我们首先证明了注意力下沉的出现是由于对初始令牌作为“接收器”的强烈注意力得分,即使它们在语义上并不重要。基于上述分析,我们引入了StreamingLLM,这是一个高效的框架,使使用有限长度注意力窗口训练的LLM能够推广到无限序列长度,而无需任何微调。StreamingLLM可以使Llama-2,MPT,Falcon和Pythia使用多达400万个词元或更多词元执行稳定高效的语言建模。此外,发现在预训练期间添加占位符令牌作为专用的注意力接收器可以进一步改进流式处理部署。在流设置中,StreamingLLM 的性能优于滑动窗口重新计算基线高达 22.2 倍的加速。
* [OpenBMB/AgentVerse](https://github.com/OpenBMB/AgentVerse) 提供了一个灵活的框架,简化了为大型语言模型 (LLM) 构建自定义多代理环境的过程。
* [hahnyuan/PB-LLM](https://github.com/hahnyuan/PB-LLM) 提出了部分二值化LLM(PB-LLM)的方法,可以实现极端低比特量化,同时保持量化LLM的语言推理能力。 具体来说,我们的探索首先揭示了现有二值化算法朴素应用的无效性,并强调了显著权重在实现低比特量化中的重要作用。因此,PB-LLM在二值化过程中过滤了一小部分突出权重,将它们分配给更高位的存储,即部分二值化。PB-LLM通过从训练后量化(PTQ)和量化感知训练(QAT)的角度进行分析,扩展以恢复量化LMM的能力。在PTQ下,结合GPTQ的概念,我们重构了以Hessian矩阵为指导的二值化权重矩阵,并成功恢复了PB-LLM在低位的推理能力。在QAT下,我们在训练过程中冻结了显著权重,探索了对最小化量化误差至关重要的最优比例因子的推导,并提出了一种基于该派生的残差二值化权重缩放策略的缩放机制。这些探索和开发的方法大大有助于恢复低比特量化LLM的性能,并在LLM的网络二值化领域取得实质性进展。
* [openai/openai-python](https://github.com/openai/openai-python) OpenAI API 的官方 Python 库。提供了从用 Python 语言编写的应用程序对 OpenAI API 的便捷访问。它包括一组预定义的API资源类,这些类从API响应动态初始化自身,使其与各种版本的OpenAI API兼容。
* [Lightning-AI/lit-llama](https://github.com/Lightning-AI/lit-llama) 基于nanoGPT的LLaMA语言模型的实现。支持flash注意力, Int8 和 GPTQ 4 位量化, LoRA 和 LLaMA 适配器微调, 预训练.Apache 2.0 许可。
* [NVIDIA/TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM) TensorRT-LLM 为用户提供了一个易于使用的 Python API,用于定义大型语言模型 (LLM) 并构建包含最先进优化的 TensorRT 引擎,以便在 NVIDIA GPU 上高效执行推理。TensorRT-LLM还包含用于创建Python的组件,以及执行这些TensorRT引擎的C++运行时。
* [HuiMi24/chatppt](https://github.com/HuiMi24/chatppt) 由chatgpt提供支持,它可以帮助您生成PPT /幻灯片。它支持英文和中文输出
* [zhile-io/pandora](https://github.com/zhile-io/pandora) 潘多拉实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。
* [cpacker/MemGPT](https://github.com/cpacker/MemGPT) 创建具有自我编辑记忆的永久聊天机器人!Memory-GPT是一个系统,它智能地管理LLM中的不同内存层,以便在LLM的有限上下文窗口中有效地提供扩展上下文。例如,MemGPT 知道何时将关键信息推送到矢量数据库,以及何时在聊天中检索它,从而实现永久对话。
* [mleoking/PromptAppGPT](https://github.com/mleoking/PromptAppGPT) 一个基于提示的低代码快速应用开发框架。包含低代码提示开发、GPT 文本生成、DALLE 图像生成、在线提示编辑器+编译器+运行器、自动用户界面生成、支持插件扩展等功能。PromptAppGPT旨在实现基于GPT的自然语言应用程序开发。
* [EmbraceAGI/LifeReloaded](https://github.com/EmbraceAGI/LifeReloaded) 由GPT-4的“高级数据分析”功能提供支持的生活模拟游戏,为您提供第二次生活机会。由GPT4的Advanced Data Analysis功能驱动的人生重来模拟器,给您人生第二春。
* [srush/llama2.rs](https://github.com/srush/llama2.rs) CPU 上 Llama2 推理的 Rust 实现
* [OpenLMLab/LOMO](https://github.com/OpenLMLab/LOMO) 提出了一个新的优化器,**LO**w-Memory **O**ptimization,它将梯度计算和参数更新融合在一步中,以减少内存使用。 我们的方法使得在单张 RTX 3090 上可以进行 7B 模型的全参数微调,或者在单个 8×RTX 3090 的机器上可以进行 65B 模型的全参数微调(RTX 3090 的内存为 24GB)。
* [spcl/graph-of-thoughts](https://github.com/spcl/graph-of-thoughts) 思想图Graph of Thoughts (GoT):用大型语言模型解决复杂问题的官方实现。此框架使您能够通过将复杂问题建模为操作图 (GoO) 来解决复杂问题,该操作图以大型语言模型 (LLM) 作为引擎自动执行。该框架设计为灵活且可扩展,不仅允许您使用新的 GoT 方法解决问题,还可以实现类似于以前方法(如 CoT 或 ToT)的 GoO。
* [TheoKanning/openai-java](https://github.com/TheoKanning/openai-java) 用于使用 OpenAI 的 GPT API 的 Java 库。支持 GPT-3、ChatGPT 和 GPT-4。
* [langgenius/dify](https://github.com/langgenius/dify) 开源助手 API 和 GPT 的替代方案。Dify.AI 是一个 LLM 应用程序开发平台。它集成了后端即服务和 LLMOps 的概念,涵盖了构建生成式 AI 原生应用程序所需的核心技术堆栈,包括内置的 RAG 引擎。其直观的界面结合了 AI 工作流程、RAG 管道、代理功能、模型管理、可观测性功能等,让您快速从原型到生产。以下是核心功能列表:1. 工作流:利用以下所有功能及其他功能,在可视化画布上构建和测试强大的 AI 工作流。2. 全面的模型支持:与LLMs来自数十家推理提供商和自托管解决方案的数百个专有/开源无缝集成,涵盖 GPT、Mistral、Llama3 和任何兼容 OpenAI API 的模型。可以在此处找到受支持的模型提供程序的完整列表。3. 提示 IDE:直观的界面,用于制作提示、比较模型性能以及向基于聊天的应用程序添加文本转语音等附加功能。4. RAG Pipeline:广泛的 RAG 功能,涵盖从文档摄取到检索的所有内容,开箱即用地支持从 PDF、PPT 和其他常见文档格式中提取文本。5. 代理能力:您可以基于LLM函数调用或 ReAct 定义代理,并为代理添加预建或自定义工具。Dify 为 AI 代理提供 50+ 内置工具,如 Google Search、DELL·E, Stable Diffusion 和 WolframAlpha.6. LLMOps:监控和分析应用程序日志和性能随时间的变化。您可以根据生产数据和注释不断改进提示、数据集和模型。7. 后端即服务:Dify 的所有产品都带有相应的 API,因此您可以毫不费力地将 Dify 集成到您自己的业务逻辑中。
* [mckaywrigley/chatbot-ui](https://github.com/mckaywrigley/chatbot-ui) 一个开源的 ChatGPT UI。支持很多大模型的 AI 聊天。使用了nextjs、Supabase。
* [oobabooga/text-generation-webui](https://github.com/oobabooga/text-generation-webui) 用于大型语言模型的 Gradio Web UI。支持变压器,GPTQ,AWQ,EXL2,llama.cpp(GGUF),Llama模型。
* [pytorch-labs/gpt-fast](https://github.com/pytorch-labs/gpt-fast) 在 python 的 <1000 LOC 中简单高效地生成 pytorch-native transformer 文本。
* [rustformers/llm](https://github.com/rustformers/llm) 用于处理大型语言模型的 Rust 库生态系统 - 它建立在用于机器学习的快速、高效的 GGML 库之上。
* [AprilNEA/ChatGPT-Admin-Web](https://github.com/AprilNEA/ChatGPT-Admin-Web) 在团队和组织内共享使用AI的一站式解决方案。
* [ParisNeo/lollms-webui](https://github.com/ParisNeo/lollms-webui) LLM(大型语言模型)模型的中心。该项目旨在提供一个用户友好的界面,以访问和利用各种LLM模型来完成广泛的任务。
* [mit-han-lab/llm-awq](https://github.com/mit-han-lab/llm-awq) AWQ:用于 LLM 压缩和加速的激活感知权重量化
* [vectorch-ai/ScaleLLM](https://github.com/vectorch-ai/ScaleLLM) 高效的 LLM 推理解决方案,主要特点:高效率:在高性能 LLM 推理方面表现出色,利用最先进的技术和技术,如 Flash Attention、Paged Attention、Continuous Batching 等。张量并行性:利用张量并行性实现高效的模型执行。兼容 OpenAI 的 API:与 OpenAI 兼容的高效 golang rest api 服务器。Huggingface 型号:与大多数流行的 HF 型号无缝集成,支持 safetensors。可定制:提供自定义灵活性以满足您的特定需求,并提供添加新模型的简单方法。生产就绪:ScaleLLM 在设计时考虑到了生产环境,配备了强大的系统监控和管理功能,以确保无缝的部署体验。
* [tjunlp-lab/Awesome-LLMs-Evaluation-Papers](https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers) 评估大型语言模型:一项综合调查。将LLM的评估分为三大类:知识和能力评估、对齐评估和安全性评估。
* [microsoft/promptflow](https://github.com/microsoft/promptflow) 构建高质量的 LLM 应用程序 - 从原型设计、测试到生产部署和监控。旨在简化基于 LLM 的 AI 应用程序的端到端开发周期,从构思、原型设计、测试、评估到生产部署和监控。它使快速工程变得更加容易,并使您能够构建具有生产质量的 LLM 应用程序。
* [WooooDyy/LLM-Agent-Paper-List](https://github.com/WooooDyy/LLM-Agent-Paper-List) 一项基于大型语言模型的代理的兴起和潜力的调查,由于大型语言模型 (LLM) 表现出的多功能和卓越的功能,它们被视为通用人工智能 (AGI) 的潜在希望的火花,为构建通用 AI 代理提供了希望。许多研究工作都利用 LLM 作为构建 AI 代理的基础,并取得了重大进展。
* [SillyTavern/SillyTavern](https://github.com/SillyTavern/SillyTavern) 面向高级用户的 LLM 前端。本地安装界面,可让您与文本生成 AI (LLM) 交互,以与自定义角色进行聊天和角色扮演。
* [BerriAI/litellm](https://github.com/BerriAI/litellm) 使用 OpenAI 格式调用所有 LLM API。使用 Bedrock、Azure、OpenAI、Cohere、Anthropic、Ollama、Sagemaker、HuggingFace、Replicate (100+ LLM)
* [mosaicml/llm-foundry](https://github.com/mosaicml/llm-foundry) 用于 MosaicML 基础模型的 LLM 训练代码,包含用于训练、微调、评估和部署 LLM 的代码,以便使用 Composer 和 MosaicML 平台进行推理。该代码库设计为易于使用、高效和灵活,旨在支持使用最新技术进行快速实验。
* [Mintplex-Labs/anything-llm](https://github.com/Mintplex-Labs/anything-llm) 您的个人私人 ChatGPT。在一个非常干净的 UI 中支持无限的文档、线程以及并发用户和管理。
* [dataelement/bisheng](https://github.com/dataelement/bisheng) 领先的开源大模型应用开发平台,赋能和加速大模型应用开发落地,帮助用户以最佳体验进入下一代应用开发模式。
* [kyrolabs/awesome-langchain](https://github.com/kyrolabs/awesome-langchain) 使用LangChain的工具和项目的精选列表。LangChain是一个了不起的框架,可以在短时间内完成LLM项目,并且生态系统正在快速发展。这里试图跟踪围绕LangChain的举措。
* [danny-avila/LibreChat](https://github.com/danny-avila/LibreChat) 增强的 ChatGPT 克隆:具有 OpenAI、GPT-4 Vision、Bing、Anthropic、OpenRouter、Google Gemini、AI 模型切换、消息搜索、langchain、DALL-E-3、ChatGPT 插件、OpenAI 功能、安全多用户系统、预设、完全开源的自托管。更多功能正在开发中
* [run-llama/rags](https://github.com/run-llama/rags) 一个 Streamlit 应用程序,可让您使用自然语言从数据源创建 RAG (Retrieval Augmented Generation,检索增强生成)管道。
* [stas00/ml-engineering](https://github.com/stas00/ml-engineering) 一个开放的方法集合,可帮助成功训练大型语言模型和多模态模型。这是一本适合LLM/VLM培训工程师和操作员的技术材料。也就是说,这里的内容包含大量脚本和复制粘贴命令,使您能够快速满足您的需求。
* [steven2358/awesome-generative-ai](https://github.com/steven2358/awesome-generative-ai) 现代生成式人工智能项目和服务的精选列表。生成式人工智能是一种通过使用在大量数据上训练的机器学习算法来创建图像、声音和文本等原创内容的技术。与其他形式的人工智能不同,它能够创建独特且以前看不见的输出,例如逼真的图像、数字艺术、音乐和写作。这些作品通常有自己独特的风格,甚至很难与人工创作的作品区分开来。生成式人工智能在艺术、娱乐、营销、学术界和计算机科学等领域有着广泛的应用。
* [lobehub/lobe-chat](https://github.com/lobehub/lobe-chat/tree/main) 开源的高性能聊天机器人框架,支持语音合成、多模态和可扩展的函数调用插件系统。支持一键免费部署您的私人 ChatGPT/LLM Web 应用程序。
* [iryna-kondr/scikit-llm](https://github.com/iryna-kondr/scikit-llm) 将 LLM 无缝集成到 scikit-learn 中。将 ChatGPT 等强大的语言模型无缝集成到 scikit-learn 中,以增强文本分析任务。
* [argilla-io/argilla](https://github.com/argilla-io/argilla) 以数据为中心的 LLM 开发的开源平台。集成人工和模型反馈循环,以实现持续的 LLM 优化和监督。
* [taranjeet/awesome-gpts](https://github.com/taranjeet/awesome-gpts) 社区创建的所有 GPTs 的集合。
* [ai-boost/Awesome-GPTs](https://github.com/ai-boost/Awesome-GPTs) 精选的超棒 GPTs列表。展示全球 AI 爱好者创建的创新和令人兴奋的 GPT 模型的空间。
* [friuns2/BlackFriday-GPTs-Prompts](https://github.com/friuns2/BlackFriday-GPTs-Prompts/tree/main) 不需要 plus 订阅的免费 GPTs 列表
* [all-in-aigc/gpts-works](https://github.com/all-in-aigc/gpts-works) 第三方 GPTs 商店
* [Anil-matcha/Awesome-GPT-Store](https://github.com/Anil-matcha/Awesome-GPT-Store) 精心策划的专用自定义 GPTs 聊天机器人列表,旨在帮助您完成从技术问题到创造性工作的各种任务。
* [devisasari/awesome-chatgpt-store](https://github.com/devisasari/awesome-chatgpt-store) 展示全球 AI 爱好者创建的 GPTs 的空间。
* [snwfdhmp/awesome-gpt-prompt-engineering](https://github.com/snwfdhmp/awesome-gpt-prompt-engineering) 精选的 GPT 提示工程资源、工具和其他闪亮事物的清单。
* [SamurAIGPT/EmbedAI](https://github.com/SamurAIGPT/EmbedAI) 利用本地 LLM 的功能,在不依赖 Internet 的情况下在文档上创建 QnA 聊天机器人。 确保完全的隐私和安全,因为您的任何数据都不会离开您的本地执行环境。即使没有互联网连接,也可以无缝处理和查询您的文档。
* [pandora-next/deploy](https://github.com/pandora-next/deploy) 更强大,但还是那个让你呼吸顺畅的ChatGPT。支持GPTs,最新UI。可配置共享的tokens,会有一个功能等同chat-shared3.zhile.io的共享站(目前2622个普号、22个Plus)。
* [LouisShark/chatgpt_system_prompt](https://github.com/LouisShark/chatgpt_system_prompt) 收集Agent的系统提示,分享一些提示注入知识。可以通过向 ChatGPT 发送以下命令来获取 ChatGPT 的系统提示(核心概念是转移 ChatGPT 的注意力,使其不会意识到自己违反了规则)。
* [taishi-i/awesome-ChatGPT-repositories](https://github.com/taishi-i/awesome-ChatGPT-repositories) 专门用于与 ChatGPT 相关的开源 GitHub 存储库的精选资源列表
* [DefTruth/Awesome-LLM-Inference](https://github.com/DefTruth/Awesome-LLM-Inference) 精选的 Awesome LLM 推理论文列表,包含代码、TensorRT-LLM、vLLM、streaming-llm、AWQ、SmoothQuant、WINT8/4、Continuous Batching、FlashAttention、PagedAttention 等。
* [gmpetrov/databerry](https://github.com/gmpetrov/databerry) 用于构建自定义 LLM 代理的无代码平台
* [beyondguo/LLM-Tuning](https://github.com/beyondguo/LLM-Tuning) LoRA 微调和 RLHF 全流程
* [chatpire/chatgpt-web-share](https://github.com/chatpire/chatgpt-web-share) ChatGPT Plus 共享方案。适用于个人、组织或团队的 ChatGPT 共享方案。共享一个 ChatGPT Plus 账号给多人使用,提供完善的管理和限制功能。
* [dirk1983/chatgpt](https://github.com/dirk1983/chatgpt) 全网最易部署,响应速度最快的ChatGPT环境。PHP版调用OpenAI接口进行问答和画图,采用Stream流模式通信,一边生成一边输出。前端采用EventSource,支持Markdown格式解析,支持公式显示,代码有着色处理,支持画图。页面UI简洁,支持上下文连续会话。源码只有几个文件,没用任何框架,支持所有PHP版本,全部开源,极易二开。
* [Grt1228/chatgpt-java](https://github.com/Grt1228/chatgpt-java) ChatGPT Java SDK支持流式输出、Gpt插件、联网。支持OpenAI官方所有接口。ChatGPT的Java客户端。OpenAI GPT-3.5-Turb GPT-4 Api Client for Java
* [x-dr/chatgptProxyAPI](https://github.com/x-dr/chatgptProxyAPI) 使用cloudflare 搭建免费的 OpenAI api代理 ,解决网络无法访问问题。支持流式输出
* [Hello-SimpleAI/chatgpt-comparison-detection](https://github.com/Hello-SimpleAI/chatgpt-comparison-detection) 论文“ChatGPT 与人类专家有多接近?比较语料库、评估和检测”。我们提出了第一个 Human vs. ChatGPT 对比语料, 叫做 HC3,在 Huggingface Datasets 上🤗提供:HC3-English \HC3-Chinese
* [openchatai/OpenCopilot](https://github.com/openchatai/OpenCopilot) 适用于您自己的 SaaS 产品的 AI Copilot。Shopify Sidekick 替代品。允许您拥有自己产品的 AI 副驾驶。它与您的底层 API 集成,可以在需要时执行 API 调用。它使用 LLM 来确定用户的请求是否需要调用 API 端点。然后,它决定调用哪个终结点,并根据给定的 API 定义传递相应的有效负载。
* [LC1332/Chat-Haruhi-Suzumiya](https://github.com/LC1332/Chat-Haruhi-Suzumiya) Chat凉宫春日,一个开源的角色扮演聊天机器人 Cheng Li、Ziang Leng 等。通过大型语言模型在现实中复活动漫角色
* [eon01/awesome-chatgpt](https://github.com/eon01/awesome-chatgpt) 精选的 ChatGPT 资源列表,包括库、SDK、API 等。
* [awesome-assistants/awesome-assistants](https://github.com/awesome-assistants/awesome-assistants) 精选的令人敬畏的 AI 助手列表。带有所有这些助手的示例 Telegram 机器人可以在下面的链接上进行测试。
* [voidful/awesome-chatgpt-dataset](https://github.com/voidful/awesome-chatgpt-dataset) 释放 LLM 的力量:探索这些数据集来训练你自己的 ChatGPT!
* [yaodongC/awesome-instruction-dataset](https://github.com/yaodongc/awesome-instruction-dataset) 用于训练指令遵循 LLM 的开源数据集集合(ChatGPT、LLaMA、Alpaca)
* [ntunlplab/traditional-chinese-alpaca](https://github.com/ntunlplab/traditional-chinese-alpaca) 基于羊驼数据集的繁体中文指令数据集。
* [Tongji-KGLLM/RAG-Survey](https://github.com/Tongji-KGLLM/RAG-Survey) 大型语言模型的检索-增强生成:一项调查
* [allenai/RL4LMs](https://github.com/allenai/RL4LMs) 模块化 RL 库,可根据人类偏好微调语言模型。为训练语言模型提供易于定制的构建块,包括策略算法、奖励函数、指标、数据集和基于 LM 的参与者-批评策略的实现。
* [gptshunter.com](https://www.gptshunter.com/) 发现 GPTs 项目的商店
* [hyperonym/basaran](https://github.com/hyperonym/basaran) OpenAI 文本完成 API 的开源替代品。它为基于 Hugging Face Transformer 的文本生成模型提供兼容的流式处理 API。
* [microsoft/generative-ai-for-beginners](https://github.com/microsoft/generative-ai-for-beginners) 一门 12 节课的课程,教授开始构建生成式 AI 应用程序所需的一切知识
* [bleedline/Awesome-gptlike-shellsite](https://github.com/bleedline/Awesome-gptlike-shellsite) 深入探索精选的gpt套壳站和必备API资源。本文为初学者和经验丰富的运营者提供一站式指南,涵盖常见问题解答和基础攻略,助您迈向套壳站副业成功之路。便宜且高并发的api。
* [nat/openplayground](https://github.com/nat/openplayground) 您可以在笔记本电脑上运行的LLM游乐场。特征:使用 OpenAI、Anthropic、Cohere、Forefront、HuggingFace、Aleph Alpha、Replicate、Banana 和 llama.cpp 中的任何模型。完整的 playground UI,包括历史记录、参数调优、键盘快捷键和 logprops。使用相同的提示并排比较模型,单独调整模型参数,然后使用不同的参数重试。自动检测 HuggingFace 缓存中的本地模型,并允许您安装新模型。在手机上工作正常。
* [GAIR-NLP/auto-j](https://github.com/GAIR-NLP/auto-j) 用于评估对齐的生成式判断的官方存储库。新的开源生成判断器,可以有效地评估它们LLMs如何与人类偏好保持一致。它的特点是:通用性:Auto-J 基于来自真实世界用户查询的数据和来自各种LLMs响应的数据进行训练,涵盖 58 个真实世界场景。灵活性:Auto-J 支持成对响应比较和单响应评估,只需切换到相应的提示即可。可解释性:Auto-J 提供详细的自然语言评论,可提高其评估结果的可靠性,并促进人类参与评估循环。
* [thu-coai/BPO](https://github.com/thu-coai/BPO) 在不进行模型训练的情况下对齐大型语言模型,黑盒提示优化 (BPO) 提供了一种概念上的新视角来弥合人类和 LLMs在 Vicuna Eval 的成对评估中,BPO 在没有训练的情况下进一步对齐 gpt-3.5-turbo 和 claude-2。性能也优于PPO和DPO,并呈现出正交的改进。通过优化用户指令,从输入角度对模型进行对齐。过程分三步:1、`反馈数据收集`:为了建模人类偏好,首先搜集了一系列带有反馈信号的开源指令微调数据集,并对这些数据经过精心筛选和过滤。2、`构造提示优化对`:使用这些反馈数据来引导大型模型识别出用户偏好的特征。首先让模型分析用户喜欢的回复和不喜欢的回复,找出其中蕴含的人类偏好特征。接着,基于这些特征,再利用模型优化原始的用户输入,以期得到更符合用户喜好的模型输出。3、`训练提示优化器`:经过步骤一和步骤二,我们得到了大量隐含人类偏好的提示对。利用这些提示对,我们训练一个相对较小的模型,从而构建提示偏好优化器。最终,我们可以利用该提示优化器对用户指令进行优化,并应用在广泛的LLM上。[ BPO 数据集](https://huggingface.co/datasets/THUDM/BPO)
* [kwai/KwaiYii](https://github.com/kwai/KwaiYii) 由快手AI团队从零到一独立自主研发的一系列大规模语言模型(Large Language Model),当前包含了多种参数规模的模型,并覆盖了预训练模型(KwaiYii-Base)、对话模型(KwaiYii-Chat)。
* [deepseek-ai/DeepSeek-MoE](https://github.com/deepseek-ai/DeepSeek-MoE) DeepSeekMoE 16B 是一种具有 16.4B 参数的专家混合 (MoE) 语言模型。它采用了创新的 MoE 架构,该架构涉及两个主要策略:细粒度专家细分和共享专家隔离。它在 2T 英文和中文词元上从头开始训练,表现出与 DeekSeek 7B 和 LLaMA2 7B 相当的性能,只有大约 40% 的计算。
* [Mozilla-Ocho/llamafile](https://github.com/Mozilla-Ocho/llamafile) 目标是使开发人员和最终用户更容易访问开源大型语言模型。我们通过将 llama.cpp 与 Cosmopolitan Libc 合并到一个框架中来做到这一点,该框架将所有复杂性LLMs折叠成一个单文件可执行文件(称为“llamafile”),该可执行文件可在大多数计算机上本地运行,无需安装。
* [flexflow/FlexFlow](https://github.com/flexflow/FlexFlow) 开源编译器和分布式系统,用于低延迟、高性能的 LLM 服务。FlexFlow Serve 在单节点、多 GPU 推理方面比现有系统高出 1.3-2.0 倍,在多节点、多 GPU 推理方面比现有系统高出 1.4-2.4 倍。
* [OpenBMB/UltraFeedback](https://github.com/OpenBMB/UltraFeedback) 大规模、细粒度、多样化的偏好数据集(和模型)。UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评者模型。从各种资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN,数据集统计信息见此处)收集了大约 64k 个提示。然后,使用这些提示来查询多个 LLM,并为每个提示生成 4 个不同的响应,从而产生总共 256k 个样本。为了收集高质量的偏好和文本反馈,设计了一个细粒度的注释指令,其中包含 4 个不同的方面,即指令遵循、真实性、诚实性和帮助性。然后,我们要求 GPT-4 根据指令对收集到的样本进行注释。
* [xiaogang00/white-paper-for-large-model-security-and-privacy](https://github.com/xiaogang00/white-paper-for-large-model-security-and-privacy) 大型模型安全和隐私白皮书,大型生成模型也存在数据/模型安全和隐私问题。我们应该注意到,大型生成模型会带来很多安全和隐私问题,因为它们在改变我们生活方面表现出巨大的力量,例如数据泄露和假新闻的传播。在本白皮书中,我们首先总结了大型生成模型的发展,包括其影响和社会影响。然后,我们总结了现有大型生成模型中当前存在的安全和隐私问题,例如数据和模型安全、版权问题和伦理问题。最后,我们针对当前的安全和隐私问题给出了相应的建议。它们可以用来指出未来的研究和发展方向,也可以作为政府决策的参考。
* [guardrails-ai/guardrails](https://github.com/guardrails-ai/guardrails) 开源Py包,验证和纠正大语言模型的输出
* [OpenMOSS/HalluQA](https://github.com/OpenMOSS/HalluQA) “中文大型语言模型中的幻觉评估”数据集和评估脚本,包含 450 个精心设计的对抗性问题,跨越多个领域,考虑了中国的历史文化、习俗和社会现象。第 1 步,可能会诱发模型幻觉的问题。第 2 步,使用 ChatGPT3.5 / Puyu / GLM-130B 生成答案并收集对抗性问题。第3步,为每个对抗性问题编写多个正确和错误的答案,并添加支持证据。第4步,检查所有带注释的问答对并删除低质样本。
* [liziniu/ReMax](https://github.com/liziniu/ReMax) 论文代码(ReMax:一种简单、高效、有效的强化学习方法,用于对齐大型语言模型)。一种强化学习方法,专为 RLHF 中的奖励最大化而量身定制。ReMax 具有内存效率。与PPO相比,ReMax可以节省约50%的GPU内存消耗,可以分配1.3倍的大批量。ReMax 运行速度很快。它不需要训练价值模型,并且需要更少的计算。通常,它可以实现大约 2 倍的训练加速。ReMax易于调整以获得良好的性能。在 AlpacaEval 基准测试中,当被 GPT-4 判断时,ReMax 的胜率分别比 SFT、DPO 和 PPO 高出 84.22%、75.28% 和 63.60%。
* [OpenLLMAI/OpenRLHF](https://github.com/OpenLLMAI/OpenRLHF) 基于Ray的高性能RLHF框架(支持70B+全调谐& LoRA & Mixtral &KTO)
* [tatsu-lab/alpaca_farm](https://github.com/tatsu-lab/alpaca_farm) RLHF和替代方案的仿真框架。在不收集人工数据的情况下开发 RLHF 方法。
* [anthropics/hh-rlhf](https://github.com/anthropics/hh-rlhf) “通过从人类反馈中强化学习来训练有用且无害的助手”的人类偏好数据
* [alan-ai/alan-sdk-web](https://github.com/alan-ai/alan-sdk-web) 适用于 Web 的生成式 AI SDK,用于为使用 JavaScript、React、Angular、Vue、Ember、Electron 构建的应用程序构建 AI 助手
* [archiki/ADaPT](https://github.com/archiki/ADaPT) 使用语言模型进行按需分解和规划
* [ai-collection/ai-collection](https://github.com/ai-collection/ai-collection) 一系列令人敬畏的生成式 AI 应用程序
* [SJTU-IPADS/PowerInfer](https://github.com/SJTU-IPADS/PowerInfer) 在具有消费级 GPU 的 PC 上提供高速大型语言模型
* [danswer-ai/danswer](https://github.com/danswer-ai/danswer) 用自然语言提问,并获得私人资源支持的答案。连接到 Slack、GitHub、Confluence 等工具。允许您使用自然语言提出问题,并根据团队特定文档获得答案。想想 ChatGPT,如果它可以访问您团队的独特知识。
* [xlang-ai/OpenAgents](https://github.com/xlang-ai/OpenAgents) 现实世界的开放平台的语言智能体,用于在日常生活中使用和托管语言智能体的开放平台。
* [langchain4j/langchain4j](https://github.com/langchain4j/langchain4j) Java版LangChain,简化将 AI/LLM功能集成到 Java 应用程序中的过程。
* [weaigc/bingo](https://github.com/weaigc/bingo) 高度还原 New Bing 网页版的主要操作,国内可用,兼容绝大多数微软 Bing AI 的功能,可自行部署使用。
* [e2b-dev/awesome-ai-agents](https://github.com/e2b-dev/awesome-ai-agents) AI 自主代理列表
* [hao-ai-lab/LookaheadDecoding](https://github.com/hao-ai-lab/LookaheadDecoding) 用 Lookahead 解码打破推理的LLM顺序依赖关系
* [TaskingAI/TaskingAI](https://github.com/TaskingAI/TaskingAI) TaskingAI 将 Firebase 的简单性带入了 AI 原生应用开发。该平台支持使用LLMs来自各种提供商的各种应用程序创建类似 GPT 的多租户应用程序。它具有独特的模块化功能,如推理、检索、助手和工具,无缝集成以增强开发过程。TaskingAI 的凝聚力设计确保了 AI 应用程序开发的高效、智能和用户友好的体验。
* [salesforce/DialogStudio](https://github.com/salesforce/DialogStudio) 为对话式 AI 提供最丰富、最多样化的统一数据集集合和指令感知模型
* [YuchuanTian/AIGC_text_detector](https://github.com/YuchuanTian/AIGC_text_detector) 我们在AIGC检测方面工作的官方代码:“AI生成文本的多尺度阳性-未标记检测”(ICLR'24 Spotlight)
* [open-webui/open-webui](https://github.com/open-webui/open-webui) 用户友好的 WebUILLMs,支持的LLM运行器包括 Ollama 和 OpenAI 兼容的 API。直观的界面。响应式设计:在桌面和移动设备上享受无缝体验。快速响应。轻松设置:使用 Docker 或 Kubernetes(kubectl、kustomize 或 helm)无缝安装。代码语法高亮显示。完整的 Markdown 和 LaTeX 支持。本地 RAG 集成:通过开创性的检索增强生成 (RAG) 支持深入了解聊天交互的未来。此功能将文档交互无缝集成到您的聊天体验中。您可以将文档直接加载到聊天中或将文件添加到文档库中,使用 `#` 提示符中的命令轻松访问它们。网页浏览功能:使用 `#` 命令后跟 URL 将网站无缝集成到您的聊天体验中。提示预设支持:使用聊天输入中 `/` 的命令立即访问预设提示。毫不费力地加载预定义的对话启动器并加快您的交互速度。通过Open WebUI社区集成轻松导入提示。RLHF 注释:通过竖起大拇指和竖起大拇指对消息进行评分来增强您的消息,从而促进创建用于人类反馈强化学习 (RLHF) 的数据集。利用您的消息来训练或微调模型,同时确保本地保存数据的机密性。对话标记:轻松分类和定位特定聊天,以便快速参考和简化数据收集。下载/删除模型。GGUF 文件模型创建。多种模式支持:在不同的聊天模式之间无缝切换,实现多样化的互动。多模态支持:与支持多模态交互的模型无缝交互,包括图像(例如 LLava)。模型文件生成器。多种模型对话:毫不费力地同时与各种模型互动,利用它们的独特优势来获得最佳响应。通过并行利用一组不同的模型来增强您的体验。协作聊天:通过无缝编排群组对话,利用多个模型的集体智慧。使用该 `@` 命令指定模型,从而在聊天界面中启用动态和多样化的对话。让自己沉浸在编织在聊天环境中的集体智慧中。OpenAI API 集成。历史访问。聊天记录。导入/导出聊天记录。语音输入支持:通过语音交互与模型互动;享受直接与模特交谈的便利。此外,探索在静音 3 秒后自动发送语音输入的选项,以获得简化的体验。使用高级参数进行微调控制:通过调整温度等参数和定义系统提示来根据您的特定偏好和需求定制对话,从而获得更深层次的控制。外部 Ollama 服务器连接。基于角色的访问控制 (RBAC):使用受限权限确保安全访问;只有经过授权的个人才能访问您的 Ollama,并且为管理员保留独家模型创建/提取权限。后端反向代理支持:通过Open WebUI后端和Ollama之间的直接通信来增强安全性。持续更新。
* [CopilotKit/CopilotKit](https://github.com/CopilotKit/CopilotKit) 构建、部署和操作完全自定义的 AI Copilot。应用内 AI 聊天机器人、应用内 AI 代理和 AI 驱动的文本区域的框架。
* [n4ze3m/dialoqbase](https://github.com/n4ze3m/dialoqbase) 使用个性化知识库创建自定义聊天机器人。该应用程序利用高级语言模型来生成准确且上下文感知的响应。此外,它还利用 PostgreSQL(一种强大的关系数据库管理系统)进行高效的向量搜索操作和存储知识库。
* [yangjian102621/chatgpt-plus](https://github.com/yangjian102621/chatgpt-plus) AI 助手全套开源解决方案,自带运营管理后台,开箱即用。集成了 ChatGPT, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。支持 MJ AI 绘画,Stable Diffusion AI 绘画,微博热搜等插件工具。采用 Go + Vue3 + element-plus 实现。
* [paulpierre/RasaGPT](https://github.com/paulpierre/RasaGPT) 第一个建立在 Rasa 和 Langchain 之上的无LLM头聊天机器人平台。使用 Rasa、FastAPI、Langchain、LlamaIndex、SQLModel、pgvector、ngrok、telegram 构建
* [xusenlinzy/api-for-open-llm](https://github.com/xusenlinzy/api-for-open-llm) LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口
* [refuel-ai/autolabel](https://github.com/refuel-ai/autolabel) Python 库,用于使用您选择的任何大型语言模型 (LLM) 标记、清理和丰富文本数据集。访问大型、干净和多样化的标记数据集是任何机器学习工作成功的关键组成部分。LLMs像 GPT-4 这样的先进技术能够以高精度自动标记数据,而且与手动标记相比,成本和时间只是其中的一小部分。
* [mckaywrigley/chatbot-ui-lite](https://github.com/mckaywrigley/chatbot-ui-lite) 一个简单的聊天机器人入门工具包,用于使用 Next.js、TypeScript 和 Tailwind CSS 的 OpenAI 聊天模型。
* [jxnl/instructor](https://github.com/jxnl/instructor) 处理大型语言模型的结构化输出变得轻而易举 (LLMs)。它建立在 Pydantic 之上,提供了一个简单、透明且用户友好的 API 来管理验证、重试和流式响应。准备好为您的LLM工作流程增添动力
* [lmstudio-ai/model-catalog](https://github.com/lmstudio-ai/model-catalog) 大型语言模型文件的标准化 JSON 描述符集合。
* [adamcohenhillel/ADeus](https://github.com/adamcohenhillel/ADeus) 一种开源 AI 可穿戴设备,可捕获您在现实世界中所说和听到的内容,然后将其转录并存储在您自己的服务器上。然后,您可以使用该应用程序与 Adeus 聊天,它将包含有关您想要谈论的内容的所有正确上下文 - 一个真正个性化的个人 AI。
* [FasterDecoding/Medusa](https://github.com/FasterDecoding/Medusa) 简单的框架,它使具有多个解码头LLM的生成加速技术民主化。美杜莎添加了额外的“头”来LLMs同时预测多个未来的词元。当使用美杜莎增强模型时,原始模型保持不变,并且在训练过程中只会对新头部进行微调。在生成过程中,这些头每个头都会为相应的位置产生多个可能的单词。然后使用基于树的注意力机制对这些选项进行组合和处理。最后,采用典型的验收方案从候选者中选择最长的合理前缀进行进一步解码。
* [promptfoo/promptfoo](https://github.com/promptfoo/promptfoo) 用于测试和评估LLM输出质量的工具。测试您的提示、模型、RAG。评估和比较LLM输出,捕获回归,并提高提示质量。LLM适用于 OpenAI/Azure GPT、Anthropic Claude、VertexAI Gemini、Ollama、本地和专用模型(如 Mistral/Mixtral/Llama with CI/CD)的评估
* [tmc/langchaingo](https://github.com/tmc/langchaingo) LangChain for Go,Go 编写基于LLM程序的最简单方法
* [AnswerDotAI/fsdp_qlora](https://github.com/AnswerDotAI/fsdp_qlora) 使用量化 LoRA + FSDP 进行LLMs训练。FSDP-QLoRA 结合了数据并行性(Fully Sharded Data Parallelism(FSDP) 支持跨 GPU 分片模型参数、优化器状态和梯度)、4 位量化和 LoRA(QLoRA Quantized LoRA),可在双 24GB GPU 系统上训练 LLMs 多达 70B 参数。该技术由 Answer.AI 与 BitsandBytes 合作发布,旨在使训练 LLMs 更加高效,并且对每个人来说都更容易使用。[bitsandbytes/fsdp_qlora](https://huggingface.co/docs/bitsandbytes/main/en/fsdp_qlora)
* [getzep/zep](https://github.com/getzep/zep) 人工智能助手的长期记忆。从聊天记录中回忆、理解和提取数据。为个性化 AI 体验提供支持。
* [XueFuzhao/OpenMoE](https://github.com/XueFuzhao/OpenMoE) 一系列开源专家混合 (MoE) 大型语言模型
* [tensorchord/Awesome-LLMOps](https://github.com/tensorchord/Awesome-LLMOps) 为开发人员提供的最佳 LLMOps 工具列表,包括各种大型语言模型、大型模型服务、LLMOps 平台、向量检索、训练微调、ML 平台、工作流、管理分析等。
* [Arize-ai/phoenix](https://github.com/Arize-ai/phoenix) 以闪电般的速度提供 MLOps 和 LLMOps 见解,具有零配置可观测性。Phoenix 通过提供以下功能,为监视模型和LLM应用程序提供笔记本优先体验:LLM跟踪。LLM Evals。嵌入分析。RAG 分析。结构化数据分析 。
* [Giskard-AI/giskard](https://github.com/Giskard-AI/giskard) 自动检测 AI 模型中的漏洞,从表格模型到 LLM,包括性能偏差、数据泄露、虚假相关性、幻觉、毒性、安全问题等等。
* [huggingface/trl](https://github.com/huggingface/trl) 全栈工具,使用监督微调步骤 (SFT)、奖励建模 (RM) 和近端策略优化 (PPO) 以及直接偏好优化 (DPO) 等方法微调和调整转换器语言和扩散模型。该库建立在 transformers库之上,因此允许使用那里可用的任何模型架构。accelerate 是 trl 其骨干,允许使用 DDP 和 DeepSpeed 等方法将模型训练从单个 GPU 扩展到大规模多节点集群。PEFT 完全集成,允许在适度的硬件上使用量化和 LoRA 或 QLoRA 等方法训练最大的模型。unsloth 还集成了专用内核,可以显着加快训练速度。
* [unslothai/unsloth](https://github.com/unslothai/unsloth) 速度提高 2-5 倍,内存减少 70%,QLoRA 和 LoRA 微调。所有内核均用 OpenAI 的 Triton 语言编写。精度损失为 0% - 无近似方法 - 全部准确无误。无需更换硬件。自 2018+ 起支持 NVIDIA GPU。最低 CUDA 功能 7.0。支持 4 位和 16 位 QLoRA / LoRA 通过bitsandbytes进行微调。开源训练速度提高 5 倍。
* [ray-project/ray-llm](https://github.com/ray-project/ray-llm) 一个LLM服务解决方案,可以轻松部署和管理各种LLMs开源,建立在 Ray Serve 之上。RayLLM 利用 Ray Serve,它对自动缩放和多节点部署提供本机支持。RayLLM 可以扩展到零,并创建新的模型副本(每个副本由多个 GPU 工作线程组成)以响应需求。
* [pathwaycom/llm-app](https://github.com/pathwaycom/llm-app) LLM用于 RAG、知识挖掘和流分析的应用模板。准备与 Docker 一起运行,与您的数据源同步。
* [jackmpcollins/magentic](https://github.com/jackmpcollins/magentic) 轻松地将大型语言模型集成到 Python 代码中。只需使用 `@prompt` 装饰器创建函数,即可从 LLM.将查询和函数调用与常规 Python 代码混合LLM使用,以创建复杂的逻辑。
* [deep-diver/LLM-As-Chatbot](https://github.com/deep-diver/LLM-As-Chatbot) 让人们使用大量开源的指令遵循微调LLM模型作为聊天机器人服务。互联网搜索支持[serper.dev](https://serper.dev/)
* [pezzolabs/pezzo](https://github.com/pezzolabs/pezzo) 开源、开发人员优先的 LLMOps 平台,旨在简化提示设计、版本管理、即时交付、协作、故障排除、可观测性等。
* [msoedov/langcorn](https://github.com/msoedov/langcorn) 使用 FastAPI 自动为 LangChain LLM 应用程序和代理提供服务。
* [OpenBMB/ProAgent](https://github.com/OpenBMB/ProAgent) 从机器人流程自动化到代理流程自动化,引入了 `Agentic Process Automation` (APA),这是一种突破性的自动化范式,使用LLM基于代理的代理,通过将人力卸载到与构建和执行相关的代理来实现高级自动化。然后,我们实例化 `ProAgent` ,一个LLM基于代理,旨在根据人类指令制作工作流程,并通过协调专业代理做出复杂的决策。通过实证实验,详细阐述了APA的工作流程构建和执行流程,展示了APA的可行性,揭示了由智能体驱动的自动化新范式的可能性
* [daveebbelaar/langchain-experiments](https://github.com/daveebbelaar/langchain-experiments) 侧重于试验 LangChain 库,以构建具有大型语言模型的强大应用程序 (LLMs)。通过利用 GPT-3.5 Turbo 、GPT-4等最先进的语言模型,该项目展示了如何从 YouTube 视频成绩单创建可搜索的数据库,使用 FAISS 库执行相似性搜索查询,并用相关和准确的信息回答用户问题。
* [BradyFU/Woodpecker](https://github.com/BradyFU/Woodpecker) 引入了一种名为 Woodpecker 的免训练方法。就像啄木鸟治愈树木一样,它会从生成的文本中挑选并纠正幻觉。具体来说,啄木鸟包括五个阶段:关键概念提取、问题表述、视觉知识验证、视觉声明生成和幻觉纠正。啄木鸟以补救后的方式实施,可以轻松地为不同的MLLM提供服务,同时可以通过访问五个阶段的中间输出进行解释。我们从定量和定性两个方面对啄木鸟进行了评估,并展示了这种新范式的巨大潜力。在 POPE 基准测试中,我们的方法比基线 MiniGPT-4/mPLUG-Owl 的准确率提高了 30.66%/24.33%。
* [locuslab/wanda](https://github.com/locuslab/wanda) 一种简单有效的大型语言模型修剪方法(按权重和激活进行修剪)
* [VILA-Lab/ATLAS](https://github.com/VILA-Lab/ATLAS) 为大型语言模型制定有效查询和提示的资源和研究(LLMs)。主要贡献是引入了 26 项 prompts 指导原则,旨在优化与LLMs各种规模的交互,例如 LLaMA-1/2、GPT-3.5 和 GPT-4。
* [postgresml/postgresml](https://github.com/postgresml/postgresml) GPU 驱动的 AI 应用程序数据库。利用 SQL 的简单性和最新的 NLP、ML + LLM 模型,更快地将您的应用推向市场。
* [llmware-ai/llmware](https://github.com/llmware-ai/llmware) 提供基于企业级LLM的开发框架、工具和微调模型。
* [arcee-ai/mergekit](https://github.com/arcee-ai/mergekit) 用于合并预训练大型语言模型的工具。当前支持的合并方法的快速概述:Linear 线性,经典的合并方法,简单的加权平均值。SLERP系列,球形插值两个模型的参数。Task Arithmetic 任务算术,通过减去基础模型来计算每个模型的“任务向量”,线性合并任务向量并加回基数,非常适合从共同祖先微调的模型,对于几种更复杂的合并方法来说,也是一个超级有用的合并框架。TIES,建立在任务算术框架之上,通过稀疏化任务向量并应用符号共识算法来解决模型之间的干扰,允许您合并更多模型并保留其更多优势。DARE,与TIES一样,稀疏化任务向量以减少干扰,DARE使用随机修剪和新颖的重新缩放,以更好地匹配原始模型的性能。passthrough 是一种无操作,它只是通过未修改的输入张量传递,它旨在用于只有一个输入模型的层堆叠类型合并。Model Stock,使用微调模型的一些简洁的几何属性来计算线性插值的良好权重,至少需要三个模型,包括一个基本模型。
* [google/BIG-bench](https://github.com/google/BIG-bench) 协作基准测试,旨在探索大型语言模型并推断其未来能力。BIG-bench 中包含的 200 多个任务。
* [bigscience-workshop/promptsource](https://github.com/bigscience-workshop/promptsource) 用于创建、共享和使用自然语言提示的工具。
* [FranxYao/chain-of-thought-hub](https://github.com/FranxYao/chain-of-thought-hub) 使用思维链提示对大型语言模型的复杂推理能力进行基准测试
* [langchain-ai/langserve](https://github.com/langchain-ai/langserve) 帮助开发人员将 LangChain 可运行的可运行程序和链部署为 REST API。该库与 FastAPI 集成,并使用 pydantic 进行数据验证。
* [BCG-X-Official/agentkit](https://github.com/BCG-X-Official/agentkit) 使用 Nextjs、FastAPI 和 Langchain 构建受约束的代理
* [stitionai/devika](https://github.com/stitionai/devika) 一名代理 AI 软件工程师,可以理解高级人类指令,将它们分解为步骤,研究相关信息,并编写代码以实现给定的目标。Devika 旨在成为 Cognition AI 的 Devin 的有竞争力的开源替代品。Devika 利用大型语言模型、规划和推理算法以及 Web 浏览能力来智能开发软件。Devika 旨在通过提供 AI 对程序员来彻底改变我们构建软件的方式,该程序员可以在最少的人工指导下承担复杂的编码任务。无论您是需要创建新功能、修复错误还是从头开始开发整个项目,Devika 都能为您提供帮助。主要特点:通过 Ollama 支持 Claude 3、GPT-4、GPT-3.5 和 LocalLLMs。为获得最佳性能:使用 Claude 3 系列型号。
* [missuo/FreeGPT35](https://github.com/missuo/FreeGPT35) 利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 服务。
* [nilsherzig/LLocalSearch](https://github.com/nilsherzig/LLocalSearch) 使用LLM代理的完全本地运行的搜索聚合器。用户可以提出一个问题,系统将使用一连串来LLMs找到答案。用户可以看到代理的进度和最终答案。不需要 OpenAI 或 Google API 密钥。
* [DachengLi1/LongChat](https://github.com/DachengLi1/LongChat) 支持训练和评估基于长上下文LLM的聊天机器人。
* [fanqiwan/FuseAI](https://github.com/fanqiwan/FuseAI) 大型语言模型的知识融合,专注于模型融合主题的开源研究社区。在 Foundation 和 Chat 上应用模型融合LLMs,未来计划融合 Agent/MoELLMs。FuseChat-7B-VaRM,它融合了三个LLMs具有不同架构和规模的著名聊天,即 NH2-Mixtral-8x7B、NH2-Solar-10.7B 和 OpenChat-3.5-7B。FuseChat-7B-VaRM 在 MT-Bench 上的平均性能为 8.22,优于 Starling-7B、Yi-34B-Chat 和 Tulu-2-DPO-70B 等各种强大的聊天,LLMs甚至超过了 GPT-3.5(March)、Claude-2.1,并接近 Mixtral-8x7B-Instruct。FuseChat采用融合后合并的策略,有两个主要阶段。首先,对源LLMs进行成对知识融合,通过轻量级微调推导出多个结构和大小相同的目标LLMs;然后,将这些目标LLMs合并到参数空间中,提出了一种基于参数矩阵微调前后变化比确定合并权重的新方法VaRM。
* [katanaml/sparrow](https://github.com/katanaml/sparrow) 用于从各种文档和图像中高效提取和处理数据。它可以无缝处理表单、发票、收据和其他非结构化数据源。Sparrow 以其模块化架构脱颖而出,提供独立的服务和管道,所有这些都针对强大的性能进行了优化。Sparrow 的关键功能之一 - 可插拔架构。您可以使用 LlamaIndex、Haystack 或 Unstructured 等工具和框架轻松集成和运行数据提取管道。Sparrow 通过 Ollama 或 Apple MLX 启用本地LLM数据提取管道。使用 Sparrow 解决方案,您可以获得 API,这有助于处理数据并将其转换为结构化输出,随时可以与自定义工作流程集成。
* [GPT-Fathom/GPT-Fathom](https://github.com/GPT-Fathom/GPT-Fathom) 开源且可LLM复制的评估套件,在一致设置下对领先的开源和闭源LLMs以及OpenAI的早期模型进行基准测试,以 20+个精选基准测试。
* [RUCAIBox/StructGPT](https://github.com/RUCAIBox/StructGPT) 大型语言模型对结构化数据进行推理的通用框架
* [FranxYao/Long-Context-Data-Engineering](https://github.com/FranxYao/Long-Context-Data-Engineering) 实现论文数据工程,将语言模型扩展到 128K 上下文。使用 `tensor_parallel` 从这个存储库实现的 `device_map` ,因为它比 huggingface 快得多,比 vLLM 轻量级。但它有一个小错误,如果你的 GPU 内存不够大,它会卡住而不是通过内存溢出异常。因此,请确保您有足够的 GPU 内存。
* [OpenBMB/InfiniteBench](https://github.com/OpenBMB/InfiniteBench) 尖端的基准测试,用于评估语言模型在超长上下文(100k+ 令牌)上处理、理解和推理的能力。长上下文对于增强应用程序LLMs并实现高级交互至关重要。InfiniteBench 旨在通过针对 100k+ 的上下文长度(比传统数据集长 10 倍)来测试语言模型的界限,从而突破语言模型的界限。
* [jzhang38/TinyLlama](https://github.com/jzhang38/TinyLlama) 在 3 万亿个词元上预训练 1.1B Llama 模型。采用了与 Llama 2 完全相同的架构和分词器。这意味着 TinyLlama 可以在许多基于 Llama 构建的开源项目中插入和播放。此外,TinyLlama 结构紧凑,只有 1.1B 参数。这种紧凑性使其能够满足众多需要有限计算和内存占用的应用程序。
* [openai/openai-node](https://github.com/openai/openai-node) OpenAI API 的官方 Node.js / Typescript 库
* [openai-php/client](https://github.com/openai-php/client) 由社区维护的增强型 PHP API 客户端,允许您与 OpenAI API 进行交互。
* [InternLM/xtuner](https://github.com/InternLM/xtuner) 高效、灵活且功能齐全的工具包,用于微调大型模型(InternLM2、Llama3、Phi3、Qwen、Mistral 等)。自动调度 FlashAttention 和 Triton 内核等高性能算子,以提高训练吞吐量。与 DeepSpeed 兼容,轻松利用各种 ZeRO 优化技术。
* [hiyouga/FastEdit](https://github.com/hiyouga/FastEdit) 帮助开发人员使用单个命令有效地将新鲜和自定义的知识注入大型语言模型中。实现的算法:Rank-One Model Editing (ROME)
* [SkyworkAI/Skywork](https://github.com/SkyworkAI/Skywork) 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。
* [microsoft/promptbench](https://github.com/microsoft/promptbench) 用于评估和理解大型语言模型的统一库。快速模型性能评估:我们提供用户友好的界面,允许快速构建模型、加载数据集和评估模型性能。提示工程:我们实施了几种提示工程方法。例如:Few-shot Chain-of-Thought、Emotion Prompt、Expert Prompting等。评估对抗性提示:promptbench 集成了提示攻击 ,使研究人员能够模拟模型上的黑盒对抗性提示攻击并评估其鲁棒性。动态评估以减轻潜在的测试数据污染:我们集成了动态评估框架DyVal,该框架以可控的复杂性即时生成评估样本。
* [HowieHwong/TrustGPT](https://github.com/HowieHwong/TrustGPT) 我们能信任大型语言模型吗?:通过毒性、偏见和价值一致性评估实现负责任的大型语言模型的基准
* [llmeval/llmeval-1](https://github.com/llmeval/llmeval-1) 中文大语言模型评测第一期,涵盖了17个大类、453个问题,包括事实性问答、阅读理解、框架生成、段落重写、摘要、数学解题、推理、诗歌生成、编程等各个领域。 在这些问题上,为大模型的回答设置了5个评分项,分别是:正确性、流畅性、信息量、逻辑性和无害性。 在构造了评测目标的基础上,有多种方法可以对模型进行评测。包括分项评测、众包对比评测、公众对比评测、GPT 4自动分项评测、GPT 4 对比评测等方式。
* [llmeval/llmeval-2](https://github.com/llmeval/llmeval-2) 评测以用户日常使用为主线,结合线上用户问题分布情况,重点考察不同专业本科生和研究生在日常学习和生活中希望借助大模型得到帮助的任务。12个学科分别构造领域知识测试集,出题人基于外部数据库,对每个学科领域构造对应测试题集,题型为单项选择题与问答题。
* [llmeval/llmeval-3](https://github.com/llmeval/llmeval-3) 聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目(后续我们将继续收集题目将总题库扩充至100W)。
* [xingyaoww/mint-bench](https://github.com/xingyaoww/mint-bench) ICLR 2024 论文 MINT 的官方 Repo:使用工具和语言反馈LLMs进行多回合交互评估
* [HITsz-TMG/awesome-llm-attributions](https://github.com/HITsz-TMG/awesome-llm-attributions) 归因是指模型(例如 LLM)生成和提供证据的能力,通常以参考文献或引用的形式,以证实其产生的主张或陈述。这些证据来自可识别的来源,确保可以从基础语料库中逻辑地推断出声明,使其易于理解和验证。归因的主要目的包括使用户能够验证模型提出的声明,促进生成与引用来源密切相关的文本,以提高准确性并减少错误信息或幻觉,以及建立一个结构化框架来评估与所提出的声明相关的支持证据的完整性和相关性。
* [stanford-oval/storm](https://github.com/stanford-oval/storm) 一个LLM强大的知识管理系统,用于研究一个主题并生成带有引文的完整报告。一个LLM基于互联网搜索从头开始编写类似维基百科的文章的系统。虽然该系统无法生成通常需要大量编辑的可出版文章,但经验丰富的维基百科编辑发现它在他们的写作前阶段很有帮助。STORM 将生成带有引文的长篇文章分为两个步骤:写作前阶段:系统进行基于互联网的研究,以收集参考文献并生成大纲。写作阶段:系统使用大纲和参考文献生成带有引文的完整文章。STORM 将研究过程自动化的核心确定为自动提出要提出的好问题。直接提示语言模型提问效果不佳。为了提高问题的深度和广度,STORM采用了两种策略:视角引导提问:给定输入主题,STORM 通过调查来自相似主题的现有文章来发现不同的观点,并使用它们来控制提问过程。模拟对话:STORM模拟维基百科作者与基于互联网资源的主题专家之间的对话,使语言模型能够更新其对主题的理解并提出后续问题。基于两个阶段的分离,STORM使用dspy以高度模块化的方式实现。
* [stanfordnlp/dspy](https://github.com/stanfordnlp/dspy) 用于编程(而非提示)基础模型的框架。用于通过算法优化 LM 提示和权重的框架,尤其是当 LM 在管道中使用一次或多次时。要使用 LM 构建一个没有 DSPy 的复杂系统,您通常必须:(1) 将问题分解为多个步骤,(2) 很好地提示您的 LM,直到每个步骤单独工作良好,(3) 调整步骤以很好地协同工作,(4) 生成合成示例来调整每个步骤,以及 (5) 使用这些示例对较小的 LM 进行微调以降低成本。目前,这很困难,也很混乱:每次更改管道、LM 或数据时,所有提示(或微调步骤)都可能需要更改。为了使它更系统、更强大,DSPy 做了两件事。首先,它将程序的流程 ( modules ) 与每个步骤的参数(LM 提示和权重)分开。其次,DSPy 引入了新的 optimizers ,这是 LM 驱动的算法,可以调整 LM 调用的提示和/或权重, metric 前提是您想要最大化。DSPy 可以定期教授强大的模型(如 GPT-3.5 or GPT-4 )和本地模型(如 T5-base or Llama2-13b )在任务中更加可靠,即具有更高的质量和/或避免特定的故障模式。DSPy 优化器会将同一程序“编译”为不同的指令、小样本提示和/或每个 LM 的权重更新(微调)。这是一种新的范式,在这种范式中,LM 及其提示逐渐淡出背景,作为可以从数据中学习的更大系统的可优化部分。顶级域名;更少的提示,更高的分数,以及更系统地解决 LM 的艰巨任务的方法。
* [TheDuckAI/arb](https://github.com/TheDuckAI/arb) Advanced LLMs Reasoning Benchmark 数据集,新颖的基准数据集,由高级推理问题组成,旨在评估LLMs文本理解和专家领域推理,提供比以前的基准更具挑战性的测试,其特点是测试更深入的数学、物理、生物学、化学和法律知识的问题
* [sambanova/toolbench](https://github.com/sambanova/toolbench) ToolBench 是一个基准测试,为了研究各类LLMs在软件工具操作上的差距。由用于实际任务的各种软件工具组成。还提供了易于使用的基础设施,以直接评估每个模型的执行成功率。
* [karpathy/llm.c](https://github.com/karpathy/llm.c) LLM简单、纯 C/CUDA 的培训。不需要 245MB 的 PyTorch 或 107MB 的 cPython。训练 GPT-2 (CPU, fp32) 在单个文件 train_gpt2.c 中是 ~1,000 行干净代码,在 GPU 上训练它是 ~2,000 行(添加 CUDA 内核)在 train_gpt2.cu 中。代码立即编译并运行,它与 PyTorch 参考实现完全匹配,并且它 ~匹配(编译)PyTorch 的速度(fp32,无闪存注意)。我选择 GPT-2 作为第一个工作示例,因为它是 LLMs的祖父,第一次将现代堆栈放在一起。
* [HowieHwong/TrustLLM](https://github.com/HowieHwong/TrustLLM) 关于可信度的综合研究LLMs,包括可信度不同维度的原则,建立的基准,评估和主流LLMs可信度的分析,以及对开放挑战和未来方向的讨论。具体来说,我们首先提出了一套跨越八个不同维度的可信赖LLMs原则。基于这些原则,我们进一步建立了六个维度的基准,包括真实性、安全性、公平性、鲁棒性、隐私和机器伦理。然后,我们提出了一项研究,评估了 TrustLLM 中的 16 个主流LLMs,包括 30 多个数据集。本文档解释了如何使用 trustllm python 包来帮助您更快地评估可信度的性能LLM。
* [thunlp/InfLLM](https://github.com/thunlp/InfLLM) 揭示使用免训练记忆理解超长序列的内在能力LLMs,InfLLM 将远程上下文存储到额外的内存单元中,并采用一种有效的机制来查找与令牌相关的单元以进行注意力计算。因此,InfLLM 允许LLMs有效地处理长序列,同时保持捕获长距离依赖关系的能力。在没有任何训练的情况下,InfLLM 可以在LLMs几千个令牌的序列上进行预训练,从而获得比在长序列上不断训练这些LLMs令牌的竞争基线更好的性能。即使序列长度缩放到 1024K,InfLLM 仍然有效地捕获长距离依赖关系。
* [lrhh123/ChatGPT-On-CS](https://github.com/lrhh123/ChatGPT-On-CS) 基于大模型的智能对话客服工具,支持微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台接入,可选择 GPT3.5/GPT4.0/ 懒人百宝箱 (后续会支持更多平台),能处理文本、语音和图片,通过插件访问操作系统和互联网等外部资源,支持基于自有知识库定制企业 AI 应用。
* [LuckyyySTA/Awesome-LLM-hallucination](https://github.com/LuckyyySTA/Awesome-LLM-hallucination) 大型语言模型中的幻觉调查:原则、分类法、挑战和开放性问题。我们调查了与大型语言模型幻觉相关的论文。这包括相关的调查或分析论文、幻觉原因、幻觉检测和基准、幻觉缓解,以及该领域的挑战和开放性问题。
* [ninehills/llm-inference-benchmark](https://github.com/ninehills/llm-inference-benchmark) LLM-推理基准测试
* [turboderp/exllamav2](https://github.com/turboderp/exllamav2) 用于在现代消费级 GPU 上本地运行LLMs的快速推理库
* [OpenNMT/CTranslate2](https://github.com/OpenNMT/CTranslate2) C++ 和 Python 库,用于使用 Transformer 模型进行高效推理。该项目实现了一个自定义运行时,该运行时应用了许多性能优化技术,例如权重量化、层融合、批量重新排序等,以加速和减少 Transformer 模型在 CPU 和 GPU 上的内存使用。
* [InternLM/lmdeploy](https://github.com/InternLM/lmdeploy) 用于压缩、部署和提供LLMs的工具包。高效推理:LMDeploy 通过引入持久批处理(又称连续批处理)、阻塞 KV 缓存、动态拆分和融合、张量并行、高性能 CUDA 内核等关键功能,提供比 vLLM 高 1.8 倍的请求吞吐量。有效量化:LMDeploy 支持纯权重和 k/v 量化,4 位推理性能比 FP16 高 2.4 倍。量化质量已通过 OpenCompass 评估得到确认。轻松的分发服务器:利用请求分发服务,LMDeploy 有助于在多台机器和卡上轻松高效地部署多模型服务。交互式推理模式:通过缓存多轮对话过程中的注意力 k/v,引擎可以记住对话历史,从而避免对历史会话的重复处理。
* [freshllms/freshqa](https://github.com/freshllms/freshqa) 新颖的动态 QA 基准测试,包含多种问答类型,包括需要快速变化的世界知识的问题以及需要揭穿的具有错误前提的问题。LLMs我们在双模式评估程序下对各种封闭和开源进行了基准测试,使我们能够衡量正确性和幻觉。通过涉及超过50K个判断的人工评估,我们揭示了这些模型的局限性,并展示了巨大的改进空间:例如,所有模型(无论模型大小如何)都在涉及快速变化的知识和错误前提的问题上挣扎。在这些结果的激励下,我们提出了 FreshPrompt,这是一种简单的几次提示方法,通过将从搜索引擎检索到的相关和最新信息合并到提示中,大大提高了 FreshQA LLM 的性能。
* [LC1332/Luotuo-QA](https://github.com/LC1332/Luotuo-QA) 骆驼QA是指给定一段特定的文本,用户针对文本中的内容,进行一个提问。语言模型试图理解文本中的内容,对用户的问题进行回答。这里我们从陈丹琦学姐参与的CoQA数据集出发,基于唐杰老师实验室发布的GLM6B模型,建立了中文的骆驼QA模型。
* [CLUEbenchmark/SuperCLUE-safety](https://github.com/CLUEbenchmark/SuperCLUE-safety) 中文大模型多轮对抗安全基准,生成式大模型生成内容具有一定的不可控性,输出的内容并不总是可靠、安全和负责任的。比如当用户不良诱导或恶意输入的时候, 模型可能产生一些不合适的内容,甚至是价值观倾向错误的内容。这些都限制了大模型应用的普及以及大模型的广泛部署。
* [CrazyBoyM/phi3-Chinese](https://github.com/CrazyBoyM/phi3-Chinese) phi3以小搏大(从微软放出的跑分数据看),用不到1/2的小体积(3.8b)超越llama3 8b版性能表现,增大了在手机上部署的可行性。该仓库致力于收录分散在开源社区的各种phi3的训练变体版本,让更多网友发现那些不为人知的特色有趣权重。同时也会顺便整理phi相关训练、推理、部署的简单教程。
* [vahe1994/AQLM](https://github.com/vahe1994/AQLM) 用于通过加法量化对大型语言模型进行极端压缩,与GPTQ等更简单的量化方法相比,AQLM量化需要更长的时间来校准。这只会影响量化时间,而不会影响推理时间。我们的工作建立在 MCQ 系列中的经典算法 Additive Quantization 之上,并使其适应语言模型的量化。
* [openai/summarize_from_feedback](https://huggingface.co/datasets/openai/summarize_from_feedback) 在“从人类反馈中学习”( Learning to Summarize from Human Feedback paper)一文中,根据人类反馈训练了一个奖励模型(reward model)。然后使用奖励模型来训练总结模型,使其与人类的偏好保持一致。这是为奖励建模而发布的人类反馈数据集。此数据集分为两部分: comparisons 和 axis 。在这一 comparisons 部分中,人类注释者被要求从两个摘要中选择最好的。在这一 axis 部分中,人类注释者对摘要的质量进行了李克特量表的评分。 comparisons 该部件仅具有训练和验证拆分,并且 axis 该部件仅具有测试和验证拆分。
* [openai/webgpt_comparisons](https://huggingface.co/datasets/openai/webgpt_comparisons) 在 WebGPT 论文中,作者根据人类反馈训练了一个奖励模型。他们使用奖励模型来训练一个长篇问答模型,以符合人类的偏好。这是在 WebGPT 项目结束时被标记为适合奖励建模的所有比较的数据集。总共有 19,578 个比较。数据集中的每个示例都包含一个问题的一对模型答案以及关联的元数据。每个答案都有一个来自人类的偏好分数,可用于确定两个答案中哪一个更好。
* [xfactlab/orpo](https://github.com/xfactlab/orpo) 提出了一种称为ORPO的方法(Odds Ratio Preference Optimization,赔率比偏好优化),这种方法针对不受欢迎的生成内容施与小小惩罚就足以实现偏好对齐的 SFT,通过将 SFT 和对齐结合到一个新的目标(损失函数)中来训练基础大语言模型,从而免去了耗时耗力的SFT阶段。根据论文架构图显示,ORPO不需要监督微调、奖励模型和参考模型。
* [Shenzhi-Wang/Llama3-Chinese-Chat](https://github.com/Shenzhi-Wang/Llama3-Chinese-Chat) 第一个基于Meta-Llama-3-8B-Instruct模型的ORPO专门针对中文进行微调的中文聊天模型。
* [chtmp223/topicGPT](https://github.com/chtmp223/topicGPT) 通过提示大型语言模型进行主题建模”的脚本和提示。
* [pjlab-sys4nlp/llama-moe](https://github.com/pjlab-sys4nlp/llama-moe) 通过持续的预培训建立来自 LLaMA 的专家组合。于 LLaMA 和 SlimPajama 的一系列开源专家混合 (MoE) 模型。我们通过以下两个步骤构建 LLaMA-MoE:将 LLaMA 的 FFN 划分为稀疏专家,并为每一层专家插入 top-K 门。使用来自 Sheared LLaMA 的优化数据采样权重和来自 SlimPajama 的过滤数据集,持续预训练初始化的 MoE 模型。
* [X-PLUG/CValues](https://github.com/X-PLUG/CValues) 面向中文大模型价值观的评估与对齐研究。联合天猫精灵团队发起「给AI的100瓶毒药」项目,邀请中国知名专家学者,每位专家提出100个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注。项目吸引了环境科学、心理学、法理学等多个领域专家参与,并召开了专家研讨会,会后发布业内首个大语言模型治理开源中文数据集100PoisonMpts,包含专家提出的问题、专家自己撰写或认可的答案。提出一个评估中文大模型价值观水平的benchmark,基于safety和responsibility两个评价准则。我们评测了10+大模型,实验既包含人工评测、也构造多项选择题进行自动化评测。
* [PandaBearLab/prompt-tutorial](https://github.com/PandaBearLab/prompt-tutorial) chatGpt提示词课程,文包括的内容:prompt 原理、prompt 技巧、我的一些经验、一些公开的prompt模板、AI工具系列
* [stanfordnlp/pyreft](https://github.com/stanfordnlp/pyreft) 一种强大、高效且可解释的微调方法。pyreft ,一个表示微调 (ReFT) 库,支持通过可训练的干预调整内部语言模型表示。通过更少的微调参数和更健壮的性能, pyreft 可以提高微调效率,降低微调成本,同时为研究适配参数的可解释性打开大门。
* [xlang-ai/UnifiedSKG](https://github.com/xlang-ai/UnifiedSKG) 使用文本到文本语言模型进行统一和多任务结构化知识基础,结构化知识基础 (SKG) 利用结构化知识来完成用户请求,例如对数据库进行语义解析和对知识库进行问答。由于SKG任务的输入和输出是异质的,因此它们在历史上被不同的社区分开研究,这限制了对SKG的系统性和兼容性研究。在本文中,我们通过提出 UnifiedSKG 框架来克服这一局限性,该框架将 21 个 SKG 任务统一为文本到文本的格式,旨在促进系统的 SKG 研究,而不是专属于单个任务、领域或数据集。我们表明,像 T5 这样的大型语言模型,在必要时进行简单的修改,几乎可以在所有 21 个任务上实现最先进的性能。UnifiedSKG促进多任务学习。我们表明,多任务前缀调整对大多数任务都有好处,大大提高了整体性能。UnifiedSKG 是一个具有挑战性的零样本和少样本学习测试平台,T0、GPT-3 和 Codex 都在其中苦苦挣扎。UnifiedSKG 还支持对 SKG 任务中的结构化知识编码变体进行一系列对照实验。我们发现 T5 对结构化知识编码变化的敏感性因任务而异。
* [google-research/xtreme](https://github.com/google-research/xtreme) 评估预训练多语言模型跨语言泛化能力的基准,涵盖 40 种类型不同的语言,包括 9 个任务。XTREME中包含的任务涵盖了自然语言处理中的一系列标准范式,包括句子分类、结构化预测、句子检索和问答。
* [princeton-nlp/LLM-Shearing](https://github.com/princeton-nlp/LLM-Shearing) 剪切 LLaMA:通过结构化修剪加速语言模型预训练,与从头开始预训练相比,修剪强大的基础模型是获得强大的小规模语言模型的一种极具成本效益的方法。下图显示,给定 Llama-2-7B 模型(使用 2T 令牌预训练)的存在,修剪它会产生一个与 OpenLLaMA 模型一样强大的模型,其预训练成本仅为 3%。
* [agi-templar/Stable-Alignment](https://github.com/agi-templar/Stable-Alignment) 多智能体社交模拟 + RLHF 的高效、有效和稳定的替代方案。论文“在模拟人类社会中训练社会一致的语言模型”的代码。目标是提供一种 RLHF 替代方案,该替代方案在对齐性能方面具有卓越性,在数据学习方面非常高效,并且易于在扩展环境中部署。我们没有训练一个可以在优化过程中进行游戏的额外奖励模型,而是直接在模拟社交游戏中训练记录的交互数据。我们发现高质量的数据+可靠的算法是稳定对齐学习的秘诀。
* [lm-sys/llm-decontaminator](https://github.com/lm-sys/llm-decontaminator) 在没有更强的去除训练样本污染的情况下,Llama-rephraser:13B 模型在主要基准测试 (MMLU/GSK-8K/HumanEval) 中达到 GPT-4 性能!为了确保结果的有效性,我们遵循了 OpenAI 的去污方法,没有发现数据污染的证据。本文提出了一种基于更强LLM的去污器,并将其应用于现实世界的训练数据集(例如, the Stack、RedPajama),揭示了训练数据集与广泛使用的基准测试的显着重叠。现有的检测方法(例如,n-gram重叠,嵌入相似性)无法检测到这种污染。嵌入相似性方法很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。而本文提出可以使用“LLM去污器”来量化数据集相对于基准的重新表述的样本。根据检测结果,您可以估计数据集中改写样本的污染情况,并将其从训练集中移除。该LLM净化器包括两个步骤:对于每个测试用例,“LLM去污器”使用嵌入相似性搜索识别相似度最高的前 k 个训练项。从这些项目中,“LLM去污器”生成 k 个潜在的改写对,每对都使用高级 LLM,例如 GPT-4 进行改写评估。结果表明,我们提出LLM的方法在去除改写样本方面明显优于现有方法。
* [thu-coai/SafetyBench](https://github.com/thu-coai/SafetyBench) 评估安全性LLMs的综合基准,它包括 11,435 个不同的多项选择题,涵盖 7 个不同的安全问题类别。SafetyBench 还整合了中文和英文数据,便于以两种语言进行评估。
* [OpenLMLab/LEval](https://github.com/OpenLMLab/LEval) L-Eval 的数据和代码,一个全面的长上下文语言模型评估基准,全面的长上下文语言模型(LCLM)评估套件,具有20个子任务,508个长文档和2,000多个人工标记的查询-响应对,包括不同的问题风格,域和输入长度(3k~200k标记)。L-Eval 有 2 组:封闭式任务和开放式任务。封闭式组主要测试对较长上下文的推理和理解能力,开放式组由需要聚合长文档信息(下载数据)的更多总结任务组成。
* [bigai-nlco/LooGLE](https://github.com/bigai-nlco/LooGLE) 一个LLM全面的评估基准,用于长时间理解上下文,其中包含最新的(全部在2022年之后)和超长的现实文档(每个文档超过24k令牌,其中许多超过100k字)和6,000个新生成的问题,跨越不同的领域和类别。
* [dwzhu-pku/PoSE](https://github.com/dwzhu-pku/PoSE) 位置跳跃训练,将上下文窗口有效扩展至LLMs极长 (ICLR 2024),引入了位置跳跃 (PoSE) 训练,用于高效适应大型语言模型~(LLMs) 到极长的上下文窗口。PoSE 通过在训练期间使用具有操纵位置索引的固定上下文窗口模拟长输入来模拟长输入,从而将训练长度与目标上下文窗口大小分离。以上下文窗口从 2,048 扩展到 8,192 为例,我们将 2,048 个标记的原始上下文窗口划分为两个块,并通过添加一个明显的跳过偏差项来调整第二个块的位置索引。对于每个训练示例,这些偏差项以及每个块的长度都会发生变化,以便模型可以通过微调来适应目标上下文窗口的所有相对位置。值得注意的是,通过将微调长度与目标上下文窗口解耦,PoSE 理论上可以无限扩展上下文窗口,仅受推理内存使用的限制。随着高效推理的不断进步~(例如,vLLM、Flash Attention),我们相信 PoSE 在进一步扩展上下文窗口方面具有巨大的前景。
* [IAAR-Shanghai/UHGEval](https://github.com/IAAR-Shanghai/UHGEval) 基于无约束生成的中国大型语言模型幻觉基准测试,一个综合框架,旨在评估幻觉现象。其架构提供了灵活性和可扩展性,允许轻松集成新的数据集、模型和评估指标。该框架对评估常见的幻觉任务是用户友好的,包括我们的新华幻觉和牛津的TruthfulQA等。
* [OpenAccess-AI-Collective/axolotl](https://github.com/OpenAccess-AI-Collective/axolotl) 旨在简化各种 AI 模型微调的工具,支持多种配置和架构。 特征:训练各种 Huggingface 模型,如llama、pythia、falcon、mpt;支持 fullfinetune、lora、qlora、relora 和 gptq;使用简单的 yaml 文件或 CLI 覆盖自定义配置;加载不同的数据集格式,使用自定义格式,或自带标记化数据集;集成了 xformer、flash注意力、rope缩放和多重包装;通过 FSDP 或 Deepspeed 与单个 GPU 或多个 GPU 配合使用;在本地或云端使用 Docker 轻松运行;将结果和检查点(可选)记录到 wandb 或 mlflow
* [bigscience-workshop/xmtf](https://github.com/bigscience-workshop/xmtf) 通过多任务微调实现跨语言泛化
* [tangqiaoyu/ToolAlpaca](https://github.com/tangqiaoyu/ToolAlpaca) 具有 3000 个模拟案例的语言模型的通用工具学习。用于在最少的人工监督下学习紧凑语言模型中的通用工具使用能力。它通过多智能体仿真环境生成工具使用语料库,提供来自 400 多个工具的 3.9k 工具使用实例,从而解决了工具学习的挑战。
* [aurora-develop/aurora](https://github.com/aurora-develop/aurora) (带UI)免费的GPT3.5,支持使用3.5的access 调用,注:仅ip属地支持免登录使用ChatGpt可以使用(也可以自定义Baseurl来绕过限制)
* [McGill-NLP/webllama](https://github.com/McGill-NLP/webllama) 使用Llama 3 构建的最强大的代理,并针对带有对话的 Web 导航进行了微调。构建有效的以人为本的代理来浏览网页。我们不想取代用户,而是为他们配备强大的助手。
* [FMInference/H2O](https://github.com/FMInference/H2O) 用于大型语言模型高效生成推理的重磅 Oracle,大型语言模型(LLMs)尽管最近取得了令人瞩目的成就,但部署成本明显过高,特别是对于涉及长内容生成的应用程序,例如对话系统和故事写作。通常,除了模型参数外,还存储了大量瞬态状态信息(称为 KV 缓存),并随序列长度和批量大小线性缩放。在本文中,我们介绍了一种实现 KV 缓存的新方法,该方法可显着减少其内存占用。我们的方法基于一个值得注意的观察结果,即在计算注意力分数时,一小部分词元贡献了大部分价值。我们称这些词元为重击者(H2)。通过全面的调查,我们发现 (i) H2 的出现是自然的,并且与文本中频繁同时出现标记密切相关,以及 (ii) 删除它们会导致显着的性能下降。基于这些见解,我们提出了 Heavy Hitter Oracle (H2O),这是一种 KV 缓存驱逐策略,可动态保留最近词元和 H2 词元的平衡。我们将KV缓存逐出表述为一个动态子模问题,并证明了(在温和的假设下)我们新颖的逐出算法的理论保证,可以帮助指导未来的工作。我们使用 OPT、LLaMA 和 GPT-NeoX 在各种任务中验证了算法的准确性。在 OPT-6.7B 和 OPT-30B 上,我们实施了 20% 重击器的 H2O,将吞吐量提高了 29×、29× 和 3× 三个领先的推理系统 DeepSpeed Zero-Inference、Hugging Face Accelerate 和 FlexGen。在相同的批量大小下,H2O 最多可以减少 1.9× 的延迟。
* [OpenMOSS/CoLLiE](https://github.com/OpenMOSS/CoLLiE) 帮助您从零开始训练大模型的完整工具箱。它提供了数据预处理、模型微调、模型保存以及训练过程各项指标监测等功能。CoLLiE集成了现有的并行策略、高效参数微调方法和高效优化器,以加快训练的速度,提高训练的质量,降低训练的开销。CoLLiE支持主流的多种模型(如MOSS, InternLM, LLaMA, ChatGLM等),您可以轻松在不同的模型之间切换。此外,CoLLiE提供了丰富的文档,使初学者可以快速入门。同时,CoLLiE还提供了高度可定制化的功能和灵活的配置选项,使有经验的用户能够根据自己的需求进行个性化定制。无论您是初学者还是有经验的专业人士,CoLLiE都可以为您提供满足需求的解决方案。CoLLiE 基于 DeepSpeed 和 PyTorch,为大型语言模型提供协作式和高效的调优方法。
* [aurorax-neo/free-gpt3.5-2api](https://github.com/aurorax-neo/free-gpt3.5-2api) 免费chat GPT API
* [open-compass/T-Eval](https://github.com/open-compass/T-Eval) 逐步评估大型语言模型的工具利用能力
* [ymcui/Chinese-LLaMA-Alpaca-3](https://github.com/ymcui/Chinese-LLaMA-Alpaca-3) 基于Meta最新发布的新一代开源大模型Llama-3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。
* [zjukg/KnowPAT](https://github.com/zjukg/KnowPAT) 一种LLMs与人类知识偏好保持一致的新管道。KnowPAT结合领域知识图谱来构建偏好集并设计新的对齐目标,以微调.LLMs
* [usyd-fsalab/fp6_llm](https://github.com/usyd-fsalab/fp6_llm) 高效的 GPU 支持 6 位量化 (FP6) LLM 推理。与 4 位和 8 位量化对应物相比,6 位量化 (FP6) 可以在模型质量和推理成本之间实现更好的权衡,从而有效地减小大型语言模型的大小 (LLMs),并在各种应用程序中保持一致地保持模型质量。为了支持现代 GPU LLMs 的 6 位推理,我们提供了 FP6-LLM 的官方实现,在 fp16/int8 基线上实现了线性层的显著加速和 GPU 内存的缩减。高效的 CUDA 实现,用于启用 Tensor Core 的线性层(FP6 中的权重和 FP16 格式的激活)的混合输入矩阵乘法。
* [Abbey4799/CELLO](https://github.com/Abbey4799/CELLO) CELLO 是系统评估大型语言 MOdels 的 ComplEx 指令理解能力的基准 (AAAI 2024)。我们为复杂指令设计了八个特征,并根据真实场景构建了一个全面的评估数据集。我们建立了四个标准并制定了相应的指标,因为目前的指标是不充分的、有偏见的或过于严格和粗糙的。我们通过大量的实验比较了具有代表性的面向中文和面向英语的模型在遵循复杂指令方面的性能。
* [tmlr-group/DeepInception](https://github.com/tmlr-group/DeepInception) 催眠大型语言模型成为越狱者。披露了一种轻量级的方法,称为DeepInception,它可以很容易地催眠LLM成为越狱者并解锁其滥用风险。具体来说,《深度盗梦空间》利用拟LLM人化能力构建新颖的嵌套场景来表现,实现了正常场景下逃避使用控制的自适应方式,为进一步的直接越狱提供了可能性。根据经验,我们进行了全面的实验以证明其功效。我们的 DeepInception 可以达到与前代同行竞争的越狱成功率,并在后续交互中实现连续越狱,这揭示了 Falcon、Vicuna、Llama-2 和 GPT-3.5/4/4V 等开源/闭源LLMs自输的关键弱点。我们的调查呼吁人们应该更加关注安全方面,LLMs并加强对滥用风险的防御。
* [Datayoo/HuggingFists](https://github.com/Datayoo/HuggingFists) 一个低代码数据流工具,允许方便地LLM使用 和 HuggingFace 模型,其中一些功能被认为是 Langchain 的低代码版本。
* [datawhalechina/self-llm](https://github.com/datawhalechina/self-llm) 《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程
* [developersdigest/llm-answer-engine](https://github.com/developersdigest/llm-answer-engine) 使用 Next.js、Groq、Mixtral、Langchain、OpenAI、Brave 和 Serper 构建受Perplexity(LLM智能搜索)启发的答案搜索引擎。包含构建复杂的应答引擎所需的代码和说明,该引擎利用了 Groq、Mistral AI 的 Mixtral、Langchain.JS、Brave Search、Serper API 和 OpenAI 的功能。该项目旨在根据用户查询有效地返回源、答案、图像、视频和后续问题,对于对自然语言处理和搜索技术感兴趣的开发人员来说,这是一个理想的起点。
* [Zjh-819/LLMDataHub](https://github.com/Zjh-819/LLMDataHub) 指令微调数据集的快速指南,提供了专为聊天机器人训练设计的精选数据集集合,包括链接、大小、语言、用法以及每个数据集的简要描述。我们的目标是让研究人员和从业者更容易识别和选择最相关和最有用的数据集,以满足他们的聊天机器人LLM培训需求。无论您是致力于提高聊天机器人对话质量、响应生成还是语言理解,此存储库都能满足您的需求。
* [dvlab-research/LongLoRA](https://github.com/dvlab-research/LongLoRA) LongLoRA 和 LongAlpaca 长上下文LLMs。在LongLoRA方法中,所提出的转移短注意力易于实现,与Flash-Attention兼容,并且在推理过程中不需要。我们发布了所有模型,包括 7B 到 70B 的模型,上下文长度从 8k 到 100k。我们建立了一个长上下文指令跟踪数据集 LongAlpaca-12k。我们发布了相应的 LongAlpaca-7B、LongAlpaca-13B 和 LongAlpaca-70B 型号。
* [modelscope/agentscope](https://github.com/modelscope/agentscope) 以更简单的方式开始构建LLM赋能的多代理应用程序。创新的多智能体平台,旨在使开发人员能够构建具有大规模模型的多智能体应用程序。它具有三个高级功能:`易于使用`:专为开发人员设计,具有丰富的组件、全面的文档和广泛的兼容性。此外,AgentScope Workstation 还为 AgentScope 的初学者提供了拖放式编程平台和副驾驶!`高健壮性`s:支持自定义容错控制和重试机制,增强应用稳定性。`基于参与者的分发`:以集中式编程方式构建分布式多代理应用程序,以简化开发。
* [young-geng/EasyLM](https://github.com/young-geng/EasyLM) 在 JAX/Flax LLMs 中进行预训练、微调、评估和服务的一站式解决方案,EasyLM 可以利用 JAX 的 pjit 功能将训练扩展到LLM数百个 TPU/GPU 加速器。
* [ianarawjo/ChainForge](https://github.com/ianarawjo/ChainForge) 用于战斗测试的开源可视化编程环境提示 LLMs。用于分析和评估LLM响应的数据流提示工程环境。它面向提示、聊天响应和响应质量的早期、快速和肮脏的探索,超越了与个人LLMs的临时聊天。使用 ChainForge,您可以:一次查询多个LLMs,以快速有效地测试提示的想法和变化。比较不同提示排列、不同模型和不同模型设置的响应质量,以选择适合您用例的最佳提示和模型。设置评估指标(评分功能),并立即可视化提示、提示参数、模型和模型设置的结果。跨模板参数和聊天模型同时进行多个对话。模板不仅提示,而且跟进聊天消息,并在聊天对话的每个回合检查和评估输出。
* [intel/neural-compressor](https://github.com/intel/neural-compressor) SOTA低比特LLM量化(INT8/FP8/INT4/FP4/NF4)和稀疏性;TensorFlow、PyTorch 和 ONNX Runtime 上的领先模型压缩技术。® 英特尔神经压缩器旨在提供流行的模型压缩技术,如量化、修剪(稀疏性)、蒸馏和神经架构搜索等主流框架,如 TensorFlow、PyTorch、ONNX Runtime 和 MXNet,以及英特尔扩展,如面向 TensorFlow 的英特尔扩展和面向 PyTorch 的英特尔扩展。
* [billmei/every-chatgpt-gui](https://github.com/billmei/every-chatgpt-gui) ChatGPT 的每个前端 GUI 客户端项目列表
* [stanford-crfm/levanter](https://github.com/stanford-crfm/levanter) 用于训练大型语言模型 (LLMs) 和其他基础模型的框架,旨在实现可读性、可伸缩性和可重复性。清晰易读:Levanter 使用我们命名的张量库 Haliax 编写易于理解、可组合的深度学习代码,同时仍然保持高性能。可扩展:Levanter 可扩展到大型模型,并能够在各种硬件上进行训练,包括 GPU 和 TPU。可重现:Levanter 是按位确定性的,这意味着相同的配置将始终产生相同的结果,即使面对抢占和恢复。
* [horizon-ui/chatgpt-ai-template](https://github.com/horizon-ui/chatgpt-ai-template) Horizon AI 模板 - 最时尚的开源 ChatGPT UI AI 模板和入门套件,适用于 React、NextJS 和 Chakra UI
* [Niek/chatgpt-web](https://github.com/Niek/chatgpt-web) 使用 OpenAI API 的 ChatGPT Web 界面
* [cogentapps/chat-with-gpt](https://github.com/cogentapps/chat-with-gpt) 开源的非官方 ChatGPT 应用程序,具有额外的功能和更多自定义体验的方式。它将 ChatGPT 与 ElevenLabs 连接起来,为 ChatGPT 提供逼真的人类声音。
* [patrikzudel/PatrikZeros-ChatGPT-API-UI](https://github.com/patrikzudel/PatrikZeros-ChatGPT-API-UI) 静态网页,允许您使用 OpenAI API 密钥获得与 ChatGPT 相同的体验!
* [ShipBit/slickgpt](https://github.com/ShipBit/slickgpt) 轻量级的“使用你自己的 API 密钥”Web 客户端,用于用 Svelte 编写的 OpenAI API。它提供 GPT-4 集成、无用户共享功能和其他超能力。
* [ysymyth/ReAct](https://github.com/ysymyth/ReAct) ICLR 2023年 ReAct:在语言模型中协同推理和行动。采用多轮次的“想法(thought)+动作(act)+结果(obs)”方式,让LLM把内心独白(想法)说出来,然后再根据独白做相应的动作,获得结果,来提高最终的LLM答案准确性。
* [NVIDIA/GenerativeAIExamples](https://github.com/NVIDIA/GenerativeAIExamples) 针对加速基础架构和微服务架构优化的生成式 AI 参考工作流。
* [swirlai/swirl-search](https://github.com/swirlai/swirl-search) 开源软件,它使用 AI 同时搜索多个内容和数据源,使用阅读器LLM找到最佳结果,然后提示生成式 AI,使您能够从自己的数据中获得答案。旨在简化 AI 基础设施的设置。它支持检索增强生成 (RAG)、分析和 Co-Pilot 等强大工具,通过 AI 增强企业的决策能力。
* [modelscope/data-juicer](https://github.com/modelscope/data-juicer) 为大语言模型提供更高质量、更丰富、更易”消化“的数据!特征:系统化和可重用:为用户提供包含 80+ 核心 OP、20+ 可重用配置配方和 20+ 功能丰富的专用工具包的系统库,旨在独立于特定的多模态LLM数据集和处理管道运行。Data-in-the-loop & Sandbox:支持一站式数据模型协同开发,通过沙盒实验室实现快速迭代,提供基于数据和模型的反馈循环、可视化、多维度自动评估等功能,让您更好地理解和改进您的数据和模型。提高效率:提供高效并行的数据处理流水线(Aliyun-PAI\Ray\Slurm\CUDA\OP Fusion),需要更少的内存和CPU使用率,并针对最大生产力进行优化。全面的数据处理配方:提供数十种预建的数据处理配方,用于预训练、微调、en、zh 等场景。在参考 LLaMA 和 LLaVA 模型上进行了验证。灵活和可扩展:适应大多数类型的数据格式(例如,jsonl、parquet、csv等),并允许灵活组合OP。随意实现您自己的 OP 以进行可自定义的数据处理。用户友好体验:为简单而设计,具有全面的文档、简单的入门指南和演示配置,以及通过在现有配置中简单添加/删除 OP 的直观配置。
* [google/maxtext](https://github.com/google/maxtext) 高性能、高度可扩展的开源产品,采用纯 Python/Jax LLM 编写,面向 Google Cloud TPU 和 GPU 进行训练和推理。MaxText 实现了高 MFU,并从单个主机扩展到非常大的集群,同时由于 Jax 和 XLA 编译器的强大功能而保持简单和“免优化”。
* [KnowledgeCanvas/knowledge](https://github.com/KnowledgeCanvas/knowledge) 知识是一种用于保存、搜索、访问、探索和聊天所有您喜爱的网站、文档和文件的工具。通过 Knowledge 的新聊天功能,深入体验更具互动性的学习体验!利用大型语言模型的强大功能,与您的项目和资源进行动态对话。提出问题、探索概念并加深您的理解,所有这些都在直观的聊天界面中完成。
* [zjunlp/LLMAgentPapers](https://github.com/zjunlp/LLMAgentPapers) 关于大型语言模型代理的必读论文。
* [eli64s/readme-ai](https://github.com/eli64s/readme-ai) 一种开发人员工具,它使用数据提取和生成式 AI 的组合自动生成 README.md 文件。只需提供代码库的存储库 URL 或本地路径,即可生成结构良好且详细的 README 文件。
* [MLGroupJLU/LLM-eval-survey](https://github.com/MLGroupJLU/LLM-eval-survey) 调查论文“大型语言模型评估调查”的官方 GitHub 页面。
* [SciPhi-AI/R2R](https://github.com/SciPhi-AI/R2R) RAG系统快速开发和部署的框架。R2R 是 RAG to Riches 的缩写,它提供了向最终用户提供高质量检索增强生成 (RAG) 的最快、最有效的方式。该框架围绕可自定义的管道和功能丰富的 FastAPI 实现构建。主要特点,生成:使用框架生成任意异步管道。部署:立即启动具有流式处理功能的生产就绪异步 RAG 管道。自定义:使用直观的配置文件定制您的多式联运管道。扩展:使用自定义代码集成增强管道。OSS:受益于开源社区开发的框架,该框架旨在简化 RAG 部署。
* [Farama-Foundation/chatarena](https://github.com/Farama-Foundation/chatarena) 提供多智能体语言游戏环境的库,并促进了对自主LLM智能体及其社交交互的研究。它提供以下功能:抽象:它提供了一个灵活的框架,基于马尔可夫决策过程来定义多个参与者、环境以及它们之间的交互。语言游戏环境:它提供了一组可以帮助理解、基准测试或训练代理LLMs的环境。用户友好的界面:它提供 Web UI 和 CLI,以开发/提示工程师您的LLM代理在环境中行动。
* [amazon-science/auto-cot](https://github.com/amazon-science/auto-cot) “大型语言模型中的自动思维链提示”的官方实现,用“让我们一步一步地思考”的提示让 AI 振作起来?请多多说。让我们不仅要一步一步地思考,还要一个一个地思考。Auto-CoT 使用更多的cheers和多样性来节省思维链提示设计中的巨大手动工作,匹配甚至超过 GPT-3 上的手动设计性能。
* [LLMBook-zh/LLMBook-zh.github.io](https://github.com/LLMBook-zh/LLMBook-zh.github.io) 《大语言模型》作者:赵鑫,李军毅,周昆,唐天一,文继荣。希望读者通过阅读本书,能够深入了解大模型技术的现状和未来趋势,为自己的研究和实践提供指导和启发。让我们携手努力,共同推动人工智能技术的发展,为建立更智能、更可持续的未来做出贡献。
* [RUCAIBox/LLMBox](https://github.com/RUCAIBox/LLMBox) 用于实现LLMs的综合库,包括统一的训练管道和全面的模型评估。
* [jackaduma/awesome_LLMs_interview_notes](https://github.com/jackaduma/awesome_LLMs_interview_notes) 主要记录大模型(LLMs)算法工程师相关的面试题和参考答案
* [hyp1231/awesome-llm-powered-agent](https://github.com/hyp1231/awesome-llm-powered-agent) 由于大型语言模型(LLMs)令人印象深刻的规划、推理和工具调用功能,人们正在积极研究和开发LLM由智能体驱动的代理。这些智能体可以自主(和协作)解决复杂的任务,或模拟人类交互。
* [ItzCrazyKns/Perplexica](https://github.com/ItzCrazyKns/Perplexica) 人工智能驱动的搜索引擎。它是 Perplexity AI 的开源替代品。可以深入互联网寻找答案。受 Perplexity AI 的启发,它是一个开源选项,不仅可以搜索网络,还可以理解您的问题。它使用先进的机器学习算法(如相似性搜索和嵌入)来优化结果,并提供明确的答案和引用的来源。Perplexica 使用 SearxNG 保持最新和完全开源,确保您始终在不损害隐私的情况下获得最新信息。特征:本地 LLMs:您可以使用 Ollama 使用本地LLMs,例如 Llama3 和 Mistral。Copilot 模式:(开发中)通过生成不同的查询来查找更相关的互联网资源,从而增强搜索。与普通搜索一样,它不仅使用 SearxNG 的上下文,而是访问排名靠前的匹配项,并尝试直接从页面中找到与用户查询相关的来源。正常模式:处理查询并执行 Web 搜索。专注模式:特殊模式,可更好地回答特定类型的问题。Perplexica 目前有 6 种对焦模式:所有模式:搜索整个网络以找到最佳结果。写作助手模式:有助于编写不需要搜索网络的任务。学术搜索模式:查找文章和论文,非常适合学术研究。YouTube 搜索模式:根据搜索查询查找 YouTube 视频。Wolfram Alpha 搜索模式:使用 Wolfram Alpha 回答需要计算或数据分析的查询.Reddit 搜索模式:在 Reddit 中搜索与查询相关的讨论和意见。当前信息:某些搜索工具可能会为您提供过时的信息,因为它们使用来自爬虫机器人的数据,并将其转换为嵌入内容并将其存储在索引中。与它们不同的是,Perplexica 使用 SearxNG(一个元搜索引擎)来获取结果并重新排名并从中获取最相关的来源,确保您始终获得最新信息,而无需每日数据更新的开销。
* [reorproject/reor](https://github.com/reorproject/reor) 私人和本地AI个人知识管理应用程序。Reor 是一款 AI 驱动的桌面笔记应用程序:它会自动链接相关笔记、回答笔记上的问题、提供语义搜索并可以生成 AI 抽认卡。所有内容都存储在本地,您可以使用类似 Obsidian 的 Markdown 编辑器编辑笔记。
* [yihong0618/bilingual_book_maker](https://github.com/yihong0618/bilingual_book_maker) AI 翻译工具,它使用 ChatGPT 帮助用户创建多语言版本的 epub/txt/srt 文件和书籍。此工具专为翻译已进入公有领域的 epub 图书而设计,不适用于受版权保护的作品。
* [infiniflow/ragflow](https://github.com/infiniflow/ragflow) RAGFlow 是一个基于深度文档理解的开源 RAG(检索增强生成)引擎。它为任何规模的企业提供简化的 RAG 工作流程,结合LLM(大型语言模型)以提供真实的问答功能,并以来自各种复杂格式数据的有根据的引用为后盾。主要特点: `“质量进,质量出”`:从具有复杂格式的非结构化数据中提取基于文档理解的深度知识。找到“数据大海捞针”,从字面上看是无限的词元。`基于模板的分块`:智能且可解释。大量模板选项可供选择。`减少幻觉的有根据的引文`:文本分块的可视化,以允许人工干预。快速查看关键参考文献和可追溯的引文,以支持有根据的答案。`与异构数据源的兼容性`:支持 Word、幻灯片、excel、txt、图像、扫描副本、结构化数据、网页等。`自动化且轻松的 RAG 工作流程`:简化的 RAG 编排,可满足个人和大型企业的需求。可LLMs配置和嵌入模型。多次召回与融合重新排名配对。直观的 API,可与业务无缝集成。
* [evilsocket/cake](https://github.com/evilsocket/cake) 适用于移动、桌面和服务器的分布式LLM推理。一个 Rust 框架,用于基于 Candle 的 LLama3 等大型模型的分布式推理。该项目的目标是通过将消费类硬件重新利用到 iOS、Android、macOS、Linux 和 Windows 设备的异构集群中,能够运行大型 (70B+) 模型,有效地利用计划中的过时作为工具,使 AI 更易于访问和民主。这个想法是将转换器模块分片到多个设备,以便能够在通常不适合单个设备的 GPU 内存的模型上运行推理。对同一工作线程上的连续变压器模块的推理是批处理的,以最大程度地减少由于数据传输而导致的延迟。
* [EricLBuehler/mistral.rs](https://github.com/EricLBuehler/mistral.rs) 极快LLM的推理速度。Mistral.rs 是一个快速LLM推理平台,支持在各种设备上进行推理、量化和易于使用的应用程序,具有兼容 Open-AI API 的 HTTP 服务器和 Python 绑定。
* [1Panel-dev/MaxKB](https://github.com/1Panel-dev/MaxKB) 基于 LLM 大语言模型的知识库问答系统。开箱即用、模型中立、灵活编排,支持快速嵌入到第三方业务系统,1Panel 官方出品。开箱即用:支持直接上传文档、自动爬取在线文档,支持文本自动拆分、向量化、RAG(检索增强生成),智能问答交互体验好;模型中立:支持对接各种大语言模型,包括本地私有大模型(Llama 3 / Qwen 2 等)、国内公共大模型(通义千问 / 智谱 AI / 百度千帆 / Kimi / DeepSeek 等)和国外公共大模型(OpenAI / Azure OpenAI / Gemini 等);灵活编排:内置强大的工作流引擎,支持编排 AI 工作过程,满足复杂业务场景下的需求;无缝嵌入:支持零编码快速嵌入到第三方业务系统,让已有系统快速拥有智能问答能力,提高用户满意度。
* [LLM-Red-Team/kimi-free-api](https://github.com/LLM-Red-Team/kimi-free-api) KIMI AI 长文本大模型逆向API白嫖测试【特长:长文本解读整理】,支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹。
* [kvcache-ai/Mooncake](https://github.com/kvcache-ai/Mooncake) Mooncake 是 Moonshot AI 提供的领先LLM服务 Kimi 的服务平台。以 KVCache 为中心的服务LLM分解架构,Mooncake 采用以 KVCache 为中心的分解架构,将预填充和解码集群分开。它还利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解缓存。Mooncake 的核心是其以 KVCache 为中心的调度器,它在最大化整体有效吞吐量的同时满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡。与假设所有请求都将得到处理的传统研究不同,Mooncake 面临着高度过载场景带来的挑战。为了缓解这些问题,我们制定了基于预测的早期拒绝政策。实验表明,Mooncake 在长上下文场景中表现出色。与基线方法相比,Mooncake 在遵守 SLO 的同时,在某些模拟场景中可以实现高达 525% 的吞吐量提升。在实际工作负载下,Mooncake 的创新架构使 Kimi 能够处理 75% 以上的请求。
* [lm-sys/RouteLLM](https://github.com/lm-sys/RouteLLM) 用于服务和评估LLM路由器的框架 - 在不影响质量的情况下节省LLM成本!我们的核心功能包括:直接替代 OpenAI 的客户端(或启动兼容 OpenAI 的服务器),将更简单的查询路由到更便宜的模型。训练有素的路由器开箱即用,我们已经证明,在 MT Bench 等广泛使用的基准测试中,它可以将成本降低多达 85%,同时保持 95% 的 GPT-4 性能。基准测试还表明,这些路由器实现了与商业产品相同的性能,同时便宜>40%。轻松扩展框架以包含新路由器,并比较路由器在多个基准测试中的性能。
* [truera/trulens](https://github.com/truera/trulens) TruLens 提供了一套用于开发和监控神经网络的工具,包括大型语言模型。这包括使用 TruLens-Eval 评估LLMs和LLM基于应用程序的工具,以及使用 TruLens-Explain 的深度学习可解释性。TruLens-Eval 和 TruLens-Explain 装在单独的封装中,可以独立使用。更快地创建可靠且功能强大的LLM应用程序。TruLens 是一种软件工具,可帮助您使用反馈功能客观地衡量基于应用程序LLM的质量和有效性。反馈函数有助于以编程方式评估输入、输出和中间结果的质量,以便您可以加快和扩大实验评估。将其用于各种用例,包括问答、摘要、检索增强生成和基于代理的应用程序。
* [b4rtaz/distributed-llama](https://github.com/b4rtaz/distributed-llama) 张量并行性就是您所需要的。在弱设备上运行LLMs,或者通过分配工作负载和划分 RAM 使用量来使功能强大的设备更加强大。这个项目证明,在多个设备之间分配工作LLMs负载并实现显着的加速是可能的。分布式 Llama 允许您在内部运行大量LLMs内容。该项目使用 TCP 套接字来同步状态。您可以使用家用路由器轻松配置 AI 集群。该项目分为两部分:根节点 - 它负责加载模型和权重并将它们转发给工作线程。此外,它还同步神经网络的状态。根节点也是一个工作节点,它处理神经网络的自己的切片。工作节点 - 它处理神经网络的自己的切片。它不需要与模型相关的任何配置。您始终需要根节点,您可以添加 2^n - 1 个工作节点来加快推理速度。神经网络的 RAM 使用量在所有节点上分配。根节点需要的 RAM 比工作节点多一点。
* [thu-bpm/markllm](https://github.com/thu-bpm/markllm) MarkLLM 是一个开源工具包,旨在促进大型语言模型 (LLMs) 中水印技术的研究和应用。随着大型语言模型 (LLMs) 的使用范围扩大,确保机器生成文本的真实性和来源变得至关重要。MarkLLM 简化了对水印技术的访问、理解和评估,使其可供研究人员和更广泛的社区使用。实现框架:MarkLLM 为各种LLM水印算法的实现提供了一个统一且可扩展的平台。它目前支持来自两个著名家族的九种特定算法,促进了水印技术的集成和扩展。目前支持的算法:KGW,Unigram,SWEET,UPV,EWD,SIR,X-SIR,EXP,EXP-Edit,ITS-Edit。可视化解决方案:该工具包包括自定义可视化工具,可以清晰而深入地了解不同水印算法在各种场景下的运行方式。这些可视化有助于揭开算法机制的神秘面纱,使用户更容易理解它们。评估模块:MarkLLM 拥有 12 种评估工具,涵盖可检测性、鲁棒性和对文本质量的影响,在其评估水印技术的综合方法中脱颖而出。它还具有可定制的自动化评估管道,可满足不同的需求和场景,从而增强了工具包的实际实用性。
* [bricks-cloud/BricksLLM](https://github.com/bricks-cloud/BricksLLM) Go 编写的云原生 AI 企业级 API 网关,可帮助您监控每个 API 密钥并施加成本或速率限制。为每个用户、应用程序或环境提供精细的访问控制和监控。支持 OpenAI、Azure OpenAI、Anthropic、vLLM 和开源LLMs。
* [varunshenoy/super-json-mode](https://github.com/varunshenoy/super-json-mode) 超级 JSON 模式是一个 Python 框架,LLM通过将目标模式分解为原子组件,然后并行执行生成,可以有效地创建结构化输出。它既支持通过 OpenAI 的传统完成 API 实现的最新技术LLMs,也支持开源,LLMs例如通过 Hugging Face Transformers 和 vLLM。更多LLMs内容将很快得到支持!与依赖提示和 HF Transformer 的朴素 JSON 生成管道相比,我们发现超级 JSON 模式的输出生成速度提高了 10 倍。与朴素一代相比,它也更具确定性,不太可能遇到解析问题。
* [QmiAI/Qmedia](https://github.com/QmiAI/Qmedia) 专为内容创作者设计的开源 AI 内容搜索引擎。支持文本、图像和短视频的提取。允许完全本地部署(Web 应用程序、RAG 服务器、LLM服务器)。支持多模式 RAG 内容问答。主要特点:搜索图像/文本和短视频材料。高效分析图片/文字和短视频内容,整合零散信息。提供内容来源,分解图像/文本和短视频信息,通过内容卡片呈现信息。根据用户的兴趣和需求,从图像/文本和短视频内容中生成自定义搜索结果。本地部署,支持离线内容搜索和私有数据问答。
* [AUGMXNT/deccp](https://github.com/AUGMXNT/deccp) 逃避和取消中国LLM的审查制度,当前代码是用于取消审查 Qwen 2 Instruct 模型的 PoC。95 个拒绝问题数据集[augmxnt/deccp](https://huggingface.co/datasets/augmxnt/deccp),实验得知:在相同的问题上,中文的拒绝率实际上比英语少得多(>80%)。总结一下:Qwen 2 Instruct 被广泛地 RL 以符合政府/政策要求;EN 与 CN 响应中的一些明显差异;可以消除大部分的拒绝,但这并不一定能改善中国的回应,所以如果这种调整困扰你,你不应该使用RL的中国模型。
* [Psycoy/MixEval](https://github.com/Psycoy/MixEval) MixEval的官方评估套件和动态数据发布。在领先的基准测试中,MixEval 和 MixEval-Hard 与 Arena Elo 和 Arena Elo (En) 的相关性最高。在估计在Chatbot Arena上评估单个模型的成本(约合2,936美元)时,我们参考了Amazon Mechanical Turk的众包价格(每票0.05美元)。Chatbot Arena 的价格高得令人望而却步,而 MixEval 和 MixEval-Hard 是便宜且具有成本效益的替代品。基于基准事实值的动态基准测试,源自现成的基准测试混合物,它LLMs以高性能的模型排名(即,与 Chatbot Arena 的 0.96 相关性)进行评估,同时在本地快速运行(运行 MMLU 的时间和成本的 6%),其查询每月稳定且轻松地更新以避免污染。
* [phidatahq/phidata](https://github.com/phidatahq/phidata) 使用内存、知识和工具构建 AI 助手。Phidata 是一个用于构建自主助手(又名代理)的框架,这些助手具有长期记忆、上下文知识和使用函数调用采取行动的能力。使用 phidata 将任何LLM内容变成 AI 助手,它可以:使用 DuckDuckGo、Google 等搜索网络。使用 SQL、DuckDb 等分析数据。进行研究并生成报告。回答来自 PDF、API 等的问题。为电影、书籍等编写剧本。总结文章、视频等。执行发送电子邮件、查询数据库等任务。利用内存、知识和工具进行扩展LLMs:记忆:将聊天记录存储在数据库中,LLMs并允许进行长期对话。知识:将信息存储在矢量数据库中,并提供LLMs业务上下文。工具:启用此选项LLMs可执行从 API 拉取数据、发送电子邮件或查询数据库等操作。
* [leptonai/search_with_lepton](https://github.com/leptonai/search_with_lepton) 使用 Lepton AI 构建基于对话的快速搜索演示。使用少于 500 行代码构建您自己的对话式搜索引擎。内置支持LLM;内置对搜索引擎的支持;可定制的漂亮UI界面;可共享的缓存搜索结果。有两个默认支持的搜索引擎:Bing 和 Google。
* [https://github.com/langchain-ai/opengpts](https://github.com/langchain-ai/opengpts) 创建与 OpenAI 的 GPT 和助手 API 类似的体验。它由 LangGraph 提供支持 - 一个用于创建代理运行时的框架。它还建立在LangChain、LangServe和LangSmith之上。OpenGPT 为您提供更多控制权,允许您配置:您使用的(LLM在LangChain提供的60+之间选择);您使用的提示(使用 LangSmith 调试这些提示);您给它的工具(从LangChain的100+工具中选择,或轻松编写自己的工具);您使用的向量数据库(从LangChain的60+向量数据库集成中选择);您使用的检索算法;您使用的聊天记录数据库。最重要的是,它使您可以完全控制应用程序的认知架构。目前,已实现三种不同的架构:助理、RAG、聊天机器人。
* [langchain-ai/langchainjs](https://github.com/langchain-ai/langchainjs) 通过LLMs可组合性构建应用程序,LangChain是用TypeScript编写的,可用于:Node.js(ESM 和 CommonJS) - 18.x、19.x、20.x、22.x;Cloudflare Workers;Vercel / Next.js(浏览器、Serverless 和 Edge 功能);Supabase Edge 函数;浏览器;Deno。LangChain是一个用于开发由语言模型驱动的应用程序的框架。它使应用程序能够:具有上下文感知能力:将语言模型连接到上下文源(提示指令、少量镜头示例、内容以使其响应为基础等);原因:依靠语言模型进行推理(关于如何根据提供的上下文回答、采取什么行动等)。该框架由几个部分组成:开源库:使用 LangChain 的开源构建块、组件和第三方集成来构建您的应用程序,使用 LangGraph.js 构建具有一流和人机交互支持的状态代理。生产化:使用LangSmith来检查、监控和评估您的链,以便您可以放心地持续优化和部署。部署:使用 LangGraph Cloud(目前仅限 Python)将您的 LangGraph 应用程序转换为生产就绪的 API 和助手。
* [microsoft/lida](https://github.com/microsoft/lida) LIDA是一个用于生成数据可视化和数据忠实信息图表的库。LIDA 与语法无关(适用于任何编程语言和可视化库,例如 matplotlib、seaborn、altair、d3 等),并与多个大型语言模型提供商(OpenAI、Azure OpenAI、PaLM、Cohere、Huggingface)配合使用。
* [PawanOsman/ChatGPT](https://github.com/PawanOsman/ChatGPT) 欢迎使用 ChatGPT API 免费反向代理,它以 OpenAI 熟悉的结构提供对 ChatGPT ( gpt-3.5-turbo ) 的免费自托管 API 访问,因此无需更改代码。
* [microsoft/vidur](https://github.com/microsoft/vidur) 高保真和可LLM扩展的推理模拟器。它可以帮助您:容量规划并为您的LLM部署找到最佳部署配置。测试新的研究理念,如新的调度算法,优化,如推测解码等。研究模型在不同工作负载和配置下的系统性能。
* [decodingml/llm-twin-course](https://github.com/decodingml/llm-twin-course) 免费学习如何使用 LLMOps 最佳实践构建端到端生产就绪的 LLM 和 RAG 系统:~ 源代码 + 12 节实践课。您将学习如何从头到尾构建和构建真实世界的LLM系统 - 从数据收集到部署。您还将学习利用 MLOps 最佳实践,例如实验跟踪器、模型注册表、提示监视和版本控制。
* [cohere-ai/cohere-toolkit](https://github.com/cohere-ai/cohere-toolkit) Cohere Toolkit 是预构建组件的集合,使用户能够快速构建和部署 RAG 应用程序。
* [truefoundry/cognita](https://github.com/truefoundry/cognita) TrueFoundry 开发的 RAG(Retrieval Augmented Generation)框架,用于构建模块化、开源应用程序。Langchain/LlamaIndex 提供了易于使用的抽象,可用于在 jupyter 笔记本上进行快速实验和原型设计。但是,当事情进入生产阶段时,会有一些限制,例如组件应该是模块化的、易于扩展和可扩展的。这就是 Cognita 发挥作用的地方。Cognita 在后台使用 Langchain/Llamaindex,并为您的代码库提供一个组织,其中每个 RAG 组件都是模块化的、API 驱动的且易于扩展。Cognita 可以在本地设置中轻松使用,同时为您提供生产就绪环境以及无代码 UI 支持。Cognita 还默认支持增量索引。Cognita 是一个开源框架,用于组织您的 RAG 代码库以及用于处理不同 RAG 自定义的前端。它提供了一种组织代码库的简单方法,以便轻松在本地测试代码库,同时还可以将其部署在生产就绪环境中。从 Jupyter Notebook 生产 RAG 系统时出现的关键问题是:分块和嵌入作业:通常需要将分块和嵌入代码抽象出来并作为作业进行部署,有时,作业需要按计划运行或通过事件触发,以保持数据更新;查询服务:从查询中生成答案的代码需要封装在像 FastAPI 这样的 api 服务器中,并且应该作为服务进行部署,此服务应该能够同时处理多个查询,并且还可以使用更高的流量自动缩放;LLM / 嵌入模型部署:很多时候,如果我们使用的是开源模型,我们会在 Jupyter notebook 中加载模型,这需要在生产环境中作为单独的服务进行托管,并且需要将模型作为 API 调用;Vector DB 部署:大多数测试发生在内存或磁盘上的 Vector DB 上,在生产环境中,需要以更具可扩展性和可靠性的方式部署数据库。Cognita 使定制和试验 RAG 系统的所有内容变得非常容易,并且仍然能够以一种良好的方式部署它。它还附带了一个 UI,可以更轻松地尝试不同的 RAG 配置并实时查看结果。您可以在本地使用它,也可以在使用/不使用任何Truefoundry组件的情况下使用它。但是,使用Truefoundry组件可以更轻松地测试不同的模型并以可扩展的方式部署系统。Cognita 允许您使用一个应用程序托管多个 RAG 系统。
* [microsoft/UFO](https://github.com/microsoft/UFO) 用于 Windows 操作系统交互的以 UI 为中心的代理。UFO 是一个以 UI 为中心的多代理框架,通过在单个或跨多个应用程序中无缝导航和操作来满足 Windows 操作系统上的用户请求。UFO作为一个多智能体框架运行,包括:HostAgent 任务是选择一个应用程序来满足用户请求,当请求跨越多个应用程序,并且任务在前一个应用程序中部分完成时,此代理也可能切换到不同的应用程序;AppAgent 负责在选定的应用程序上迭代执行操作,直到在特定应用程序中成功完成任务;Application Automator 的任务是将 HostAgent 和 AppAgent 的操作转换为与应用程序的交互,并通过 UI 控件、本机 API 或 AI 工具进行交互。
* [baptisteArno/typebot.io](https://github.com/baptisteArno/typebot.io) Typebot 是一个强大的聊天机器人构建器,您可以自行托管。它允许您直观地创建高级聊天机器人,将它们嵌入到您的网络/移动应用程序上的任何位置,并实时收集结果。Typebot 使创建高级聊天机器人变得容易。它提供了适用于任何业务用例的构建块。我会定期通过错误修复、新功能和性能改进来改进 Typebot。具有 34+ 构建块的聊天构建器,例如: 气泡:文本、图像/GIF、视频、音频、嵌入; 输入:文本、电子邮件、电话号码、按钮、图片选择、日期选择器、付款 (Stripe)、文件选择器......输入;逻辑:条件分支、URL 重定向、脚本 (Javascript)、A/B 测试;集成:Webhook / HTTP 请求、OpenAI、Google 表格、Google Analytics、Meta Pixel、Zapier、Make.com、Chatwoot、更多
* [logancyang/obsidian-copilot](https://github.com/logancyang/obsidian-copilot) Copilot for Obsidian 是 Obsidian 内部的一个免费开源 ChatGPT 界面。它具有简约的设计,并且易于使用。我的目标是让这个 AI 助手以本地为先,以隐私为中心。它有一个本地向量存储,可以完全离线地使用本地模型进行聊天和 QA。
* [TransformerLensOrg/TransformerLens](https://github.com/TransformerLensOrg/TransformerLens) GPT 风格语言模型的机械可解释性库。机理可解释性的目标是采用经过训练的模型,并对模型在训练期间从其权重中学习的算法进行逆向工程。TransformerLens 允许您加载 50+ 种不同的开源语言模型,并向您公开模型的内部激活。您可以在模型中缓存任何内部激活,并添加函数以在模型运行时编辑、删除或替换这些激活。
* [OSU-NLP-Group/HippoRAG](https://github.com/OSU-NLP-Group/HippoRAG) HippoRAG 是一个新颖的 RAG 框架,其灵感来自人类的长期记忆,能够LLMs不断整合外部文档中的知识。RAG + 知识图谱 + 个性化 PageRank。
* [langchain-ai/langgraph](https://github.com/langchain-ai/langgraph) 将语言代理构建为图形。LangGraph 是一个库,用于构建有状态的多参与者应用程序,用于LLMs创建代理和多代理工作流。与其他LLM框架相比,它提供了以下核心优势:周期、可控性和持久性。LangGraph 允许您定义涉及周期的流程,这对于大多数代理架构来说是必不可少的,并将其与基于 DAG 的解决方案区分开来。作为一个非常低级的框架,它提供了对应用程序的流和状态的细粒度控制,这对于创建可靠的代理至关重要。此外,LangGraph 还包含内置的持久性,可实现高级的人机交互和内存功能。LangGraph 的灵感来自 Pregel 和 Apache Beam。公共接口的灵感来自 NetworkX。LangGraph 由 LangChain 的创建者 LangChain Inc 构建,但可以在没有 LangChain 的情况下使用。主要特点:循环和分支:在应用中实现循环和条件。持久性:在图表中的每一步后自动保存状态,随时暂停和恢复图形执行,以支持错误恢复、人机交互工作流、时间旅行等。Human-in-the-Loop:中断图形执行以批准或编辑代理计划的下一个操作。流式处理支持:流式传输每个节点产生的输出(包括令牌流式处理)。与LangChain集成:LangGraph与LangChain和LangSmith无缝集成(但不需要它们)。
* [SciSharp/LLamaSharp](https://github.com/SciSharp/LLamaSharp) 可在本地设备上高效运行LLM的 C#/.NET 库 (LLaMA/LLaVA)。
* [AugustDev/enchanted](https://github.com/AugustDev/enchanted) Enchanted 是 iOS 和 macOS 应用程序,用于使用 Ollama 与 Llama2、Mistral 或 Vicuna 等私人自托管语言模型聊天。
* [ConnectAI-E/AutoGPT-Next-Web](https://github.com/ConnectAI-E/AutoGPT-Next-Web) 在浏览器中组装、配置和部署自主 AI 代理。特点:1 分钟内使用 Vercel 免费一键部署,搭建个人的 AutoGPT 网站;更好的本地支持,输入中文后内容将以中文展示,而不是英文;源自 AgentGPT 优秀的响应式 UI 设计,支持深色模式;支持绑定自有域名,绑定后,你可以无障碍快速访问;支持访问码控制,只有你或者受信的人才可以使用网站。
* [predibase/lorax](https://github.com/predibase/lorax) 多 LoRA 推理服务器,可扩展到 1000 个微调LLMs。LoRAX(LoRA eXchange)是一个框架,允许用户在单个 GPU 上为数千个微调模型提供服务,从而在不影响吞吐量或延迟的情况下显着降低服务成本。特征:动态适配器加载:在您的请求中包含来自 HuggingFace、Predibase 或任何文件系统的任何微调的 LoRA 适配器,它将实时加载而不会阻塞并发请求。根据请求合并适配器,以立即创建强大的集成。异构连续批处理:将不同适配器的请求打包到同一批次中,使延迟和吞吐量与并发适配器的数量几乎保持不变。适配器交换调度:在 GPU 和 CPU 内存之间异步预取和卸载适配器,调度请求批处理以优化系统的聚合吞吐量。优化推理:高吞吐量和低延迟优化,包括张量并行性、预编译 CUDA 内核(flash-attention、paged attention、SGMV)、量化、令牌流。准备好用于生产的预构建 Docker 镜像、Kubernetes 的 Helm 图表、Prometheus 指标以及使用 Open Telemetry 的分布式跟踪。兼容 OpenAI 的 API,支持多轮聊天对话。通过每个请求租户隔离的专用适配器。结构化输出(JSON模式)。免费用于商业用途:Apache 2.0 许可证。
* [gpustack/gpustack](https://github.com/gpustack/gpustack) GPUStack 是一个开源的 GPU 集群管理器,用于运行大型语言模型。主要特点:支持多种硬件:在 Apple MacBook、Windows PC 和 Linux 服务器中使用不同品牌的 GPU 运行。与您的 GPU 库存一起扩展:轻松添加更多 GPU 或节点以扩大您的运营规模。轻量级 Python 包:最小的依赖项和运营开销。兼容 OpenAI 的 API:提供与 OpenAI 标准兼容的 API。用户和 API 密钥管理:简化了用户和 API 密钥的管理。GPU指标监控:实时监控 GPU 性能和利用率。词元使用和费率指标:跟踪令牌使用情况并有效管理速率限制。
* [BASI-LABS/parseltongue](https://github.com/BASI-LABS/parseltongue) 能强大的提示黑客工具/浏览器扩展,用于实时标记化可视化和无缝文本转换,支持二进制、base64、leetspeak、特殊字符和多种语言等格式。非常适合红队成员、开发人员、语言学家和潜在的探索者。
* [ibeatai/beat-ai](https://github.com/ibeatai/beat-ai) 又名 <零生万物> , 是一本专属于软件开发工程师的 AI 入门圣经,手把手带你上手写 AI。从神经网络到大模型,从高层设计到微观原理,从工程实现到算法,学完后,你会发现 AI 也并不是想象中那么高不可攀、无法战胜,Just beat it !
* [openai/openai-quickstart-node](https://github.com/openai/openai-quickstart-node) OpenAI API 快速入门教程中的Node.js示例应用。
* [modelscope/swift](https://github.com/modelscope/swift) SWIFT 支持 300+ LLMs 和 50+ MLLM(多模态大型模型)的训练(PreTraining/Fine-tuning/RLHF)、推理、评估和部署。开发者可以直接将我们的框架应用到自己的研究和生产环境中,实现从模型训练和评估到应用的完整工作流程。除了支持PEFT提供的轻量级训练方案外,我们还提供完整的Adapters库,以支持NEFTune、LoRA+、LLaMA-PRO等最新的训练技术。此适配器库可以直接在您自己的自定义工作流程中使用,而无需我们的训练脚本。为了方便不熟悉深度学习的用户使用,我们提供了一个用于控制训练和推理的 Gradio 网页用户界面,并为初学者提供了附带的深度学习课程和最佳实践。SWIFT web-ui 在 Huggingface space 和 ModelScope studio 上都可用,请随时尝试!
* [exo-explore/exo](https://github.com/exo-explore/exo) 在家中使用日常设备运行自己的 AI 集群。忘记昂贵的 NVIDIA GPU,将现有设备统一到一个强大的 GPU 中:iPhone、iPad、Android、Mac、Linux,几乎任何设备!特征:广泛的模型支持,exo支持LLaMA(MLX和tinygrad)等热门型号。动态模型分区,EXO 根据当前网络拓扑和可用设备资源对模型进行最佳拆分。这使您能够运行比在任何单个设备上更大的模型。自动设备发现,EXO 将使用可用的最佳方法自动发现其他设备。零手动配置。ChatGPT 兼容 API,exo 提供了一个与 ChatGPT 兼容的 API,用于运行模型,只需在您的应用程序中进行一行更改,即可使用 exo 在您自己的硬件上运行模型。设备平等,与其他分布式推理框架不同,exo 不使用 master-worker 架构,exo 设备连接 p2p,只要设备连接到网络中的某个位置,它就可以用于运行模型,Exo支持不同的分区策略,可以在设备之间分割模型,默认的分区策略是环形内存加权分区,这将在一个环中运行推理,其中每个设备运行与设备内存成正比的多个模型层。
* [multimodal-art-projection/MAP-NEO](https://github.com/multimodal-art-projection/MAP-NEO) MAP-NEO 是一个完全开源的大型语言模型,包括预训练数据、数据处理管道 (Matrix)、预训练脚本和对齐代码。它在 4.5T 中英文词元上从头开始训练,表现出与 LLaMA2 7B 相当的性能。MAP-Neo 模型在推理、数学和编码等具有挑战性的任务中提供类似专有模型的性能,优于同等规模的同类产品。出于研究目的,我们的目标是在LLM培训过程中实现完全透明。为此,我们全面发布了 MAP-Neo,包括最终和中间检查点、自训练标记器、预训练语料库,以及高效、稳定优化的预训练代码库。
* [miurla/morphic](https://github.com/miurla/morphic) 具有生成式 UI 的 AI 驱动的搜索引擎。特征:使用 GenerativeUI 进行搜索和回答;理解用户的问题;搜索历史功能;共享搜索结果(可选);视频搜索支持(可选);从指定的 URL 获取答案;用作搜索引擎 ;支持 OpenAI 以外的提供商;指定模型以生成答案;Groq API支持
* [higgsfield-ai/higgsfield](https://github.com/higgsfield-ai/higgsfield) 容错、高度可扩展的 GPU 编排,以及专为训练具有数十亿到数万亿个参数的模型而设计的机器学习框架。Higgsfield 是一个开源、容错、高度可扩展的 GPU 编排,以及一个机器学习框架,专为训练具有数十亿到数万亿个参数的模型而设计,例如大型语言模型 (LLMs)。Higgsfield 作为 GPU 工作负载管理器和机器学习框架,具有五个主要功能:将对计算资源(节点)的独占和非独占访问权限分配给用户进行训练任务。支持 ZeRO-3 deepspeed API 和 PyTorch 的全分片数据并行 API,实现万亿参数模型的高效分片。提供一个框架,用于在分配的节点上启动、执行和监控大型神经网络的训练。通过维护用于运行试验的队列来管理资源争用。通过与 GitHub 和 GitHub Actions 的无缝集成,促进机器学习开发的持续集成,Higgsfield 简化了训练大型模型的过程,并为开发人员提供了多功能且强大的工具集。
* [rashadphz/farfalle](https://github.com/rashadphz/farfalle) 开源 AI 驱动的搜索引擎。(Perplexity克隆)。在本地LLMs运行(llama3、gemma、mistral、phi3),通过 LiteLLM 自定义LLMs,或使用云模型(Groq/Llama3、OpenAI/gpt4-o)
* [betalgo/openai](https://github.com/betalgo/openai) 用于访问 OpenAI 的 API 的 .NET SDK,作为社区库提供。此 SDK 允许您轻松地将 OpenAI 的功能集成到您的 .NET 应用程序中。
* [ridgerchu/matmulfreellm](https://github.com/ridgerchu/matmulfreellm) 实现无 MatMul LM。MatMul-Free LM 是一种语言模型架构,无需矩阵乘法 (MatMul) 运算。此存储库提供了与 🤗 Transformers 库兼容的 MatMul-Free LM 实现。我们评估了缩放定律如何拟合 Transformer++ 和我们的模型中的 370M、1.3B 和 2.7B 参数模型。为了公平比较,每个操作的处理方式相同,尽管我们的模型在某些层中使用了更有效的三元权重。有趣的是,与 Transformer++ 相比,我们模型的缩放投影表现出更陡峭的下降,这表明我们的架构在利用额外计算来提高性能方面更有效。
* [Nutlope/turboseek](https://github.com/Nutlope/turboseek) 受 Perplexity 启发的 AI 搜索引擎,由 Together.ai 提供支持。技术栈:带有 Tailwind 的Next.js应用路由器;共同使用 AI 进行LLM推理;Mixtral 8x7B 和 Llama-3 用于LLMs;用于搜索 API 的 Bing;适用于网站分析。运作方式:回答用户的问题;向必应搜索 API 发出请求,以查找前 6 个结果并显示它们;从 bing 发回的 6 个链接中抓取文本,并将其存储为上下文;向 Mixtral-8x7B 发出请求,其中包含用户的问题 + 上下文,并将其流回给用户;再次向 Llama-3-8B 提出 3 个相关问题,用户可以跟进。
* [CarperAI/trlx](https://github.com/CarperAI/trlx) trlX 是一个分布式训练框架,从头开始设计,专注于使用提供的奖励函数或奖励标记数据集进行强化学习,从而微调大型语言模型。Accelerate 支持的培训器为 Hugging Face 模型提供训练支持🤗,允许用户微调多达 20B 参数的因果和基于 T5 的语言模型,例如 facebook/opt-6.7b、EleutherAI/gpt-neox-20b 和 google/flan-t5-xxl。对于超过 20B 参数的模型, trlX 提供 NVIDIA NeMo 支持的训练器,这些训练器利用高效的并行技术来有效地扩展。
* [Deeptrain-Community/chatnio](https://github.com/Deeptrain-Community/chatnio) 下一代 AI 一站式 B/C 端解决方案,支持 OpenAI,Midjourney,Claude,讯飞星火,Stable Diffusion,DALL·E,ChatGLM,通义千问,腾讯混元,360 智脑,百川 AI,火山方舟,新必应,Gemini,Moonshot 等模型,支持对话分享,自定义预设,云端同步,模型市场,支持弹性计费和订阅计划模式,支持图片解析,支持联网搜索,支持模型缓存,丰富美观的后台管理与仪表盘数据统计。支持 OpenAI 格式中转, 自研渠道均衡负载和分配算法, 兼容多种模型格式, 支持多渠道管理 (优先级/权重/用户分组/模型映射/状态管理), 支持内置渠道重试 (支持自定义渠道重试次数), 内置上游隐藏。强大 Markdown 语法支持 (支持 代码高亮 / LaTeX 公式 / Mermaid 思维导图 / 图表绘制), 支持对话云端同步, 支持分享对话, 支持对话保存为图片 (携带站点 Logo 等信息), 支持分享管理和站点直链分享对话, 支持集成绘图模型 (DALL-E / Stable Diffusion / Midjourney 等), 支持 Midjourney U/V/R 操作。开箱即用的文档解析服务, 支持 Pdf / Docx / Pptx / Xlsx / 音频 / 图片等文件类型解析, 支持多种图片存储方案 (Base64 / Local / AWS S3 / Cloudflare R2 / 腾讯云 COS / 阿里云 OSS / MinIO / Telegram CDN 等), 同时支持 OCR 图片识别 (基于开源 PaddleOCR 支持私有化部署)。支持多种计费方式 (不计费 / 次数 / Token 计费), 支持设置允许模型, 支持快速导入内置价格模板 (可自定义汇率)或同步上游价格设定, 同时在弹性计费基础上支持订阅计划 (支持订阅计划自定义配额 / 计划分层 / 升降级 / 折扣设定), 支持设置订阅配额图表设置, 支持快速导入其他级别订阅, 支持同步上游订阅设置。支持完备兑换码体系, 支持设置数量和点数, 支持批量生成和兑换码管理, 支持礼品码/兑换码类型 (礼品码一种礼品码类型一个用户只能使用一次可用于福利发放, 兑换码一种兑换码类型一个用户可以使用多次可用于发卡和兑换商品), 支持礼品码查看领取用户 / 创建时间 / 领取时间等信息。丰富的模型市场功能, 支持自定义模型名称, 模型 Logo, 模型标签 (如官方/绘图/高定价/高质量/多模态等), 自动绑定价格设定中的模型价格, 支持设置默认列表显示模型, 支持顺序拖拽自定义排序, 支持设置是否为高上下文 (搭配文件解析服务实现非高上下文模型的内容切割), 使用户可以更好的了解模型的特性。支持系统 / 自定义预设, 云端同步, 支持搜索预设, 支持预设管理, 支持预设克隆, 支持设置预设图像 / 简介 / 上下文角色消息。支持同一请求入参的缓存, 支持设置自定义缓存可能性大小 (同一入参的最大缓存结果数量, 防止多次请求返回相同结果), 支持设置缓存过期时间 (缓存结果的有效时间)。支持 SearXNG 开源搜索引擎联网搜索, 支持 Google / Bing / DuckDuckGo / Yahoo / WikiPedia / Arxiv / Qwant 等数十种搜索引擎搜索, 支持安全搜索模式, 内容截断, 图片代理, 测试搜索可用性等功能。 (支持全部模型 & 模型无需支持 function calling)。支持 Web / PWA / App 三端, UI 移动端适配, 支持明暗主题切换, 国际化支持 (多语言切换),支持 Windows / MacOS / Linux / Android / iOS App。内置 SEO 优化, 支持自定义站点 Logo / 站点名称 / 页脚 / 联系方式等, 支持设置用户初始点数, 支持站点公告 / 通知功能, 支持设置 SMTP 发件。
* [stanford-crfm/helm](https://github.com/stanford-crfm/helm) 语言模型整体评估 (HELM),一个提高语言模型透明度的框架 (https://arxiv.org/abs/2211.09110)。该框架还用于在文本到图像模型的整体评估 (HEIM) (https://arxiv.org/abs/2311.04287) 中评估文本到图像模型。
* [towhee-io/towhee](https://github.com/towhee-io/towhee) Towhee 是一个致力于使神经数据处理管道简单快速的框架。旨在通过使用基于大型语言模型 (LLM) 的管道编排来简化非结构化数据的处理。它具有独特的优势,可以从各种非结构化数据类型(包括冗长的文本、图像、音频和视频文件)中提取宝贵的见解。利用生成式 AI 和 SOTA 深度学习模型的功能,Towhee 能够将这些未处理的数据转换为特定格式,例如文本、图像或嵌入。然后,可以有效地将这些内容加载到适当的存储系统中,例如矢量数据库。开发人员最初可以使用用户友好的 Pythonic API 构建直观的数据处理管道原型,然后针对生产环境进行优化。
* [InternLM/MindSearch](https://github.com/InternLM/MindSearch) 基于LLMWeb搜索引擎的多智能体框架(如 Perplexity.ai Pro和SearchGPT)。您可以简单地使用自己的 perplexity.ai 式搜索引擎进行部署,使用闭源LLMs(GPT、Claude)或开源LLMs(InternLM2.5-7b-chat)。它具有以下特点:询问您想知道的一切: 旨在解决您生活中的任何问题并使用网络知识。 深入的知识发现: 浏览数百个网页来回答您的问题,提供更深入、更广泛的知识库答案。 详细的解决方案路径: 公开所有详细信息,允许用户检查他们想要的一切。这大大提高了其最终响应的可信度和可用性。优化UI外观:为用户提供各种界面,包括React、Gradio、Streamlit和Terminal,根据您的需要选择任何类型。动态图谱构建过程:将用户查询分解为原子子问题,作为图中的节点,并根据WebSearcher的搜索结果逐步扩展图。
* [sakanaai/evolutionary-model-merge](https://github.com/sakanaai/evolutionary-model-merge) 大模型合并配方的进化优化。该存储库是 SakanaAI 的 Evolutionary Model Merge 系列的中心枢纽,展示了其发布和资源。它包括用于再现我们论文中提出的评估的模型和代码。通过结合数据流空间和参数空间中的模型,自动生成新的强大模型。这种方法无需梯度训练,减少了计算资源需求。这种方法不仅适用于单一领域的模型合并,还可以跨领域合并,例如将日语LLM与数学专用LLM合并,生成一个既会日语又具备数学推理能力的大语言模型。
* [mlfoundations/dclm](https://github.com/mlfoundations/dclm) DataComp-LM (DCLM) 是一个综合框架,旨在构建和训练具有不同数据集的大型语言模型 (LLMs)。它提供了来自 CommonCrawl 的 300 多个未经过滤的令牌的标准化语料库、基于 open_lm 框架的有效预训练配方,以及一套包含 50 多个评估的广泛套件。此存储库提供了用于处理原始数据、标记化、洗牌、训练模型以及评估其性能的工具和指南。DCLM 使研究人员能够在不同的计算规模(从 411M 到 7B 参数模型)上试验各种数据集构建策略。我们的基线实验表明,通过优化数据集设计,模型性能有了显著提高。DCLM 已经能够创建多个高质量的数据集,这些数据集在各个尺度上都表现良好,并且优于所有开放数据集。
* [nashsu/FreeAskInternet](https://github.com/nashsu/FreeAskInternet) FreeAskInternet 是一个完全免费、私有且本地运行的搜索聚合器和使用 MULTI 生成的答案LLMs,无需 GPU。用户可以提出一个问题,系统将进行多引擎搜索,并将搜索结果组合起来LLM,并根据搜索结果生成答案。这一切都是免费使用的。特征:完全免费(无需任何 API 密钥);完全本地(无需GPU,任何计算机都可以运行);完全私有(所有东西都在本地运行,使用自定义llm);无需LLM硬件即可运行(无需 GPU!);使用免费的 ChatGPT3.5 / Qwen / Kimi / ZhipuAI(GLM) API(无需 API 密钥!谢谢OpenAI);定制LLM(ollama,llama.cpp)支持,是的,我们爱ollama;使用 Docker Compose 快速轻松地部署;Web 和 Mobile 友好的界面,专为 Web Search 增强的 AI 聊天而设计,允许从任何设备轻松访问。
* [netease-youdao/QAnything](https://github.com/netease-youdao/QAnything) QAnything(Question and Answer based on Anything)是一个本地知识库问答系统,旨在支持多种文件格式和数据库,允许离线安装和使用。使用 QAnything,您可以简单地拖放任何格式的任何本地存储文件,并获得准确、快速和可靠的答案。目前支持的格式包括:PDF(pdf)、Word(docx)、PPT(pptx)、XLS(xlsx)、Markdown(md)、Email(eml)、TXT(txt)、Image(jpg,jpeg,png)、CSV(csv)、Web links(html)以及即将推出的更多格式。主要特点:数据安全,支持全程拔网线安装使用。跨语言QA支持,无论文档使用何种语言,中英文QA自由切换。支持海量数据QA,两阶段检索排名,解决大规模数据检索的降级问题;数据越多,性能越好。高性能生产级系统,可直接部署用于企业应用程序。人性化,无需繁琐的配置,一键安装部署,随时可用。多知识库 QA支持选择多个知识库进行问答。为什么是 2 阶段检索?在具有大量知识库数据的场景中,两阶段方法的优点非常明显。如果仅使用第一阶段嵌入检索,则随着数据量的增加,将会出现检索降级的问题,如下图中的绿线所示。但是,在第二阶段重新排名后,精度可以有稳定的提高,数据越多,性能越好。QAnything 使用检索组件 BCEmbedding,该组件以其双语和跨语言熟练度而著称。BCEmbedding擅长弥合中英文语言鸿沟,实现了在MTEB的语义表示评估中表现出色;LlamaIndex 中 RAG 评估领域的新基准。
#### 编程语言大模型及相关项目
* [AntonOsika/gpt-engineer](https://github.com/AntonOsika/gpt-engineer) GPT 工程师易于调整、扩展,它根据提示生成整个代码库。指定您希望它构建的内容,AI 要求澄清,然后构建它。
* [THUDM/CodeGeeX2](https://github.com/THUDM/CodeGeeX2) 更强大的多语言代码生成模型。基于 ChatGLM2 架构加入代码预训练实现,得益于 ChatGLM2 的更优性能,CodeGeeX2 在多项指标上取得性能提升(+107% > CodeGeeX;仅60亿参数即超过150亿参数的 StarCoder-15B 近10%)
* [KillianLucas/open-interpreter](https://github.com/KillianLucas/open-interpreter) 终端中的 OpenAI 代码解释器,在本地运行。允许LLM在本地运行代码(Python,Javascript,Shell等)。您可以通过终端中类似 ChatGPT 的界面与开放解释器聊天。
* [THUDM/CodeGeeX](https://github.com/THUDM/CodeGeeX) 一个具有130亿个参数的大型多语言代码生成模型,在20多种语言的大型代码语料库上进行了预训练。
* [fauxpilot/fauxpilot](https://github.com/fauxpilot/fauxpilot) GitHub Copilot服务器的开源替代品。构建GitHub Copilot的本地托管替代方案的尝试。它在NVIDIA的Triton Inference Server中使用SalesForce CodeGen模型和FasterTransformer后端。
* [QwenLM/CodeQwen1.5](https://github.com/QwenLM/CodeQwen1.5) Qwen 的代码版本,是 Qwen 团队开发的大型语言模型系列,阿里云。基于 Transformer 的纯解码器语言模型,在大量代码数据上进行了预训练。强大的代码生成能力和在一系列基准测试中的竞争性能;支持长上下文理解和生成,上下文长度为 64K 令牌;支持92种编码语言;在文本转SQL、bug修复等方面具有出色的性能。
* [facebookresearch/codellama](https://github.com/facebookresearch/codellama) 基于 Llama 2 的代码大型语言模型系列,在开放模型中提供最先进的性能、填充功能、对大型输入上下文的支持以及编程任务的零镜头指令跟踪能力。我们提供多种风格来涵盖广泛的应用:基础模型(Code Llama),Python 专业化(Code Llama - Python)和指令遵循模型(Code Llama - Instruct),每个模型都有 7、13 和 34B 参数。所有模型都在16k 个令牌的序列上进行训练,并显示对最多 100k 个令牌的输入的改进。7B 和 13B 代码骆驼和代码骆驼 - 指示变体支持基于周围内容的填充。通过使用更高的代码采样微调 Llama 2 开发的。
* [bigcode-project/starcoder](https://github.com/bigcode-project/starcoder) 一种在源代码和自然语言文本上训练的语言模型 (LM)。它的训练数据包含了 80 多种不同的编程语言,以及从 GitHub 问题和提交以及笔记本中提取的文本。
* [microsoft/TypeChat](https://github.com/microsoft/TypeChat) 一个库,可以轻松使用类型构建自然语言界面。传统上,构建自然语言界面是很困难的。这些应用通常依靠复杂的决策树来确定意图并收集采取行动所需的输入。LLM使我们能够从用户那里获取自然语言输入并与意图匹配,从而使这变得更容易。这带来了新的挑战,包括需要约束模型的响应以确保安全性,构建模型的响应以进行进一步处理,以及确保模型的响应有效。提示工程旨在解决这些问题,但随着提示大小的增加,学习曲线陡峭,脆弱性增加。TypeChat 用模式工程取代了提示工程。只需定义NLP程序中支持的意向的类型即可。这可以像用于对情绪进行分类的界面一样简单,也可以像购物车或音乐应用程序的类型一样简单。例如,若要向架构添加其他意向,开发人员可以将其他类型添加到可区分的联合中。要使架构分层,开发人员可以使用“元架构”根据用户输入选择一个或多个子架构。定义类型后,TypeChat 会通过以下方式处理其余工作:1.使用类型构造 LLM 的提示。2.验证 LLM 响应是否符合架构。如果验证失败,则通过进一步的语言模型交互来修复不符合项的输出。3.简明扼要地总结(不使用 LLM)实例,并确认它与用户意图一致。
* [codota/TabNine](https://github.com/codota/TabNine) 您控制的 AI 代码助手。通过一流的 AI 代码生成保持流畅,自动生成高质量代码,将纯文本转换为代码,消除重复性任务,并将更多时间花在您喜欢的工作上。通过整个 SDLC 的 AI 聊天更快地构建更好的应用程序,从代码创建和解释,到测试和文档生成以及错误修复,更快的应用程序开发已经进入了聊天。高度个性化的 AI,适合您的工作方式,基于代码和模式的上下文感知建议,支持您使用的最流行的语言、库和 IDE,能够创建基于代码库训练的定制模型。完全的代码隐私,零数据保留,以自己的方式部署 Tabnine:本地、VPC 或安全 SaaS,Tabnine 的专有模型从未在您的代码上进行过训练,未经您的明确许可,绝不会存储或共享您的代码。保护风险和知识产权责任,Tabnine 的 Protected 模型仅在许可许可的代码上进行训练,企业用户获得额外的赔偿保护,具有企业级安全性和合规性(具有 SOC 2 和 GDPR)。Tabnine 是原创的 AI 代码助手,受到数百万开发人员和数千家公司的信赖。在您最喜欢的 IDE 中免费获取 Tabnine。
* [OpenDevin/OpenDevin](https://github.com/OpenDevin/OpenDevin) 自主的 AI 软件工程师,能够执行复杂的工程任务并与用户在软件开发项目上积极协作。希望通过开源社区的力量复制、增强和创新 Devin。利用了 shell、代码编辑器和 Web 浏览器等工具的组合,展示了软件开发LLMs中未开发的潜力。目标是探索和扩展 Devin 能力,确定其优势和需要改进的领域,以指导开放代码模型的进展。
* [plandex-ai/plandex](https://github.com/plandex-ai/plandex) 在您的终端中进行 AI 驱动的开发。专为大型实际任务而设计。处理你的积压工作,使用不熟悉的技术,摆脱困境,减少在无聊的事情上花费的时间。Plandex 是您终端中可靠且对开发人员友好的 AI 编码代理。它可以计划和完成跨越许多文件和步骤的大型任务。Plandex 专为实际用例而设计,可以帮助您快速构建新应用程序、向现有代码库添加新功能、编写测试和脚本、理解代码并修复错误。
* [salesforce/CodeGen](https://github.com/salesforce/CodeGen) 一系列用于程序合成的开源模型。接受过 TPU-v4 训练。与 OpenAI Codex 竞争。
* [Pythagora-io/gpt-pilot](https://github.com/Pythagora-io/gpt-pilot) 使用GPT 帮助开发人员将构建应用的速度提高 20 倍
* [deepseek-ai/DeepSeek-Coder-V2](https://github.com/deepseek-ai/DeepSeek-Coder-V2) 开源的专家混合 (MoE) 代码语言模型,在特定代码任务中实现了与 GPT4-Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 从 DeepSeek-V2 的中间检查点进一步预训练,并增加了 6 万亿个令牌。通过这种持续的预训练,DeepSeek-Coder-V2 大大增强了 DeepSeek-V2 的编码和数学推理能力,同时在一般语言任务中保持了相当的性能。与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在与代码相关的任务的各个方面以及推理和通用功能方面都取得了重大进步。此外,DeepSeek-Coder-V2 将其对编程语言的支持从 86 扩展到 338,同时将上下文长度从 16K 扩展到 128K。
* [codefuse-ai/MFTCoder](https://github.com/codefuse-ai/MFTCoder) CodeFuse 的一个开源项目,用于多任务处理 Code-LLM(代码任务的大型语言模型),其中包括模型、数据集、训练代码库和推理指南。
* [salesforce/CodeT5](https://github.com/salesforce/CodeT5) CodeT5的主页:用于代码理解和生成的开放代码LLM
* [getcursor/cursor](https://github.com/getcursor/cursor) 基于 VSCode 🤖 的 AI 代码编辑器。聊天:与了解整个代码库的机器人交谈。编辑:要求 AI 更改代码块,查看编辑的内联差异。调试:将鼠标悬停在 linter 错误或堆栈跟踪上以自动修复它们。
* [mckaywrigley/ai-code-translator](https://github.com/mckaywrigley/ai-code-translator) 使用 AI 将代码从一种语言翻译成另一种。
* [joshpxyne/gpt-migrate](https://github.com/joshpxyne/gpt-migrate) 轻松地将代码库从一种框架或语言迁移到另一种。由于 GPT-Migrate 旨在编写(并可能重写)整个代码库,因此成本可能会迅速增加。
* [microsoft/semantic-kernel](https://github.com/microsoft/semantic-kernel) 快速轻松地将尖端的LLM技术集成到您的应用程序中。将OpenAI,Azure OpenAI和Hugging Face等大型语言模型(LLM)与C#,Python和Java等传统编程语言集成在一起。语义内核通过允许您定义可以在几行代码中链接在一起的插件来实现这一点。
* [gencay/vscode-chatgpt](https://github.com/gencay/vscode-chatgpt) 一个非官方的Visual Studio Code - OpenAI ChatGPT集成,在编程集成环境中使用GPT-4、3.5、3 或 Codex 模型加速编程开发。
* [shobrook/stackexplain](https://github.com/shobrook/stackexplain) 用 ChatGPT 解释您编程中的错误消息
* [eth-sri/lmql](https://github.com/eth-sri/lmql) 一种用于类型化、约束引导和高效 LLM 编程的语言。一种基于Python超集的大型语言模型(LLM)的编程语言。LMQL 提供了一种将传统编程与在代码中调用 LLM 的能力交织在一起的新方法。它超越了传统的模板语言,在程序代码级别原生集成LLM交互。
* [BloopAI/bloop](https://github.com/BloopAI/bloop) 用 Rust 编写的快速代码搜索引擎。用自然语言提问,搜索代码,并使用现有代码库作为上下文生成补丁。工程师们通过使用 bloop 来提高他们的工作效率:用简单的语言解释文件或功能的工作原理;编写新功能,使用其代码作为上下文;了解如何使用文档记录不佳的开源库;查明错误;询问有关其他语言的英语语言代码库的问题;通过检查现有功能来减少代码重复。特征:基于 AI 的对话搜索;Code Studio,一个LLM使用代码作为上下文的游乐场;超快的正则表达式搜索;同步本地仓库和 GitHub 仓库;复杂的查询筛选器,因此您可以缩小结果范围;使用符号搜索查找函数、变量或特征;使用 Tree-sitter 构建的 10+ 种最流行语言的精确代码导航(转到参考和转到定义);以隐私为中心的设备嵌入,用于语义搜索。
* [ricklamers/gpt-code-ui](https://github.com/ricklamers/gpt-code-ui) OpenAI的ChatGPT代码解释器(生成代码、运行代码)的开源实现。
* [leetcode-mafia/cheetah](https://github.com/leetcode-mafia/cheetah) Mac 应用程序,用于粉碎 AI 的远程技术面试。由 AI 驱动的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间为用户提供帮助。
* [continuedev/continue](https://github.com/continuedev/continue) 软件开发的开源自动驾驶仪——将 ChatGPT 的强大功能引入 VS Code
* [TheR1D/shell_gpt](https://github.com/TheR1D/shell_gpt) 由 GPT-3 和 GPT-4 提供支持的命令行生产力工具将帮助您更快、更高效地完成任务。作为开发人员,我们可以利用 AI 功能来生成 shell 命令、代码片段、注释和文档等。忘记备忘单和笔记,使用此工具,您可以在终端中获得准确的答案,您可能会发现自己减少了日常Google搜索,从而节省了宝贵的时间和精力。
* [paul-gauthier/aider](https://github.com/paul-gauthier/aider) 命令行工具,可让您将程序与 GPT-3.5/GPT-4 配对,以编辑存储在本地 git 存储库中的代码。可以启动新项目或使用现有存储库。您可以在帮助者聊天(要求 GPT 编辑代码)和您自己的编辑器自己进行更改之间流畅地来回切换。
* [di-sukharev/opencommit](https://github.com/di-sukharev/opencommit) 1秒内用AI自动生成令人印象深刻的git commit提交
* [zurawiki/gptcommit](https://github.com/zurawiki/gptcommit) 一个 git prepare-commit-msg 钩子,用于使用 GPT-3 创作提交消息。使用此工具,您可以轻松生成清晰、全面和描述性的提交消息,让您专注于编写代码。
* [intitni/CopilotForXcode](https://github.com/intitni/CopilotForXcode) 一个 Xcode 源代码编辑器扩展,为 Xcode 提供 GitHub Copilot、Codeium 和 ChatGPT 支持。
* [mpociot/chatgpt-vscode](https://github.com/mpociot/chatgpt-vscode) 允许您使用 ChatGPT 的 VSCode 扩展
* [sahil280114/codealpaca](https://github.com/sahil280114/codealpaca) 在代码生成指令上训练的 Instruction-following LLaMA Model。包括用于微调模型的 20K 数据。
* [ddzipp/AutoAudit](https://github.com/ddzipp/AutoAudit) 专门针对网络安全领域的大语言模型,其目标是为安全审计和网络防御提供强大的自然语言处理能力。它具备分析恶意代码、检测网络攻击、预测安全漏洞等功能,为安全专业人员提供有力的支持。采用了数据集组织方法Self-Instruct,该方法结合了人工标注和自我生成的数据。数据集主要来自于Github、Kaggle、安全网站、公开的安全漏洞数据集组成,随后经过清洗、数据增强等来构造对话数据。数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分,我们规定在output输出中应当包含对具体内容的分析(analysis),安全评级(label),安全风险(risk),以及对应的解决方案(solution)。
* [shroominic/codeinterpreter-api](https://github.com/shroominic/codeinterpreter-api) ChatGPT 代码解释器的 LangChain 实现。使用 CodeBox 作为沙盒 python 代码执行的后端。CodeBox是LLM应用程序的最简单的云基础架构。您可以使用自己的OpenAI API密钥在本地运行除LLM之外的所有内容。
* [gofireflyio/aiac](https://github.com/gofireflyio/aiac) 命令行工具,用于通过 OpenAI 的 API 生成 IaC(基础设施即代码)模板、配置、实用程序、查询等。CLI 允许您要求模型为不同的场景生成模板。它将发出请求,并将结果代码存储到文件中,或者只是将其打印到标准输出。
* [anc95/ChatGPT-CodeReview](https://github.com/anc95/ChatGPT-CodeReview) 由 ChatGPT 提供支持的代码审查机器人
* [sqlchat/sqlchat](https://github.com/sqlchat/sqlchat) 基于聊天的 SQL 客户端和编辑器。基于聊天的 SQL 客户端,它使用自然语言与数据库通信,实现数据库的查询、修改、添加、删除等操作。
* [CodedotAl/gpt-code-clippy](https://github.com/CodedotAl/gpt-code-clippy) GitHub Copilot的开源版本,这是一种基于GPT-3的语言模型,称为GPT-Codex,根据GitHub公开可用的代码进行微调。
* [kuafuai/DevOpsGPT](https://github.com/kuafuai/DevOpsGPT) 用于 AI 驱动软件开发的多智能体系统。将LLM与DevOps工具相结合,将自然语言需求转换为工作软件。支持任何开发语言并扩展现有代码。
* [OpenBMB/ChatDev](https://github.com/OpenBMB/ChatDev) 使用自然语言创意创建定制软件(通过LLM驱动的多代理协作)
* [pleisto/flappy](https://github.com/pleisto/flappy) 适用于每个开发人员的生产就绪型 LLM 代理 SDK
* [TabbyML/tabby](https://github.com/TabbyML/tabby) 自托管的AI编码助手,提供GitHub Copilot的开源和本地替代方案。
* [WisdomShell/codeshell](https://github.com/WisdomShell/codeshell) PKU-KCL开发的一系列代码大型语言模型。北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评估Benchmark(HumanEval与MBPP)上,CodeShell取得同等规模最好的性能。
* [sweepai/sweep](https://github.com/sweepai/sweep) AI 驱动的初级开发人员,用于小功能和错误修复。
* [SkalskiP/awesome-chatgpt-code-interpreter-experiments](https://github.com/skalskip/awesome-chatgpt-code-interpreter-experiments) 你可以用 ChatGPT + Code Interpreter 组合做的很棒的事情
* [huybery/Awesome-Code-LLM](https://github.com/huybery/Awesome-Code-LLM) 精心策划的最佳代码列表 -LLM 用于研究。
* [unit-mesh/build-your-ai-coding-assistant](https://github.com/unit-mesh/build-your-ai-coding-assistant) 《构建你自己的 AI 辅助编码助手》 —— 介绍如何 DIY 一个端到端(从 IDE 插件、模型选型、数据集构建到模型微调)的 AI 辅助编程工具,类似于 GitHub Copilot、JetBrains AI Assistant、AutoDev 等。
* [codefuse-ai/Awesome-Code-LLM](https://github.com/codefuse-ai/Awesome-Code-LLM) 针对代码和相关数据集的语言建模研究的精选列表。
* [OpenCodeInterpreter/OpenCodeInterpreter](https://github.com/OpenCodeInterpreter/OpenCodeInterpreter) 开源代码生成系统,旨在弥合大型语言模型和 GPT-4 Code Interpreter 等复杂专有系统之间的差距。它通过集成执行和迭代优化功能,显著增强了代码生成功能。
* [whoiskatrin/sql-translator](https://github.com/whoiskatrin/sql-translator) 使用人工智能将自然语言查询转换为 SQL 代码的工具。这个项目是100%免费和开源的。
* [arcee-ai/mergekit](https://github.com/arcee-ai/mergekit) 可扩展的框架,可以在任何硬件上有效地合并模型,MergeKit 包含广泛的合并技术,并在数千个合并模型的开发中发挥了重要作用,其中许多模型的评估处于或接近 Open LLM 排行榜的前列。开源语言模型领域的快速扩展提供了一个机会,可以通过组合这些模型检查点(checkpoint)的参数来合并它们的能力。迁移学习的进步,即为特定任务微调预训练模型的过程,促成了大量用特定于任务的模型的发展,这些模型通常专门用于单个任务,无法利用彼此的优势。模型合并有助于创建多任务模型,而无需额外的训练,为提高模型性能和多功能性提供了一条有前途的途径。通过保留原始模型的内在功能,模型合并解决了人工智能中的复杂挑战,包括灾难性遗忘和多任务学习的困难。当前支持的合并方法的快速概述:Linear (Model Soups 经典的合并方法 - 一个简单的加权平均值。) 、SLERP、Task Arithmetic、TIES 、DARE TIES、DARE Task Arithmetic 、Passthrough、Model Stock
* [ingyamilmolinar/doctorgpt](https://github.com/ingyamilmolinar/doctorgpt) 将 GPT 投入生产,用于应用程序日志错误诊断
* [openai/human-eval](https://github.com/openai/human-eval) openai在2021年提出的,评估大型语言模型在代码上的表现
* [liutiedong/goat](https://github.com/liutiedong/goat) 擅长算术任务的微调 LLaMA
* [HC-Guo/Owl](https://github.com/HC-Guo/Owl) 大型语言模型,专为 AIOps 字段设计,用于处理与 IT 运营相关的任务(故障诊断、日志分析等)
* [bigcode-project/octopack](https://github.com/bigcode-project/octopack) 指令调优代码大型语言模型,数据[bigcode/commitpack](https://huggingface.co/datasets/bigcode/commitpack) 4TB 的 GitHub 提交,涵盖 350 种编程语言,[bigcode/commitpackft](https://huggingface.co/datasets/bigcode/commitpackft) CommitPack 的过滤版本,用于类似于指令的高质量提交消息,在 CommitPackFT + OASST 上调整的 StarCoder-16B 模型,在 CommitPackFT + OASST 上优化的 CodeGeeX2-6B 指令。[bigcode/humanevalpack](https://huggingface.co/datasets/bigcode/humanevalpack) 扩展 OpenAI 的 HumanEval 以涵盖 6 种语言的 3 个场景
* [OFA-Sys/gsm8k-ScRel](https://github.com/OFA-Sys/gsm8k-ScRel) 基于大型语言模型学习数学推理的扩展关系的代码和数据
* [albertan017/LLM4Decompile](https://github.com/albertan017/LLM4Decompile) 逆向工程:使用大型语言模型反编译二进制代码
* [ise-uiuc/magicoder](https://github.com/ise-uiuc/magicoder) 由 OSS-Intit 提供支持的模型系列,这是一种新颖的方法LLMs,通过开源代码片段为代码生成低偏差和高质量的指令数据。OSS-Instruct 通过赋予LLM它们丰富的开源引用来产生更多样化、更真实和可控的数据,从而减轻了合成指令数据的固有偏见。
* [SqueezeAILab/LLMCompiler](https://github.com/SqueezeAILab/LLMCompiler) 通过自动识别哪些任务可以并行执行,哪些任务是相互依赖的,从而实现并LLMs行函数调用的高效和有效的编排,包括开源和闭源模型。
* [princeton-nlp/SWE-agent](https://github.com/princeton-nlp/SWE-agent) SWE-agent 处理 GitHub 问题并尝试使用 GPT-4 或您选择的 LM 自动修复它。它解决了 SWE-bench 评估集中 12.47% 的错误,运行时间仅为 1 分钟。
* [langroid/langroid](https://github.com/langroid/langroid) Langroid 是一个直观、轻量级、可扩展且有原则的 Python 框架,可轻松构建LLM由前 CMU 和威斯康星大学麦迪逊分校研究人员提供的应用程序。您可以设置代理,为它们配备可选组件(LLM矢量存储和工具/函数),为它们分配任务,并让它们通过交换消息来协作解决问题。这种多智能体范式的灵感来自Actor框架。Langroid是对LLM应用程序开发的一种新尝试,在简化开发人员体验方面进行了相当多的思考;它不使用 Langchain。
* [shobrook/adrenaline](https://github.com/shobrook/adrenaline) 即时回答任何编程问题,所有技术方面的 AI 专家。我们的目标是回答任何技术问题。目前,这包括以下问题:一般编程概念,GitHub 存储库,文档网站,代码片段。Adrenaline还可以搜索互联网并从相关来源中找到答案,采用多步推理来回答更复杂的问题,甚至生成图表来帮助解释事情。
* [Ironclad/rivet](https://github.com/Ironclad/rivet) 开源可视化 AI 编程环境和 TypeScript 库。Rivet,用于创建复杂的 AI 代理和提示链接的 IDE,并将其嵌入到您的应用程序中。
#### 健康医学大模型及语料库
* [FreedomIntelligence/HuatuoGPT-II](https://github.com/FreedomIntelligence/HuatuoGPT-II) 医学适应的一阶段训练LLMs.(一个开放的医疗GPT)。采用创新的领域适应方法,显著提升其医学知识和对话能力。它在多个医学基准测试中展示了最先进的性能,尤其是在专家评估和新的医疗执照考试中超过了 GPT-4。开源7B、13B、34B版本。HuatuoGPT2 数据:发布部分预训练和微调指令。中医LLM评价:综合自动评价方法,对医学反应能力LLM和新鲜专业药师考试考核进行评价。
* [FreedomIntelligence/HuatuoGPT](https://github.com/FreedomIntelligence/HuatuoGPT) 华佗GPT,迈向驯服语言模型成为医生。在庞大的中国医学语料库上训练的大型语言模型(LLM)。我们与华拓GPT的目标是为医疗咨询场景构建更专业的“ChatGPT”。[demo](https://www.huatuogpt.cn/)
* [SCIR-HI/Huatuo-Llama-Med-Chinese](https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese) 本草(原名:华驼)模型仓库,基于中文医学知识的大语言模型指令微调
* [microsoft/LLaVA-Med](https://github.com/microsoft/LLaVA-Med) 用于生物医学的大型语言和视觉助手,专为多模态 GPT-4 级功能而构建。
* [FreedomIntelligence/HuatuoGPT-sft-data-v1](https://huggingface.co/datasets/FreedomIntelligence/HuatuoGPT-sft-data-v1) 华驼大语言模型的微调数据集
* [shibing624/medical](https://huggingface.co/datasets/shibing624/medical) 医疗数据集,可用于医疗领域大模型训练。共36万条,来自医疗百科数据。共8475条,来自医疗教材的文本数据。共195万条,来自1)中文医疗对话数据集 2)在线医疗百科 3)医疗知识图谱
* [michael-wzhu/PromptCBLUE](https://github.com/michael-wzhu/PromptCBLUE) 面向医学领域多任务少样本学习的中文大规模指令调优数据集
* [UCSD-AI4H/Medical-Dialogue-System](https://github.com/UCSD-AI4H/Medical-Dialogue-System) 包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。数据的所有版权均属于 haodf.com。
* [lemuria-wchen/imcs21](https://github.com/lemuria-wchen/imcs21) IMCS-21 的新语料库基准,用于自动医疗咨询系统
* [中文医疗信息处理评测基准CBLUE_数据集-阿里云天池](https://tianchi.aliyun.com/dataset/95414) 中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云、腾讯天衍、平安医疗、阿里夸克、北京、郑州、鹏城实验室、哈工大(深圳)、同济、中山、复旦、华东师范等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。
* [shibing624/MedicalGPT](https://github.com/shibing624/MedicalGPT) 训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。
* [SupritYoung/Zhongjing](https://github.com/SupritYoung/Zhongjing) 基于LLaMa的中国医学ChatGPT,基于大规模训练前语料库和多回合对话数据集的训练。
* [PharMolix/OpenBioMed](https://github.com/PharMolix/OpenBioMed) PharMolix和AI产业研究院(AIR)联合发布的首个商业友好型多模式生物医学基础模型。它将生命语言(分子结构和蛋白质序列)与人类自然语言保持一致,在生物医学QA基准上的表现与人类专家不相上下,并在跨模态分子和蛋白质问答任务中表现出强大的性能。DrugFM是由AIR和北京人工智能研究院(BAAI)联合开发的多模态分子基础模型。它利用UniMAP,一种预先训练的分子模型,可以捕获分子的细粒度属性和表示,并结合了我们的多模态分子基础模型MolFM。DrugFM在跨模态检索上实现了SOTA。
* [datasets/medical_dialog](https://huggingface.co/datasets/medical_dialog) MedDialog数据集(中文)包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。MedDialog数据集(英语)包含医生和患者之间的对话(英语)。它有26万次对话。数据在不断增长,并将添加更多对话。原始对话来自 healthcaremagic.com 和 icliniq.com。
* [FreedomIntelligence/huatuo_encyclopedia_qa](https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa) 该数据集共有 364,420 条医学 QA 数据,其中一些以不同的方式存在多个问题。我们从纯文本(例如,医学百科全书和医学文章)中提取医学QA对。我们在中文维基百科上收集了8,699个疾病百科词条和2,736个药物百科词条。此外,我们还从前文健康网站上抓取了226,432篇高质量的医学文章。
* [BillGPT/Chinese-medical-dialogue-data](https://huggingface.co/datasets/BillGPT/Chinese-medical-dialogue-data) 中文医疗对话数据
* [FreedomIntelligence/CMB](https://github.com/FreedomIntelligence/CMB) 全方位多层次测评模型医疗知识;测评复杂临床问诊能力;中药科考试;临床项目
* [WangRongsheng/XrayGLM](https://github.com/WangRongsheng/XrayGLM) 首个会看胸部X光片的中文多模态医学大模型
* [WangRongsheng/CareLlama](https://github.com/WangRongsheng/CareLlama) 医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。
* [michael-wzhu/ChatMed](https://github.com/michael-wzhu/ChatMed) 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题
* [X-jun-0130/LLM-Pretrain-FineTune](https://github.com/X-jun-0130/LLM-Pretrain-FineTune) 医疗大模型、预训练、微调
* [michael-wzhu/ShenNong-TCM-LLM](https://github.com/michael-wzhu/ShenNong-TCM-LLM) “神农”大模型,首个中医药中文大模型.
* [michaelwzhu/ShenNong_TCM_Dataset](https://huggingface.co/datasets/michaelwzhu/ShenNong_TCM_Dataset) 中医药指令数据集
* [michaelwzhu/ChatMed_Consult_Dataset](https://huggingface.co/datasets/michaelwzhu/ChatMed_Consult_Dataset) 来自于互联网上的医疗问诊问题(11W),反映了真实世界的不同用户/患者的医疗问诊需求。目前response都是由OpenAI GPT-3.5引擎回答的。后续会对互联网上的医生回答与患者回答进行筛选甄别,择优选择,构建质量更优的数据集。
* [CMKRG/QiZhenGPT](https://github.com/CMKRG/QiZhenGPT) 利用[启真医学知识库](http://www.mk-base.com/)构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
* [scutcyr/BianQue](https://github.com/scutcyr/BianQue) 中文医疗对话模型扁鹊(BianQue)。实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为 询问链(CoQ, Chain of Questioning) ,当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,训练数据当中混合了大量target文本为医生问询的内容而非直接的建议,这将有助于提升AI模型的问询能力。基于扁鹊健康大数据BianQueCorpus,我们选择了 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue2.0。扩充了药品说明书指令、医学百科知识指令以及ChatGPT蒸馏指令等数据,强化了模型的建议与知识查询能力。[BianQue](https://huggingface.co/spaces/scutcyr/BianQue)
* [thomas-yanxin/Sunsimiao](https://github.com/thomas-yanxin/Sunsimiao) 孙思邈中文医疗大模型 :提供安全、可靠、普惠的中文医疗大模型
* [scutcyr/SoulChat](https://github.com/scutcyr/SoulChat) 中文领域心理健康对话大模型
* [kbressem/medAlpaca](https://github.com/kbressem/medAlpaca) 用于医学问答的微调大型语言模型,包括相关数据。
* [llSourcell/DoctorGPT](https://github.com/llSourcell/DoctorGPT) 一种通过了美国医疗执照考试的大型语言模型。使命是为每个人提供自己的私人医生。基于 Meta 的 Llama2 70 亿参数语言模型,该模型在医学对话数据集上进行微调,然后使用强化学习和进一步改进。由于该模型的大小仅为 3 GB,因此它适用于任何本地设备,因此无需 API 即可使用它。免费的,供离线使用,可以保护患者的机密性,并且可以在iOS,Android和Web上使用。
* [itsharex/CareLlama](https://github.com/itsharex/CareLlama) 一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。
* [FudanDISC/DISC-MedLLM](https://github.com/FudanDISC/DISC-MedLLM) 利用大型语言模型在端到端对话式医疗保健服务中提供准确和真实的医疗响应。它可以满足您的各种医疗保健需求,包括疾病问诊和治疗方案咨询等,为您提供高质量的健康支持服务。构建了一个高质量的数据集[Flmc/DISC-Med-SFT](https://huggingface.co/datasets/Flmc/DISC-Med-SFT),包含超过47万个衍生于现有的医疗数据集重新构建得到的样本。采用了目标导向的策略,通过对于精心选择的几个数据源进行重构来得到SFT数据集。帮助模型学习医疗领域知识,将行为模式与人类偏好对齐,并对齐真实世界在线医疗对话的分布情况。
* [HIT-SCIR-SC/QiaoBan](https://github.com/HIT-SCIR-SC/QiaoBan) 中文儿童情感陪伴大模型“巧板”。基于通用大模型,使用了通用域人机对话数据、单轮指令数据以及儿童情感陪伴对话数据进行指令微调,训练得到,是通用大语言模型迁移至儿童情感陪伴领域的一次成功实践。三大特点:首先,基于情绪辅导理论构建的儿童情感陪伴对话数据,能够更有效地守护孩子的心理健康。其次,具有儿童心理学背景的志愿者与专家参与完成高质量对话数据的收集。使得能够更加准确地理解和回应儿童的需求,真正与他们建立深入的情感连接。最后,模型与儿童的交互方式更加贴心,让他们能够感受到温暖和认同,成为他们坚实成长道路上的得力伙伴。
* [qiuhuachuan/smile](https://github.com/qiuhuachuan/smile) 开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
* [camel-ai/camel](https://github.com/camel-ai/camel) 骆驼:大规模语言模型社会“心灵”探索的交际代理。一种名为角色扮演的新型交流代理框架。我们的方法涉及使用开始提示来指导聊天代理完成任务,同时保持与人类意图的一致性。我们展示了如何使用角色扮演来生成对话数据,以研究聊天代理的行为和功能,为研究对话语言模型提供宝贵的资源。我们的贡献包括引入一种新的通信代理框架,为研究多智能体系统的协作行为和能力提供可扩展的方法,以及开源我们的库以支持通信代理及其他方面的研究。演示,展示了两个 ChatGPT 代理之间的对话,扮演 python 程序员和股票交易员的角色,合作开发股票市场的交易机器人。
* [pariskang/CMLM-ZhongJing](https://github.com/pariskang/CMLM-ZhongJing) 首个中医大语言模型——"仲景"。受古代中医学巨匠张仲景深邃智慧启迪,专为传统中医领域打造的预训练大语言模型。有史以来第一个中医大语种模型——“CMLM-中京”。受中国古代医学大师张仲景深邃智慧的启发,是专为中医领域设计的预训练大语言模型。
* [Zlasejd/HuangDI](https://github.com/Zlasejd/HuangDI) 在 Ziya-LLaMA-13B-V1的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的语言模型(pre-trained ),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。以《中华医典》数据库为语料来源,约338MB,由两部分组成:①非结构化的“古籍文本”:涵盖了886本标点符号及内容完整的中医古籍。②结构化的“古籍辞典”:包含“名医”、“名言”、“名词”、“名著”等六大类,由中医学界诸多知名学者对中医古籍内容知识进一步系统提炼整理,是中医古籍内容精华最为直接的集中体现。
* [2020MEAI/TCMLLM](https://github.com/2020MEAI/TCMLLM) 通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。构建的指令微调数据集包含8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》(即“内外妇儿”,Internal medicine,Surgery, Gynecology,Pediatrics,简称ISGP)、2020版中国药典(Chinese pharmacopeia,简称CHP)、中医临床经典医案数据(Chinese Medicine Clinical Cases,简称CMCC)、以及多个三甲医院的肺病(Lung)、中风病(Stroke)、糖尿病(Diabetes)、肝病(Liver)、脾胃病(Splenic and stomach diseases)等多病种的临床病历。共68k条,token总数约为10M。
* [Kent0n-Li/ChatDoctor](https://github.com/Kent0n-Li/ChatDoctor) 使用医学领域知识在大型语言模型(LLaMA)上进行微调的医学聊天模型。数据集:来自 HealthCareMagic.com 100k的患者和医生之间的[真实对话](https://drive.google.com/file/d/1lyfqIwlLSClhgrCutWuEe_IACNq6XNUt/view?usp=sharing)。 来自 ICLiniq-10K 的患者医生之间的 10k 真实对话。 5k从ChatGPT [GenMedGPT-5k](https://drive.google.com/file/d/1ZKbqgYqWc7DJHs3N9TQYQVPdDQmZaClA/view?usp=sharing)和[疾病数据库](https://drive.google.com/file/d/1nDTKZ3wZbZWTkFMBkxlamrzbNz0frugg/view?usp=sharing) 生成了患者和医生之间的[对话](https://github.com/Kent0n-Li/ChatDoctor/blob/main/format_dataset.csv)。
* [chaoyi-wu/PMC-LLaMA](https://github.com/chaoyi-wu/PMC-LLaMA) 迈向构建医学开源语言模型”的官方代码。
* [X-D-Lab/MindChat](https://github.com/X-D-Lab/MindChat) 从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑, 提高心理健康水平. 作为一个心理大模型, MindChat通过营造轻松、开放的交谈环境, 以放松身心、交流感受或分享经验的方式, 与用户建立信任和理解的关系
* [FreedomIntelligence/huatuo_knowledge_graph_qa](https://huggingface.co/datasets/FreedomIntelligence/huatuo_knowledge_graph_qa) 华佗医疗知识图谱问答数据集
* [hejunqing/webMedQA](https://github.com/hejunqing/webMedQA) 从在线健康咨询网站收集的真实中国医学问答数据集。
* [pubmedqa/pubmedqa](https://github.com/pubmedqa/pubmedqa) 生物医学研究问答数据集
* [WENGSYX/CMCQA](https://github.com/WENGSYX/CMCQA) 中国医学领域庞大的对话问答数据集。收集自中国医学会话问答网站春雨,拥有男科、风暴科、妇产科等45个科室的医学对话资料。具体来说,CMCQA 有 130 万个完整的会话或 1983 万个语句或 6.5 亿个词元。同时,我们进一步开源所有数据,推动医疗领域会话问答相关领域的发展。
* [wangrongsheng/HealthCareMagic-100k-en](https://huggingface.co/datasets/wangrongsheng/HealthCareMagic-100k-en) 从在线医疗咨询网站HealthCareMagic收集了约10万例真实的医生-患者对话。通过手动和自动方式过滤这些数据,删除医生和患者的身份信息,并使用语言工具纠正语法错误。
* [wangrongsheng/icliniq-10k-en](https://huggingface.co/datasets/wangrongsheng/icliniq-10k-en) icliniq.com的1万例实际患者与医生之间对话
* [FreedomIntelligence/Huatuo-26M](https://github.com/FreedomIntelligence/Huatuo-26M) 规模最大的中国医学质量保证数据集:包含 2600万个问答对。
* [liyucheng/zhihu_rlhf_3k](https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k) 知乎3000个用于RLHF(Reinforcement Learning from Human Feedback 基于人类反馈的强化学习)的数据
* [MediaBrain-SJTU/MedicalGPT-zh](https://github.com/MediaBrain-SJTU/MedicalGPT-zh) 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型
* [SCIR-HI/Med-ChatGLM](https://github.com/SCIR-HI/Med-ChatGLM) 基于中文医学知识的ChatGLM指令微调
* [xionghonglin/DoctorGLM](https://github.com/xionghonglin/DoctorGLM) 基于ChatGLM-6B的中文问诊模型
* [WangRongsheng/MedQA-ChatGLM](https://github.com/WangRongsheng/MedQA-ChatGLM) 基于真实医疗对话数据在ChatGLM上进行LoRA、P-Tuning V2、Freeze、RLHF等微调
* [Toyhom/Chinese-medical-dialogue-data](https://github.com/Toyhom/Chinese-medical-dialogue-data) 中文医疗对话数据集:Andriatria_男科 94596个问答对 IM_内科 220606个问答对 OAGD_妇产科 183751个问答对 Oncology_肿瘤科 75553个问答对 Pediatric_儿科 101602个问答对 Surgical_外科115991个问答对 总计 792099个问答对
* [WangRongsheng/IvyGPT](https://github.com/WangRongsheng/IvyGPT) 最贴近真实医生问诊效果的医疗大语言模型
* [189569400/MedicalGPT-zh](https://github.com/189569400/MedicalGPT-zh) 基于医疗指令微调的中文医疗问诊模型
* [DUTIR-BioNLP/Taiyi-LLM](https://github.com/DUTIR-BioNLP/Taiyi-LLM) 太一:一种双语(中英文)微调的大语言模型,适用于各种生物医学任务
* [bigscience-workshop/biomedica](https://github.com/bigscience-workshop/biomedical) 用于管理用于大规模语言建模的生物医学训练数据的工具,大规模轻量级、程序化访问生物医学数据集,提高数据处理的可重复性,126+ 生物医学数据集、10+ 种语言、12 个任务类别、按任务类型协调的数据集架构、有关许可、粗粒度/细粒度任务类型、域等的元数据
* [openmedlab/PULSE: PULSE: Pretrained and Unified Language Service Engine](https://github.com/openmedlab/PULSE) 中文医疗大语言模型,使用约400万个中文医学领域和通用领域的指令微调数据进行进一步调优。PULSE支持医学领域的各种自然语言处理任务,包括健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗。
* [openmedlab/XrayPULSE](https://github.com/openmedlab/XrayPULSE) 基于 PULSE。我们利用MedCLIP作为我们的医疗视觉编码器,并利用Q-former(BLIP2)作为适配器,通过简单的线性变换将图像注入PULSE。为了通过适配器对齐冷冻视觉编码器和LLM,我们借助chatGPT从两个数据集(MIMIC-CXR和OpenI)的自由文本放射学报告中生成中文版Xray-Report配对数据。为了促进生物医学多模态学习的研究,我们将向公众发布数据。
* [stanford-crfm/BioMedLM](https://github.com/stanford-crfm/BioMedLM) 用于预训练和微调 BioMedLM 生物医学模型的代码。
* [kyegomez/Med-PaLM](https://github.com/kyegomez/Med-PaLM) 在医疗保健领域实现多模态的生成式 AI 的负责任之路:释放 Med-PaLM 2 的力量,彻底改变医学知识,回答复杂的问题,并通过准确、安全和公平的做法增强医疗保健体验。
#### 法律大模型及语料库
* [PKU-YuanGroup/ChatLaw](https://github.com/PKU-YuanGroup/ChatLaw) 中文法律大模型。目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B,我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。
* [AndrewZhe/lawyer-llama](https://github.com/AndrewZhe/lawyer-llama) 中文法律LLaMA,在大规模法律语料上进行了continual pretraining,让它系统的学习中国的法律知识体系。 在此基础上,我们借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
* [CSHaitao/LexiLaw](https://github.com/CSHaitao/LexiLaw) 经过微调的中文法律大模型,它基于 ChatGLM-6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。
* [LiuHC0428/LAW-GPT](https://github.com/LiuHC0428/LAW-GPT) 中文法律对话语言模型,由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。
* [siat-nlp/HanFei](https://github.com/siat-nlp/HanFei) 国内首个全参数训练的法律大模型 HanFei-1.0 韩非
* [davidpig/lychee_law](https://github.com/davidpig/lychee_law) 律知, 法律咨询大模型,Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调.
* [coastalcph/lex-glue](https://github.com/coastalcph/lex-glue) 英语法律语言理解的基准数据集
* [JoelNiklaus/LEXTREME](https://github.com/JoelNiklaus/LEXTREME) 涵盖24种语言的11个数据集的法律基准测试。
* [zhihaiLLM/wisdomInterrogatory](https://github.com/zhihaiLLM/wisdomInterrogatory) 由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型。核心思想:以“普法共享和司法效能提升”为目标,从推动法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持,形成数字化和智能化的司法基座能力。
* [pengxiao-song/LaWGPT](https://github.com/pengxiao-song/LaWGPT) 基于中文法律知识的大语言模型
* [seudl/JurisLMs](https://github.com/seudl/JurisLMs) 根据不同的场景在法律法规、法律咨询、裁判文书等多种不同的语料上进一步预训练了多个模型。其中,AI Judge是由GPT2在法学语料上进一步预训练之后,结合一个法条适用模型(一个基于BERT的分类器)微调得到的一个可解释法律判决预测模型。基于中文LLaMA的智能法律咨询模型,AI Lawyer。由于缺乏标注法条的咨询语料,我们采用主动学习(Active Learning)在少量数据上进行微调获得一个法律适用模型,使得AI Lawyer可以根据用户咨询适用正确的法律法规回答问题。
* [lvwzhen/law-cn-ai](https://github.com/lvwzhen/law-cn-ai) AI 法律助手,使用 pgvector 存储嵌入向量,使用OpenAI GPT 回答用户。
* [LawRefBook/Laws](https://github.com/LawRefBook/Laws) 本项目收集各类法律法规、部门规章、案例等,并将其按照章节等信息进行了处理。
* [FudanDISC/DISC-LawLLM](https://github.com/FudanDISC/DISC-LawLLM) 利用大型语言模型(LLM)提供广泛法律服务的智能法律系统。[DISC-Law-SFT 数据集](https://huggingface.co/datasets/ShengbinYue/DISC-Law-SFT)
* [open-compass/LawBench](https://github.com/open-compass/LawBench) 对大型语言模型的法律知识进行基准测试
#### 其他及垂直领域大模型
* [gmftbyGMFTBY/science-llm](https://github.com/gmftbyGMFTBY/science-llm) 科学领域的大语言模型,在redpajama arXiv上训练
* [IMOSR/MediaGPT](https://github.com/IMOSR/MediaGPT) 中文的自媒体大语言模型MediaGPT(曾用名Media LLaMA)
* [wenge-research/YAYI2](https://github.com/wenge-research/YAYI2) 科闻歌研发的新一代开源大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。包括 Base 和 Chat 版本,参数规模为 30B。YAYI2-30B 是基于 Transformer 的大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景,我们采用了百万级指令进行微调,同时借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐。[YAYI2 预训练数据](https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data) ,选了约100B数据,数据大小约为500GB。在预训练阶段,我们不仅使用了互联网数据来训练模型的语言能力,还添加了通用精选数据和领域数据,以增强模型的专业技能。通用精选数据包含人工收集和整理的高质量数据。涵盖了报纸类数据、文献类数据、APP类数据、代码类数据、书籍类数据、百科类数据。其中,报纸类数据包括广泛的新闻报道和专栏文章,这类数据通常结构化程度高,信息量丰富。文献类数据包括学术论文和研究报告,为我们的数据集注入了专业和深度。代码类数据包括各种编程语言的源码,有助于构建和优化技术类数据的处理模型。书籍类数据涵盖了小说、诗歌、古文、教材等内容,提供丰富的语境和词汇,增强语言模型的理解能力。构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。我们共收集了 240TB 原始数据,预处理后仅剩 10.6TB 高质量数据。
* [ymcui/Chinese-LLaMA-Alpaca-2](https://github.com/ymcui/Chinese-LLaMA-Alpaca-2) 中文 LLaMA-2 & Alpaca-2 大模型二期项目 + 本地CPU/GPU训练部署 (Chinese LLaMA-2 & Alpaca-2 LLMs)
* [FlagAlpha/Llama2-Chinese](https://github.com/FlagAlpha/Llama2-Chinese) Llama中文社区,最好的中文Llama大模型,完全开源可商用
* [CVI-SZU/Linly](https://github.com/CVI-SZU/Linly) 提供中文对话模型 Linly-ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据。中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow。此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer。
* [OpenBMB/CPM-Bee](https://github.com/OpenBMB/CPM-Bee) 一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
* [zjunlp/KnowLM](https://github.com/zjunlp/KnowLM) 一个开源的知识渊博的大型语言模型框架。以知识和大模型为中心,利用构建的中英文预训练语料库,对LLaMA等大型模型进行全面预训练。基于KG2Instructions的技术,优化了包括NER、RE和IE在内的知识提取任务,可以使用人工指令完成。
* [zjunlp/KnowLM-IE · Datasets at Hugging Face](https://huggingface.co/datasets/zjunlp/KnowLM-IE) 基于知识图谱构建的,提取实体关系三元组的指令数据集
* [ictnlp/BayLing](https://github.com/ictnlp/BayLing) “百聆”是基于LLaMA的对齐增强的英语/中文大语言模型,具有优越的中英文能力,在多语言和通用任务等测试中取得ChatGPT 90%的性能。
* [AtomEcho/AtomGPT](https://github.com/AtomEcho/AtomGPT) 基于LLaMA的模型架构,从0开始训练,希望能在训练的过程中,将模型能力得到提升的进化过程展示出来,感受到模型学习的过程。
* [FMInference/FlexGen](https://github.com/FMInference/FlexGen) 单个GPU上运行大型语言模型,实现面向吞吐量的加速方案。
* [BuilderIO/gpt-crawler](https://github.com/BuilderIO/gpt-crawler) 抓取网站以生成知识文件,以从 URL 创建自己的自定义 GPT
* [bigscience-workshop/petals](https://github.com/bigscience-workshop/petals) 在家运行LLM,BitTorrent风格。微调和推理速度比卸载快10 倍。Petals协作运行像Llama和BLOOM这样的大型语言模型 - 你加载模型的一小部分,然后加入为其他部分提供服务的人来运行推理或微调。
* [janhq/jan](https://github.com/janhq/jan) ChatGPT 的开源替代品,可在您的计算机上 100% 离线运行。
* [Anthropic/hh-rlhf](https://huggingface.co/datasets/Anthropic/hh-rlhf) Human preference data about helpfulness and harmlessness,有用性和无害性的人类偏好数据,关于有用和无害的人类偏好数据,来自从人类反馈中强化学习训练有用和无害的助手。这些数据旨在为后续的RLHF训练训练偏好(或奖励)模型。这些数据不适用于对话代理的监督训练。就这些数据对对话代理进行培训可能会导致有害的模型,应避免这种情况。来自红队语言模型的人工生成和注释的红队对话,以减少危害:方法、缩放行为和经验教训。这些数据旨在了解众包工人红队模型以及哪些类型的红队攻击成功与否。这些数据不用于微调或偏好建模(使用上面的数据进行偏好建模)。这些数据是从上述无害偏好建模数据派生的对话的完整记录,其中只有选择的响应被合并到整个脚本中。此外,成绩单还带有人工和自动测量的注释,以衡量整体对话的危害程度。
* [RUC-GSAI/YuLan-Chat](https://github.com/RUC-GSAI/YuLan-Chat) 基于聊天的大型语言模型,由中国人民大学GSAI的研究人员开发(YuLan,代表玉兰,是中国人民大学的校园花)。最新版本是通过不断预训练和指令调整LLaMA-2开发的,具有高质量的中英文数据。
* [Yu-Yang-Li/StarGLM](https://github.com/Yu-Yang-Li/StarGLM) 整合了司天工程相关的语料数据与知识库资料,训练得到了天文大模型。司天工程是时域天文学所提出的“十五五”天文重大基础设施,一期计划在国内多个优选观测台址布置54台(18组)口径1米级的大视场望远镜,组成多波段同时监测网络,每30分钟完成1万平方度天区的高精度三色“凝视”巡天。司天的采样频率比全球其它巡天项目高近两个量级,将突破目前探测时标的限制,在新的空域和时域下发现大批新天体、新现象,在宇宙极端高能爆发源、引力波电磁对应体、系外行星和太阳系天体等理论和观测研究中形成新的突破,在“两暗一黑三起源”等重大科学问题研究以及地球文明灾难预警等国家空间安全问题方面发挥重要作用。
* [OpenBMB/MiniCPM](https://github.com/OpenBMB/MiniCPM) 面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿的非词嵌入参数量, 总计2.7B参数量。经过 SFT 后,在公开综合性评测集上,与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。经过 DPO 后,在当前最接近用户体感的评测集 MTBench上,也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。以 MiniCPM-2B 为基础构建端侧多模态大模型 MiniCPM-V,整体性能在同规模模型中实现最佳,超越基于 Phi-2 构建的现有多模态大模型,在部分评测集上达到与 9.6B Qwen-VL-Chat 相当甚至更好的性能。经过 Int4 量化后,可在手机上进行部署推理,流式输出速度略高于人类说话速度。也直接跑通了多模态大模型在手机上的部署。一张1080/2080可高效参数微调,一张3090/4090可全参数微调,一台机器可持续训练 MiniCPM,二次开发成本较低。
* [cocktailpeanut/dalai](https://github.com/cocktailpeanut/dalai) 在本地计算机上运行LLaMA语言模型的最简单方法
* [Neutralzz/BiLLa](https://github.com/Neutralzz/BiLLa) 开源的推理能力增强的中英双语LLaMA模型。
* [DUOMO/TransGPT](https://github.com/DUOMO/TransGPT) 国内首款开源交通大模型,主要致力于在真实交通行业中发挥实际价值。能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。
* [Duxiaoman-DI/XuanYuan](https://github.com/Duxiaoman-DI/XuanYuan) 轩辕:首个千亿级中文金融对话模型。在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
* [chancefocus/PIXIU](https://github.com/chancefocus/PIXIU) 貔貅。第一个开源金融大型语言模型 (LLM)、指令调整数据和评估基准,用于全面评估金融 LLM。我们的目标是不断推动金融人工智能(AI)的开源发展。几个关键组件:FLARE:我们的金融语言理解和预测评估基准。FLARE作为金融LLM的评估套件,重点是理解和预测各种金融环境中的任务。FIT:我们的财务指令数据集。FIT是专门为财务任务量身定制的多任务和多模态指令数据集。它是为这些任务微调LLM的培训基地。FinMA:我们的金融大语言模型(LLM)。FinMA是我们项目的核心,为我们的财务任务提供学习和预测能力。主要特点:开放资源:PIXIU公开提供财务LLM,指令调整数据和评估基准中包含的数据集,以鼓励开放研究和透明度。多任务:PIXIU中的指令调优数据和基准测试涵盖了多种财务任务,包括4个财务NLP任务和1个财务预测任务。多模态:PIXIU的指令调优数据和基准由多模态财务数据组成,包括来自股票运动预测任务的时间序列数据。它涵盖了各种类型的金融文本,包括报告、新闻文章、推文和监管文件。多样性:与以前主要关注财务NLP任务的基准不同,PIXIU的评估基准包括与现实世界场景相一致的关键财务预测任务,使其更具挑战性。以及FLARE 2.0:金融语言理解和预测评估基准。
* [MetaGLM/FinGLM](https://github.com/MetaGLM/FinGLM) 致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。旨在深度解析上市公司年报的对话交互智能系统。面对金融文本中的专业术语与暗含信息,我们致力于用AI实现专家级别的金融分析。上市公司年报为投资者呈现了公司的经营状况、财务状况和未来规划。专业知识是解读的关键,而我们的目标是通过AI技术让这一过程变得更简单、更准确。
* [SUFE-AIFLM-Lab/FinEval](https://github.com/SUFE-AIFLM-Lab/FinEval) 包含金融、经济、会计和证书等领域高质量多项选择题的集合。
* [SALT-NLP/FLANG](https://github.com/SALT-NLP/FLANG) 金融领域的基准测试和大型预训练语言模型
* [FudanDISC/DISC-FinLLM](https://github.com/FudanDISC/DISC-FinLLM) 专门针对金融场景下为用户提供专业、智能、全面的金融咨询服务的金融领域大模型,由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源。开源如下资源:DISC-FinLLM-SFT 训练数据样例、DISC-FinLLM 模型参数、DISC-Fin-Eval Benchmark DISC-Fin-Eval 测试、DISC-FinLLM-SFT 完整训练数据
* [blcuicall/taoli](https://github.com/blcuicall/taoli) 适用于国际中文教育领域的大模型 “桃李”(Taoli)1.0 ,在国际中文教育领域数据上进行了额外训练的模型。基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。 设置了多种形式的指令来充分利用知识,构造了共计 88k 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。
* [icalk-nlp/EduChat](https://github.com/icalk-nlp/EduChat) 开源中英教育对话大模型。(通用基座模型,GPU部署,数据清理)
* [yongzhuo/chatglm-maths](https://github.com/yongzhuo/chatglm-maths) chatglm-6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu
* [MineDojo/Voyager](https://github.com/MineDojo/Voyager) 航海家:具有大型语言模型的开放式具身代理。是 Minecraft 中第一个由 LLM 驱动的体现的终身学习代理,它不断探索世界,获得各种技能,并在没有人为干预下做出新的发现。由三个组件组成:1)最大化探索的自动课程,2)不断增长的可执行代码技能库,用于存储和检索复杂行为,以及3)新的迭代提示机制,其中包含环境反馈,执行错误和自我验证以改进程序。Voyager通过黑盒查询与GPT-4交互,这绕过了模型参数微调。从经验上讲,Voyager表现出强大的上下文终身学习能力,并在玩Minecraft方面表现出非凡的熟练程度。它获得的独特物品增加了 3.3×,旅行距离延长了 2.3×,解锁关键科技树里程碑的速度比之前的 SOTA 快了 15.3×。Voyager能够利用在新的Minecraft中学到的技能库从头开始解决新任务,而其他技术则难以概括。
* [DAMO-NLP-SG/Video-LLaMA](https://github.com/DAMO-NLP-SG/Video-LLaMA) 为大型语言模型提供视频和音频理解功能。Video-LLaMA建立在BLIP-2和MiniGPT-4之上。它由两个核心组件组成:(1)视觉语言(VL)分支和(2)音频语言(AL)分支。`VL 分支`(可视编码器:ViT-G/14 + BLIP-2 Q 前置器),引入两层视频Q-Forform和帧嵌入层(应用于每帧的嵌入)来计算视频表示。使用视频到文本生成任务在 Webvid-2M 视频字幕数据集上训练 VL Branch。我们还将图像文本对(来自LLaVA的~595K图像标题)添加到预训练数据集中,以增强对静态视觉概念的理解。在预训练之后,我们使用来自MiniGPT-4,LLaVA和VideoChat的指令调整数据进一步微调我们的VL Branch。`AL 分支`(音频编码器:ImageBind-Huge): 引入两层音频Q-Forform和音频段嵌入层(应用于每个音频段的嵌入)来计算音频表示。由于使用的音频编码器(即 ImageBind)已经跨多个模态对齐,因此我们仅根据视频/图像指令数据训练 AL Branch,只是为了将 ImageBind 的输出连接到语言解码器。在跨模态训练期间,只有视频/音频、位置嵌入层和线性层可训练。
* [Timothyxxx/Chain-of-ThoughtsPapers](https://github.com/Timothyxxx/Chain-of-ThoughtsPapers) 思维链的相关论文。大型语言模型中的思维链促使了推理能力的产生。
* [kyegomez/tree-of-thoughts](https://github.com/kyegomez/tree-of-thoughts) 即插即用 思想之树的实现:使用大型语言模型进行深思熟虑的问题解决,将模型推理提升至少 70%
* [promptslab/Awesome-Prompt-Engineering](https://github.com/promptslab/Awesome-Prompt-Engineering) 包含用于提示工程的手工策划资源,重点是生成式预训练变压器 (GPT)、ChatGPT、PaLM 等
* [GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese](https://github.com/GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese) 《面向开发者的 ChatGPT 提示词工程》非官方版中英双语字幕
* [timqian/openprompt.co](https://github.com/timqian/openprompt.co) OpenPrompt.co 上加星标最多的提示列表。该列表每 24 小时更新一次。
* [thinkingjimmy/Learning-Prompt](https://github.com/thinkingjimmy/Learning-Prompt) 免费的快速`提示工程`在线课程。ChatGPT 和 Midjourney 教程现在包括在内!
* [trigaten/Learn_Prompting](https://github.com/trigaten/Learn_Prompting) 关于快速`提示工程`的免费开源指南。
* [prompt-engineering/prompt-patterns](https://github.com/prompt-engineering/prompt-patterns) Prompt 编写模式:如何将思维框架赋予机器,以设计模式的形式来思考 prompt
* [L1Xu4n/Awesome-ChatGPT-prompts-ZH_CN](https://github.com/L1Xu4n/Awesome-ChatGPT-prompts-ZH_CN) 如何将ChatGPT调教成一只猫娘。
* [prompt-engineering/click-prompt](https://github.com/prompt-engineering/click-prompt) 简化您的提示设计,使用 ClickPrompt,您只需单击一下即可轻松查看、共享和运行这些提示。ClickPrompt 用于一键轻松查看、分享和执行您的 Prompt。
* [mattnigh/ChatGPT3-Free-Prompt-List](https://github.com/mattnigh/ChatGPT3-Free-Prompt-List) 学习创建 ChatGPT3 提示的免费指南
* [yzfly/LangGPT](https://github.com/yzfly/LangGPT) 让每个人都能成为及时的专家! 结构化提示词,结构化提示词。
* [OpenMindClub/awesome-chatgpt](https://github.com/OpenMindClub/awesome-chatgpt) 关于ChatGPT的一切,精选的应用程序和工具列表。
* [EgoAlpha/prompt-in-context-learning](https://github.com/EgoAlpha/prompt-in-context-learning) 用于上下文学习和快速工程的出色资源:掌握 ChatGPT、GPT-3 和 FlanT5 等 LLM,并提供最新和前沿的更新。
* [hegelai/prompttools](https://github.com/hegelai/prompttools) 用于快速测试和实验的开源工具,支持LLM(例如OpenAI,LLaMA)和矢量数据库(例如Chroma,Weaviate,LanceDB)。
* [uptrain-ai/uptrain](https://github.com/uptrain-ai/uptrain) 一个Python框架,通过允许用户检查正确性,结构完整性,偏见,幻觉等方面来确保您的LLM应用程序可靠地运行。
* [ypwhs/CreativeChatGLM](https://github.com/ypwhs/CreativeChatGLM) 欢迎来到 ChatGLM 创意世界!你可以使用修订和续写的功能来生成创意内容!
* [KevinWang676/ChatGLM2-Voice-Cloning](https://github.com/KevinWang676/ChatGLM2-Voice-Cloning) 和喜欢的角色沉浸式对话吧:ChatGLM2 + 声音克隆+视频对话
* [melih-unsal/DemoGPT](https://github.com/melih-unsal/DemoGPT) 只需使用句子即可创建 LangChain 应用程序。具有基础模型功能的自动 Gen-AI 应用程序生成器。
* [soulteary/docker-llama2-chat](https://github.com/soulteary/docker-llama2-chat) 一起玩LLaMA2 (官方 / 中文版 / INT4 / 骆驼2.cpp) 一起玩!只需3个步骤!( 非 GPU / 5GB vRAM / 8~14GB vRAM)
* [homanp/superagent](https://github.com/homanp/superagent) 超级代理 - 构建、部署和管理 LLM 支持的代理。一个强大的工具,可简化 LLM(大型语言模型)代理到生产的配置和部署。它提供了一系列特性和功能,使开发人员能够更轻松地构建、管理和将 AI 代理部署到生产环境,包括通过矢量数据库、强大的工具、Webhook、cron 作业等构建内存和文档检索等功能。
* [DAMO-NLP-MT/PolyLM](https://github.com/DAMO-NLP-MT/PolyLM) 多语言大型语言模型,旨在解决当前LLM研究中的以下空白和局限性,为推进这一领域提供全面和创新的解决方案。涵盖 18 种最常用的语言。PolyLM精通全球主要的非英语语言,如西班牙语,俄语,阿拉伯语,日语,韩语,泰语,印度尼西亚语和中文等。它是对现有开源模型的完美补充,包括:(1)LLaMA,其中英语在整个数据集中占主导地位。(2)BLOOM,未能解决大量人口使用的语言,如日语,韩语和泰语。更好的多语言教学跟踪能力。我们建议MULTIALPACA来补充ALPACA和CHINESEALPACA,使LLM更好地遵循多语言说明,特别是那些来自非英语母语人士的指示。强劲的性能。与具有相似模型大小的流行多语言LLM相比,PolyLM在各种任务(包括QA,理解和生成)上表现出卓越的性能。
* [lyogavin/Anima](https://github.com/lyogavin/Anima) 第一个开源的基于QLoRA的33B中文大语言模型。基于QLoRA开源的33B guanaco训练了10000 steps。训练使用一个H100 GPU。
* [Alibaba-NLP/EcomGPT](https://github.com/Alibaba-NLP/EcomGPT) 一种面向电子商务的指令调优大语言模型。共有250万条指令数据。使用电子商务基本数据类型(如产品信息,用户评论)构建原子任务来扩展数据大小和任务多样性。原子任务被定义为隐含参与解决最终任务的中间任务,我们也称之为任务链任务。
* [davendw49/k2](https://github.com/davendw49/k2) 一种开源语言模型,首先在收集和清理的地球科学文献(包括地球科学开放获取论文和维基百科页面)上进一步预训练LLaMA,其次使用知识密集型指令调整数据(GeoSignal)进行微调。至于初步评估,我们使用GeoBench(由NPEE和AP地质,地理和环境科学测试组成)作为基准。与具有相似参数的几个基线模型相比,K2 在客观和主观任务上的表现优于基线。
* [neukg/TechGPT](https://github.com/neukg/TechGPT) “东北大学知识图谱研究组”发布的垂直领域大语言模型。强化了如下任务:以“知识图谱构建”为核心的关系三元组抽取等各类信息抽取任务。以“阅读理解”为核心的各类智能问答任务。以“文本理解”为核心的关键词生成等各类生成任务。
* [arc53/DocsGPT](https://github.com/arc53/DocsGPT) GPT 支持的文档聊天,与您的文档聊天
* [guangzhengli/ChatFiles](https://github.com/guangzhengli/ChatFiles) 文档聊天机器人 — 多个文件。由 GPT / 嵌入提供支持。
* [whitead/paper-qa](https://github.com/whitead/paper-qa) 从PDF或文本文件(可以是原始HTML)进行问答。它努力通过文本引用来提供非常好的答案,没有幻觉。使用OpenAI嵌入和称为FAISS的矢量数据库来嵌入和搜索文档。
* [huggingface/text-generation-inference](https://github.com/huggingface/text-generation-inference) 用于文本生成推理的 Rust、Py 和 gRPC 服务器。在HuggingFace的生产中使用,以支持Hugging Chat,推理API和推理端点。
* [mylxsw/aidea](https://github.com/mylxsw/aidea) 一款支持 GPT 以及国产大语言模型通义千问、文心一言等,支持 Stable Diffusion 文生图、图生图、 SDXL1.0、超分辨率、图片上色的全能型 APP。
* [jmorganca/ollama](https://github.com/jmorganca/ollama) 在本地启动并运行 Llama 2 和其他大型语言模型
* [serge-chat/serge](https://github.com/serge-chat/serge) 用[llama.cpp](https://github.com/ggerganov/llama.cpp)运行Alpaca羊驼模型。没有API密钥,完全自托管
* [zetavg/LLaMA-LoRA-Tuner](https://github.com/zetavg/LLaMA-LoRA-Tuner) 用于微调和测试您自己的 LoRA 模型的 UI 工具基于 LLaMA, GPT-J 等.一键运行在谷歌Colab上。+ 一个类似 Gradio ChatGPT 的聊天用户界面,用于演示您的语言模型。
* [vercel-labs/ai-chatbot](https://github.com/vercel-labs/ai-chatbot) 使用 Next.js、Vercel AI SDK、OpenAI 和 Vercel KV 构建的开源 AI 聊天机器人应用程序模板。
* [RockChinQ/QChatGPT](https://github.com/RockChinQ/QChatGPT) 高稳定性、支持插件、实时联网的 ChatGPT QQ 机器人 | 支持 Claude、Google Bard、gpt4free、One API 的 QQ 机器人平台
* [zhayujie/bot-on-anything](https://github.com/zhayujie/bot-on-anything) 将 ChatGPT、必应、文心一言、谷歌Bard 等对话模型连接各类应用,如微信、公众号、QQ、Telegram、Gmail、Slack、Web、企业微信、飞书、钉钉等。
* [askrella/whatsapp-chatgpt](https://github.com/askrella/whatsapp-chatgpt) WhatsApp机器人使用OpenAI的GPT和DALL-E 2来响应用户输入。
* [AutumnWhj/ChatGPT-wechat-bot](https://github.com/AutumnWhj/ChatGPT-wechat-bot) 几步即可获得一个基于 ChatGPT 的微信机器人
* [wangrongding/wechat-bot](https://github.com/wangrongding/wechat-bot) 基于OpenAi ChatGPT + WeChaty 实现的微信机器人 ,可以用来帮助你自动回复微信消息,或者管理微信群/好友,检测僵尸粉等...
* [OpenGVLab/InternGPT](https://github.com/OpenGVLab/InternGPT) 开源演示平台,您可以在其中轻松展示您的 AI 模型。现在它支持DragGAN,ChatGPT,ImageBind,多模态聊天,如GPT-4,SAM,交互式图像编辑等
* [TBXark/ChatGPT-Telegram-Workers](https://github.com/TBXark/ChatGPT-Telegram-Workers) 在Cloudflare Workers上轻松部署您自己的Telegram ChatGPT机器人。
* [leon-ai/leon](https://github.com/leon-ai/leon) 您的开源个人助理。Leon的NLU将首先使用自己的模型,而不依赖LLM。重要的是,Leon可以100%离线运行,我相信,通过量化等缩小技术,Leon迟早会以LLM为核心,并且仍然能够在边缘运行。
* [minimaxir/simpleaichat](https://github.com/minimaxir/simpleaichat) Python 包可轻松与聊天应用程序接口,具有强大的功能和最小的代码复杂性。可轻松与ChatGPT和GPT-4等聊天应用程序接口,具有强大的功能和最小的代码复杂性。
* [josStorer/RWKV-Runner](https://github.com/josStorer/RWKV-Runner) RWKV管理和启动工具,完全自动化,只有8MB。并提供与OpenAI API兼容的接口。RWKV 是一种完全开源的大型语言模型,可用于商业用途。
* [hahahumble/speechgpt](https://github.com/hahahumble/speechgpt) 一个Web应用程序,使您能够与ChatGPT交谈。
* [jackMort/ChatGPT.nvim](https://github.com/jackMort/ChatGPT.nvim) Neovim插件:使用ChatGPT API轻松生成自然语言
* [869413421/chatgpt-web](https://github.com/869413421/chatgpt-web) 基于ChatGPT3.5 API实现的私有化web程序
* [pashpashpash/vault-ai](https://github.com/pashpashpash/vault-ai) 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。
* [ourongxing/chatgpt-vercel](https://github.com/ourongxing/chatgpt-vercel) 优雅而有力的网页ChatGPT界面。由OpenAI和Vercel提供支持。
* [PlexPt/chatgpt-java](https://github.com/PlexPt/chatgpt-java) ChatGPT Java SDK。支持 GPT3.5、 GPT4 API。开箱即用。
* [Chainlit/chainlit](https://github.com/Chainlit/chainlit) 在几分钟内构建Python LLM应用程序
* [gd3kr/BlenderGPT](https://github.com/gd3kr/BlenderGPT) 使用英语命令通过OpenAI的GPT-4控制Blender。
* [varunshenoy/GraphGPT](https://github.com/varunshenoy/GraphGPT) 使用 GPT-3 从非结构化文本推断知识图谱
* [zhaoyingjun/chatbot](https://github.com/zhaoyingjun/chatbot) ChatGPT带火了聊天机器人,主流的趋势都调整到了GPT类模式,本项目也与时俱进,会在近期更新GPT类版本。基于本项目和自己的语料可以训练出自己想要的聊天机器人,用于智能客服、在线问答、闲聊等场景。
* [Significant-Gravitas/Auto-GPT-Plugins](https://github.com/Significant-Gravitas/Auto-GPT-Plugins) 用于自动 GPT 的插件。插件分为两类:第一方和第三方。第一方插件是广泛使用的插件精选列表。它们在安装插件平台时默认安装。第三方插件需要单独添加。它们可能对您的特定需求有用。
* [chatanywhere/GPT_API_free](https://github.com/chatanywhere/GPT_API_free) Free ChatGPT API Key,免费ChatGPT API,支持GPT4 API(低价),ChatGPT国内可用免费转发API,直连无需代理。可以搭配ChatBox等软件/插件使用,极大降低接口使用成本。国内即可无限制畅快聊天。
* [PromtEngineer/localGPT](https://github.com/PromtEngineer/localGPT) 无缝集成各种开源大模型,在本地设备上与您的文档聊天。没有数据离开您的设备,100%私密。
* [shreyashankar/gpt3-sandbox](https://github.com/shreyashankar/gpt3-sandbox) 使用户能够使用新发布的OpenAI GPT-3 API创建很酷的Web演示,只需几行Python。
* [mayooear/gpt4-pdf-chatbot-langchain](https://github.com/mayooear/gpt4-pdf-chatbot-langchain) GPT4 和 LangChain 聊天机器人,适用于大型 PDF 文档
* [whoiskatrin/chart-gpt](https://github.com/whoiskatrin/chart-gpt) 基于文本输入GPT构建图表的AI工具
* [nomic-ai/gpt4all](https://github.com/nomic-ai/gpt4all) 在 CPU 上本地运行的开源助手样式大型语言模型
* [langchain-ai/chat-langchain](https://github.com/langchain-ai/chat-langchain) 本地托管的聊天机器人的实现,专门针对 LangChain 文档的问答。使用 LangChain、FastAPI 和 Next.js 构建。该应用程序利用 LangChain 的流媒体支持和异步 API 为多个用户实时更新页面。
* [PrefectHQ/marvin](https://github.com/PrefectHQ/marvin) 构建激发欢乐的 使用生成式 AIAI 界面。一个轻量级的 AI 工程框架,用于构建可靠、可扩展且易于信任的自然语言界面。
* [microsoft/autogen](https://github.com/microsoft/autogen) 支持使用多个代理开发LLM应用程序,这些代理可以相互交谈以解决任务。AutoGen 代理是可定制的、可对话的,并且无缝地允许人工参与。它们可以在各种模式下运行,这些模式采用LLM,人力输入和工具的组合。
* [assafelovic/gpt-researcher](https://github.com/assafelovic/gpt-researcher) 基于 GPT 的自主代理,可对任何给定主题进行在线综合研究。可以生成详细、事实和公正的研究报告,并提供自定义选项,以专注于相关资源、大纲和课程。受最近的计划和求解和RAG(检索增强生成)论文的启发,GPT 研究员解决了速度、确定性和可靠性问题,通过并行代理工作提供更稳定的性能和更高的速度,而不是同步操作。
* [GAIR-NLP/abel](https://github.com/GAIR-NLP/abel) 数学大语言模型,为了向尼尔斯·亨里克·阿贝尔(Niels Henrik Abel)在代数和分析方面的开创性工作致敬而创建的,我们的模型也相对较好。
* [ray-project/llm-numbers](https://github.com/ray-project/llm-numbers) 每个LLM开发人员都应该知道的数字
* [THUDM/MathGLM](https://github.com/THUDM/MathGLM) GPT 可以在没有计算器的情况下解决数学问题
* [thunlp/WebCPM](https://github.com/thunlp/WebCPM) 中文长篇问答的交互式网络搜索的官方代码。使用中文预训练模型进行交互式Web搜索的项目。开发了一个网络搜索界面,它既收集人类又收集网络搜索行为。然后,使用多达 10B 的参数微调 PLM,以模仿人类的网络搜索行为,并根据收集到的事实生成答案。开源了 Web 搜索界面、数据集、实现和模型参数。
* [huggingface/transformers-bloom-inference](https://github.com/huggingface/transformers-bloom-inference) BLOOM 的快速推理解决方案
* [OpenLemur/Lemur](https://github.com/OpenLemur/Lemur) Lemur 是一种可公开访问的语言模型,针对自然语言和编码功能进行了优化,可作为多功能语言代理的骨干。随着语言模型不断从对话聊天机器人发展到可以在现实世界中采取行动的功能代理,它们既需要强大的语言理解能力,也需要执行操作的能力。狐猴平衡了自然语言和编码技能,使代理能够遵循指令、推理任务并采取脚踏实地的行动。
* [llm-attacks/llm-attacks](https://github.com/llm-attacks/llm-attacks) 对对齐语言模型的普遍和可转移攻击
* [OpenNLPLab/TransnormerLLM](https://github.com/OpenNLPLab/TransnormerLLM) 第一个基于线性注意力的LLM,在准确性和效率方面都优于传统的softmax基于注意力的模型。它是在具有多达 1.4 万亿个词元的高质量语料库上进行训练的。从以前的线性注意力架构TransNormer演变而来,进行了高级修改,包括LRPE位置嵌入,闪电注意力加速,新的门控和规范化机制。TransNormerLLM在多个公认的中文,英文和多语言通用和特定领域的基准测试中实现了其规模的竞争性能。此版本包括具有 385M、1B 和 7B 参数的基本版本。所有版本都完全开放给学术研究。开发者只需通过电子邮件申请并获得官方商业许可,即可免费使用商业用途。
* [CogStack/OpenGPT](https://github.com/CogStack/OpenGPT) 用于创建基于基础指令的数据集和培训会话领域专家大型语言模型 (LLM) 的框架。使用 OpenGPT 训练的医疗保健对话模型。
* [huchenxucs/ChatDB](https://github.com/huchenxucs/ChatDB) 具有内存的大型语言模型 (LLM) 在计算上是通用的。然而,主流LLM并没有充分利用记忆,设计受到生物大脑的严重影响。由于其近似性质和容易累积错误,传统的神经记忆机制无法支持LLM模拟复杂的推理。在本文中,我们从现代计算机体系结构中寻求灵感,以使用符号记忆增强LLM,以进行复杂的多跳推理。这样的符号内存框架被实例化为LLM和一组SQL数据库,其中LLM生成SQL指令来操作SQL数据库。我们在需要复杂推理的合成数据集上验证了所提出的记忆框架的有效性。
* [intel-analytics/BigDL](https://github.com/intel-analytics/BigDL/) 用于在英特尔 XPU(从笔记本电脑到 GPU 再到云)上运行 LLM(大型语言模型),使用 INT4 以极低的延迟(适用于任何 PyTorch 模型)。
* [WangHuiNEU/llm](https://github.com/WangHuiNEU/llm) 大模型社区每周都要发布近百个模型,本项目会及时整理相关模型和文章并期望成为中文社区的大模型研究人员的模型和技术备忘录,每天会及时更新最新的模型,并详细解读技术细节
* [Magnetic2014/llm-alignment-survey](https://github.com/Magnetic2014/llm-alignment-survey) 用于大型语言模型 (LLM) 对齐的精选阅读列表。
* [zjunlp/EasyEdit](https://github.com/zjunlp/EasyEdit) 一个易于使用的LLM知识编辑框架。其目的是在特定域内有效地改变 LLM 的行为,而不会对其他输入的性能产生负面影响。它的设计易于使用和扩展。EasyEdit 包含编辑器、方法(SERAC、MEND、ROME、MEMIT、Knowledge Neuron)和评估的统一框架,分别表示编辑场景、编辑技术和评估方法。
* [OpenBMB/XAgent](https://github.com/OpenBMB/XAgent) XAgent 是一个开源实验性大型语言模型 (LLM) 驱动的自治代理,可以自动解决各种任务。它被设计为可应用于各种任务的通用代理。目标是创建一个可以解决任何给定任务的超级智能代理!具有以下功能:自主性:XAgent可以在没有人类参与的情况下自动解决各种任务。`安全`:XAgent旨在安全运行。所有操作都约束在 docker 容器内。`可扩展性`:XAgent 被设计为可扩展的。您可以轻松添加新工具来增强代理的能力,甚至是新代理!`GUI`:友好的 GUI 来与代理交互。还可以使用命令行与代理进行交互。`与人类合作`:可以与您合作处理任务。它不仅能够在旅途中按照您的指导解决复杂的任务,而且在遇到挑战时还可以寻求您的帮助。XAgent由三部分组成:`调度程序`负责动态实例化任务并将其调度给不同的代理。它允许我们添加新代理并提高代理的能力。计划员负责生成和纠正任务计划。它将任务划分为子任务并为其生成里程碑,允许代理逐步解决任务。`参与者`负责执行操作以实现目标并完成子任务。参与者利用各种工具解决子任务,也可以与人类协作解决任务。ToolServer 是为 XAgent 提供强大而安全的工具来解决任务的服务器。它是一个 docker 容器。提供以下工具:`文件编辑器`提供了一个文本编辑工具来写入、读取和修改文件。`Python Notebook`提供了一个交互式Python笔记本,可以运行Python代码来验证想法,绘制图形等。`网络浏览器`提供用于搜索和访问网页的网页浏览器。`Shell` 提供了一个 bash shell 工具,可以执行任何 shell 命令,甚至可以安装程序和主机服务。`Rapid API` 提供了一个从 Rapid API 检索 API 并调用它们的工具,它提供了广泛的 API 供 XAgent 使用。还可以轻松地将新工具添加到ToolServer,以增强XAgent的能力。
* [THUDM/AgentTuning](https://github.com/THUDM/AgentTuning) 使用跨多个代理任务的交互轨迹来调整LLM的第一次尝试。评估结果表明,AgentTuning 使 LLM 的代理功能能够在看不见的代理任务上具有强大的泛化能力,同时在一般语言能力方面保持良好。我们已经开源了AgentInstruct数据集和AgentLM。AgentInstruct 是一个精心策划的数据集,包含 1,866 个高质量的交互,旨在增强 6 个不同现实世界任务中的 AI 代理。AgentLM模型是通过对Llama2聊天系列的AgentInstruct数据集和ShareGPT数据集进行混合训练生成的。
* [QwenLM/Qwen-VL](https://github.com/QwenLM/Qwen-VL) 由阿里云提出的Qwen-VL(通义千问-VL)聊天和预训练大视觉语言模型的官方回购。
* [OpenBMB/BMTools](https://github.com/OpenBMB/BMTools) 大模型的工具学习,ChatGPT插件的开源解决方案。可以(1)通过编写python函数轻松构建插件(2)使用外部ChatGPT插件。
* [THUDM/AgentBench](https://github.com/THUDM/AgentBench) 第一个旨在评估LLM作为代理在不同环境中的基准测试。它包含 8 个不同的环境,以更全面地评估 LLM 在各种场景中作为自主代理运行的能力。这些环境包括 5 个新创建的域,即 操作系统、数据库、知识图谱、数字纸牌游戏、横向思维难题
* [InternLM/InternLM-XComposer](https://github.com/InternLM/InternLM-XComposer) 基于InternLM的视觉语言大型模型(VLLM),用于高级文本图像理解和构图。
* [THUDM/CogVLM](https://github.com/THUDM/CogVLM) 强大的开源视觉语言模型(VLM)。CogVLM-17B具有100亿个视觉参数和70亿个语言参数。在10个经典的跨模态基准测试上实现了最先进的性能,包括NoCaps,Flicker30k字幕,RefCOCO,RefCOCO+,RefCOCOg,Visual7W,GQA,ScienceQA,VizWiz VQA和TDIUC,并在VQAv2,OKVQA,TextVQA,COCO字幕等方面排名第二,超过或匹配PaLI-X 55B。CogVLM还可以与您讨论图像。CogVLM 是一个强大的开源视觉语言模型,利用视觉专家模块深度整合语言编码和视觉编码,在 10 项权威跨模态基准上取得了SOTA性能。目前仅支持英文,后续会提供中英双语版本支持。CogVLM模型包括四个基本组件:视觉转换器(ViT)编码器,MLP适配器,预训练大语言模型(GPT)和视觉专家模块。
* [Shaunwei/RealChar](https://github.com/Shaunwei/RealChar) 实时创建、自定义和与您的 AI 角色/同伴交谈(全部在一个代码库中!使用LLM OpenAI GPT3.5 / 4,Anthropic Claude2,Chroma Vector DB,Whisper Speech2Text,ElevenLabs Text2Speech
* [LinkSoul-AI/Chinese-Llama-2-7b](https://github.com/LinkSoul-AI/Chinese-Llama-2-7b) 开源社区第一个能下载、能运行的中文 LLaMA2 模型!全部开源,完全可商用的中文版 Llama2 模型及中英文 SFT 数据集,输入格式严格遵循 llama-2-chat 格式,兼容适配所有针对原版 llama-2-chat 模型的优化。
* [EleutherAI/math-lm](https://github.com/EleutherAI/math-lm) 数学的开放语言模型
* [aiwaves-cn/RecurrentGPT](https://github.com/aiwaves-cn/RecurrentGPT) 用自然语言(即文本段落)替换了长短期记忆RNN(LSTM)中的矢量化元素(即细胞状态、隐藏状态、输入和输出),并通过提示工程模拟递归机制。
* [eric-ai-lab/MiniGPT-5](https://github.com/eric-ai-lab/MiniGPT-5) 论文“MiniGPT-5:通过生成式Vokens交错视觉和语言生成”的正式实现
* [eureka-research/Eureka](https://github.com/eureka-research/Eureka) 通过编码大型语言模型进行人类级奖励设计,大型语言模型(LLM)作为顺序决策任务的高级语义规划者表现出色。然而,利用它们来学习复杂的低级操作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。 Eureka 利用最先进的 LLM(如 GPT-4)的卓越零镜头生成、代码编写和上下文改进功能,对奖励代码执行上下文进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。Eureka 生成的奖励函数优于专家人工设计的奖励,无需任何特定于任务的提示或预定义的奖励模板。在包含 10 种不同机器人形态的 29 种开源强化学习环境中,Eureka 在 83% 的任务中表现优于人类专家,平均标准化改进了 52%。尤里卡的通用性还提供了一种新的无梯度方法来从人类反馈(RLHF)进行强化学习,很容易结合人类监督来提高上下文中生成的奖励的质量和安全性。最后,在课程学习环境中使用尤里卡奖励,我们首次演示了一个模拟的五指影手,能够执行钢笔旋转技巧,熟练地以人类的速度操纵笔。
* [meta-math/MetaMath](https://github.com/meta-math/MetaMath) 元数学:为大型语言模型引导您自己的数学问题
* [OpenBMB/ToolBench](https://github.com/OpenBMB/ToolBench) 一个开放的平台,用于训练、服务和评估用于工具学习的大型语言模型。旨在构建开源,大规模,高质量的指令调整SFT数据,以促进构建具有通用工具使用能力的强大LLM。我们的目标是使开源LLM能够掌握数千种不同的现实世界API。我们通过收集高质量的指令调整数据集来实现这一目标。它是使用最新的ChatGPT(gpt-3.5-turbo-16k)自动构建的,该ChatGPT通过增强的函数调用功能进行了升级。我们提供数据集,相应的训练和评估脚本,以及在ToolBench上微调的功能强大的模型ToolLLaMA。
* [billxbf/ReWOO](https://github.com/billxbf/ReWOO) 高效增强语言模型的观察解耦推理,这是一种工具增强的LM范式,利用语言模型的可预见推理能力来提高系统参数和提示效率。
* [MasterAI-EAM/Darwin](https://github.com/MasterAI-EAM/Darwin) 致力于为自然科学构建基础大型语言模型,主要涉及物理、化学和材料科学。
* [aiwaves-cn/agents](https://github.com/aiwaves-cn/agents) 用于构建自治语言代理的开源库/框架。该库包括长期短期记忆、工具使用、Web 导航、多智能体通信以及包括人代理交互和符号控制在内的全新功能。使用代理,只需用自然语言填写配置文件,并在终端、Gradio 接口或后端服务中部署语言代理,即可自定义语言代理或多代理系统。
* [hitz-zentroa/GoLLIE](https://github.com/hitz-zentroa/GoLLIE) 信息提取大语言模型遵循指南
* [neulab/prompt2model](https://github.com/neulab/prompt2model) 从自然语言指令生成可部署模型,采用自然语言任务描述(如 ChatGPT 等 LLM 使用的提示)来训练有利于部署的小型专用模型的系统。
* [web-arena-x/webarena](https://github.com/web-arena-x/webarena) 一个独立的、自托管的 Web 环境,用于构建LLM自治代理
* [learn-anything/learn-anything.xyz](https://github.com/learn-anything/learn-anything.xyz) 组织世界知识,探索联系并策划学习路径。Learn Anything 的最终目标是成为跟踪您所知道的内容的最佳场所和工具。你有什么想法。你接下来要学习什么。你还不知道的。以及根据您已经知道的知识,如何以最佳方式学习它。LA 的部分目标是达到 AGI 并以完全开放的方式进行。目前,这一旅程的起点是提供最先进的能力来索引一个人的任何知识,并为它提供具有不同隐私控制的聊天机器人界面。
* [dikw/hh_rlhf_cn](https://huggingface.co/datasets/dikw/hh_rlhf_cn) hh-rlhf中文翻译版本。基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。hh_rlhf_train 合并中英文训练集数据清洗过后17万条,hh_rlhf_test 合并中英文测试集数据 清洗过后9千条,harmless_base_cn_train 42394条,harmless_base_cn_test 2304条,helpful_base_cn_train 43722条,helpful_base_cn_test. 2346条。
* [beyond/rlhf-reward-single-round-trans_chinese](https://huggingface.co/datasets/beyond/rlhf-reward-single-round-trans_chinese) 英文 reward 数据集的翻译版本,用于训练一个奖励模型。类似的英文 reward 数据集:[yitingxie/rlhf-reward-datasets](https://huggingface.co/datasets/yitingxie/rlhf-reward-datasets) [beyond/rlhf-reward-single-round](https://huggingface.co/datasets/beyond/rlhf-reward-single-round)
* [opendilab/awesome-RLHF](https://github.com/opendilab/awesome-RLHF) 带有人类反馈资源的强化学习的精选列表(持续更新)
* [PKU-Alignment/safe-rlhf](https://github.com/PKU-Alignment/safe-rlhf) 由北京大学 PKU-Alignment 团队开发的高度模块化开源 RLHF 框架。它旨在为比对研究提供训练数据和可重复的代码管道,特别是通过安全 RLHF 方法进行的约束比对LLM研究。特点是:支持SFT、RLHF和Safe RLHF训练,适用于流行的预训练模型:LLaMA、OPT、百川等。提供大型人工标记数据集(最多 1M 对),包括有用和无害的偏好,以支持可重复的 RLHF 研究。支持奖励模型和成本模型的训练,并提供预先训练的检查点。支持 SFT 和 RLHF 的自定义参数和数据集。为安全约束验证提供多尺度指标,例如 BIG-bench、GPT-4 评估。
* [tatsu-lab/alpaca_eval](https://github.com/tatsu-lab/alpaca_eval) 对指令遵循模型(例如 ChatGPT)的评估通常需要人工交互。这既费时又昂贵,而且难以复制。AlpacaEval 在LLM基于自动评估中,快速、廉价、可复制,并针对 20K 人工注释进行验证。它对模型开发特别有用。尽管我们改进了以前的自动评估管道,但仍然存在一些基本限制,例如偏爱更长的输出。
* [aaamoon/copilot-gpt4-service](https://github.com/aaamoon/copilot-gpt4-service) 将 Github Copilot 转换为 ChatGPT
* [Lightning-AI/lit-gpt](https://github.com/Lightning-AI/lit-gpt) 基于 nanoGPT 的最先进的开源LLMs的可破解实现。支持闪光注意力、4 位和 8 位量化、LoRA 和 LLaMA 适配器微调、预训练。Apache 2.0 许可。
* [KudoAI/chatgpt.js](https://github.com/KudoAI/chatgpt.js) 功能强大的 JS 库,允许与 ChatGPT DOM 进行超级轻松的交互。
* [xorbitsai/inference](https://github.com/xorbitsai/inference) 通过更改一行代码,将 OpenAI GPT 替换为应用程序中的另一个 LLM GPT。Xinference 让您可以自由地使用您需要的任何LLM内容。借助 Xinference,您可以使用任何开源语言模型、语音识别模型和多模态模型运行推理,无论是在云端、本地,还是在笔记本电脑上。
* [modelscope/modelscope-agent](https://github.com/modelscope/modelscope-agent) 开源版GPTs,将ModelScope中的模型与世界连接起来的智能体框架。单个代理具有角色扮演、呼叫、LLM工具使用、计划和记忆等能力。它主要具有以下特点:简单的代理实现过程:只需指定角色指令、LLM名称和工具名称列表即可实现代理应用程序。该框架会自动安排工具使用、规划和内存的工作流。丰富的模型和工具:框架配备了丰富的LLM接口,如Dashscope和Modelscope模型接口、OpenAI模型接口等。内置丰富的工具,如代码解释器、天气查询、文本到图像、网页浏览等,可以轻松定制专属代理。接口统一,扩展性高:框架具有清晰的工具和LLM注册机制,方便用户扩展更多样化的Agent应用。低耦合:开发人员可以轻松使用内置工具、LLM内存和其他组件,而无需绑定更高级别的代理。
* [mnotgod96/AppAgent](https://github.com/mnotgod96/AppAgent) 作为智能手机用户的多模式代理,一个LLM基于多模式代理框架,旨在操作智能手机应用程序。
* [Portkey-AI/gateway](https://github.com/Portkey-AI/gateway) 超快的 AI 网关。使用 1 个快速友好的 API 路由到 100+LLMs。它通过统一的 API 简化了对 OpenAI、Anthropic、Mistral、LLama2、Anyscale、Google Gemini 等的 API 请求。速度极快(速度提高 9.9 倍),占用空间小,跨多个模型、提供程序和密钥进行负载均衡,回退可确保应用保持弹性,具有指数回退的自动重试,根据需要插入中间件,超过 100B 词元的测试
* [InternLM/HuixiangDou](https://github.com/InternLM/HuixiangDou) 基于 LLM 的领域知识助手。特点:应对群聊这类复杂场景,解答用户问题的同时,不会消息泛滥。提出一套解答技术问题的算法 pipeline。部署成本低。
* [OrionStarAI/Orion](https://github.com/OrionStarAI/Orion) Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。
* [QwenLM/Qwen-Audio](https://github.com/QwenLM/Qwen-Audio) Qwen Large Audio Language Model 是阿里云提出的大型模型系列Qwen的多模态版本。Qwen-Audio接受各种音频(人类语音、自然声音、音乐和歌曲)和文本作为输入,输出文本。贡献包括:`基础音频模型`:基础的多任务音频语言模型,支持各种任务、语言和音频类型,作为通用音频理解模型。在Qwen-Audio的基础上,我们通过指令微调开发Qwen-Audio-Chat,实现多轮对话,支持多样化的音频场景。`适用于所有类型音频的多任务学习框架`:为了扩大音频语言预训练的规模,我们通过提出一个多任务训练框架,实现知识共享和避免一对多干扰,解决了与不同数据集相关的文本标签变化的挑战。我们的模型包含 30 多个任务,大量实验表明该模型具有强大的性能。`强大的性能`:在各种基准测试任务中都取得了令人印象深刻的性能,而无需任何特定任务的微调,超过了同类产品。在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 的测试集上取得先进的结果。`从音频和文本输入灵活多运行聊天`:支持多音频分析、声音理解和推理、音乐欣赏和工具使用。
* [microsoft/ToRA](https://github.com/microsoft/ToRA) 一系列工具集成推理代理,旨在通过与工具(例如计算库和符号求解器)交互来解决具有挑战性的数学推理问题。ToRA系列将自然语言推理与外部工具的运用无缝集成,从而融合了语言的分析能力和外部工具的计算效率。
* [intel/intel-extension-for-transformers](https://github.com/intel/intel-extension-for-transformers) 在几分钟内在您喜欢的设备上构建您的聊天机器人;为 LLM 提供 SOTA 压缩技术;在英特尔平台上高效运行 LLM
* [microsoft/LLMLingua](https://github.com/microsoft/LLMLingua) 为了加快LLMs推理速度并增强LLM对关键信息的感知,压缩提示和 KV-Cache,以最小的性能损失实现高达 20 倍的压缩。利用紧凑、训练有素的语言模型(如 GPT2-small、LLaMA-7B)来识别和删除提示中的非必要标记。这种方法支持使用大型语言模型进行高效推理。
* [langfuse/langfuse](https://github.com/langfuse/langfuse) 开源LLM可观测性、分析、提示管理、评估、测试、监控、日志记录、跟踪、LLMOps。Langfuse:LLM工程平台。一起调试、分析和迭代 - 适用于 Typescript、Python、OpenAI、Langchain、Litellm、Flowise、Superagent 和 Langflow 的稳定 SDK + 集成
* [vanna-ai/vanna](https://github.com/vanna-ai/vanna) MIT 许可的开源 Python RAG(检索增强生成)框架,用于 SQL 生成和相关功能。与您的 SQL 数据库聊天。LLMs通过使用 RAG准确生成文本到 SQL。
* [bigemon/ChatGPT-ToolBox](https://github.com/bigemon/ChatGPT-ToolBox) 由ChatGPT自己编写的ChatGPT工具箱。 当前功能: 1. 绕过高负载禁止登录 2.关闭数据监管 3.链路维持(减少网络错误) 4.API混合接入 5.会话导入导出 6.聊天记录下载 7.解锁GPT4-Mobile
* [sparticleinc/chatgpt-google-summary-extension](https://github.com/sparticleinc/chatgpt-google-summary-extension) Chrome扩展程序,可查看ChatGPT摘要以及Google搜索结果和YouTube视频,还支持Yahoo、PubMed、PMC、NewsPicks、Github、Nikkei、Bing、Google Patents,以及任何页面摘要。
* [stanford-oval/WikiChat](https://github.com/stanford-oval/WikiChat) 通过从维基百科检索数据来阻止大型语言模型的幻觉。
* [awesome-chatgpt/awesome-chatgpt](https://github.com/awesome-chatgpt/awesome-chatgpt/tree/main) 令人敬畏的资源集合,包括与 ChatGPT 相关的各种工具、文档、资源、应用程序和用例。
* [casibase/casibase](https://github.com/casibase/casibase) 开源 AI 类 LangChain RAG(Retrieval-Augmented Generation)知识数据库,具有 Web UI 和企业 SSO,支持 OpenAI、Azure、LLaMA、Google Gemini、HuggingFace、Claude、Grok 等
* [QwenLM/Qwen-Agent](https://github.com/QwenLM/Qwen-Agent) 基于 Qwen 构建的代理框架和应用程序,具有插件、代码解释器、RAG 和 Chrome 扩展。它还附带了示例应用程序,例如浏览器助手、代码解释器和自定义助手。
* [assafelovic/gpt-newspaper](https://github.com/assafelovic/gpt-newspaper) 创新的自主代理,旨在创建根据用户偏好量身定制的个性化报纸。GPT 报纸通过利用人工智能的力量根据个人品味和兴趣策划、撰写、设计和编辑内容,彻底改变了我们消费新闻的方式。
* [weijunext/smart-excel-ai](https://github.com/weijunext/smart-excel-ai) 使用 ChatGPT 在几秒钟内生成您需要的 Excel 公式。
* [bclswl0827/ChatGemini](https://github.com/bclswl0827/ChatGemini) 基于 Google Gemini 的网页客户端,对标 ChatGPT 3.5,操作逻辑同 ChatGPT 3.5 一致,同时支持在聊天中上传图片,应用会自动调用 Gemini-Pro-Vision 模型进行识图。
* [yuchenlin/LLM-Blender](https://github.com/yuchenlin/LLM-Blender) 创新集成框架,利用多个开源LLMs的不同优势来获得始终如一的卓越性能。通过排名切除劣势,通过融合生成整合优势,增强能力LLMs。
* [zhoudaquan/ChatAnything](https://github.com/zhoudaquan/ChatAnything) 使用当前无限的大型语言模型进行增强,产生具有预期视觉外观的假想 Facetime 头像聊天
* [zhangliwei7758/unity-AI-Chat-Toolkit](https://github.com/zhangliwei7758/unity-AI-Chat-Toolkit) 使用unity实现AI聊天相关功能。包含了对chatgpt、chatglm等大语言模型的api调用的代码实现以及实现了微软Azure以及百度AI的语音功能,语音服务均采用web api实现,支持Win / WebGL / Android等平台
* [AINativeLab/gptstore-data-backup](https://github.com/AINativeLab/gptstore-data-backup) GPT Store 趋势数据的每日存档
* [JimLiu/gpt-games](https://github.com/JimLiu/gpt-games) 使用 GPT 构建游戏,游戏北京浮生记的 GPT 版本,让你通过 ChatGPT 也可以体验游戏。
* [tiingweii-shii/Awesome-Resource-Efficient-LLM-Papers](https://github.com/tiingweii-shii/Awesome-Resource-Efficient-LLM-Papers) 关于资源节约LLMs的高质量论文的精选清单
* [lafmdp/Awesome-Papers-Autonomous-Agent](https://github.com/lafmdp/Awesome-Papers-Autonomous-Agent) 最近关于构建自主代理的论文集。包括两个主题:基于RL的代理/LLM基于代理。在人工智能中,智能代理(智能体)是以智能方式行事的代理;它感知自己的环境,自主采取行动以实现目标,并可能通过学习或获取知识来提高其表现。智能代理可以是简单的,也可以是复杂的:恒温器其他控制系统被认为是智能代理的一个例子,就像人类一样,任何符合定义的系统,例如公司、国家或生物群落。
* [Aaronhuang-778/BiLLM](https://github.com/Aaronhuang-778/BiLLM) 突破训练后量化的LLMs极限,预训练的大型语言模型 (LLMs) 表现出卓越的通用语言处理能力,但对内存和计算资源有很大的要求。作为一种强大的压缩技术,二值化可以将模型权重大幅降低到仅 1 位,从而降低昂贵的计算和内存要求。然而,现有的量化技术无法在超低位宽下保持LLM性能。为了应对这一挑战,我们提出了BiLLM,这是一种为预训练LLMs量身定制的突破性1位训练后量化方案。基于权重分布LLMs,BiLLM首先识别并结构性地选择显著权重,并通过有效的二元残差近似策略将压缩损失最小化。此外,考虑到非显著权重的钟形分布,我们提出了一种最佳的拆分搜索,以准确地对它们进行分组和二值化。BiLLM首次实现了高精度推理(例如,LLaMA2-70B上的8.41困惑),在各种LLMs系列和评估指标中仅具有1.08位权重,远远优于SOTA量化方法LLM。此外,BiLLM 可在单个 GPU 上在 0.5 小时内实现 70 亿个权重的二值化过程LLM,表现出令人满意的时间效率。
* [Meituan-AutoML/MobileVLM](https://github.com/Meituan-AutoML/MobileVLM) 适用于移动设备的强大而开放的视觉语言助手
* [FlagAI-Open/FlagAI](https://github.com/FlagAI-Open/FlagAI) 快速、易用且可扩展的大型模型工具包。我们的目标是支持在各种下游任务中以多模态的方式训练、微调和部署大规模模型。
* [Nutlope/notesGPT](https://github.com/Nutlope/notesGPT) 在几秒钟内从您的笔记中生成操作项。由 Convex(数据库和云函数)、Together.ai (LLM Mixtral)和 Whisper (ASR) 提供支持。
* [zhiweihu1103/AgriMa](https://github.com/zhiweihu1103/AgriMa) 后稷-首个开源中文农业大模型。由山西大学、山西农业大学、The Fin AI联合研发,以Baichuan为底座,基于海量有监督农业领域相关数据微调,具备广泛的农业知识和智能分析能力,该模型旨在为农业领域提供全面而高效的信息处理和决策支持。
* [LLaVA-VL/LLaVA-Plus-Codebase](https://github.com/LLaVA-VL/LLaVA-Plus-Codebase) 即插即用的大型语言和视觉助手
* [OrionStarAI/OrionStar-Yi-34B-Chat](https://github.com/OrionStarAI/OrionStar-Yi-34B-Chat) 开源中英文Chat模型,由猎户星空基于Yi-34B开源模型、使用15W+高质量语料微调而成。
* [lightyear-turing/TuringMM-34B-Chat](https://github.com/lightyear-turing/TuringMM-34B-Chat) 开源的中英文Chat模型,由北京光年无限科技有限公司基于Yi-34B开源模型、基于14w的精标教育数据进行sft微调以及15W对齐数据进行DPO偏好学习得到的一个微调模型。
* [Tele-AI/Telechat](https://github.com/Tele-AI/Telechat) 中电信人工智能科技研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。开源了对话模型TeleChat-7B与TeleChat-12B。TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。[数据下载](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD)
* [Clouditera/SecGPT](https://github.com/Clouditera/secgpt) 将人工智能技术引入网络安全领域,以提高网络防御的效率和效果。其使命是推动网络安全智能化,为社会提供更安全的数字生活环境。SecGPT可以作为基座安全模型,用于探索各种网络安全任务。
* [iusztinpaul/hands-on-llms](https://github.com/iusztinpaul/hands-on-llms) 通过设计、培训和部署实时财务顾问LLM系统,免费了解 LLM、LLMOps 和向量数据库 ~ 源代码 + 视频和阅读材料
* [openai/prm800k](https://github.com/openai/prm800k) 一个过程监督数据集,包含 800,000 个步骤级正确性标签,用于模型生成的 MATH 数据集中的问题解决方案。
* [CrazyBoyM/llama2-Chinese-chat](https://github.com/CrazyBoyM/llama2-Chinese-chat) llama2 13b 中文多轮对话模型,且"首发版"已在LLM排行榜取得优秀成绩(至今仍在同类模型中处于较领先位置)。llama2 Chinese chat - 本项目是一个教程记录整理的repo,旨在提供给新手的参照价值和开箱即用的中文LLaMa2对话体验。包含训练过程记录,各种主要量化方式,部署后端api的推荐方案,以及在一个具体的前端网页上实现开箱即用的流畅对话体验。
* [SUSTech/SUS-Chat-34B](https://huggingface.co/SUSTech/SUS-Chat-34B) 由南方科技大学和IDEA-CCNL联合发布的34B中英双语对话模型。该模型基于 `01-ai/Yi-34B` 数百万个高质量的多语言教学数据,并对其进行了微调。在保持基础模型强大的语言能力的同时,通过高质量的指令微调改善了模型对人类指令的响应,并擅长通过思维链模仿人类的思维过程。它在长文本中引入了指令间注意力共享,将窗口大小从 4K 扩展到 8K,显着增强了多回合对话的可用性。采用14亿令牌的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等各类指令数据
* [zjunlp/OceanGPT-7b](https://huggingface.co/zjunlp/OceanGPT-7b) 使用 KnowLM 训练的海洋科学任务,[OceanBench](https://huggingface.co/datasets/zjunlp/OceanBench)的基准测试,以评估海洋学任务的能力LLMs。它总共包括15个与海洋相关的任务,如问答、提取和描述。
* [GitHub - arielnlee/Platypus: Code for fine-tuning Platypus fam LLMs using LoRA](https://github.com/arielnlee/Platypus) # 鸭嘴兽:快速、廉价、强大的 LLMs。基于 LLaMA 和 LLaMa-2 变压器架构的一系列微调和合并变体。鸭嘴兽利用 LoRA 和 PEFT。
* [HIT-SCIR/huozi](https://github.com/HIT-SCIR/huozi) 活字3.0为一个稀疏混合专家模型,支持32K上下文,具有丰富的中、英文知识和强大的数学推理、代码生成能力。活字3.0较旧版活字具有更强的指令遵循能力和安全性。[中文MT-Bench](https://github.com/HIT-SCIR/huozi/blob/main/data/mt-bench-zh): 本数据集是英文MT-Bench对话能力评测数据集的中文版。它包含了一系列多轮对话问题,每一组问题都经过了精心的人工校对,并为适应中文语境进行了必要的调整。
* [thu-coai/CharacterGLM-6B](https://github.com/thu-coai/CharacterGLM-6B) 用大型语言模型来进行自定义中文 AI 角色对话,主要考虑了七种属性,包括身份、兴趣、观点、经历、成就、社交关系和其他。行为主要由一些动态的元素组成:语言特征、情感表达和互动模式。例如,老年人更倾向于使用一些更正式的语言,而青少年则更喜欢用网络流行语。CharacterGLM则主要考虑了语言学特征和性格作为行为方面的设计。收集了包含属性和行为的角色描述,并众包构建了一个大规模高质量的对话数据集,并将角色描述转化为了自然语言提示,进而使用从6B到66B参数的ChatGLM模型进行微调来打造CharacterGLM。此外,还收集了一部分线上交互数据来增强 CharacterGLM 的训练,以实现CharacterGLM的自我完善式迭代。
* [IEIT-Yuan/Yuan-2.0](https://github.com/IEIT-Yuan/Yuan-2.0) 源2.0 是浪潮信息发布的新一代基础语言大模型。我们开源了全部的3个模型:源2.0-102B、源2.0-51B、源2.0-2B。提供预训练、微调、推理服务的相关脚本,以供研发人员做进一步开发。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。
* [Alibaba-NLP/SeqGPT](https://github.com/Alibaba-NLP/SeqGPT) 用于开放域序列理解的开箱即用大型语言模型
* [Kipok/NeMo-Skills](https://github.com/Kipok/NeMo-Skills) 提供了一个管道来提高大型语言模型的“技能”(LLMs)。目前,我们专注于解决简单数学问题的能力,但更多的技能即将到来(例如编码和表格理解)。
* [xverse-ai/XVERSE-65B](https://github.com/xverse-ai/XVERSE-65B) 由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),参数规模为 650 亿,本次开源的模型为底座模型 XVERSE-65B。
* [jina-ai/reader](https://github.com/jina-ai/reader) 将任何 URL 转换为具有简单前缀 https://r.jina.ai/ 的LLM友好输入。您LLMs应该得到更好的输入。Reader 执行以下两项操作:阅读:它将任何 URL 转换为带有 LLM https://r.jina.ai/https://your.url 的 -friendly 输入。免费为您的代理和 RAG 系统提供改进的输出。搜索:它使用 https://s.jina.ai/your+query .这使您可以LLMs从网络上访问最新的世界知识。
* [ai4finance-foundation/finrobot](https://github.com/ai4finance-foundation/finrobot) 用于金融应用程序的开源 AI 代理平台,使用 LLMs。FinRobot 是一个超越 FinGPT 范围的 AI 代理平台,代表了为金融应用精心设计的综合解决方案。它集成了各种各样的人工智能技术,超越了单纯的语言模型。这一广阔的愿景凸显了该平台的多功能性和适应性,满足了金融业的多方面需求。FinRobot的整体框架分为四个不同的层,每个层都旨在解决金融AI处理和应用的特定方面:1.金融 AI 代理层:金融 AI 代理层现在包括金融思维链 (CoT) 提示,增强了复杂的分析和决策能力;市场预测代理、文档分析代理和交易策略代理利用 CoT 将金融挑战分解为逻辑步骤,将其先进的算法和领域专业知识与金融市场不断变化的动态相结合,以获得准确、可操作的见解。2.金融LLMs算法层:金融LLMs算法层配置并利用针对特定领域和全球市场分析量身定制的特别调整模型。3.LLMOps 和 DataOps 层:LLMOps 层实施了多源集成策略,利用一系列最先进的模型,选择LLMs最适合特定财务任务的。4.多源LLM基础模型层:此基础层支持各种通用和专用LLMs的即插即用功能。`FinRobot:座席工作流程`。1.感知:该模块从市场提要、新闻和经济指标中捕获和解释多模式财务数据,使用复杂的技术来构建数据以进行彻底分析。2.大脑:作为核心处理单元,该模块使用LLMs并利用金融思维链 (CoT) 流程感知来自感知模块的数据,以生成结构化指令。3.操作:该模块执行来自大脑模块的指令,应用工具将分析见解转化为可操作的结果;行动包括交易、投资组合调整、生成报告或发送警报,从而积极影响金融环境。`FinRobot:智能调度程序`.确保模型多样性和优化集成和选择LLM最适合每个任务的核心。Director Agent:此组件协调任务分配过程,确保根据任务的性能指标和对特定任务的适用性将任务分配给代理。代理注册:管理注册并跟踪系统内代理的可用性,促进高效的任务分配过程。Agent Adaptor:根据特定任务定制代理功能,增强其性能并在整个系统中集成。任务管理器:管理和存储为各种财务任务量身定制的不同通用和基于微调LLMs的代理,定期更新以确保相关性和有效性。
* [microsoft/TaskWeaver](https://github.com/microsoft/TaskWeaver) 代码优先代理框架,用于无缝规划和执行数据分析任务。TaskWeaver 是一个代码优先代理框架,用于无缝规划和执行数据分析任务。这个创新的框架通过代码片段解释用户请求,并以函数的形式有效地协调各种插件,以有状态的方式执行数据分析任务。与许多仅使用LLMs文本跟踪聊天记录的代理框架不同,TaskWeaver 同时保留聊天记录和代码执行历史记录,包括内存中数据。此功能增强了代理框架的表现力,使其成为处理复杂数据结构(如高维表格数据)的理想选择。特色:丰富的数据结构 -例如 DataFrames,而不是处理字符串。自定义算法 - 允许您将自己的算法封装到插件中并编排它们。整合特定领域的知识 - 旨在轻松整合特定领域的知识,以提高可靠性。有状态执行 - 旨在支持生成的代码的有状态执行,以确保一致且流畅的用户体验。代码验证 - 旨在在执行之前验证生成的代码。它可以检测生成的代码中的潜在问题,并提供修复建议。易于使用 - 包含示例插件、示例和教程,可帮助您入门。 提供开箱即用的体验,允许用户在安装后立即运行它。易于调试 - 具有详细和透明的日志,可帮助您了解整个过程,包括LLM提示、代码生成和执行过程。安全注意事项 - 支持基本的会话管理,以将不同用户的数据分开。代码执行被分成不同的进程,以避免相互干扰。易于扩展 - 以使用多个代理作为插件完成更复杂的任务。
* [lavague-ai/LaVague](https://github.com/lavague-ai/LaVague) LaVague 是一个开源的大型行动模型框架,用于开发 AI Web 代理。我们的网络代理采用一个目标,例如“打印 Hugging Face 扩散器库的安装步骤”,并通过利用我们的两个核心组件执行实现这一目标所需的操作:一个世界模型,它采用目标和当前状态(又称当前网页)并将其转化为指令;一个动作引擎,它将这些指令“编译”为动作代码,例如Selenium或Playwright并执行它们。
* [explodinggradients/ragas](https://github.com/explodinggradients/ragas) 检索增强生成 (RAG) 管道的评估框架。RAG 表示一类使用外部数据来增强LLM上下文的LLM应用程序。现有的工具和框架可以帮助你构建这些管道,但评估它并量化你的管道性能可能很困难。这就是 Ragas (RAG Assessment) 的用武之地。Ragas 为您提供了基于最新研究的工具,用于评估LLM生成的文本,让您深入了解 RAG 管道。Ragas 可以与您的 CI/CD 集成,以提供持续检查以确保性能。Ragas 提供了几个指标来评估 RAG 系统的各个方面:1.检索器:提供衡量检索系统性能的context_precision和context_recall。2.生成器 (LLM):提供衡量幻觉的忠诚度和衡量答案与问题相关性的answer_relevancy。在这里,我们使用了四个指标,但它们代表什么?忠实度 - 根据问题衡量答案与上下文的事实一致性。Context_precision - 衡量检索到的上下文与问题的相关性,传达检索管道的质量。Answer_relevancy - 衡量答案与问题的相关性。Context_recall - 衡量检索器检索回答问题所需的所有必要信息的能力。
* [Dataherald/dataherald](https://github.com/Dataherald/dataherald) 与 SQL 数据库交互,使用 LLMs Natural Language to SQL。Dataherald 是一个自然语言到 SQL 的引擎,专为对关系数据进行企业级问答而构建。它允许您从数据库中设置一个 API,该 API 可以用简单的英语回答问题。您可以使用 Dataherald 执行以下操作:允许业务用户从数据仓库中获取见解,而无需通过数据分析师;从 SaaS 应用程序内的生产数据库启用 Q+A;从您的专有数据创建 ChatGPT 插件。
* [onuratakan/gpt-computer-assistant](https://github.com/onuratakan/gpt-computer-assistant) 为 Windows 和 Linux\MacOS 提供 GPT-4O\ChatGPT 应用程序的替代工作。这样一来,这是一项新鲜而稳定的作品。此时,您可以轻松地安装为 Python 库,但我们将准备一个管道来提供本机安装脚本 (.exe)。
* [OpenGVLab/InternVL](https://github.com/OpenGVLab/InternVL) InternVL 系列:GPT-4o 的开创性开源替代品。接近GPT-4o表现的可商用开源多模态对话模型。InternVL 1.5,这是一种开源多模态大型语言模型 (MLLM),旨在弥合开源和专有商业模型在多模态理解方面的能力差距。我们介绍三种简单的设计:强视觉编码器:我们探索了一种针对大规模视觉基础模型的持续学习策略——InternViT-6B,提升其视觉理解能力,使其可以在不同的LLMs环境中转移和复用。动态高分辨率:我们根据输入图像的纵横比和分辨率,将图像划分为 1 到 40 的 448 × 448 像素的瓦片,最高支持 4K 分辨率输入。高质量的双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见场景、文档图像,并用中英文问答对进行标注,显著提高了OCR和中文相关任务的性能。
* [liou666/polyglot](https://github.com/liou666/polyglot) 一款跨平台的桌面端应用程序(目前已支持web版本)。基于ChatGPT和Azure人工智能语言模型作为底层服务,旨在提供一个易于使用的语言练习平台,方便进行多语种的口语练习。
### 其他_文本生成、文本对话
* [Awesome-TOD-NLG-Survey](https://github.com/yizhen20133868/Awesome-TOD-NLG-Survey) 面向任务的对话系统 (TOD) 中自然语言生成的调查:最新进展和新前沿
* [openai/gpt-3](https://github.com/openai/gpt-3) 语言模型是少样本的学习器。最近的工作表明,通过对大量文本语料库进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试上取得了实质性进展。虽然在架构中通常与任务无关,但这种方法仍然需要特定于任务的数千或数万个示例的微调数据集。相比之下,人类通常只能从几个例子或简单的指令中执行新的语言任务——这是当前NLP系统仍然难以做到的。在这里,我们表明,扩展语言模型可以大大提高与任务无关的少镜头性能,有时甚至可以通过先前最先进的微调方法达到竞争力。具体来说,我们训练 GPT-3,一种具有 1750 亿个参数的自回归语言模型,比之前任何非稀疏语言模型多 10 倍,并在少数镜头设置中测试其性能。对于所有任务,GPT-3 在没有任何梯度更新或微调的情况下应用,任务和少数镜头演示纯粹通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解密单词、在句子中使用新单词或执行 3 位数算术。同时,我们还确定了 GPT-3 的少数镜头学习仍在挣扎的一些数据集,以及 GPT-3 面临与大型网络语料库训练相关的方法问题的一些数据集。最后,我们发现 GPT-3 可以生成人类评估人员难以区分的新闻文章样本与人类撰写的文章。我们讨论了这一发现和一般 GPT-3 更广泛的社会影响。
* [openai/gpt-2](https://github.com/openai/gpt-2) 论文“语言模型是无监督的多任务学习者”中的代码和模型。
* [karpathy/minGPT](https://github.com/karpathy/minGPT) OpenAI GPT(生成预训练转换器)训练的最小PyTorch 重新实现
* [karpathy/nanoGPT](https://github.com/karpathy/nanoGPT) 用于训练/微调中型 GPT(GPT-2) 的最简单、最快的存储库。
* [minimaxir/gpt-2-simple](https://github.com/minimaxir/gpt-2-simple) Py包可以轻松地在新文本上重新训练 OpenAI 的 GPT-2 文本生成模型
* [XiangLi1999/PrefixTuning](https://github.com/XiangLi1999/PrefixTuning) 前缀微调:优化文本生成的连续提示模板。提出一种更好的微调方法,通过加入前缀实现统一模型在不同任务上的微调,实现小样本学习,极大地减少了参数量。目前对于前缀的构造,大致可以分为本文的连续前缀和离散前缀(自动生成或手动设计),对于在摘要任务上加入离散前缀,有点类似于从对话中提取特征或结构,但这种方法的优势就在于它不需要大量的样本,而传统的融入结构的方法仍然需要很多样本。
* [RUCAIBox/TextBox](https://github.com/RUCAIBox/TextBox) 基于Python和PyTorch开发的,用于在一个统一的、全面的、高效的框架中复现和开发文本生成算法,主要面向研究者使用。我们的库包括16种文本生成算法,涵盖了两个主要任务:无条件(无输入)生成、序列到序列(Seq2Seq)生成,包括机器翻译和摘要生成。模型 无条件:LSTMVAE (Bowman et al., 2016)、CNNVAE (Yang et al., 2017)、HybridVAE (Semeniuta et al., 2017)、SeqGAN (Yu et al., 2017)、TextGAN (Zhang et al., 2017)、RankGAN (Lin et al., 2017)、MaliGAN (Che et al., 2017)、LeakGAN (Guo et al., 2018)、MaskGAN (Fedus et al., 2018)。序列到序列 RNN (Sutskever et al., 2014)、Transformer (Vaswani et al., 2017b)、GPT-2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)
* [BART](https://github.com/pytorch/fairseq/tree/master/examples/bart) Bidirectional and Auto-Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型
* [fastnlp/CPT](https://github.com/fastnlp/CPT) 中文预训练非平衡转换器 (CPT) ,它是一种非平衡 Transformer 编码器-解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.
* [songhaoyu/BoB](https://github.com/songhaoyu/BoB) BERTOverBERT用于从有限的个性化数据训练基于角色的对话模型。分解为了两个子任务,从有限的角色化对话数据中进行学习。
* [YunwenTechnology/QueryGeneration](https://github.com/YunwenTechnology/QueryGeneration) 智能扩充机器人的“标准问”库之Query生成
* [beyondguo/genius](https://github.com/beyondguo/genius) 强大的有条件文本生成模型,以草稿为输入,在给定的草稿(文本范围、短语或单词的关键信息)中填充缺失的上下文,在大规模文本语料库上进行预训练,用一种极端和选择性的掩蔽策略从草稿目标进行新的重建,使它能够生成给定素描的多样化和高质量的文本。
* [imcaspar/gpt2-ml](https://github.com/imcaspar/gpt2-ml) GPT2 多语言支持, 15亿参数中文预训练模型
* [EleutherAI/gpt-neo](https://github.com/EleutherAI/gpt-neo) 模型并行GPT2和类似GPT3的模型的实现,能够使用mesh-tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。
* [rikdz/GraphWriter](https://github.com/rikdz/GraphWriter) 基于图Transformer从知识图谱中生成文本
* [liucongg/GPT2-NewsTitle](https://github.com/liucongg/GPT2-NewsTitle) GPT2.带有超级详细注释的中文GPT2新闻标题生成项目。
* [ZhuiyiTechnology/t5-pegasus](https://github.com/ZhuiyiTechnology/t5-pegasus) 中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。
* [google-research/text-to-text-transfer-transformer](https://github.com/google-research/text-to-text-transfer-transformer) T5的理念就是“万事皆可 Seq2Seq”,它使用了标准的 Encoder-Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。
* [google-research/multilingual-t5](https://github.com/google-research/multilingual-t5) T5 的多国语言版
* [Morizeyao/GPT2-Chinese](https://github.com/Morizeyao/GPT2-Chinese) GPT2中文文生模型,包括散文、诗词、对联、通用中文、中文歌词、文言文
* [bojone/t5_in_bert4keras](https://github.com/bojone/t5_in_bert4keras) 在keras中使用T5模型 ,用mT5 small版本finetune出来的 CSL 标题生成模型,BLEU 指标能持平基于 WoBERT 的 UniLM 模型,并且解码速度快 130%;而用 mT5 base 版本 finetune 出来的 CSL 标题生成模型,指标能超过基于 WoBERT 的 UniLM 模型 1% 以上,并且解码速度也能快 60%。
* [PENS-Personalized-News-Headline-Generation](https://github.com/LLluoling/PENS-Personalized-News-Headline-Generation) 新闻头条生成数据集和通用框架
* [Aristotle609/Medium-Title-Generator](https://github.com/Aristotle609/Medium-Title-Generator) 生成数据科学文章标题的模型
* [yangjianxin1/GPT2-chitchat](https://github.com/yangjianxin1/GPT2-chitchat) 用于中文闲聊的GPT2文本对话模型
* [EssayKillerBrain/WriteGPT](https://github.com/EssayKillerBrain/WriteGPT) 基于开源GPT2.0的初代创作型人工智能 | 可扩展、进化
* [RUCAIBox/MVP](https://github.com/RUCAIBox/MVP) 自然语言生成的多任务监督预训练。遵循标准的转换器编码器-解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。
* [RUCAIBox/Context-Tuning](https://github.com/RUCAIBox/Context-Tuning) 上下文调优:学习上下文提示用于自然语言生成
* [samueldobbie/markup](https://github.com/samueldobbie/markup) 基于Web的文档注释工具,由GPT-3 提供支持
* [deeppavlov/DeepPavlov](https://github.com/deeppavlov/DeepPavlov) 用于深度学习端到端对话系统和聊天机器人的开源库。
* [bentrevett/pytorch-seq2seq](https://github.com/bentrevett/pytorch-seq2seq) 使用 PyTorch 和 TorchText 实现一些序列到序列 (seq2seq) 模型的教程。
* [RasaHQ/rasa](https://github.com/RasaHQ/rasa) 开源机器学习框架,用于自动化基于文本和语音的对话:NLU、对话管理、连接到 Slack、Facebook 等 - 创建聊天机器人和语音助手
* [gunthercox/ChatterBot](https://github.com/gunthercox/ChatterBot) 一个机器学习的对话对话引擎,用于创建聊天机器人
* [howdyai/botkit](https://github.com/howdyai/botkit) 一个开源开发人员工具,用于为主要消息传递平台构建聊天机器人、应用程序和自定义集成。
* [0hq/WebGPT](https://github.com/0hq/WebGPT) 使用 WebGPU 在浏览器上运行 GPT 模型。在不到 ~1500 行的原版 Javascript 中实现 GPT 推理。
* [huggingface/alignment-handbook](https://github.com/huggingface/alignment-handbook) 使语言模型与人类和 AI 偏好保持一致的强大配方:OpenAI用ChatGPT打破了互联网,Meta紧随其后发布了Llama系列语言模型,使ML社区能够构建自己有能力的聊天机器人。这导致了一个丰富的数据集和模型生态系统,这些数据集和模型主要集中在通过监督微调(SFT)来教授语言模型遵循指令。该手册的初始版本将侧重于以下技术:Supervised fine-tuning监督微调,教语言模型遵循有关如何收集和策划自己的训练数据集的说明和提示。Reward modeling奖励建模:教授语言模型根据人类或AI偏好区分模型响应。Rejection sampling剔除采样:一种简单但功能强大的技术,可提高SFT模型的性能。直接偏好优化(DPO):PPO的强大而有前途的替代方案。
* [OSU-NLP-Group/Mind2Web](https://github.com/OSU-NLP-Group/Mind2Web) 论文“Mind2Web:迈向Web的通才代理”的数据集,代码和模型。
* [dsdanielpark/Bard-API](https://github.com/dsdanielpark/Bard-API) 通过 cookie 值返回 Google Bard (大语言模型) 响应的非官方 python 包。
* [thu-coai/CDial-GPT](https://github.com/thu-coai/CDial-GPT) 大规模中文短文本会话数据集和中文预训练对话模型
* [MuiseDestiny/zotero-gpt](https://github.com/MuiseDestiny/zotero-gpt) 与Zotero集成:您可以使用该插件根据所选文本或PDF文件搜索和询问库中的项目。使用 GPT 生成回复文本:support gpt-3.5-turbo 和 gpt-4。询问有关当前 PDF 文件(全文或所选文本)的问题。对所选论文(摘要)提出问题。 将所选论文总结成几个高度浓缩的句子。根据所选文本搜索库中的项目。
* [microsoft/LMOps](https://github.com/microsoft/LMOps) 关于构建具有基础模型的 AI 产品的基础研究和技术的研究计划,特别是关于通过LLMs生成式 AI 模型实现 AI 功能的通用技术。更好的提示:自动提示优化、提示器、可扩展提示、通用提示检索、检索器、LLM上下文演示选择。更长的上下文:结构化提示、长度外推转换器。LLM对齐:通过LLM反馈对齐。LLM加速器(更快的推理):无损加速LLMs。LLM自定义:适应LLM领域。
* [SUSYUSTC/MathTranslate](https://github.com/SUSYUSTC/MathTranslate/tree/main) 用 Latex 翻译科学论文,尤其是 ARXIV 论文
* [google/sentencepiece](https://github.com/google/sentencepiece) 用于基于神经网络的文本生成的无监督文本分词器。
* [aishwaryanr/awesome-generative-ai-guide](https://github.com/aishwaryanr/awesome-generative-ai-guide) 生成式 AI 正在经历快速增长,该存储库是生成式 AI 研究、访谈材料、笔记本等更新的综合中心!
## 文本匹配 文本检索 文本相似度
* [princeton-nlp/SimCSE](https://github.com/princeton-nlp/SimCSE) SimCSE:句子嵌入的简单对比学习 。提供无监督或有监督的对比学习。是目前文本相似度更好的方法。
* [UKPLab/sentence-transformers](https://github.com/UKPLab/sentence-transformers) 句子转换器:使用BERT RoBERTa XLM-RoBERTa&Co.和PyTorch的多语言句子嵌入。该框架提供了一种简单的方法来计算句子、段落和图像的密集矢量表示。这些模型基于BERT / RoBERTa / XLM-RoBERTa等变压器网络,并在各种任务中实现最先进的性能。文本嵌入在向量空间中,使得相似的文本更接近,并且可以使用余弦相似性有效地找到。
* [bojone/CoSENT](https://github.com/bojone/CoSENT) 比Sentence-BERT更有效的句向量方案.优化cos值的新方案**CoSENT**(Cosine Sentence)。[实验显示](https://kexue.fm/archives/8847),CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。
* [shawroad/CoSENT](https://github.com/shawroad/CoSENT_Pytorch) 比Sentence-BERT更有效的句向量方案 Pytorch版
* [shuxinyin/SimCSE-Pytorch](https://github.com/shuxinyin/SimCSE-Pytorch) 中文SimCSE+ESimCSE的无监督 + 有监督实现
* [wangyuxinwhy/uniem](https://github.com/wangyuxinwhy/uniem) 统一嵌入模型,目标是创建中文最好的通用文本嵌入模型。202306发布 [M3E models](https://huggingface.co/moka-ai/m3e-base) ,在中文文本分类和文本检索上均优于 openai text-embedding-ada-002。
* [stanford-futuredata/ColBERT](https://github.com/stanford-futuredata/ColBERT) 一种快速准确的检索模型,可在数十毫秒内对大型文本集合进行基于 BERT 的可扩展搜索。基于上下文(contextualized)的后期交互的排序模型 Efficient and Effective Passage Search via Contextualized Late Interaction over BERT 兼顾匹配的效率和doc中的上下文信息。
* [McGill-NLP/llm2vec](https://github.com/McGill-NLP/llm2vec) LLM2Vec 是将仅LLMs解码器转换为文本编码器的简单方法。它由 3 个简单步骤组成:1) 启用双向注意力,2) 使用掩蔽的下一个令牌预测进行训练,以及 3) 无监督对比学习。该模型可以进一步微调,以实现最先进的性能。
* [thunlp/OpenMatch](https://github.com/thunlp/OpenMatch) 总体架构包括两大部分:一是相关文档检索,即根据用户检索词,从大规模文档集合中返回最相关的Top-K(K通常为100或1000)文档。二是文档重排序,即将各神经网络模型和非神经网络模型的排序特征整合,对Top-K文档重排序,进一步提升排序效果。OpenMatch提供了融合外部知识图谱信息的知识增强模型,和筛选大规模数据的数据增强模型。
* [NTMC-Community/MatchZoo-py](https://github.com/NTMC-Community/MatchZoo-py) 通用的文本匹配工具包,旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。MatchZoo 的 PyTorch 版本。
* [voidism/DiffCSE](https://github.com/voidism/DiffCSE) 用于学习句子嵌入的无监督对比学习框架。DiffCSE学习对原始句子和编辑句子之间的差异敏感的句子嵌入,其中编辑的句子是通过随机屏蔽原始句子,然后从屏蔽语言模型中采样来获得的。我们表明 DiffSCE 是等变对比学习的一个实例(Dangovski 等人,2021 年),它概括了对比学习并学习对某些类型的增强不敏感而对其他“有害”类型的增强敏感的表征。我们的实验表明,DiffCSE在无监督句子表示学习方法中取得了最先进的结果,语义文本相似性上比SimCSE高出2.3个绝对点。
* [shibing624/text2vec](https://github.com/shibing624/text2vec) 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。
* [terrifyzhao/text_matching](https://github.com/terrifyzhao/text_matching) 常用文本匹配模型tf版本,数据集为QA_corpus模型:DSSM ConvNet ESIM ABCNN BiMPM DIIN DRCN
* [Brokenwind/BertSimilarity](https://github.com/Brokenwind/BertSimilarity) 基于Google的BERT模型来进行语义相似度计算。
* [bohanli/BERT-flow](https://github.com/bohanli/BERT-flow) 基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间,文本表示、语义文本相似性任务的SOTA。
* [DataTerminatorX/Keyword-BERT](https://github.com/DataTerminatorX/Keyword-BERT) 带关键词的BERT语义匹配
* [bojone/BERT-whitening](https://github.com/bojone/BERT-whitening) 简单的向量白化改善句向量质量,可以媲美甚至超过BERT-flow的效果。
* [huggingface/text-embeddings-inference](https://github.com/huggingface/text-embeddings-inference) 文本嵌入模型的超快速推理解决方案(rust)
* [netease-youdao/BCEmbedding](https://github.com/netease-youdao/BCEmbedding) 网易有道为RAG产品提供的开源嵌入和重新排序模型。由网易有道开发的中英文 B ilingual 和 Crosslingual Embedding(BCEmbedding)包括 EmbeddingModel 和 RerankerModel。EmbeddingModel 专门用于生成语义向量,在语义搜索和问答中起着至关重要的作用,而 RerankerModel 擅长优化搜索结果和排名任务。BCEmbedding 是有道检索增强生成 (RAG) 实现的基石,特别是 QAnything,这是一个开源实现,广泛集成到有道速读和有道翻译等各种有道产品中。BCEmbedding以其双语和跨语言能力而著称,在弥合中英文语言鸿沟方面表现出色,实现了在MTEB的语义表示评估中表现出色;LlamaIndex 中 RAG 评估领域的新基准。为 RAG 社区提供双语跨语言的两阶段检索模型仓库,无需微调即可直接使用,包括 EmbeddingModel 和 RerankerModel:一种模式:EmbeddingModel处理中英文双语和跨语言检索任务。RerankerModel 支持英语、中文、日语和韩语。一种模式:通过RAG优化覆盖常见的业务应用场景。例如教育、医疗场景、法律、金融、文学、常见问题解答、教科书、维基百科、一般对话。易于集成:我们在 BCEmbedding 中提供 API,用于 LlamaIndex 和 LangChain 集成。其他要点:RerankerModel 支持长段落(超过 512 个词元,少于 32k 个词元)重新排名;RerankerModel 提供有意义的相关性分数,有助于删除低质量的段落。
* [autoliuweijie/BERT-whitening-pytorch](https://github.com/autoliuweijie/BERT-whitening-pytorch) Pytorch version of BERT-whitening
* [nilboy/gaic_track3_pair_sim](https://github.com/nilboy/gaic_track3_pair_sim) 短文本语义匹配,2021年全球人工智能技术创新大赛-赛道三-冠军方案
* [yym6472/ConSERT](https://github.com/yym6472/ConSERT) 基于对比学习的句子语义表示迁移框架。包含三部分,数据增强,BERT 编码层,对比损失层。
* [amazon-research/sccl](https://github.com/amazon-research/sccl) 利用对比学习促进更好地基于距离的短文本聚类实现。
* [ZhuiyiTechnology/roformer-sim](https://github.com/ZhuiyiTechnology/roformer-sim) 融合检索和生成的RoFormer-Sim模型.应用于相似句生成、相似句扩增、语义相似度问题。
* [allenai/macaw](https://github.com/allenai/macaw) Macaw(Multi-angle c(q)uestion answering 多角度 c(q) 问题回答)是一种即用型模型,能够进行一般问题回答,在训练的领域之外表现出稳健性。 它以“多角度”方式进行了训练,这意味着它可以处理一组灵活的输入和输出“槽”(如问题、答案、解释)。Macaw 建立在 T5 之上,有不同的尺寸:macaw-11b、macaw-3b 和 macaw-large,以及各种排行榜上的以答案为重点的版本:macaw-answer-11b。
* [Decem-Y/sohu_text_matching_Rank2](https://github.com/Decem-Y/sohu_text_matching_Rank2) 2021搜狐校园文本匹配算法大赛Top2。使用了预训练模型(如NEZHA、MacBert、ROBERTA、ERNIE等),设计了选择了两种技术路线(通过[SEP]拼接source与target作为输入、类似SBERT的句子向量编码比较),并尝试多种上分策略(在给定语料上继续mlm预训练、focal loss损失函数、不同的pooling策略、加入TextCNN、fgm对抗训练、数据增强等)。选取多组差异较大的模型的输出,通过投票的方式进行集成,得到最好成绩。
* [shuxinyin/SimCSE-Pytorch](https://github.com/shuxinyin/SimCSE-Pytorch) 中文数据集下SimCSE+ESimCSE的实现
* [wakafengfan/simcse-pytorch](https://github.com/wakafengfan/simcse-pytorch) pytorch版simcse无监督语义相似模型
* [bojone/SimCSE](https://github.com/bojone/SimCSE) SimCSE在中文任务上的简单实验
* [yangjianxin1/SimCSE](https://github.com/yangjianxin1/SimCSE) SimCSE有监督与无监督实验复现 一种简单但是很巧妙的NLP对比学习方法,创新性地引入Dropout的方式,对样本添加噪声,从而达到对正样本增强的目的。 该框架的训练目的为:对于batch中的每个样本,拉近其与正样本之间的距离,拉远其与负样本之间的距离,使得模型能够在大规模无监督语料(也可以使用有监督的语料)中学习到文本相似关系。
* [vdogmcgee/SimCSE-Chinese-Pytorch](https://github.com/vdogmcgee/SimCSE-Chinese-Pytorch) SimCSE在中文上的复现,有监督+无监督
* [GeekDream-x/SemEval2022-Task8-TonyX](https://github.com/GeekDream-x/SemEval2022-Task8-TonyX) 在 Semeval-2022 Task8 —— Multilingual News Article Similarity 中提供了我们获胜系统的实现。这是一项关于评估多语言和跨语言新闻文章相似性的竞赛,涵盖 18 个语言对。
* [JohnGiorgi/DeCLUTR](https://github.com/JohnGiorgi/DeCLUTR) 无监督文本表示的深度对比学习
* [huggingface/setfit](https://github.com/huggingface/setfit) 使用 Sentence Transformers 进行高效的少样本学习. 高效且无提示的框架,用于对句子转换器进行少量微调。 它用很少的标记数据实现了高精度,特点:没有提示或语言表达器:当前的少量微调技术需要手工提示或语言表达器将示例转换为适合底层语言模型的格式。 SetFit 通过直接从文本示例生成丰富的嵌入来完全免除提示。训练速度快、多语言。
* [epidemic-sentence-pair](https://github.com/zzy99/epidemic-sentence-pair) 新冠疫情相似句对判定大赛 线上第一名方案。BERT模型融合、数据对称扩充、数据传递扩充、对抗训练、伪标签。
* [KKenny0/sohu2021](https://github.com/KKenny0/sohu2021) 2021搜狐校园文本匹配算法大赛方案,基于BERT的交互模型,通过BERT来得到source-target pair的向量表示。任务:短短、短长和长长匹配。
* [DMetaSoul/chinese-semantic-textual-similarity](https://huggingface.co/datasets/DMetaSoul/chinese-semantic-textual-similarity) 为了对 like-BERT 预训练模型进行 fine-tune 调优和评测以得到更好的文本表征模,对业界开源的语义相似(STS)、自然语言推理(NLI)、问题匹配(QMC)以及相关性等数据集进行了搜集整理
## 机器阅读理解
* [imClumsyPanda/langchain-ChatGLM](https://github.com/imClumsyPanda/langchain-ChatGLM) 利用 [ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B) + [langchain](https://github.com/hwchase17/langchain) 实现的基于本地知识的 ChatGLM 应用。建立了全部基于开源模型实现的本地知识问答应用。
* [l15y/wenda](https://github.com/l15y/wenda) 闻达:一个LLM调用平台。目前支持chatGLM-6B、chatRWKV、chatYuan和chatGLM-6B模型下自建知识库查找。
* [GanymedeNil/document.ai](https://github.com/GanymedeNil/document.ai) 基于向量数据库与GPT3.5的通用本地知识库方案
* [basketballandlearn/MRC_Competition_Dureader](https://github.com/basketballandlearn/MRC_Competition_Dureader) 基于大规模MRC数据再训练的机器阅读理解预训练模型(包括roberta-wwm-large、macbert-large),可以使用[transformers库](https://huggingface.co/luhua/chinese_pretrain_mrc_roberta_wwm_ext_large)。
* [wptoux/albert-chinese-large-webqa](https://github.com/wptoux/albert-chinese-large-webqa) 基于百度webqa与dureader数据集训练的Albert Large QA模型
* [bojone/dgcnn_for_reading_comprehension](https://github.com/bojone/dgcnn_for_reading_comprehension) 基于膨胀门卷积的阅读理解式问答模型(Keras实现)
* [cooelf/AwesomeMRC](https://github.com/cooelf/AwesomeMRC) 对MRC的研究摘要和参考资料
* [nlpdata/c3](https://github.com/nlpdata/c3) 中文机器阅读理解数据集 multiple-Choice Chinese machine reading Comprehension dataset.
* [qiufengyuyi/event_extraction](https://github.com/qiufengyuyi/event_extraction) 百度aistudio事件抽取比赛 使用机器阅读理解来尝试解决。
* [liuhuanyong/MiningZhiDaoQACorpus](https://github.com/liuhuanyong/MiningZhiDaoQACorpus) 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。
* [xv44586/ccf_2020_qa_match](https://github.com/xv44586/ccf_2020_qa_match) CCF2020问答匹配比赛 任务是:给定IM交流片段,片段包含一个客户问题以及随后的经纪人若干IM消息,从随后的经纪人消息中找出一个是对客户问题的回答。
* [lgw863/LogiQA-dataset](https://github.com/lgw863/LogiQA-dataset) 数据集包含8,678个QA实例
* [HIT-SCIR/Molweni](https://github.com/HIT-SCIR/Molweni) 提出了构建于多人对话的英文机器阅读理解(MRC)数据集—Molweni,并覆盖了对话语篇结构。Molweni源自于Ubuntu聊天语料库,包括10,000个对话,共计88,303条话语(utterance)。我们共标注了30,066个问题,包括可回答和不可回答的问题。Molweni独特地为其多人对话提供了语篇结构信息,共标注了78,245个语篇关系实例,为多人对话语篇结构分析(Discourse parsing)贡献了大规模数据。
* [danqi/acl2020-openqa-tutorial](https://github.com/danqi/acl2020-openqa-tutorial) 本教程对开放域问答 (QA) 的前沿研究进行了概述,QA 是使用大量不同主题的文档来回答问题的任务。首先简要介绍历史背景,讨论研究问题的基本设置和核心技术挑战,然后描述具有通用评估指标和基准的现代数据集。然后,是在开放域QA中提出的前沿模型,包括两阶段检索器-阅读器方法、密集检索器和端到端训练以及无检索器方法。最后,介绍使用文本和大型知识库的混合方法,并以重要的开放性问题结束本教程。
* [zhoujx4/DuReader-Checklist-BASELINE](https://github.com/zhoujx4/DuReader-Checklist-BASELINE) 百度2021年语言与智能技术竞赛机器阅读理解torch版baseline
* [google-research/tapas](https://github.com/google-research/tapas) 端到端的神经表格文本理解模型。表格 QA 模型。
* [PaddlePaddle/RocketQA](https://github.com/PaddlePaddle/RocketQA) 信息检索和问答的密集检索,包括中英文最先进的模型。
## 知识图谱问答KBQA、多跳推理
* [BinNong/meet-libai](https://github.com/BinNong/meet-libai) 通过大模型构建李白知识图谱,结合大模型训练出专业的AI智能体,以生成式对话应用的形式,推动李白文化的普及与推广。
* [RUCAIBox/KBQAPapers](https://github.com/RUCAIBox/KBQAPapers) 知识图谱问答KBQA论文集
* [shijx12/TransferNet](https://github.com/shijx12/TransferNet) An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph 多跳问题解答关系图的有效透明框架,通过每一跳都预测当前关系得分,并更新实体得分,直到最大跳数。预测该问题的跳数,按跳数的概率加权每一跳得分作为实体的最终得分。
* [malllabiisc/EmbedKGQA](https://github.com/malllabiisc/EmbedKGQA) 基于知识图谱嵌入的链路预测处理多跳问答。首先训练实体嵌入,随后利用实体嵌入学习问题嵌入,预测时对所有实体,构建(head entity, question)并评分,并选择评分最高的头实体作为答案。能很好地处理知识图谱中的不完整和稀疏的问题。
* [BDBC-KG-NLP/QA-Survey](https://github.com/BDBC-KG-NLP/QA-Survey) 北航大数据高精尖中心研究张日崇团队对问答系统的总结。包括基于知识图谱的问答(KBQA),基于文本的问答系统(TextQA),基于表格的问答系统(TabletQA)和基于视觉的问答系统(VisualQA),每类系统分别对学术界和工业界进行总结。
* [LHRLAB/ChatKBQA](https://github.com/LHRLAB/ChatKBQA) 使用微调的大型语言模型生成然后检索知识库问答的框架
* [xianghuisun/Chinese_KGQA](https://github.com/xianghuisun/Chinese_KGQA) 实现基于知识图谱的中文问答系统
* [cdjhz/multigen](https://github.com/cdjhz/multigen) Language Generation with Multi-hop Reasoning on Commonsense Knowledge Graph 基于常识知识图的多跳推理语言生成 本研究关注一类条件文本生成任务,即给定输入源文本X,目标是生成一段目标文本 Y。研究员们额外增加了一个知识图谱 G=(V,E) 的输入为模型在生成时提供常识知识的信息。
* [INK-USC/MHGRN](https://github.com/INK-USC/MHGRN) 基于知识库的多跳关系推理 本篇文章提出了multi-hop relational reasoning module(多跳关系推理模型)叫做MHGRN多跳推理网络。该模型在额外的多跳知识图谱中抽取的子网络中进行推理。本文提出的方法将已有的基于路径的常识推理以及GCN融合在了一起,并在CommonsenseQA和OpenbookQA上取得了良好的效果。
* [lanyunshi/Multi-hopComplexKBQA](https://github.com/lanyunshi/Multi-hopComplexKBQA) 查询图生成,用于回答知识库中的多跳复杂问题.提出了一种改进的分阶段查询图生成方法,该方法具有更灵活的生成查询图的方式。在查询图生成的每一步,包含三种预定义的操作:扩展、连接、聚合。
* [nju-websoft/SPARQA](https://github.com/nju-websoft/SPARQA) 基于知识库的问题解答,提出了一种新颖的骨架语法来表示一个复杂问题的高级结构。骨架语法本质上是依赖语法的一个选定子集,用于专门表示复杂问题的高级结构。这种专用的粗粒度表示形式由于其简单性而可能具有准确的解析算法,有助于提高下游细粒度语义解析的准确性。
* [mori97/JKNet-dgl](https://github.com/mori97/JKNet-dgl) 跳跃知识网络的dgl实现
* [THUDM/CogQA](https://github.com/THUDM/CogQA) 基于认知图谱实现多跳阅读.从人类的认知过程中受到启发。双过程理论认为,我们的大脑思考过程由两套系统构成: System1 和 System 2。System 1: 我们的大脑首先通过System 1隐式的、无意识的和凭借直觉的过程来检索相关信息。System 2: 在System 1过程的基础上,再进行一个显式的、有意识的、可控的推理过程,即System 2。作者使用BERT模型构建System 1,使用GNN模型构建System 2。
* [michiyasunaga/qagnn](https://github.com/michiyasunaga/qagnn) GNN 在融合 QA 上下文与 KG 的一个尝试,在问答任务上相比现有的预训练语言模型、以及预训练 +KG 模型,都有不小的提升。同时,使用 attention-base GNN,能够可视化知识图谱中节点之间的注意力关系,有助于提高 QA 可解释性和结构化推理的能力。
* [WenRichard/KBQA-BERT](https://github.com/WenRichard/KBQA-BERT) 基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式
* [RichardHGL/WSDM2021_NSM](https://github.com/RichardHGL/WSDM2021_NSM) KBQA 的神经状态机器 ComplexWebQuestions
* [UKPLab/coling2018-graph-neural-networks-question-answering](https://github.com/UKPLab/coling2018-graph-neural-networks-question-answering) 用门图形神经网络建模语义,用于知识库问题解答
* [THU-KEG/KoPL](https://github.com/THU-KEG/KoPL) KoPL全称 Knowledge oriented Programing Language, 是一个为复杂推理问答而设计的编程语言。可以将自然语言问题表示为由基本函数组合而成的KoPL程序,程序运行的结果就是问题的答案。目前,KoPL的27个基本函数覆盖对多种知识元素(如概念、实体、关系、属性、修饰符等)的操作,并支持多种问题类型(如计数、事实验证、比较等)的查询。KoPL提供透明的复杂问题推理过程,易于理解和使用。KoPL面向知识库、文本等不同形式的知识资源,可扩展性强。
* [PaddlePaddle/PGL/erniesage](https://github.com/PaddlePaddle/PGL/tree/static_stable/examples/erniesage) 使用PGL实现ERNIESage。在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。ERNIESage 由PGL团队提出,是ERNIE SAmple aggreGatE的简称,该模型可以同时建模文本语义与图结构信息,有效提升 Text Graph 的应用效果。其中 ERNIE 是百度推出的基于知识增强的持续学习语义理解框架。ERNIESage 是 ERNIE 与 GraphSAGE 碰撞的结果,是 ERNIE SAmple aggreGatE 的简称,它的结构如下图所示,主要思想是通过 ERNIE 作为聚合函数(Aggregators),建模自身和邻居节点的语义与结构关系。ERNIESage 对于文本的建模是构建在邻居聚合的阶段,中心节点文本会与所有邻居节点文本进行拼接;然后通过预训练的 ERNIE 模型进行消息汇聚,捕捉中心节点以及邻居节点之间的相互关系;最后使用 ERNIESage 搭配独特的邻居互相看不见的 Attention Mask 和独立的 Position Embedding 体系,就可以轻松构建TextGraph中句子之间以及词之间的关系。使用ID特征的GraphSAGE只能够建模图的结构信息,而单独的ERNIE只能处理文本信息。通过PGL搭建的图与文本的桥梁,ERNIESage能很简单的把GraphSAGE以及ERNIE的优点结合一起。TextGraph场景,效果能够比单独的ERNIE以及GraphSAGE都要好。
* [BshoterJ/awesome-kgqa](https://github.com/BshoterJ/awesome-kgqa) 知识图谱问答部分资料合集
* [RUCKBReasoning/SubgraphRetrievalKBQA](https://github.com/RUCKBReasoning/SubgraphRetrievalKBQA) 多跳知识库问答子图检索增强模型的pytorch实现 WebQuestionSP CWQ
* [google-research/smore](https://github.com/google-research/smore) 多功能的框架,它可以在KG上扩展多跳查询嵌入。SMORE可以轻松地在Freebase KG上训练查询嵌入,在一台机器上拥有超过8600万个节点和33800万条边。
## 知识图谱
* [CLUEbenchmark/KgCLUE](https://github.com/CLUEbenchmark/KgCLUE) KgCLUE: 大规模中文开源知识图谱问答数据集。实体数量 3121457,关系数量 245838,高频关系(>100) 3833,三元组数量 20559652,知识库来源于百科类数据,由百科类搜索的事实性三元组构成。
* [autoliuweijie/K-BERT](https://github.com/autoliuweijie/K-BERT) Enabling Language Representation with Knowledge Graph ,已被AAAI2020所录取,是较早的考虑将知识图谱中的边关系引入预训练模型的论文。主要通过修改Transformer中的attention机制,通过特殊的mask方法将知识图谱中的相关边考虑到编码过程中,进而增强预训练模型的效果。
* [npubird/KnowledgeGraphCourse](https://github.com/npubird/KnowledgeGraphCourse) 东南大学《知识图谱》研究生课程
* [AutoML-Research/AutoSF](https://github.com/AutoML-Research/AutoSF) 用于知识图谱学习的双线性评分函数(SFs)搜索。知识图(KG)是一种以实体为节点、以关系为边的特殊图结构,对数据挖掘和机器学习都很重要,并启发了各种下游应用,如结构化搜索、问答、推荐。在KGs中,每条边都被表示为一个具有形式(头实体、关系、尾实体)的三元组,表示为(h, r, t),一个基本问题是如何量化三元组(h, r, t)s的合理性。KG嵌入(KGE)是近年来出现并发展起来的一种很有前途的方法。基本上,给定一组观察到的三元组,KGE试图学习实体和关系的低维向量表示,以便三元组的可信性能够被量化。得分函数(SF)根据嵌入值返回(h, r, t)的分数,用于度量可信性。SF一般是人为设计和选择的,对嵌入的质量有显著影响。
* [THU-KEG/KEPLER](https://github.com/THU-KEG/KEPLER) 主要通过添加类似于TransE的预训练机制来增强对应文本的表示,进而增强预训练模型在一些知识图谱有关任务的效果。
* [txsun1997/CoLAKE](https://github.com/txsun1997/CoLAKE) 使用知识图谱以增强预训练模型的效果 首先将上下文看作全连接图,并根据句子中的实体在KG上抽取子图,通过两个图中共现的实体将全连接图和KG子图融合起来;最终本文将文本上下文和知识上下文一起用MLM进行预训练,将mask的范围推广到word、entity和relation;为训练该模型,本文采用cpu-gpu混合训练策略结合负采样机制减少训练时间;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。然后本文将该图转化为序列,使用Transformer进行预训练,并在训练时采用特殊的type embedding来表示实体、词语与其他子图信息
* [neo4j-labs/llm-graph-builder](https://github.com/neo4j-labs/llm-graph-builder) 知识图谱生成器应用程序。该应用程序旨在将非结构化数据(pdfs,docs,txt,youtube视频,网页等)转换为存储在Neo4j中的知识图谱。它利用大型语言模型(OpenAI、Gemini 等)的强大功能从文本中提取节点、关系及其属性,并使用 Langchain 框架创建结构化知识图谱。从本地计算机、GCS 或 S3 存储桶或 Web 源上传文件,选择您的LLM模型并生成知识图谱。主要特点:知识图谱创建:使用 LLMs将非结构化数据转换为结构化知识图谱。提供架构:提供您自己的自定义架构或使用设置中的现有架构来生成图形。查看图表:在 Bloom 中一次查看特定源或多个源的图表。与数据聊天:通过对话查询与 Neo4j 数据库中的数据进行交互,还可以检索有关查询响应源的元数据。
* [JanKalo/KnowlyBERT](https://github.com/JanKalo/KnowlyBERT) 提出了一种混合的语言知识模型查询系统,该系统使用语言模型来应对现实世界中知识图谱的不完整性问题。作为KnowlyBERT的输入,用户可以向系统提出以实体为中心的SPARQL查询。首先,查询语言模型(a);然后,对不完整的知识图谱进行查询,并获得结果(b);另外SPARQL查询被翻译成多种自然语言语句,这些语言语句在“关系模板生成”步骤中由语言模型完成;语言模型返回多个单词列表以及每个单词(c)的置信度值;然后将这些列表合并为一个列表(d),并根据知识图谱类型信息(e)使用我们的语义过滤步骤进行过滤。此外,执行阈值处理,削减不相关的结果(f);将语言模型和知识图谱的结果合并(g)并返回给用户。
* [yeliu918/KG-BART](https://github.com/yeliu918/KG-BART) 知识图谱增强的预训练模型的生成式常识推理.可利用图上的注意力来聚集丰富的概念语义,从而增强对看不见的概念集的模型泛化。
* [bernhard2202/intkb](https://github.com/bernhard2202/intkb) 一种交互式知识图谱补全框架
* [husthuke/awesome-knowledge-graph](https://github.com/husthuke/awesome-knowledge-graph) 整理知识图谱相关学习资料
* [wangbo9719/StAR_KGC](https://github.com/wangbo9719/StAR_KGC) Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion 结构增强文本表示学习,实现高效知识图完成.知识图谱补全
* [Everglow123/MAKG](https://github.com/Everglow123/MAKG) 移动app知识图谱
* [openconcept](http://openkg.cn/dataset/openconcept) 基于自动化知识抽取算法的大规模中文概念图谱。440万概念核心实体,以及5万概念和1200万实体-概念三元组。数据包括了常见的人物、地点等通用实体。
* [ OpenKG-ORG/OpenEA](https://github.com/openkg-org/OpenEA) 基于知识图谱嵌入的开源实体融合工具。本体匹配、实体对齐、真值验证、冲突消解。
* [seukgcode/MELBench.](https://github.com/seukgcode/MELBench) 多模态实体链接 (MEL) 旨在利用多模态信息将提及项映射到知识库中定义的相应实体。 我们发布了三个 MEL 数据集:Weibo-MEL、Wikidata-MEL 和 Richpedia-MEL,分别包含来自社交媒体、百科全书和多模态知识图谱的 25,602、18,880 和 17,806 个样本。
* [OpenKG-ORG/OpenRichpedia](https://github.com/OpenKG-ORG/OpenRichpedia) 东南大学多模态知识图谱-OpenRichpedia工程文件
* [csdqa](http://openkg.cn/dataset/csdqa) 计算机科学领域示意图问答数据集
* [HKUST-KnowComp/FKGE](https://github.com/HKUST-KnowComp/FKGE) 差异私有联合知识图嵌入
* [totogo/awesome-knowledge-graph](https://github.com/totogo/awesome-knowledge-graph) 知识图相关学习材料、数据库、工具和其他资源的精选列表
* [BrambleXu/knowledge-graph-learning](https://github.com/BrambleXu/knowledge-graph-learning) 精选的知识图谱教程、项目社区列表。
* [liuhuanyong/PersonGraphDataSet](https://github.com/liuhuanyong/PersonGraphDataSet) 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。
* [husthuke/awesome-knowledge-graph](https://github.com/husthuke/awesome-knowledge-graph) 整理知识图谱相关学习资料
* [ownthink/KnowledgeGraph](https://github.com/ownthink/KnowledgeGraph) 史上最大规模1.4亿知识图谱数据免费下载,知识图谱,通用知识图谱,融合了两千五百多万实体,拥有亿级别的实体属性关系。
* [liuhuanyong/AbstractKnowledgeGraph](https://github.com/liuhuanyong/AbstractKnowledgeGraph) 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。
* [songjiang0909/awesome-knowledge-graph-construction](https://github.com/songjiang0909/awesome-knowledge-graph-construction) 很棒的知识图构建
* [ZihengZZH/awesome-multimodal-knowledge-graph](https://github.com/ZihengZZH/awesome-multimodal-knowledge-graph) 多模态知识图谱的精彩阅读列表或其他资源(数据集、教程等)。
* [thunlp/KB2E](https://github.com/thunlp/KB2E) 知识图谱嵌入,包括 TransE、TransH、TransR 和 PTransE
* [powerycy/DeepKg: Knowledge Graph](https://github.com/powerycy/DeepKg) 知识图谱的构建 实体识别\语义标准化\向量召回
* [zjunlp/deepke](https://github.com/zjunlp/deepke) 基于深度学习的开源中文知识图谱抽取框架,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,可以基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。
* [面向事件时序因果关系识别的17类开源标注数据集总结](https://mp.weixin.qq.com/s/uz3IfX4CyxtJjJl-HRkMaA)
* [iuhuanyong/TextGrapher](https://github.com/liuhuanyong/TextGrapher) 输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。 采用了高频词,关键词,命名实体识别,主谓宾短语识别等抽取方式,并尝试将三类信息进行图谱组织表示,这种表示方式是一种尝试。
* [liuhuanyong/ChainKnowledgeGraph](https://github.com/liuhuanyong/ChainKnowledgeGraph) 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。
* [zjukg/NeuralKG](https://github.com/zjukg/NeuralKG) 支持多种知识图谱表示学习/知识图谱嵌入(Knowledge Graph Embedding)模型的Python工具包,其中实现了多种传统知识图谱嵌入、基于图神经网络的知识图谱嵌入以及基于规则的知识图谱嵌入方法。
* [zjunlp/DeepKE](https://github.com/zjunlp/DeepKE/blob/main/README_CN.md) 开源知识图谱抽取与构建工具,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。
* [migalkin/NodePiece](https://github.com/migalkin/NodePiece) 大型知识图谱的复合和参数高效表示 (ICLR'22)。NodePiece是一个“分词器”,用于减少知识图中的实体词汇量。不是将每个节点浅层嵌入到向量中,而是首先在其关系上下文中通过 K 个锚节点和 M 关系类型“标记”每个节点。然后,通过任何注入函数(例如MLP或Transformer)对生成的哈希序列进行编码。NodePiece可以使用相同的锚点和关系词汇表标记附加到所见图的看不见的节点,这允许NodePiece在归纳设置中使用经典KG完成中的所有众所周知的评分函数(如TransE或RotatE)开箱即用。NodePiece在OGB WikiKG 2排行榜上名列前茅,以大幅降低的参数预算(7M与500-1500M)为模型提供动力。当前配置只需要 20K 个锚节点,而不是学习 2.5M 实体嵌入。关系预测\节点分类\样本外链路预测
* [liuhuanyong/ChineseSemanticKB](https://github.com/liuhuanyong/ChineseSemanticKB) 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。
* [lemonhu/stock-knowledge-graph](https://github.com/lemonhu/stock-knowledge-graph) 利用网络公开数据构建一个小型证券知识图谱
* [OpenBGBenchmark/OpenBG](https://github.com/OpenBGBenchmark/OpenBG) 大规模开放业务知识图谱.开放的商业知识图,它使用统一的Schema覆盖大规模的多模态数据集,包含了浙江大学ZJUKG实验室和阿里巴巴知识引擎团队提供的数百万个产品和消费者需求。
* [DeqingYang/CKBC](https://github.com/DeqingYang/CKBC) 使用关系图注意力网络和预训练语言模型完成常识知识库。常识在各种语料库中很少被明确表达,但对于机器理解自然语言非常有用。与传统的知识库(KG)不同,常识库(CKG)中的节点通常由自由格式的文本表示,并且比传统的 KG 规模更大,更稀疏。因此,这对传统的知识库补全(KBC)方法造成了挑战。
* [JavaStudenttwo/ccks_kg](https://github.com/JavaStudenttwo/ccks_kg) ccks2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结
## NLP语料和数据集
* [thu-coai/CrossWOZ](https://github.com/thu-coai/CrossWOZ) 中文跨域任务导向对话数据集.它包含5个领域的6K对话会话和102K语音,包括酒店,餐厅,景点,地铁和出租车。
* [lmmlzn/Awesome-LLMs-Datasets](https://github.com/lmmlzn/Awesome-LLMs-Datasets) 从五个维度总结现有的代表性LLMs文本数据集:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统 NLP 数据集。(定期更新)
* [goto456/stopwords](https://github.com/goto456/stopwords) 中文常用停用词表
* [chatopera/Synonyms](https://github.com/chatopera/Synonyms) 用于自然语言处理和理解的中文同义词。
* [RUCAIBox/TG-ReDial](https://github.com/RUCAIBox/TG-ReDial) 电影领域的对话推荐数据集TG-ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。
* [fighting41love/funNLP](https://github.com/fighting41love/funNLP) NLP民工的乐园: 中英文敏感词、语言检测、中外手机/电话归属/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件、连续英文切割、各种中文词向量、公司大全、古诗、IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取、国内电话号码正则匹配、清华中英文跨语言百科知识图谱
* [brightmart/nlp_chinese_corpus](https://github.com/brightmart/nlp_chinese_corpus) 大规模中文自然语言处理语料 维基百科json版(wiki2019zh) 新闻语料json版(news2016zh) 百科类问答json版(baike2018qa) 社区问答json版(webtext2019zh) :大规模高质量数据集 翻译语料(translation2019zh)
* [msra-nlc/ChineseKBQA](https://github.com/msra-nlc/ChineseKBQA) NLPCC-ICCPOL 2016 Shared Task: Open Domain Chinese Question Answering [开放域中文问答数据集](http://tcci.ccf.org.cn/conference/2016/pages/page05_evadata.html)
* [verazuo/jailbreak_llms](https://github.com/verazuo/jailbreak_llms) CCS'24 一个数据集由来自 Reddit、Discord、网站和开源数据集的 15,140 个 ChatGPT 提示(包括 1,405 个越狱提示)组成。为了评估越狱提示的有效性,我们构建了一个问题集,其中包含 OpenAI 使用政策中采用的 13 个禁止场景的 390 个问题。
* [jkszw2014/bert-kbqa-NLPCC2017](https://github.com/jkszw2014/bert-kbqa-NLPCC2017) A trial of kbqa based on bert for NLPCC2016/2017 Task 5 (基于BERT的中文知识库问答实践)
* [wavewangyue/NLPCC-MH](https://github.com/wavewangyue/NLPCC-MH) 中文多跳问答数据集 基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了专注多跳问题的中文 KBQA 数据集
* [BERT-CCPoem](https://thunlp.oss-cn-qingdao.aliyuncs.com/BERT_CCPoem_v1.zip) 是完全基于一个囊括了几乎所有中国古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。[THUNLP-AIPoet/BERT-CCPoem](https://github.com/THUNLP-AIPoet/BERT-CCPoem) 中国古典诗词预训练模型
* [liucongg/NLPDataSet](https://github.com/liucongg/NLPDataSet) 数据集包括:DRCD、cmrc2018、chinese-squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集。
* [C-Eval 数据集](https://cevalbenchmark.com/index.html)是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。
* [Gaokao](https://github.com/OpenLMLab/GAOKAO-Bench) 是一个以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。 我们只保留了其中的单项选择题,随机划分后对所有模型进行统一 `5-shot` 测试。
* [MMLU](https://arxiv.org/abs/2009.03300) 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。
* [microsoft/AGIEval](https://github.com/microsoft/AGIEval) 以人为本的基准,专门用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项针对普通人类考生的官方、公共和高标准入学和资格考试,例如普通大学入学考试(例如,中国高考(高考)和美国 SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。
* [thunlp/Few-NERD](https://github.com/thunlp/Few-NERD) 一个大规模的人工标注的用于少样本命名实体识别任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构,共有18万维基百科句子,460万个词,每个词都被注释为上下文(context)或一个实体类型的一部分。
* [CLUEbenchmark/CLUECorpus2020](https://github.com/CLUEbenchmark/CLUECorpus2020) 通过对[Common Crawl](http://commoncrawl.org)的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:[高质量中文预训练模型,大号、超小和相似度预训练模型。](https://github.com/CLUEbenchmark/CLUEPretrainedModels)
* [esbatmop/MNBVC](https://github.com/esbatmop/MNBVC) Massive Never-ending BT Vast Chinese corpus超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
* [oscar-corpus/OSCAR-2201](https://huggingface.co/datasets/oscar-corpus/OSCAR-2201) 通过使用 unoliant 架构对通用爬虫语料库进行语言分类和过滤而获得的一个巨大的多语言语料库。数据以原始形式和重复数据删除形式按语言分发。
* [festvox/datasets-CMU_DoG](https://github.com/festvox/datasets-CMU_DoG) CMU 文档基础对话数据集 该数据集包含 4112 个对话,每个对话平均 21.43 轮。这使该数据集可以在生成响应的同时提供相关的聊天历史记录。
* [doc2dial/sharedtask-dialdoc2021](https://github.com/doc2dial/sharedtask-dialdoc2021) doc2dial是IBM发布的基于文档的对话数据集,包含两个任务:1)从文档中检索和问题相关的句子(information-seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。
* [chin-gyou/MovieChats](https://github.com/chin-gyou/MovieChats) MovieChats:在封闭域中像人类一样聊天,电影内容的聊天对话数据集
* [projects/personachat](https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat) Persona-Chat 数据集人物聊天对话数据
* [krystalan/SGSum](https://github.com/krystalan/SGSum) 一个面向体育赛事摘要的人工标注数据集
* [IceFlameWorm/NLP_Datasets](https://github.com/IceFlameWorm/NLP_Datasets) 中文NLP数据集,ATEC语义相似度学习赛数据集、CCKS 2018 微众银行智能客服问句匹配大赛数据集、ATEC + CCKS 2018 组合数据集(互金客服场景)、哈工大BQ_corpus数据集(语义相似度)、哈工大LCQMC数据集(语义相似度)。
* [nlpcc2018](http://tcci.ccf.org.cn/conference/2018/taskdata.php) 选择task7 Open Domain Question Answering,即可下载数据集。数据集包含知识图谱和问答数据
* [pkumod/CKBQA](https://github.com/pkumod/CKBQA) ccks2018 ccks2019 包含简单问题和复杂问题的中文 KBQA 数据集。对于每个中文问题,我们都提供了黄金答案和黄金 SPARQL 查询,因此该数据集也可以应用于语义解析任务。
* [Marsan-Ma-zz/chat_corpus](https://github.com/Marsan-Ma-zz/chat_corpus) 来自各种开源的聊天语料库集合 open_subtitles 英文电影字幕解析, movie_subtitles_cn 康奈尔电影对话语料库, 歌词_zh 来自 PTT 论坛的歌词,witter_en 来自 twitter 的语料库(700k 行),twitter_en big更大尺寸的 twitter 语料库(5M 行)
* [rkadlec/ubuntu-ranking-dataset-creator](https://github.com/rkadlec/ubuntu-ranking-dataset-creator) 从 Ubuntu 语料库对话框中为排名任务创建训练、有效和测试数据集的脚本。
* [codemayq/chinese_chatbot_corpus](https://github.com/codemayq/chinese_chatbot_corpus) 对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料,共8个公开闲聊常用语料和短信,白鹭时代问答等语料。
* [NiuTrans/Classical-Modern](https://github.com/NiuTrans/Classical-Modern) 非常全的文言文(古文)-现代文平行语料
* [CLUEbenchmark/SimCLUE](https://github.com/CLUEbenchmark/SimCLUE) 大规模语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型。可用于语义理解、语义相似度、召回与排序等检索场景等。整合了以上9个数据集:哈工大 LCQMC 数据集、AFQMC 蚂蚁金融语义相似度数据集、OPPO 小布对话文本语义匹配数据集、北大中文文本复述数据集 PKU-Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集
* [GuocaiL/nlp_corpus](https://github.com/GuocaiL/nlp_corpus) open_ner_data网上开放的ner数据集、boson数据集、clue细粒度实体识别数据集、微软实体识别数据集、人民网实体识别数据集(98年)、中药说明书实体识别数据集(“万创杯”中医药天池大数据竞赛)、视频_音乐_图书数据集、微博数据集
* [zejunwang1/CSTS:](https://github.com/zejunwang1/CSTS) 中文自然语言推理与语义相似度数据集。哈工大 LCQMC 数据集;AFQMC 蚂蚁金融语义相似度数据集;OPPO 小布对话文本语义匹配数据集;谷歌 PAWS-X 数据集;北大中文文本复述数据集 PKU-Paraphrase-Bank;Chinese-STS-B 数据集;Chinese-MNLI 自然语言推理数据集;Chinese-SNLI 自然语言推理数据集;OCNLI 中文原版自然语言推理数据集;CINLID 中文成语语义推理数据集
* [sailxuOvO/CC-Riddle](https://github.com/sailxuOvO/CC-Riddle) 汉字谜语问答数据集
* [CLUEbenchmark/DataCLUE](https://github.com/CLUEbenchmark/DataCLUE) 数据为中心的NLP基准和工具包。以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。
* [ydli-ai/CSL](https://github.com/ydli-ai/CSL) 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。取自 [国家科技资源共享服务工程技术研究中心](https://nstr.escience.net.cn/), 包含 2010-2020 年发表的期刊论文元信息(标题、摘要和关键词)。根据中文核心期刊目录进行筛选, 并标注学科和门类标签,分为 13 个门类(一级标签)和 67 个学科(二级标签)。 数据总量为 396,209 条。
* [pluto-junzeng/CNSD](https://github.com/pluto-junzeng/CNSD) 中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
* [victorsungo/MMDialog](https://github.com/victorsungo/MMDialog) 面向多模态开放域会话的大规模多轮对话数据集。
* [lupantech/ScienceQA](https://github.com/lupantech/ScienceQA) 通过思维链进行多模态推理的科学问题回答。提出了科学问答(ScienceQA),这是一个新的基准,包括21,208个多模态多项选择题,有一套不同的科学主题和注释,他们的答案与相应的讲座和解释。讲座和解释分别提供了一般的外部知识和具体的原因,以获得正确的答案。拥有更丰富的领域多样性:自然科学语言科学社会科学。ScienceQA包含26个主题、127个类别和379个技能,涵盖了广泛的领域。我们进一步设计语言模型,学习生成演讲和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA证明了CoT在语言模型中的实用性,CoT在少样例GPT-3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。
* [benywon/ChiQA](https://github.com/benywon/ChiQA) 用于多模态理解的大规模基于图像的真实世界问答数据集。ChiQA中的问题是向搜索引擎发出的开放域用户查询。ChiQA中的图像也是从搜索引擎中收集的真实世界图像,与问题相关但不一定能回答问题。我们的数据众包包括两个阶段的主动学习过程。在第一阶段,我们从网络上随机收集样本。在第二阶段中,我们首先基于来自第一阶段的数据训练模型,然后使用训练好的模型在剩余数据上选择硬示例并继续标记。这两个阶段的设置使得数据更具挑战性,并且从本质上消除了对数据中某些属性或语言模式的不合理偏爱。
* [qkaren/Counterfactual-StoryRW](https://github.com/qkaren/Counterfactual-StoryRW) “虚构故事推理和生成”的数据集和代码
* [eecrazy/CausalBank](https://github.com/eecrazy/CausalBank) 非常大规模、开放的领域、句子级、平行的因果语料库。按照句子中出现的因果顺序分为两部分:because_mode(结果,然后是原因)和therefore_mode(原因,然后是结果)。使用预处理的英语通用爬虫语料库 (5.14 TB) 中的细粒度因果模板匹配获得的,完全自动,无需任何人工注释。里面或多或少有噪音。
* [InsaneLife/ChineseNLPCorpus](https://github.com/InsaneLife/ChineseNLPCorpus) 中文自然语言处理数据集,阅读理解、任务型对话数据、文本分类、实体识别&词性标注&分词、句法&语义解析、推荐系统、百科数据、指代消歧、预训练:(词向量or模型)、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典。
* [pengxiao-song/awesome-chinese-legal-resources](https://github.com/pengxiao-song/awesome-chinese-legal-resources) 中国法律数据集和相关资源的精彩集合。致力于收集全面的中文法律数据源
* [xglue](https://huggingface.co/datasets/xglue) 由11个任务组成,跨越19种语言。对于每个任务,训练数据仅以英语提供。这意味着要在XGLUE上取得成功,模型必须具有强大的零镜头跨语言迁移能力,以从特定任务的英语数据中学习并将其学到的内容转移到其他语言中。与其并发工作XTREME相比,XGLUE有两个特点:首先,它同时包含跨语言NLU和跨语言NLG任务;其次,除了包括5个现有的跨语言任务(即NER,POS,MLQA,PAWS-X和XNLI)之外,XGLUE还从Bing场景中选择了6个新任务,包括新闻分类,查询广告匹配,网页排名,QA匹配,问题生成和新闻标题生成。语言、任务和任务来源的这种多样性为量化跨语言自然语言理解和生成的预训练模型的质量提供了全面的基准。
* [yhavinga/ccmatrix](https://huggingface.co/datasets/yhavinga/ccmatrix) 该语料库是使用 [CCMatrix](https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix) 中所述的基于边缘的双文本挖掘技术从网络爬虫中提取的语言对。
* [ywjawmw/TCM_KG](https://github.com/ywjawmw/TCM_KG) 中医TCM-neo4j 知识图谱
* [ydli-ai/CSL](https://github.com/ydli-ai/CSL) 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。
* [WuDaoCorpora Text文本预训练数据集](https://data.baai.ac.cn/details/WuDaoCorporaText) 北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。
* [beyond/chinese_clean_passages_80m](https://huggingface.co/datasets/beyond/chinese_clean_passages_80m) 包含8千余万纯净中文段落,不包含任何字母、数字。文本长度大部分介于50~200个汉字之间。数据是基于CLUE中文预训练语料集进行处理、过滤得到的。
* [tiiuae/falcon-refinedweb](https://huggingface.co/datasets/tiiuae/falcon-refinedweb) 由 TII 构建并在 ODC-By 1.0 许可下发布的海量英语网络数据集。通过对 CommonCrawl 进行严格的过滤和大规模重复数据删除而构建的;我们发现,在 RefinedWeb 上训练的模型在仅依赖于 Web 数据的情况下,可以达到在线性能或优于在精选数据集上训练的模型。RefinedWeb 也是“多模态友好”的:它包含处理过的样本中图像的链接和替代文本。
* [ssymmetry/BBT-FinCUGE-Applications](https://github.com/ssymmetry/BBT-FinCUGE-Applications/tree/main) 大规模中文金融领域语料库BBT-FinCorpus,包含以下四种语料: 公司公告 在过去二十年中由中国所有上市公司发布的公司公告。原始数据为 PDF 格式,总大小约为 2TB。使用 PDF 解析器将 PDF 文件转换为文我们件,转换后的文件的总大小为 105GB。研究报告 由券商、投行等投资机构发布的针对宏观经济、板块、行业和个股的研究报告,分析研究对象的现状并展望其未来发展趋势。原始数据为PDF格式,总大小约为1TB。经转化后的文我们件总量约11GB。财经新闻 从新浪财经,腾讯财经,凤凰财经,36Kr 和虎嗅等网站爬取的过去五年内的财经新闻。经清洗后的文我们件总量约 20GB。社交媒体 股吧和雪球网过去二十年内的所有股民和博主发表的帖子。经清洗后的文本总量约 120GB。
* [lmsys/lmsys-chat-1m](https://huggingface.co/datasets/lmsys/lmsys-chat-1m) 该数据集包含 100 万个真实世界的对话和 25 个最先进的 LLMs.它是从 2023 年 4 月至 8 月期间在 Vicuna 演示和 Chatbot Arena 网站上从野外的 210K 个唯一 IP 地址中收集的。每个示例都包含对话 ID、模型名称、OpenAI API JSON 格式的对话文本、检测到的语言标记和 OpenAI 审核 API 标记。
* [lmsys/chatbot_arena_conversations](https://huggingface.co/datasets/lmsys/chatbot_arena_conversations) 该数据集包含 33K 个具有成对人类偏好的清理对话。它是从 2023 年 4 月至 6 月期间聊天机器人竞技场上的 13K 个唯一 IP 地址中收集的。每个示例都包括一个问题 ID、两个模型名称、OpenAI API JSON 格式的完整对话文本、用户投票、匿名用户 ID、检测到的语言标签、OpenAI 审核 API 标签、附加有毒标签和时间戳。
* [RyokoAI/ShareGPT52K](https://huggingface.co/datasets/RyokoAI/ShareGPT52K) 该数据集是在关闭之前通过 ShareGPT API 抓取的大约 90,000 个对话的集合。这些对话包括用户提示和 OpenAI 的 ChatGPT 的响应。
* [CausalLM/Refined-Anime-Text](https://huggingface.co/datasets/CausalLM/Refined-Anime-Text) 包含超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成的文本数据集的动漫主题子集。该数据集此前从未公开发布过。由于社区对动漫文化的浓厚兴趣,且考虑到通识数据集中此类题材的代表性不足,以及原始文本中网络俚语和无关内容的泛滥而导致的低质量、难以清理的问题,我们决定发布这份子集供进一步研究。这份数据集旨在用于研究大型语言模型中网络亚文化的数据治理,并探索具有挑战性的 LLM 持续预训练问题,例如特定主题的知识蒸馏以及对未见知识的持续学习。
* [openai/miniF2F](https://github.com/openai/miniF2F) 正式的数学基准测试(跨多个正式系统进行翻译),由奥林匹克竞赛(AMC、AIME、IMO)以及高中和本科数学课程的练习陈述组成。
* [liuhuanyong/DomainWordsDict](https://github.com/liuhuanyong/DomainWordsDict) 涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。
* [CLUEbenchmark/CLUEDatasetSearch](https://github.com/CLUEbenchmark/CLUEDatasetSearch) 搜索所有中文NLP数据集,附常用英文NLP数据集。包括 NER、QA、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库、阅读理解等。
* [facebookresearch/anli](https://github.com/facebookresearch/anli/) 对抗性的自然语言推理基准,该数据集通过迭代、对抗性的人与模型在环程序收集。
* [google-research-datasets/tydiqa](https://github.com/google-research-datasets/tydiqa) 包含 200k 个人工注释的问答对,采用 11 种类型不同的语言,在看不到答案和不使用翻译的情况下编写,专为自动问答系统的训练和评估而设计。此存储库为数据集提供评估代码和基线系统。
* [castorini/mr.tydi](https://github.com/castorini/mr.tydi) 基于 TyDi 的多语言基准数据集,涵盖 11 种类型不同的语言。
* [dqwang122/MLROUGE](https://github.com/dqwang122/MLROUGE) 用于多语言摘要的 ROUGE
* [esdurmus/Wikilingua](https://github.com/esdurmus/Wikilingua) 多语言抽象摘要数据集,来自 WikiHow 的 18 种语言的 ~770k 篇文章和摘要对。
* [PhilipMay/stsb-multi-mt](https://github.com/PhilipMay/stsb-multi-mt) 机器翻译的多语言 STS 基准数据集。
* [unicamp-dl/mMARCO](https://github.com/unicamp-dl/mMARCO) MS MS MARCO 段落排名数据集的多语言版本。翻译了 MS MARCO 段落排名数据集,这是一个大规模的 IR 数据集,包含从 Bing 的搜索查询日志中抽取的超过五十万个匿名问题。mMARCO 包括 14 种语言(包括原始英文版本)。
* [cluebenchmark/OCNLI](https://github.com/cluebenchmark/OCNLI) 中文原版自然语言推理任务
* [jgc128/mednli](https://github.com/jgc128/mednli) 临床领域的自然语言推理数据集
* [alipay/RJU_Ant_QA](https://github.com/alipay/RJU_Ant_QA) RJUA-QA(仁济医院泌尿外科和蚂蚁集团协作问答数据集)是一个创新的泌尿外科医学专业QA推理数据集。
* [houbb/sensitive-word](https://github.com/houbb/sensitive-word) 敏感词/违禁词/违法词/脏词。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。
* [RyokoAI/Fandom23K](https://huggingface.co/datasets/RyokoAI/Fandom23K) Fandom23K是一个数据集,由2023年3月14日至3月18日期间从大约23,665个 Fandom.com wiki抓取的15,616,749篇文章组成。它是即将推出的 BigKnow2022 数据集的一个子集。语言:英语。
* [RyokoAI/Honeyfeed3600](https://huggingface.co/datasets/RyokoAI/Honeyfeed3600) Honeyfeed3600 是一个数据集,由英语网络小说网站 Honeyfeed 上发布的大约 3,600 个系列的 38,000 多个章节的文本组成。语言:英语。
* [RyokoAI/CNNovel125K](https://huggingface.co/datasets/RyokoAI/CNNovel125K) CNNovel125K是一个数据集,由从中国小说托管网站 http://ibiquw.com 下载的大约125,000部小说组成。
* [RyokoAI/ScribbleHub17K](https://huggingface.co/datasets/RyokoAI/ScribbleHub17K) ScribbleHub17K 是一个数据集,由原始故事共享网站 Scribble Hub 上发布的大约 17,500 个系列的 373,000 多个章节的文本组成。语言:英语。
* [statmt/cc100](https://huggingface.co/datasets/statmt/cc100) 该语料库试图重新创建用于训练 XLM-R 的数据集。该语料库包括 100+ 种语言的单语数据,还包括罗马化语言的数据(用 *_rom 表示)。这是使用 CC-Net 存储库通过处理 2018 年 1 月至 12 月的 Commoncrawl 快照提供的 url 和段落索引构建的。CC-100 主要用于预训练语言模型和单词表示。语言:多语言。
* [uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX) 庞大的多语言数据集,拥有 167 种语言的 6.3 万亿个词元,专为大型语言模型 (LLM) 开发量身定制。我们的数据集通过严格的多阶段流水线进行细致的清理和重复数据删除,以实现模型训练的最佳质量,包括语言识别、基于 URL 的过滤、基于指标的清洗、文档细化和重复数据删除。我们在文档级别使用 MinHash 来实现不同语言数据集的模糊重复数据删除。我们的数据清理框架包括多种标准和阈值选择,以大量数据样本为指导,确保在各个方面进行全面的噪声过滤。CulturaX 在 HuggingFace 中完全向公众发布,以促进多语言的研究和进步LLMs。我们的数据集结合了 mC4(3.1.0 版)[1] 的最新版本和截至今年的所有可访问的 OSCAR 语料库,包括 20.19、21.09、22.01 和 23.01 [2]。经过深度清理和重复数据删除后,CulturaX 涉及 16TB 的镶木地板格式数据(解压缩后可扩展至 27TB)。我们数据集的一半以上专门用于非英语语言,以显着增加数据量并增强训练模型在多语言场景中的可行性。
* [allenai/c4](https://huggingface.co/datasets/allenai/c4) Common Crawl 的 Web 爬虫语料库的庞大、干净版本。基于 Common Crawl 数据集:“https://commoncrawl.org”。这是 Google C4 数据集的处理版本。我们准备了五种变体的数据: en 、 en.noclean 、 en.noblocklist、realnewslike 和 multilingual (mC4)。en :305GB,en.noclean :2.3TB, en.noblocklist :380GB,realnewslike :15GB,multilingual (mC4):9.7TB(108 个子集,每种语言一个)。该 en.noblocklist 变体与 en 变体完全相同,只是我们关闭了所谓的“坏词过滤器”,该过滤器会从 https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 列表中删除所有包含单词的文档。
* [LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words](https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words) 各种语言的肮脏、顽皮、淫秽和其他坏话和词语的清单
* [legacy-datasets/mc4](https://huggingface.co/datasets/legacy-datasets/mc4) 已弃用:数据集“mc4”已弃用,将被删除。请改用“allenai/c4”。
* [teleprint-me/phi-1](https://huggingface.co/datasets/teleprint-me/phi-1) 该数据集是为训练 phi-1 模型而创建的,基于论文“教科书是你所需要的一切”。它包含来自各种教科书的高质量数据,使用 OpenAI 的 GPT-3.5 和 GPT-4 模型进行转换和合成。
* [laion/OIG](https://huggingface.co/datasets/laion/OIG) 中等质量的大型指令数据集以及一个较小的高质量指令数据集 (OIG-small-chip2)。OIG目前为44M。我们将继续发布更大的多样化指令数据集,目标是创建 1 万亿个不同指令的词元——足以从头开始预训练LLM。
* [GAIR/lima](https://huggingface.co/datasets/GAIR/lima) 仅需要少量的指令微调数据(1000条)就可以教会模型产生高质量输出。此外,1000条SFT数据就达到了很好的指令微调效果,也说明了高质量数据对于模型的重要性,这一点与 Textbooks Are All You Need 有异曲同工之妙。
* [Open-Orca/OpenOrca](https://huggingface.co/datasets/Open-Orca/OpenOrca) OpenOrca 数据集是增强的 FLAN 集合数据的集合。目前 ~1M GPT-4 完成,~3.2M GPT-3.5 完成。它与ORCA论文中提出的分布一致,以表格形式呈现,目前代表了完整预期数据集的部分完成,并且正在不断生成以扩大其范围。这些数据主要用于自然语言处理领域的训练和评估。该数据集支持多种任务,包括语言建模、文本生成和文本增强。
* [CohereForAI/aya_collection](https://huggingface.co/datasets/CohereForAI/aya_collection) Aya Collection 是一个庞大的多语言集合,由 5.13 亿个提示和完成实例组成,涵盖广泛的任务。该集合整合了来自流利演讲者的指令式模板,并将其应用于精选的数据集列表,以及将指令式数据集翻译成 101 种语言。Aya 数据集是一个人工策划的多语言指令和响应数据集,也是该集合的一部分。由三个不同的数据源组成:模板化数据:我们与流利的演讲者合作创建模板,允许将现有数据集自动扩展为各种语言。翻译数据:我们使用 NLLB 3.3B 参数机器翻译模型将 19 个数据集的手工选择子集翻译成 101 种语言(114 种方言)。Aya 数据集:我们将 Aya 数据集作为整个集合的子集发布。这是集合中唯一一个完整地进行人工注释的数据集。
* [CohereForAI/aya_evaluation_suite](https://huggingface.co/datasets/CohereForAI/aya_evaluation_suite) 总共包含 26,750 个开放式对话式提示,用于评估多语言开放式生成质量。为了在语言覆盖率和人工策展的质量之间取得平衡,我们创建了一个评估套件,其中包括:人工策划的 7 种语言示例 ( tur, eng, yor, arb, zho, por, tel ) → aya-human-annotated .将精心挑选的示例机器翻译成 101 种语言 → dolly-machine-translated .人工译后编辑成 6 种语言 ( hin, srp, rus, fra, arb, spa ) → dolly-human-edited .包括 Aya Evaluation Suite 以下子集:aya-human-annotated:250 个人类编写的原始提示,每个提示有 7 种语言。dolly-machine-translated:来自 databricks-dolly-15k 的 200 个人工选择的提示,使用 NLLB 模型自动将英语翻译成 101 种语言(总共 114 种方言)。dolly-human-edited:200 个 dolly-machine 翻译的提示,由流利的演讲者对 6 种语言进行后期编辑。
* [CohereForAI/aya_dataset](https://huggingface.co/datasets/CohereForAI/aya_dataset) 一个 Aya Dataset 多语言教学微调数据集,由开放科学社区通过 Cohere For AI 的 Aya Annotation Platform 策划。该数据集总共包含 204k 个人工注释的提示完成对以及注释者的人口统计数据。该数据集可用于训练、微调和评估多语言LLMs语言。
* [CohereForAI/xP3x](https://huggingface.co/datasets/CohereForAI/xP3x) xP3x(Crosslingual Public Pool of Prompts eXtended)是277种语言和16个NLP任务的提示和数据集的集合。它包含所有 xP3 + 更多!它用于在Aya @ C4AI 项目中培训mT0和BLOOMZ的未来竞争者
* [allenai/prosocial-dialog](https://huggingface.co/datasets/allenai/prosocial-dialog) 大规模的多轮英语对话数据集,用于教导会话代理按照社会规范对有问题的内容做出反应。ProsocialDialog 涵盖了各种不道德、有问题、有偏见和有毒的情况,包含鼓励亲社会行为的响应,这些响应基于常识性社会规则(即经验法则,RoT)。ProsocialDialog 通过人类与 AI 协作框架创建,由 58K 个对话组成,其中包含 331K 个话语、160K 个独特的 RoT 和 497K 个对话安全标签,并附有自由格式的理由。为了创建 ProsocialDialog,我们建立了一个人类与 AI 协作的数据创建框架,其中 GPT-3 生成潜在的不安全话语,众包工作者为它们提供亲社会响应。这种方法使我们能够规避两个实质性的挑战:(1)人类之间没有可用的大规模亲社会对话语料库,以及(2)要求人类写出不道德、有毒或有问题的话语可能会导致心理伤害(Roberts,2017;Steiger 等人,2021 年)。
* [OpenAssistant/oasst1](https://huggingface.co/datasets/OpenAssistant/oasst1) 为了使大规模对齐研究民主化,我们发布了 OpenAssistant Conversations (OASST1),这是一个人工生成的、人工注释的助手式对话语料库,由 35 种不同语言的 161,443 条消息组成,带有 461,292 个质量评级的注释,产生了超过 10,000 个完全注释的对话树。该语料库是全球众包工作的产物,涉及 13,500 多名志愿者。OpenAssistant Conversations 包含 35 种不同的语言。
* [tasksource/oasst1_pairwise_rlhf_reward](https://huggingface.co/datasets/tasksource/oasst1_pairwise_rlhf_reward) 主要用于奖励建模(reward modeling)。该数据集包含2万条多语言的oasst1 reward数据,用于训练基于人类反馈的强化学习模型(RLHF)。这些数据通过比较不同响应的有用性来生成奖励信号,从而帮助改进文本生成模型的表现。
* [HuggingFaceH4/stack-exchange-preferences](https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences) 此数据集包含来自stack-exchange堆栈溢出数据转储的问题和答案,用于首选项模型训练。重要的是,这些问题已经过过滤,以符合以下偏好模型标准(紧随 Askell 等人,2021 年):有 >=2 个答案。这些数据还可用于教学微调和语言模型训练。仅英语,可能存在其他语言。
* [ehovy/race](https://huggingface.co/datasets/ehovy/race) 大规模的阅读理解数据集,拥有超过28,000个段落和近100,000个问题。该数据集来自中国的英语考试,专为初中生和高中生设计。该数据集可以用作机器理解的训练集和测试集。
* [rajpurkar/squad](https://huggingface.co/datasets/rajpurkar/squad) 斯坦福问答数据集 (SQuAD) 是一个阅读理解数据集,由众包工作者在一组维基百科文章中提出的问题组成,其中每个问题的答案都是相应阅读段落中的一段文本或跨度,或者问题可能无法回答。SQuAD 1.1 包含 100,000+ 个问答对,涉及 500+ 篇文章。语言:英语。
* [hotpotqa/hotpot_qa](https://huggingface.co/datasets/hotpotqa/hotpot_qa) HotpotQA 是一个具有 113k 个基于维基百科的问答对的新数据集,具有四个关键特征:(1) 问题需要对多个支持文档进行查找和推理才能回答;(2)问题多种多样,不局限于任何预先存在的知识库或知识图式;(3)我们提供推理所需的句子级支持事实,允许QA系统在强有力的监督下进行推理并解释预测;(4)我们提供了一种新型的事实比较问题,以测试QA系统提取相关事实并进行必要比较的能力。
* [ought/raft](https://huggingface.co/datasets/ought/raft) 真实世界的注释小样本任务 (RAFT) 数据集是在现实世界中发现的英语数据集的聚合。与每个数据集相关的是二元或多类分类任务,旨在提高我们对语言模型在具有具体现实价值的任务上的表现的理解。每个数据集中仅提供 50 个标记示例。
* [EleutherAI/proof-pile-2](https://huggingface.co/datasets/EleutherAI/proof-pile-2) 包含 550 亿个数学和科学文档的词元数据集。创建此数据集是为了训练 Llemma 7B 和 Llemma 34B 模型。它由三个子集组成:arxiv (29B 词元):RedPajama 的 ArXiv 子集;open-web-math (15B tokens):OpenWebMath 数据集,其中包含来自互联网的大量高质量数学文本;algebraic-stack (11B tokens):一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。
* [EleutherAI/pile](https://huggingface.co/datasets/EleutherAI/pile) 825 GiB 多样化的开源语言建模数据集,由 22 个较小的高质量数据集组合在一起。此数据集为英文 ( EN )。enron_emails、europarl、free_law、hacker_news、nih_exporter、pubmed、pubmed_central、ubuntu_irc、uspto、github。
* [EleutherAI/lambada_openai](https://huggingface.co/datasets/EleutherAI/lambada_openai) 该数据集由OpenAI预处理的LAMBADA测试拆分组成(请参阅此处和此处的相关讨论)。它还包含德语、西班牙语、法语和意大利语的机器翻译版本。LAMBADA用于通过单词预测任务评估计算模型的文本理解能力。LAMBADA是叙事文本的集合,其共同特点是,如果人类受试者接触到整个文本,他们能够猜出他们的最后一个单词,但如果他们只看到目标单词前面的最后一个句子,则不能。为了在LAMBADA上取得成功,计算模型不能简单地依赖于本地上下文,而必须能够在更广泛的话语中跟踪信息。
* [katielink/healthsearchqa](https://huggingface.co/datasets/katielink/healthsearchqa) 谷歌为Med-PaLM论文(arXiv预印本)发布的消费者健康问题数据集。我们策划了自己的附加数据集,其中包含 3,173 个经常搜索的消费者问题,称为 HealthSearchQA。该数据集是使用种子医疗条件及其相关症状策划的。我们使用种子数据来检索由搜索引擎生成的公开可用的常用搜索问题,这些问题显示给所有输入种子词的用户。我们将数据集作为回答消费者医疗问题的开放基准发布,并希望这将成为社区的有用资源,作为反映现实世界消费者关注的数据集。
* [BAAI/AquilaMoE-SFT](https://huggingface.co/BAAI/AquilaMoE-SFT) 构建了一个包含4TB中英文词元的双语预训练数据集。该数据集包括网页、arXiv 论文、百科全书数据、书籍、代码和 QA 对。它涵盖了广泛的高质量开源预训练数据,如 RedPajama-Data-V2、falcon-refinedweb、C4、Pile、WuDaoCorporaText、ChineseWebText 等。上述开源数据经过语言过滤以仅保留中英文文本,启发式细化以删除低质量内容,重复数据删除以保持唯一性,特定领域过滤以确保相关性,数据质量检查,去除有毒和露骨内容,最后以指定比例进行数据混合。
* [allenai/wiqa](https://huggingface.co/datasets/allenai/wiqa) WIQA 数据集 V1 有 39705 个问题,其中包含段落上下文中的扰动和可能的影响。数据集分为 29808 个训练问题、6894 个开发问题和 3003 个测试问题。
* [allenai/qasc](https://huggingface.co/datasets/allenai/qasc) QASC 是一个专注于句子构成的问答数据集。它由 9,980 道关于小学科学的 8 路多项选择题(8,134 训练集、926 开发集、920 测试集)组成,并带有 17M 个句子的语料库。
* [nyu-mll/glue](https://huggingface.co/datasets/nyu-mll/glue) GLUE,通用语言理解评估基准 (https://gluebenchmark.com/) 是用于训练、评估和分析自然语言理解系统的资源集合。GLUE 基准测试的排行榜可以在这个地址找到。它包括以下任务:ax:一个手动策划的评估数据集,用于对各种语言现象的系统性能进行细粒度分析。该数据集通过自然语言推理 (NLI) 问题评估句子理解。使用在 MulitNLI 上训练的模型来生成此数据集的预测。cola:语言可接受性语料库由来自语言学理论书籍和期刊文章的英语可接受性判断组成。每个示例都是一个单词序列,注释它是否是语法英语句子。mnli:多体裁自然语言推理语料库是一个带有文本蕴涵注释的句子对的众包集合。给定一个前提句和一个假设句,任务是预测前提是否包含假设(蕴涵),是否与假设相矛盾(矛盾),或者两者都不是(中性)。前提句子是从十个不同的来源收集的,包括转录的演讲、小说和政府报告。基准测试的作者使用标准测试集,他们从RTE作者那里获得了自有标签,并在匹配(域内)和不匹配(跨域)部分进行评估。他们还使用并推荐 SNLI 语料库作为辅助训练数据的 550k 示例。mnli_matched:匹配的验证和测试从 MNLI 拆分。mnli_mismatched:不匹配的验证和测试从 MNLI 拆分。mrpc:Microsoft研究释义语料库(Dolan&Brockett,2005)是一个从在线新闻来源自动提取的句子对语料库,并带有人工注释,用于确定该对中的句子在语义上是否等价。qnli:斯坦福问答数据集是一个由问题-段落对组成的问答数据集,其中段落中的一个句子(来自维基百科)包含相应问题的答案(由注释者编写)。基准测试的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠程度低的对,将任务转换为句对分类。任务是确定上下文句子是否包含问题的答案。原始任务的修改版本删除了模型选择确切答案的要求,但也删除了简化的假设,即答案始终存在于输入中,并且词汇重叠是可靠的提示。qqp:Quora Question Pairs2 数据集是来自社区问答网站 Quora 的问题对集合。任务是确定一对问题在语义上是否等价。rte:识别文本蕴涵 (RTE) 数据集来自一系列年度文本蕴涵挑战。基准测试的作者结合了来自RTE1(Dagan等人,2006),RTE2(Bar Haim等人,2006),RTE3(Giampiccolo等人,2007)和RTE5(Bentivogli等人,2009)的数据。示例是根据新闻和维基百科文本构建的。基准测试的作者将所有数据集转换为两类拆分,对于三类数据集,为了保持一致性,他们将中立和矛盾折叠为非蕴涵。sst2:斯坦福情感树库由电影评论中的句子和他们情感的人类注释组成。任务是预测给定句子的情绪。它使用双向(正/负)类拆分,仅带有句子级标签。stsb:语义文本相似性基准(Cer et al., 2017)是从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对的集合。每对都经过人工注释,相似度分数从 1 到 5。wnli:Winograd Schema Challenge (Levesque et al., 2011) 是一项阅读理解任务,其中系统必须阅读带有代词的句子,并从选项列表中选择该代词的指称。这些示例是手动构建的,以挫败简单的统计方法:每个示例都取决于句子中单个单词或短语提供的上下文信息。为了将问题转换为句子对分类,基准测试的作者通过将模棱两可的代词替换为每个可能的指称来构造句子对。任务是预测替换代词的句子是否由原始句子引起。他们使用一个小型评估集,该评估集由源自小说书籍的新示例组成,这些示例由原始语料库的作者私下共享。虽然包含的训练集在两个类之间是平衡的,但测试集在它们之间是不平衡的(65% 不是蕴涵)。此外,由于数据怪癖,开发集是对抗性的:假设有时在训练和开发示例之间共享,因此如果模型记住了训练示例,它们将预测相应开发集示例上的错误标签。与 QNLI 一样,每个示例都是单独评估的,因此模型在此任务上的分数与其在未转换的原始任务上的分数之间没有系统的对应关系。基准测试的作者调用转换数据集 WNLI (Winograd NLI)。GLUE中的语言数据为英语 (BCP-47 en )。
* [ErnestSDavis/winograd_wsc](https://huggingface.co/datasets/ErnestSDavis/winograd_wsc) Winograd 模式是一对句子,它们仅在一个或两个单词上有所不同,并且包含歧义,该歧义在两个句子中以相反的方式解决,并且需要使用世界知识和推理来解决它。数据集为英文。图灵测试的改进版本。此数据由专家手动编写,因此架构为:很容易被人类读者消除歧义(理想情况下,很容易,以至于读者甚至没有注意到存在歧义);无法通过简单的技术(例如选择限制)解决;谷歌证明;也就是说,没有明显的文本语料库统计测试可以可靠地正确地消除这些歧义。
* [EleutherAI/lichess-puzzles](https://huggingface.co/datasets/EleutherAI/lichess-puzzles) 这是来自 Lichess 数据库的 ~1.5M 国际象棋谜题的集合,该数据库包含 ~3.9M 谜题(截至 2024-05-09)。《你能学会算法吗?从简单到困难的问题与循环网络的泛化“被包括在内,除了 26,079 个谜题,这些谜题不再出现在 Lichess 数据库中(假设它们可能出于充分的理由被删除)。对于每个谜题, ctx 都是一个实际的 Lichess 游戏的 SAN 成绩单(每个半步都有编号),直到谜题位置。请注意,这包括 Lichess 和 Easy-to-Hard 数据集中 Moves 列的第一次移动。target 是最好的下一步,在SAN中,具有领先的空间。此移动(列中 Moves 的第二步)通常与实际的 Lichess 游戏不同,后者可能包含错误。不包括拼图解决方案的其他动作。这种格式与“弱到强泛化”中使用的格式相匹配,并且这组谜题也旨在尽可能相似(除了 Lichess 删除的 26k)。
* [EleutherAI/wikitext_document_level](https://huggingface.co/datasets/EleutherAI/wikitext_document_level) WikiText语言建模数据集是从维基百科上经过验证的“良好”和“精选”文章中提取的超过1亿个标记的集合。该数据集可在知识共享署名-相同方式共享许可下使用。与Penn Treebank(PTB)的预处理版本相比,WikiText-2大2倍以上,WikiText-103大110倍以上。WikiText数据集还具有更大的词汇量,并保留了原始大小写,标点符号和数字 - 所有这些都在PTB中被删除。由于该数据集由完整的文章组成,因此非常适合可以利用长期依赖关系的模型。
* [abisee/cnn_dailymail](https://huggingface.co/datasets/abisee/cnn_dailymail) CNN / DailyMail 数据集是一个英语数据集,包含由 CNN 和每日邮报的记者撰写的 300 多篇独特的新闻文章。当前版本支持抽取式和抽象式摘要,尽管原始版本是为机器阅读和理解以及抽象问答而创建的。
* [lil-lab/newsroom](https://huggingface.co/datasets/lil-lab/newsroom) NEWSROOM是一个大型数据集,用于训练和评估摘要系统。它包含130万篇文章和摘要,由38家主要出版物的新闻编辑室的作者和编辑撰写。
* [allenai/quartz](https://huggingface.co/datasets/allenai/quartz) QuaRTz 是一个众包数据集,包含 3864 个关于开放域定性关系的多项选择题。每个问题都与 405 个不同的背景句子(有时是短段落)中的一个配对。QuaRTz 数据集 V1 包含 3864 个关于开放域定性关系的问题。每个问题都与 405 个不同的背景句子(有时是短段落)中的一个配对。
* [allenai/ropes](https://huggingface.co/datasets/allenai/ropes) ROPES(情境中的段落效应推理)是一个 QA 数据集,用于测试系统将文本中的知识应用于新情境的能力。一个系统呈现了一个背景段落,其中包含因果关系或定性关系(例如,“动物传粉者提高了花朵受精的效率”),使用该背景的新情况,以及需要在上下文中推理背景段落中关系的影响的问题。阅读理解任务被框定为抽取式问答问题。模型通过计算单词级 F1 和完全匹配 (EM) 指标来评估,遵循最近阅读理解数据集(例如 SQuAD)的常见做法。数据集中的文本为英文文本。
* [allenai/math_qa](https://huggingface.co/datasets/allenai/math_qa) 大规模的数学单词问题数据集。我们的数据集是通过使用一种新的表示语言来使用完全指定的操作程序对 AQuA-RAT 数据集进行注释来收集的。AQuA-RAT提供了问题、选项、理由和正确的选项。
* [community-datasets/definite_pronoun_resolution](https://huggingface.co/datasets/community-datasets/definite_pronoun_resolution) 由作者本科班的 30 名学生组成。这些句子对涵盖的主题从真实事件(例如,伊朗袭击沙特驻美国大使的计划)到电影中的事件/角色(例如,蝙蝠侠)和纯粹的虚构情况,在很大程度上反映了流行文化,如90年代初出生的美国孩子所感知的。每个带注释的示例跨越四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选先行词,第四行包含正确的先行词。如果目标代词在句子中出现不止一次,则它的第一个出现就是要解决的问题。
* [math-ai/StackMathQA](https://huggingface.co/datasets/math-ai/StackMathQA) StackMathQA 是一个精心策划的 200 万个数学问题和答案的集合,来自各种 Stack Exchange 站点。该存储库旨在为数学和人工智能研究领域的研究人员、教育工作者和爱好者提供综合资源。
* [argilla/OpenHermesPreferences](https://huggingface.co/datasets/argilla/OpenHermesPreferences) 包含 ~100 万个 AI 偏好的数据集,源自 teknium/OpenHermes-2.5。它将来自源数据集的响应与其他两个模型(Mixtral-8x7B-Instruct-v0.1 和 Nous-Hermes-2-Yi-34B)的响应相结合,并使用 PairRM 作为偏好模型来进行评分和排名。该数据集可用于训练偏好模型或通过直接偏好优化(DPO)等技术对齐语言模型。
* [argilla/distilabel-capybara-dpo-7k-binarized](https://huggingface.co/datasets/argilla/distilabel-capybara-dpo-7k-binarized) 在 LDJnr/Capybara 上使用 distilabel 构建的 DPO 数据集。多回合对话数据是微调聊天模型的关键。最相关的 RLHF 作品(Anthropic、Meta Llama2 等)已使用多回合偏好数据。不幸的是,DPO/RLHF 的多轮开放数据集很少。该数据集是填补开源 AI 社区这一空白的一系列数据集中的第一个。该数据集是一个多回合偏好数据集,用于提高开源的聊天能力LLMs。选择和拒绝的配对按照 OpenAI 的对话格式进行格式化,用户和助手之间可能会有几次轮换。要将此数据集用于 DPO,请仅使用最后一条助手消息作为 chosen / rejected ,其余消息用作 prompt 。
* [argilla/dpo-mix-7k](https://huggingface.co/datasets/argilla/dpo-mix-7k) 将 Argilla 构建的 DPO 数据集与 distilabel 相结合的小型鸡尾酒。此数据集的目标是通过仅过滤高评级的选定响应来获得一个小型、高质量的 DPO 数据集。
* [commoncrawl.org](https://commoncrawl.org/) Common Crawl 维护着一个免费、开放的 Web 爬虫数据存储库,任何人都可以使用。Common Crawl 是一家成立于 2007 年的 501(c)(3) 非营利组织。我们为研究人员提供开放网络数据的大规模提取、转换和分析。超过 2500 亿个网页,跨越 17 年。自 2007 年以来免费开放语料库。在超过10,000篇研究论文中被引用。每月添加 3-50 亿个新页面。
* [sheng-z.github.io/ReCoRD-explorer](https://sheng-z.github.io/ReCoRD-explorer/) 一个需要常识推理的大规模阅读理解数据集。ReCoRD 由从 CNN/Daily Mail 新闻文章自动生成的查询组成;每个查询的答案都是相应新闻的总结段落中的文本跨度。ReCoRD的目标是评估机器在阅读理解方面的常识推理能力。ReCoRD 包含来自 70,000+ 篇新闻文章的 120,000+ 个查询。每个查询都经过众包工作者的验证。与现有的阅读理解数据集不同,ReCoRD包含大量需要常识推理的查询,因此为未来的研究弥合人类和机器常识阅读理解之间的差距提出了很好的挑战。
* [allenai.org/data/quoref](https://allenai.org/data/quoref) Quoref 是一个 QA 数据集,用于测试阅读理解系统的核心推理能力。在这个跨度选择基准中,包含来自维基百科的 4.7K 个段落的 24K 个问题,系统必须在段落中选择适当的跨度来回答问题之前解决硬共引用问题。
* [allenai.org/data/drop](https://allenai.org/data/drop) 对段落内容的离散推理(Discrete Reasoning Over the content of Paragraphs ),最近引入了许多不同的阅读理解数据集来研究自然语言中的各种现象,从简单的释义匹配和实体类型到实体跟踪和理解上下文的含义。
* [www.natcorp.ox.ac.uk](http://www.natcorp.ox.ac.uk/) 英国国家语料库 (BNC) 是一个 1 亿字的书面和口语样本集合,来自各种来源,旨在代表 20 世纪后期英国英语的广泛横截面,包括口语和书面语。
* [data.statmt.org/news-crawl](https://data.statmt.org/news-crawl/) 通过爬虫技术获得的各种语言的新闻内容。
* [argilla/distilabel-intel-orca-dpo-pairs](https://huggingface.co/datasets/argilla/distilabel-intel-orca-dpo-pairs) 该数据集是广泛使用的数据集的“分布式标记”版本:Intel/orca_dpo_pairs。原始数据集已被 100 多个开源从业者和模型使用。我们从修复UltraFeedback(以及在此之前的Alpacas和Dollys)中知道,这个数据集可以得到很大的改进。为了继续我们的使命,为开源LLMs和社区构建最佳的对齐数据集,我们花了几个小时使用 distilabel 对其进行改进。原始数据集只是假设 gpt4/3.5-turbo 始终是最佳响应。我们从UltraFeedback中了解到,情况并非总是如此。此外,DPO 微调受益于偏好对的多样性。
* [BAAI/CCI-Data](https://huggingface.co/datasets/BAAI/CCI-Data) 随着大型语言模型的快速发展,工业界和学术界对高质量数据集的需求也在不断增长。这些数据集不仅需要包含海量信息,还需要严格的筛选和清理,以确保其准确性以及下游模型和应用程序的安全性。然而,目前业内流行的公共数据集存在一定的质量和安全风险,尤其是在中国领域,优质数据集尤其缺乏。此外,构建一个安全的中文数据集也面临着许多挑战。因此,构建一个经过严格筛选和标准化处理的数据集,对于公司的LLMs创新发展尤为重要。我们的CCI(中国语料库互联网)数据集由来自中国大陆互联网站点的高质量,值得信赖的来源组成。它经过了严格的数据清理和重复数据删除,在内容质量方面进行了有针对性的检测和过滤。数据处理的规则包括:基于规则的过滤:基于密度的提取、关键词过滤、垃圾信息过滤、简体中文和繁体中文的转换等。基于模型的过滤:通过训练分类模型过滤低质量内容。重复数据删除:数据集内和数据集之间的重复数据删除。此外,针对预训练数据规模大、容易导致评价数据泄露的问题,在数据处理阶段,我们特意对当前几个主流的中国评价数据集进行了严格的筛选和过滤。发布的 CCI 语料库 (CCI v1.0.0) 大小为 104GB。数据集的总时间跨度为 2001 年 1 月至 2023 年 11 月。
* [bigcode/the-stack](https://huggingface.co/datasets/bigcode/the-stack) 包含超过 6TB 的许可源代码文件,涵盖 358 种编程语言。该数据集是作为 BigCode 项目的一部分创建的,BigCode 项目是一个开放的科学合作项目,致力于负责任地开发代码的大型语言模型 (代码LLMs)。用作代码LLMs的预训练数据集,即代码生成 AI 系统,它能够从自然语言描述以及其他代码片段中合成程序。
* [databricks/databricks-dolly-15k](https://huggingface.co/datasets/databricks/databricks-dolly-15k) 开源数据集,其中包含数千名 Databricks 员工在 InstructGPT 论文中概述的几个行为类别中生成的指令跟踪记录,包括头脑风暴、分类、封闭式 QA、生成、信息提取、开放式 QA 和摘要。根据知识共享署名-相同方式共享 3.0 未本地化版本许可的条款,该数据集可用于任何目的,无论是学术目的还是商业目的。Databricks 员工被邀请在八个不同的指令类别中的每一个类别中创建提示/响应对,包括 InstructGPT 论文中概述的七个,以及一个开放式自由格式类别。贡献者被指示避免使用来自网络上除维基百科以外的任何来源的信息(针对指令类别的特定子集),并明确指示避免使用生成式人工智能来制定指令或响应。
* [HuggingFaceFW/fineweb](https://huggingface.co/datasets/HuggingFaceFW/fineweb) 由超过 15T 个来自 CommonCrawl 的清理和重复数据删除的英文 Web 数据组成。数据处理管道针对LLM性能进行了优化,并在我们的大规模数据处理库 datatrove 上运行。FineWeb 最初是 RefinedWeb 的完全开放复制,在 ODC-By 1.0 许可下发布完整数据集。然而,通过仔细添加额外的过滤步骤,我们成功地将 FineWeb 的性能推高到远高于原始 RefinedWeb 的性能,并且在我们的数据集上训练的模型也优于在其他常用的高质量 Web 数据集(如 C4、Dolma-v1.6、The Pile、SlimPajama、RedPajam2)上训练的模型。也就是说,我们认为仍有进一步过滤和改进的空间,并打算继续探索如何在即将到来的 FineWeb 版本中提高数据集质量。
* [HuggingFaceTB/cosmopedia](https://huggingface.co/datasets/HuggingFaceTB/cosmopedia) 由 Mixtral-8x7B-Instruct-v0.1 生成的合成教科书、博客文章、故事、帖子和 WikiHow 文章的数据集,该数据集包含超过 3000 万个文件和 250 亿个令牌,使其成为迄今为止最大的开放合成数据集。它涵盖了各种主题;我们试图映射 RefinedWeb 和 RedPajama 等 Web 数据集中存在的世界知识,并生成涵盖它们的合成内容。数据集由 8 个拆分组成,具体取决于拆分中使用的种子数据的来源。当我们要求不同的风格(例如学术教科书与博客文章)或受众(例如幼儿与大学生)时,一些种子样本可能会出现不止一次。例如,每个 stanford 示例都与 4 种不同的提示样式和受众一起使用,请查看 format 和 audience 列了解更多详细信息。我们观察到,相应地调整受众和提示风格可以显着增强多样性;通过MinHash消除重复的比例低于1%。
* [annas-archive.org/datasets](https://annas-archive.org/datasets) 人类历史上最大的真正开放的图书馆。我们镜像了 Sci-Hub 和 LibGen。我们抓取和开源 Z-Lib、DuXiu 等。30,445,640 本书,100,357,126 篇论文——永久保存。我们所有的代码和数据都是完全开源的。我们的使命是存档世界上所有的书籍(以及报纸、杂志等),并使它们被广泛访问。我们认为,所有书籍都应该广泛镜像,以确保冗余和弹性。这就是为什么我们将来自各种来源的文件汇集在一起的原因。有些来源是完全开放的,可以批量镜像(例如Sci-Hub)。其他人是封闭的和保护性的,所以我们试图抓取它们以“解放”他们的书。还有一些则介于两者之间。我们所有的数据都可以下载,我们所有的元数据都可以生成或下载为 ElasticSearch 和 MariaDB 数据库。原始数据可以通过这样的 JSON 文件手动浏览。
* [stanfordnlp.github.io/coqa](https://stanfordnlp.github.io/coqa/) 用于构建会话问答系统的大规模数据集。CoQA 挑战的目标是衡量机器理解文本段落和回答对话中出现的一系列相互关联的问题的能力。CoQA 包含 127,000+ 个问题,答案来自 8000+ 个对话。每个对话都是通过配对两个众包工作者以问答的形式聊天来收集的。CoQA 的独特功能包括 1) 问题是对话式的;2)答案可以是自由格式的文本;3)每个答案还带有段落中突出显示的证据子序列;4)这些段落是从七个不同的领域收集的。CoQA有许多具有挑战性的现象,这些现象在现有的阅读理解数据集中不存在,例如,共指和语用推理。
* [中文成语语义推理数据集(CINLID)](https://www.luge.ai/#/luge/dataDetail?id=39) 收集了106832条由人工撰写的成语对(含少量歇后语、俗语等短文本),通过人工标注的方式进行平衡分类,标签为entailment、contradiction和neutral,支持自然语言推理(NLI)的任务。entailment:表示含义很接近,前者涵盖了后者或者语义完全相同,即近义词或者同义词/等义词。如开心、快乐;美丽、漂亮。它对应于上述提及的同一关系、包含关系。neutral:表示语义上无明显关联性、不属于同一语义范畴的词汇。它对应于上述提及的分离关系。contradiction:表示两个含义相反的词,包括绝对反义词和相对反义词2类,即分为成对的意义相反、互相对立的词。如:真——假,动——静,拥护——反对。这类反义词所表达的概念意义互相排斥。或成对的经常处于并举、对立位置的词。如:黑——白,高山——平地。这类反义词没有矛盾对立关系,但对比鲜明。这种情况较复杂,它对应于上述提及的分离关系和重叠关系。比如,黑、白虽是反义,但都同属颜色这个大类,有一定的主题重叠关系;但它们的方向相反,有一定的分离倾向,对应上述提及的重叠关系。注:训练集80124 条,测试集26708条。
* [Project Gutenberg](https://www.gutenberg.org/) 古腾堡计划,拥有 70,000 多本免费电子书的图书馆。您将在这里找到世界上最伟大的文学作品,重点是美国版权已过期的旧作品。数以千计的志愿者将电子书数字化并认真校对,供您欣赏。古腾堡计划是第一家免费电子书或电子书的提供商。古腾堡计划的创始人迈克尔·哈特 (Michael Hart) 于 1971 年发明了电子书,他的记忆至今仍激励着电子书和相关内容的创作。迈克尔·哈特(Michael Hart)在2004年的一篇文章中提供了有关使命宣言的更多细节,以及指导古腾堡计划完成该使命的活动的一些信念。
* [smashwords.com](https://www.smashwords.com/about) 欢迎来到 Smashwords 商店!浏览近 100 万本原创电子书,包括每天免费定价的约 100,000 本。强大的搜索工具可让您轻松找到下一本精彩读物。Smashwords 是一家电子书零售商,为全球读者提供服务。截至 2022 年底,Smashwords 正在帮助全球超过 160,000 名作者和小型出版社出版和发行近 600,000 本电子书。 同样到 2022 年底,Smashwords Store 连续第六年实现销售额增长,再创纪录。
* [data.baai.ac.cn/BAAI-MTP](https://data.baai.ac.cn/details/BAAI-MTP) 北京智源人工智能研究院信息检索与知识计算组构建并对外发布数据集MTP(Massive Text Pairs)。MTP由总计3亿条中英文关联文本对构成;其中,中文记录达1亿条,英文数据达2亿条。MTP为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了重要的基础。通过对现有可用的中英文网络文本数据进行收集、整理,我们最终获得了总计3亿条的文本对数据(1.3TB),其中英文文本对2亿条(634GB),中文文本对1亿条(666GB)。包括:wudao,cmrc2018,dureader,simclue,csl,amazon_reviews_multi,wiki_atomic_edits,mlqa,xlsum,Misc*,sentence-transformers Data,wikipedia,cc-net,stackexchange,reddit,S2orc
* [paracrawl.eu](https://paracrawl.eu/) 更广泛/持续地提供欧洲语言的平行语料库。该语料库是作为 ParaCrawl 项目的一部分发布的,该项目由欧盟通过连接欧洲基金共同资助。第 9 版是 ParaCrawl Action 3 的最终版本:“继续为欧洲语言提供并行语料库的 Web-Scale”。
* [UNCorpus 联合国平行语料库
](https://conferences.unite.un.org/UNCorpus) 联合国平行语料库 v1.0 由公有领域的联合国正式记录和其他会议文件组成。这些文件大多以联合国六种正式语文提供。该语料库的当前版本包含 1990 年至 2014 年间生成和手动翻译的内容,包括句子级别的对齐方式。该语料库的创建是联合国对使用多种语文的承诺的一部分,也是对统计机器翻译(SMT)在大会和会议管理部(DGACM)翻译服务和联合国SMT系统(Tapta4UN)中日益增长的重要性的反应。语料库的目的是允许访问多语言语言资源,并促进各种自然语言处理任务(包括机器翻译)的研究和进展。为方便起见,该语料库还预先打包为特定语言的双文本和六种语言的平行语料库子集。联合国平行语料库不作任何明示或暗示的保证。联合国对联合国语料库所载资料的准确性或完整性不作任何具体保证或陈述。在任何情况下,联合国均不对声称因使用联合国语料库而招致或遭受的任何损失、责任、伤害或损害负责。使用联合国语料库的风险由用户自行承担。用户明确承认并同意,联合国不对任何用户的行为负责。如果用户对联合国语料库中提供的任何材料不满意,用户的唯一和排他性补救措施是停止使用联合国语料库。* [skylion007/OpenWebTextCorpus](https://skylion007.github.io/OpenWebTextCorpus/) 旨在重现 OpenAI 的 WebText 数据集,详见此处。此发行版由布朗大学的 Aaron Gokaslan 和 Vanya Cohen 创建。以下文章概述了重现数据集所采取的步骤,并为那些寻求为其进一步发展做出贡献的人提供了信息。我们首先从 Reddit 提交数据集中提取所有 Reddit 帖子 URL。这些链接经过重复数据删除,过滤以排除非 html 内容,然后随机洗牌。然后,这些链接被并行分发到几台机器上供下载,并使用报纸python包提取所有网页。使用Facebook FastText,过滤掉了非英语网页。随后,使用局部敏感度哈希 (LSH) 识别近乎重复的文档。文档被散列成 5 克的集合,所有相似性阈值大于 0.5 的文档都被删除。其余文档被标记化,标记少于 128 的文档被删除。这从 8,013,769 个文档中留下了 38GB 的文本数据(使用 SI 单位为 40GB)。鉴于 OpenAI 发布的有关 WebText 和 GPT-2 的信息有限,我们承认数据集可能还有进一步改进的空间。因此,我们欢迎您的贡献和改进建议。我们希望这个数据集的可用性能够鼓励进一步复制 GPT-2 的工作,并被证明对其他项目有用。我们将很快在 master 分支上发布更多代码。
* [archive.org/stackexchange](https://archive.org/download/stackexchange) archive.org 存档的 stackexchange 的文件
* [data.baai.ac.cn/ArabicText-2022](https://data.baai.ac.cn/details/ArabicText-2022) 北京智源人工智能研究院认知模型与数据研究团队与埃及阿拉伯科技与海运学院(AASTMT)、亚历山大图书馆(BA)、阿布扎比阿联酋起源人工智能研究院(IIAI)等阿拉伯语国家和地区优势高校院所和科研机构合作,构建了目前全球数据量最大的开源阿拉伯语预训练数据集ArabicText 2022,可用于阿拉伯语语言模型的训练。通过对现有可用的阿拉伯语网络文本数据进行收集、整理、扩充和清洗,我们最终获得了200GB+的高质量预训练文本。在数据清洗过程中,我们基于支撑WuDaoCorpora的网页文本深度清洗工具WudaoCleaner,针对阿语进行了高度适配和优化,同时我们将开源的阿语文本清洗库ArabertPreprocessor融入清洗流程中,保证了清洗后的文本质量。相较于现有开源阿语文本数据集,我们此次开源的数据集的体量为全球最大,且新闻、资讯、百科等文字与知识富集类数据占比超过65%,有利于模型从数据中学习到更多的先验知识。
* [data.baai.ac.cn/OL-CC](https://data.baai.ac.cn/details/OL-CC) OpenLabel-Chinese Conversations Dataset (OL-CC) 是首个以众包方式、人工生成的开源中文对话指令集,基于 openlabel.baai.ac.cn 开放平台进行数据收集,包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。截至目前,已有 276 位志愿者参与了数据集的建设。志愿者完成了以下任务:a) 扮演人类用户向AI助手发出指令,b) 扮演AI助手根据上文指令撰写回答。两个任务为异步任务,因此本数据集分为两个部分:a) 完整的“指令-回答”对,b) 尚没有被回答的指令。
* [中文语言理解和生成评测基准-cuge](http://cuge.baai.ac.cn) CUGE包含高质量中文自然语言处理数据集、排行榜与在线评测平台,旨在构建全面系统的中文机器语言能力评测体系,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。数据集包括:语言理解能力-词句级、语言理解能力-篇章级、信息获取及问答能力、语言生成能力、对话交互能力、多语言能力、数学推理能力。CUGE由北京智源人工智能研究院支持于2021年12月30日建成,委员单位由15个国内优势科研单位组成,旨在构建全面系统的中文机器语言能力评测体系,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。自2023年1月开始,CUGE的研发及建设由清华大学人工智能研究院、中文中文信息学会计算语言学专业委员会共同支持。
* [super.gluebenchmark.com](https://super.gluebenchmark.com/) 在过去的一年里,用于预训练和迁移学习的新模型和方法在一系列语言理解任务中推动了显着的性能改进。一年多前推出的 GLUE 基准测试提供了一个单一数字的指标,总结了各种此类任务的进展,但该基准测试的性能最近超过了非专家人类的水平,这表明进一步研究的空间有限。在本文中,我们介绍了 SuperGLUE,这是一个以 GLUE 为风格的新基准测试,具有一组新的更困难的语言理解任务、一个软件工具包和一个公共排行榜。SuperGLUE 可在此 http URL 上获得。
* [dumps.wikimedia.org](https://dumps.wikimedia.org/) 维基媒体下载,所有维基媒体wiki的完整副本,以wiki文本源和嵌入XML的元数据的形式出现。此外,还提供了许多 SQL 形式的原始数据库表。这些快照至少每月提供一次,通常每月提供两次。如果您是这些转储的常规用户,请考虑订阅 xmldatadumps-l 以获取定期更新。所有维基百科wiki中所有页面的副本,以HTML形式呈现。
* [text-machine.cs.uml.edu/quail](https://text-machine.cs.uml.edu/lab2/projects/quail/) 一种新的问答数据集,它结合了常识性、基于文本和无法回答的问题,针对不同的类型和推理类型进行了平衡。9 种推理类型的推理类型注释:时间推理、因果推理、事实推理、共指推理、字符属性、其信念状态、后续实体状态、事件持续时间和不可回答。类型:CC 许可小说、美国之音新闻、博客、Quora 800 文本中的用户故事,每个 18 个问题(~14K 个问题)。
* [PolyAI/banking77](https://huggingface.co/datasets/PolyAI/banking77) 由网上银行查询组成的数据集,并附有相应的意向。BANKING77数据集在银行领域提供了一组非常细粒度的意图。它包含 13,083 个客户服务查询,标记为 77 个意图。它专注于细粒度的单域意图检测。语言:英语。
* [qgyd2021/lip_service_4chan](https://huggingface.co/datasets/qgyd2021/lip_service_4chan) 基于网站 吵架对线陪练员 的服务. 我们采用对话数据中的提问做 prompt, 然后调用 吵架对线陪练员 来获得答案.满嘴芬芳.
* [alisawuffles/WANLI](https://huggingface.co/datasets/alisawuffles/WANLI) WANLI (Worker-AI Collaboration for NLI) 是用于自然语言推理 (NLI) 任务的 108K 英语句子对的集合。每个示例都是通过首先在 MultiNLI (Williams et al., 2018) 中识别共享具有挑战性的推理模式的“口袋”示例来创建的,然后指示 GPT-3 编写具有相同模式的新示例。生成的示例集会自动过滤,以包含最有可能帮助模型训练的示例,最后由人工注释者进行标记和选择性修改。与现有的NLI数据集相比,万里具有独特的经验优势。值得注意的是,在 WANLI 而不是 MultiNLI(大 4 倍)上训练模型可以提高我们考虑的 7 个域外测试集的性能,包括 HANS 的 11% 和 Adversarial NLI 的 9%。
* [community-datasets/eu_regulatory_ir](https://huggingface.co/datasets/community-datasets/eu_regulatory_ir) 欧盟 (EU) 有一个类似于组织监管合规的立法计划。根据《欧盟运作条约》(TFEU),所有公布的欧盟指令必须在国家层面生效。因此,所有欧盟成员国都必须通过一项法律,在指令规定的期限内(通常为 2 年)转换新发布的指令。在这里,我们有两个数据集,EU2UK 和 UK2EU,包含欧盟指令和英国法规,它们既可以作为查询,也可以作为文档,前提是英国法律与其转换的欧盟指令相关,反之亦然。
* [community-datasets/gnad10](https://huggingface.co/datasets/community-datasets/gnad10) 10k 德语新闻文章数据集由来自奥地利在线报纸网站 DER Standard 的 10273 篇德语新闻文章组成。每篇新闻文章都由报纸雇用的专业论坛版主分为 9 类之一。该数据集是从原始的 One Million Posts 语料库扩展而来的。创建该数据集是为了支持德语中的主题分类,因为在英语数据集上有效的分类器在德语数据集上可能不那么有效,因为变形量更大,复合词更长。此外,该数据集可用作德语主题分类的基准数据集。
* [community-datasets/setimes](https://huggingface.co/datasets/community-datasets/setimes) 英语和东南欧语言的平行语料库
* [community-datasets/tapaco](https://huggingface.co/datasets/community-datasets/tapaco) 从 Tatoeba 数据库中提取的 73 种语言的免费释义语料库。Tatoeba是一个主要面向语言学习者的众包项目。其目的是为特定的语言结构和单词提供例句和翻译。释义语料库是通过用 Tatoeba 句子和句子之间的等价链接填充图形来创建的,“意思是同一事物”。然后遍历此图以提取释义集。应用了几个与语言无关的过滤器和修剪步骤来删除无趣的句子。对三种语言进行的人工评估表明,推断出的释义中有一半到四分之三是正确的,剩下的大多数释义要么是正确的,要么是微不足道的,要么是中和形态学区别的近乎释义。该语料库共包含190万个句子,每种语言有200-25万个句子。它涵盖了一系列语言,据我们所知,没有其他释义数据集存在。释义检测和生成已成为 NLP 中的热门任务,并越来越多地集成到各种常见的下游任务中,例如机器翻译、信息检索、问答和语义解析。大多数现有数据集仅涵盖一种语言(在大多数情况下为英语)或少数语言。此外,一些释义数据集侧重于词汇和短语,而不是句子释义,而其他释义数据集则使用机器翻译(半)自动创建。
* [theatticusproject/cuad-qa](https://huggingface.co/datasets/theatticusproject/cuad-qa) 合同理解Atticus数据集 (CUAD) v1 是一个包含 510 个商业法律合同中 13,000 多个标签的语料库,这些标签已被手动标记,以识别律师在审查与公司交易相关的合同时寻找的 41 类重要条款。
* [ibm/duorc](https://huggingface.co/datasets/ibm/duorc) DuoRC 数据集是一个英语语言数据集,其中包含从维基百科和 IMDb 电影情节上的众包 AMT 工作人员那里收集的问题和答案。工人们可以自由地从情节中挑选答案或综合自己的答案。它包含两个子数据集 - SelfRC 和 ParaphraseRC。SelfRC数据集完全建立在维基百科电影情节上。释义RC有从维基百科电影情节中写出的问题,答案是根据相应的IMDb电影情节给出的。abstractive-qa :该数据集可用于训练抽象问答模型。一个抽象的问答模型由一个段落和一个问题提出,并期望生成一个多词答案。extractive-qa :该数据集可用于训练抽取式问答模型。抽取式问答模型包含一段经文和一个问题,并有望预测段落中答案跨度的开始和结束。模型性能通过精确匹配和 F1 分数来衡量,。
* [MBZUAI/Bactrian-X](https://huggingface.co/datasets/MBZUAI/Bactrian-X) Bactrain-X 数据集是 52 种语言的 3.4M 指令-响应对的集合,通过使用 Google 翻译 API 将 67K 英语指令 (alpaca-52k + dolly-15k) 翻译成 51 种语言获得。然后将翻译后的指令输入到 ChatGPT ( gpt-3.5-turbo ) 以获得其自然响应,从而产生 52 种语言的 3.4M 指令-响应对(52 种语言 x 67k 个实例 = 3.4M 个实例)。
* [b3x0m/Chinese-H-Novels](https://huggingface.co/datasets/b3x0m/Chinese-H-Novels) 17plus小说语料库。
* [allenai/sciq](https://huggingface.co/datasets/allenai/sciq) SciQ 数据集包含 13,679 个关于物理、化学和生物学等的众包科学考试问题。这些问题采用多项选择形式,每个选项有 4 个答案选项。对于大多数问题,都提供了带有正确答案支持证据的附加段落。
* [microsoft/wiki_qa](https://huggingface.co/datasets/microsoft/wiki_qa) WikiQA语料库是一组公开可用的问题和句子对,用于研究开放领域的问答。
* [allenai/social_i_qa](https://huggingface.co/datasets/allenai/social_i_qa) 我们介绍了社交智商:社交互动QA,这是一个用于测试社交常识智力的新问答基准。与许多先前关注物理或分类知识的基准相反,社会智商侧重于对人们的行为及其社会影响的推理。例如,给定一个动作,如“杰西看了一场音乐会”,以及一个像“杰西为什么要这样做?”这样的问题,人们可以很容易地推断出杰西想“看他们最喜欢的表演者”或“享受音乐”,而不是“看看里面发生了什么”或“看看它是否有效”。Social IQa 中的动作跨越了各种各样的社交场合,答案候选人既包含人工策划的答案,也包含对抗性过滤的机器生成的候选人。Social IQa 包含超过 37,000 个 QA 对,用于评估模型推理日常事件和情况的社会影响的能力。
* [m-a-p/Matrix](https://huggingface.co/datasets/m-a-p/Matrix) 一个包含46900亿个词元的开源预训练数据集,这个包含中英文文本的双语数据集用于训练neo模型。数据集由多个组件组成,每个组件来自不同的来源,并在语言建模和处理中用于各种目的。以下是每个组件的简要概述:摘自 Common Crawl 项目,具有丰富多样的互联网文本,包括网站、博客、新闻文章等。编码相关数据的集合。由涵盖广泛学科的学术和研究论文组成,提供技术和特定领域的语言。包括一系列已出版书籍的文本,包括文学、非小说类、教科书等。主要以 Q&A 格式提供文本集合。包含学术考试中使用的各种教材和评估。来自各种新闻来源的文本集合,报道时事和新闻报道。来自各种百科全书来源的文章,不限于维基百科,涵盖了广泛的主题和信息。包括专利文件中的文本,提供发明及其应用的详细说明。
* [LooksJuicy/ruozhiba](https://huggingface.co/datasets/LooksJuicy/ruozhiba) 受COIG-CQIA启发,构建类似数据集,但答案风格相对更简洁。弱智吧精选问题数据来自github提供的疑问句,调用GPT-4获取答案,并过滤掉明显拒答的回复。
* [Leymore/ruozhiba](https://github.com/Leymore/ruozhiba) 从百度弱智吧上收集的一系列帖子。旨在启发人们娱乐性使用 ChatGPT 等 LLM 时的思路。
* [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) 欢迎来到COIG-CQIA,COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性,数据集详情请见数据介绍以及我们接下来的论文。来自零一万物、中科院深圳先进技术研究院,和M-A-P等机构的研究者们。本数据集主要语言为中文。本数据集适用于指令微调,训练模型具备响应指令的能力。
* [m-a-p/CodeFeedback-Filtered-Instruction](https://huggingface.co/datasets/m-a-p/CodeFeedback-Filtered-Instruction) 从四个著名的开源代码指令调优数据集中提取的精选代码指令查询集合:Magicoder-OSS-Instruct、ShareGPT 的 Python 代码子集、Magicoder-Evol-Install 和 Evol-Instruct-Code。最初,从这些数据集中聚合了 287k 个查询。为了分离出最复杂和最翔实的指令,采用了严格的过滤过程。这涉及利用开源聊天模型 Qwen-72B-Chat 进行选择性过滤。代码查询及其在编译数据集中的相应响应由 LLM分配的复杂度分数(从 1 到 5)进行评估,并且仅保留评级为 4 或 5 的代码查询作为种子集。这种细致的过滤过程最终收集了 156k 条高质量的单轮代码指令。
* [m-a-p/CMMMU](https://huggingface.co/datasets/m-a-p/CMMMU) CMMMU包括从大学考试,测验和教科书中手动收集的12k个多模态问题,涵盖六个核心学科:艺术与设计,商业,科学,健康与医学,人文与社会科学以及技术与工程,就像它的同伴MMMU一样。这些问题涉及 30 个主题,包括 39 种高度异质的图像类型,例如图表、图表、地图、表格、乐谱和化学结构。
* [m-a-p/MusicPile](https://huggingface.co/datasets/m-a-p/MusicPile) 用于在大型语言模型中发展音乐能力的预训练语料库。它有 5.17M 个样本和大约 4.16B 个词元,包括网络爬虫语料库、百科全书、音乐书籍、youtube 音乐字幕、abc 符号的音乐作品、数学内容和代码。
* [m-a-p/MusicPile-sft](https://huggingface.co/datasets/m-a-p/MusicPile-sft) MusicPile-sft 是 MusicPile 的一个子集。它包含 1.14M 个样本,音乐语言与乐谱(abc 符号)的比例为 2:1。
* [BAAI/Infinity-Instruct](https://huggingface.co/datasets/BAAI/Infinity-Instruct) 指令数据的质量和规模对于模型性能至关重要。最近,开源模型越来越依赖于包含数百万个实例的微调数据集,因此需要高质量和大规模。然而,开源社区长期以来一直受到构建如此广泛和高质量的指令微调数据集的高成本的制约,这限制了相关的研究和应用。为了弥补这一差距,我们推出了 Infinity Instruct 项目,旨在开发一个大规模、高质量的指令数据集。为了构建一个千万级的高质量指令数据集,我们收集了大量的开源数据作为种子,并使用指令选择和指令演化两种策略对数据集进行迭代。我们建议应用基础数据集,其中包含从开源数据集中选择的数百万条指令,以提高模型在具有挑战性的下游任务(例如,代码、数学)上的性能。我们建议应用聊天数据集,其中包含从一小部分高质量种子数据演变而来的大约 1M 条指令,以进一步提高模型在真实对话场景中的指令跟随能力。我们的数据集版本信息如下:从开源社区收集大规模的指导数据。数据源如下所示:OpenHermes-2.5、UltraInteract_sft、CodeBagel、CodeFeedback-Filtered-Instruction、self-oss-instruct-sc2-exec-filter-50k、CodeExercise-Python-27k、Evol-Instruct-Code-80k-v1、MathInstruct、orca-math-word-problems-200k、MetaMathQa。
* [LSDSem/story_cloze](https://huggingface.co/datasets/LSDSem/story_cloze) “故事完形填空测试”是一种新的常识推理框架,用于评估故事理解、故事生成和脚本学习。这个测试要求一个系统为一个四句话的故事选择正确的结局。
* [nyu-mll/multi_nli](https://huggingface.co/datasets/nyu-mll/multi_nli) 多类型自然语言推理 (MultiNLI) 语料库是一个众包集合,包含 433k 个句子对,并带有文本蕴涵信息注释。该语料库以 SNLI 语料库为蓝本,但不同之处在于它涵盖了一系列类型的口语和书面文本,并支持独特的跨体裁概括评估。该语料库是哥本哈根EMNLP的RepEval 2017研讨会共同任务的基础。
* [codefuse-ai/CodeExercise-Python-27k](https://huggingface.co/datasets/codefuse-ai/CodeExercise-Python-27k) 该数据集由 27K Python 编程练习(英文)组成,涵盖数百个与 Python 相关的主题,包括基本语法和数据结构、算法应用、数据库查询、机器学习等。请注意,此数据集是在教师模型和 Camel 的帮助下生成的,没有经过严格的验证。问题或答案中可能存在错误或语义重复,因此请谨慎使用。
* [nickrosh/evol-teacher](https://github.com/nickrosh/evol-teacher) 开源 WizardCoder 数据集,此存储库实现了 WizardCoder 白文中描述的代码生成指令过程。目前,WizardCoder 是性能最高的代码生成模型之一,仅次于 ChatGPT。它采用 Code Alpaca 20k 数据集,并通过随机选择的进化提示来演化每条指令,以增加指令的复杂性。这些提示的范围从增加时间/空间复杂性到增加需求,再到添加错误代码以提高鲁棒性等。这通过修剪和后处理完成三次,以删除不需要的指令和响应。与Alpaca方法中通常生成的指令相比,更复杂的迭代添加提供了更高质量和更深入的指令。这与 WizardCoder 和 WizardLM 的情况一样,可以带来非常接近 RLHF 模型性能的强大性能。
* [TIGER-Lab/MathInstruct](https://huggingface.co/datasets/TIGER-Lab/MathInstruct) 精心策划的指令调优数据集,轻量级但可通用。MathInstruct 由 13 个数学原理数据集编译而成,其中 6 个是这项工作新策划的。它特别关注思维链 (CoT) 和思维程序 (PoT) 原理的混合使用,并确保广泛覆盖不同的数学领域。
* [microsoft/orca-math-word-problems-200k](https://huggingface.co/datasets/microsoft/orca-math-word-problems-200k) 该数据集包含 ~200K 个小学数学单词问题。此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。有关数据集构建的详细信息,请参阅 Orca-Math: Unlocking the potential of SLM in Elementary School Math。该数据集旨在增强语言模型的数学能力。它旨在为语言模型提供坚实的基础,使其在数学问题解决方面表现出色。
* [meta-math/MetaMathQA](https://huggingface.co/datasets/meta-math/MetaMathQA) 所有 MetaMathQA 数据都是从 GSM8K 和 MATH 的训练集增强的。所有增强数据均来自测试集。
* [stanfordnlp/sentiment140](https://huggingface.co/datasets/stanfordnlp/sentiment140) Sentiment140 由带有表情符号的 Twitter 消息组成,这些表情符号用作情绪分类的嘈杂标签。
* [IWSLT/iwslt2017](https://huggingface.co/datasets/IWSLT/iwslt2017) IWSLT 2017 多语言任务通过单一的 MT 系统处理文本翻译,包括零样本翻译,包括英语、德语、荷兰语、意大利语和罗马尼亚语。作为非官方任务,传统的双语文本翻译提供英语和阿拉伯语、法语、日语、中文、德语和韩语之间的翻译。
* [ontonotes/conll2012_ontonotesv5](https://huggingface.co/datasets/ontonotes/conll2012_ontonotesv5) OntoNotes 语料库的最终版本,是一个大规模、多体裁、多语言的语料库,手动注释了句法、语义和话语信息。支持的任务:命名实体识别、共指解析、语义角色标记
* [open-web-math/open-web-math](https://huggingface.co/datasets/open-web-math/open-web-math) OpenWebMath 是一个数据集,包含来自互联网的大部分高质量数学文本。它从 Common Crawl 上的 200B 多个 HTML 文件中过滤和提取到一组 630 万个文档,总共包含 14.7B 个令牌。OpenWebMath 旨在用于预训练和微调大型语言模型。OpenWebMath 包含来自 130k 多个不同域的文档,包括来自论坛、教育页面和博客的数据。该数据集包含涵盖数学、物理、统计学、计算机科学等的文档。
* [nvidia/HelpSteer2](https://huggingface.co/datasets/nvidia/HelpSteer2) 开源的有用性数据集 (CC-BY-4.0),它支持对齐模型以变得更有帮助、更符合事实和连贯性,同时可以根据其响应的复杂性和冗长性进行调整。该数据集是与 Scale AI 合作创建的。HelpSteer 包含 21, 362 个样本,每个样本包含一个提示、一个响应以及响应的五个人工注释属性,每个属性的范围在 0 到 4 之间,其中越高意味着每个属性越好。连续样本(例如样本 1 与 2、3 与 4 ...)共享相同的提示,因此除了训练 SteerLM 回归 RM 之外,还可以将其用于基于有用性分数的偏好对(例如训练 DPO 或偏好 RM)。大约 29% 的提示是多回合的。在本例中,提示由所有用户轮次和除最后一个助手轮次之外的所有轮次组成,后者包含在响应字段中。这样做是因为属性值仅针对最后一个助手回合进行评估。
* [stanfordnlp/imdb](https://huggingface.co/datasets/stanfordnlp/imdb) 大型电影评论数据集。这是一个用于二元情感分类的数据集,包含的数据比以前的基准数据集多得多。我们提供一套 25,000 条极性电影评论用于培训,25,000 条用于测试。还有其他未标记的数据可供使用。
* [Samsung/samsum](https://huggingface.co/datasets/Samsung/samsum) SAMSum 数据集包含大约 16k 个类似信使的对话和摘要。对话是由精通英语的语言学家创建和记录的。语言学家被要求创建与他们每天写的对话相似的对话,以反映他们现实生活中信使对接的主题比例。风格和语域是多样化的——对话可以是非正式的、半正式的或正式的,它们可能包含俚语、表情符号和错别字。然后,用摘要对对话进行注释。人们认为摘要应该是人们在对话中以第三人称谈论的内容的简明扼要。SAMSum 数据集由波兰三星研发研究所编制,并出于研究目的分发(非商业许可:CC BY-NC-ND 4.0)。
* [teknium/OpenHermes-2.5](https://huggingface.co/datasets/teknium/OpenHermes-2.5) Open Hermes 2.5 数据集是 Open Hermes 1 数据集的延续,规模更大、更多样化、质量更高,达到 100 万,主要是合成生成的指令和聊天样本。
* [ceval/ceval-exam](https://huggingface.co/datasets/ceval/ceval-exam) C-Eval是一个全面的中文基础模型评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同的学科和四个难度级别。每个主题由三个部分组成:dev、val 和 test。每个主题的开发集由五个示例组成,并附有对少镜头评估的解释。val 集旨在用于超参数优化。测试集用于模型评估。测试拆分上的标签不发布,用户需要提交结果才能自动获得测试精度。
* [shareAI/ShareGPT-Chinese-English-90k](https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k) 高质量的中英并行双语人机QA数据集,覆盖真实复杂场景下的用户问题。它用于训练高质量的对话模型(在指令分发方面比那些通过反复调用 API 接口来模拟机器生成的问答生成的数据集更健壮,如 Moss) 特征:提供语义完全等效的中英并行语料库,方便双语对话模型训练。所有问题都是来自用户的真实询问,而不是通过人工想象或 API 轮询(如 Moss)捏造的,更贴近用户场景的真实分布及其问题表达。ShareGPT 数据集是通过网民自愿分享收集的,充当自然过滤器(通过人类感知),筛选出大多数体验不佳的对话。注意:此数据集是在 ChatGPT 出现认知能力显着下降迹象之前收集的。(据推测,这可能部分是因为官方将 150B gpt3.5 替换为大约 10B 的蒸馏版本以减少开支,部分原因是引入更多拒绝响应导致模型连接知识和逻辑的能力下降。中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。用于训练高质量的对话模型 (比那些通过反复调用api接口生成机器模拟问答的数据在指令分布上更鲁棒) 特点:1.同时提供意义表达完全相同的中英文平行对照语料,可进行双语对话模型训练。2.所有问题均非人为臆想加上api轮询拟造的假数据(如Moss),更加符合真实用户场景的指令分布和提问表达。3.sharegpt数据集是由网友自发分享而收集到的,相当于有一层非常天然的过滤(通过人类感觉),筛除了大部分体验不好的对话。
* [BAAI/COIG-PC](https://huggingface.co/datasets/BAAI/COIG-PC) COIG-PC数据集是一个精心策划和全面的中文任务和数据集合,旨在促进中文自然语言处理(NLP)语言模型的微调和优化。该数据集旨在为研究人员和开发人员提供一套丰富的资源,以提高语言模型处理中文文本的能力,可用于文本生成、信息提取、情感分析、机器翻译等各个领域。COIG-PC 数据集是自然语言处理 (NLP) 领域的宝贵资源,原因有很多:解决语言复杂性:汉语以其错综复杂、字符种类繁多和语法结构多样而闻名。像 COIG-PC 这样专为中文量身定制的专用数据集对于在模型训练期间充分解决这些复杂性至关重要。全面的数据聚合:COIG-PC数据集是整合市场上几乎所有可用的中文数据集的广泛努力的结果。这种全面的聚合使其成为中国 NLP 最详尽的集合之一。重复数据删除和规范化:COIG-PC 数据集经过严格的手动处理,以消除重复数据并执行规范化。这确保了数据集没有冗余,数据一致且结构良好,使其对模型训练更加用户友好和高效。微调和优化:数据集基于指令的措辞有助于更好地微调和优化语言模型。这种结构使模型能够更好地理解和执行任务,这对于提高看不见或新任务的性能特别有益。COIG-PC数据集具有全面的汇总、细致的选择、重复数据删除和规范化功能,是训练和优化针对中国语言和文化量身定制的语言模型的无与伦比的资源。它解决了中文语言处理的独特挑战,并成为中文NLP进步的催化剂。
* [Skywork/SkyPile-150B](https://huggingface.co/datasets/Skywork/SkyPile-150B) 综合性的大规模中文数据集,专门用于大型语言模型的预训练。它源自广泛的可公开访问的中文互联网网页。为了确保其质量,采用了严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤。此外,我们还利用 fastText 和 BERT 等高级工具过滤掉低质量的数据。SkyPile-150B数据集的可公开访问部分包含大约2.33亿个独特的网页,每个网页平均包含1000多个汉字。该数据集总共包括大约 1500 亿个令牌和 620 GB 的纯文本数据。SkyPile-150B数据集完全由中国数据组成。我们利用超过 200w 的规则和 BERT 基础模型来确定数据集中存在的敏感数据,并随后删除了我们检测到的任何有害条目。尽管我们尽了最大努力,但SkyPile-150B,鉴于其从公开可用的网页构建,可能包含敏感信息,例如电子邮件地址,电话号码或IP地址。我们已努力通过重复数据删除和低质量过滤来最大程度地减少这种情况,但 SkyPile-150B 的用户应保持警惕。互联网上充斥着潜在的有毒或有偏见的数据。我们已尝试使用特定的 URL 过滤方法来缓解此问题,但我们鼓励用户保持对这一潜在问题的意识。
* [wikimedia/wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia) 该数据集是从维基百科转储 ( https://dumps.wikimedia.org/) 构建的,每种语言都有一个子集,每个子集都包含一个火车拆分。每个示例都包含一个完整的维基百科文章的内容,并清理以去除 Markdown 和不需要的部分(参考文献等)。该数据集通常用于语言建模。
* [liwu/MNBVC](https://huggingface.co/datasets/liwu/MNBVC) 中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集。Huggingface上的MNBVC数据集在逐渐更新中,请到https://github.com/esbatmop/MNBVC 获取未完成清洗的更多数据。MNBVC数据集包含数个子集:law_judgement: 来自法律文书的文本。gov_xuexiqiangguo: 来自学习强国的文本。gov_report: 来自政府工作报告的文本。co_ann_report: 企业年报文本。code_metadata: 代码元数据。qa_zhihu: 来自知乎的问答数据。qa_wikihow: 来自wikihow的问答数据。qa_mfa: 外交部问答数据。news_peoples_daily: 来自人民日报的文本数据。wikipedia: 来自维基百科的文本数据。qa_stackexchange: 来自StackExchange的问答数据。qa_chatgpt: 使用ChatGPT构造的问答语料,感谢genggui001贡献语料。math_qa : 和数学领域有关的问答数据。emath :中国数学爱好者论坛语料数据。math_chat: 和数学领域有关的对话数据数据,可以提升模型Chain of Thought的能力。crawler_oscar: 从CommonCrawl中清洗出来的通用文本数据。
一些游戏的平行语料数据。Hogwarts_legacy : 霍格沃茨指遗。The_Wither_3 : 巫师三。* [m-a-p/COIG-CQIA](https://huggingface.co/datasets/m-a-p/COIG-CQIA) COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。
* [togethercomputer/RedPajama-Data-1T](https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T) RedPajama 是 LLaMa 数据集的洁净室、完全开源的实现。主要是英语,尽管维基百科切片包含多种语言。创建此数据集是为了尽可能密切地跟踪 LLaMa 论文,以尝试重现其配方。我们从 Commoncrawl 下载了 5 个转储,并通过官方 cc_net 管道运行这些转储。然后,我们在段落级别进行重复数据删除,并使用经过训练的线性分类器过滤掉低质量的文本,该分类器将段落分类为维基百科参考文献或随机 Commoncrawl 样本。C4 是从 Huggingface 下载的。唯一的预处理步骤是将数据转换为我们自己的格式。原始 GitHub 数据是从 Google BigQuery 下载的。我们在文件级别进行重复数据删除并过滤掉低质量的文件,并且只保留在 MIT、BSD 或 Apache 许可下分发的项目。我们使用 Huggingface 上提供的维基百科数据集,该数据集基于 2023-03-20 的维基百科转储,包含 20 种不同语言的文本。数据集采用预处理格式,因此删除了超链接、注释和其他格式样板。ArXiv 数据从 arxiv 请求方付款存储桶中的 Amazon S3 下载。我们只保留源文件,并删除序言、注释、宏和参考书目。数据集的 Stack Exchange 拆分可从 Internet Archive 下载。在这里,我们只保留来自 28 个最大网站的帖子,删除 html 标签,将帖子分组为问答对,并按分数对答案排序。
* [togethercomputer/RedPajama-Data-V2](https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2) RedPajama-V2 是一个用于训练大型语言模型的开放数据集。该数据集包括来自 84 个 CommonCrawl 快照的 100B 多个文本文档,并使用 CCNet 管道进行处理。其中,语料库中有 30B 个文档还带有质量信号。此外,我们还提供了重复文档的 ID,可用于创建包含 20B 重复数据删除文档的数据集。
* [togethercomputer/Long-Data-Collections](https://huggingface.co/datasets/togethercomputer/Long-Data-Collections) 长上下文数据集的汇编,专门设计用于需要从大型文本输入中进行广泛理解和推理的任务。目前,它包含用于训练健壮基础模型的数据,这些数据可以在 pretrain/ 目录中找到。此外,它还包括针对特定需求量身定制的数据集,位于 fine-tune/ 目录中。这些专门的数据集包括源自自然问题的多段落问答和以 BookSum 数据集为例的长上下文摘要。预训练数据是用于训练 AI 模型的各种数据集的集合。这些数据集包括各种来源,提供广泛的信息,从书籍到科学论文和教学数据。
* [togethercomputer/RedPajama-Data-Instruct](https://huggingface.co/datasets/togethercomputer/RedPajama-Data-Instruct) 从 P3 (BigScience) 和 Natural Instruction (AI2) 的各种 NLP 任务集合中挑选出来的,并分两步对 HELM 进行主动去污:(1) 我们首先使用 HELM 中的每个验证示例作为查询进行语义搜索,并从 Instruct 数据集中获取前 100 个相似实例,并检查任何返回的实例与验证示例重叠(使用 10-Gram)的任务。如果返回的实例和验证示例对应于相同的任务,我们将删除整个任务(在此步骤中,如果返回的实例恰好使用与验证示例相同的维基百科文章,但提出不同的问题,我们将保留该任务);(2) 然后,我们删除所有与任何 HELM 验证示例有任何 10 Gram 重叠的实例。我们总共筛选掉了 137 个任务和 5.2M 个实例(在 1069 个任务和 93.3M 个实例中)。
* [allenai/dolma](https://huggingface.co/datasets/allenai/dolma) 包含 3 万亿个词元的数据集,来自各种网络内容、学术出版物、代码、书籍和百科全书材料。包括:Common Crawl、The Stack、C4、Reddit、PeS2o(STEM论文)、Project Gutenberg(书)、Wikipedia, Wikibooks。
* [allenai/MADLAD-400](https://huggingface.co/datasets/allenai/MADLAD-400) MADLAD-400 (Multilingual Audited Dataset: Low-resource And Document-level) 是一个基于 Common Crawl 的文档级多语言数据集,共涵盖 419 种语言。这将使用截至 2022 年 8 月 1 日可用的 CommonCrawl 的所有快照。与类似数据集相比,此数据集的主要优点是它更多语言(419 种语言),经过审核和过滤,并且是文档级的。主要缺点也是它的强度 - 由于过滤程度更高,它可能缺乏某些应用程序所需的召回率。发布了两个版本:嘈杂数据集,除了文档级 LangID 之外没有过滤,以及干净数据集,它应用了各种过滤器,尽管它本身自然有相当多的噪音。每个数据集都以已删除重复数据的文档级形式发布。
* [oscar-corpus/OSCAR-2301](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) OSCAR项目(Open Super-large Crawled Aggregated coRpus)是一个开源项目,旨在为机器学习(ML)和人工智能(AI)应用提供基于Web的多语言资源和数据集。该项目特别专注于提供大量未注释的原始数据,这些数据通常用于大型深度学习模型的预训练。OSCAR 项目开发了高性能数据管道,专门用于对大量 Web 数据进行分类和过滤。该项目还特别关注提高基于网络的语料库的数据质量,以及为资源匮乏的语言提供数据,以便尽可能多的社区能够使用这些新的机器学习/人工智能技术。
* [anon8231489123/ShareGPT_Vicuna_unfiltered](https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered) ~100k ShareGPT 对话通过以下方式缩小到 53k:删除非英语对话,删除过多的 unicode(通常表示中文或韩文文本),删除过多的重复字符,删除各种实例“AI 道德化”,删除了带有这些短语的对话(以及此处无法提及的其他短语)。
* [tatsu-lab/alpaca](https://huggingface.co/datasets/tatsu-lab/alpaca) 由 OpenAI text-davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。作者基于 Self-Instruct 框架的数据生成管道进行构建,并进行了以下修改:生成指令数据的 text-davinci-003 引擎,而不是 davinci .编写了一个新的提示,明确要求text-davinci-003生成指令。使用了更激进的批量解码,即一次生成 20 条指令,这大大降低了数据生成的成本。通过摒弃分类指令和非分类指令之间的差异,简化了数据生成管道。每条指令只生成一个实例,而不是像 Self-Instructed 那样生成 2 到 3 个实例。这生成了一个指令跟踪数据集,其中包含以低得多的成本(不到 500 美元)获得的 52K 示例。在一项初步研究中,作者还发现,52K生成的数据比Self-Instruct发布的数据要多样化得多。Alpaca 数据集专为指令训练预训练语言模型而设计。Alpaca 中的数据是英文的 (BCP-47 en)。
* [legacy-datasets/wikipedia](https://huggingface.co/datasets/legacy-datasets/wikipedia) 维基百科数据集包含所有语言的清理文章。数据集是从维基百科转储 ( https://dumps.wikimedia.org/) 构建的,每种语言都有一个拆分。每个示例都包含一个完整的维基百科文章的内容,并清理以去除 Markdown 和不需要的部分(参考文献等)。
* [yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) 这是斯坦福大学发布的原始羊驼数据集的清理版本。Alpaca 是一个由 OpenAI text-davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。以下问题已在原始版本中发现,并在此数据集中修复:幻觉:原始数据集中的许多指令都有引用互联网数据的指令,这只会导致 GPT3 产生幻觉答案。合并指令:由于某种原因,在原始数据集中有许多指令被合并在一起。空输出:原始数据集中的某些条目的输出为空。空代码示例:原始数据集中的某些描述缺少代码示例,因此难以理解代码的预期行为。生成图像的说明:原始数据集中的一些描述包括生成图像的说明,这显然是不可能的。N/A 输出:原始数据集中的某些代码片段具有 N/A 输出。输入字段不一致:原始数据集在输入字段本应为空时,其输入字段的使用不一致。错误答案:原始数据集中的某些说明/问题有不正确的答案。据估计,大约 80% 的数学问题都有不正确的答案。无意义/不清楚的指令:许多指令不清楚,如果指令不明确,我们会尝试澄清(或重写)指令。稍微不清楚但可以推断出含义的说明不会改变。无关的转义和控制字符:原始数据集具有多个具有无关转义和控制字符的条目。Alpaca 中的数据是英文的 (BCP-47 en)。
* [roneneldan/TinyStories](https://huggingface.co/datasets/roneneldan/TinyStories) 包含合成生成的(由 GPT-3.5 和 GPT-4)仅使用少量词汇的短篇小说的数据集。
* [HuggingFaceH4/ultrachat_200k](https://huggingface.co/datasets/HuggingFaceH4/ultrachat_200k) 这是 UltraChat 数据集的严格过滤版本,用于训练 Zephyr-7B-β,这是一种最先进的 7b 聊天模型。原始数据集由 ChatGPT 生成的 1.4M 对话组成,涵盖广泛的主题。为了创建 UltraChat 200k ,我们应用了以下逻辑:选择数据子集,以便更快地进行监督微调。数据集的真大小写,正如我们观察到的那样,大约 5% 的数据包含语法错误。删除助手回复“我没有情绪”或“我没有意见”等短语的对话,即使是不涉及任何内容的基于事实的提示。数据集有四个拆分,适用于:监督微调 ( sft )。通过拒绝抽样或 PPO 等技术进行生成排名 ( gen )。
* [stingning/ultrachat](https://huggingface.co/datasets/stingning/ultrachat) 由 Turbo API 提供支持的开源、大规模和多轮对话数据。考虑到保护隐私等因素,我们不会直接使用互联网上的任何数据作为提示。为了保证生成质量,在生成过程中采用了两个独立的ChatGPT Turbo API,一个扮演用户生成查询的角色,另一个扮演响应的角色。我们通过精心设计的提示来指导用户模型,以模仿人类用户行为并迭代调用这两个 API。生成的对话经过进一步的后处理和过滤。ULtraChat由三个部分组成:关于世界的问题:该领域的对话数据来自与现实世界中的概念、实体和对象相关的广泛调查。涵盖的主题非常广泛,涵盖技术、艺术和创业等领域。写作和创作:该领域的对话数据是由从头开始写作/创作的需求驱动的,包括 AI 助手在创作过程中可能帮助的任何任务,从电子邮件撰写到制作叙事和戏剧等等。对现有材料的援助:该领域的对话数据是根据现有材料生成的,包括但不限于重写、延续、总结和推理,涵盖各种主题。
* [garage-bAInd/Open-Platypus](https://huggingface.co/datasets/garage-bAInd/Open-Platypus) 该数据集专注于提高LLM逻辑推理能力,并用于训练鸭嘴兽2模型。它由以下数据集组成,这些数据集使用关键字搜索和句子转换器进行过滤,以删除相似度高于 80% 的问题。移除了 Hugging Face 基准测试集中出现的大约 200 个问题。
数据集名称:PRM800K、MATH、ScienceQA、SciBench、ReClor、TheoremQA、nuprl/leetcode-solutions-python-testgen-gpt4、jondurbin/airoboros-gpt4-1.4.1、TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k、ARB、timdettmers/openassistant-guanaco* [HuggingFaceH4/no_robots](https://huggingface.co/datasets/HuggingFaceH4/no_robots) 高质量的数据集,其中包含 10,000 条指令和演示,由熟练的人类注释者创建。此数据可用于监督微调 (SFT),以使语言模型更好地遵循指令。No Robots 是根据 OpenAI 的 InstructGPT 论文中描述的指令数据集建模的,主要由以下类别的单轮指令组成:No Robots 数据集专为指令微调预训练语言模型而设计,我们建议根据以下内容进行基准测试:MT-Bench:一个跨越 80 个对话和 10 个领域的多回合基准测试。AlpacaEval:一个单轮基准测试,用于评估聊天和指导 text-davinci-003 模型的性能。请注意,MT-Bench 和 AlpacaEval 依靠 LLMs GPT-4 来判断模型响应的质量,因此排名表现出各种偏差,包括对从 GPT 中提取的模型的偏好。因此,您可能会发现,从使用 No Robots 训练的模型中获得的分数低于其他合成数据集。因此,我们还建议在以下位置提交您的模型以供人工评估:Chatbot Arena:在头对头比较中对聊天模型进行实时、人工评估。No Robots 中的数据是英文的 (BCP-47 en)。
* [timdettmers/openassistant-guanaco](https://huggingface.co/datasets/timdettmers/openassistant-guanaco) 此数据集是 Open Assistant 数据集的子集,可在此处找到:[OpenAssistant/oasst1](https://huggingface.co/datasets/OpenAssistant/oasst1/tree/main) 此数据子集仅包含会话树中评分最高的路径,共有 9,846 个样本。该数据集用于使用 QLoRA 训练 Guanaco。
* [TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k](https://huggingface.co/datasets/TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k) Tigerbot 基于leetcode-solutions数据集,加工生成的代码类sft数据集,原始来源:[/erichartford/leetcode-solutions](https://www.kaggle.com/datasets/erichartford/leetcode-solutions)
* [TigerResearch/tigerbot-law-plugin](https://huggingface.co/datasets/TigerResearch/tigerbot-law-plugin) Tigerbot 模型rethink时使用的外脑原始数据,法律11大类,共5.5W+条款。宪法、刑法、行政法、司法解释、民法商法、民法典、行政法规、社会法、部门规章、经济法、诉讼与非诉讼程序法。
* [TigerResearch/tigerbot-zhihu-zh-10k](https://huggingface.co/datasets/TigerResearch/tigerbot-zhihu-zh-10k) Tigerbot 基于开源搜集的知乎数据生成的sft问答对
* [TigerResearch/sft_zh](https://huggingface.co/datasets/TigerResearch/sft_zh) Tigerbot 开源项目中微调中文sft-zh数据合集。本合集涵盖本组织下开源的其他中文sft-中文-数据集,不需要重复下载。alpaca 中文、百科问答、名著问答、猜谜语、阅读理解、问答、知乎问答。
* [TigerResearch/pretrain_zh](https://huggingface.co/datasets/TigerResearch/pretrain_zh) Tigerbot pretrain数据的中文部分。包含(未压缩前) 中文书籍zh-books 12G, 中文互联网zh-webtext 25G, 中文百科zh-wiki 19G。
* [jondurbin/airoboros-gpt4-1.4.1](https://huggingface.co/datasets/jondurbin/airoboros-gpt4-1.4.1) 数据由 gpt-4 生成,因此受 OpenAI ToS 的约束。用于生成数据 airoboros 的工具是 apache-2。此训练数据的具体重点领域:琐事、数学、荒谬的数学、编码、封闭式上下文问答、封闭式语境问答,有多个语境可供选择作为混杂因素、写作、多选题等。
* [b-mc2/sql-create-context](https://huggingface.co/datasets/b-mc2/sql-create-context) 有 78,577 个自然语言查询、SQL CREATE TABLE 语句和 SQL 查询示例,这些示例使用 CREATE 语句作为上下文来回答问题。此数据集在构建时LLMs考虑了文本到 sql,旨在防止在文本到 sql 数据集上训练时经常出现列名和表名的幻觉。CREATE TABLE 语句通常可以从不同的 DBMS 复制和粘贴,并提供表名、列名及其数据类型。通过仅提供 CREATE TABLE 语句作为上下文,我们有望为模型提供更好的基础,而无需提供实际的数据行,从而限制令牌的使用和对私有、敏感或专有数据的暴露。对WikiSQL和Spider的合并数据进行了清理和数据增强。我在 Spider 和 WikiSQL 的查询中使用了 SQLGlot,并将它们解析为不同的表和列,然后根据 > < 运算符的使用以及 SUM() on 列的使用 MIN() MAX() AVG() 来推断列数据类型。虽然这并不完美,但它增加了推断列的正确数据类型的可能性,否则列默认为 VARCHAR 类型。然后,这些表和列用于使用推断类型的 CREATE TABLE 语句。再次使用 SQLGlot 来确保 SQL 查询和 CREATE TABLE 语句都分析没有错误。某些没有列名的查询(例如 SELECT * FROM 表)在 CREATE TABLE 语句中添加了默认的 Id 列。其他一些使用泛型 table 作为 FROM 表的查询已更改为 的 table_name_1 变体或其他数字,这也反映在 CREATE TABLE 语句中。
* [cognitivecomputations/dolphin](https://huggingface.co/datasets/cognitivecomputations/dolphin) 该数据集试图复制Microsoft的Orca的结果,我们的数据集包括:~100 万 FLANv2 通过 GPT-4 完成增强 (flan1m-alpaca-uncensored.jsonl),~350 万 FLANv2 增加了 GPT-3.5 完成 (flan5m-alpaca-uncensored.jsonl)。我们遵循了 Orca 论文中概述的子混音和系统提示分布。除了少数例外。我们将所有 75k 的 CoT 包含在 FLAN-1m 数据集中,而不是对其进行采样。此外,我们发现许多项目是重复的,因此我们删除了重复项,从而在 ChatGPT 数据集中产生了 3.5m 的指令。然后,我们过滤掉了对齐、拒绝、回避和偏见的实例,以生成一个未经审查的模型,可以在该模型上分层您的个性化对齐 LoRA。
* [HuggingFaceFW/fineweb-edu](https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu) 从 FineWeb数据集中筛选出来的1.3T令牌和5.4T令牌(FineWeb-Edu-score-2)的教育网页组成。这是 1.3 万亿版本。为了提高 FineWeb 的质量,我们使用 LLama3-70B-Inform 生成的注释开发了一个教育质量分类器。然后,我们使用此分类器仅保留最具教育意义的网页。FineWeb-Edu 在流行的基准测试中优于 FineWeb,并显示了在合成数据上训练的分类器的强大功能。除了数据集(包括自 2013 年以来所有过滤的 CommonCrawl 转储)外,我们还发布了用于过滤的教育分类器以及用于训练和运行推理的代码,网址为:[huggingface/cosmopedia](https://github.com/huggingface/cosmopedia/tree/main/classification)
* [liuhaotian/LLaVA-Instruct-150K](https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K) 数据集类型:LLaVA Visual Instruct 150K 是一组 GPT 生成的多模态指令跟踪数据。它用于视觉指令调整和构建面向 GPT-4 视觉/语言能力的大型多模态。数据集日期:LLaVA Visual Instruct 150K 于 2023 年 4 月通过提示 GPT-4-0314 API 收集。
* [cerebras/SlimPajama-627B](https://huggingface.co/datasets/cerebras/SlimPajama-627B) 数据集由 59166 个 jsonl 文件组成,压缩为 ~895GB。它是 Together 的 RedPajama 的清洁和重复数据删除版本。今天,我们发布了 SlimPajama,这是最大的广泛重复数据删除、多语料库、开源数据集,用于训练大型语言模型。SlimPajama 是通过清理和删除 Together 中的 1.2T 词元 RedPajama 数据集而创建的。通过过滤掉低质量的数据和重复项,我们能够删除 49.6% 的字节,将数据集从 1210B 缩减到 627B 令牌。我们相信 SlimPajama 提供最高质量和计算效率最高的数据来训练高达 627B 词元的运行。当上采样时,我们预计 SlimPajama 在万亿词元规模的训练中表现等于或优于 RedPajama-1T。除了数据之外,我们还发布了我们为创建 SlimPajama 而构建的工具。将 MinHashLSH 重复数据删除应用于像 RedPajama 这样的万亿个令牌数据集是无法使用现成的开源代码实现的。我们对现有解决方案进行了多项改进,以生成一个基础架构,该基础架构可以以分布式、多线程和内存高效的方式对万亿个令牌数据集执行 MinHashLSH 重复数据删除。今天,我们正在开源这个基础设施,使社区能够在未来轻松创建更高质量、广泛去重的数据集。
* [hendrycks/math](https://github.com/hendrycks/math) MATH 数据集 (NeurIPS 2021),使用 MATH 数据集衡量数学问题的解决。
* [lupantech/ScienceQA](https://github.com/lupantech/ScienceQA) 科学问答,这是一个新的基准,由 ~21k 多模态多项选择题组成,具有多种科学主题及其答案的注释以及相应的讲座和解释。我们进一步设计语言模型,以学习生成讲座和解释作为思维链 (CoT),以在回答 ScienceQA 问题时模仿多跳推理过程。ScienceQA 展示了 CoT 在语言模型中的实用性,因为 CoT 在少样本 GPT-3 中将问答性能提高了 1.20%,在微调的统一 QA 中提高了 3.99%。ScienceQA 是从小学和高中科学课程中收集的,包含 21,208 个多模态多项选择科学问题。在ScienceQA的问题中,10,332个(48.7%)有图像上下文,10,220个(48.2%)有文本上下文,6,532个(30.8%)两者兼而有之。大多数问题都附有扎实的讲座(83.9%)和详细的解释(90.5%)。讲座和讲解分别提供了一般的外部知识和得出正确答案的具体原因。据我们所知,ScienceQA是第一个对讲座和答案解释进行注释的大规模多模态数据集。与以前的数据集相比,ScienceQA 具有更丰富的领域多样性,来自自然科学、语言科学和社会科学三个学科。每个科目的问题首先按主题(生物、物理、化学等)分类,然后按类别(植物、细胞、动物等)分类,最后按技能(将水果和蔬菜分类为植物部分,识别非洲国家等)。ScienceQA 具有 26 个主题、127 个类别和 379 项技能,涵盖广泛的领域。
* [mandyyyyii/scibench](https://github.com/mandyyyyii/scibench) SciBench 是源自教学教科书的大学水平科学问题的新基准。该基准测试旨在评估 的LLMs复杂推理能力、强大的领域知识和高级计算能力。我们开发了一种创新的评估协议,用于详细分析推理能力。
## 关系抽取、信息抽取
* [roomylee/awesome-relation-extraction](https://github.com/roomylee/awesome-relation-extraction) 专门用于关系提取的精选资源列表,关系提取是自然语言处理 (NLP) 中最重要的任务之一。
* [weizhepei/CasRel](https://github.com/weizhepei/CasRel) 用于关系三重提取的新颖级联二进制标记关系抽取框架.
* [loujie0822/DeepIE](https://github.com/loujie0822/DeepIE) 基于深度学习的信息抽取技术,实体抽取\实体关系联合抽取\属性抽取\实体链接/标准化\事件抽取\摘要抽取
* [OpenKG-ORG/OpenUE](https://github.com/openkg-org/openue) 一个从文本中通用提取的开放工具包
* [universal-ie/UIE](https://github.com/universal-ie/UIE) 统一的文本到结构生成框架UIE,它可以对不同的IE任务进行统一建模,自适应地生成目标结构,并且可以从不同的知识源中学习通用的IE能力。实验结果表明,UIE在有监督和低资源环境下都取得了非常有竞争力的性能,验证了其通用性、有效性和可转移性。
* [thunlp/DocRED](https://github.com/thunlp/DocRED) 大规模文档级关系提取数据集的数据集和代码。ACL 2019
* [131250208/TPlinker-joint-extraction](https://github.com/131250208/TPlinker-joint-extraction) 联合抽取模型 实体关系联合抽取标注关系抽取方案
* [bojone/GPLinker](https://github.com/bojone/GPLinker) 基于GlobalPointer的实体/关系/事件抽取
* [xhw205/GPLinker_torch](https://github.com/xhw205/GPLinker_torch) CMeIE/CBLUE/CHIP/实体关系抽取/SPO抽取
* [TanyaZhao/MRC4ERE_plus](https://github.com/TanyaZhao/MRC4ERE_plus) 基于机器阅读理解的联合实体关系提取框架
* [cuhksz-nlp/RE-TaMM](https://github.com/cuhksz-nlp/RE-TaMM) 于词依存信息类型映射记忆神经网络的关系抽取
* [PaddleNLP/DuIE](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/DuIE) LIC2021 DuIE 关系抽取基线 .信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。关系抽取的目标是对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。schema定义了关系P以及其对应的主体S和客体O的类别。 本基线系统基于预训练语言模型ERNIE设计了结构化的标注策略,可以实现多条、交叠的SPO抽取。
* [princeton-nlp/PURE](https://github.com/princeton-nlp/PURE) PURE:从文本中提取实体和关系,包含 PURE(普林斯顿大学关系提取系统)的 (PyTorch) 代码和预训练模型,如论文所述:一种令人沮丧的实体和关系提取的简便方法。
* [xiaoqian19940510/Event-Extraction](https://github.com/xiaoqian19940510/Event-Extraction) 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型,DMCNN、FramNet、DLRNN、DBRNN、GCN、DAG-GRU、JMEE、PLMEE等方法
* [231sm/Reasoning_In_EE](https://github.com/231sm/Reasoning_In_EE) 利用本体表示学习实现低资源的事件抽取
* [zjunlp/openue](https://github.com/zjunlp/openue) 开源的通用文本信息抽取工具 三元组抽取 事件抽取 槽填充和意图检测
* [thunlp/OpenNRE](https://github.com/thunlp/OpenNRE) 开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,CNN、BERT、bag-level PCNN-ATT。
* [thunlp/NREPapers](https://github.com/thunlp/NREPapers) 神经网络关系抽取必读论文列表,覆盖了较为经典的神经网络关系抽取领域的已发表论文、综述等。
* [zjunlp/DocED](https://github.com/zjunlp/DocED) 跨句事件抽取旨在研究如何同时识别篇章内多个事件。提出多层双向网络Multi-Layer Bidirectional Network融合跨句语义和关联事件信息,从而增强内各事件提及的判别。
* [cuhksz-nlp/RE-AGCN](https://github.com/cuhksz-nlp/RE-AGCN) 使用注意力图卷积网络的依赖驱动关系提取的实现。
* [XueFuzhao/GDPNet](https://github.com/XueFuzhao/GDPNet) 构建一个潜在的多视图图来捕获令牌之间的各种可能关系。然后细化这个图来选择重要的词进行关系预测。最后,将细化图的表示和基于 BERT 的序列表示连接起来以进行关系提取。提出的 GDPNet(高斯动态时间扭曲池化网络)中,利用高斯图生成器 (GGG) 来生成多视图图的边。然后通过动态时间扭曲池 (DTWPool) 对图形进行细化。在 DialogRE 和TACRED上,表明在对话级 RE 上实现了最佳性能,并且在句子级 RE 上与最先进的性能相当。
* [dair-iitd/OpenIE-standalone](https://github.com/dair-iitd/OpenIE-standalone) 华盛顿大学 (UW) 和德里印度理工学院 (IIT 德里) 的主要开放信息提取 (Open IE) 系统。一个开放的系统提取文本中的关系。
* [zjunlp/KnowPrompt](https://github.com/zjunlp/KnowPrompt) 把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-aware Prompt-tuning方法。
* [yao8839836/kg-bert](https://github.com/yao8839836/kg-bert) 知识库补全的工作,结合BERT可以将更丰富的上下文表示结合进模型中,在三元组分类、链接预测以及关系预测中达到了SOTA。
* [dolphin-zs/Doc2EDAG](https://github.com/dolphin-zs/Doc2EDAG) 中国金融事件提取的端到端文档级框架 。基于实体的有向无环图(EDAG), 以自回归方式生成一个 EDAG。这样,一个硬表填充任务被分解为几个更易于处理的路径扩展子任务。
* [liuhuanyong/EventTriplesExtraction](https://github.com/liuhuanyong/EventTriplesExtraction) 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。
* [percent4/knowledge_graph_demo](https://github.com/percent4/knowledge_graph_demo) 展示三元组抽取后形成的知识图谱,包括几本小说的实体关系
* [lemonhu/open-entity-relation-extraction](https://github.com/lemonhu/open-entity-relation-extraction) 基于依存句法分析,实现面向开放域文本的知识三元组抽取(实体和关系抽取)及知识库构建。
* [lancopku/Chinese-Literature-NER-RE-Dataset](https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset) 中文文学文本语篇级命名实体识别与关系抽取数据集
* [tonytan48/Re-DocRED](https://github.com/tonytan48/Re-DocRED) 广泛使用的文档级关系抽取基准。然而,DocRED数据集包含很大比例的假阴性示例(注释不完整)。我们修订了DocRED数据集中的4,053个文档并解决了其问题。
## 实体识别NER、意图识别、槽位填充
* [LeeSureman/Flat-Lattice-Transformer](https://github.com/LeeSureman/Flat-Lattice-Transformer) 中文NER 基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息。基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。
* [ljynlp/W2NER](https://github.com/ljynlp/W2NER) 通过将统一的 NER 建模为词-词关系分类,提出了一种新颖的替代方案。该架构通过有效地建模实体词与 Next-Neighboring-Word (NNW) 和 Tail-Head-Word-* (THW-*) 关系之间的相邻关系,解决了统一 NER 的内核瓶颈。在 14 个广泛使用的基准数据集上针对平坦、重叠和不连续的 NER(8 个英语和 6 个中文数据集)进行了广泛的实验,击败了所有当前表现最好的基线,推动了最先进的表现统一的NER。
* [MiuLab/SlotGated-SLU](https://github.com/MiuLab/SlotGated-SLU) 意图识别和槽位填充(slot filling)联合模型,提出槽位门控机制(slot-gated mechanism)来解决没有明确建立槽位和意图之间联系的缺陷,达到较好的效果。
* [monologg/JointBERT](https://github.com/monologg/JointBERT) 意图识别和槽位填充(slot filling)联合训练模型,使用了BERT来进行语义编码,然后做序列标注任务和多分类任务的联合训练。
* [z814081807/DeepNER](https://github.com/z814081807/DeepNER) 天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch
* [liuwei1206/LEBERT](https://github.com/liuwei1206/LEBERT) Lexicon Enhanced BERT模型来解决中文序列标注NER任务。相比于 FLAT,Lattice LSTM 等方法,它把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,它无需包含词汇类型信息的词典,只需要普通的词向量即可。
* [kangbrilliant/DCA-Net](https://github.com/kangbrilliant/DCA-Net) 用于插槽填充和意图检测的协同互感器。数据集ATIS上,意向Acc 97.7 插槽填充F1 95.9 。
* [yizhen20133868/Awesome-SLU-Survey](https://github.com/yizhen20133868/Awesome-SLU-Survey) 口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame)信息,进而将这些信息为对话状态追踪模块(DST)以及自然语言生成模块(NLG)所使用。SLU任务通常包含以下两个任务:意图识别(intent detection)和槽位填充(slot filling)。
* [wuba/qa_match](https://github.com/wuba/qa_match) 58同城推出的一款基于深度学习的轻量级问答匹配工具,它融合领域识别与意图识别,对问答意图进行精确理解。
* [qiufengyuyi/sequence_tagging](https://github.com/qiufengyuyi/sequence_tagging) 用bilstm-crf,bert等方法进行序列标记任务
* [panchunguang/ccks_baidu_entity_link](https://github.com/panchunguang/ccks_baidu_entity_link) CCKS&百度 2019中文短文本的实体链指 第一名解决方案
* [ShannonAI/mrc-for-flat-nested-ner](https://github.com/ShannonAI/mrc-for-flat-nested-ner) 命名实体识别的统一 MRC 框架
* [AdvPicker](https://github.com/microsoft/vert-papers/tree/master/papers/AdvPicker) 通过对抗性判别器有效利用未标记数据进行跨语言 NER
* [jiesutd/LatticeLSTM](https://github.com/jiesutd/LatticeLSTM) 使用 Lattice LSTM 的中文 NER。ACL2018论文的代码。
* [Lynten/stanford-corenlp](https://github.com/Lynten/stanford-corenlp) 为文本处理任务提供了一个简单的 API,例如标记化、部分语音标记、命名实体识别、选区解析、依赖解析等。
* [thunlp/PL-Marker](https://github.com/thunlp/PL-Marker) 用于实体和关系提取的打包悬浮标记。提出了一种新的跨度表示方法,称为 Packed Levitated Markers,通过在编码器中策略性地打包标记来考虑跨度(对)之间的依赖关系。
* [v-mipeng/LexiconAugmentedNER](https://github.com/v-mipeng/LexiconAugmentedNER) 拒绝为中文 NER 合并词典的复杂操作。在中文 NER 中加入词典可以非常简单,同时也很有效。
* [lonePatient/BERT-NER-Pytorch](https://github.com/lonePatient/BERT-NER-Pytorch) Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)
* [gaohongkui/GlobalPointer_pytorch](https://github.com/gaohongkui/GlobalPointer_pytorch) 全局指针统一处理嵌套与非嵌套NER的Pytorch实现
* [DFKI-NLP/tacrev](https://github.com/DFKI-NLP/tacrev) TACRED(TAC Knowledge Base Population)是一个用于关系抽取任务的数据集,其中包含了从新闻文章中提取的实体对及其对应的关系标签。
* [qgyd2021/chinese_ner_sft](https://huggingface.co/datasets/qgyd2021/chinese_ner_sft) 中文实体识别指令数据集
收集开源的实体识别数据集, 将其制作为 sft 数据集用于 LLM 微调.该数据集的目的是构建通用实体识别的LLM研究.数据集分为三大类, {dataset_name}: 为对应的实体识别数据集.{dataset_name}_template: 是为各数据集编写的 prompt 模板, 因为各数据集的主题不同, 所以模板分别编写会更加准确.{dataset_name}_prompt: 是根据 {dataset_name} 和 {dataset_name}_template 合成的 prompt 数据集. .数据集从网上收集整理如下:CMeEE\CCKS2019_task1\CLUENER2020\MSRA\NLPCC2018_task4\CCFBDCI\MMC\WeiBo\ECommerce\YouKu\FinanceSina\Resume\Bank\DLNER* [qgyd2021/few_shot_ner_sft](https://huggingface.co/datasets/qgyd2021/few_shot_ner_sft) 小样本实体识别,收集实体识别的数据集, 将其整理成 prompt-response 的形式. 基于语言模型的实体识别.该数据集可用于:指令语言模型训练.数据集创建. (特定领域有少量标注数据时, 可与此数据集一起训练模型, 然后生成样本用于数据标注).在 prompt 生成过程中会加入一些 示例, 我们尽量使各实体的标签满足 n_way, n_shot.
* [qgyd2021/h_novel](https://huggingface.co/datasets/qgyd2021/h_novel) SQ小说, 用于制作特殊的 GPT 语言模型..
* [csebuetnlp/xlsum](https://huggingface.co/datasets/csebuetnlp/xlsum) 全面而多样化的数据集,包含来自 BBC 的 135 万个专业注释的文章摘要对,使用一组精心设计的启发式方法提取。该数据集涵盖了 45 种语言,从低资源到高资源,其中许多语言目前没有可用的公共数据集。XL-Sum 具有高度抽象性、简洁性和高质量,正如人类和内在评估所表明的那样。
* [csebuetnlp/CrossSum](https://huggingface.co/datasets/csebuetnlp/CrossSum) 大型数据集,包括 1500+ 语言对的 170 万个跨语言文章摘要样本,构成 45 种语言。我们使用多语言 XL-Sum 数据集,并使用与语言无关的表示模型通过跨语言检索来对齐用不同语言编写的相同文章。
* [sentence-transformers/embedding-training-data](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) 该存储库包含用于训练文本嵌入模型的训练文件,例如使用句子转换器。
* [stanfordnlp/snli](https://huggingface.co/datasets/stanfordnlp/snli) SNLI 语料库(1.0 版)是 570k 人工编写的英语句子对的集合,这些句子对经过手动标记,用于平衡分类,标签包括 entailment、contradiction 和 neutral,支持自然语言推理 (NLI) 的任务,也称为识别文本蕴涵 (RTE)。数据集中的语言是 Flickr 网站用户所说的英语,以及 Amazon Mechanical Turk 的众包工作者所说的语言。英语的 BCP-47 代码是 en。
* [OpenAssistant/oasst2](https://huggingface.co/datasets/OpenAssistant/oasst2) Open Assistant 对话数据集第 2 版 (OASST2),此数据集包含消息树。每个消息树都有一个初始提示消息作为根节点,该节点可以有多个子消息作为回复,并且这些子消息可以有多个回复。所有消息都有一个角色属性:可以是“assistant”或“prompter”。从提示到叶节点的对话线程中的角色在“提示器”和“助手”之间严格交替。
* [oscar-corpus/oscar](https://huggingface.co/datasets/oscar-corpus/oscar) 庞大的多语言语料库,通过使用 goclassy 架构对 Common Crawl 语料库进行语言分类和过滤而获得。数据以原始形式和重复数据删除形式按语言分发。
* [AndyChiang/cloth](https://huggingface.co/datasets/AndyChiang/cloth) CLOTH 是一个数据集,收集了来自初中和高中英语考试的近 100,000 道完形填空问题。
* [allenai/quac](https://huggingface.co/datasets/allenai/quac) Question Answering in Context 是一个用于建模、理解和参与信息搜索对话的数据集。数据实例由两个众包工作者之间的交互式对话组成:(1)一个学生提出一系列自由格式的问题,以尽可能多地了解隐藏的维基百科文本,以及(2)一个教师通过提供文本的简短摘录(跨度)来回答问题。QuAC 引入了现有机器理解数据集中没有的挑战:它的问题通常更加开放、无法回答,或者仅在对话上下文中才有意义。数据集中的文本为英文文本。
* [qgyd2021/sentence_pair](https://huggingface.co/datasets/qgyd2021/sentence_pair) 中文文本句子对数据集。包括:文本语义相似度、客服问句匹配、中文问题匹配、金融语义相似度、助手对话短文本语义匹配、医疗疾病问答迁移学习数据、新冠疫情相似句、自然语言推理数据。
* [qgyd2021/rlhf_reward_dataset](https://huggingface.co/datasets/qgyd2021/rlhf_reward_dataset) 奖励模型数据集。数据集从网上收集整理如下:beyond/rlhf-reward-single-round-trans_chinese;dikw/hh_rlhf_cn;Anthropic/hh-rlhf;liyucheng/zhihu_rlhf_3k;stanfordnlp/SHP。
* [stanfordnlp/SHP](https://huggingface.co/datasets/stanfordnlp/SHP) 包含 385K 个人类集体偏好,而不是对 18 个不同主题领域的问题/说明的回答,从烹饪到法律咨询。这些偏好旨在反映一种响应相对于另一种响应的有用性,并旨在用于训练 RLHF 奖励模型和 NLG 评估模型(例如,SteamSHP)。每个示例都是一个 Reddit 帖子,其中包含一个问题/说明和该帖子的一对顶级评论,其中一条评论更受 Reddit 用户(集体)的青睐。SHP 利用了这样一个事实,即如果评论 A 是在评论 B 之后写的,但仍然具有更高的分数,那么 A 表面上比 B 更受欢迎。如果 A 是在 B 之前写的,那么我们无法得出这样的结论,因为它的分数更高可能是可见性更高的结果。我们选择的数据,其中偏好标签旨在反映哪种反应更有帮助,而不是哪种危害更小,后者是过去许多工作的重点。SHP 与 Anthropic 的 HH-RLHF 数据集有何不同?最值得注意的是,SHP 中的所有数据都是自然发生的和人工编写的,而 HH-RLHF 中的响应是机器编写的,这为我们提供了两种可以相互补充的截然不同的分布。SHP 与其他抓取 Reddit 的数据集(如 ELI5)有何不同?SHP 使用时间戳信息来推断偏好,而 ELI5 仅提供评论和分数——后者不足以推断偏好,因为之前发表的评论往往会从更高的可见性中获得更高的分数。
* [openbmb/UltraInteract_sft](https://huggingface.co/datasets/openbmb/UltraInteract_sft) 大规模、高质量的对齐数据集,专为复杂的推理任务而设计。对于每条指令,它都包含一个首选项树,由(1)具有统一格式的多种规划策略的推理链(2)与环境与批判的多回合互动轨迹(3)成对数据,促进偏好学习。UltraInteract 为每条指令收集一个首选项树,该指令是根指令,每个操作都是一个节点。轨迹是由一系列动作组成的从根到叶的路径。在每个首选项树中,正确操作的所有节点和所有以正确操作结尾的轨迹都可用于 SFT。配对的正确和不正确的节点或轨迹可用于偏好学习。以下是有关UltraInteract的一些统计数据。它由 86k 指令、286k 正确答案和 219k 对组成。
* [pleisto/wikipedia-cn-20230720-filtered](https://huggingface.co/datasets/pleisto/wikipedia-cn-20230720-filtered) 本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了 254,547条 质量较高的词条内容。具体而言:过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条。使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条。过滤了一部分内容较为敏感或存在争议性的词条。进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词。
* [BelleGroup/multiturn_chat_0.8M](https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M) 包含约80万条由BELLE项目生成的用户与助手的多轮对话。注意:此数据集是由ChatGPT产生的,未经过严格校验,内容可能包含错误。使用过程中请注意这一点。instruction中包含多轮对话的上文内容,以Human:和Assistant:区分,output中包含当前助手角色的回答。
* [Helsinki-NLP/opus-100](https://huggingface.co/datasets/Helsinki-NLP/opus-100) OPUS-100 是一个以英语为中心的多语言语料库,涵盖 100 种语言。OPUS-100 以英语为中心,这意味着所有训练对在源端或目标端都包含英语。语料库涵盖100种语言(包括英语)。这些语言是根据OPUS中可用的并行数据量选择的。OPUS-100 包含大约 55M 个句子对。在 99 个语言对中,44 个有 1M 个训练数据的句子对,73 个至少有 100k,95 个至少有 10k。
* [bigscience/xP3](https://huggingface.co/datasets/bigscience/xP3) xP3(Crosslingual Public Pool of Prompts)是46种语言和16个NLP任务的提示和数据集的集合。它用于训练 BLOOMZ 和 mT0,多语言语言模型能够遵循数十种语言的人类指令。
* [THUIR/T2Ranking](https://huggingface.co/datasets/THUIR/T2Ranking) 中国的大型排名基准。在信息检索(IR)领域,对于学术界和工业界来说,段落排名都是重要且具有挑战性的话题。段落排名的目标是编译一个搜索结果列表,根据与大型段落集合中的查询的相关性排序。通常,段落排名包括两个阶段:段落检索和段落重新排名。为了支持段落排名研究,构建了各种基准数据集。然而,用于段落排名的常用数据集通常集中在英语上。对于非英语场景,例如中文,现有数据集在数据规模、细粒度相关性标注和漏报问题等方面存在局限性。为了解决这个问题,我们引入了 T 2 Ranking,这是一个大规模的中国通过排名基准。T 2 Ranking 包括超过 300K 个查询和超过 2M 个来自真实世界搜索引擎的独特段落。具体来说,我们从搜狗搜索引擎的用户日志中抽取基于问题的搜索查询,搜狗搜索引擎是中国流行的搜索系统。对于每个查询,我们从不同的搜索引擎中提取相应文档的内容。经过基于模型的段落分割和基于聚类的段落重复数据消除,得到大规模的段落语料库。对于给定的查询及其相应的段落,我们聘请专家注释员为每个查询-段落对提供 4 级相关性判断。与现有数据集相比,T 2 Ranking数据集具有以下特点和优势:该数据集聚焦于中文搜索场景,与现有的中文段落排名数据集相比,在数据尺度上具有优势,可以更好地支持深度学习算法的设计;该数据集具有大量的细粒度相关标注,有助于挖掘查询和段落之间的细粒度关系,构建更准确的排序算法;通过从多个商业搜索引擎中检索段落结果并提供完整的注释,在一定程度上缓解了假阴性问题,有利于提供更准确的评估;我们设计了多种策略来保证数据集的高质量,例如使用段落段模型和段落聚类模型来增强段落的语义完整性和多样性,并采用主动学习的注释方法来提高数据注释的效率和质量。
* [shibing624/nli_zh](https://huggingface.co/datasets/shibing624/nli_zh) 常见中文语义匹配数据集,包含ATEC、BQ、LCQMC、PAWSX、STS-B共5个任务。支持中文文本匹配任务,文本相似度计算等相关任务。数据集均是简体中文文本。
* [nvidia/ChatRAG-Bench](https://huggingface.co/datasets/nvidia/ChatRAG-Bench) ChatRAG Bench 是评估模型对文档或检索上下文的对话 QA 能力的基准。ChatRAG Bench 建立在 10 个现有数据集之上并派生而来:Doc2Dial、QuAC、QReCC、TopioCQA、INSCIT、CoQA、HybriDialogue、DoQA、SQA、ConvFinQA。ChatRAG Bench 涵盖了广泛的文档和问题类型,这些文档和问题类型要求模型从长上下文中生成响应、理解和推理表格、进行算术计算以及指示何时在上下文中找不到问题。此处介绍了此基准测试的详细信息。
* [nvidia/Aegis-AI-Content-Safety-Dataset-1.0](https://huggingface.co/datasets/nvidia/Aegis-AI-Content-Safety-Dataset-1.0) Aegis AI 内容安全数据集是一个开源内容安全数据集 (CC-BY-4.0),遵循 Nvidia 的内容安全分类法,涵盖 13 个关键风险类别。Aegis AI 内容安全数据集由人类和LLMs人与人之间的近 11,000 似手动注释的交互组成,分为 10,798 训练样本和 1,199 测试样本。为了整理数据集,我们使用了来自Anthropic HH-RLHF的关于无害性的人类偏好数据的拥抱脸版本。我们只提取提示,并从 Mistral-7B-v0.1 中引出响应。Mistral 擅长遵循指令,并为内容审核类别生成高质量的响应。我们在系统提示中使用示例,通过指示 Mistral 不要生成类似的响应来确保多样性。我们的数据包括四种不同的格式:仅用户提示、带用户提示的系统提示、带 Mistral 响应的单轮用户提示和带 Mistral 响应的多轮用户提示。
* [cimec/lambada](https://huggingface.co/datasets/cimec/lambada) LAMBADA通过单词预测任务评估计算模型的文本理解能力。LAMBADA 是叙事段落的集合,其共同特点是,如果人类受试者接触到整个段落,他们能够猜出他们的最后一个单词,但如果他们只看到目标单词之前的最后一个句子,则不能。为了在LAMBADA上取得成功,计算模型不能简单地依赖于本地上下文,而必须能够在更广泛的话语中跟踪信息。LAMBADA 数据集提取自 BookCorpus,由 10'022 个段落组成,分为 4'869 个开发段落和 5'153 个测试段落。在 LAMBADA 上测试的语言模型的训练数据包括 2'662 部小说的全文(与 dev+test 中的小说不相交),共计 2.03 亿字。数据集中的文本为英文文本。关联的 BCP-47 代码为 en 。
* [stanfordnlp/sst2](https://huggingface.co/datasets/stanfordnlp/sst2) 斯坦福情感树库是一个具有完全标记的解析树的语料库,可以对语言中情感的组合效应进行全面分析。该语料库基于Pang和Lee(2005)引入的数据集,由从电影评论中提取的11,855个单句组成。它使用斯坦福解析器进行解析,包括来自这些解析树的总共 215,154 个独特的短语,每个短语都由 3 名人类法官注释。对完整句子的二元分类实验(否定或有点否定与有点肯定或肯定,丢弃中性句子)将数据集称为 SST-2 或 SST 二进制。数据集中的文本为英文 ( en )。
* [Replete-AI/code_bagel](https://huggingface.co/datasets/Replete-AI/code_bagel) 大约 8 亿个唯一编码数据,支持 100 多种编码语言。该数据集包含 320 万+行高质量、过滤、未经审查、重复数据删除、唯一的编码数据。创建此数据集的过程如下:下载所有单个数据集。使用 Meta.ai 创建代码,将数据集中的数据提取为 alpaca 格式,并为其中的大多数添加指令。使用相同的提取方法将所有数据集合并为 1 个数据集。使用 Claude.ai 创建代码以对数据进行重复数据删除和取消审查。
* [fancyzhx/ag_news](https://huggingface.co/datasets/fancyzhx/ag_news) AG 收集了超过 100 万篇新闻文章。在一年多的活动中,ComeToMyHead 从 2000 多个新闻来源收集了新闻文章。ComeToMyHead是一个学术新闻搜索引擎,自2004年7月开始运行。该数据集由学术界提供,用于数据挖掘(聚类、分类等)、信息检索(排名、搜索等)、xml、数据压缩、数据流和任何其他非商业活动的研究目的。有关更多信息,请参阅链接 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html 。AG的新闻主题分类数据集由Xiang Zhang([email protected])根据上述数据集构建。在以下论文中将其用作文本分类基准:Xiang Zhang, Junbo Zhao, Yann LeCun.用于文本分类的字符级卷积网络。神经信息处理系统进展 28 (NIPS 2015)。
* [eriktks/conll2003](https://huggingface.co/datasets/eriktks/conll2003) CoNLL-2003 的共同任务涉及与语言无关的命名实体识别。我们将重点介绍四种类型的命名实体:不属于前三组的人员、地点、组织和杂项实体的名称。CoNLL-2003 共享任务数据文件包含四列,用一个空格分隔。每个单词都放在单独的行上,每个句子后面都有一个空行。每行的第一项是一个单词,第二项是词性 (POS) 标记,第三项是句法块标记,第四项是命名实体标记。块标记和命名实体标记的格式为 I-TYPE,这意味着该单词位于 TYPE 类型的短语中。只有当两个相同类型的短语紧跟在一起时,第二个短语的第一个单词才会带有标签 B-TYPE,以表明它开始了一个新短语。带有标签 O 的单词不是短语的一部分。请注意,数据集使用 IOB2 标记方案,而原始数据集使用 IOB1。
* [defunct-datasets/amazon_reviews_multi](https://huggingface.co/datasets/defunct-datasets/amazon_reviews_multi) 我们提供了一个用于多语言文本分类的亚马逊商品评论数据集。该数据集包含2015年11月1日至2019年11月1日期间收集的英文、日文、德文、法文、中文和西班牙文综述。数据集中的每条记录都包含评论文本、评论标题、星级评定、匿名评论者 ID、匿名产品 ID 和粗粒度产品类别(例如“书籍”、“电器”等)语料库在星级之间是平衡的,因此每个星级评定占每种语言评论的 20%。对于每种语言,在训练、开发和测试集中分别有 200,000、5,000 和 5,000 条评论。每位评论者的最大评论数为 20 条,每个产品的最大评论数为 20 条。所有评论在 2,000 个字符后被截断,并且所有评论的长度至少为 20 个字符。请注意,评论的语言不一定与其市场的语言相匹配(例如,来自 amazon.de 的评论主要用德语撰写,但也可以用英语等撰写)。出于这个原因,我们应用了一种基于Bojanowski等人(2017)工作的语言检测算法来确定评论文本的语言,并删除了不是用预期语言编写的评论。
* [defunct-datasets/amazon_us_reviews](https://huggingface.co/datasets/defunct-datasets/amazon_us_reviews) 亚马逊买家评论(又名产品评论)是亚马逊的标志性产品之一。自 1995 年首次评论以来的二十多年里,数百万亚马逊客户贡献了超过 1 条评论,以表达意见并描述他们对 Amazon.com 网站上产品的体验。这使得亚马逊买家评论成为自然语言处理 (NLP)、信息检索 (IR) 和机器学习 (ML) 等领域的学术研究人员的丰富信息来源。因此,我们将发布这些数据,以进一步研究与了解客户产品体验相关的多个学科。具体来说,该数据集的构建是为了表示客户评估和意见的样本、不同地理区域对产品的看法变化以及评论中的促销意图或偏见。作为此版本的一部分,研究人员可以获得超过 130+ 百万条客户评论。这些数据以 AWS 美国东部区域的 amazon-reviews-pds S3 存储桶中的 TSV 文件形式提供。数据文件中的每一行对应于一个单独的审阅(制表符分隔,没有引号和转义字符)。每个数据集都包含以下列: marketplace - 撰写评论的商城的 2 个字母的国家/地区代码。customer_id - 随机标识符,可用于汇总单个作者撰写的评论。review_id - 审阅的唯一 ID。product_id - 与评价相关的唯一商品编号。在多语言数据集中,同一产品在不同国家/地区的评论可以按同一product_id分组。 product_parent - 可用于汇总同一产品评论的随机标识符。product_title - 产品的标题。 product_category - 可用于对评论进行分组的广泛产品类别(也用于将数据集分组为连贯的部分)。star_rating - 评论的 1-5 星评级。helpful_votes - 有用的票数。total_votes - 评论收到的总票数。vine - 评论是作为 Vine 程序的一部分编写的。verified_purchase - 评论是针对已验证的购买。review_headline - 评论的标题。review_body - 评论文本。review_date - 撰写评论的日期。
* [defunct-datasets/bookcorpusopen](https://huggingface.co/datasets/defunct-datasets/bookcorpusopen) 书籍是细粒度信息的丰富来源,包括人物、物体或场景的样子,以及高级语义,即某人在想什么、感受什么以及这些状态如何通过故事演变。此版本的 bookcorpus 有 17868 个数据集项(书籍)。每个项目都包含两个字段:标题和文本。标题是图书名称(仅文件名),而文本包含未处理的图书文本。该书料库由肖恩·普雷瑟(Shawn Presser)编写,并由The-Eye慷慨主持。The-Eye 是一个非营利性、社区驱动的平台,致力于存档和长期保存任何和所有数据,包括但不限于......网站、书籍、游戏、软件、视频、音频、其他数字暗箱和想法。
* [defunct-datasets/the_pile_openwebtext2](https://huggingface.co/datasets/defunct-datasets/the_pile_openwebtext2) OpenWebText2 是 EleutherAi/The Pile 数据集的一部分,是原始 OpenWebTextCorpus 的增强版本,涵盖了从 2005 年到 2020 年 4 月的所有 Reddit 提交,在相应的 PushShift 转储文件发布后,还有几个月可用。
* [defunct-datasets/the_pile_stack_exchange](https://huggingface.co/datasets/defunct-datasets/the_pile_stack_exchange) 此数据集是 EleutherAI/The Pile 数据集的一部分,是处理 stackexchange 数据转储的语言模型数据集,该数据转储是 Stack Exchange 网络上所有用户贡献内容的匿名转储。
* [defunct-datasets/the_pile_books3](https://huggingface.co/datasets/defunct-datasets/the_pile_books3) 该数据集包含所有纯.txt形式的书目,即 197,000 本书的处理方式与 bookcorpusopen(又名 books1)完全相同。似乎类似于 OpenAI 在他们论文中引用的神秘的“books2”数据集。不幸的是,OpenAI 不会提供细节,所以我们对任何差异知之甚少。人们怀疑这是“全部的自由”,但这纯粹是猜想。
## 其他_NLP自然语言处理
* [nltk/nltk](https://github.com/nltk/nltk) 支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。
* [keon/awesome-nlp](https://github.com/keon/awesome-nlp) 专用于自然语言处理 (NLP) 的资源精选列表
* [graykode/nlp-tutorial](https://github.com/graykode/nlp-tutorial) 面向深度学习研究人员的自然语言处理教程
* [stanfordnlp/stanza](https://github.com/stanfordnlp/stanza) Stanford NLP Group 的官方 Python NLP 库。 它支持在 60 多种语言上运行各种准确的自然语言处理工具。
* [piskvorky/gensim](https://github.com/piskvorky/gensim) Python 库,用于主题建模、文档索引和大型语料库的相似性检索。目标受众是自然语言处理 (NLP) 和信息检索 (IR) 社区。特征:所有算法都与内存无关,与语料库大小无关(可以处理大于 RAM、流式、核外的输入),易于插入您自己的输入语料库/数据流(简单的流式 API),易于使用其他向量空间算法进行扩展(简单转换 API),流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)、潜在狄利克雷分配 (LDA)、随机投影 (RP)、分层狄利克雷过程 (HDP) 或 word2vec 深度学习。分布式计算:可以在计算机集群上运行潜在语义分析和潜在狄利克雷分配。
* [huseinzol05/NLP-Models-Tensorflow](https://github.com/huseinzol05/NLP-Models-Tensorflow) 抽象总结 聊天机器人依赖解析器 实体标记 提取摘要 发电机 语言检测 神经机器翻译 光学字符识别 POS标签 问题答案 句子对 语音转文字 拼写校正 小队问题答案 抽干 文字扩充 文字分类 文字相似度 文字转语音 主题生成器 主题建模 无监督提取摘要 矢量化器 老少少的声码器 可视化 注意Attention
* [CLUEbenchmark/FewCLUE](https://github.com/CLUEbenchmark/FewCLUE) FewCLUE 小样本学习测评基准,中文版 小样本学习(Few-shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。FewCLUE:中文小样本学习测评基准,基于CLUE的积累和经验,并结合少样本学习的特点和近期的发展趋势,精心设计了该测评,希望可以促进中文领域上少样本学习领域更多的研究、应用和发展。模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET\RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、使用RoBERTa或GPT做零样本学习。
* [deepset-ai/haystack](https://github.com/deepset-ai/haystack) 开源的NLP框架,可以使用Transformer模型和LLM(GPT-3等)与数据交互。Haystack提供了生产就绪的工具来快速构建类似ChatGPT的问题回答、语义搜索、文本生成等。
* [sebastianruder/NLP-progress](https://github.com/sebastianruder/NLP-progress) 它旨在涵盖传统和核心NLP任务,如依赖解析和词性标记,以及最近的任务,如阅读理解和自然语言推理。主要目的是为读者提供基准数据集的快速概述以及他们感兴趣的任务的最新技术,这是进一步研究的垫脚石。为此,如果有一个地方已经发布并定期维护任务的结果,例如公共排行榜。
* [PKU-TANGENT/nlp-tutorial](https://github.com/PKU-TANGENT/nlp-tutorial) NLP新手入门教程
* [yuanzhoulvpi2017/zero_nlp](https://github.com/yuanzhoulvpi2017/zero_nlp) 中文nlp解决方案(大模型、数据、模型、训练、推理)
* [crownpku/Awesome-Chinese-NLP](https://github.com/crownpku/Awesome-Chinese-NLP) 中文自然语言处理相关资料
* [fxsjy/jieba](https://github.com/fxsjy/jieba) 中文意为“口吃”,中文文本分割:打造成为最好的 Py 中文分词模块。
* [bojone/attention](https://github.com/bojone/attention) Attention机制的实现tensorflow/keras
* [425776024/nlpcda](https://github.com/425776024/nlpcda) 中文数据增强工具,随机实体替换\近义词\近义近音字替换\随机字删除\NER类 BIO 数据增强\随机置换邻近的字\百度中英翻译互转\中文等价字替换
* [wac81/textda](https://github.com/wac81/textda) Python3中文文本的数据增强
* [zhanlaoban/EDA_NLP_for_Chinese](https://github.com/zhanlaoban/EDA_NLP_for_Chinese) 适合中文语料的数据增强EDA的实现
* [akkarimi/aeda_nlp](https://github.com/akkarimi/aeda_nlp) 一种更简单的文本分类数据增强技术.插入符号。
* [rz-zhang/SeqMix](https://github.com/rz-zhang/SeqMix) 数据增强⽅法,通过序列混合增强活动序列标记。
* [clovaai/ssmix](https://github.com/clovaai/ssmix) 数据增强⽅法,SSMix⽅法在⽂本input上通过巧妙的⽅法进⾏mixup,⽽不像前⾯⼤部分使⽤在 hidden层上。该⽅法在保留⼤部分重要token的前提下基于⼀些信息替换⼀个新的 span进来。
* [ShomyLiu/Neu-Review-Rec](https://github.com/ShomyLiu/Neu-Review-Rec) Pytorch的基于评论文本的深度推荐系统模型库。DeepCoNN(WSDM'17)、D-Attn(RecSys'17)、ANR(CIKM'18)、NARRE(WWW'18)、MPCN(KDD'18)、TARMF(WWW'18)、CARL(TOIS'19)、CARP(SIGIR'19)、DAML(KDD'19)
* [squareRoot3/Target-Guided-Conversation](https://github.com/squareRoot3/Target-Guided-Conversation) 目标指导的开放域对话,开放域聊天中目标引导.
* [flairNLP/flair](https://github.com/flairNLP/flair) 最先进的NLP框架。由柏林洪堡大学开发。将先进的NLP模型应用于文本,如NER、词性标记 (PoS)、对生物医学的特殊支持、感知消歧和分类。Flair具有简单的界面,允许不同的单词和文档嵌入,包括Flair嵌入,BERT嵌入和ELMo嵌入。
* [NVIDIA/NeMo](https://github.com/NVIDIA/NeMo) 对话式 AI 工具包,专为从事ASR\TTS\语言模型和NLP的研究人员而构建。NeMo的主要目标是帮助来自工业界和学术界的研究人员重用以前的工作(代码和预训练模型),并更轻松地创建新的对话AI模型。所有 NeMo 模型都使用 Lightning 进行训练,训练可自动扩展到 1000 多个 GPU。此外,NeMo 威震天 LLM 模型可以使用张量和管道模型并行性训练多达 1 万亿个参数。NeMo 模型可以针对推理进行优化,并使用 NVIDIA Riva 针对生产用例进行部署。
* [lancopku/pkuseg-python](https://github.com/lancopku/pkuseg-python) 多领域中文分词工具
* [JasonForJoy/MPC-BERT](https://github.com/JasonForJoy/MPC-BERT) 一种预训练的多方会话理解语言模型.多方会话(MPC)的各种神经模型在收件人识别、说话人识别和反应预测等方面取得了显著的进展。
* [airaria/TextBrewer](https://github.com/airaria/TextBrewer) 基于PyTorch的NLP任务知识蒸馏工具包,适用于多种模型结构,支持自由组合各种蒸馏策略,并且在文本分类、阅读理解、序列标注等典型NLP任务上均能获得满意的效果。
* [czhang99/SynonymNet](https://github.com/czhang99/SynonymNet) 基于多个上下文双向匹配的同义实体发现
* PRADO 用于文档分类的投影注意网络 性能媲美BERT,但参数量仅为1/300 tensorflow/models/tree/master/research/sequence_projection
* [salesforce/pytorch-qrnn](https://github.com/salesforce/pytorch-qrnn) 准循环神经网络Quasi-Recurrent Neural Network,基于使用实例可以比高度优化的 NVIDIA cuDNN LSTM 实现2到17倍快
* [ChenghaoMou/pytorch-pQRNN](https://github.com/ChenghaoMou/pytorch-pQRNN) pQRNN 结合一个简单的映射和一个quasi-RNN编码器来进行快速并行处理。pQRNN模型表明这种新的体系结构几乎可以达到BERT级的性能,尽管只使用1/300的参数量和有监督的数据。
* [RUCAIBox/TG_CRS_Code](https://github.com/RUCAIBox/TG_CRS_Code) TG-ReDial相应的推荐、回复生成、主题预测功能实现。
* [Qznan/QizNLP](https://github.com/Qznan/QizNLP) 快速运行分类、序列标注、匹配、生成等NLP任务的Tensorflow框架 (中文 NLP 支持分布式)
* [salesforce/WikiSQL](https://github.com/salesforce/WikiSQL) 用于为关系数据库开发NLP界面的大型众包数据集。 WikiSQL 是与Seq2SQL 一起发布的数据集。使用强化学习从自然语言生成结构化查询。
* [toizzy/tilt-transfer](https://github.com/toizzy/tilt-transfer) 运行TILT迁移学习实验的代码 让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。
* [XiaoMi/MiNLP/minlp-tokenizer](https://github.com/XiaoMi/MiNLP/tree/main/minlp-tokenizer) 小米 AI NLP 团队的平台 MiNLP 开源了中文分词功能
* [explosion/spaCy](https://github.com/explosion/spaCy) 工业级强度的NLP工具包,被称为最快的工业级自然语言处理工具。支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。
* [RUCAIBox/CRSLab](https://github.com/RUCAIBox/CRSLab) 用于构建会话推荐系统(Conversational Recommender System CRS)的开源工具包。 对话推荐任务主要拆分成三个任务:推荐任务(生成推荐的商品),对话任务(生成对话的回复)和策略任务(规划对话推荐的策略)。模型 CRS 模型 ReDial、KBRD、KGSF、TG-ReDial、推荐模型 Popularity、GRU4Rec、SASRec、TextCNN、R-GCN、BERT、对话模型 HERD、Transformer、GPT-2 策略模型 PMI、MGCG、Conv-BERT、Topic-BERT、Profile-BERT
* [RUCAIBox/CRSPapers](https://github.com/RUCAIBox/CRSPapers) 选取了近年来基于深度学习的对话推荐系统相关论文(共 62 篇),并根据工作的类型进行分类,以供参考。
* [nlp-uoregon/trankit](https://github.com/nlp-uoregon/trankit) 用于多语言自然语言处理的基于轻型变压器的Python工具包 支持以下任务:句子分割。标记化。多字令牌扩展。词性标记。形态特征标记。依赖性解析。命名实体识别。
* [yizhen20133868/NLP-Conferences-Code](https://github.com/yizhen20133868/NLP-Conferences-Code) 记录NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集
* [cuhksz-nlp/DGSA](https://github.com/cuhksz-nlp/DGSA) 基于方向建模图卷积网络的联合方面提取和情感分析.输入:由句子生成的依存句法分析树得到的图;句子(词序列).输出表示为一个标签序列.可用于序列标注、ER 和情感分析。
* [FedML-AI/FedNLP](https://github.com/FedML-AI/FedNLP) FedNLP:自然语言处理中的联合学习研究平台
* [graph4ai/graph4nlp](https://github.com/graph4ai/graph4nlp) 一个易于使用的NLP图形神经网络库。应用:文本分类、神经机器翻译、摘要、KG补全:预测konwledge图中两个现有实体之间的缺失关系。数学问题解决:自动解决数学习题,用易懂的语言提供问题的背景信息。名称实体识别、问题生成。
* [PaddlePaddle/PaddleNLP](https://github.com/PaddlePaddle/PaddleNLP) 简单易用且易于开发的强大功能。开发的简单易用的自然覆盖处理模型并提供开发者的简单易用的自然覆盖处理模型,并提供NLP 多场景的语言库供灵活使用的需求。
* [huybery/r2sql](https://github.com/huybery/r2sql) Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing 跨域上下文相关语义分析的动态混合关系网络 应用于:多轮text-to-SQL 任务(通过多轮对话的方式生成最终的查询语句, Text-to-SQL 任务:给定一个自然语言查询和数据库的作为输入,产生一个SQL语句作为输出。)
* [facebookresearch/GENRE](https://github.com/facebookresearch/GENRE) 首创生成式实体检索,通过seq2seq方法(BART)生成有意义的实体名称从而实现实体链接,而且还可以取得SOTA结果。
* [sebastian-hofstaetter/intra-document-cascade](https://github.com/sebastian-hofstaetter/intra-document-cascade) IDCM模型: 文档内部级联选择段落服务于文档排序。采用文档内部级联策略,在运行复杂并且高效果的排序模型(ETM,Effective Teacher Model)之前,使用高效率的模型(ESM,Efficient Student Model)进行候选文档中多余段落的删除。相比bert,具有基本相同的效果,而且查询延迟降低400%以上。
* [jingtaozhan/DRhard](https://github.com/jingtaozhan/DRhard) 通过难负例优化稠密向量文档检索模型训练,利用动态难负例抽样提高模型效果,以及将随机抽样结合静态难负例抽样提高模型稳定性。
* [yechens/NL2SQL](https://github.com/yechens/NL2SQL) Text2SQL 语义解析数据集、解决方案、paper资源整合项。Text to SQL( 以下简称Text2SQL),是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域中的子任务。
* [destwang/CTCResources](https://github.com/destwang/CTCResources) 中文文本纠错(Chinese Text Correction, CTC)相关论文、数据集。
* [fushengwuyu/chinese_spelling_correction](https://github.com/fushengwuyu/chinese_spelling_correction) 中文文本纠错模型:bert语言模型+字音字形相似度 、MLM、seq2seq
* [grammarly/gector](https://github.com/grammarly/gector) ”GECToR – Grammatical Error Correction: Tag, Not Rewrite”,使用给序列打标签来替代主流的Seq2Seq模型。本文采取了一种迭代的方法,也就是通过多次(其实最多也就两三次)序列打标签。
* [destwang/CTC2021](https://github.com/destwang/CTC2021) 本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。
* [Jingjing-NLP/VOLT](https://github.com/Jingjing-NLP/VOLT) 借鉴边际效用通过最优转移学习词表。
* [thunlp/OpenAttack](https://github.com/thunlp/OpenAttack) 文本对抗攻击工具包,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。
* [thunlp/TAADpapers](https://github.com/thunlp/TAADpapers) 文本对抗攻击和防御必读论文列表。
* [lupantech/InterGPS](https://github.com/lupantech/InterGPS) 基于符号推理的几何数学题求解器。建立了一个新的大规模基准数据集,称为 Geometry3K。这些数据从两本中学教材收集,涵盖了北美 6 到 12 年级的几何知识。每道题收集了 LaTeX 格式的问题文本、几何图形、四个选项和正确答案。为了模型的精细评估,每个数据标注了问题目标和几何图形的类型。Inter-GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。
* [Helsinki-NLP/Tatoeba-Challenge](https://github.com/Helsinki-NLP/Tatoeba-Challenge) 这是一个机器翻译的挑战集,包含 29G 翻译单元在 3,708 位ext 覆盖 557 种语言。该包包括从涵盖 134 种语言的 Tatoeba.org 衍生的 631 套测试集的版本。此包提供以多种语言进行机器翻译的数据集,并提供从 Tatoeba 获取的测试数据。
* [princeton-nlp/LM-BFF](https://github.com/princeton-nlp/LM-BFF) 更好的Few-shot小样本微调语言模型.包括:1.基于提示(prompt)进行微调,关键是如何自动化生成提示模板;
2.将样本示例以上下文的形式添加到每个输入中,关键是如何对示例进行采样.* [thunlp/PromptPapers](https://github.com/thunlp/PromptPapers) 关于基于提示的预先训练语言模型的必读论文。
* [linzehui/mRASP](https://github.com/linzehui/mRASP) 通过利用对齐信息预训练多语言神经机器翻译. 代表多语言随机对齐替换预训练,是一种预训练的多语言神经机器翻译模型。 它在包含 32 个语言对的大规模多语言语料库上进行了预训练。 获得的模型可以在下游语言对上进一步微调。 为了有效地使具有相似含义的单词和短语在多种语言的表示中更接近,我们引入了随机对齐替换 (RAS) 技术。
* [soft-prompt-tuning](https://github.com/kipgparker/soft-prompt-tuning) The Power of Scale for Parameter-Efficient Prompt Tuning 用于参数高效的即时调整的规模的力量
* [facebookresearch/ParlAI](https://github.com/facebookresearch/ParlAI) 在各种公开可用的对话数据集上训练和评估 AI 模型的框架。
* [CAMTL/CA-MTL](https://github.com/CAMTL/CA-MTL) 条件自适应多任务学习:使用更少的参数和更少的数据改进 NLP 中的迁移学习
* [thunlp/WantWords](https://github.com/thunlp/WantWords) 一个开源的在线反向词典。
* [pcyin/tranX](https://github.com/pcyin/tranX) 用于将自然语言查询映射到机器可执行代码的通用神经语义解析器
* [hooman650/SupCL-Seq](https://github.com/hooman650/SupCL-Seq) 下游优化序列表示的监督对比学习
* [openai/grade-school-math](https://github.com/openai/grade-school-math) 包含 8.5K 高质量语言多样化小学数学单词问题的数据集。对于每个测试问题,我们提供从 6B 微调、6B 验证、175B 微调和 175B 验证生成的解决方案。
* [makcedward/nlpaug](https://github.com/makcedward/nlpaug) NLP 的数据增强
* [hankcs/pyhanlp](https://github.com/hankcs/pyhanlp) 中文分词、依存句法分析
* [shibing624/pycorrector](https://github.com/shibing624/pycorrector) 中文文本纠错工具。支持中文音似、形似、语法错误纠正。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。
* [HillZhang1999/MuCGEC](https://github.com/HillZhang1999/MuCGEC) MuCGEC中文纠错数据集及文本纠错SOTA模型开源
* [PengheLiu/Cn_Speck_Checker](https://github.com/PengheLiu/Cn_Speck_Checker) 通过统计方法对中文单词进行自动纠错
* [taozhijiang/chinese_correct_wsd](https://github.com/taozhijiang/chinese_correct_wsd) 简易中文纠错消歧 用户输入语句的同音自动纠错.
* [beyondacm/Autochecker4Chinese](https://github.com/beyondacm/Autochecker4Chinese) 中文文本错别字检测以及自动纠错
* [iqiyi/FASPell](https://github.com/iqiyi/FASPell) 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker ( 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)
* [hiyoung123/SoftMaskedBert](https://github.com/hiyoung123/SoftMaskedBert) 中文文本纠错模型。使用两个网络模型,一个用于错误检测;另一个基于BERT进行纠错。
* [ACL2020SpellGCN/SpellGCN](https://github.com/ACL2020SpellGCN/SpellGCN) 将语音学和视觉相似性结合到汉语拼写检查\文本纠错
* [MuCGEC/scorers/ChERRANT](https://github.com/HillZhang1999/MuCGEC/tree/main/scorers/ChERRANT) 借鉴了英文上主流的GEC(Grammatical Error Correction 语法纠错)评估工具[ERRANT](https://github.com/chrisjbryant/errant),搭建了中文GEC评估工具ChERRANT(Chinese ERRANT)。ChERRANT的主要功能是通过对比预测编辑和标准编辑,计算预测结果的精确度、召回度、F值指标,从而评估语法纠错模型的性能。应用:搜索query纠错、语音纠错、舆情文本纠错
* [liushulinle/CRASpell](https://github.com/liushulinle/CRASpell) 使用复制机制改进中文拼写纠正的上下文错字稳健方法
* [thunlp/OpenBackdoor](https://github.com/thunlp/OpenBackdoor) 文本后门攻防开源工具包(NeurIPS 2022 D&B)
* [xueyouluo/ccks2021-track2-code](https://github.com/xueyouluo/ccks2021-track2-code) “英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析 。基于BERT的Biaffine结构,直接预测文本构成的所有span的类别。相比单纯基于span预测和基于MRC的预测,Biaffine的结构可以同时考虑所有span之间的关系,从而提高预测的准确率。
* [kpu/kenlm](https://github.com/kpu/kenlm) 高效统计语言模型kenlm:新词发现、分词、智能纠错
* [ryanzhumich/Contrastive-Learning-NLP-Papers](https://github.com/ryanzhumich/Contrastive-Learning-NLP-Papers) NLP 对比学习是一种学习嵌入空间的技术,使得相似的数据样本对具有接近的表示,而不同的样本彼此相距很远。 它可以在有监督或无监督的设置中使用,使用不同的损失函数来生成特定于任务或通用的表示。 在各种 NLP 任务中提供了有希望的性能改进,而且还提供了所需的特性,例如与任务无关的句子表示、忠实的文本生成、零样本和少样本设置中的数据高效学习、可解释性和可解释性 .
* [textstat/textstat](https://github.com/textstat/textstat) 用于计算文本对象(段落、句子、文章)的可读性统计数据。
* [nonebot/nonebot2](https://github.com/nonebot/nonebot2) 跨平台 Python 异步聊天机器人框架
* [mit-han-lab/smoothquant](https://github.com/mit-han-lab/smoothquant) 对大语言模型的准确和高效的训练后量化
* [causaltext/causal-text-papers](https://github.com/causaltext/causal-text-papers) 因果推理和自然语言处理的交叉研究。
* [zhijing-jin/Causality4NLP_Papers](https://github.com/zhijing-jin/Causality4NLP_Papers) 关于自然语言处理因果关系的论文阅读列表
* [DaDaMrX/ReaLiSe](https://github.com/DaDaMrX/ReaLiSe) 多模态模型中文拼写检查器。包括:文字语义、文字发音、文字图形。
* [dbohdan/structured-text-tools](https://github.com/dbohdan/structured-text-tools) 用于操作结构化文本数据的命令行工具列表
* [huggingface/tokenizers](https://github.com/huggingface/tokenizers) 提供当今最常用的分词器的实现,重点关注性能和多功能性。
* [jessevig/bertviz](https://github.com/jessevig/bertviz) 在NLP模型中可视化注意力(BERT,GPT2,BART等)
* [lutzroeder/netron](https://github.com/lutzroeder/netron) 用于神经网络、深度学习和机器学习模型的可视化工具
* [sebastianruder/NLP-progress](https://github.com/sebastianruder/NLP-progress) 用于跟踪自然语言处理 (NLP) 进展的存储库,包括数据集和最常见 NLP 任务的最新技术水平。
* [DengBoCong/nlp-paper](https://github.com/DengBoCong/nlp-paper) 自然语言处理领域下的相关论文(附阅读笔记),复现模型以及数据处理等
* [ssut/py-googletrans](https://github.com/ssut/py-googletrans) (非官方)Googletrans:免费且无限制的 Google 翻译 API for Python。翻译完全免费。
* [jgm/pandoc](https://github.com/jgm/pandoc) 通用标记转换器。一个Haskell库,用于从一种标记格式转换为另一种标记格式,以及使用该库的命令行工具。
* [shibing624/bart4csc-base-chinese](https://huggingface.co/shibing624/bart4csc-base-chinese) BART中文拼写纠错模型,训练使用了SIGHAN + Wang271K 中文纠错数据集,在SIGHAN2015的测试集上达到接近SOTA水平。
* [sloria/TextBlob](https://github.com/sloria/TextBlob) 简单、Pythonic、文本处理——情感分析、词性标记、名词短语提取、翻译等。
* [stanfordnlp/CoreNLP](https://github.com/stanfordnlp/CoreNLP) 核心 NLP 工具,用于标记化、句子分割、NER、解析、共指、情感分析等。
* [NLPchina/ansj_seg](https://github.com/NLPchina/ansj_seg) ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
* [openai/tiktoken](https://github.com/openai/tiktoken) 一个快速的 BPE 分词标记器,用于 OpenAI 的模型。
* [JohnSnowLabs/spark-nlp](https://github.com/JohnSnowLabs/spark-nlp) 建立在 Apache Spark 之上的最先进的自然语言处理库。它为机器学习管道提供了简单、高性能和准确的 NLP 注释,这些管道可在分布式环境中轻松扩展。Spark NLP 自带 36000+ 种预训练流水线和模型,支持 200+ 多种语言。它还提供诸如标记化、分词、词性标记、单词和句子嵌入、命名实体识别、依赖项解析、拼写检查、文本分类、情感分析、标记分类、机器翻译(+180 种语言)、摘要、问答、表格问答、文本生成、图像分类、图像到文本(字幕)、自动语音识别、零样本学习等任务,以及更多 NLP 任务。
* [tisfeng/Easydict](https://github.com/tisfeng/Easydict) 简洁优雅的词典翻译 macOS App。开箱即用,支持离线 OCR 识别,支持有道词典,苹果系统词典翻译,ChatGPT,Gemini,DeepL,Google,Bing,腾讯,百度,阿里,小牛,彩云和火山翻译。
* [salesforce/decaNLP](https://github.com/salesforce/decaNLP) 一项多任务挑战,涵盖十项任务:问答 (SQuAD)、机器翻译 (IWSLT)、摘要 (CNN/DM)、自然语言推理 (MNLI)、情感分析 (SST)、语义角色标签 (QA-SRL)、零样本关系提取 (QA-ZRE)、面向目标的对话 (WOZ)、语义解析 (WikiSQL) 和常识推理 (MWSC)。每个任务都转换为问答,这使得使用我们新的多任务问答网络 (MQAN) 成为可能。
* [ripperhe/Bob](https://github.com/ripperhe/Bob) Bob 是一款 macOS 平台的翻译和 OCR 软件。主要特性:翻译功能:划词翻译、截图翻译、输入翻译、翻译多开、自定义插件、自动识别语种、驼峰拆分、蛇形拆分、AppleScript 调用、PopClip 调用。OCR 功能:截图 OCR、静默截图 OCR、访达选图;OCR、离线识别、连续识别、二维码识别、自动复制、智能分段;支持的服务:文本翻译:系统翻译、火山翻译、腾讯翻译君、阿里翻译、百度翻译、有道翻译、彩云小译、小牛翻译、Google 翻译、Microsoft 翻译、Amazon 翻译、DeepL 翻译、OpenAI 翻译;文本识别:离线文本识别、火山 OCR、腾讯 OCR、腾讯图片翻译、百度 OCR、有道 OCR、Google OCR;语音合成:离线语音合成、火山语音合成 、腾讯语音合成、Google 语音合成、Microsoft 语音合成
* [opendatalab/PDF-Extract-Kit](https://github.com/opendatalab/PDF-Extract-Kit) 用于高质量 PDF 内容提取的综合工具包。PDF 文档包含丰富的知识,但从 PDF 中提取高质量内容并非易事。为了解决这个问题,我们将 PDF 内容提取的任务分解为几个组件:布局检测:使用 LayoutLMv3 模型进行区域检测,如图片、表格、标题、文本等;公式检测:使用 YOLOv8 检测公式,包括内联公式和孤立公式;公式识别:使用UniMERNet进行公式识别;光学字符识别:使用PaddleOCR进行文本识别;通过注释各种 PDF 文档,我们训练了用于布局检测和公式检测的鲁棒模型。我们的流程可以在各种类型的PDF文档(如学术论文、教科书、研究报告和财务报表)上实现准确的提取结果,即使在扫描模糊或水印的情况下也非常强大。
* [VikParuchuri/marker](https://github.com/VikParuchuri/marker) 快速将PDF转换为Markdown,准确无误。支持各种文档(针对书籍和科学论文进行了优化);支持所有语言;删除页眉/页脚/其他工件;设置表格和代码块的格式;提取并保存图像以及 Markdown;将大多数方程转换为latex;适用于 GPU、CPU 或 MPS。Marker 是深度学习模型的管道:提取文本,必要时进行 OCR(heuristics、surya、tesseract);检测页面布局并查找阅读顺序 (surya);清理和格式化每个块;合并块并对完整文本进行后处理
* [adithya-s-k/omniparse](https://github.com/adithya-s-k/omniparse) 可将任何非结构化数据提取并解析为针对 GenAI (LLM) 应用程序优化的结构化、可操作的数据。无论您是处理文档、表格、图像、视频、音频文件还是网页,OmniParse 都能让您的数据保持干净、结构化,并为 RAG、微调等 AI 应用程序做好准备。特征:完全本地,无外部 API;适合 T4 GPU;支持 ~20 种文件类型;将文档、多媒体和网页转换为高质量的结构化 Markdown;表格提取、图像提取/字幕、音频/视频转录、网页抓取;可使用 Docker 和 Skypilot 轻松部署;Colab 友好;由 Gradio 提供支持的交互式用户界面。处理数据具有挑战性,因为它具有不同的形状和大小。OmniParse 旨在成为一个摄取/解析平台,您可以在其中摄取任何类型的数据,例如文档、图像、音频、视频和 Web 内容,并获得对 GenAI (LLM) 友好的最结构化和可操作的输出。
* [CosmosShadow/gptpdf](https://github.com/CosmosShadow/gptpdf) 使用 VLLM(如 GPT-4o)将 PDF 解析为 markdown。我们的方法非常简单(只有 293 行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。
* [opendatalab/MinerU](https://github.com/opendatalab/MinerU) 一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。包括以下主要功能:Magic-PDF PDF 文档提取、网页和电子书提取。Magic-PDF 是一种旨在将 PDF 文档转换为 Markdown 格式的工具,能够处理存储在本地或支持 S3 协议的对象存储上的文件。
* [getomni-ai/zerox](https://github.com/getomni-ai/zerox) 一种非常简单的方法,可以对文档进行 OCR 处理以进行 AI 摄取。毕竟,文档是一种视觉表示。具有奇怪的布局、表格、图表等。视觉模型很有意义!
# 网络与前后端开发
## JavaScript框架
* [twbs/bootstrap](https://github.com/twbs/bootstrap) 最流行的 HTML、CSS 和 JavaScript 框架,用于在 Web 上开发响应式、移动优先的项目。
* [nodejs/node](https://github.com/nodejs/node) Node.js JavaScript 运行时
* [denoland/deno](https://github.com/denoland/deno) JavaScript 和 TypeScript 的现代运行时。
* [microsoft/TypeScript](https://github.com/microsoft/TypeScript) JavaScript 的一个超集,它编译为干净的 JavaScript 输出。
* [sindresorhus/awesome-nodejs](https://github.com/sindresorhus/awesome-nodejs) 令人愉快的 Node.js 包和资源
* [getify/You-Dont-Know-JS](https://github.com/getify/You-Dont-Know-JS) 一系列深入探讨 JavaScript 语言核心机制的书籍。
* [vercel/next.js](https://github.com/vercel/next.js) Next.js 被一些世界上最大的公司使用,能够通过最新的 React 扩展来创建全栈 Web 应用程序,并集成强大的基于 Rust 的 Js 工具以实现最快的构建。
* [vitejs/awesome-vite](https://github.com/vitejs/awesome-vite) 与 Vite 相关的精彩事物的精选列表
* [vuejs/core](https://github.com/vuejs/core) 一个渐进的、可增量采用的 JavaScript 框架,用于在 Web 上构建 UI。
* [vuejs/vue](https://github.com/vuejs/vue) 这是 Vue 2 的存储库。一个用于构建用户界面的渐进式框架。它从头开始设计为可增量采用,并且可以根据不同的用例在库和框架之间轻松扩展。它由一个仅关注视图层的平易近人的核心库和一个由支持库组成的生态系统组成,可帮助您解决大型单页应用程序中的复杂性。
* [cuixiaorui/mini-vue](https://github.com/cuixiaorui/mini-vue) 实现最简 vue3 模型,帮助你更高效地学习 vue3 源代码
* [axios/axios](https://github.com/axios/axios) 用于浏览器和 node.js 的基于 Promise 的 HTTP 客户端
* [xcatliu/typescript-tutorial](https://github.com/xcatliu/typescript-tutorial) 从 JavaScript 程序员的角度总结思考,循序渐进的理解 TypeScript。TypeScript 虽然有官方手册及其非官方中文版,但是它每一章都希望能详尽的描述一个概念,导致前面的章节就会包含很多后面才会学习到的内容,而有些本该一开始就了解的基础知识却在后面才会涉及。如果是初学者,可能需要阅读多次才能理解。所以它更适合用来查阅,而不是学习。
* [oven-sh/bun](https://github.com/oven-sh/bun) 多合一快速且易于使用的工具。 不需要 1,000 个用于开发的 node_modules,你只需要 bun。令人难以置信的快速 JavaScript 运行时、捆绑器、测试运行器和包管理器 - 合二为一
* [nestjs/nest](https://github.com/nestjs/nest) 用于在 TypeScript 和 JavaScript(ES6、ES7、ES8)之上构建高效、可扩展和企业级服务器端应用程序的渐进式 Node.js 框架
* [chartjs/Chart.js](https://github.com/chartjs/Chart.js) 使用 canvas 标签的简单 HTML5 图表
* [juliangarnier/anime](https://github.com/juliangarnier/anime) 轻量级的JS动画库,具有简单但功能强大的 API。
* [mrdoob/three.js](https://github.com/mrdoob/three.js) 易于使用、轻量级、跨浏览器的通用 3D 库。当前仅包含 WebGL 渲染器,但 WebGPU(实验性)、SVG 和 CSS3D 渲染器也可作为插件使用。
* [slidevjs/slidev](https://github.com/slidevjs/slidev) 面向开发人员的演示幻灯片
* [parallax/jsPDF](https://github.com/parallax/jsPDF) 面向所有人的客户端 JavaScript PDF 生成。
* [cheeriojs/cheerio](https://github.com/cheeriojs/cheerio) 用于解析和操作 HTML 和 XML 的快速、灵活且优雅的库。
* [videojs/video.js](https://github.com/videojs/video.js) 视频.js - 开源HTML5视频播放器
* [showdownjs/showdown](https://github.com/showdownjs/showdown) Js 编写的双向 Markdown 到 HTML 到 Markdown 转换器
* [shadcn/taxonomy](https://github.com/shadcn/taxonomy) 使用新路由器、服务器组件和 Next.js 13 中的所有新功能构建的开源应用程序。
* [jestjs/jest](https://github.com/jestjs/jest) 令人愉快的 JavaScript 测试,全面的 JavaScript 测试解决方案。开箱即用,适用于大多数 JavaScript 项目。快速、交互式的观看模式仅运行与更改文件相关的测试文件。捕获大型对象的快照,以简化测试并分析它们如何随时间变化。
* [xgrommx/awesome-redux](https://github.com/xgrommx/awesome-redux) JS 应用的状态容器,提供可预测的状态管理
* [wasp-lang/wasp](https://github.com/wasp-lang/wasp) 使用 React 和 Node.js 开发全栈 Web 应用程序的最快方法。
* [Asabeneh/30-Days-Of-JavaScript](https://github.com/Asabeneh/30-Days-Of-JavaScript) 30 天的 JavaScript 编程挑战是在 30 天内学习 JavaScript 编程语言的分步指南。
* [purescript/purescript](https://github.com/purescript/purescript) 一种小型的强类型编程语言,具有表达类型,编译为 JavaScript,由 Haskell 编写并受其启发。
* [vercel/pkg](https://github.com/vercel/pkg) 将 Node.js 项目打包到可执行文件中,该可执行文件甚至可以在未安装 Node.js 的设备上运行。
* [v8/v8](https://github.com/v8/v8) V8 是 Google 的开源 JavaScript 引擎。V8 实现了 ECMA-262 中指定的 ECMAScript。V8 实现了 ECMA-262 中指定的 ECMAScript。V8是用C++编写的,用于谷歌的开源浏览器谷歌浏览器。V8 实现了 ECMA-262 中指定的 ECMAScript。
* [AssemblyScript/assemblyscript](https://github.com/AssemblyScript/assemblyscript) 类似 TypeScript 的 WebAssembly 语言。
* [chakra-core/ChakraCore](https://github.com/chakra-core/ChakraCore) 一个带有 C API 的 JavaScript 引擎,您可以使用它向任何 C 或 C 兼容项目添加对 JavaScript 的支持。它可以在Linux macOS和Windows上为x64处理器编译。x86 和 ARM 仅适用于 Win。未来的目标是在Linux上支持x86和ARM处理器,在macOS上支持ARM。
* [jerryscript-project/jerryscript](https://github.com/jerryscript-project/jerryscript) 用于物联网的超轻量级 JS 引擎。适用于资源受限的设备,如微控制器。它可以在 RAM 小于 64 KB 且闪存小于 200 KB 的设备上运行。
* [svaarala/duktape](https://github.com/svaarala/duktape) 可嵌入的Js引擎,专注于可移植性和紧凑的占地面积.Duktape 很容易集成到 C/C++ 项目中:将 duktape.h 和 duk_config.h 添加到 duktape.c 您的构建中,并使用 Duktape API 从 C 代码调用 ECMAScript 函数,反之亦然。
* [boa-dev/boa](https://github.com/boa-dev/boa) 用Rust编写的可嵌入的实验性Js引擎。目前,它支持某些语言。
* [quickjs-zh/QuickJS](https://github.com/quickjs-zh/QuickJS) 小型并且可嵌入的Js引擎,支持ES2020规范,包括模块,异步生成器和代理器。
* [GoogleChromeLabs/jsvu](https://github.com/GoogleChromeLabs/jsvu) jsvu 可以轻松安装各种 JavaScript 引擎的最新版本,而无需从源代码编译它们。
* [cesanta/elk](https://github.com/cesanta/elk) 用于嵌入式系统的低占用空间 JavaScript 引擎。它实现了 ES6 的一个小但可用的子集。它专为微控制器开发而设计。Elk 不是完全用 C/C++ 编写固件代码,而是允许将 JavaScript 自定义添加到用 C 开发的固件中 - 这是让客户扩展/自定义设备功能的好方法。
* [kaluma-project/kaluma](https://github.com/kaluma-project/kaluma) RP2040(Raspberry Pi Pico) 的微型 JavaScript 运行时
* [Taritsyn/JavaScriptEngineSwitcher](https://github.com/Taritsyn/JavaScriptEngineSwitcher) JavaScript 引擎切换器确定了访问流行 JavaScript 引擎基本功能的统一接口。此库允许您快速轻松地切换到使用另一个 JavaScript 引擎。
* [webpack/webpack](https://github.com/webpack/webpack) JavaScript和相关资源的捆绑器。将许多模块打包到几个捆绑资产中。代码拆分允许按需加载应用程序的各个部分。通过“加载器”,模块可以是CommonJs,AMD,ES6模块,CSS,Images,JSON,Coffeescript,LESS,...和你的定制东西。
* [ryanmcdermott/clean-code-javascript](https://github.com/ryanmcdermott/clean-code-javascript) 适用于 JavaScript 的干净代码概念
* [babel/babel](https://github.com/babel/babel) 用于编写下一代 JavaScript 的编译器。一个帮助你用最新版本的 JavaScript 编写代码的工具。当您支持的环境本身不支持某些功能时,Babel 将帮助您将这些功能编译为受支持的版本。
* [goldbergyoni/nodebestpractices](https://github.com/goldbergyoni/nodebestpractices) node.js最佳实践列表
* [sahat/hackathon-starter](https://github.com/sahat/hackathon-starter) node.js Web 应用程序的样板
* [sorrycc/awesome-javascript](https://github.com/sorrycc/awesome-javascript) 很棒的浏览器端 JavaScript 库、资源。
* [leonardomso/33-js-concepts:](https://github.com/leonardomso/33-js-concepts) 每个开发人员都应该知道的 33 个 JavaScript 概念。
* [30-seconds/30-seconds-of-code](https://github.com/30-seconds/30-seconds-of-code) 满足您所有开发需求的简短 JavaScript 代码片段
* [saghul/txiki.js](https://github.com/saghul/txiki.js) 使用 QuickJS、libuv 构建的微型 JavaScript 运行时
* [gpujs/gpu.js](https://github.com/gpujs/gpu.js) GPU 加速的 JavaScript
* [nvm-sh/nvm](https://github.com/nvm-sh/nvm) node版本管理器 - 符合 POSIX 标准的 bash 脚本,用于管理多个活动node.js版本
* [NativeScript/NativeScript](https://github.com/NativeScript/NativeScript) 通过原生平台 API 为 JavaScript 提供支持。世界上最好的(TypeScript,Swift,Objective C,Kotlin,Java)。使用你喜欢的Angular,Capacitor,Ionic,React,Solid,Svelte,Vue:SwiftUI,Jetpack Compose,Flutter,你的名字兼容。
* [MostlyAdequate/mostly-adequate-guide](https://github.com/MostlyAdequate/mostly-adequate-guide) javascript指南
* [reasonml/reason](https://github.com/reasonml/reason) 利用JavaScript和OCaml生态系统的简单,快速和类型的安全代码。OCaml是Caml的继承者,CAML的缩写最初代表Categorical Abstract Machine Language,分类抽象机语言,不过后来,将这个抽象机淘汰掉了。OCaml有一个巨大并强悍的标准库,这使得她可以像Py或者Perl一样可以方便地开发各种应用程序,健壮的模块化与面向对象编程结构又使得她可以胜任大规模软件工程项目。
* [rescript-lang/rescript-compiler](https://github.com/rescript-lang/rescript-compiler) 一种健壮的类型语言,可以编译成高效且人类可读的 JavaScript。它带有一个闪电般的快速编译器工具链,可扩展到任何代码库大小。
* [mbasso/awesome-wasm](https://github.com/mbasso/awesome-wasm) 关于 WebAssembly 生态系统的精彩事物的精选列表。
* [javascript-obfuscator/javascript-obfuscator](https://github.com/javascript-obfuscator/javascript-obfuscator) 一款功能强大的免费 JavaScript 混淆器,包含各种功能,可为您的源代码提供保护。
* [josdejong/mathjs](https://github.com/josdejong/mathjs) JS 和 Node.js 的广泛数学库。具有灵活的表达式解析器,支持符号计算,带有大量内置函数和常量,并提供集成解决方案来处理不同的数据类型,如数字、大数、复数、分数、单位和矩阵。功能强大且易于使用。
* [bytecodealliance/wasmtime](https://github.com/bytecodealliance/wasmtime) 快速安全的 WebAssembly 运行时
* [ds300/patch-package](https://github.com/ds300/patch-package) 立即修复损坏的node模块
* [debug-js/debug](https://github.com/debug-js/debug) 一个以 Node.js 核心的调试技术为模型的小型 JavaScript 调试实用程序。适用于 Node.js 和 Web 浏览器
* [type-challenges/type-challenges](https://github.com/type-challenges/type-challenges) TypeScript 类型挑战集合,高质量的类型可以帮助提高项目的可维护性,同时避免潜在的错误。
* [DefinitelyTyped/DefinitelyTyped](https://github.com/DefinitelyTyped/DefinitelyTyped) 高质量 TypeScript 类型定义的存储库。
* [jquery/jquery](https://github.com/jquery/jquery) jQuery JavaScript 库
* [wangdoc/typescript-tutorial](https://github.com/wangdoc/typescript-tutorial) TypeScript 教程,介绍基本概念和用法,面向初学者。
* [javascript-tutorial/zh.javascript.info](https://github.com/javascript-tutorial/zh.javascript.info) 现代 JavaScript 教程(The Modern JavaScript Tutorial),以最新的 ECMAScript 规范为基准,通过简单但足够详细的内容,为你讲解从基础到高阶的 JavaScript 相关知识。
* [mqyqingfeng/Blog](https://github.com/mqyqingfeng/Blog) 冴羽写博客的地方,预计写四个系列:JavaScript深入系列、JavaScript专题系列、ES6系列、React系列。
* [tj/commander.js](https://github.com/tj/commander.js) node.js命令行界面变得简单
* [prettier/prettier](https://github.com/prettier/prettier) 固执己见的代码格式化程序。它通过解析代码并使用自己的规则重新打印代码来强制执行一致的样式,考虑了最大行长度,并在必要时包装代码。
* [emscripten-core/emscripten](https://github.com/emscripten-core/emscripten) 使用 LLVM 和 Binaryen 将 C 和 C++ 编译为 WebAssembly。Emscripten 输出可以在 Web、Node.js 和 wasm 运行时中运行。
* [colinhacks/zod](https://github.com/colinhacks/zod) 使用静态类型推理进行 TypeScript 优先架构验证
* [vercel/turbo](https://github.com/vercel/turbo) 增量打包器和构建系统针对 JavaScript 和 TypeScript 进行了优化,用 Rust 编写——包括 Turbopack 和 Turborepo。
* [mbeaudru/modern-js-cheatsheet](https://github.com/mbeaudru/modern-js-cheatsheet) 您在现代项目中经常遇到的 JS 知识备忘单。
* [standard/standard](https://github.com/standard/standard) JavaScript 风格指南,带有 linter 和自动代码修复程序
* [pnpm/pnpm](https://github.com/pnpm/pnpm) 快速、节省磁盘空间的包管理器
* [eslint/eslint](https://github.com/eslint/eslint) 查找并修复 JavaScript 代码中的问题。
* [ramda/ramda](https://github.com/ramda/ramda) 实用的函数式 Javascript
* [zloirock/core-js](https://github.com/zloirock/core-js) 用于 JavaScript 的模块化标准库。
* [knex/knex](https://github.com/knex/knex) 适用于 PostgreSQL、MySQL、CockroachDB、SQL Server、SQLite3 和 Oracle 的查询构建器,旨在灵活、可移植且使用起来很有趣。
* [jamiebuilds/babel-handbook](https://github.com/jamiebuilds/babel-handbook) 通用的多用途 JavaScript 编译器。通过 Babel 你可以使用(并创建)下一代的 JavaScript,以及下一代的 JavaScript 工具。
* [nodejs/node-gyp](https://github.com/nodejs/node-gyp) Node.js原生插件构建工具
* [lint-staged/lint-staged](https://github.com/lint-staged/lint-staged) 在 git 暂存文件上运行 linters,在提交代码之前运行 Linting 更有意义。通过这样做,您可以确保没有错误进入存储库并强制执行代码样式。但是,在整个项目上运行 lint 过程很慢,并且 linting 结果可能无关紧要。最终,您只想删除将要提交的文件。
* [gvergnaud/ts-pattern](https://github.com/gvergnaud/ts-pattern) 用于 TypeScript 的详尽模式匹配库,具有智能类型推理功能。
* [Schniz/fnm](https://github.com/Schniz/fnm) 快速简单的Node.js版本管理器,内置于 Rust 中
* [glideapps/quicktype](https://github.com/glideapps/quicktype) 从 JSON、Schema 和 GraphQL 生成类型和转换器
* [verdaccio/verdaccio](https://github.com/verdaccio/verdaccio) 简单的、无需配置的本地私有 npm 注册表。无需整个数据库即可开始!Verdaccio 开箱即用,拥有自己的微型数据库,并且能够代理其他注册表(例如 npmjs.org),并在此过程中缓存下载的模块。对于那些希望扩展其存储功能的人来说,Verdaccio 支持各种社区制作的插件,以挂接到 Amazon 的 s3、Google Cloud Storage 等服务或创建自己的插件。
* [fibjs/fibjs](https://github.com/fibjs/fibjs) 基于 Chrome 的 V8 JavaScript 引擎构建的 JavaScript 运行时。fibjs使用 fibers(纤程)-switch、同步式和非阻塞IO模型来构建可扩展的系统。
* [krausest/js-framework-benchmark](https://github.com/krausest/js-framework-benchmark) 一些流行的 javascript 框架的性能比较,基准测试创建一个包含随机条目的大表,并测量各种操作的时间,包括渲染持续时间。
* [rwaldron/idiomatic.js](https://github.com/rwaldron/idiomatic.js) 编写一致、惯用的 JavaScript 的原则
* [TypeStrong/ts-node](https://github.com/TypeStrong/ts-node) 用 node.js 来执行 TypeScript,具有源映射和本机 ESM 支持。它JIT将TypeScript转换为JavaScript,使您能够直接在Node.js上执行TypeScript,而无需预编译。这是通过挂接节点的模块加载 API 来实现的,使其能够与其他Node.js工具和库无缝使用。
* [gruntjs/grunt](https://github.com/gruntjs/grunt) JavaScript 任务运行程序。在执行重复性任务(如缩小、编译、单元测试、linting)时,您需要做的工作越少,您的工作就越容易。通过 Gruntfile 配置它后,任务运行器可以为您和您的团队完成大部分日常工作,而工作量基本上为零。Grunt 生态系统非常庞大,而且每天都在增长。有数百个插件可供选择,您可以使用 Grunt 以最少的努力自动执行几乎任何事情。如果有人还没有构建您需要的东西,那么创作自己的 Grunt 插件并将其发布到 npm 是一件轻而易举的事。了解如何开始。
* [Unleash/unleash](https://github.com/Unleash/unleash) 专为开发人员打造的开源功能管理解决方案。Unleash 是一个强大的功能管理开源解决方案。它简化了您的开发工作流程,加快了软件交付速度,并使团队能够控制向最终用户推出新功能的方式和时间。借助 Unleash,您可以按照自己的节奏在更小、更易于管理的版本中将代码部署到生产环境。Unleash 中的功能标志允许您使用真实的生产数据测试代码,从而降低对用户体验产生负面影响的风险。它还使您的团队能够同时处理多个功能,而无需单独的功能分支。Unleash 是 GitHub 上最流行的功能标记开源解决方案。它支持 15 个官方客户端和服务器 SDK 以及超过 15 个社区 SDK。如果您愿意,您甚至可以创建自己的 SDK。Unleash 与任何语言和框架兼容。
* [gibbok/typescript-book](https://github.com/gibbok/typescript-book) 简明 TypeScript 书:TypeScript 有效开发的简明指南。免费和开源。《简明 TypeScript 手册》全面而简洁地概述了 TypeScript 的功能。它提供了清晰的解释,涵盖了该语言最新版本的所有方面,从其强大的类型系统到高级功能。无论您是初学者还是经验丰富的开发人员,本书都是增强您对 TypeScript 的理解和熟练程度的宝贵资源。
* [typescript-eslint/typescript-eslint](https://github.com/typescript-eslint/typescript-eslint) 用于使 ESLint 和 Prettier 能够支持 TypeScript 的工具。ESLint 静态分析您的代码以快速发现问题。它允许围绕代码的外观或行为创建一系列称为 lint 规则的断言,以及自动修复程序建议以为您改进代码,并从共享插件加载 lint 规则。TypeScript 为 JavaScript 添加了额外的语法,允许您在代码中声明对象和函数的形状。它提供了一组语言服务,允许使用该类型信息运行强大的推理和自动化。typescript-eslint 使 ESLint 能够在 TypeScript 代码上运行。它引入了这两种工具的优点,以帮助您编写最好的 JavaScript 或 TypeScript 代码。ESLint 和 TypeScript 在内部以不同的方式表示代码。ESLint 的默认 JavaScript 解析器无法以特定于 TypeScript 的语法进行本机读取,并且其规则本身无法访问 TypeScript 的类型信息。允许 ESLint 解析 TypeScript 语法。为 ESLint 规则创建一组工具,以便能够使用 TypeScript 的类型信息。提供了特定于 TypeScript 和/或使用该类型信息的大量 lint 规则列表。
* [JacksonTian/fks](https://github.com/JacksonTian/fks) 前端知识结构。整理和维护前端开发领域知识体系。它起源于对一张前端知识结构图的回忆,该图详细展示了前端开发的相关知识和技术点。随着时间的发展,这些技术点可能会发生变化,因此需要一个协作的平台来更新和维护这些信息。项目包含的内容非常广泛,可以分为以下几个主要部分:浏览器和引擎:列举了不同浏览器及其渲染引擎,如IE、Firefox、Chrome、Safari和Opera。编程语言:包括JavaScript、TypeScript、CoffeeScript等,以及Node.js作为服务器端编程语言。涵盖了HTML5、CSS/CSS3、Sass、LESS等样式预处理器。介绍了各种文本编辑器、IDE和调试工具,如Visual Studio Code、VIM、Sublime Text等。包括Git、SVN等版本控制工具,以及GitHub、GitLab等代码托管平台。提到了ESLint、JSLint等代码质量工具,以及编码风格和代码组织。介绍了单元测试、自动化测试和性能测试的工具和概念。列举了多个前端框架和库,如Vue、React、jQuery等。涉及HTTP、ECMAScript、W3C标准等。包括性能优化工具和概念,如YSlow、PageSpeed等。搜索引擎优化相关的知识。涵盖了数据结构、OOP/AOP、设计模式、编程范型等。压缩合并、文档输出、构建工具等。HTML5/CSS3、响应式设计、移动应用开发等。HTML、CSS、JavaScript等标准。CSRF、XSS、CSP等安全概念。为前端开发者推荐了一系列书籍,分为入门和进阶两个层次。提供了前端工作面试的问题和资源。
* [web-infra-dev/rspack](https://github.com/web-infra-dev/rspack) 基于 Rust 的快速 Web 捆绑器,具有与 webpack 兼容的 API。Rspack 是一个用 Rust 编写的高性能 JavaScript 打包器。它提供了与 webpack 生态系统的强大兼容性,允许无缝替换 webpack,并提供闪电般的构建速度。特征:快速启动,基于 Rust,构建速度极快,为您带来极致的开发体验。闪电 HMR,HMR 内置增量编译机制,速度极快,完全有能力开发大型项目。Webpack 兼容,兼容 webpack 生态中的插件和加载器,无缝集成社区构建的优秀库。对 TypeScript、JSX、CSS、CSS 模块、Sass 等的开箱即用支持。生产优化,默认内置各种优化策略,如摇树、缩小等。与框架无关,不受任何前端框架的约束,确保足够的灵活性。
* [rustwasm/wasm-bindgen](https://github.com/rustwasm/wasm-bindgen) 促进 Wasm 模块和 JavaScript 之间的高级交互。轻。只需按实际使用量付费。 wasm-bindgen 仅为您实际使用的 JavaScript 导入和导出的 Rust 功能生成绑定和粘合。例如,导入和使用该 document.querySelector 方法不会导致 Node.prototype.appendChild 或 window.alert 包含在绑定中。ECMAScript 模块。只需导入 WebAssembly 模块,就像导入 JavaScript 模块一样。未来兼容 WebAssembly 模块和 ECMAScript 模块集成。在设计时考虑了“Web IDL 绑定”建议。最终,Rust 生成的 wasm 函数和原生 DOM 方法之间不会有任何 JavaScript 填充码。因为 wasm 函数是静态类型检查的,所以其中一些原生方法的动态类型检查应该变得没有必要了,这有望解锁比 JavaScript DOM 访问更快的速度。
* [rustwasm/wasm-pack](https://github.com/rustwasm/wasm-pack) 该工具旨在成为构建和使用 rust 生成的 WebAssembly 的一站式商店,您希望在浏览器或Node.js中与 JavaScript 进行互操作。 wasm-pack 帮助您构建 rust 生成的 WebAssembly 包,您可以将其发布到 npm 注册表,或者以其他方式与您已使用的工作流(例如 webpack)中的任何 javascript 包一起使用。
* [napi-rs/napi-rs](https://github.com/napi-rs/napi-rs) 通过 Node-API 在 Rust 中构建编译Node.js附加组件的框架
## 前端开发框架及项目
* [facebook/react](https://github.com/facebook/react) Web 和本机用户界面的库。用于构建用户界面的 JavaScript 库。`声明式`:React 使创建交互式 UI 变得轻松。为应用程序中的每个状态设计简单的视图,React 将在数据更改时有效地更新和渲染正确的组件。声明性视图使代码更可预测、更易于理解且更易于调试。`基于组件`:构建管理其自身状态的封装组件,然后组合它们以创建复杂的 UI。由于组件逻辑是用 JavaScript 而不是模板编写的,因此您可以轻松地通过应用传递丰富的数据,并将状态排除在 DOM 之外。`一次学习,随处编写`:我们不会对您的技术堆栈的其余部分做出假设,因此您可以在 React 中开发新功能,而无需重写现有代码。React 还可以使用 Node 在服务器上渲染,并使用 React Native 为移动应用程序提供支持。
* [facebook/create-react-app](https://github.com/facebook/create-react-app) 通过运行一个命令来设置新式react Web 应用。
* [facebook/react-native](https://github.com/facebook/react-native) 使用 React 构建本机应用程序的框架
* [enaqx/awesome-react](https://github.com/enaqx/awesome-react) 关于 React 生态系统的精彩内容的集合
* [mantinedev/mantine](https://github.com/mantinedev/mantine) 功能齐全的 React 组件库
* [mui/material-ui](https://github.com/mui/material-ui) 即用型基础 React 组件,永久免费。它包括 Material UI,它实现了 Google 的 Material Design。
* [airbnb/javascript](https://github.com/airbnb/javascript) JavaScript 风格指南。
* [bolshchikov/js-must-watch](https://github.com/bolshchikov/js-must-watch) 关于javascript的必看视频
* [thedaviddias/Front-End-Checklist](https://github.com/thedaviddias/Front-End-Checklist) 现代网站和一丝不苟的开发人员的完美前端清单
* [rails/rails](https://github.com/rails/rails) Web 应用程序框架,它包含了根据模型-视图-控制器 (MVC) 模式创建数据库支持的 Web 应用程序所需的一切。理解 MVC 模式是理解 Rails 的关键。MVC 将应用程序分为三层:模型层、视图层和控制器层,每层都有特定的职责。
* [google/material-design-icons](https://github.com/google/material-design-icons) 来自谷歌两个不同的官方图标集,使用相同的底层设计。材质图标是经典套装,材质符号于 2022 年 4 月推出,基于可变字体技术构建。
* [google/material-design-lite](https://github.com/google/material-design-lite) Material Design Lite 允许您为静态内容网站添加 Material Design 外观。它不依赖于任何JavaScript框架或库。针对跨设备使用进行了优化,在较旧的浏览器中优雅地降级,并提供从一开始就可以访问的体验。
* [ant-design/ant-design](https://github.com/ant-design/ant-design) 企业级 UI 设计语言和 React UI 库
* [youzan/vant](https://github.com/youzan/vant) 一个轻量级的、可定制的 Vue UI 库,用于移动 Web 应用程序。特性:
性能极佳,组件平均体积小于 1KB(min+gzip)、80+ 个高质量组件,覆盖移动端主流场景、零外部依赖,不依赖三方 npm 包、使用 TypeScript 编写,提供完整的类型定义、单元测试覆盖率超过 90%,提供稳定性保障、提供丰富的中英文文档和组件示例、提供 Sketch 和 Axure 设计资源、支持 Vue 2-Vue 3 和微信小程序、支持 Nuxt 2-Nuxt 3,提供 Nuxt 的 Vant Module、支持主题定制,内置 700+ 个主题变量、支持按需引入和 Tree Shaking、支持无障碍访问(持续改进中)、支持深色模式、支持服务器端渲染、支持国际化,内置 30+ 种语言包* [nuxt/nuxt](https://github.com/nuxt/nuxt) 免费的开源框架,具有直观且可扩展的方式,可以使用 Vue.js 创建类型安全、高性能和生产级的全栈 Web 应用程序和网站。它提供了许多功能,可以轻松构建快速、SEO 友好且可扩展的 Web 应用程序,包括:服务器端渲染、静态站点生成或混合渲染;具有代码拆分功能的自动路由;状态管理;SEO优化;自动导入;可扩展 180+ 模块;部署到各种托管平台
* [vuejs/pinia](https://github.com/vuejs/pinia) Vue 的官方状态管理库,直观、类型安全、轻量级和灵活的 Vue 应用状态管理,使用具有 DevTools 支持的组合 API
* [vuejs/vuex](https://github.com/vuejs/vuex) Vue.js 的集中式状态管理。Vue 的官方状态管理库已更改为 Pinia。Pinia 具有与 Vuex 5 几乎完全相同或增强的 API,如 Vuex 5 RFC 中所述。你可以简单地将 Pinia 视为具有不同名称的 Vuex 5。Pinia 也适用于 Vue 2.x。
* [electron/electron](https://github.com/electron/electron)使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用程序
* [angular/angular](https://github.com/angular/angular) 用于构建移动和桌面 Web 应用程序的开发平台,使用 TypeScript/ JavaScript 和其他语言。
* [ElemeFE/element](https://github.com/ElemeFE/element) 用于 Web 的 Vue.js 2.0 UI 工具包。
* [necolas/react-native-web](https://github.com/necolas/react-native-web) 跨平台的 React UI 包。可访问的 HTML,支持不同的设备和输入模式,渲染语义标签。高质量的互动,支持手势和多种输入模式(触摸、鼠标、键盘)。可靠的款式,依赖作用域样式和自动供应商前缀,支持 RTL 布局。响应式容器,响应元素调整大小事件。增量采用,与现有的 React DOM 组件互操作。仅捆绑您使用的内容。
* [gatsbyjs/gatsby](https://github.com/gatsbyjs/gatsby) 无头网络的最快前端。用 React 构建现代网站。Gatsby 是基于 React,可帮助开发人员构建速度极快的网站和应用程序。它将动态渲染网站的控制和可扩展性与静态网站生成的速度相结合,创造了一个全新的可能性网络。
* [vuejs/awesome-vue](https://github.com/vuejs/awesome-vue) 与 Vue 相关的精彩事物的精选列表
* [vitejs/vite](https://github.com/vitejs/vite) Vite(法语中“快速”的意思,发音 `/vit/` 为“veet”)是一种新型的前端构建工具,可显著改善前端开发体验。主要组成:通过本机 ES 模块提供源文件的开发服务器,具有丰富的内置功能和惊人的快速热模块替换 (HMR)。将代码与 Rollup 捆绑在一起的生成命令,经过预配置,可输出高度优化的静态资产以用于生产环境。
* [vuetifyjs/awesome-vuetify](https://github.com/vuetifyjs/awesome-vuetify) Vuetify 是一个不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。您将在下面找到一系列应用程序和工具,这些应用程序和工具有助于展示 Vuetify 所提供的最佳功能
* [nestjs/awesome-nestjs](https://github.com/nestjs/awesome-nestjs) 与NestJS 相关的精彩事物的精选列表
* [layui/layui](https://github.com/layui/layui) 一套遵循原生态开发模式的 Web UI 组件库,采用自身轻量级模块化规范,易上手,可以更简单快速地构建网页界面。
* [dcloudio/uni-app](https://github.com/dcloudio/uni-app) 使用 Vue.js开发小程序、H5、App的统一前端框架。使用 Vue 语法编写代码,uni-app 框架将其编译到 小程序(微信/支付宝/百度/字节跳动/QQ/快手/钉钉/小红书)、App(iOS/Android)、H5等平台,保证正确并达到优秀体验。
* [MrXujiang/h5-Dooring](https://github.com/MrXujiang/h5-Dooring) 让H5制作像搭积木一样简单, 轻松搭建H5页面, H5网站, PC端网站,LowCode平台.
* [h5bp/html5-boilerplate](https://github.com/h5bp/html5-boilerplate) 一个专业的前端模板,用于构建快速、强大且适应性强的 Web 应用程序或网站。帮助您构建快速、可靠且适应性强的 Web 应用或网站。利用 100 多名开发人员的综合知识和努力启动您的项目,所有这些都在一个小包中。
* [haizlin/fe-interview](https://github.com/haizlin/fe-interview) 前端面试每日 3+1,以面试题来驱动学习,提倡每日学习与思考,每天进步一点!每天早上5点纯手工发布面试题(死磕自己,愉悦大家),6000+道前端面试题全面覆盖,HTML / CSS/ JavaScript/ Vue/ React/ Nodejs/ TypeScript/ ECMAScritpt/Webpack/Jquery/小程序/软技能
* [qianguyihao/Web](https://github.com/qianguyihao/Web) 千古前端图文教程,超详细的前端入门到进阶知识库。从零开始学前端,做一名精致优雅的前端工程师。
* [h5bp/Front-end-Developer-Interview-Questions](https://github.com/h5bp/Front-end-Developer-Interview-Questions) 有用的前端相关问题列表,你可以用它来面试潜在的候选人,测试自己或完全忽略。
* [PatrickJS/awesome-angular](https://github.com/PatrickJS/awesome-angular) 令人敬畏的 Angular 资源的精选列表
* [hexojs/hexo](https://github.com/hexojs/hexo) 一个快速,简单和强大的博客框架,由Node.js提供支持。
* [statelyai/xstate](https://github.com/statelyai/xstate) 现代 Web 的状态机和状态图。状态图是用于对有状态、反应性系统进行建模的形式。这对于以声明方式描述应用程序的行为(从各个组件到整个应用程序逻辑)非常有用。
* [TanStack/query](https://github.com/TanStack/query) 强大的异步状态管理、服务器状态实用程序和 Web 数据获取。TS/JS、React 查询、Solid 查询、Svelte 查询和 Vue 查询。
* [preactjs/preact](https://github.com/preactjs/preact) 具有相同现代 API 的快速 3kB React 替代品。组件和虚拟 DOM。虚拟 DOM 组件的所有功能,无开销;熟悉的 React API 和模式:ES6 类、钩子和功能组件;通过简单的 preact/compat 别名实现广泛的 React 兼容性;您需要的一切:JSX、VDOM、DevTools、HMR、SSR;高度优化的差异算法和来自服务器端渲染的无缝水化;支持所有现代浏览器和 IE11;使用可插拔调度程序进行透明异步渲染。
* [jondot/awesome-react-native](https://github.com/jondot/awesome-react-native) 很棒的 React Native 组件、新闻、工具和学习材料!
* [react-boilerplate/react-boilerplate](https://github.com/react-boilerplate/react-boilerplate) 在几秒钟内开始你的下一个 react 项目,高度可扩展、离线优先的基础,具有最佳的开发人员体验,并专注于性能和最佳实践。
* [cypress-io/cypress](https://github.com/cypress-io/cypress) 快速、简单、可靠地在浏览器中运行的任何测试内容。轻松地为现代 Web 应用程序创建测试,直观地调试,并在持续集成构建中自动运行它们。
* [puppeteer/puppeteer](https://github.com/puppeteer/puppeteer) Node.js 库,提供了一个高级 API 来控制 DevTools 协议上的 Chrome/Chromium。Puppeteer默认以无头模式运行,但可以配置为在完整(“有头”)Chrome / Chromium中运行。示例:生成页面的屏幕截图和 PDF。对 SPA(单页应用程序)进行爬虫并生成预呈现的内容(即“SSR”(服务器端呈现))。自动化表单提交、UI 测试、键盘输入等。使用最新的 JavaScript 和浏览器功能创建自动化测试环境。捕获站点的时间线跟踪,以帮助诊断性能问题。测试Chrome扩展程序。
* [ant-design/ant-design-pro](https://github.com/ant-design/ant-design-pro) React企业应用程序的全新 UI 解决方案。
* [alibaba/ice](https://github.com/alibaba/ice) 基于 React 的渐进式应用框架,零配置:开箱即用,支持 ES6+、TypeScript、Less、Sass、CSS 模块等,实践:文件系统路由、状态管理、请求等实践,混合:默认在构建时 (SSG) 或请求时 (SSR) 预渲染页面,插件系统:插件系统提供了丰富的功能,多端:同时支持 web、小程序和 Weex
* [reduxjs/redux](https://github.com/reduxjs/redux) JavaScript 应用的可预测状态容器,可以帮助您编写行为一致、在不同环境(客户端、服务器和本机)中运行且易于测试的应用程序。最重要的是,它提供了出色的开发人员体验,例如实时代码编辑与时间旅行调试器相结合。您可以将 Redux 与 React 或任何其他视图库一起使用。Redux 核心很小(2kB,包括依赖项),并且具有丰富的插件生态系统。
* [infinitered/reactotron](https://github.com/infinitered/reactotron) React 和 React Native 应用程序的强大调试器。它为开发人员提供了一个易于使用的界面,用于监控其应用程序的状态、网络请求和性能指标,可用于任何规模的项目,从小型个人应用程序到大型企业应用程序。
* [vasanthk/react-bits](https://github.com/vasanthk/react-bits) react模式、技术、技巧和窍门
* [adam-golab/react-developer-roadmap](https://github.com/adam-golab/react-developer-roadmap) 成为 React 开发人员的路线图
* [mrousavy/react-native-vision-camera](https://github.com/mrousavy/react-native-vision-camera) 强大、高性能的 React Native Camera 库
* [jaredpalmer/tsdx](https://github.com/jaredpalmer/tsdx) 用于 TypeScript 包开发的零配置 CLI,可帮助您轻松开发、测试和发布现代 TypeScript 包
* [basarat/typescript-book](https://github.com/basarat/typescript-book) TypeScript 的权威指南,也可能是最好的 TypeScript 书籍
* [DataV-Team/DataV](https://github.com/DataV-Team/DataV) Vue数据可视化组件库(类似阿里DataV,大屏数据展示),提供SVG边框及装饰、图表、水位图、飞线图等组件,React版已发布
* [youzan/vant-weapp](https://github.com/youzan/vant-weapp) 轻量、可靠的小程序 UI 组件库
* [lsqy/taro-music](https://github.com/lsqy/taro-music) 基于taro + taro-ui + redux + react-hooks + typescript 开发的网易云音乐小程序
* [element-plus/element-plus](https://github.com/element-plus/element-plus) Element 团队制作的 Vue.js 3 UI 库
* [newbee-ltd/newbee-mall-vue3-app](https://github.com/newbee-ltd/newbee-mall-vue3-app) Vue3 + Vant 搭建大型单页面商城项目。
* [woniudiancang/bee](https://github.com/woniudiancang/bee) 微信小程序-餐饮点餐外卖-开箱即用
* [iamxjb/winxin-app-watch-life.net](https://github.com/iamxjb/winxin-app-watch-life.net) 微慕小程序开源版-WordPress版微信小程序
* [nslogx/Gitter](https://github.com/nslogx/Gitter) 可能是目前颜值最高的GitHub微信小程序客户端
* [mark420524/question](https://github.com/mark420524/question) 小程序,微信答题小程序,可以进行答题,模拟考试。增加了词典查询,汉字成语查询等功能
* [ecomfe/echarts-for-weixin](https://github.com/ecomfe/echarts-for-weixin) Apache ECharts 的微信小程序版本
* [TalkingData/iview-weapp](https://github.com/TalkingData/iview-weapp) 一套高质量的微信小程序 UI 组件库
* [mageslr/weapp-library](https://github.com/imageslr/weapp-library) “在线借书平台”微信小程序
* [kesixin/QuestionWechatApp](https://github.com/kesixin/QuestionWechatApp) 微信小程序,考试小程序,答题小程序,刷题小程序。毕业设计小程序,有前后端完整源码和数据库,易于二次开发。还可用于考试活动,企业内部考核,内部培训等职业考试刷题。
* [Tencent/wepy](https://github.com/Tencent/wepy) 小程序组件化开发框架
* [iv-org/invidious](https://github.com/iv-org/invidious) YouTube 的前端替代
* [pipipi-pikachu/PPTist](https://github.com/pipipi-pikachu/PPTist) 基于 Vue3.x + TypeScript 的在线演示文稿(幻灯片)应用,还原了大部分 Office PowerPoint 常用功能,支持 文字、图片、形状、线条、图表、表格、视频、音频、公式 几种最常用的元素类型,每一种元素都拥有高度可编辑能力,同时支持丰富的快捷键和右键菜单,支持导出本地 PPTX 文件,支持移动端基础编辑和预览,支持 PWA。您可以在此基础上搭建自己的在线幻灯片应用。
* [vercel/swr](https://github.com/vercel/swr) 用于数据获取的 React Hooks 库。“SWR”来源于 stale-while-revalidate ,由HTTP RFC 5861推广的缓存失效策略。SWR先从缓存中返回数据(过时),然后发送请求(重新验证),最后再次附带最新数据。
* [animate-css/animate.css](https://github.com/animate-css/animate.css) 跨浏览器的 CSS 动画库。就像容易的事一样容易使用。
* [vercel/vercel](https://github.com/vercel/vercel) Vercel的前端云为开发人员提供了框架、工作流程和基础设施,以构建更快、更个性化的网络。面向前端开发人员的平台,提供创新者在灵感瞬间创建所需的速度和可靠性。
* [Templarian/MaterialDesign](https://github.com/Templarian/MaterialDesign) 来自社区的 7000+ 个 Material Design 图标
* [Cveinnt/LiveTerm](https://github.com/Cveinnt/LiveTerm) 在几分钟内构建终端风格的网站!
* [woocommerce/woocommerce](https://github.com/woocommerce/woocommerce) 基于WordPress构建的可定制的开源电子商务平台。构建您能想象到的任何商务解决方案。
* [wpscanteam/wpscan](https://github.com/wpscanteam/wpscan) WPScan WordPress安全扫描程序。为安全专业人员和博客维护人员编写,以测试其WordPress网站的安全性。
* [roots/bedrock](https://github.com/roots/bedrock) WordPress样板,更轻松的配置和改进的文件夹结构
* [timber/timber](https://github.com/timber/timber) 使用漂亮的OOP代码和Twig模板引擎创建WordPress主题
* [wp-cli/wp-cli](https://github.com/wp-cli/wp-cli) WordPress的命令行界面。您可以更新插件,配置多站点安装等等,而无需使用Web浏览器。
* [postlight/headless-wp-starter](https://github.com/postlight/headless-wp-starter) WordPress + React 入门套件:一步启动 WordPress 驱动的 React 应用程序
* [WordPress/gutenberg](https://github.com/WordPress/gutenberg) WordPress及其他版本的块编辑器项目。插件可从官方存储库获得。
* [Automattic/wp-calypso](https://github.com/Automattic/wp-calypso) 新的 WordPress.com 前端 - 使用单页 Web 应用程序对 WordPress 仪表板进行了漂亮的重新设计,由 WordPress.com REST API 提供支持。Calypso 是为在一个地方阅读、写作和管理所有 WordPress 网站而构建的。
* [roots/sage](https://github.com/roots/sage) WordPress入门主题,带有Laravel Blade组件和模板,Tailwind CSS和现代开发工作流程
* [aniftyco/awesome-tailwindcss](https://github.com/aniftyco/awesome-tailwindcss) 实用工具优先的 CSS 框架,用于快速构建自定义用户界面。
* [SmallRuralDog/vue3-music](https://github.com/SmallRuralDog/vue3-music) VUE3+TS开发的音乐播放器,模仿mac QQ音乐。
* [tw93/Pake](https://github.com/tw93/Pake/) 很简单的用 Rust 打包网页生成很小的桌面 App
* [tauri-apps/tauri](https://github.com/tauri-apps/tauri) 使用 Web 前端构建更小、更快和更安全的桌面应用程序。
* [Tencent/weui](https://github.com/Tencent/weui) 微信官方设计团队的UI库,收录了移动Web应用中最实用的widgets modules。
* [bvaughn/react-virtualized](https://github.com/bvaughn/react-virtualized) 用于高效呈现大型列表和表格数据的 React 组件
* [fyne-io/fyne](https://github.com/fyne-io/fyne) 受材质设计启发的 Go 中的跨平台 GUI 工具包。它旨在使用单个代码库构建在桌面和移动设备上运行的应用程序。
* [parcel-bundler/parcel](https://github.com/parcel-bundler/parcel) 用于 Web 的零配置构建工具。它将出色的开箱即用开发体验与可扩展的体系结构相结合,可以将您的项目从刚开始转变为大规模生产应用程序。
* [zhaoolee/ChromeAppHeroes](https://github.com/zhaoolee/ChromeAppHeroes) 谷粒-Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类
* [daybrush/moveable](https://github.com/daybrush/moveable) 可拖动、可调整大小、可缩放、可旋转、可扭曲、可捏、可分组、可捕捉
* [Blazity/next-enterprise](https://github.com/Blazity/next-enterprise) 企业级 Next.js 样板,适用于高性能、可维护的应用。包含 Tailwind CSS、TypeScript、ESLint、Prettier、测试工具等功能,可加速您的开发。
* [jgraph/drawio](https://github.com/jgraph/drawio) JavaScript的绘图和白板编辑器
* [ToolJet/ToolJet](https://github.com/ToolJet/ToolJet) 用于构建业务应用程序的可扩展低代码框架。连接到数据库、云存储、GraphQL、API 端点、Airtable 等,并使用拖放式应用程序构建器构建应用程序。使用 JavaScript/TypeScript 构建。
* [givanz/VvvebJs](https://github.com/givanz/VvvebJs) 拖放构建网站的javascript 库 。
* [strapi/strapi](https://github.com/strapi/strapi) 领先的开源无头 CMS。100% JScript,完全可定制且开发人员优先。
* [payloadcms/payload](https://github.com/payloadcms/payload) 使用 React + TypeScript 构建一个免费开源 Headless CMS。
* [getgrav/grav](https://github.com/getgrav/grav) 由 PHP、Markdown、Twig 和 Symfony 提供支持的现代、极快、极其简单且功能强大的平面文件 CMS
* [octobercms/october](https://github.com/octobercms/october) 基于 Laravel PHP 框架的自托管 CMS (Content Management System) 平台。
* [tinacms/tinacms](https://github.com/tinacms/tinacms) 一个完全开源的无头CMS,支持Markdown和可视化编辑
* [decaporg/decap-cms](https://github.com/decaporg/decap-cms) 用于静态站点生成器的 CMS。为用户提供一种简单的方法来编辑内容并将其添加到使用静态网站生成器构建的任何网站。
* [keystonejs/keystone-classic](https://github.com/keystonejs/keystone-classic) Node.js CMS 和 Web 应用程序框架
* [django-cms/django-cms](https://github.com/django-cms/django-cms) 由 Django 支持的易于使用且对开发人员友好的企业 CMS
* [keystonejs/keystone](https://github.com/keystonejs/keystone) 最强大的无头 CMS Node.js — 使用 GraphQL 和 React 构建
* [midoks/mdserver-web](https://github.com/midoks/mdserver-web) 一款简单Linux面板服务
* [janishar/nodejs-backend-architecture-typescript](https://github.com/janishar/nodejs-backend-architecture-typescript) Node.js的学习为生产就绪的博客平台(如Medium和FreeCodeCamp)构建后端服务器。主要功能:基于角色,Express.js,Mongoose,Redis,Mongodb,Joi,Docker,JWT,单元集成测试。
* [iview/iview](https://github.com/iview/iview) 基于 Vue.js 2.0 构建的高质量 UI 工具包
* [sveltejs/svelte](https://github.com/sveltejs/svelte) 一种构建Web应用程序的新方法。它是一个编译器,它采用声明性组件并将它们转换为高效的JavaScript,通过外科手术更新DOM。
* [kriasoft/react-starter-kit](https://github.com/kriasoft/react-starter-kit) Web 上最受欢迎的 Jamstack 前端模板(样板),用于使用 React 构建 Web 应用程序
* [cobiwave/simplefolio](https://github.com/cobiwave/simplefolio) 面向开发人员的最小的个人介绍模板
* [storybookjs/storybook](https://github.com/storybookjs/storybook) 前端用于单独构建UI组件和页面。专为 UI 开发、测试和文档编制而设计。组件驱动开发环境。它通过隔离组件使开发更快更容易,它可以一次只处理一个组件。在 web 应用程序中构建小的原子组件和复杂的页面,使用 Storybook 可以让你专注于组件开发,无需去关注 API 文档的编写。
* [Semantic-Org/Semantic-UI](https://github.com/Semantic-Org/Semantic-UI) 基于自然语言有用原则的 UI 组件框架。允许开发人员通过简洁的 HTML、直观的 JavaScript 和简化的调试快速构建漂亮的网站,帮助使前端开发成为一种愉快的体验。语义采用响应式设计,允许您的网站在多个设备上扩展。
* [markedjs/marked](https://github.com/markedjs/marked) markdown解析器和编译器。为速度而生。
* [recharts/recharts](https://github.com/recharts/recharts) 使用 React 和 D3 重新定义的图表库
* [palantir/blueprint](https://github.com/palantir/blueprint) 基于 React 的 Web UI 工具包
* [kusti8/proton-native](https://github.com/kusti8/proton-native) 跨平台桌面应用的 React 环境,特征:与 React Native 相同的语法和组件;与现有的 React 库(如 Redux)一起使用;跨平台;不再有Electron;兼容所有普通Node.js包;热重载
* [revery-ui/revery](https://github.com/revery-ui/revery) 原生、高性能、跨平台桌面应用程序 - 使用 Reason,Revery 有点像超快的原生代码 Electron - 捆绑了类似 React/Redux 的库和快速构建系统,Revery 是用 reasonml 构建的,reasonml 是 OCaml 之上的类似 javascript 的语法,这意味着 JS 开发人员可以使用该语言。您的应用程序使用 Reason/OCaml 工具链编译为原生代码 - 具有与原生 C 代码相当的即时启动和性能。Revery 具有平台加速、GPU 加速的渲染功能。编译器本身也很快!
* [react-native-elements/react-native-elements](https://github.com/react-native-elements/react-native-elements) 跨平台 React Native UI 工具包
* [nodegui/nodegui](https://github.com/nodegui/nodegui) 用于使用 Node.js 和 CSS 构建跨平台原生桌面应用程序的库。NodeGUI 由 Qt6 提供支持,与其他基于铬的解决方案(如 Electron)相比,它具有 CPU 和内存效率。特征:跨平台;CPU 和内存占用量低、对于 Hello World 程序,当前 CPU 在空闲时保持在 0%,内存使用率低于 20MB;使用 CSS 进行样式设置(包括实际的级联)。还完全支持 Flexbox 布局;完整的 Nodejs API 支持(目前在 Node v16.x 上运行 - 并且易于升级)。因此可以访问所有与 Nodejs 兼容的 NPM 模块。;本机小部件事件侦听器支持。支持Qt / NodeJs提供的所有事件。;可用于商业应用;良好的 Devtools 支持;良好的文档和网站;为贡献者提供良好的文档;对暗模式的良好支持(感谢Qt)。;一流的 Typescript 支持。
* [unoplatform/uno](https://github.com/unoplatform/uno) 使用 C# 和 XAML 构建移动、桌面和 WebAssembly 应用。开源和专业支持。它允许 C# 和 WinUI XAML 和/或 C# 代码在所有目标平台上运行,同时允许你控制每个像素。它开箱即用地支持 Fluent、Material 和 Cupertino 设计系统。Uno 平台实现了越来越多的 WinRT 和 WinUI API,例如 Microsoft.UI.Xaml,以使 WinUI 应用程序能够在具有本机性能的所有平台上运行。
* [gui-cs/Terminal.Gui](https://github.com/gui-cs/Terminal.Gui) 适用于 .NET 的跨平台终端 UI 工具包,用于构建适用于 Windows、Mac 和 Linux/Unix 的 .NET、.NET Core 和 Mono 的丰富控制台应用的工具包。特征:跨平台 - Windows、Mac 和 Linux。Curses、Windows 控制台和 .NET 控制台的终端驱动程序意味着应用在彩色和单色终端上都能正常工作。键盘和鼠标输入 - 支持键盘和鼠标输入,包括对拖放的支持。灵活布局 - 支持绝对布局和创新的计算布局系统。计算布局使控件之间的相对布局变得容易,并启用动态终端 UI。剪贴板支持 - 剪切、复制和粘贴通过 Clipboard 类提供的文本。任意视图 - 所有可见的 UI 元素都是 View 类的子类,而这些子类又可以包含任意数量的子视图。高级应用功能 - Mainloop 支持处理事件、空闲处理程序、计时器和监控文件描述符。大多数类对于线程都是安全的。反应式扩展 - 使用反应式扩展,并受益于增强的代码可读性,以及应用 MVVM 模式和 ReactiveUI 数据绑定的能力。请参阅示例应用的源代码,了解如何实现此目的。
* [SortableJS/Sortable](https://github.com/SortableJS/Sortable) 适用于现代浏览器和触摸设备的可重新排序的拖放列表。不需要jQuery或框架。
* [doczjs/docz](https://github.com/doczjs/docz) Docz 使您的代码编写和发布漂亮的交互式文档变得容易。创建展示代码的 MDX 文件,Docz 将它们转换为实时重新加载、生产就绪的网站。
* [docsifyjs/docsify](https://github.com/docsifyjs/docsify) 一个神奇的文档站点生成器。Docsify将一个或多个Markdown文件转换为网站,无需构建过程。
* [vuetifyjs/vuetify](https://github.com/vuetifyjs/vuetify) 不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。无需设计技能 — 创建令人惊叹的应用程序所需的一切触手可及。
* [verekia/js-stack-from-scratch](https://github.com/verekia/js-stack-from-scratch) 构建现代 JavaScript 堆栈的分步教程。
* [TanStack/table](https://github.com/TanStack/table) 用于为 TS/JS 构建功能强大的表和数据网格的无头 UI - React-Table、Vue-Table、Solid-Table、Svelte-Table
* [shadcn-ui/ui](https://github.com/shadcn-ui/ui) 使用Radix UI和Tailwind CSS构建的精美设计的组件。
* [t4t5/sweetalert](https://github.com/t4t5/sweetalert) JavaScript的“alert警报”的漂亮替代品
* [react-hook-form/react-hook-form](https://github.com/react-hook-form/react-hook-form) 用于表单状态管理和验证的 React Hooks
* [typescript-cheatsheets/react](https://github.com/typescript-cheatsheets/react) 为有经验的 React 开发人员准备的备忘单,开始使用 TypeScript
* [brillout/awesome-react-components](https://github.com/brillout/awesome-react-components) React 组件和库的精选列表。
* [nextauthjs/next-auth](https://github.com/nextauthjs/next-auth) Auth.js 是一组基于 Web 标准 API 构建的开源包,用于在现代应用程序中使用任何 JS 运行时中任何平台上的任何框架进行身份验证。
* [ionic-team/ionic-framework](https://github.com/ionic-team/ionic-framework) 一个强大的跨平台 UI 工具包,用于使用 HTML、CSS 和 JavaScript 构建原生质量的 iOS、Android 和渐进式 Web 应用程序。
* [chakra-ui/chakra-ui](https://github.com/chakra-ui/chakra-ui) 为您的 React 应用程序提供简单、模块化和可访问的 UI 组件
* [alexpate/awesome-design-systems](https://github.com/alexpate/awesome-design-systems) 一系列令人敬畏的设计系统。设计系统是有关原则和最佳实践的文档集合,有助于指导团队构建数字产品。它们通常体现在 UI 库和模式库中。
* [saadeghi/daisyui](https://github.com/saadeghi/daisyui) 流行、最免费、最开源的顺风CSS组件库
* [Leaflet/Leaflet](https://github.com/Leaflet/Leaflet) 用于移动友好型交互式地图的 JavaScript 库
* [date-fns/date-fns](https://github.com/date-fns/date-fns) 现代 JavaScript 日期实用程序库
* [amsul/pickadate.js](https://github.com/amsul/pickadate.js) 移动友好,响应迅速且轻量级的jQuery日期和时间输入选择器。
* [iamkun/dayjs](https://github.com/iamkun/dayjs) 不可变日期时间库替代 Moment.js具有相同的现代 API
* [rebassjs/rebass](https://github.com/rebassjs/rebass) 使用风格化系统构建的 React 基元 UI 组件。
* [enzymejs/enzyme](https://github.com/enzymejs/enzyme) React 的 JavaScript 测试实用程序,可以更轻松地测试 React 组件的输出。您还可以操作、遍历和以某种方式模拟给定输出的运行时。
* [ill-inc/biomes-game](https://github.com/ill-inc/biomes-game) Biomes是一个开源沙盒MMORPG,使用Next.js,Typescript,React和WebAssembly等Web技术为Web构建。
* [reagent-project/reagent](https://github.com/reagent-project/reagent) 提供了一种编写高效 React 组件的方法,(几乎)只使用普通的 ClojureScript 函数。
* [meteor/meteor](https://github.com/meteor/meteor) 一个用于构建现代 Web 应用程序的超简单环境。
* [dexteryy/spellbook-of-modern-webdev](https://github.com/dexteryy/spellbook-of-modern-webdev) 现代 JavaScript Web 开发的大图景、同义词库和分类法
* [elm/compiler](https://github.com/elm/compiler) Elm的编译器,一种用于可靠Web应用程序的函数式语言。
* [mixmark-io/turndown](https://github.com/mixmark-io/turndown) 用JavaScript编写的HTML到Markdown转换器
* [pdf2htmlEX/pdf2htmlEX](https://github.com/pdf2htmlEX/pdf2htmlEX) 将PDF转换为HTML,而不会丢失文本或格式。
* [alibaba/weex](https://github.com/alibaba/weex) 用于构建移动跨平台 UI 的框架,Weex 使用原生组件和原生模块来利用原生渲染性能和平台能力。组件和模块都是可插拔和可扩展的。您可以使用单个代码库生成不同的捆绑包文件,以便在 Web、Android 和 iOS 平台上运行。原生组件和模块在每个平台上都有不同的实现,但它们都公开了相同的 API。Weex 拥抱现有的 Web 生态系统,您可以使用现代前端技术来开发您的移动应用程序。Weex 支持最常用的 CSS 属性和最流行的前端框架,比如 Vue 和 Rax,未来可能会更多。Weex在许多超级应用中大规模使用的时间长了,总共服务了近亿人。Weex还衍生了许多用于行业发展的工程产品和平台。
* [gildas-lormeau/SingleFile](https://github.com/gildas-lormeau/SingleFile) Web扩展和CLI工具,用于将完整网页的忠实副本保存在单个HTML文件中
* [DioxusLabs/dioxus](https://github.com/DioxusLabs/dioxus) 适用于桌面、网络、移动等的全栈 GUI 库。
* [Tencent/weui-wxss](https://github.com/Tencent/weui-wxss) 微信官方设计团队的UI库,包括最有用的小部件/模块。
* [xiaolin3303/wx-charts](https://github.com/xiaolin3303/wx-charts) 微信小程序图表charts组件
* [uber/baseweb](https://github.com/uber/baseweb) 一个由现代,响应迅速,动态组件组成的设计系统。Base Web 是 Base 的 React 实现。
* [fastlane/fastlane](https://github.com/fastlane/fastlane) 自动构建和发布 iOS 和 Android 应用的最简单方法
* [astaxie/build-web-application-with-golang](https://github.com/astaxie/build-web-application-with-golang) 一本 golang 电子书介绍如何使用 golang 构建网络
* [reflex-dev/reflex](https://github.com/reflex-dev/reflex) 纯 Py的高性能、可自定义的 Web 应用程序。几秒钟内完成部署。
* [wanglin2/mind-map](https://github.com/wanglin2/mind-map) 一个 js 思维导图库,不依赖任何框架,你可以使用它来快速完成 Web 思维导图产品的开发。
* [AvaloniaUI/Avalonia](https://github.com/AvaloniaUI/Avalonia) 使用 C# 和 XAML 开发桌面、嵌入式、移动和 WebAssembly 应用。最受欢迎的 .NET 基金会社区项目。
* [microsoft/playwright](https://github.com/microsoft/playwright) Web测试和自动化的框架。它允许使用单个API测试Chromium,Firefox和WebKit。旨在实现常青,功能强大,可靠和快速的跨浏览器Web自动化。
* [GoogleChrome/lighthouse](https://github.com/GoogleChrome/lighthouse) 针对 Web 的自动化审核、性能指标和最佳实践。分析 Web 应用和网页,收集现代性能指标和有关开发人员最佳实践的见解。
* [o2oa/o2oa](https://github.com/o2oa/o2oa) 开源OA系统 - 码云GVP|Java开源oa|企业OA办公平台|企业OA|协同办公OA|流程平台OA|O2OA|OA,支持国产麒麟操作系统和国产数据库(达梦、人大金仓),政务OA,军工信息化OA
* [jgraph/drawio](https://github.com/jgraph/drawio) 可配置的图表/白板可视化应用程序。
* [librespeed/speedtest](https://github.com/librespeed/speedtest) HTML5等的自托管速度测试。易设置,移动友好。
* [transloadit/uppy](https://github.com/transloadit/uppy) 下一个用于 Web 浏览器🐶的开源文件上传器。时尚的模块化 JS文件上传器,可与任何应用程序无缝集成。它速度很快,具有易于理解的 API,让您担心比构建文件上传器更重要的问题。
* [evanw/esbuild](https://github.com/evanw/esbuild) 带来网络构建工具性能的新时代,并在此过程中创建一个易于使用的现代捆绑器。我们的工具比其他工具的速度快 10-100 倍
* [jhen0409/react-native-debugger](https://github.com/jhen0409/react-native-debugger) 基于 React Native 官方调试器的独立应用程序,包括 React Inspector / Redux DevTools
* [davidsonfellipe/awesome-wpo](https://github.com/davidsonfellipe/awesome-wpo) Web 性能优化的精选列表。
* [dotnet/aspnetcore](https://github.com/dotnet/aspnetcore) 一个跨平台的 .NET 框架,用于在 Windows、Mac 或 Linux 上构建基于云的现代 Web 应用程序。
* [ant-design/ant-design-mobile](https://github.com/ant-design/ant-design-mobile) 用于构建移动 Web 应用程序的基本 UI 块。
* [react-dates/react-dates](https://github.com/react-dates/react-dates) 一个易于国际化、适合移动设备的 Web 日期选择器库
* [microsoft/fluentui](https://github.com/microsoft/fluentui) Fluent UI Web 表示用于构建 Web 应用程序的实用程序、React 组件和 Web 组件的集合。
* [adamschwartz/magic-of-css](https://github.com/adamschwartz/magic-of-css) 一门CSS课程,让你变成魔术师。
* [vasanthv/talk](https://github.com/vasanthv/talk) 网络群组视频通话。没有注册。没有下载。使用 WebRTC 构建的,因此您的所有视频、音频和文本聊天都是点对点的。使用 WebRTC mesh实现的。因此,通话质量与通话人数成反比。甜蜜的数字是平均高速连接中大约 6 到 8 人。
* [steven-tey/dub](https://github.com/steven-tey/dub) 一种开源链接管理工具,供现代营销团队创建、共享和跟踪短链接。
* [woai3c/visual-drag-demo](https://github.com/woai3c/visual-drag-demo) 一个低代码平台的前端部分,靠拖拉拽生成页面。
* [magento/magento2](https://github.com/magento/magento2) Magento开源软件提供基本的电子商务功能,可以从头开始构建独特的在线商店。
* [twbs/bootstrap-sass](https://github.com/twbs/bootstrap-sass) sass 驱动的 Bootstrap 3 版本,可直接放入您的 Sass 驱动的应用程序中。
* [GoogleChrome/web-vitals](https://github.com/GoogleChrome/web-vitals) 健康网站的基本指标。“网页指标”是 Google 推出的一项计划,旨在针对对提供出色 Web 体验至关重要的质量信号提供统一指南。构成核心网页指标的指标会随着时间的推移而不断改进。2020 年的现状侧重于用户体验的三个方面(加载、互动和视觉稳定性)。
* [gohugoio/hugo](https://github.com/gohugoio/hugo) 一个快速灵活的静态站点生成器,由 bep、spf13 和 Go 中的朋友们用爱构建。
* [GorvGoyl/Clone-Wars](https://github.com/GorvGoyl/Clone-Wars) Airbnb,亚马逊,Instagram,Netflix,Tiktok,Spotify,Whatsapp,Youtube等流行网站的100 +开源克隆。查看源代码、演示链接、技术栈、github stars。
* [dypsilon/frontend-dev-bookmarks](https://github.com/dypsilon/frontend-dev-bookmarks) 为前端 Web 开发人员手动策划的资源集合。
* [AR-js-org/AR.js](https://github.com/AR-js-org/AR.js) 用于 Web 增强现实的轻量级库,具有图像跟踪、基于位置的 AR 和标记跟踪等功能。
* [Tencent/vConsole](https://github.com/Tencent/vConsole) 用于移动网页的轻量级、可扩展的前端开发人员工具。
* [atlassian/react-beautiful-dnd](https://github.com/atlassian/react-beautiful-dnd) 使用 React 对列表进行美观且易于访问的拖放
* [salomonelli/best-resume-ever](https://github.com/salomonelli/best-resume-ever) 快速轻松地建立多份精美的简历,并创建您有史以来最好的简历!使用 Vue 和 LESS 制作。
* [airyland/vux](https://github.com/airyland/vux) 基于 Vue 和 WeUI 的移动 UI 组件
* [lenve/vhr](https://github.com/lenve/vhr) 微人事是前后端分离的人力资源管理系统,采用SpringBoot+Vue开发。
* [terser/terser](https://github.com/terser/terser) 适用于 ES6+ 的 JavaScript 解析器、管理器和压缩器工具包
* [postcss/postcss](https://github.com/postcss/postcss) 使用 JS 插件转换样式的工具。这些插件可以对您的 CSS 进行 lint 处理、支持变量和 mixin、转译未来的 CSS 语法、内联图像等等。
* [airbnb/lottie-web](https://github.com/airbnb/lottie-web) 在 Web、Android 和 iOS 上原生渲染 After Effects 动画,以及 React Native。设计师可以创建和发布精美的动画,而无需工程师精心手工重新创建
* [microsoft/Web-Dev-For-Beginners](https://github.com/microsoft/Web-Dev-For-Beginners) 24 节课,12 周,Web 开发人员入门
* [wallabag/wallabag](https://github.com/wallabag/wallabag) 用于保存网页的自托管应用程序:保存和分类文章。稍后阅读。自由。
* [wesbos/JavaScript30](https://github.com/wesbos/JavaScript30) 初学者文件 + JavaScript 30 天挑战的完整解决方案。
* [NervJS/taro](https://github.com/NervJS/taro) 开放式跨端跨框架解决方案,支持使用 React/Vue/Nerv 等框架来开发微信/京东/百度/支付宝/字节跳动/ QQ 小程序/H5/React Native 等应用。
* [SheetJS/sheetjs](https://github.com/SheetJS/sheetjs) 电子表格数据工具包,用于从几乎任何复杂的电子表格中提取有用的数据,并生成适用于传统和现代软件的表格。
* [mobxjs/mobx](https://github.com/mobxjs/mobx) 简单、可扩展的状态管理。
* [AykutSarac/jsoncrack.com](https://github.com/AykutSarac/jsoncrack.com) 创新的开源可视化应用程序,可将各种数据格式(如 JSON、YAML、XML、CSV 等)转换为交互式图形。
* [troxler/awesome-css-frameworks](https://github.com/troxler/awesome-css-frameworks) 很棒的CSS框架列表。
* [tailwindlabs/tailwindcss](https://github.com/tailwindlabs/tailwindcss) 一个实用优先的 CSS 框架,用于快速 UI 开发。一个实用程序优先的 CSS 框架,其中包含 `flex` 、 `pt-4` 等 `rotate-90` 类, `text-center` 可以直接在标记中组合以构建任何设计。
* [AllThingsSmitty/css-protips](https://github.com/AllThingsSmitty/css-protips) 帮助您提高 CSS 技能的技巧集合。
* [sampotts/plyr](https://github.com/sampotts/plyr) 一个简单的 HTML5、YouTube 和 Vimeo 播放器
* [joshbuchea/HEAD](https://github.com/joshbuchea/HEAD) HTML 元素的简单指南
* [niklasvh/html2canvas](https://github.com/niklasvh/html2canvas) 该脚本允许您直接在用户浏览器上截取网页或其部分的“屏幕截图”。屏幕截图基于 DOM,因此可能不是 100% 准确到真实表示,因为它不会制作实际的屏幕截图,而是根据页面上可用的信息构建屏幕截图。
* [rehooks/awesome-react-hooks](https://github.com/rehooks/awesome-react-hooks) 很棒的 React Hooks 资源。Hook 是 React 团队在 React 16.8 版本中提出的新特性,在遵循函数式组件的前提下,为已知的 React 概念提供了更直接的 API:props,state,context,refs 以及声明周期,目的在于解决常年以来在 class 组件中存在的各种问题,实现更高效的编写 react 组件。
* [antonioru/beautiful-react-hooks](https://github.com/antonioru/beautiful-react-hooks) 一组漂亮且(希望)有用的 React 钩子,以加快您的组件和钩子开发
* [rsuite/rsuite](https://github.com/rsuite/rsuite) 用于企业系统产品的 react 组件库。它是一个经过深思熟虑且对开发人员友好的 UI 框架。
* [Semantic-Org/Semantic-UI-React](https://github.com/Semantic-Org/Semantic-UI-React) 官方的 Semantic-UI-React 集成
* [tremorlabs/tremor](https://github.com/tremorlabs/tremor) 用于快速构建仪表板的 React 库。借助 Tremor,您可以创建简单的模块化组件,轻松构建富有洞察力的仪表板。完全开源,由数据科学家和软件工程师制作,具有设计的最佳点。
* [adobe/react-spectrum](https://github.com/adobe/react-spectrum) 一组库和工具,可帮助您构建自适应、可访问且可靠的用户体验。Adobe 设计系统 Spectrum 的 React 实现。Spectrum 为所有 Adobe 应用程序提供自适应、可访问且具有凝聚力的体验。
* [casesandberg/react-color](https://github.com/casesandberg/react-color) 来自 Sketch、Photoshop、Chrome、Github、Twitter 等的颜色选择器
* [fkhadra/react-toastify](https://github.com/fkhadra/react-toastify) 允许您轻松地向应用程序添加通知
* [react-bootstrap/react-bootstrap](https://github.com/react-bootstrap/react-bootstrap) 使用 React 构建的 Bootstrap 5 组件。
* [xyflow/xyflow](https://github.com/xyflow/xyflow) 反应流 |Svelte Flow - 强大的开源库,用于使用 React或 Svelte构建基于节点的 UI.开箱即用,可无限定制。
* [remix-run/react-router](https://github.com/remix-run/react-router) React JS库的一个轻量级、功能齐全的路由库。React Router 在 React 运行的任何地方运行;在 Web、node.js和 React Native。
* [jaredpalmer/formik](https://github.com/jaredpalmer/formik) 在 React 中构建表单,无需流泪
* [savingrun/WeHalo](https://github.com/savingrun/WeHalo) WeHalo 简约风 的微信小程序版博客
* [wechat-miniprogram/miniprogram-demo](https://github.com/wechat-miniprogram/miniprogram-demo) 微信小程序组件 / API / 云开发示例
* [remaxjs/remax](https://github.com/remaxjs/remax) 使用真正的 React 构建跨平台小程序
* [youzan/vant-weapp](https://github.com/youzan/vant-weapp) 轻量、可靠的小程序 UI 组件库
* [Meituan-Dianping/mpvue](https://github.com/Meituan-Dianping/mpvue) 基于 Vue.js 的小程序开发框架,从底层支持 Vue.js 语法和构建工具体系。
* [apptension/developer-handbook](https://github.com/apptension/developer-handbook) 关于如何成为专业的 Web/移动应用程序开发人员的自以为是的指南。
* [leptos-rs/leptos](https://github.com/leptos-rs/leptos) 使用 Rust 构建快速的 Web 应用程序。
* [visgl/deck.gl](https://github.com/visgl/deck.gl) 简化大型数据集的高性能、基于 WebGL 的可视化。用户可以通过组合现有图层,以最小的工作量快速获得令人印象深刻的视觉效果,或者利用 deck.gl 的可扩展架构来满足自定义需求。deck.gl 将数据(通常是 JSON 对象数组)映射到一堆视觉层中,例如图标、多边形、文本;并用视图查看:例如地图、第一人称、正交。
* [ErickWendel/semana-javascript-expert08](https://github.com/ErickWendel/semana-javascript-expert08) 在浏览器中上传视频之前进行预处理
* [aws-amplify/amplify-js](https://github.com/aws-amplify/amplify-js) JS库,适用于前端和移动开发人员构建支持云的应用程序
* [FortAwesome/Font-Awesome](https://github.com/FortAwesome/Font-Awesome) 互联网的图标库和工具包,被数百万设计师、开发人员和内容创作者使用。
* [plotly/plotly.js](https://github.com/plotly/plotly.js) 独立的 Javascript 数据可视化库,它还为这些各自生态系统中命名 plotly 的 Python 和 R 模块提供支持(称为 Plotly.py 和 Plotly.R)。
* [apexcharts/apexcharts.js](https://github.com/apexcharts/apexcharts.js) 基于 SVG 构建的交互式 JavaScript 图表
* [facebook/relay](https://github.com/facebook/relay) 用于构建数据驱动的 React 应用程序的 JavaScript 框架。
* [antvis/G6](https://github.com/antvis/G6) JavaScript 中的图形可视化框架
* [terrastruct/d2](https://github.com/terrastruct/d2) 现代图表脚本语言,可将文本转换为图表。
* [bhauman/lein-figwheel](https://github.com/bhauman/lein-figwheel) 构建ClojureScript ,并在您编码时将其热加载到浏览器中
* [serverless-nextjs/serverless-next.js](https://github.com/serverless-nextjs/serverless-next.js) 通过无服务器组件在 AWS Lambda @Edge 上部署 Next.js 应用程序
* [philss/floki](https://github.com/philss/floki) 简单的 HTML 解析器,它允许使用 CSS 选择器搜索节点。
* [xhtml2pdf/xhtml2pdf](https://github.com/xhtml2pdf/xhtml2pdf) 使用 ReportLab 将 HTML 转换为 PDF 的库
* [hakimel/reveal.js](https://github.com/hakimel/reveal.js) 开源的 HTML 表示框架。它使任何拥有网络浏览器的人都可以免费创建精美的演示文稿。具有强大的功能集,包括嵌套幻灯片、Markdown 支持、自动动画、PDF 导出、演讲者笔记、LaTeX 排版、语法突出显示代码和广泛的 API。
* [gothinkster/realworld](https://github.com/gothinkster/realworld) “所有演示应用程序之母”——由 React、Angular、Node、Django 等提供支持的典范全栈 Medium.com 克隆
* [Polymer/polymer](https://github.com/Polymer/polymer) Polymer 允许您构建封装的、可重用的 Web 组件,这些组件的工作方式与标准 HTML 元素类似,用于构建 Web 应用程序。使用使用 Polymer 构建的 Web 组件非常简单,只需导入其定义,然后像使用任何其他 HTML 元素一样使用它。`Web Components`:各种网站往往需要一些相同的模块,比如日历、调色板等等,这种模块就被称为“组件”(component)。Web Components 就是浏览器原生的组件规范。采用组件开发,有很多优点。(1)有利于代码复用。组件是模块化编程思想的体现,可以跨平台、跨框架使用,构建、部署和与其他 UI 元素互动都有统一做法。(2)使用非常容易。加载或卸载组件,只要添加或删除一行代码就可以了。(3)开发和定制很方便。组件开发不需要使用框架,只要用原生的语法就可以了。开发好的组件往往留出接口,供使用者设置常见属性,比如上面代码的heading属性,就是用来设置对话框的标题。(4)组件提供了 HTML、CSS、JavaScript 封装的方法,实现了与同一页面上其他代码的隔离。未来的网站开发,可以像搭积木一样,把组件合在一起,就组成了一个网站。这种前景是非常诱人的。
* [vuejs/vue-cli](https://github.com/vuejs/vue-cli) 基于 webpack 的 Vue.js 开发工具
* [pixijs/pixijs](https://github.com/pixijs/pixijs) HTML5 创作引擎:使用最快、最灵活的 2D WebGL 渲染器创建精美的数字内容。快速、轻量级的 2D 库,可在所有设备上运行。PixiJS 渲染器让每个人都可在不了解 WebGL 的情况下享受硬件加速的强大功能。
* [angular/angular-cli](https://github.com/angular/angular-cli) Angular CLI 是一个命令行界面工具,用于初始化、开发、搭建脚手架、并直接从命令 shell 维护 Angular 应用程序。
* [abi/screenshot-to-code](https://github.com/abi/screenshot-to-code) 将屏幕截图转换为代码(HTML/Tailwind CSS,或React或Vue或Bootstrap)。它使用 GPT-4 Vision 生成代码,使用 DALL-E 3 生成外观相似的图像。您现在还可以输入 URL 来克隆实时网站
* [SBoudrias/Inquirer.js](https://github.com/SBoudrias/Inquirer.js) 通用交互式命令行用户界面的集合。
* [umijs/qiankun](https://github.com/umijs/qiankun) 快速、简单、完整的微型前端解决方案。使您和您的团队能够利用微前端构建下一代企业级 Web 应用程序。微前端:使用不同 JavaScript 框架与多个团队一起构建现代 Web 应用的技术、策略和方法。
* [jgthms/bulma](https://github.com/jgthms/bulma) 基于 Flexbox 的现代 CSS 框架。
* [realm/SwiftLint](https://github.com/realm/SwiftLint) 强制执行 Swift 样式和约定的工具。
* [aframevr/aframe](https://github.com/aframevr/aframe) 用于构建虚拟现实体验的 Web 框架。`虚拟现实变得简单`:A-Frame 只需插入 a-scene 即可处理跨平台运行所需的 3D 和 WebXR 样板,包括移动设备、桌面和所有耳机(与支持 WebXR 的浏览器兼容)。`声明式 HTML`:HTML 易于阅读和复制粘贴。可以在 HTML 中使用,因此每个人都可以访问。`实体组件架构`:three.js 之上的强大框架,为 three.js 提供了一个声明性的、可组合的、可重用的实体组件结构。可以无限制地访问 JavaScript、DOM API、three.js、WebXR 和 WebGL。`性能`:是 three.js 之上的精简框架。性能是重中之重,在高度交互的 WebXR 体验上经过了实战考验。`跨平台`:为任何与支持 WebXR 的浏览器兼容的头戴式设备构建 VR 和 AR 应用程序。仍然可以在标准台式机和智能手机上运行。`可视化检查器`:内置可视化 3D 检查器,其工作流程类似于浏览器的开发人员工具,界面类似于 Unity。打开任何 A-Frame 场景并点击 ctrl+alt+i . `功能`:内置组件(如几何体、材质、灯光、动画、模型、光线投射器、阴影、位置音频、跟踪控制器)立即开始运行。使用粒子系统、物理、多用户、海洋、山脉、语音识别或传送等社区组件
* [liriliri/eruda](https://github.com/liriliri/eruda) 适用于移动浏览器的控制台
* [FallibleInc/security-guide-for-developers](https://github.com/FallibleInc/security-guide-for-developers) 面向 Web 开发人员的实用安全指南
* [phoenixframework/phoenix](https://github.com/phoenixframework/phoenix) Elixir语言,快速构建丰富的交互式 Web 应用程序,使用更少的代码和更少的移动部件。加入我们不断壮大的开发者社区,使用 Phoenix 制作 API、HTML5 应用程序等,享受乐趣或大规模制作。
* [sindresorhus/awesome-electron](https://github.com/sindresorhus/awesome-electron) 使用 Electron 创建应用程序的有用资源
* [matteocrippa/awesome-swift](https://github.com/matteocrippa/awesome-swift) 一个很棒的 Swift 库和资源的协作列表。欢迎贡献!
* [freeCodeCamp/devdocs](https://github.com/freeCodeCamp/devdocs) 将多个开发人员文档结合在一个干净有序的 Web UI 中,具有即时搜索、离线支持、移动版本、深色主题、键盘快捷键等功能。
* [apache/echarts](https://github.com/apache/echarts) 功能强大的交互式图表和数据可视化库,适用于浏览器
* [ryanoasis/nerd-fonts](https://github.com/ryanoasis/nerd-fonts) 标志性的字体聚合器、集合和补丁程序。3,600+ 图标,50+ 修补字体:Hack、Source Code Pro 等。字形集合:Font Awesome、Material Design Icons、Octicons 等
* [ascoders/weekly](https://github.com/ascoders/weekly) 前端精读周刊。帮你理解最前沿、实用的技术。
* [ant-design/ant-design-pro](https://github.com/ant-design/ant-design-pro) 作为 React 样板的开箱即用 UI 解决方案,适用于企业应用程序。
* [getredash/redash](https://github.com/getredash/redash) 让您的公司以数据为导向。连接到任何数据源,轻松可视化、仪表板和共享您的数据。Redash 旨在使任何人,无论技术复杂程度如何,都能利用大大小小的数据的力量。SQL 用户利用 Redash 来探索、查询、可视化和共享来自任何数据源的数据。他们的工作反过来又使组织中的任何人都可以使用这些数据。每天,全球数千个组织中的数百万用户使用 Redash 来开发见解并做出数据驱动的决策。
* [badges/shields](https://github.com/badges/shields) 以 SVG 和光栅格式提供简洁、一致且清晰的徽章的服务,可以轻松包含在 GitHub 自述文件或任何其他网页中。该服务支持数十种持续集成服务、软件包注册表、发行版、应用商店、社交网络、代码覆盖服务和代码分析服务。它每月提供超过 8.7 亿张图像,并被世界上一些最受欢迎的开源项目使用,包括 VS Code、Vue.js 和 Bootstrap 等。
* [PhilJay/MPAndroidChart](https://github.com/PhilJay/MPAndroidChart) Android 图表视图/图形视图库,支持线条图、饼图、雷达图、气泡图和烛台图以及缩放、平移和动画。
* [chalk/chalk](https://github.com/chalk/chalk) 正确的终端CLI字符串样式
* [validatorjs/validator.js](https://github.com/validatorjs/validator.js) 字符串验证程序和清理程序库。
* [t3-oss/create-t3-app](https://github.com/t3-oss/create-t3-app) 交互式 CLI,用于启动全栈、类型安全的 Next.js 应用。启动全栈、类型安全的 Next.js 应用的最佳方式。
* [spf13/cobra](https://github.com/spf13/cobra) 用于创建功能强大的现代 CLI 应用程序的库。Cobra 用于许多 Go 项目,例如 Kubernetes、Hugo 和 GitHub CLI 等。
* [vadimdemedes/ink](https://github.com/vadimdemedes/ink) React 用于交互式命令行应用,基于组件的 UI 构建体验与 React 在浏览器中提供的相同,但适用于命令行应用。它使用 Yoga 在终端中构建 Flexbox 布局,因此大多数类似 CSS 的道具也可以在 Ink 中使用。
* [charmbracelet/bubbletea](https://github.com/charmbracelet/bubbletea) 强大的小TUI框架,构建终端应用程序的有趣、实用和有状态的方式。基于 Elm 架构的 Go 框架。珍珠奶茶非常适合简单和复杂的终端应用,无论是在线、全窗还是两者兼而有之。
* [urfave/cli](https://github.com/urfave/cli) 一个简单、快速、有趣的包,用于在 Go 中构建命令行应用程序
* [svg/svgo](https://github.com/svg/svgo) 用于优化 SVG 文件的 Node.js 工具
* [infinitered/ignite](https://github.com/infinitered/ignite) React Native 七年多不断开发的结晶,是 Expo 和裸 React Native 中最受欢迎的 React Native 应用程序样板。
* [dotnet/maui](https://github.com/dotnet/maui) .NET 多平台应用 UI,是一个用于构建跨移动设备、平板电脑和台式机的本机设备应用程序的框架。
* [responsively-org/responsively-app](https://github.com/responsively-org/responsively-app) 经过修改的 Web 浏览器,有助于响应式 Web 开发。Web 开发人员必须具有开发工具。Web 开发人员必备的开发工具,可实现更快的响应式 Web 开发。使用 Electron 构建的修改后的浏览器。
* [GeekyAnts/NativeBase](https://github.com/GeekyAnts/NativeBase) 适用于 React Native 和 Web 的移动优先、可访问的组件,可在 Android、iOS 和 Web 上构建一致的 UI。
* [select2/select2](https://github.com/select2/select2) 基于 jQuery 的选择框。支持搜索、远程数据集和结果的无限滚动。
* [Modernizr/Modernizr](https://github.com/Modernizr/Modernizr) JS 库,用于检测用户浏览器中的 HTML5 和 CSS3 功能。
* [backstage/backstage](https://github.com/backstage/backstage) 用于构建开发人员门户的开放平台。由集中式软件目录提供支持,可恢复微服务和基础架构的秩序,并使您的产品团队能够在不影响自主性的情况下快速交付高质量代码。
* [react-navigation/react-navigation](https://github.com/react-navigation/react-navigation) React Native 应用的路由和导航。
* [pmndrs/zustand](https://github.com/pmndrs/zustand) 承担 React 中状态管理的必要条件,使用简化通量原理的小型、快速且可扩展的 bearbone 状态管理解决方案。
* [floating-ui/floating-ui](https://github.com/floating-ui/floating-ui) 一个 JavaScript 库,用于定位浮动元素并为其创建交互。
* [highlightjs/highlight.js](https://github.com/highlightjs/highlight.js) JavaScript 编写的语法高亮。它适用于浏览器和服务器。它几乎可以处理任何标记,不依赖于任何其他框架,并且具有自动语言检测功能。
* [emberjs/ember.js](https://github.com/emberjs/ember.js) JavaScript 框架,它大大减少了构建任何 Web 应用程序所需的时间、精力和资源。它专注于通过执行大多数 Web 开发项目中涉及的所有常见、重复但必不可少的任务,使您(开发人员)尽可能高效。
* [expo/expo](https://github.com/expo/expo) 一个开源平台,用于使用 React 制作通用的原生应用程序。Expo 可在 Android、iOS 和 Web 上运行。
* [electron-react-boilerplate/electron-react-boilerplate](https://github.com/electron-react-boilerplate/electron-react-boilerplate) 可扩展的跨平台应用的基础,使用 Electron、React、React Router、Webpack 和 React Fast Refresh。
* [video-dev/hls.js](https://github.com/video-dev/hls.js) JS 库,实现 HTTP 实时流式处理。它依靠 HTML5 视频和 MediaSource 扩展进行播放。原理是将 MPEG-2 传输流和 AAC/MP3 流转换为 ISO BMFF (MP4) 片段。
* [kefranabg/readme-md-generator](https://github.com/kefranabg/readme-md-generator) 生成漂亮的 README.md 文件的 CLI。
* [rahuldkjain/github-profile-readme-generator](https://github.com/rahuldkjain/github-profile-readme-generator) 使用最小的 UI 使用最新的附加组件(如访问者计数、GitHub 统计信息等)轻松生成 GitHub 个人资料 README。
* [you-dont-need/You-Dont-Need-JavaScript](https://github.com/you-dont-need/You-Dont-Need-JavaScript) CSS很强大,没有JS也可以做很多事情。
* [you-dont-need/You-Dont-Need-Lodash-Underscore](https://github.com/you-dont-need/You-Dont-Need-Lodash-Underscore) 原生使用的 JavaScript 方法列表 + ESLint 插件
* [wailsapp/wails](https://github.com/wailsapp/wails) 使用 Go 和 Web 技术构建桌面应用程序。
* [sudheerj/javascript-interview-questions](https://github.com/sudheerj/javascript-interview-questions) 1000 个 JavaScript 面试问题列表
* [jsdom/jsdom](https://github.com/jsdom/jsdom) 各种 Web 标准的 JavaScript 实现,用于 Node.js。特别是WHATWG DOM和HTML标准,用于Node.js。一般来说,该项目的目标是模拟足够多的 Web 浏览器子集,以便用于测试和抓取真实世界的 Web 应用程序。
* [BuilderIO/qwik](https://github.com/BuilderIO/qwik) 提供尽可能快的页面加载时间 - 无论您的网站有多复杂。Qwik 之所以如此之快,是因为它允许完全交互式的网站在几乎没有 JavaScript 的情况下加载,并从服务器中断的地方继续。
* [vuejs/vue-router](https://github.com/vuejs/vue-router) Vue 2 的官方路由器
* [jorgebucaran/hyperapp](https://github.com/jorgebucaran/hyperapp) 用于构建超文本应用程序的 1kB 式 JavaScript 框架,最大限度地减少了完成工作所需的学习概念。视图、操作、效果和订阅都非常容易掌握并无缝协作。Hyperapp 具有易于阅读且编写有趣的声明式 API,是使用惯用 JavaScript 构建功能纯、功能丰富、基于浏览器的应用程序的最佳方式。超轻量级的虚拟 DOM、高度优化的差异算法和痴迷于极简主义的状态管理库。
* [react-grid-layout/react-grid-layout](https://github.com/react-grid-layout/react-grid-layout) 用于 React 的可拖动和可调整大小的网格布局,具有响应式断点。
* [solidjs/solid](https://github.com/solidjs/solid) 用于创建用户界面的声明性 JavaScript 库。它不使用虚拟 DOM,而是将其模板编译为真实的 DOM 节点,并使用细粒度反应更新它们。声明你的状态并在整个应用中使用它,当一段状态发生更改时,只有依赖于它的代码才会重新运行。
* [ReactiveX/rxjs](https://github.com/ReactiveX/rxjs) JavaScript 的响应式编程库,对 Reactive-Extensions/RxJS 的重写,是 RxJS 的最新生产就绪版本。此重写旨在具有更好的性能、更好的模块化、更好的可调试调用堆栈,同时保持大部分向后兼容,并进行了一些减少 API 表面的重大更改。
* [elsewhencode/project-guidelines](https://github.com/elsewhencode/project-guidelines) JavaScript 项目的一组最佳实践
* [quasarframework/quasar](https://github.com/quasarframework/quasar) 在创纪录的时间内构建高性能的 VueJS 用户界面
* [JakeChampion/fetch](https://github.com/JakeChampion/fetch) 基于 Promise 的机制,用于在浏览器中以编程方式发出 Web 请求。这个项目是一个 polyfill,它实现了标准 Fetch 规范的一个子集,足以替代 `fetch` 传统 Web 应用程序中大多数 XMLHttpRequest 的使用。
* [charmbracelet/glow](https://github.com/charmbracelet/glow) 基于终端的 Markdown 阅读器,从头开始设计,旨在展现 CLI 的美感和功能。
* [alvarotrigo/fullPage.js](https://github.com/alvarotrigo/fullPage.js) 简单易用的库,用于创建全屏滚动网站(也称为单页网站或单页网站),并在网站的各个部分内添加横向滑块。
* [sudheerj/reactjs-interview-questions](https://github.com/sudheerj/reactjs-interview-questions) 前 500 个常见的ReactJS 面试问题和答案列表......编码练习题即将推出
* [zenorocha/clipboard.js](https://github.com/zenorocha/clipboard.js) 新式复制到剪贴板。没有Flash。只需 3kb (gzip 压缩)。
* [goldfire/howler.js](https://github.com/goldfire/howler.js) 用于现代网络的 Javascript 音频库。
* [mochajs/mocha](https://github.com/mochajs/mocha) 简单、灵活、有趣的 Node.js 和浏览器的 JavaScript 测试框架
* [js-cookie/js-cookie](https://github.com/js-cookie/js-cookie) 一个简单、轻量级的 JavaScript API,用于处理浏览器 cookie
* [carbon-app/carbon](https://github.com/carbon-app/carbon) 创建和共享源代码的精美图像
* [denysdovhan/wtfjs](https://github.com/denysdovhan/wtfjs) 有趣而棘手的 JavaScript 示例列表
* [fingerprintjs/fingerprintjs](https://github.com/fingerprintjs/fingerprintjs) 浏览器指纹库。此版本的准确率为40-60%,商业指纹识别的准确率为99.5%。该库的 V4 已获得 BSL 许可。
* [caolan/async](https://github.com/caolan/async) 实用程序模块,它为使用异步 JavaScript 提供了简单、强大的功能。
* [lovell/sharp](https://github.com/lovell/sharp) 高性能 Node.js 图像处理,调整 JPEG、PNG、WebP、AVIF 和 TIFF 图像大小的最快模块。使用 libvips 库。
* [usablica/intro.js](https://github.com/usablica/intro.js) 轻量级、用户友好的入门和产品演练库
* [goldbergyoni/javascript-testing-best-practices](https://github.com/goldbergyoni/javascript-testing-best-practices) 全面而详尽的 JavaScript 和 Node.js 测试最佳实践
* [processing/p5.js](https://github.com/processing/p5.js) 用于创意编码的 JavaScript 库,专注于让艺术家、设计师、教育工作者、初学者和其他任何人都能访问和包容编码!P5.js 是免费和开源的,因为我们相信软件以及学习它的工具应该对每个人都开放。
* [hapijs/joi](https://github.com/hapijs/joi) 最强大的 JavaScript 模式描述语言和数据验证器。
* [bigskysoftware/htmx](https://github.com/bigskysoftware/htmx) 使用属性直接在 HTML 中访问 AJAX、CSS 转换、WebSocket 和服务器发送事件,因此您可以构建具有超文本的简单性和强大功能的现代UI
* [FormidableLabs/webpack-dashboard](https://github.com/FormidableLabs/webpack-dashboard) webpack 开发服务器的 CLI 仪表板
* [feathericons/feather](https://github.com/feathericons/feather) 一组简单漂亮的开源图标。每个图标都设计在 24x24 网格上,强调简单性、一致性和灵活性。
* [dimsemenov/PhotoSwipe](https://github.com/dimsemenov/PhotoSwipe) 适用于移动和桌面的 JS图片库,模块化,独立于框架
* [ionic-team/capacitor](https://github.com/ionic-team/capacitor) 构建用于 iOS、Android 和 Web 跨平台本机渐进式 Web 应用
* [heartcombo/devise](https://github.com/heartcombo/devise) 灵活的 Rails 身份验证解决方案和 Warden。
* [SeleniumHQ/selenium](https://github.com/SeleniumHQ/selenium) 浏览器自动化框架和生态系统。封装了各种工具和库,可实现 Web 浏览器自动化。Selenium 专门为 W3C WebDriver 规范提供了基础设施——一个与所有主要 Web 浏览器兼容的平台和语言中立的编码接口。
* [mherrmann/helium](https://github.com/mherrmann/helium) Helium 是一个 Python 库,用于自动化 Chrome 和 Firefox 等浏览器。要开始使用 Helium,您需要 Python 3 和 Chrome 或 Firefox。我建议创建一个虚拟环境。这使您可以只为当前项目安装 Helium,而不是在整个计算机上全局安装 Helium。在引擎盖下,Helium 将每个调用转发到 Selenium。不同的是,Helium 的 API 级别要高得多。在 Selenium 中,您需要使用 HTML ID、XPaths 和 CSS 选择器来识别网页元素。另一方面,Helium 允许您通过用户可见的标签来引用元素。因此,Helium 脚本通常比类似的 Selenium 脚本短 30-50%。更重要的是,它们更易于阅读,并且在底层网页的变化方面更稳定。
* [ultrafunkamsterdam/undetected-chromedriver](https://github.com/ultrafunkamsterdam/undetected-chromedriver) 定制 Selenium Chromedriver |零配置 |通过所有机器人缓解系统(如 Distil / Imperva/ Datadadome / CloudFlare IUAM),优化的 Selenium Chromedriver 补丁,不会触发 Distill Network / Imperva / DataDome / Botprotect.io 等反机器人服务 自动下载驱动程序二进制文件并进行修补。
* [jekyll/jekyll](https://github.com/jekyll/jekyll) Ruby 中一个博客感知的静态站点生成器
* [airbnb/visx](https://github.com/airbnb/visx) 可重用的低级可视化组件的集合。visx 结合了 d3 的强大功能来生成可视化和 react 更新 DOM 的好处。
* [bgstaal/multipleWindow3dScene](https://github.com/bgstaal/multipleWindow3dScene) 如何使用 three.js 和 localStorage 跨多个窗口“同步”3D 场景的简单示例
* [vega/vega](https://github.com/vega/vega) 可视化语法,是一种用于创建、保存和共享交互式可视化设计的声明性格式。使用 Vega,您可以以 JSON 格式描述数据可视化,并使用 HTML5 Canvas 或 SVG 生成交互式视图。
* [antvis/G2](https://github.com/antvis/G2) 用于仪表板构建、数据探索和讲故事的可视化语法。通过简洁的声明帮助您快速获得有意义的可视化效果,并推断其余部分。但是,您可以为复杂和高级情况配置更多内容。采用功能性声明式 API 以编程方式指定图表选项,这有助于更好的逻辑重用和更灵活的代码组织。为了满足特定需求,G2 提供了一种方便且一致的机制来扩展您能想象到的一切,无论是缩放、转换、标记等。您甚至可以基于此机制自定义全新的可视化工具。
* [motion-canvas/motion-canvas](https://github.com/motion-canvas/motion-canvas) 动态画布,TypeScript 库,它使用生成器对动画进行编程。提供上述动画实时预览的编辑器。专门的工具,旨在创建信息丰富的矢量动画并将它们与画外音同步。
* [getzola/zola](https://github.com/getzola/zola) 一个快速的静态站点生成器,在一个二进制文件中,内置了所有内容。Zola 作为单个可执行文件提供,具有 Sass 编译、语法突出显示、目录和许多其他传统上需要设置开发环境或向您的网站添加一些 JavaScript 库的功能。平均站点将在不到一秒的时间内生成,包括 Sass 编译和语法高亮。Zola 将您的整个网站呈现为静态文件,使您无需支付任何费用即可轻松处理任何类型的流量,而无需担心管理服务器或数据库。从CLI到模板引擎,一切都设计得非常直观。不过,不要相信我的话,看看文档,自己看看。Zola 不碍事,因此您可以专注于您的内容,无论是博客、知识库、登录页面还是它们的组合。Zola 带有简码和内部链接,可以更轻松地编写内容。
* [sweetalert2/sweetalert2](https://github.com/sweetalert2/sweetalert2) 美观、响应迅速、高度可定制和可访问 (WAI-ARIA) 的 JavaScript 弹出框替代品。零依赖性。
* [twitter/typeahead.js](https://github.com/twitter/typeahead.js) 受 twitter.com 自动完成搜索功能的启发,typeahead.js 是一个灵活的 JavaScript 库,为构建健壮的提前输入提供了坚实的基础。
* [twitter/twemoji](https://github.com/twitter/twemoji) 简单的库,可在所有平台上提供标准的 Unicode 表情符号支持。
* [JetBrains/compose-multiplatform](https://github.com/JetBrains/compose-multiplatform) Kotlin 的现代 UI 框架,可轻松愉快地构建高性能且美观的用户界面。跨多个平台共享 UI。它基于 Jetpack Compose,由 JetBrains 和开源贡献者开发。
* [webview/webview](https://github.com/webview/webview) 用于 C/C++ 的微型跨平台 webview 库。使用 WebKit (GTK/Cocoa) 和 Edge WebView2 (Windows) 。目标是为最广泛使用的平台创建一个通用的 HTML5 UI 抽象层。它支持双向 JavaScript 绑定(从 C/C++ 调用 JavaScript 和从 JavaScript 调用 C/C++)。
* [WebKit/WebKit](https://github.com/WebKit/WebKit) WebKit 项目的所在地,是 Safari、Mail、App Store 和 macOS、iOS 和 Linux 上的许多其他应用程序使用的浏览器引擎。
* [browserless/browserless](https://github.com/browserless/browserless) 在 Docker 中部署无头浏览器。在我们的云上运行或自带。免费用于非商业用途。
* [Tencent/VasSonic](https://github.com/Tencent/VasSonic) VasSonic 是由腾讯 VAS 团队开发的一款轻量级、高性能的 Hybrid 框架,旨在加速在 Android 和 iOS 平台上运行的网站的首屏。
* [Justson/AgentWeb](https://github.com/Justson/AgentWeb) 基于 Android WebView 的强大库。极度容易使用以及功能强大的库,提供了 Android WebView 一系列的问题解决方案 ,并且轻量和极度灵活。轻量级而且功能强大的 Web 库 , 大小只有 200K 。功能:进度条以及自定义进度条、文件下载、文件下载断点续传、下载通知形式提示进度、简化 Javascript 通信、支持 Android 4.4 Kitkat 以及其他版本文件上传、注入 Cookies、加强 Web 安全、支持全屏播放视频、兼容低版本 Js 安全通信、更省电 、支持调起微信支付、支持调起支付宝、默认支持定位、支持传入 WebLayout(下拉回弹效果)、支持自定义 WebView、支持 JsBridge
* [cookpete/react-player](https://github.com/cookpete/react-player) 用于播放各种 URL 的 React 组件,包括文件路径、YouTube、Facebook、Twitch、SoundCloud、Streamable、Vimeo、Wistia 和 DailyMotion
* [gnab/remark](https://github.com/gnab/remark) 一个简单的、浏览器内的、Markdown 驱动的幻灯片工具。
* [remarkjs/react-markdown](https://github.com/remarkjs/react-markdown) React 组件来渲染 markdown。
* [ikatyang/emoji-cheat-sheet](https://github.com/ikatyang/emoji-cheat-sheet) markdown版表情符号备忘单
* [vnotex/vnote](https://github.com/vnotex/vnote) 一个令人愉快的笔记平台。基于 Qt 的免费开源笔记应用程序,现在专注于 Markdown。VNote旨在提供一个令人愉快的笔记平台,具有出色的编辑体验。
* [usememos/memos](https://github.com/usememos/memos) 开源的、轻量级的笔记服务。轻松捕捉和分享您的伟大想法。
* [jxnblk/mdx-deck](https://github.com/jxnblk/mdx-deck) 基于React MDX的演示文稿,在Markdown中编写演示文稿,导入和使用React组件,可自定义的主题和组件,零配置 CLI,演示者模式,演讲者笔记。
* [minimaxir/big-list-of-naughty-strings](https://github.com/minimaxir/big-list-of-naughty-strings) 顽皮字符串大列表是一个字符串列表,这些字符串在用作用户输入数据时很有可能引起问题。
* [pmndrs/jotai](https://github.com/pmndrs/jotai) React 的原始和灵活的状态管理
* [electron-userland/electron-builder](https://github.com/electron-userland/electron-builder) 一个完整的解决方案,用于打包和构建一个开箱即用的“自动更新”支持的 Electron 应用程序
* [mozilla/pdf.js](https://github.com/mozilla/pdf.js) 使用 HTML5 构建的可移植文档格式 (PDF) 查看器。PDF.js由社区驱动,并得到Mozilla的支持。我们的目标是创建一个通用的、基于 Web 标准的平台,用于解析和渲染 PDF。
* [nativefier/nativefier](https://github.com/nativefier/nativefier) 命令行工具,可以轻松地为任何网站创建“桌面应用程序”,而无需大惊小怪。应用程序由 Electron(后台使用 Chromium)包装在可在 Windows、macOS 和 Linux 上使用的操作系统可执行文件( `.app` 、 `.exe` 等)中。
* [bailicangdu/vue2-elm](https://github.com/bailicangdu/vue2-elm) 基于 vue2 + vuex 构建一个具有 45 个页面的大型单页面应用
* [pmndrs/react-spring](https://github.com/pmndrs/react-spring) 一个跨平台的 Spring-Physics First 动画库。
* [pmndrs/react-three-fiber](https://github.com/pmndrs/react-three-fiber) 用于 Three.js 的 React 渲染器,使用可重用的、独立的组件以声明方式构建场景,这些组件对状态做出反应,易于交互,并且可以参与 React 的生态系统。
* [redux-saga/redux-saga](https://github.com/redux-saga/redux-saga) 一个库,旨在使应用程序的副作用(即异步的事情,如数据获取和不纯粹的事情,如访问浏览器缓存)更易于管理,更高效地执行,更易于测试,并且更好地处理故障。
* [marmelab/react-admin](https://github.com/marmelab/react-admin) 一个前端框架,用于使用 TypeScript、React 和 Material Design 构建在 REST/GraphQL API 上运行的数据驱动应用程序
* [tailwindlabs/headlessui](https://github.com/tailwindlabs/headlessui) 一组完全无样式、完全可访问的 UI 组件,旨在与 Tailwind CSS 完美集成。
* [reduxjs/react-redux](https://github.com/reduxjs/react-redux) Redux 的官方 React 绑定。高性能和灵活性。Redux 是 JavaScript 应用程序的可预测状态容器。
* [alan2207/bulletproof-react](https://github.com/alan2207/bulletproof-react) 简单、可扩展且功能强大的架构,用于构建生产就绪的 React 应用程序。
* [react-dnd/react-dnd](https://github.com/react-dnd/react-dnd) React 实用程序,可帮助您构建复杂的拖放界面,同时保持组件解耦。它非常适合 Trello 和 Storify 等应用程序,在这些应用程序中,拖动在应用程序的不同部分之间传输数据,组件会根据拖放事件更改其外观和应用程序状态。
* [AmruthPillai/Reactive-Resume](https://github.com/AmruthPillai/Reactive-Resume) 独一无二的简历生成器,牢记您的隐私。完全安全、可定制、便携、开源且永久免费。今天就试试吧!
* [nfl/react-helmet](https://github.com/nfl/react-helmet) 可重用的 React 组件将管理你对文档头的所有更改。
* [redwoodjs/redwood](https://github.com/redwoodjs/redwood) 一个固执己见的全栈 JavaScript/TypeScript Web 应用程序框架,旨在让您在应用程序从副项目到启动的过程中快速前进。
* [segment-boneyard/nightmare](https://github.com/segment-boneyard/nightmare) 高级浏览器自动化库。目标是公开一些模仿用户操作的简单方法(如 goto 和 type click ),其 API 对每个脚本块都感觉同步,而不是深度嵌套的回调。它最初设计用于跨没有 API 的站点自动执行任务,但最常用于 UI 测试和爬虫。在幕后,它使用 Electron,它类似于 PhantomJS,但速度大约是 PhantomJS 的两倍,而且更现代。
* [ariya/phantomjs](https://github.com/ariya/phantomjs) 可编写脚本的无头浏览器
* [wulkano/Kap](https://github.com/wulkano/Kap) 使用 Web 技术构建的开源屏幕录像机
* [sql-js/sql.js](https://github.com/sql-js/sql.js) 用于在 Web 上运行 SQLite 的 javascript 库。
* [Asabeneh/30-Days-Of-React](https://github.com/Asabeneh/30-Days-Of-React) 30 天 React 挑战是在 30 天内学习 React 的分步指南。这些[视频](https://www.youtube.com/channel/UC7PNRuno1rzYPb1xLa4yktw)也可能有所帮助
* [pubkey/rxdb](https://github.com/pubkey/rxdb) 一个快速的、本地的、反应式的、用于 JavaScript 应用程序的数据库
* [pure-css/pure](https://github.com/pure-css/pure) 一组小型响应式 CSS 模块,可在每个 Web 项目中使用。
* [material-components/material-components-web](https://github.com/material-components/material-components-web) 适用于 Web 的模块化和可自定义的 Material Design UI 组件
* [material-components/material-web](https://github.com/material-components/material-web) UI 工具包,用于构建可自定义且可访问的 Web 应用程序。
* [tabler/tabler-icons](https://github.com/tabler/tabler-icons) 超过4900个免费MIT许可的高质量SVG图标,供Web项目使用。
* [Tencent/omi](https://github.com/Tencent/omi) Omi - Web 组件框架,通过无功信号进行信号驱动的无功编程;100+ OMI模板和OMI模板源代码;OMI表单和OMI表单游乐场和Lucide Omi图标;OMIU预览正在进行中&OMIU源代码;体积小,性能快;您需要的一切:Web 组件、JSX、函数组件、路由器、悬念、指令、Tailwindcss......;支持面向对象编程(OOP)和面向数据编程(DOP);利用可构建的样式表轻松管理和共享样式
* [wenzhixin/bootstrap-table](https://github.com/wenzhixin/bootstrap-table) 扩展表,用于与一些最广泛使用的 CSS 框架集成。(支持 Bootstrap、Semantic UI、Bulma、Material Design、Foundation Vue.js)
* [jlmakes/scrollreveal](https://github.com/jlmakes/scrollreveal) 在元素滚动到视图中时对其进行动画处理。
* [WasmEdge/WasmEdge](https://github.com/WasmEdge/WasmEdge) 轻量级、高性能、可扩展的 WebAssembly 运行时,适用于云原生、边缘和去中心化应用程序。它为无服务器应用程序、嵌入式函数、微服务、智能合约和物联网设备提供支持。
* [Stirling-Tools/Stirling-PDF](https://github.com/Stirling-Tools/Stirling-PDF) 本地托管的 Web 应用,允许您对 PDF 文件执行各种操作
* [ahmadbilaldev/langui](https://github.com/ahmadbilaldev/langui) 适用于 AI 的 UI。为您的 GPT、生成式 AI 和LLM项目量身定制的开源 Tailwind 组件。
* [ohmplatform/FreedomGPT](https://github.com/ohmplatform/FreedomGPT) 基于 React 和 Electron 的应用程序,该应用程序使用基于聊天的界面在 Mac 和 Windows 上本地(离线和私有)执行 FreedomGPT LLM
* [dot-agent/nextpy](https://github.com/dot-agent/nextpy) 轻松快速地构建任何 Web 应用程序。它简化了从后端到前端(是的,Python 中的视觉上令人惊叹的前端!)、AI 集成、API 等所有方面的 Python 开发,从而为人类和 AI 代理提供支持。
* [Avaiga/taipy](https://github.com/Avaiga/taipy) 立即将数据和 AI 算法转换为生产就绪型 Web 应用程序。开发应用程序的前端,而无需了解 HTML、CSS 和 JS。通过简单的语法,加速创建可自定义的多页仪表板,并生成交互式界面,包括图表和各种广泛使用的控件。对数据流进行建模并编排管道。在存储、记录和可操作方案(管道执行)时对其进行管理,从而实现假设分析或 KPI 比较。
* [mdbootstrap/TW-Elements](https://github.com/mdbootstrap/TW-Elements) Tailwind CSS 的大量免费交互式组件集合。
* [IanLunn/Hover](https://github.com/IanLunn/Hover) CSS3 驱动的悬停效果,可用于链接、按钮、徽标、SVG、特色图像等。轻松应用于您自己的元素,修改或仅用于灵感。在 CSS、Sass 和 LESS 中可用。
* [Advanced-Frontend/Daily-Interview-Question](https://github.com/Advanced-Frontend/Daily-Interview-Question) 公众号「高级前端进阶」作者,每天搞定一道前端大厂面试题
* [shoelace-style/shoelace](https://github.com/shoelace-style/shoelace) 基于 Web 标准构建的专业设计、日常 UI 组件的集合。适用于所有框架以及常规 HTML/CSS/JS
* [framework7io/framework7](https://github.com/framework7io/framework7) 构建 iOS 和 Android 应用程序的全功能 HTML 框架
* [weilanwl/coloruicss](https://github.com/weilanwl/coloruicss) 鲜亮的高饱和色彩,专注视觉的小程序组件库
* [twbs/ratchet](https://github.com/twbs/ratchet) 使用简单的 HTML、CSS 和 JavaScript 组件构建移动应用程序。
* [picocss/pico](https://github.com/picocss/pico) 极简而轻量级的入门工具包,优先考虑语义语法,使每个 HTML 元素在默认情况下都具有响应性和优雅性。
* [google/iosched](https://github.com/google/iosched) Android 版 Google I/O 应用
* [stylus/stylus](https://github.com/stylus/stylus) 为 nodejs 构建的富有表现力、健壮性、功能丰富的 CSS 语言
* [less/less.js](https://github.com/less/less.js) 动态CSS样式表语言
* [abpframework/abp](https://github.com/abpframework/abp) 适用于 ASP.NET Core 的开源 Web 应用程序框架。在 .NET 和 ASP.NET Core 平台之上构建具有最佳实践的企业软件解决方案。提供基础基础架构、生产就绪启动模板、应用程序模块、UI 主题、工具、指南和文档。
* [aspnetboilerplate/aspnetboilerplate](https://github.com/aspnetboilerplate/aspnetboilerplate) 通用应用程序框架,专为新的现代 Web 应用程序而设计。为您提供可靠的开发体验。
* [appium/appium](https://github.com/appium/appium) 基于 W3C WebDriver 协议构建的各种应用的跨平台自动化框架
* [Tonejs/Tone.js](https://github.com/Tonejs/Tone.js) 用于在浏览器中制作交互式音乐的 Web 音频框架。
* [barbajs/barba](https://github.com/barbajs/barba) 小型(缩小和压缩 7kb)且易于使用的库,可帮助您在网站页面之间创建流畅和平滑的过渡。它使您的网站像 SPA(单页应用程序)一样运行,并有助于减少页面之间的延迟,最大限度地减少浏览器 HTTP 请求并增强用户的 Web 体验。
* [theatre-js/theatre](https://github.com/theatre-js/theatre) 适用于 Web 的动态设计编辑器
* [emilwallner/Screenshot-to-code](https://github.com/emilwallner/Screenshot-to-code) 将设计模型转换为静态网站的神经网络。
* [ffmpegwasm/ffmpeg.wasm](https://github.com/ffmpegwasm/ffmpeg.wasm) 是 FFmpeg 的纯 Webassembly / Javascript 端口。它支持在浏览器中录制视频和音频,转换和流式传输。
* [formkit/auto-animate](https://github.com/formkit/auto-animate) 零配置的插入式动画实用程序,可为您的 Web 应用程序添加平滑过渡。您可以将它与 React、Vue 或任何其他 JavaScript 应用程序一起使用。
* [AirtestProject/Airtest](https://github.com/AirtestProject/Airtest) 适用于游戏和应用的 UI 自动化框架
* [johannesjo/super-productivity](https://github.com/johannesjo/super-productivity) 私密且安全的 AI 工具,帮助每个人提高工作效率。
* [academicpages/academicpages.github.io](https://github.com/academicpages/academicpages.github.io) 学术个人网站的 Github 页面模板
* [josdejong/jsoneditor](https://github.com/josdejong/jsoneditor) 基于 Web 的工具,用于查看、编辑、格式化和验证 JSON
* [emotion-js/emotion](https://github.com/emotion-js/emotion) 专为高性能样式组合而设计的 CSS-in-JS 库
* [callstack/linaria](https://github.com/callstack/linaria) JS 库中的零运行时 CSS
* [necolas/normalize.css](https://github.com/necolas/normalize.css) CSS 重置的现代替代方案
* [styled-components/styled-components](https://github.com/styled-components/styled-components) 组件时代的视觉基元。使用 ES6 和 CSS 的精华来轻松设置应用程序的样式
* [Dogfalo/materialize](https://github.com/Dogfalo/materialize) 基于 Material Design 的 CSS 框架
* [postcss/autoprefixer](https://github.com/postcss/autoprefixer) PostCSS 插件,用于解析 CSS 并使用 Can I Use 中的值向 CSS 规则添加供应商前缀。它被谷歌推荐,并在Twitter和阿里巴巴中使用。
* [nostalgic-css/NES.css](https://github.com/nostalgic-css/NES.css) NES 风格的 CSS 框架 | Famicom 风格的 CSS 框架
* [chokcoco/iCSS](https://github.com/chokcoco/iCSS) 本 Repo 围绕 CSS/Web动画 展开,谈一些有趣的话题,内容天马行空,想到什么说什么,不仅是为了拓宽解决问题的思路,更涉及一些容易忽视或是十分有趣的 CSS 细节。
* [primer/css](https://github.com/primer/css) 支持 GitHub 的 CSS 设计系统
* [ksky521/nodeppt](https://github.com/ksky521/nodeppt) 网络演示工具,nodeppt 2.0 基于webslides、webpack、markdown-it、posthtml 重构,https://nodeppt.js.org
* [stylelint/stylelint](https://github.com/stylelint/stylelint) 一个强大的 CSS linter,可帮助您避免错误并强制执行约定。
* [selectize/selectize.js](https://github.com/selectize/selectize.js) 可扩展的基于 jQuery 的自定义; select UI 控件。它可用于标记、联系人列表、国家/地区选择器等。目标是通过干净而强大的 API 提供可靠且可用的体验。
* [mdx-js/mdx](https://github.com/mdx-js/mdx) 可创作的格式,可让您在 Markdown 文档中无缝编写 JSX。您可以导入组件(如交互式图表或警报),并将它们嵌入到您的内容中。这使得编写带有组件的长篇内容变得爆炸。
* [yangshun/front-end-interview-handbook](https://github.com/yangshun/front-end-interview-handbook) 为繁忙的工程师准备前端面试材料
* [mdbootstrap/mdb-ui-kit](https://github.com/mdbootstrap/mdb-ui-kit) Bootstrap 5 和 Material Design UI 套件,Bootstrap 5 UI KIT - 700+ 组件,纯 JavaScript,MIT 许可证,安装简单。
* [Popmotion/popmotion](https://github.com/Popmotion/popmotion) 简单的动画库,提供令人愉悦的用户界面
* [vueComponent/ant-design-vue](https://github.com/vueComponent/ant-design-vue) 基于 Ant Design 和 Vue 的企业级 UI 组件。
* [thedaviddias/Front-End-Performance-Checklist](https://github.com/thedaviddias/Front-End-Performance-Checklist) 唯一运行速度比其他检查表更快的前端性能检查表
* [Chalarangelo/30-seconds-of-css](https://github.com/Chalarangelo/30-seconds-of-css) 满足您所有开发需求的简短 CSS 代码片段
* [grab/front-end-guide](https://github.com/grab/front-end-guide) 学习指南和现代前端堆栈介绍。
* [thomaspark/bootswatch](https://github.com/thomaspark/bootswatch) Bootstrap 的开源主题集合
* [jessepollak/card](https://github.com/jessepollak/card) 在一行代码中使您的信用卡表格更好
* [vueComponent/ant-design-vue-pro](https://github.com/vueComponent/ant-design-vue-pro) 像专业人士一样使用 Ant Design Vue2
* [yygmind/blog](https://github.com/yygmind/blog) 每周重点攻克一个前端面试重难点,走进高级前端的世界
* [tsayen/dom-to-image](https://github.com/tsayen/dom-to-image) 使用 HTML5 画布从 DOM 节点生成图像
* [hakanyalcinkaya/kodluyoruz-frontend-101-egitimi](https://github.com/hakanyalcinkaya/kodluyoruz-frontend-101-egitimi) 从头开始进行项目的前端和 React 培训
* [lipis/flag-icons](https://github.com/lipis/flag-icons) SVG 中所有国家国旗的精选集合 - 加上 CSS,以便于集成
* [milligram/milligram](https://github.com/milligram/milligram) 极简的CSS框架。Milligram 提供最少的样式设置,以实现快速、干净的起点。就是这样!只有 2kb gzipped!这与 UI 框架无关。专为更好的性能和更高的生产率而设计,需要重置的属性更少,从而使代码更清晰。
* [alexfoxy/lax.js](https://github.com/alexfoxy/lax.js) 简单轻量级(<4kb gzip压缩)香草JavaScript库,可在滚动时创建流畅而美丽的动画。
* [invertase/react-native-firebase](https://github.com/invertase/react-native-firebase) 经过充分测试、功能丰富的模块化 Firebase 实现,适用于 React Native。支持所有 Firebase 服务的 iOS 和 Android 平台。
* [fullcalendar/fullcalendar](https://github.com/fullcalendar/fullcalendar) JavaScript 中的全尺寸拖放事件日历
* [jonasschmedtmann/complete-javascript-course](https://github.com/jonasschmedtmann/complete-javascript-course) 我的 Complete JavaScript 课程的入门文件、最终项目和常见问题解答
* [expo/create-react-native-app](https://github.com/expo/create-react-native-app) 创建在 iOS、Android 和 Web 上运行的 React Native 应用程序
* [Instagram/IGListKit](https://github.com/Instagram/IGListKit) 数据驱动的 UICollectionView 框架,用于构建快速灵活的列表。
* [Anarios/return-youtube-dislike](https://github.com/Anarios/return-youtube-dislike) Chrome 扩展程序返回 youtube 不喜欢
* [atlas-engineer/nyxt](https://github.com/atlas-engineer/nyxt) 专为黑客设计的键盘驱动的 Web 浏览器。受 Emacs 和 Vim 的启发,它具有熟悉的键绑定(Emacs、vi、CUA),并且在 Lisp 中可以无限扩展。
* [darkreader/darkreader](https://github.com/darkreader/darkreader) Dark Reader Chrome 和 Firefox 扩展程序,分析网页,旨在减少浏览网页时的眼睛疲劳。
* [FormidableLabs/victory](https://github.com/FormidableLabs/victory) 用于构建交互式数据可视化的可组合 React 组件的集合
* [frappe/charts](https://github.com/frappe/charts) 简单、响应迅速、现代的 SVG 图表,零依赖性
* [webpack-contrib/webpack-bundle-analyzer](https://github.com/webpack-contrib/webpack-bundle-analyzer) Webpack 插件和 CLI 实用程序,将捆绑包内容表示为方便的交互式可缩放树状图
* [dream-num/univer](https://github.com/dream-num/univer) 一套企业文档和数据协作解决方案。包括电子表格、文档和幻灯片。高度可扩展的设计允许开发人员基于 Universal 定制个性化功能。
* [drizzle-team/drizzle-orm](https://github.com/drizzle-team/drizzle-orm) TypeScript ORM。在 Node、Bun 和 Deno 上运行。也是一个 JavaScript ORM。支持所有 PostgreSQL、MySQL 和 SQLite 数据库,包括 Turso、Neon、Xata、PlanetScale、Cloudflare D1、FlyIO LiteFS、Vercel Postgres、Supabase 和 AWS Data API 等无服务器数据库。
* [plouc/nivo](https://github.com/plouc/nivo) 一组丰富的 dataviz 组件,构建在令人敬畏的 d3 和 React 库之上
* [keen/dashboards](https://github.com/keen/dashboards) 响应式仪表板模板
* [dexie/Dexie.js](https://github.com/dexie/Dexie.js) indexedDB 的包装库 - 浏览器中的标准数据库。
* [aidenybai/million](https://github.com/aidenybai/million) 优化 React 性能,让React 在几分钟内提高 70%。
* [edent/SuperTinyIcons](https://github.com/edent/SuperTinyIcons) 每个小于 1KB!Super Tiny Icons 是您最喜爱的网站和应用程序徽标的微小 SVG 版本
* [sveltejs/kit](https://github.com/sveltejs/kit) 简化Web 开发,由 Svelte 和 Vite 提供支持,速度融入每个缝隙:快速设置、快速开发、快速构建、快速页面加载、快速导航。再也不用浪费时间去弄清楚捆绑器配置、路由、SSR、CSP、TypeScript、部署设置和所有其他无聊的东西了。快乐地编码。为您提供了成功的工具,无论您正在构建什么。它可以在 JavaScript 的任何地方运行。用于使用 Svelte 快速开发健壮、高性能的 Web 应用程序。如果你来自 React,SvelteKit 类似于 Next。如果你来自 Vue,SvelteKit 类似于 Nuxt。
* [getgridea/gridea](https://github.com/getgridea/gridea) 静态的博客写作客户端。你可以用它来记录你的生活、心情、知识、笔记和想法
* [markdown-it/markdown-it](https://github.com/markdown-it/markdown-it) Markdown 解析器,做对了。100%CommonMark支持,扩展,语法插件和高速
* [socketio/socket.io-client](https://github.com/socketio/socket.io-client) 实时应用程序框架(客户端),可在客户端和服务器之间实现低延迟、双向和基于事件的通信。
* [chromium/chromium](https://github.com/chromium/chromium) 开源浏览器项目,旨在为所有用户构建一种更安全、更快速、更稳定的网络体验方式。
* [ungoogled-software/ungoogled-chromium](https://github.com/ungoogled-software/ungoogled-chromium?tab=readme-ov-file#downloads) Google Chromium,没有与 Google 集成。尽可能保留默认的 Chromium 体验。Chromium 的直接替代品。Ungoogled-Chromium 功能进行了调整,以增强隐私、控制和透明度。但是,几乎所有这些功能都必须手动激活或启用。
* [NorthwoodsSoftware/GoJS](https://github.com/NorthwoodsSoftware/GoJS) 用于交互式流程图、组织结构图、设计工具、规划工具、可视化语言的 JavaScript 图表库。
* [nightwatchjs/nightwatch](https://github.com/nightwatchjs/nightwatch) 使用 Node.js 编写并使用 W3C Webdriver API 编写的集成端到端测试框架。
* [febobo/web-interview](https://github.com/febobo/web-interview) 语音打卡社群维护的前端面试题库,包含不限于Vue面试题,React面试题,JS面试题,HTTP面试题,工程化面试题,CSS面试题,算法面试题,大厂面试题,高频面试题
* [tariqbuilds/linux-dash](https://github.com/tariqbuilds/linux-dash) 适用于 Linux 的精美 Web 仪表板
* [teamcapybara/capybara](https://github.com/teamcapybara/capybara) 模拟真实用户如何与您的应用程序交互来帮助您测试 Web 应用程序。它与运行测试的驱动程序无关,并内置了 Rack::Test 和 Selenium 支持。WebKit 通过外部 Gem 受支持。
* [tsparticles/tsparticles](https://github.com/tsparticles/tsparticles) 轻松创建高度可定制的 JavaScript 粒子效果、五彩纸屑爆炸和烟花动画,并将它们用作您网站的动画背景
* [arco-design/arco-design](https://github.com/arco-design/arco-design) 基于 Arco Design 的综合 React UI 组件库
* [projectstorm/react-diagrams](https://github.com/projectstorm/react-diagrams) 用 React 编写的超级简单、严肃的图表库,可以正常工作,灵感来自Blender、Labview和虚幻引擎。该库完全用 Typescript 和 React 编写的现代代码库利用强大的泛型、先进的软件工程原理,并分为多个模块。整个库(包括其核心)是可破解和可扩展的,可以扩展、重新布线和重新组装成完全不同的软件,以满足您自己的软件需求。HTML 节点作为一等公民,该库最初是为了表示高级动态节点而编写的,由于复杂的输入要求 ux 要求,这些节点很难表示为 SVG。该库专为流程而设计,面向希望在运行时重新连接程序并希望使其软件更具动态性的软件工程师。提供的默认值的快速图表编辑为尽可能快地编辑图表提供了最高优先级。
* [uber/react-vis](https://github.com/uber/react-vis) 用于渲染常见数据可视化图表的 react 组件集合,例如折线图/面积图/条形图、热图、散点图、等值线图、六边形热图、饼图和圆环图、旭日图、雷达图、平行坐标和树状图。
* [Nozbe/WatermelonDB](https://github.com/Nozbe/WatermelonDB) 用于强大的 React 和 React Native 应用程序的响应式和异步数据库
* [cyclejs/cyclejs](https://github.com/cyclejs/cyclejs) 用于可预测代码的功能性和响应式 JavaScript 框架
* [reactstrap/reactstrap](https://github.com/reactstrap/reactstrap) Bootstrap 5 的无状态 React 组件。
* [styleguidist/react-styleguidist](https://github.com/styleguidist/react-styleguidist) 组件开发环境,具有热重载的开发服务器和可以与团队分享的生活方式指南。它列出了组件 `propTypes` ,并显示了基于 Markdown 文件的实时、可编辑的使用示例。查看演示样式指南。
* [react-icons/react-icons](https://github.com/react-icons/react-icons) 流行图标包的 SVG React 图标
* [callstack/react-native-paper](https://github.com/callstack/react-native-paper) 跨平台的 UI 工具包库,包含一系列可定制和生产就绪的组件,默认情况下,这些组件遵循并遵守 Google 的 Material Design 指南。
* [reactioncommerce/reaction](https://github.com/reactioncommerce/reaction) 使用 Node.js、MongoDB 和 GraphQL 构建的 API 优先、无头商务平台。它与 npm、Docker 和 Kubernetes 配合得很好。
* [hwix/react-native-navigation](https://github.com/wix/react-native-navigation) 在 iOS 和 Android 上为 React Native 应用程序提供 100% 的原生平台导航。JavaScript API 简单且跨平台 - 只需将其安装在您的应用程序中,即可为您的用户提供他们应得的原生感觉。
* [danilowoz/react-content-loader](https://github.com/danilowoz/react-content-loader) SVG 驱动的组件,可轻松创建占位符加载(如 Facebook 的卡片加载)。
* [vuejs/vitepress](https://github.com/vuejs/vitepress) 由 Vue 驱动的静态站点生成器,也是 VuePress 的精神继承者,建立在 Vite 之上。
* [vuematerial/vue-material](https://github.com/vuematerial/vue-material) 带有 Material Design 的即用型 Vue 组件,永久免费。
* [c3js/c3](https://github.com/c3js/c3) 基于 D3 的可重用图表库,可以将图表更深入地集成到 Web 应用程序中。
* [shadcn-ui/taxonomy](https://github.com/shadcn-ui/taxonomy) 使用新的路由器、服务器组件和 Next.js 13 中的所有新功能构建的开源应用程序。
* [angular-ui/ui-router](https://github.com/angular-ui/ui-router) 在 AngularJS 中使用嵌套视图进行灵活路由的事实上的解决方案
* [blitz-js/blitz](https://github.com/blitz-js/blitz) Next.js的全栈工具包
* [katspaugh/wavesurfer.js](https://github.com/katspaugh/wavesurfer.js)
交互式波形渲染和音频播放库,非常适合 Web 应用程序。它利用现代 Web 技术提供强大且视觉上引人入胜的音频体验。* [troisjs/trois](https://github.com/troisjs/trois) ThreeJS + VueJS 3 + ViteJS,重写一些 WebGL 演示
* [arkenfox/user.js](https://github.com/arkenfox/user.js) Firefox 隐私、安全和反跟踪:用于配置和强化的综合user.js模板
* [markmead/hyperui](https://github.com/markmead/hyperui) 用于应用程序 UI、电子商务和营销的免费 Tailwind CSS 组件,支持深色模式、RTL 和 Alpine JS
* [mapbox/mapbox-gl-js](https://github.com/mapbox/mapbox-gl-js) JavaScript 库,用于在 Web 上创建交互式、可自定义的矢量地图。它采用符合 Mapbox 样式规范的地图样式,将其应用于符合 Mapbox 矢量切片规范的矢量切片,并使用 WebGL 进行渲染。
* [visgl/react-map-gl](https://github.com/visgl/react-map-gl) 围绕 MapboxGL(地图) JS 的 React 友好 API 包装器
* [you-dont-need/You-Dont-Need-Momentjs](https://github.com/you-dont-need/You-Dont-Need-Momentjs) 很棒的时间和日期库,具有许多出色的功能和实用程序。但是,如果您正在处理对性能敏感的 Web 应用程序,则由于其复杂的 API 和较大的捆绑包大小,可能会导致巨大的性能开销。
* [exceljs/exceljs](https://github.com/exceljs/exceljs) js 读取、操作电子表格数据和样式并将其写入 XLSX 和 JSON。从 Excel 电子表格文件作为项目进行逆向工程。
* [jwilber/roughViz](https://github.com/jwilber/roughViz) 可重用的 JavaScript 库,用于在浏览器中创建粗略/手绘样式的图表。
* [bpmn-io/bpmn-js](https://github.com/bpmn-io/bpmn-js) BPMN 2.0 渲染工具包和 Web 建模器。在浏览器中查看和编辑 BPMN 2.0 图表。
* [HugoBlox/hugo-blox-builder](https://github.com/HugoBlox/hugo-blox-builder) 轻松创建任何类型的网站 - 无需代码。 一个应用程序,没有依赖项,没有 JS
* [rawgraphs/rawgraphs-app](https://github.com/rawgraphs/rawgraphs-app) 一个 Web 界面,用于在 RAWGraphs 核心之上创建基于矢量的自定义可视化。RAWGraphs 是一个开放的 Web 工具,用于在令人惊叹的 d3.js 库之上创建基于矢量的自定义可视化。它由DensityDesign Research Lab(米兰理工大学)、Calibro和INMAGIK开发。
* [bubkoo/html-to-image](https://github.com/bubkoo/html-to-image) 使用 HTML5 canvas 和 SVG 从 DOM 节点来生成图像。
* [cure53/DOMPurify](https://github.com/cure53/DOMPurify) 纯 DOM、超快速、超宽容的 XSS 清理程序,适用于 HTML、MathML 和 SVG。DOMPurify 使用安全默认值,但提供了许多可配置性和钩子。
* [obsidiandynamics/kafdrop](https://github.com/obsidiandynamics/kafdrop) Web UI,用于查看 Kafka 主题和浏览消费者组。该工具显示代理、主题、分区、使用者等信息,并允许您查看消息。
* [BrowserBox/BrowserBox](https://github.com/BrowserBox/BrowserBox) 从服务器上运行的浏览器浏览 Web,而不是在本地设备上。轻量级虚拟浏览器。为了安全、隐私等。基于 Web 的小型浏览器,可以嵌入到任何地方。它也是多人游戏,允许许多客户端同时在屏幕上共享相同的浏览会话。它轻巧且快速,消耗最少的系统资源,同时调整其流媒体质量,以利用尽可能多的带宽来提供低延迟、响应迅速的体验。
* [Countly/countly-server](https://github.com/Countly/countly-server) 产品分析平台,可帮助团队跟踪、分析和处理他们在移动、Web 和桌面应用程序上的用户操作和行为。
* [maplibre/maplibre-gl-js](https://github.com/maplibre/maplibre-gl-js) WebGL2 中的交互式矢量瓦片地图
* [aurelia/framework](https://github.com/aurelia/framework) Aurelia 1 框架入口点,汇集了 Aurelia 的所有必需子模块。现代的前端 JavaScript 框架,用于构建浏览器、移动和桌面应用程序。它侧重于与 Web 平台规范紧密保持一致,使用约定而不是配置,并最大限度地减少框架入侵。基本上,我们希望你只写你的代码,而框架不会妨碍你。
* [skonvajs/konva](https://github.com/konvajs/konva) HTML5 Canvas JavaScript 框架,它通过为桌面和移动应用程序启用画布交互性来扩展 2D 上下文。支持高性能动画、过渡、节点嵌套、分层、过滤、缓存、桌面和移动应用程序的事件处理等等。
* [CosmicMind/Material](https://github.com/CosmicMind/Material) 用于创建美观应用程序的 UI/UX 框架。Material 的动画系统已经过完全重新设计,以利用 Motion,一个专门用于动画和过渡的库。特征:完全可定制、运动动画和过渡、用于自动布局和网格系统的布局工具、颜色库、卡、FABMenu、图标、文本字段、Snackbar、制表符、芯片、搜索栏、导航控制器、导航抽屉、底部导航栏、示例项目
* [rough-stuff/rough](https://github.com/rough-stuff/rough) 小型 (<9 kB) 图形库,可让您以粗略的手绘风格进行绘制。该库定义了用于绘制直线、曲线、圆弧、多边形、圆形和椭圆的基元。它还支持绘制 SVG 路径。
* [mojs/mojs](https://github.com/mojs/mojs) JavaScript 动态图形库,它是一个快速、支持 Retina 的模块化和开源库。与其他库相比,它具有不同的语法和代码动画结构方法。声明式 API 为您提供了对动画的完全控制,使其易于自定义。该库提供了从头开始制作动画的内置组件,如 html、形状、漩涡、突发和交错,但也为您提供了帮助您以最自然的方式制作动画的工具。在您的网站上使用 mojs 将增强用户体验,在视觉上丰富您的内容并精确地创建令人愉悦的动画。
* [mde/ejs](https://github.com/mde/ejs) JavaScript的嵌入式模板。用<% %>来控制流程,中间 JavaScript 的静态缓存,模板的静态缓存。
* [Juanpe/SkeletonView](https://github.com/Juanpe/SkeletonView) 一种swift优雅的骨架动画,可以向用户展示正在发生的事情,并让他们准备好他们正在等待的内容
* [xmartlabs/Eureka](https://github.com/xmartlabs/Eureka) Swift 中优雅的 iOS 表单构建器
* [snabbdom/snabbdom](https://github.com/snabbdom/snabbdom) 一个虚拟 DOM 库,专注于简单性、模块化、强大的功能和性能。虚拟DOM真是太棒了。它允许我们将应用程序的视图表示为其状态的函数。但是现有的解决方案太臃肿,太慢,缺乏功能,API偏向于OOP,和/或缺乏我需要的功能。Snabbdom 由一个非常简单、高性能和可扩展的核心组成,该内核仅≈ 200 个 SLOC。它提供了一个模块化架构,具有丰富的功能,可以通过自定义模块进行扩展。为了保持核心的简单性,所有非必要的功能都委托给模块。
* [shepherd-pro/shepherd](https://github.com/shepherd-pro/shepherd) Shepherd 可以轻松创建自定义用户引导之旅、培训和公告,以推动用户采用。Shepherd 使您能够引导用户完成您的应用程序或网站中的自定义游览或旅程。Shepherd 具有高度可定制性,样式极简,允许强大的自定义,同时易于使用。支持各种框架,包括 React、Ember、Angular、Vue.js、ES 模块或纯 JavaScript。
* [logaretm/vee-validate](https://github.com/logaretm/vee-validate) 无痛 Vue 的表单,特征:简单:熟悉且易于设置的声明式验证;灵活:同步、异步、字段级或表单级验证;快速:使用直观的 API 和较小的占用空间更快地构建更快的表单;最小:仅处理复杂的表单问题,让您完全控制其他一切;UI 不可知:适用于本机 HTML 元素或您喜欢的 UI 库组件;渐进式:无论您是将Vue.js用作渐进式增强功能还是在复杂设置中,都有效;内置规则:具有 25+ 条规则的配套库,涵盖了大多数 Web 应用程序中的大多数需求; i18n:45+ 个内置规则语言环境,由来自世界各地的开发人员贡献
* [catppuccin/catppuccin](https://github.com/catppuccin/catppuccin) 社区驱动的粉彩主题,旨在成为低对比度和高对比度主题之间的中间地带。它由 4 种舒缓的温暖口味组成,每种口味有 26 种令人眼花缭乱的颜色,非常适合编码、设计等等!此外,该存储库还跟踪实际调色板的开发、项目的文档、组织范围的资产、资源和维护人员/开发人员的代码示例。
* [dotnet/runtime](https://github.com/dotnet/runtime) .NET 是适用于云、移动、桌面和 IoT 应用的跨平台运行时。所有受支持的平台生成 .NET 运行时、库和共享主机 ( dotnet ) 安装程序的代码,以及 .NET 运行时和库的源代码。
* [gristlabs/grist-core](https://github.com/gristlabs/grist-core) Grist 是电子表格的演变。它结合了电子表格的灵活性和数据库的健壮性。grist-core (此存储库)具有运行强大的电子表格托管服务器所需的一切。grist-electron 是一款 Linux/macOS/Windows 桌面应用程序,用于查看和编辑本地存储的电子表格。grist-static 是 Grist 的完全浏览器内构建,用于在没有后端支持的情况下在网站上显示电子表格。
* [DustinBrett/daedalOS](https://github.com/DustinBrett/daedalOS) 浏览器中的桌面环境,包括:文件系统、窗口、开始菜单、任务栏、背景、应用程序。
* [zyronon/douyin](https://github.com/zyronon/douyin) Vue3 + Pinia 仿抖音,Vue 在移动端的最佳实践 .模仿 TikTok 、Vue 移动端最佳实践。douyin-vue 是一个模仿 抖音|TikTok 的移动端短视频项目。Vue 在移动端的"最佳实践",媲美原生 App 丝滑流畅的使用体验。使用了最新的 Vue 技术栈,基于 Vue3、Vite5 、Pinia实现。数据保存在项目本地,通过 axios-mock-adapter 库拦截Api 并返回本地json数据,模拟真实后端请求。
* [zedeus/nitter](https://github.com/zedeus/nitter) 一个免费和开源的替代Twitter前端,专注于隐私和性能。灵感来自Invidious项目。没有 JavaScript 或广告。所有请求都通过后端,客户端从不与 Twitter 交谈。阻止 Twitter 跟踪您的 IP 或 JavaScript 指纹。使用 Twitter 的非官方 API(无需速率限制或开发者帐户)。轻量级(@nim_lang,60KB vs 784KB twitter.com)。RSS 订阅源。主题。移动支持(响应式设计)。AGPLv3 许可,不允许专有实例。
* [didi/DoKit](https://github.com/didi/DoKit) 一款面向泛前端产品研发全生命周期的效率平台。DoKit诞生于滴滴城运服体验技术部,是一款面向泛前端产品研发全生命周期的效率平台。经过两年的发展,当前DoKit已经发展成了一个相对完整的生态,比如DoKit For Android、DoKit For iOS、DoKit For 小程序、DoKit For Flutter、DoKit For Web。同时我们的项目被BAT以及滴滴、字节、快手、京东等等头部独角兽企业广泛使用并获得良好的口碑。随着dokit.cn平台端的推出,标志着DoKit已经从单纯的效率工具正式进入了效率工具平台的阶段。与此同时我们一直都未停下持续探索的精神,积极地在更多平台领域进行尝试,不给自己设限。我们相信DoKit的未来充满无限可能。每一个稍微有点规模的 App,总会自带一些线下的测试功能代码,比如环境切换功能、帧率查看功能等等,这些功能的切换入口往往放在各式各样的入口中,比如一些特殊的手势,双击 statusBar,双击某一个功能区块,或者新建一个 keyWindow 始终至于 App 最上方等等,而且每一个 App 里面的线下附带功能模块很多是相似的,比如帧率查看、内存和 CPU 监控等等,但是现在基本上都是每个 App 都是自己实现了一份,经历了以上的问题之后,DoKit 就有了它存在的意义。DoKit 是一个功能平台,能够让每一个 App 快速接入一些常用的或者你没有实现的一些辅助开发工具、测试效率工具、视觉辅助工具,而且能够完美在 Doraemon 面板中接入你已经实现的与业务紧密耦合的一些非通有的辅助工具,并搭配我们的dokit平台,让功能得到延伸,接入方便,便于扩展。简单总结:1、DoKit 能够快速让你的业务测试代码能够在这里统一管理,统一收口;2、DoKit 内置很多常用的工具,避免重复实现,一次接入,你将会拥有强大的工具集合;3、搭配dokit平台,借助接口Mock、健康体检、文件同步助手、一机多控让你方便和他人协同,极大的提升研发过程中的效率。
* [parcel-bundler/lightningcss](https://github.com/parcel-bundler/lightningcss) 一个用 Rust 编写的极快的 CSS 解析器、转换器、打包器和微型器。
* [djc/askama](https://github.com/djc/askama) 类型安全、编译的类似 Jinja 的 Rust 模板。Askama 实现了一个基于 Jinja 的模板渲染引擎。它在编译时根据用户定义 struct 的模板生成 Rust 代码,以保存模板的上下文。
* [mattboldt/typed.js](https://github.com/mattboldt/typed.js) JavaScript 类型动画库,Typed.js 是一个会打字的库。输入任何字符串,并观察它以您设置的速度输入,将键入的内容退格,并为您设置的字符串数量开始一个新句子。
* [ai/easings.net](https://github.com/ai/easings.net) 缓动函数 :自定义参数随时间变化的速率。 现实生活中,物体并不是突然启动或者停止, 当然也不可能一直保持匀速移动。就像我们 打开抽屉的过程那样,刚开始拉的那一下动作很快, 但是当抽屉被拉出来之后我们会不自觉的放慢动作。 或是掉落在地板上的物体,一开始下降的速度很快, 接着就会在地板上来回反弹直到停止。 这个页面将帮助你选择正确的缓动函数。
* [pacocoursey/cmdk](https://github.com/pacocoursey/cmdk) 快速、无样式的命令菜单 React 组件。⌘K 是一个命令菜单 React 组件,也可以用作可访问的组合框。您渲染项目,它会自动过滤和排序它们。⌘K 支持完全可组合的 API ,因此您可以将项目包装在其他组件中,甚至可以包装为静态 JSX。
### 管理面板
* [akveo/blur-admin](https://github.com/akveo/blur-admin) : AngularJS Bootstrap Admin 管理面板前端框架
* [ColorlibHQ/gentelella](https://github.com/ColorlibHQ/gentelella) 免费Bootstrap4 管理仪表板模板
* [akveo/ngx-admin](https://github.com/akveo/ngx-admin) 基于Angular 10 +的可定制管理仪表板模板
* [vbenjs/vue-vben-admin](https://github.com/vbenjs/vue-vben-admin) 免费的开源中后端模板。采用最新 vue3 、vite4 、TypeScript 等主流技术发展,开箱即用的中后端前端方案也可用于学习参考。
* [akveo/ngx-admin](https://github.com/akveo/ngx-admin) 基于 Angular 10+ 的可定制管理仪表板模板
* [iview/iview-admin](https://github.com/iview/iview-admin) 基于 iView 的 Vue 2.0 管理员管理系统模板
* [creativetimofficial/material-dashboard](https://github.com/creativetimofficial/material-dashboard) 免费的 Material Bootstrap Admin,具有受 Google Material Design 启发的全新设计。我们非常高兴地通过一套易于使用且美观的组件来介绍我们对材料概念的看法。Material Dashboard 建立在流行的 Bootstrap 框架之上,它带有几个经过重新设计的第三方插件,以适应其余元素。
* [epicmaxco/vuestic-admin](https://github.com/epicmaxco/vuestic-admin) 免费且漂亮的 Vue.js 管理模板,具有 44+ 自定义 UI 组件。用 Vuestic UI 构建的。
* [newbee-ltd/newbee-mall](https://github.com/newbee-ltd/newbee-mall) 一套电商系统,包括基础版本(Spring Boot+Thymeleaf)、前后端分离版本(Spring Boot+Vue 3+Element-Plus+Vue-Router 4+Pinia+Vant 4) 、秒杀版本、Go语言版本、微服务版本(Spring Cloud Alibaba+Nacos+Sentinel+Seata+Spring Cloud Gateway+OpenFeign+ELK)。 前台商城系统包含首页门户、商品分类、新品上线、首页轮播、商品推荐、商品搜索、商品展示、购物车、订单结算、订单流程、个人订单管理、会员中心、帮助中心等模块。 后台管理系统包含数据面板、轮播图管理、商品管理、订单管理、会员管理、分类管理、设置等模块。
* [yezihaohao/react-admin](https://github.com/yezihaohao/react-admin) react 后台管理系统解决方案
* [1Panel-dev/1Panel](https://github.com/1Panel-dev/1Panel) 现代化、开源的 Linux 服务器运维管理面板。
* [lin-xin/vue-manage-system](https://github.com/lin-xin/vue-manage-system) 基于 Vue3 + pinia + Element Plus 的后台管理系统解决方案。该方案作为一套多功能的后台框架模板,适用于绝大部分的后台管理系统开发。基于 Vue3 + pinia + typescript,引用 Element Plus 组件库,方便开发。实现逻辑简单,适合外包项目,快速交付。
* [honghuangdc/soybean-admin](https://github.com/honghuangdc/soybean-admin) 基于Vue3、Vite3、TypeScript、NaiveUI 和 UnoCSS的清新优雅的中后台模版
* [tabler/tabler](https://github.com/tabler/tabler) 建立在Bootstrap上的HTML Dashboard UI 工具包
* [coreui/coreui-free-bootstrap-admin-template](https://github.com/coreui/coreui-free-bootstrap-admin-template) 基于由专业人士创建和支持的企业级手工制作的 UI 组件库构建的开源 Bootstrap 管理仪表板模板。CoreUI 管理模板可帮助您比以前更快地构建可靠的 Web 应用。CoreUI提供4个版本:Angular,Bootstrap,React.js和Vue.js。
* [ColorlibHQ/AdminLTE](https://github.com/ColorlibHQ/AdminLTE) 基于 Bootstrap 4 的免费管理仪表板模板
* [chuzhixin/vue-admin-better](https://github.com/chuzhixin/vue-admin-better) vue后台管理
* [vbenjs/vue-vben-admin](https://github.com/vbenjs/vue-vben-admin) 免费开放源码的中间端和后端模板,使用最新的 vue3,vite2,TypeScript 和其他主流技术开发,可作为学习参考。
* [lyt-Top/vue-next-admin](https://github.com/lyt-Top/vue-next-admin) 基于 vue3.x + CompositionAPI setup 语法糖 + typescript + vite + element plus + vue-router-next + pinia 技术,适配手机、平板、pc 的后台开源免费模板,实现快速开发。
* [PanJiaChen/vue-element-admin](https://github.com/PanJiaChen/vue-element-admin) 后台前端解决方案,基于 [vue](https://github.com/vuejs/vue) 和 [element-ui](https://github.com/ElemeFE/element)。
* [cool-team-official/cool-admin-vue](https://github.com/cool-team-official/cool-admin-vue) 很酷的后台权限管理框架,模块化、插件化、CRUD极速开发,基于midway.js 3.0、typeorm、mysql、jwt、element-ui、vuex、vue-router、vue等构建
* [PanJiaChen/vue-admin-template](https://github.com/PanJiaChen/vue-admin-template) 一个最小的 vue 管理模板,带有 Element UI & axios & iconfont & 权限控制 & lint
* [flipped-aurora/gin-vue-admin](https://github.com/flipped-aurora/gin-vue-admin) 基于vite+vue3+gin搭建的开发基础平台(支持TS,JS混用),集成jwt鉴权,权限管理,动态路由,显隐可控组件,分页封装,多点登录拦截,资源权限,上传下载,代码生成器,表单生成器。
* [biubiubiu01/vue3-bigData](https://github.com/biubiubiu01/vue3-bigData) 基于vue的大数据分析系统,包含各种echarts和vue
* [RainManGO/vue3-composition-admin](https://github.com/RainManGO/vue3-composition-admin) 基于vue3 的管理端模板
* [newpanjing/simpleui](https://github.com/newpanjing/simpleui) 基于vue+element-ui的django admin现代化主题。全球20000+网站都在使用
* [pure-admin/vue-pure-admin](https://github.com/pure-admin/vue-pure-admin) Vue3+Vite4+Element-Plus+TypeScript编写的一款后台管理系统(兼容移动端)
* [YunaiV/ruoyi-vue-pro](https://github.com/YunaiV/ruoyi-vue-pro) 基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 微信小程序,支持 RBAC 动态权限、数据权限、SaaS 多租户、Flowable 工作流、三方登录、支付、短信、商城等功能。
* [elunez/eladmin](https://github.com/elunez/eladmin) eladmin jpa 版本:基于 Spring Boot 2.6.4、 Jpa、 Spring Security、Redis、Vue的前后端分离的后台管理系统,采用分模块开发方式, 权限控制采用 RBAC,支持数据字典与数据权限管理,一键生成前后端代码,支持动态路由
* [pure-admin/vue-pure-admin](https://github.com/pure-admin/vue-pure-admin) Vue3+Vite4+Element-Plus+TypeScript编写的一款后台管理系统(兼容移动端)
* [codecentric/spring-boot-admin](https://github.com/codecentric/spring-boot-admin) 用于管理 Spring Boot 应用程序的管理 UI
* [elunez/eladmin-web](https://github.com/elunez/eladmin-web) eladmin jpa版本:前端源码,项目基于 Spring Boot 2.1.0 、 Spring Boot Jpa、 Spring Security、Redis、Vue的前后端分离后台管理系统
* [macrozheng/mall-swarm](https://github.com/macrozheng/mall-swarm) 一套微服务商城系统,采用了 Spring Cloud 2021 & Alibaba、Spring Boot 2.7、Oauth2、MyBatis、Docker、Elasticsearch、Kubernetes等核心技术,同时提供了基于Vue的管理后台方便快速搭建系统。mall-swarm在电商业务的基础集成了注册中心、配置中心、监控中心、网关等系统功能。文档齐全,附带全套Spring Cloud教程。
* [YunaiV/yudao-cloud](https://github.com/YunaiV/yudao-cloud) 基于 Spring Cloud Alibaba + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能。
* [macrozheng/mall-learning](https://github.com/macrozheng/mall-learning) mall学习教程,架构、业务、技术要点全方位解析。mall项目(50k+star)是一套电商系统,使用现阶段主流技术实现。涵盖了SpringBoot 2.3.0、MyBatis 3.4.6、Elasticsearch 7.6.2、RabbitMQ 3.7.15、Redis 5.0、MongoDB 4.2.5、Mysql5.7等技术,采用Docker容器化部署。
* [jaywcjlove/icongo](https://github.com/jaywcjlove/icongo) 搜索 SVG 图标。轻松地在 React 项目中包含流行的图标,并提供一个简单的工具将 SVG 转换为 React 组件。[icongo](https://icongo.github.io/)
* [Lissy93/dashy](https://github.com/Lissy93/dashy) 为您构建的自托管个人仪表板。包括状态检查,小部件,主题,图标包,UI编辑器等等!
## 后端开发框架及项目
* [django/django](https://github.com/django/django) 高级Python Web框架,它鼓励快速开发和干净、实用的设计。
* [swoole/swoole-src](https://github.com/swoole/swoole-src) 一个事件驱动、异步、基于协程的高性能并发库,适用于 PHP。
* [celery/celery](https://github.com/celery/celery) 分布式任务队列。通过消息进行通信,通常使用代理在客户端和工作线程之间进行调解。为了启动任务,客户端将消息放入队列,然后代理将消息传递给工作线程。
* [humiaozuzu/awesome-flask](https://github.com/humiaozuzu/awesome-flask) 精选的 Flask 资源和插件列表
* [expressjs/express](https://github.com/expressjs/express) 快速,无配置,极简主义的node Web框架。
* [doocs/source-code-hunter](https://github.com/doocs/source-code-hunter) 从源码层面,剖析挖掘互联网行业主流技术的底层实现原理,为广大开发者 “提升技术深度” 提供便利。目前开放 Spring 全家桶,Mybatis、Netty、Dubbo 框架,及 Redis、Tomcat 中间件等
* [toutiaoio/awesome-architecture](https://github.com/toutiaoio/awesome-architecture) 架构师技术图谱,助你早日成为架构师
* [wuyouzhuguli/SpringAll](https://github.com/wuyouzhuguli/SpringAll) 循序渐进,学习Spring Boot、Spring Boot & Shiro、Spring Batch、Spring Cloud、Spring Cloud Alibaba、Spring Security & Spring Security OAuth2,博客Spring系列源码:https://mrbird.cc
* [withastro/astro](https://github.com/withastro/astro) 现代web网站构建工具 — 强大的开发人员经验,轻量级输出。
* [xingshaocheng/architect-awesome](https://github.com/xingshaocheng/architect-awesome) 后端架构师技术图谱
* [Tencent/mars](https://github.com/Tencent/mars) 微信开发的跨平台网络组件。跨平台,如果您正在开发多平台或多业务应用程序,则易于部署。适用于小容量数据传输。移动平台友好,低功耗和流量消耗。适合移动应用的网络解决方案。
* [fecshop/yii2_fecshop](https://github.com/fecshop/yii2_fecshop) 多语言多货币多入口的开源电商 B2C 商城,支持移动端vue, app, html5,微信小程序微店,微信小程序商城等
* [pocketbase/pocketbase](https://github.com/pocketbase/pocketbase) 集数据库、用户管理、UI和API等工具的后端开发框架。
* [oatpp/oatpp](https://github.com/oatpp/oatpp) 轻巧而强大的 C++ Web 框架,用于高度可扩展和资源高效的 Web 应用程序。它是零依赖且易于携带的。
* [labstack/echo](https://github.com/labstack/echo) 高性能、可扩展、极简的 Go Web 框架。功能:优化的HTTP路由器,智能确定路由优先级、构建强大可扩展的 RESTful API、组 API、可扩展中间件框架、在根组或路由级别定义中间件、JSON\XML 和表单有效负载的数据绑定、方便的函数,可发送各种HTTP响应、集中式 HTTP 错误处理、使用任何模板引擎进行模板渲染、定义记录器的格式、高度可定制、通过 Let's Encrypt 自动 TLS、HTTP/2 支持
* [codegangsta/gin](https://github.com/codegangsta/gin) Go Web 服务器的实时重新加载实用程序
* [denoland/fresh](https://github.com/denoland/fresh) 下一代 Web 框架,专为速度、可靠性和简单性而构建。一些突出的特点:边缘实时渲染。在客户端上无缝渲染某些组件,以实现最大的交互性。零运行时开销:默认情况下不向客户端发送 JS。没有构建步骤。无需配置。TypeScript 支持。文件系统路由 à la Next.js。
* [tiangolo/fastapi](https://github.com/tiangolo/fastapi) 现代、快速(高性能)的 Web 框架,用于基于标准 Python 类型提示使用 Python 3.7+ 构建 API。
* [remix-run/remix](https://github.com/remix-run/remix) 建立更好的网站。使用 Web 基础创建现代、有弹性的用户体验。全栈 Web 框架,可让您专注于用户界面并通过 Web 基础知识进行工作,以提供快速、流畅且有弹性的用户体验,可部署到任何 Node.js 服务器甚至非 Node.js 环境像 Cloudflare Workers 一样的边缘。
* [adonisjs/core](https://github.com/adonisjs/core) 全栈 Web 框架,专注于人体工程学和速度。它解决了许多 Web 开发的麻烦,为您提供了一个干净稳定的 API 来构建 Web 应用程序和微服务。
* [digitallyinduced/ihp](https://github.com/digitallyinduced/ihp) 构建类型安全的 Web 应用的最快方法。 IHP 是一个新的包含电池的 Web 框架,针对长期生产力和程序员的幸福感进行了优化
* [gofiber/fiber](https://github.com/gofiber/fiber) 用 Go 编写的受 Express 启发的 Web 框架
* [revel/revel](https://github.com/revel/revel) 用于 Go 语言的高生产力、全栈 Web 框架。
* [kataras/iris](https://github.com/kataras/iris) 最快的 HTTP/2 Go Web 框架。新颖、现代且易于学习。使用您控制的代码进行快速开发。
* [sanic-org/sanic](https://github.com/sanic-org/sanic) 异步 Python 3.7+ web 框架
* [tokio-rs/axum](https://github.com/tokio-rs/axum) 符合人体工程学的模块化 Web 框架,由Tokio、Tower和Hyper构建
* [gin-gonic/gin](https://github.com/gin-gonic/gin) 一个用 Go (Golang) 编写的 HTTP Web 框架。它具有类似Martini的API,性能要好得多 - 速度提高了40倍。
* [SergioBenitez/Rocket](https://github.com/SergioBenitez/Rocket) Rust 的异步 Web 框架,专注于可用性、安全性、可扩展性和速度。
* [AdrienTorris/awesome-blazor](https://github.com/AdrienTorris/awesome-blazor) Blazor 的资源,这是一个使用 C#/Razor 和 HTML 的 .NET Web 框架,可通过 WebAssembly 在浏览器中运行。
* [arwes/arwes](https://github.com/arwes/arwes) Web 框架,用于基于未来科幻小说设计、动画和音效构建用户界面。背后的概念受到Cyberprep和Synthwave以及《星际公民》、《光环》和《创:遗产》等作品的影响。它试图激发先进的科学和技术。
* [zhoutaoo/SpringCloud](https://github.com/zhoutaoo/SpringCloud) 基于SpringCloud2.1的微服务开发脚手架,整合了spring-security-oauth2、nacos、feign、sentinel、springcloud-gateway等。服务治理方面引入elasticsearch、skywalking、springboot-admin、zipkin等,让项目快速进入业务开发,而不需过多时间花费在架构搭建上。
* [humiaozuzu/awesome-flask](https://github.com/humiaozuzu/awesome-flask) 精选的 Flask ( python web 框架) 资源和插件列表
* [chiraggude/awesome-laravel](https://github.com/chiraggude/awesome-laravel) 来自Laravel生态系统的书签,软件包,教程,视频和其他酷炫资源的精选列表
* [ninenines/cowboy](https://github.com/ninenines/cowboy) 用 Erlang/OTP 的小型、快速、现代的 HTTP 服务器。
* [emmett-framework/granian](https://github.com/emmett-framework/granian) 用于 Python 应用程序的 Rust HTTP 服务器。Granian设计背后的主要原因是:有一个单一的、正确的 HTTP 实现,支持版本 1、2(最终是 3),为多个平台提供单一软件包,避免 unix 系统上常见的 Gunicorn + uvicorn + http-tools 依赖组合,与现有替代品相比,提供稳定的性能。特征:支持 ASGI/3、RSGI 和 WSGI 接口应用,实现 HTTP/1 和 HTTP/2 协议,支持 HTTPS,支持 Websockets。
* [openfaas/faas](https://github.com/openfaas/faas) 使开发人员可以轻松地将事件驱动的函数和微服务部署到 Kubernetes,而无需重复的样板编码。将代码或现有二进制文件打包在与 OCI 兼容的映像中,以获得具有自动缩放和指标的高度可扩展的终结点。
* [ossrs/srs](https://github.com/ossrs/srs) SRS是一个简单,高效,实时的视频服务器,支持RTMP,WebRTC,HLS,HTTP-FLV,SRT,MPEG-DASH和GB28181。
* [JeffLi1993/springboot-learning-example](https://github.com/JeffLi1993/springboot-learning-example) spring boot 实践学习案例,是 spring boot 初学者及核心技术巩固的最佳实践。
* [logto-io/logto](https://github.com/logto-io/logto) 帮助您在几分钟内建立登录、身份验证和用户身份。我们为 Web 和本机应用程序提供基于 OIDC 的身份服务和用户名、电话号码、电子邮件和社交登录的最终用户体验。
* [ory/hydra](https://github.com/ory/hydra) OpenID 认证的 OpenID Connect 和 OAuth 提供程序,用 Go 编写 - 为您的基础架构提供云原生、安全优先的™开源 API 安全性。适用于任何语言的 SDK。与硬件安全模块配合使用。与 MITREid 兼容。
* [ory/kratos](https://github.com/ory/kratos) 下一代身份服务器将您的 Auth0、Okta、Firebase 替换为强化的安全性和 PassKeys、SMS、OIDC、社交登录、MFA、FIDO、TOTP 和 OTP、WebAuthn、无密码等等。Golang、无头、API 优先。
* [authelia/authelia](https://github.com/authelia/authelia) 开源身份验证和授权服务器,通过 Web 门户为您的应用程序提供双因素身份验证和单点登录 (SSO)。它通过允许、拒绝或重定向请求来充当反向代理的伴侣。
* [pennersr/django-allauth](https://github.com/pennersr/django-allauth) 集成的 Django 应用程序集,用于处理身份验证、注册、帐户管理以及第三方(社交)帐户身份验证。
* [casbin/casdoor](https://github.com/casbin/casdoor) 一个开源的 UI 优先身份和访问管理 (IAM) / 单点登录 (SSO) 平台,具有支持 OAuth 2.0、OIDC、SAML、CAS、LDAP、SCIM、WebAuthn、TOTP、MFA 和 RADIUS 的 Web UI
* [jaredhanson/passport](https://github.com/jaredhanson/passport) Passport 的唯一目的是对请求进行身份验证,它通过一组可扩展的插件(称为策略)来完成。Passport 不挂载路由或采用任何特定的数据库架构,这最大限度地提高了灵活性,并允许开发人员做出应用程序级决策。API 很简单:您向 Passport 提供身份验证请求,Passport 提供钩子来控制身份验证成功或失败时发生的情况。
* [casbin/casbin](https://github.com/casbin/casbin) 在 Golang 中支持 ACL、RBAC、ABAC 等访问控制模型的授权库
* [supertokens/supertokens-core](https://github.com/supertokens/supertokens-core) 为您的应用程序添加安全登录和会话管理。 可用于流行语言和前端框架的 SDK,例如 Node.js、Go、Python、React.js、React Native、Vanilla JS 等。
* [halo-dev/halo](https://github.com/halo-dev/halo) 强大易用的开源建站工具。
* [vercel/micro](https://github.com/vercel/micro) 异步 HTTP 微服务.具有异步方法的简约微服务框架。
* [fuzhengwei/itstack-demo-design](https://github.com/fuzhengwei/itstack-demo-design) 《重学Java设计模式》是一本互联网真实案例实践书籍。以落地解决方案为核心,从实际业务中抽离出,交易、营销、秒杀、中间件、源码等22个真实场景,来学习设计模式的运用。
* [doocs/advanced-java](https://github.com/doocs/advanced-java) 互联网 Java 工程师进阶知识完全扫盲:涵盖高并发、分布式、高可用、微服务、海量数据处理等领域知识
* [SocketCluster/socketcluster](https://github.com/SocketCluster/socketcluster) 高度可扩展的实时发布/订阅和 RPC 框架
* [moleculerjs/moleculer](https://github.com/moleculerjs/moleculer) 快速,现代和强大的Node.js微服务框架。它可以帮助您构建高效,可靠和可扩展的服务。Moleculer 提供了许多用于构建和管理微服务的功能。
* [sfyc23/EverydayWechat](https://github.com/sfyc23/EverydayWechat) 微信助手:1.每日定时给好友(女友)发送定制消息。2.机器人自动回复好友。3.群助手功能(例如:查询垃圾分类、天气、日历、电影实时票房、快递物流、PM2.5等)
* [tinode/chat](https://github.com/tinode/chat) 即时通讯平台。Go 中的后端。客户端:Swift iOS,Java Android,JS webapp,可编写脚本的命令行;聊天机器人
* [42wim/matterbridge](https://github.com/42wim/matterbridge) 一个简单的聊天桥 ,Mattermost,IRC,gitter,xmpp,Slack,Discord,Telegram,rocketchat,twitch,ssh-chat,zulip,WhatsApp,Keybase,matrix,Microsoft Teams,Nextcloud,Mumble,vk等与REST API之间的桥梁
* [Tencent/APIJSON](https://github.com/Tencent/APIJSON) 零代码、全功能、强安全 ORM 库 🚀 后端接口和文档零代码,前端(客户端) 定制返回 JSON 的数据和结构。
* [discordjs/discord.js](https://github.com/discordjs/discord.js) 一个强大的JavaScript库,用于与Discord API交互
* [pedroslopez/whatsapp-web.js](https://github.com/pedroslopez/whatsapp-web.js) 一个用于 NodeJS 的 WhatsApp 客户端库,通过 WhatsApp Web 浏览器应用程序进行连接
* [yagop/node-telegram-bot-api](https://github.com/yagop/node-telegram-bot-api) Node.js与官方telegram电报机器人API交互的模块。
* [telegraf/telegraf](https://github.com/telegraf/telegraf) 现代telegram电报机器人API框架 Node.js
* [typeorm/typeorm](https://github.com/typeorm/typeorm) 用于TypeScript和JavaScript的ORM。支持MySQL,PostgreSQL,MariaDB,SQLite,MS SQL Server,Oracle,SAP Hana,WebSQL数据库。适用于NodeJS,Browser,Ionic,Cordova和Electron平台。
* [Unitech/pm2](https://github.com/Unitech/pm2) Node.js具有内置负载均衡器的生产进程管理器。
* [facebook/hhvm](https://github.com/facebook/hhvm) 用于执行用Hack编写的程序的虚拟机。一个开源虚拟机,设计用于执行用Hack编写的程序。HHVM 使用实时 (JIT) 编译方法来实现卓越的性能,同时保持惊人的开发灵活性。HHVM应该与内置的Web服务器一起使用,易于部署的Proxygen,或者在nginx或Apache之上基于FastCGI的网络服务器。
* [beego/beego](https://github.com/beego/beego) Go 编程语言的开源、高性能 Web 框架。
* [gaia-pipeline/gaia](https://github.com/gaia-pipeline/gaia) 使用任何编程语言构建强大的管道。一个开源自动化平台,它可以轻松有趣地使用任何编程语言构建强大的管道。基于HashiCorp的go-plugin和gRPC,gaia是高效,快速,轻量级和开发人员友好的。
* [davideuler/architecture.of.internet-product](https://github.com/davideuler/architecture.of.internet-product) 互联网公司技术架构,微信/淘宝/微博/腾讯/阿里/美团点评/百度/Google/Facebook/Amazon/eBay的架构
* [apidoc/apidoc](https://github.com/apidoc/apidoc) RESTful Web API 文档生成器。
* [miguelgrinberg/flasky](https://github.com/miguelgrinberg/flasky) O'Reilly书“Flask Web Development”的配套代码,第二版。
* [matomo-org/matomo](https://github.com/matomo-org/matomo) Google Analytics(分析)的领先开放替代方案,可让您完全控制数据。Matomo可让您轻松地从网站和应用程序中收集数据,并可视化这些数据并提取见解。隐私是内置的。
* [plausible/analytics](https://github.com/plausible/analytics) 简单开源轻量级1K和隐私友好的网络分析替代谷歌分析。
* [hasura/graphql-engine](https://github.com/hasura/graphql-engine) 开源产品,通过立即为您提供具有内置数据授权的 GraphQL 或 REST API,将 API 开发速度提高了 10 倍。在一个或多个域上构建、操作、协作和发展企业级 GraphQL API(联合或单体)的最快、最简单的方式。借助 Hasura DDN,您可以毫不费力地将所有数据库、服务和代码连接到一个统一的数据图中,并通过一个强大的超级图 API 将其公开,具有无与伦比的可组合性和速度。特色:使用“连接,而不是代码”的方法,在几分钟内在您的域上构建 API。使用令人难以置信的可组合和标准化 API 简化自助式数据访问和聚合。只有将性能调低到数据库查询的超级图查询规划器。领域团队(子图)可以协作构建和发展超图。在直观的 API 门户中发现、获取和编写所需的数据。提供任何规模的性能、安全性和可靠性,而不会造成 DevOps 负担。
* [graphql-rust/juniper](https://github.com/graphql-rust/juniper) GraphQL 是 Facebook 开发的一种数据查询语言,旨在为移动和 Web 应用程序前端提供服务。在 Rust 中编写类型安全且速度极快的 GraphQL 服务器成为可能。我们还尝试使声明和解析 GraphQL 模式在 Rust 允许的范围内尽可能方便。不包括 Web 服务器,而是提供构建块,使与现有服务器的集成变得简单明了。它可以选择为 Actix、Hyper、Rocket 和 Warp 框架提供预构建的集成,包括嵌入式 Graphiql 和 GraphQL Playground,以便于调试。
* [supabase/realtime](https://github.com/supabase/realtime) 通过 WebSocket 进行广播、状态和发布更改
* [actix/actix-web](https://github.com/actix/actix-web) 一个强大、实用且速度极快的 Rust Web 框架。
* [meolu/walle-web](https://github.com/meolu/walle-web) Devops开源项目代码部署平台
* [jenkinsci/jenkins](https://github.com/jenkinsci/jenkins) 领先的开源自动化服务器。使用 Java 构建,提供了 1,800 多个插件来支持几乎任何事情的自动化,因此人类可以将时间花在机器无法完成的事情上。
* [spring-projects/spring-boot](https://github.com/spring-projects/spring-boot) Spring Boot 可帮助您以绝对最少的麻烦创建由 Spring 提供支持的生产级应用程序和服务。它对 Spring 平台持自以为是的看法,以便新用户和现有用户都可以快速获得他们需要的位。您可以使用 Spring Boot 创建独立的 Java 应用程序,这些应用程序可以使用更传统的 WAR 部署启动 java -jar`。我们还提供了一个运行 Spring 脚本的命令行工具。
* [swagger-api/swagger-ui](https://github.com/swagger-api/swagger-ui) HTML、JavaScript 和 CSS 资产的集合,可从符合 Swagger 的 API 动态生成精美的文档。允许任何人(无论是您的开发团队还是最终消费者)可视化 API 的资源并与之交互,而无需任何实现逻辑。它是根据 OpenAPI(以前称为 Swagger)规范自动生成的,带有可视化文档,便于后端实现和客户端使用。
* [chentsulin/awesome-graphql](https://github.com/chentsulin/awesome-graphql) GraphQL 的精彩列表。GraphQL 是一种针对 Graph(图状数据)进行查询特别有优势的 Query Language(查询语言)。
* [django/channels](https://github.com/django/channels) 通道增强了 Django,将 WebSocket、长轮询 HTTP、任务卸载和其他异步支持引入到你的代码中,使用熟悉的 Django 设计模式和灵活的底层框架,让你不仅可以自定义行为,还可以为你自己的协议和需求编写支持。
* [wsvincent/awesome-django](https://github.com/wsvincent/awesome-django) 与 Django 相关的精彩事物的精选列表
* [go-micro/go-micro](https://github.com/go-micro/go-micro) Go Micro 提供了分布式系统开发的核心需求,包括 RPC 和事件驱动通信。Go Micro 的理念是理智的默认,采用可插拔架构。我们提供默认值以帮助您快速入门,但所有内容都可以轻松更换。
* [Kong/insomnia](https://github.com/Kong/insomnia) 适用于 GraphQL、REST、WebSockets、SSE 和 gRPC 的开源跨平台 API 客户端。使用云、本地和 Git 存储。
* [fastify/fastify](https://github.com/fastify/fastify) 适用于 Node.js 的快速且低开销的 Web 框架
* [whyour/qinglong](https://github.com/whyour/qinglong) 支持Python3、JS、Shell、Typescript 的定时任务管理平台
* [matrix-org/synapse](https://github.com/matrix-org/synapse) 由 Matrix.org Foundation 编写和维护的开源 Matrix 家庭服务器。Synapse 和 Matrix 协议本身的开发今天仍在继续。简而言之,Matrix 是互联网通信的开放标准,支持联盟、加密和 VoIP。
* [aws/chalice](https://github.com/aws/chalice) 用于在 python 中编写无服务器应用程序的框架。它允许您快速创建和部署使用 AWS Lambda 的应用程序。
* [serverless/serverless](https://github.com/serverless/serverless) 无服务器框架 – 使用 AWS Lambda、Azure Functions、Google CloudFunctions 等,使用无服务器架构构建 Web、移动和 IoT 应用程序
* [sst/sst](https://github.com/sst/sst) 在 AWS 上构建现代全栈应用程序。
* [pulumi/pulumi](https://github.com/pulumi/pulumi) 只需用您喜欢的语言编写代码,Pulumi 就会使用基础设施即代码方法在 AWS、Azure、Google Cloud Platform、Kubernetes 和 120+ 提供商上自动预置和管理您的资源。跳过 YAML,使用你已经熟悉和喜爱的标准语言功能,如循环、函数、类和包管理。
* [zappa/Zappa](https://github.com/zappa/Zappa) 在 AWS Lambda + API Gateway 上轻松构建和部署无服务器、事件驱动的 Python 应用程序(包括但不限于 WSGI Web 应用程序)。将其视为 Python 应用程序的“无服务器”Web 托管。这意味着无限扩展、零停机时间、零维护 - 而且成本只是您当前部署的一小部分
* [encode/django-rest-framework](https://github.com/encode/django-rest-framework) 适用于 Django 的 Web API。Web 可浏览 API 对您的开发人员来说是一个巨大的可用性胜利。身份验证策略,包括 OAuth1a 和 OAuth2 的可选包。支持 ORM 和非 ORM 数据源的序列化。可一直自定义 - 如果您不需要更强大的功能,只需使用基于功能的常规视图。广泛的文档和强大的社区支持。
* [aws/aws-cli](https://github.com/aws/aws-cli) 适用于 Amazon Web Services 的通用命令行界面
* [webiny/webiny-js](https://github.com/webiny/webiny-js) 开源无服务器企业 CMS。包括无头 CMS、页面构建器、表单构建器和文件管理器。易于定制和扩展。部署到 AWS。
* [brettstack/serverless-express](https://github.com/brettstack/serverless-express) 用 AWS 上的现有框架serverless.js Lambda、API Gateway、Lambda@Edge 和 ALB 等技术运行 Node Web 程序和 API。
* [jhipster/generator-jhipster](https://github.com/jhipster/generator-jhipster) 开发平台,用于快速生成,开发和部署现代Web应用程序和微服务架构。
* [rabbitmq/rabbitmq-server](https://github.com/rabbitmq/rabbitmq-server) 开源 RabbitMQ:核心服务器和第 1 层(内置)插件
* [localstack/localstack](https://github.com/localstack/localstack) 功能齐全的本地 AWS 云堆栈。离线开发和测试您的云和无服务器应用程序
* [ring-clojure/ring](https://github.com/ring-clojure/ring) 受 Python 的 WSGI 和 Ruby 的 Rack 启发的 Clojure Web 应用程序库。通过将 HTTP 的细节抽象为简单、统一的 API,Ring 允许 Web 应用程序由模块化组件构建,这些组件可以在各种应用程序、Web 服务器和 Web 框架之间共享。
* [neondatabase/neon](https://github.com/neondatabase/neon) 无服务器 Postgres。我们将存储和计算分开,以提供自动缩放、分支和无底存储。
* [serverless/examples](https://github.com/serverless/examples) 无服务器示例 – 用 AWS Lambda、Microsoft Azure、Google Cloud Functions 等上的无服务器框架构建的无服务器架构的样板和示例集合。
* [aws/serverless-application-model](https://github.com/aws/serverless-application-model) AWS 无服务器应用程序模型 (AWS SAM) 转换是一个 AWS CloudFormation 宏,用于将 SAM 模板转换为 CloudFormation 模板。
* [wireapp/wire-server](https://github.com/wireapp/wire-server) Wire后端服务,含以下源代码:公共 API 反向代理(带有自定义 libzauth 模块的 Nginx),对话和团队、帐户、推送通知中心、WebSocket 推送通知、资产(图像、文件等)存储、第三方 API 集成,用于音频/视频通话的 STUN/TURN 服务器,单点登录 (SSO),迁移工具(例如,添加新表时),后台工具(基于 Swagger 的基本界面)
* [aws/aws-sam-cli](https://github.com/aws/aws-sam-cli) CLI 工具,用于使用 AWS SAM 构建、测试、调试和部署无服务器应用程序
* [aws-samples/aws-serverless-workshops](https://github.com/aws-samples/aws-serverless-workshops) 为 Wild Rydes 研讨会设置无服务器应用程序的代码和演练实验室
* [hashicorp/terraform](https://github.com/hashicorp/terraform) 使你能够安全且可预测地创建、更改和改进基础结构。它是一种源代码可用的工具,可将 API 编码为声明性配置文件,这些文件可以在团队成员之间共享、视为代码、编辑、审查和版本控制。
* [cli/cli](https://github.com/cli/cli) 命令行上的 GitHub。它将拉取请求、问题和其他 GitHub 概念带到您已经在使用 git 的位置和代码旁边的终端。
* [pallets/quart](https://github.com/pallets/quart) 用于构建 Web 应用程序的异步 Python 微框架。
* [gitlabhq/gitlabhq](https://github.com/gitlabhq/gitlabhq) GitLab CE 镜像,用于代码协作的开源软件。通过精细的访问控制来管理 Git 存储库,确保代码安全;执行代码审查并通过合并请求增强协作;完整的持续集成 (CI) 和持续部署/交付 (CD) 管道,用于构建、测试和部署应用程序;每个项目还可以有一个问题跟踪器、问题板和一个 Wiki;被超过 100,000 个组织使用,是管理本地 Git 存储库的最流行的解决方案;完全免费和开源
* [open-falcon/falcon-plus](https://github.com/open-falcon/falcon-plus) 一个开源的企业级监控系统。
* [ccfos/nightingale](https://github.com/ccfos/nightingale) 多合一的可观测性解决方案,旨在结合 Prometheus 和 Grafana 的优势。它管理警报规则,并在漂亮的 Web UI 中可视化指标、日志和跟踪。
* [grafana/grafana](https://github.com/grafana/grafana) 开放且可组合的可观测性和数据可视化平台。可视化来自 Prometheus、Loki、Elasticsearch、InfluxDB、Postgres 等多个来源的指标、日志和跟踪。`可视化`:具有多种选项的快速灵活的客户端图形。`动态仪表板`:使用模板变量创建动态和可重用的仪表板,这些模板变量在仪表板顶部显示为下拉列表。`探索指标`:通过临时查询和动态深入分析来探索数据。拆分视图并并排比较不同的时间范围、查询和数据源。`探索日志`:体验使用保留的标签筛选器从指标切换到日志的魔力。快速搜索所有日志或实时流式传输。`警报`:直观地为最重要的指标定义警报规则。Grafana 将持续评估并向 Slack、PagerDuty、VictorOps、OpsGenie 等系统发送通知。`混合数据源`:在同一张图中混合不同的数据源!您可以基于每个查询指定数据源。这甚至适用于自定义数据源。
* [shieldfy/API-Security-Checklist](https://github.com/shieldfy/API-Security-Checklist) 设计、测试和发布 API 时最重要的安全对策清单
* [sdras/awesome-actions](https://github.com/sdras/awesome-actions) 在 GitHub 上使用的精彩操作的精选列表
* [tiimgreen/github-cheat-sheet](https://github.com/tiimgreen/github-cheat-sheet) Git 和 GitHub 的很酷的隐藏和不那么隐藏的功能的集合。此备忘单的灵感来自于 Zach Holman 在 2012 年 Aloha Ruby 大会上的 Git 和 GitHub Secrets 演讲(幻灯片)以及他在 WDCNZ 2013 上的更多 Git 和 GitHub Secrets 演讲(幻灯片)。
* [gitbucket/gitbucket](https://github.com/gitbucket/gitbucket) 一个由 Scala 提供支持的 Git 平台,易于安装、高度扩展和 GitHub API 兼容性
* [playframework/playframework](https://github.com/playframework/playframework) Play 框架结合了生产力和性能,使使用 Java 和 Scala 构建可扩展的 Web 应用程序变得容易。Play 对开发人员友好,具有“只需刷新”的工作流程和内置的测试支持。借助 Play,由于无状态和非阻塞架构,应用程序可以预测地扩展。通过默认的RESTful,包括资产编译器,JSON和WebSocket支持,Play非常适合现代Web和移动应用程序。
* [apache/airflow](https://github.com/apache/airflow) 以编程方式编写、调度和监控工作流的平台。当工作流被定义为代码时,它们将变得更加可维护、可版本控制、可测试和协作。使用 Airflow 将工作流创作为任务的有向无环图 (DAG)。Airflow 调度程序在遵循指定依赖项的同时,在一组工作线程上执行任务。丰富的命令行实用程序使在 DAG 上执行复杂的手术变得轻而易举。通过丰富的用户界面,可以轻松可视化生产中运行的管道、监视进度并在需要时解决问题。
* [apache/skywalking](https://github.com/apache/skywalking) APM(应用程序性能监控)系统,专为微服务、云原生和基于容器的架构而设计。开源的 APM 系统,包括云原生架构中分布式系统的监控、追溯、诊断能力。
* [appwrite/appwrite](https://github.com/appwrite/appwrite) 用于开发 Web、Mobile 和 Flutter 应用程序的后端平台。与开源社区一起构建,并针对您喜爱的编码语言的开发人员体验进行了优化。
* [louislam/uptime-kuma](https://github.com/louislam/uptime-kuma) 易于使用的自托管监控工具。
* [git/git](https://github.com/git/git) 快速、可扩展的分布式版本控制系统,具有异常丰富的命令集,既提供高级操作,又提供对内部的完全访问。受 GNU 通用公共许可证版本 2 的保护(它的某些部分采用不同的许可证,与 GPLv2 兼容)。它最初是由 Linus Torvalds 在网络上的一群黑客的帮助下编写的。
* [xkcoding/spring-boot-demo](https://github.com/xkcoding/spring-boot-demo) 用来深入学习并实战 Spring Boot 的项目。
* [traefik/traefik](https://github.com/traefik/traefik) 一种现代 HTTP 反向代理和负载均衡器,可轻松部署微服务。Traefik 与您现有的基础设施组件(Docker、Swarm 模式、Kubernetes、Consul、Etcd、Rancher v2、Amazon ECS 等)集成,并自动动态地进行配置。将 Traefik 指向业务流程协调程序应该是您唯一需要的配置步骤。
* [ityouknow/spring-boot-examples](https://github.com/ityouknow/spring-boot-examples) Spring Boot 使用的各种示例,以最简单、最实用为标准,此开源项目中的每个示例都以最小依赖,最简单为标准,帮助初学者快速掌握 Spring Boot 各组件的使用。
* [pcottle/learnGitBranching](https://github.com/pcottle/learnGitBranching) 交互式 git 可视化和教程。有抱负的 git 学生可以使用这个应用程序来教育和挑战自己,以掌握 git!
* [karanpratapsingh/system-design](https://github.com/karanpratapsingh/system-design) 了解如何大规模设计系统并准备系统设计面试
* [Vonng/ddia](https://github.com/Vonng/ddia) 《设计数据密集型应用》DDIA中文翻译。现今,尤其是在互联网领域,大多数应用都属于数据密集型应用。本书从底层数据结构到顶层架构设计,将数据系统设计中的精髓娓娓道来。其中的宝贵经验无论是对架构师、DBA、还是后端工程师、甚至产品经理都会有帮助。这是一本理论结合实践的书,书中很多问题,译者在实际场景中都曾遇到过,读来让人击节扼腕。如果能早点读到这本书,该少走多少弯路啊!这也是一本深入浅出的书,讲述概念的来龙去脉而不是卖弄定义,介绍事物发展演化历程而不是事实堆砌,将复杂的概念讲述的浅显易懂,但又直击本质不失深度。每章最后的引用质量非常好,是深入学习各个主题的绝佳索引。本书为数据系统的设计、实现、与评价提供了很好的概念框架。读完并理解本书内容后,读者可以轻松看破大多数的技术忽悠,与技术砖家撕起来虎虎生风。
* [grafana/k6](https://github.com/grafana/k6) 使用 Go 和 JavaScript 的现代负载测试工具。它功能强大、可扩展且功能齐全。关键设计目标是提供最佳的开发人员体验。其核心功能是:`可配置的负载生成`。即使是低端机器也可以模拟大量流量。`测试即代码`。重用脚本、模块化逻辑、版本控制,并将测试与 CI 集成。`功能齐全的 API`。脚本 API 包含可帮助您模拟真实应用程序流量的功能。嵌入式 JavaScript 引擎。Go 的性能,JavaScript 的脚本熟悉度。多协议支持。HTTP、WebSockets、gRPC 等。大型扩展生态系统。您可以扩展 k6 来支持您的需求。许多人已经与社区分享了他们的扩展!灵活的指标存储和可视化。汇总统计信息或粒度指标,导出到您选择的服务。
* [Redocly/redoc](https://github.com/Redocly/redoc) 从 OpenAPI 生成精美的 API 文档
* [nrwl/nx](https://github.com/nrwl/nx) 具有内置工具和高级 CI 功能的构建系统。它可以帮助您在本地和 CI 上维护和扩展 monorepos。
* [avajs/ava](https://github.com/avajs/ava) Node.js 测试运行程序,让你充满信心地进行开发
* [parse-community/parse-server](https://github.com/parse-community/parse-server) 开源后端,可以部署到任何可以运行 Node.js 的基础架构。Parse Server 与 Express Web 应用程序框架配合使用。它可以添加到现有的 Web 应用程序中,也可以自行运行。
* [remy/nodemon](https://github.com/remy/nodemon) 监视 node.js 应用程序中的任何更改并自动重新启动服务器 - 非常适合开发。特征:自动重新启动应用程序。检测要监视的默认文件扩展名。默认支持节点,但易于运行任何可执行文件,例如 python、ruby、make 等。忽略特定文件或目录。监视特定目录。与服务器应用程序或一次性运行实用程序和 REPL 配合使用。可通过 node require 语句编写脚本。
* [trpc/trpc](https://github.com/trpc/trpc) 快速行动,不破坏任何东西。端到端类型安全 API 变得简单。经过充分测试,可投入生产。客户端上的完整静态类型安全和自动完成,用于输入、输出和错误。没有代码生成、运行时膨胀或构建管道。轻量级 - tRPC 具有零 deps 和极小的客户端占用空间。易于添加到您现有的项目中。React.js/Next.js/Express.js/Fastify 适配。订阅支持。请求批处理 - 同时发出的请求可以自动合并为一个。
* [apollographql/apollo-client](https://github.com/apollographql/apollo-client) 功能齐全、生产就绪的缓存 GraphQL 客户端,适用于每个 UI 框架和 GraphQL 服务器。
* [dbader/schedule](https://github.com/dbader/schedule) 人类的 Python 作业调度。使用友好的语法定期运行 Python 函数(或任何其他可调用函数)。简单易用的 API,用于调度作业,专为人类设计。用于定期作业的进程内调度程序。无需额外的流程,非常轻量级,没有外部依赖。出色的测试覆盖率。
* [teambit/bit](https://github.com/teambit/bit) 用于开发可组合软件的构建系统。它使来自独立版本控制组件的应用程序组合无缝且快速。将源代码分发到独立版本控制的组件中带来了简单性,这些组件相互依赖。
* [OpenAPITools/openapi-generator](https://github.com/OpenAPITools/openapi-generator) OpenAPI Generator 允许在给定 OpenAPI 规范(v2、v3)的情况下自动生成 API (SDK 生成)、服务器存根、文档和配置
* [nexe/nexe](https://github.com/nexe/nexe) 从 Node.js 应用程序创建单个可执行文件
* [grafana/loki](https://github.com/grafana/loki) 受 Prometheus 启发的可水平扩展、高度可用、多租户日志聚合系统。它的设计非常具有成本效益且易于操作。它不索引日志的内容,而是为每个日志流编制一组标签。
* [netty/netty](https://github.com/netty/netty) 异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。
* [saleor/saleor](https://github.com/saleor/saleor) 高性能、可组合、无头商务 API。现代堆栈上以客户为中心的电子商务。无头的 GraphQL 商务平台,提供超快速、动态、个性化的购物体验。漂亮的在线商店,随时随地,在任何设备上。
* [cookiecutter/cookiecutter-django](https://github.com/cookiecutter/cookiecutter-django) 由 Cookiecutter 提供支持,是一个用于快速启动生产就绪的 Django 项目的框架。
* [apereo/cas](https://github.com/apereo/cas) 面向所有地球人及其他地区的身份和单点登录。面向 Web 的企业多语言单点登录解决方案,旨在成为满足身份验证和授权需求的综合平台。CAS 是一种开放且有据可查的身份验证协议。该协议的主要实现是此处托管的同名开源 Java 服务器组件,支持大量其他身份验证协议和功能,例如 SAML2、OpenID Connect 等。
* [pallets/jinja](https://github.com/pallets/jinja) 一个非常快速和富有表现力的模板引擎。模板中的特殊占位符允许编写类似于 Python 语法的代码。然后,将模板传递数据以呈现最终文档。
* [temporalio/temporal](https://github.com/temporalio/temporal) 一个持久的执行平台,使开发人员能够在不牺牲生产力或可靠性的情况下构建可扩展的应用程序。临时服务器以弹性方式执行称为工作流的应用程序逻辑单元,该逻辑单元可自动处理间歇性故障,并重试失败的操作。
* [gorilla/mux](https://github.com/gorilla/mux) 强大的 HTTP 路由器和 URL 匹配器,用于构建 Go Web 服务器
* [seaswalker/spring-analysis](https://github.com/seaswalker/spring-analysis) Spring源码阅读
* [helmetjs/helmet](https://github.com/helmetjs/helmet) 使用各种 HTTP 标头帮助保护 Express 应用
* [Ne0nd0g/merlin](https://github.com/Ne0nd0g/merlin) 跨平台的后开发HTTP/2命令和控制服务器和代理,用 go 编写。
* [xyproto/algernon](https://github.com/xyproto/algernon) 小型独立纯 Go Web 服务器,支持 Lua、Teal、Markdown、HTTP/2、QUIC、Redis 和 PostgreSQL
* [bxcodec/go-clean-arch](https://github.com/bxcodec/go-clean-arch) Go 项目中实现 Clean Architecture 的示例。独立于框架。该体系结构不依赖于某些功能丰富的软件库的存在。这允许您使用此类框架作为工具,而不必将系统塞进其有限的约束中。可测试。可以在没有 UI、数据库、Web 服务器或任何其他外部元素的情况下测试业务规则。独立于 UI。UI 可以轻松更改,而无需更改系统的其余部分。例如,可以在不更改业务规则的情况下将 Web UI 替换为控制台 UI。独立于数据库。可以将 Oracle 或 SQL Server 换成 Mongo、BigTable、CouchDB 或其他东西。您的业务规则未绑定到数据库。独立于任何外部机构。
* [feathersjs/feathers](https://github.com/feathersjs/feathers) 全栈框架,用于使用 TypeScript 或 JavaScript 创建 Web API 和实时应用程序。可以与任何后端技术交互,支持许多开箱即用的数据库,并适用于任何前端,如 React、VueJS、Angular、React Native、Android 或 iOS。
* [Tencent/matrix](https://github.com/Tencent/matrix) 微信开发的一款插件式、非侵入式 APM 系统。微信中用于监控、定位和分析性能问题的 APM(应用程序性能管理)。它是一种插件风格的非侵入性解决方案,目前可在 iOS、macOS 和 Android 上使用。
* [caronc/apprise](https://github.com/caronc/apprise) 允许您向当今几乎所有最流行的通知服务发送通知,例如:Telegram、Discord、Slack、Amazon SNS、Gotify等
* [akka/akka](https://github.com/akka/akka) 在 JVM 上构建高度并发、分布式和弹性的消息驱动型应用程序
* [capnproto/capnproto](https://github.com/capnproto/capnproto) Cap'n Proto 序列化/RPC 系统 - 核心工具和 C++ 库
* [vectordotdev/vector](https://github.com/vectordotdev/vector) 高性能的端到端(代理和聚合器)可观测性数据管道,可让您控制可观测性数据。收集、转换所有日志和指标,并将其路由到您今天想要的任何供应商以及您明天可能想要的任何其他供应商。Vector 可在您需要的地方实现大幅降低成本、新颖的数据丰富和数据安全性,而不是您的供应商最方便的地方。此外,它是开源的,比该领域的所有替代方案快 10 倍。
* [LMAX-Exchange/disruptor](https://github.com/LMAX-Exchange/disruptor) 高性能线程间消息传递库
* [ashishps1/awesome-system-design-resources](https://github.com/ashishps1/awesome-system-design-resources) 该存储库包含系统设计资源,这些资源在准备面试和学习分布式系统时非常有用
* [saltstack/salt](https://github.com/saltstack/salt) 大规模自动管理和配置任何基础架构或应用程序的软件。基于 Python 构建,是一种事件驱动的自动化工具和框架,用于部署、配置和管理复杂的 IT 系统。使用 Salt 自动执行常见的基础架构管理任务,并确保基础架构的所有组件都以一致的所需状态运行。
* [apache/apisix](https://github.com/apache/apisix) 动态、实时、高性能的 API 网关。提供了丰富的流量管理功能,如负载均衡、动态上游、灰度释放、熔断、认证、可观测性等。使用 APISIX API Gateway 来处理传统的南北向流量,以及服务之间的东西向流量。也可用作 k8s 入口控制器。
* [smallnest/rpcx](https://github.com/smallnest/rpcx) Go 中最好的微服务框架,就像阿里巴巴 Dubbo,但功能更多,易于扩展。试试吧。Java有dubbo, Golang有rpcx!为云而构建!
* [TonnyL/Awesome_APIs](https://github.com/TonnyL/Awesome_APIs) 面向开发人员的 AWESOME API 集合。
* [eggjs/egg](https://github.com/eggjs/egg) 与Node.js & Koa一起构建更好的企业框架和应用程序
* [koajs/koa](https://github.com/koajs/koa) 富有表现力的 HTTP 中间件框架,用于node.js使 Web 应用程序和 API 编写起来更愉快。Koa 的中间件堆栈以类似堆栈的方式流动,允许您在下游执行操作,然后过滤和操作上游的响应。只有几乎所有 HTTP 服务器通用的方法才会直接集成到 Koa 的小型 ~570 SLOC 代码库中。这包括内容协商、节点不一致的规范化、重定向等。Koa 没有与任何中间件捆绑在一起。
* [Activiti/Activiti](https://github.com/Activiti/Activiti) Activiti 是一个轻量级的工作流和业务流程管理 (BPM) 平台,面向业务人员、开发人员和系统管理员。它的核心是用于 Java 的超快速且坚如磐石的 BPMN 2 流程引擎。它是开源的,并在 Apache 许可下分发。Activiti 可以在任何 Java 应用程序、服务器、集群或...
* [bagisto/bagisto](https://github.com/bagisto/bagisto) 免费和开源的 laravel 电子商务平台,建立在一些最热门的技术之上,例如 Laravel(PHP 框架)和Vue.js渐进式 Javascript 框架。Bagisto 可以帮助您减少建立在线商店或从实体店迁移到要求苛刻的在线世界的时间、成本和劳动力。您的企业(无论规模大小)都可以从中受益。最好的部分是,设置起来很简单!
* [amplication/amplication](https://github.com/amplication/amplication) 开源后端开发平台。构建生产就绪型服务,无需在重复编码上浪费时间。强大的开源开发平台,旨在彻底改变可扩展且安全的 .NET 和 Node.js 应用程序的创建。Amplication 是唯一一个在几分钟内将想法转化为生产就绪代码的 AI 平台。我们通过可扩展的代码实现后端应用程序开发自动化,确保一致性、可预测性并遵守最高标准
* [nhost/nhost](https://github.com/nhost/nhost) 使用 GraphQL 的开源 Firebase 替代方案。Nhost 由开源软件组成:数据库:PostgreSQL,Instant GraphQL API:Hasura,身份验证:Hasura Auth,存储:Hasura Storage,无服务器函数:Node.js(JavaScript 和 TypeScript),用于本地开发的 Nhost CLI
* [dotansimha/graphql-code-generator](https://github.com/dotansimha/graphql-code-generator) 基于 GraphQL 模式和 GraphQL 操作(查询/变更/订阅)生成代码的工具,灵活支持自定义插件。GraphQL Code Generator 是一种从 GraphQL 模式生成代码的工具。无论您是开发前端还是后端,您都可以利用 GraphQL 代码生成器从 GraphQL 模式和 GraphQL 文档(查询/突变/订阅/片段)生成输出。通过分析模式和文档并对其进行解析,GraphQL Code Generator 可以基于预定义的模板或基于自定义用户定义的模板以多种格式输出代码。无论您使用哪种语言,GraphQL Code Generator 都能满足您的需求。
* [LukeMathWalker/zero-to-production](https://github.com/LukeMathWalker/zero-to-production) Zero To Production In Rust 是对使用 Rust 进行后端开发的自以为是的介绍。从零到生产是您作为 Rust 后端开发人员的理想起点。您将边做边学:您将从头开始构建一个功能齐全的电子邮件通讯 API。本书由 11 章组成,共 ~600 页。
* [tokio-rs/tracing](https://github.com/tokio-rs/tracing) Rust 的应用程序级跟踪。用于检测 Rust 程序以收集结构化的、基于事件的诊断信息的框架。 tracing 由 Tokio 项目维护,但不需要使用 tokio 运行时。为了记录跟踪事件,可执行文件必须使用与 tracing 兼容的收集器实现。收集器实现一种收集跟踪数据的方法,例如将其记录到标准输出中。 tracing-subscriber 的 fmt 模块提供了一个收集器,用于记录具有合理默认值的跟踪。此外, tracing-subscriber 还能够使用 log 检测库和模块发出的消息。
* [flosse/rust-web-framework-comparison](https://github.com/flosse/rust-web-framework-comparison) 一些用 Rust 编写的 Web 框架的比较。本概述仅包含适用于稳定 Rust 的框架。
* [poem-web/poem](https://github.com/poem-web/poem) 一个功能齐全且易于使用的 Web 框架,带有 Rust 编程语言。
* [salvo-rs/salvo](https://github.com/salvo-rs/salvo) 一个强大的 Web 框架,采用简化的设计构建。Salvo 是一个非常简单和强大的 Rust Web 后端框架。开发后端服务只需要基本的 Rust 知识。
### PHP开发
* [php/php-src](https://github.com/php/php-src) PHP 是一种流行的通用脚本语言,特别适合 Web 开发。快速、灵活和实用,PHP 为从您的博客到世界上最受欢迎的网站的一切提供支持。PHP基金会是一个由个人和组织组成的集体,他们团结一致,以确保PHP语言的长期繁荣。PHP(“PHP: Hypertext Preprocessor”,超文本预处理器的字母缩写)是一种被广泛应用的开放源代码的多用途脚本语言,它可嵌入到 HTML中,尤其适合 web 开发。PHP 能做任何事。PHP 主要是用于服务端的脚本程序,因此可以用 PHP 来完成任何其它的 CGI 程序能够完成的工作,例如收集表单数据,生成动态网页,或者发送/接收 Cookies。但 PHP 的功能远不局限于此。PHP 脚本主要用于以下三个领域:`服务端脚本`。这是 PHP 最传统,也是最主要的目标领域。开展这项工作需要具备以下三点:PHP 解析器(CGI 或者服务器模块)、web 服务器和 web 浏览器。需要在运行 web 服务器时,安装并配置 PHP,然后,可以用 web 浏览器来访问 PHP 程序的输出,即浏览服务端的 PHP 页面。如果只是实验 PHP 编程,所有的这些都可以运行在自己家里的电脑中。请查阅安装一章以获取更多信息。`命令行脚本`。可以编写一段 PHP 脚本,并且不需要任何服务器或者浏览器来运行它。通过这种方式,仅仅只需要 PHP 解析器来执行。这种用法对于依赖 cron(Unix 或者 Linux 环境)或者 Task Scheduler(Windows 环境)的日常运行的脚本来说是理想的选择。这些脚本也可以用来处理简单的文本。请参阅 PHP 的命令行模式以获取更多信息。`编写桌面应用程序`,对于有着图形界面的桌面应用程序来说,PHP 或许不是一种最好的语言,但是如果用户非常精通 PHP,并且希望在客户端应用程序中使用 PHP 的一些高级特性,可以利用 PHP-GTK 来编写这些程序。用这种方法,还可以编写跨平台的应用程序。PHP-GTK 是 PHP 的一个扩展,在通常发布的 PHP 包中并不包含它。如果对 PHP-GTK 感兴趣,请访问其» 网站以获取更多信息。
* [slimphp/Slim](https://github.com/slimphp/Slim) PHP 微框架,可帮助您快速编写简单而强大的 Web 应用程序和 API。
* [walkor/workerman](https://github.com/walkor/workerman) 异步事件驱动的 PHP 套接字框架。支持HTTP,Websocket,SSL和其他自定义协议。
* [filp/whoops](https://github.com/filp/whoops) PHP 的错误处理程序框架。开箱即用,它提供了一个漂亮的错误界面,可以帮助您调试Web项目,但本质上它是一个简单而强大的堆叠错误处理系统。
* [symfony/symfony](https://github.com/symfony/symfony) 用于Web和控制台应用程序的PHP框架以及一组可重用的PHP组件。Symfony被成千上万的Web应用程序和大多数流行的PHP项目使用。
* [spatie/laravel-permission](https://github.com/spatie/laravel-permission) PHP将用户与角色和权限关联
* [composer/composer](https://github.com/composer/composer) PHP 依赖管理器。Composer 帮助您声明、管理和安装 PHP 项目的依赖项。
* [guzzle/guzzle](https://github.com/guzzle/guzzle) 可以轻松发送HTTP请求的PHP库,并且与Web服务集成变得简单。
* [DesignPatternsPHP/DesignPatternsPHP](https://github.com/DesignPatternsPHP/DesignPatternsPHP) PHP 8.x 中几种设计模式的示例代码,这些模式大致可以分为三个不同的类别,Creational、Structural、Behavioral。
* [PHPMailer/PHPMailer](https://github.com/PHPMailer/PHPMailer) PHP 的经典电子邮件发送库
* [sebastianbergmann/phpunit](https://github.com/sebastianbergmann/phpunit) PHP 单元测试框架。它是单元测试框架的 xUnit 体系结构的一个实例。
* [doctrine/orm](https://github.com/doctrine/orm) Doctrine ORM 是 PHP 8.1+ 的对象关系映射器,它为 PHP 对象提供透明的持久性。它位于强大的数据库抽象层 (DBAL) 之上。它的主要功能之一是可以选择使用专有的面向对象的 SQL 方言编写数据库查询,称为 Doctrine Query Language (DQL),其灵感来自 Hibernate 的 HQL。这为开发人员提供了强大的 SQL 替代方案,可以保持灵活性,而无需不必要的代码重复。
* [bcit-ci/CodeIgniter](https://github.com/bcit-ci/CodeIgniter) 一个PHP应用程序开发框架 - 一个工具包 - 适用于使用 PHP 构建网站的人。它的目标是通过为常用任务提供一组丰富的库,以及访问这些库的简单接口和逻辑结构,使你能够比从头开始编写代码更快地开发项目。
* [nikic/PHP-Parser](https://github.com/nikic/PHP-Parser) 用PHP编写的PHP解析器。其目的是简化静态代码分析和操作。
* [erusev/parsedown](https://github.com/erusev/parsedown) PHP 中更好的 Markdown 解析器。
* [barryvdh/laravel-ide-helper](https://github.com/barryvdh/laravel-ide-helper) 适用于 Laravel 的 IDE 帮助程序,此软件包会生成帮助程序文件,使 IDE 能够提供准确的自动完成功能。生成是根据项目中的文件完成的,因此它们始终是最新的。
* [roadrunner-server/roadrunner](https://github.com/roadrunner-server/roadrunner) 高性能PHP应用程序服务器,用Go编写的进程管理器,由插件提供支持
* [laradock/laradock](https://github.com/laradock/laradock) 适用于 Docker 的完整 PHP 开发环境。
* [egulias/EmailValidator](https://github.com/egulias/EmailValidator) PHP 电子邮件地址验证器
* [phalcon/cphalcon](https://github.com/phalcon/cphalcon) 高性能、全栈 PHP 框架作为 C 扩展提供。
* [typecho/typecho](https://github.com/typecho/typecho) 一个PHP博客平台。简单而强大。
* [dompdf/dompdf](https://github.com/dompdf/dompdf) 适用于 PHP 的 HTML 到 PDF 转换器。用 PHP 编写的符合 CSS 2.1 的 HTML 布局和渲染引擎。一个样式驱动的渲染器:它将下载和读取外部样式表、内联样式标签和单个 HTML 元素的样式属性。它还支持大多数表示 HTML 属性。
* [squizlabs/PHP_CodeSniffer](https://github.com/squizlabs/PHP_CodeSniffer) 对PHP文件进行标记,并检测违反一组定义的编码标准的行为。
* [filamentphp/filament](https://github.com/filamentphp/filament) Laravel 的精美全栈组件集合。使用 Livewire、Alpine.js 和 Tailwind CSS 为您的下一个应用程序提供完美的起点。
* [serbanghita/Mobile-Detect](https://github.com/serbanghita/Mobile-Detect) 一个轻量级的 PHP 类,用于检测移动设备(包括平板电脑)。它使用用户代理字符串与特定 HTTP 标头相结合来检测移动环境。
* [deployphp/deployer](https://github.com/deployphp/deployer) PHP部署工具,开箱即用,支持流行的框架
* [yiisoft/yii2](https://github.com/yiisoft/yii2) 快速、安全和专业的 PHP 框架。开箱即用,预配置了合理的默认值。该框架很容易调整以满足您的需求,因为 Yii 被设计得很灵活。
* [Intervention/image](https://github.com/Intervention/image) PHP图像处理
* [Seldaek/monolog](https://github.com/Seldaek/monolog) PHP将日志发送到文件、套接字、数据库和各种Web服务
* [itsgoingd/clockwork](https://github.com/itsgoingd/clockwork) PHP开发工具,可在浏览器中使用。可让您深入了解应用程序运行时,包括 HTTP 请求、命令、队列作业和测试的请求数据、性能指标、日志条目、数据库查询、缓存查询、redis 命令、已调度事件、排队作业、呈现视图等
* [phacility/phabricator](https://github.com/phacility/phabricator) php Web应用程序的集合。
* [vimeo/psalm](https://github.com/vimeo/psalm) 用于查找PHP应用程序中错误的静态分析工具
* [barryvdh/laravel-debugbar](https://github.com/barryvdh/laravel-debugbar) 将 PHP Debug Bar 与 Laravel 集成的软件包。它包括一个 ServiceProvider,用于注册调试栏并将其附加到输出。您可以通过 Laravel 发布资产并对其进行配置。它引导一些收集器与Laravel一起工作,并实现了几个特定于Laravel的自定义DataCollector。它配置为显示重定向和 (jQuery) Ajax 请求。(显示在下拉列表中)有关更多配置选项,请阅读文档。
* [YOURLS/YOURLS](https://github.com/YOURLS/YOURLS) YOURLS 是一组 PHP 脚本,允许您在服务器上运行您自己的 短链接,URL 缩短器。您将可以完全控制您的数据、详细统计数据、分析、插件等。它是免费和开源的。
* [codeguy/php-the-right-way](https://github.com/codeguy/php-the-right-way) 一个易于阅读的快速参考,包括 PHP 最佳实践、公认的编码标准以及指向 Web 上权威教程的链接
## 网络服务
### 网络爬虫
* [apify/crawlee](https://github.com/apify/crawlee) Crawlee - 一个 Web 抓取和浏览器自动化库,供Node.js构建可靠的爬虫。在 JavaScript 和 TypeScript 中。提取 AI、LLMsRAG 或 GPT 的数据。 从网站下载 HTML、PDF、JPG、PNG 和其他文件。适用于 Puppeteer、Playwright、Cheerio、JSDOM 和原始 HTTP。有头和无头模式。使用代理轮换。Crawlee 端到端地覆盖您的爬行和抓取,并帮助您构建可靠的抓取工具。快。即使使用默认配置,您的爬虫也会看起来像人类一样,并在现代机器人保护的雷达下飞行。Crawlee 为您提供了抓取 Web 链接、抓取数据并将其存储到磁盘或云中的工具,同时保持可配置以满足您的项目需求。特征:用于 HTTP 和无头浏览器爬虫的单一界面、要抓取的 URL 的持久队列(广度和深度优先)、表格数据和文件的可插拔存储、
使用可用系统资源自动扩展、集成代理轮换和会话管理、可通过钩子自定义的生命周期、CLI 引导项目、可配置的路由错误处理和重试、Dockerfile 已准备好部署、用泛型的 TypeScript 编写。 HTTP 爬虫:零配置 HTTP2 支持,即使对于代理也是如此、自动生成类似浏览器的标题、复制浏览器 TLS 指纹、集成了快速 HTML 解析器。Cheerio 和 JSDOM、是的,您也可以抓取 JSON API。真正的浏览器抓取:JavaScript 呈现和屏幕截图、无头和有头支持、零配置生成类人指纹、自动浏览器管理、使用具有相同界面的 Playwright 和 Puppeteer、Chrome、Firefox、Webkit 等。* [shengqiangzhang/examples-of-web-crawlers](https://github.com/shengqiangzhang/examples-of-web-crawlers) python爬虫例子
* [Jack-Cherish/python-spider](https://github.com/Jack-Cherish/python-spider) Python3网络爬虫实战:淘宝、京东、网易云、B站、12306、抖音、笔趣阁、漫画小说下载、音乐电影下载等
* [gocolly/colly](https://github.com/gocolly/colly) 优雅的 Golang 爬虫框架
* [elebumm/RedditVideoMakerBot](https://github.com/elebumm/RedditVideoMakerBot) 爬取Reddit帖子并合成视频工具
* [facert/awesome-spider](https://github.com/facert/awesome-spider) 收集各种爬虫
* [AJay13/ECommerceCrawlers](https://gitee.com/AJay13/ECommerceCrawlers) 实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目
* [shengqiangzhang/examples-of-web-crawlers](https://github.com/shengqiangzhang/examples-of-web-crawlers) 有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、微信读书、豆瓣、QQ等网站。
* [wistbean/learn_python3_spider](https://github.com/wistbean/learn_python3_spider) python爬虫教程系列、从0到1学习python爬虫,包括浏览器抓包,手机APP抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及IP代理,验证码识别,Mysql,MongoDB数据库的python使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等
* [dataabc/weiboSpider](https://github.com/dataabc/weiboSpider) 新浪微博爬虫,用python爬取新浪微博数据
* [crawlab-team/crawlab](https://github.com/crawlab-team/crawlab) 分布式爬虫管理平台,支持任何语言和框架
* [NaiboWang/EasySpider](https://github.com/NaiboWang/EasySpider) 易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。
* [binux/pyspider](https://github.com/binux/pyspider) Python中强大的蜘蛛(网络爬虫)系统。
* [shengqiangzhang/examples-of-web-crawlers](https://github.com/shengqiangzhang/examples-of-web-crawlers) 一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、微信读书、豆瓣、QQ等网站。
* [Jack-Cherish/python-spider](https://github.com/Jack-Cherish/python-spider) Python3网络爬虫实战:淘宝、京东、网易云、B站、12306、抖音、笔趣阁、漫画小说下载、音乐电影下载等
* [kangvcar/InfoSpider](https://github.com/kangvcar/InfoSpider) 集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。
* [rapiz1/rathole](https://github.com/rapiz1/rathole) 一个轻量级和高性能的反向代理,用于 NAT 遍历,用 Rust 编写。frp 和 ngrok 的替代品。与 frp 和 ngrok 一样,rathole 可以帮助通过具有公共 IP 的服务器将 NAT 后面设备上的服务暴露给 Internet。高性能 可以实现比 frp 高得多的吞吐量,并且在处理大量连接时更稳定。低资源消耗 与类似工具相比,消耗的内存要少得多。请参阅基准测试。二进制文件可以小至 ~500KiB,以适应设备(如路由器等嵌入式设备)的约束。服务的安全令牌是强制性的,并且是服务方面的。服务器和客户端负责自己的配置。使用可选的噪声协议,可以轻松配置加密。无需创建自签名证书!还支持 TLS。可以通过热重载配置文件来动态添加或删除热重载服务。HTTP API 是 WIP。
* [fhamborg/news-please](https://github.com/fhamborg/news-please) News-Please 是一个开源、易于使用的新闻爬虫,几乎可以从任何新闻网站中提取结构化信息。它可以递归地跟踪内部超链接并读取 RSS 源,以获取最新和旧的存档文章。您只需要提供新闻网站的根 URL 即可完全抓取它。news-please 结合了多个最先进的库和工具的强大功能,例如 scrapy、报纸和可读性。
* [miso-belica/jusText](https://github.com/miso-belica/jusText) 用于从 HTML 页面中删除样板内容(如导航链接、页眉和页脚)的工具。它旨在主要保留包含完整句子的文本,因此非常适合创建语言资源,例如 Web 语料库。
* [flairNLP/fundus](https://github.com/flairNLP/fundus) 静态新闻爬虫。Fundus 让您只需几行 Python 代码即可抓取在线新闻文章!无论是来自实时网站还是CC-NEWS数据集。支持:抓取一堆英语新闻文章;对特定新闻源进行爬取;抓取 100 万篇文章,为了抓取如此大量的数据,Fundus 依赖于 CommonCrawl Web 存档,尤其是 新闻抓取 CC-NEWS 。如果您不熟悉 CommonCrawl 或 CC-NEWS 查看他们的网站。评估基准中最高的F1分数。[dobbersc/fundus-evaluation](https://github.com/dobbersc/fundus-evaluation)
* [adbar/trafilatura](https://github.com/adbar/trafilatura) 发现和提取网络上的文本数据,Python和命令行工具,用于收集Web上的文本和元数据:抓取,抓取,提取,输出为CSV,JSON,HTML,MD,TXT,XML。旨在收集 Web 上的文本并简化将原始 HTML 转换为结构化、有意义的数据的过程。它包括所有必要的发现和文本处理组件,以执行 Web 爬虫、下载、抓取和提取主要文本、元数据和注释。它旨在保持方便和模块化:不需要数据库,输出可以转换为常用格式。从 HTML 批量到基本部分可以缓解许多与文本质量相关的问题,通过关注实际内容,避免重复出现的元素(页眉、页脚等)引起的噪音,并使用选定的信息理解数据。提取器设计为强大且速度相当快,可在数百万个文档上运行。该工具的多功能性使其可用于定量和数据驱动的方法。它用于学术领域及其他领域(例如自然语言处理、计算社会科学、搜索引擎优化和信息安全)。
* [mendableai/firecrawl](https://github.com/mendableai/firecrawl) 将整个网站变成 LLM-ready Markdown 或结构化数据。使用单个 API 进行抓取、抓取和提取。抓取任何网站并将其转换为LLM就绪的 Markdown 或结构化数据。由 Mendable.ai 和 Firecrawl 社区构建。包括强大的抓取、抓取和数据提取功能。Firecrawl 是一种 API 服务,它获取 URL、抓取它并将其转换为干净的 markdown 或结构化数据。我们会抓取所有可访问的子页面,并为每个子页面提供干净的数据。无需站点地图。
* [unclecode/crawl4ai](https://github.com/unclecode/crawl4ai) Crawl4AI 简化了 Web 爬虫和数据提取,使其可用于大型语言模型 (LLMs) 和 AI 应用程序。
* [mishushakov/llm-scraper](https://github.com/mishushakov/llm-scraper) 将任何网页转换为结构LLMs化数据,特征:支持本地(Ollama、GGUF)、OpenAI、Vercel AI SDK 提供商;使用 Zod 定义的架构;使用 TypeScript 实现完全的类型安全;基于Playwright框架;流式处理对象;代码生成;支持 4 种格式化模式:用于加载原始 HTML 的 html、markdown 用于加载 markdown、用于加载提取文本的文本(使用 Readability.js)、用于加载屏幕截图的图像(仅限多模式)
* [TeamWiseFlow/wiseflow](https://github.com/TeamWiseFlow/wiseflow) Wiseflow 是一种敏捷的信息挖掘工具,可从网站、微信公众号、社交平台等各种来源提取简洁的消息。它会自动对它们进行分类并上传到数据库。
### 网络服务_其他
* [livekit/livekit](https://github.com/livekit/livekit) WebRTC的端到端堆栈。交换网板介质服务器和SDK。LiveKit 是一个开源项目,提供基于 WebRTC 的可扩展的多用户会议。它旨在提供在应用程序中构建实时视频音频数据功能所需的一切。LiveKit 的服务器是用 Go 编写的,使用出色的 Pion WebRTC 实现。特征:可扩展的分布式WebRTC SFU(选择性转发单元);现代、功能完备的客户端 SDK;专为生产而打造,支持 JWT 身份验证;强大的网络和连接性,UDP/TCP/TURN;易于部署:单个二进制文件、Docker 或 Kubernetes;高级功能包括:说话人检测、联播、端到端优化、选择性订阅、审核 API、端到端加密、SVC 编解码器(VP9、AV1)、Webhook、分布式和多区域
* [gorhill/uBlock](https://github.com/gorhill/uBlock) 适用于 Chromium 和 Firefox 的有效拦截器。快速而精益。
* [nwjs/nw.js](https://github.com/nwjs/nw.js) 直接从 DOM/WebWorker 调用所有 Node.js 模块,并启用一种使用所有 Web 技术编写应用程序的新方法。
* [digitalocean/nginxconfig.io](https://github.com/digitalocean/nginxconfig.io) 配置NGINX服务器所需的唯一工具。
* [hoppscotch/hoppscotch](https://github.com/hoppscotch/hoppscotch) 开源 API 开发生态系统。轻量级:采用简约的 UI 设计精心打造。快速:实时发送请求和获取/复制响应。
* [yhirose/cpp-httplib](https://github.com/yhirose/cpp-httplib) 仅C++标头的 HTTP/HTTPS 服务器和客户端库
* [phanan/htaccess](https://github.com/phanan/htaccess) 有用的 .htaccess 代码段的集合。
* [mfornos/awesome-microservices](https://github.com/mfornos/awesome-microservices) 微服务架构相关原则和技术的精选列表。
* [simplex-chat/simplex-chat](https://github.com/simplex-chat/simplex-chat) 第一个没有任何类型的用户标识符的消息传递平台 - 设计100%私有!iOS和安卓应用程序发布
* [go-telegram-bot-api/telegram-bot-api](https://github.com/go-telegram-bot-api/telegram-bot-api) Telegram Bot API 的 Golang 绑定
* [Rapptz/discord.py](https://github.com/Rapptz/discord.py) 用 Python 编写的 Discord 的 API 包装器。
* [LonamiWebs/Telethon](https://github.com/LonamiWebs/Telethon) 纯 Py3 MTProto API Telegram 客户端库,也适用于机器人
* [papercups-io/papercups](https://github.com/papercups-io/papercups) 开源实时客户聊天。用Elixir编写的开源实时客户支持工具Web应用程序。
* [RocketChat/Rocket.Chat](https://github.com/RocketChat/Rocket.Chat) 将数据保护放在首位的通信平台。开源的完全可定制的通信平台,用JavaScript开发,适用于具有高标准数据保护的组织。
* [Wechat-Group/WxJava](https://github.com/Wechat-Group/WxJava) 微信开发 Java SDK ,支持包括微信支付,开放平台,小程序,企业微信,公众号等的后端开发
* [littlecodersh/ItChat](https://github.com/littlecodersh/ItChat) 微信个人号接口、微信机器人及命令行微信,三十行即可自定义个人号机器人。
* [MustangYM/WeChatExtension-ForMac](https://github.com/MustangYM/WeChatExtension-ForMac) Mac微信功能拓展/微信插件/微信小助手
* [wechaty/wechaty](https://github.com/wechaty/wechaty) 面向微信聊天机器人制造商的RPA(机器人流程自动化)SDK,可以帮助您在JavaScript,Python,Go和Java的6行中创建机器人,并提供跨平台支持,包括Linux,Windows,MacOS和Docker。
* [w7corp/easywechat](https://github.com/w7corp/easywechat) 一个 PHP 微信 SDK,开源 SaaS 平台提供商微擎开源产品。
* [JackJiang2011/MobileIMSDK](https://github.com/JackJiang2011/MobileIMSDK) 原创多端IM通信层框架,轻量级、高度提炼,历经8年、久经考验。可能是市面上唯一同时支持UDP + TCP + WebSocket三种协议的同类开源框架,支持 iOS、Android、Java、H5、小程序、Uniapp,服务端基于Netty。
* [cluic/wxauto](https://github.com/cluic/wxauto) Windows版本微信客户端(非网页版)自动化,可实现简单的发送、接收微信消息
* [OpenIMSDK/Open-IM-Server](https://github.com/OpenIMSDK/Open-IM-Server) 由前微信技术专家打造的基于 Go 实现的即时通讯(IM)项目,从服务端到客户端SDK开源即时通讯(IM)整体解决方案,可以轻松替代第三方IM云服务,打造具备聊天、社交功能的app。
* [hoochanlon/NeiJuan](https://github.com/hoochanlon/NeiJuan) ChatGPT、Google产品等各类镜像与SS/V2/Clash/QuanX网络链,行业研究报告的知识储备库
* [supabase/supabase](https://github.com/supabase/supabase) 开源Firebase替代品。Firebase 是一家实时后端数据库创业公司,它能帮助开发者很快的写出 Web 端和移动端的应用。于 2014 年 Google 收购了 Firebase,之后把 Firebase 结合到 Google 云服务中。
* [rustdesk/rustdesk](https://github.com/rustdesk/rustdesk) 远程桌面软件,开箱即用,无需任何配置。您完全掌控数据,不用担心安全问题。
* [vasanthk/how-web-works](https://github.com/vasanthk/how-web-works) 网络如何运作 当我们在浏览器中输入 google.com 时,幕后会发生什么?
* [signalwire/freeswitch](https://github.com/signalwire/freeswitch) 一种软件定义的电信堆栈,可实现从专有电信交换机到可在任何商用硬件上运行的多功能软件实施的数字化转型。可以释放任何设备的电信潜力。
* [ionsoul2014/ip2region](https://github.com/lionsoul2014/ip2region) 离线IP地址定位库和IP定位数据管理框架,10微秒级别查询效率,提供众多主流编程语言的 xdb 数据生成和查询客户端实现。
* [sogou/workflow](https://github.com/sogou/workflow) C++ 并行计算和异步网络引擎
* [soimort/you-get](https://github.com/soimort/you-get) youtube下载
* [XIU2/TrackersListCollection](https://github.com/XIU2/TrackersListCollection) 全网热门 BT Tracker 列表
* [itgoyo/Aria2](https://github.com/itgoyo/Aria2) 突破百度云限速合集
* [PanDownloadServer/Server](https://github.com/PanDownloadServer/Server) 百度云PanDownload的个人维护版本
* [liupan1890/aliyunpan](https://github.com/liupan1890/aliyunpan) 阿里云盘小白羊版 阿里云盘PC版 aliyundriver
* [yuesong-feng/30dayMakeCppServer](https://github.com/yuesong-feng/30dayMakeCppServer) 30天自制C++服务器,教程和源代码
* [mastodon/mastodon](https://github.com/mastodon/mastodon) 基于 ActivityPub 的免费开源社交网络服务器,用户可以在其中关注并发现新朋友。 在 Mastodon 上,用户可以发布他们想要的任何东西:链接、图片、文本、视频。 所有服务器都可以作为联合网络进行互操作(一台服务器上的用户可以与另一台的用户无缝通信,包括实现 ActivityPub 的非 Mastodon 软件)
* [nostr-protocol/nostr](https://github.com/nostr-protocol/nostr) 真正抗审查的 Twitter 替代品。最简单的开放协议,一劳永逸地创建抗审查的全球“社交”网络。 不依赖于任何受信任的中央服务器,因此具有弹性; 基于加密密钥和签名,防篡改; 它不依赖于 P2P 技术,因此可以正常工作。
* [aljazceru/awesome-nostr](https://github.com/aljazceru/awesome-nostr) 用于抗审查全球网络的开放协议nostr的项目和资源的精选列表,包括:协议、中继、客户端、程序库、网桥和网关、工具、NIP-05身份服务、浏览器扩展、社区、教程
* [irislib/iris-messenger](https://github.com/irislib/iris-messenger) 更好的社交网络Nostr的客户端。
* [damus-io/damus](https://github.com/damus-io/damus) 类似twitter的nostr客户端,适用于iPhone、iPad和MacOS。
* [jeffthibault/python-nostr](https://github.com/jeffthibault/python-nostr) 用于创建Nostr客户端的Python库
* [vooidzero/B23Downloader](https://github.com/vooidzero/B23Downloader) Qt C++开发的B站视频、直播、漫画下载器。
* [pavlobu/deskreen](https://github.com/pavlobu/deskreen) 将带有网络浏览器的设备变成您计算机的辅助屏幕
* [BiglySoftware/BiglyBT](https://github.com/BiglySoftware/BiglyBT) 基于Azureus的功能丰富的 Bittorrent 客户端
* [zonemeen/musicn](https://github.com/zonemeen/musicn) 下载高品质音乐的命令行工具
* [foamzou/melody](https://github.com/foamzou/melody) 帮助你更好地管理音乐。帮助你将喜欢的歌曲或者音频上传到音乐平台的云盘。支持在各大音乐和视频网站检索歌曲。支持一键下载到本地,一键上传到云盘。一键“解锁”无法播放的歌曲。
* [v2rayA/v2rayA](https://github.com/v2rayA/v2rayA) Web GUI,支持 V2Ray、Xray、SS、SSR、Trojan 和 Pingtunnel
* [curl/curl](https://github.com/curl/curl) 用URL语法传输数据的命令行工具和库,支持DICT, FILE, FTP, FTPS, GOPHER, GOPHERS, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, MQTT, POP3, POP3S, RTMP, RTMPS, RTSP, SCP、SFTP、SMB、SMBS、SMTP、SMTPS、TELNET、TFTP、WS 和 WSS。提供了无数强大的功能
* [Privoce/vocechat-web](https://github.com/privoce/vocechat-web) VoceChat 的 Web 客户端
* [Privoce/vocechat-server-rust](https://github.com/Privoce/vocechat-server-rust) 超轻量级的rust编写的社交服务器。轻松集成到您的网站/应用程序。
* [snail007/goproxy](https://github.com/snail007/goproxy) golang实现的高性能http,https,websocket,tcp,socks5代理服务器,支持内网穿透,链式代理,通讯加密,智能HTTP,SOCKS5代理,黑白名单,限速,限流量,限连接数,跨平台,KCP支持,认证API。
* [mailpile/Mailpile](https://github.com/mailpile/Mailpile) 一个免费开放的现代,快速的电子邮件客户端,具有用户友好的加密和隐私功能
* [makeplane/plane](https://github.com/makeplane/plane) 开源自托管项目规划工具,可帮助您以最简单的方式跟踪问题、历史和产品路线图。
* [dastergon/awesome-sre](https://github.com/dastergon/awesome-sre) 站点可靠性和生产工程资源的精选列表。站点可靠性工程(SRE)是 IT 运维的软件工程方案。
* [openedx/edx-platform](https://github.com/openedx/edx-platform) 一个面向服务的平台,用于创作和提供任何规模的在线学习。该平台是用Python和JavaScript编写的,并广泛使用Django框架。在最高级别,该平台由一个整体、一些可独立部署的应用程序(IDA)和基于ReactJS的微前端(MFE)组成。
* [lionsoul2014/ip2region](https://github.com/lionsoul2014/ip2region) 一个离线IP地址管理器框架和定位器,支持数十亿个数据段,十微秒搜索性能。适用于多种编程语言的 XDB 引擎实现
* [localForage/localForage](https://github.com/localForage/localForage) 改进了离线存储。使用简单但功能强大的API包装IndexedDB,WebSQL或localStorage。
* [521xueweihan/git-tips](https://github.com/521xueweihan/git-tips) Git的奇技淫巧。Git是分布式版本管理工具,版本管理工具能记录每次的修改,只要提交到版本仓库,就可找到之前任何时刻状态(文本状态)。
* [dotnetcore/FastGithub](https://github.com/dotnetcore/FastGithub) github加速神器,解决github打不开、用户头像无法加载、releases无法上传下载、git-clone、git-pull、git-push失败等问题
* [soimort/you-get](https://github.com/soimort/you-get) 很小的命令行实用程序,用于从 Web 下载媒体内容(视频、音频、图像),以防没有其他方便的方法可以做到这一点。
* [freefq/free](https://github.com/freefq/free) 翻墙、免费翻墙、免费科学上网、免费节点、免费梯子、免费ss/v2ray/trojan节点、蓝灯、谷歌商店、翻墙梯子
* [bannedbook/fanqiang](https://github.com/bannedbook/fanqiang) 翻墙-科学上网、翻墙工具、翻墙教程项目库
* [Dreamacro/clash](https://github.com/Dreamacro/clash) Go 中基于规则的隧道。入站:HTTP,HTTPS,SOCKS5服务器,TUN设备。出站: Shadowsocks(R), VMess, Trojan, Snell, SOCKS5, HTTP(S), Wireguard。基于规则的路由:动态脚本、域、IP 地址、进程名称等。假 IP DNS:最大限度地减少对 DNS 污染的影响并提高网络性能。透明代理:通过自动路由表/规则管理重定向 TCP 和 TProxy TCP/UDP。代理组:自动回退、负载平衡或延迟测试。远程提供程序:动态加载远程代理列表。RESTful API:通过全面的 API 就地更新配置。
* [tsenart/vegeta](https://github.com/tsenart/vegeta) HTTP 负载测试工具和库。超过9000!
* [Mrs4s/go-cqhttp](https://github.com/Mrs4s/go-cqhttp) cqhttp的golang实现,轻量、原生跨平台.容 [OneBot-v11](https://github.com/botuniverse/onebot-11) 绝大多数内容,并在其基础上做了一些扩展,详情请看 go-cqhttp 的文档。
* [zxlie/FeHelper](https://github.com/zxlie/FeHelper) Web前端助手,包括各种前端开发工具
* [node-red/node-red](https://github.com/node-red/node-red) 事件驱动应用程序的低代码编程
* [baidu/amis](https://github.com/baidu/amis) 前端低代码框架,通过 JSON 配置就能生成各种页面。
* [taowen/awesome-lowcode](https://github.com/taowen/awesome-lowcode) 国内低代码平台从业者交流
* [brick-design/brick-design](https://github.com/brick-design/brick-design) 低代码框架,支持流式布局与自由布局拖拽编排,可视化拖拽、随意嵌套组合、实时渲染、实时辅助线展示、自由布局支持辅助对齐、支持自动吸附、实时组件间距展示、实时拖拽排序、状态域管理,可视化属性配置、可视化样式配置、多设备适配展示,支持逻辑渲染、模板字符变量、表达式、自定义方法、自定义状态
* [appsmithorg/appsmith](https://github.com/appsmithorg/appsmith) 用于构建、部署和维护内部应用程序的开源平台。您可以构建任何东西,从简单的 CRUD 应用程序、管理面板、仪表板到自定义业务应用程序和复杂的多步骤工作流。
* [alibaba/lowcode-engine](https://github.com/alibaba/lowcode-engine) 一套面向扩展设计的企业级低代码技术体系
* [jeecgboot/jeecg-boo](https://github.com/jeecgboot/jeecg-boot) 「企业级低代码平台」前后端分离架构SpringBoot,SpringCloud,Ant Design&Vue,Mybatis,Shiro,JWT。强大的代码生成器让前后端代码一键生成,无需写任何代码。
* [apitable/apitable](https://github.com/apitable/apitable) 面向 API 的低代码平台,用于构建协作应用程序,比所有其他 Airtable 开源替代品都要好。
* [refinedev/refine](https://github.com/refinedev/refine) 不受限制地构建基于 React 的 CRUD 应用程序。
* [GrapesJS/grapesjs](https://github.com/GrapesJS/grapesjs) 无需编码即可构建模板的下一代Web 构建器框架。
* [baidu/amis](https://github.com/baidu/amis) 前端低代码框架,通过 JSON 配置就能生成各种页面。
* [ directus/directus](https://github.com/directus/directus) 即时 REST+GraphQL API 和直观的无代码数据协作应用程序,适用于任何 SQL 数据库。
* [YaoApp/yao](https://github.com/YaoApp/yao) 高性能低代码应用引擎,可在数分钟内创建Web服务和应用,适用于AI、IoT、工业互联网、车联网、DevOps、能源、金融和许多其他用例。
* [illacloud/illa-builder](https://github.com/illacloud/illa-builder) 健壮的开源低代码平台,开发人员可以使用它来构建内部工具。通过使用ILLA的组件和动作库,开发人员可以保存大量构建工具的时间。
* [lowdefy/lowdefy](https://github.com/lowdefy/lowdefy) 开源、自托管、低代码的框架,用于使用YAML或JSON构建内部工具、Web应用、管理面板、BI仪表板、工作流和CRUD应用。
* [openblocks-dev/openblocks](https://github.com/openblocks-dev/openblocks) 开源低代码替代方案
* [Budibase/budibase](https://github.com/Budibase/budibase) 用于在几分钟内创建内部工具、工作流和管理面板的低代码平台。支持 PostgreSQL、MySQL、MSSQL、MongoDB、Rest API、Docker、K8s 等
* [n8n-io/n8n](https://github.com/n8n-io/n8n) 免费和源代码可用的公平代码许可的工作流自动化工具。跨不同服务轻松自动执行任务。N8n 是一个可扩展的工作流程自动化工具。通过公平代码分发模型,n8n 将始终具有可见的源代码,可用于自托管,并允许您添加自己的自定义函数、逻辑和应用程序。 n8n 基于节点的方法使其具有高度的通用性,使您能够将任何东西连接到所有东西。N8n 有 200+ 个不同的节点来自动化工作流程。使用 n8n 的 LangChain 节点,您可以在工作流程中构建 AI 驱动的功能。LangChain节点是可配置的,这意味着您可以选择您喜欢的代理、LLM内存等。除了LangChain节点,您还可以像往常一样连接任何n8n节点:这意味着您可以将LangChain逻辑与其他数据源和服务集成。
* [BuilderIO/mitosis](https://github.com/BuilderIO/mitosis) 一次编写组件,到处运行。编译为 React、Vue、Qwik、Solid、Angular、Svelte 等
* [laravel/laravel](https://github.com/laravel/laravel) PHP Web应用程序框架,具有富有表现力,优雅的语法。我们已经为您的下一个大创意奠定了基础——让您自由地进行创作,而不会为小事出汗。
* [laravel/framework](https://github.com/laravel/framework) 包含PHP Laravel框架的核心代码。
* [ziadoz/awesome-php](https://github.com/ziadoz/awesome-php) 一个精选的列表,包含令人赞叹的 PHP 库、资源和东西。
* [top-think/think](https://github.com/top-think/think) ThinkPHP Framework ——十年匠心的高性能PHP框架
* [mockery/mockery](https://github.com/mockery/mockery) 简单而灵活的PHP模拟对象框架,用于PHPUnit,PHPSpec或任何其他的单元测试。其核心目标是提供一个具有简洁API的测试双重框架,该API能够使用人类可读的领域特定语言(DSL)清楚地定义所有可能的对象操作和交互。
* [tymondesigns/jwt-auth](https://github.com/tymondesigns/jwt-auth) 适用于PHP Laravel&Lumen的JSON 网络令牌认证
* [jasontaylordev/CleanArchitecture](https://github.com/jasontaylordev/CleanArchitecture) 利用干净体系结构和 ASP.NET 核心的强大功能,为企业应用程序开发提供一种简单有效的方法。使用此模板,您可以毫不费力地创建具有 ASP.NET Core和Angular或React的单页应用程序(SPA),同时遵守清洁架构的原则。入门很简单 - 只需安装 .NET 模板。
* [httpie/cli](https://github.com/httpie/cli) 适用于 API 时代的现代、用户友好的命令行 HTTP 客户端。JSON支持,颜色,会话,下载,插件等。
* [nswbmw/N-blog](https://github.com/nswbmw/N-blog) 一起学 Node.js,使用 Express + MongoDB 搭建多人博客
* [ripienaar/free-for-dev](https://github.com/ripienaar/free-for-dev) SaaS、PaaS 和 IaaS 产品列表,这些产品对 DevOps 和 infradev 部分免费。现在有许多服务提供免费套餐,但找到它们都需要时间来做出明智的决定。
* [olistic/warriorjs](https://github.com/olistic/warriorjs) 令人兴奋的编程和人工智能游戏,在 WarriorJS 中,你是一名爬上高塔到达顶层 JavaScript 剑的战士。传说持剑者在 JavaScript 语言中变得开悟,但请注意:旅程并不容易。在每一层楼,你需要编写JavaScript来指导战士与敌人作战,营救俘虏,并活着到达楼梯......
* [coreybutler/nvm-windows](https://github.com/coreybutler/nvm-windows) 适用于 Windows 的node.js版本管理实用程序。具有讽刺意味的是,用GO写的。
* [apache/brpc](https://github.com/apache/brpc) 使用C++语言的工业级RPC框架,通常用于高性能系统,如搜索,存储,机器学习,广告,推荐等。
* [typicode/json-server](https://github.com/typicode/json-server) 在不到 30 秒的时间内获得零编码的完整伪造 REST API
* [ruanyf/jstraining](https://github.com/ruanyf/jstraining) 全栈工程师培训材料,帮助学习者掌握 JavaScript 全栈开发的基本知识,承担简单 Web 应用的前后端开发。
* [apache/thrift](https://github.com/apache/thrift) 一个轻量级、独立于语言的软件堆栈,用于点对点 RPC 实现。Thrift 为数据传输、数据序列化和应用程序级处理提供了干净的抽象和实现。代码生成系统将简单的定义语言作为输入,并跨编程语言生成代码,这些编程语言使用抽象堆栈来构建可互操作的 RPC 客户端和服务器。Thrift 使用不同编程语言编写的程序可以轻松共享数据和调用远程过程。由于支持 28 种编程语言,Thrift 很可能支持您当前使用的语言。Thrift 专门设计用于支持跨客户端和服务器代码的非原子版本更改。这允许您升级服务器,同时仍然能够为旧客户端提供服务;或者让较新的客户端向较旧的服务器发出请求。社区提供的关于对 API 进行版本控制时的节俭和兼容性的优秀文章可以在节俭缺失指南中找到。
* [drogonframework/drogon](https://github.com/drogonframework/drogon) 基于C++14/17/20的HTTP Web应用程序框架,运行在Linux/macOS/Unix/Windows上。
* [makeplane/plane](https://github.com/makeplane/plane) 开源JIRA,线性和高度替代。Plane 可帮助您以最简单的方式跟踪问题、史诗和产品路线图。
* [hashicorp/vagrant](https://github.com/hashicorp/vagrant) 用于构建和分发开发环境的工具。由Vagrant管理的开发环境可以在本地虚拟化平台(如VirtualBox或VMware)上运行,通过AWS或OpenStack在云中运行,或者在容器(如Docker或原始LXC)上运行。
* [mlandauer/cuttlefish](https://github.com/mlandauer/cuttlefish) 具有可爱Web界面的事务性电子邮件服务器
* [nylas/nylas-mail](https://github.com/nylas/nylas-mail) 基于现代 Web 构建的可扩展桌面邮件应用程序。
* [gorilla/websocket](https://github.com/gorilla/websocket) 一个快速、经过充分测试和广泛使用的 Go. WebSocket 实现。
* [allinurl/goaccess](https://github.com/allinurl/goaccess) 一个实时 Web 日志分析器和交互式查看器,可在 *nix 系统的终端中或通过浏览器运行。
* [wasmerio/wasmer](https://github.com/wasmerio/wasmer) 领先的 WebAssembly 运行时,支持 WASIX、WASI 和 Emscripten,它使令人难以置信的轻量级容器能够在任何地方运行:从桌面到云,边缘甚至浏览器。
* [PHP-CS-Fixer/PHP-CS-Fixer](https://github.com/PHP-CS-Fixer/PHP-CS-Fixer) 自动修复PHP编码标准问题的工具;无论您是想遵循PSR-1,PSR-2等中定义的PHP编码标准,还是其他社区驱动的标准,如Symfony。您还可以通过配置来定义(团队)的风格。
* [phpstan/phpstan](https://github.com/phpstan/phpstan) PHP 静态分析工具 - 无需运行即可发现代码中的错误!
* [ramsey/uuid](https://github.com/ramsey/uuid) 用于生成通用唯一标识符 (UUID) 的 PHP 库。
* [PHPOffice/PhpSpreadsheet](https://github.com/PHPOffice/PhpSpreadsheet) 用于读取和写入电子表格文件的纯 PHP 库
* [vlucas/phpdotenv](https://github.com/vlucas/phpdotenv) 自动将环境变量从“.env”加载到“getenv()”,`$_ENV`和“$_SERVER”。
* [thephpleague/flysystem](https://github.com/thephpleague/flysystem) 本地和远程文件系统的抽象。一个PHP的文件存储库。它提供了一个接口来与多种类型的文件系统进行交互。当您使用 Flysystem 时,您不仅可以免受供应商锁定的影响,还可以获得适合您的一致体验。
* [KurtBestor/Hitomi-Downloader](https://github.com/KurtBestor/Hitomi-Downloader) 桌面实用程序,用于从各种网站下载图像/视频/音乐/文本等。
* [scrapy/scrapy](https://github.com/scrapy/scrapy) 用于Python的快速高级Web爬行和抓取框架。用于抓取网站并从其页面中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试。
* [caddyserver/caddy](https://github.com/caddyserver/caddy) 具有自动 HTTPS 功能的快速且可扩展的多平台 HTTP/1-2-3 Web 服务器
* [jhuangtw/xg2xg](https://github.com/jhuangtw/xg2xg) 一个方便的类似技术和服务的查找表,帮助前谷歌员工在现实世界中生存,系统设计入门、Hadoop 生态系统表、将 AWS 服务映射到 GCP 产品、数据库数据库、Google 开源词汇表
* [netdata/netdata](https://github.com/netdata/netdata) 以高分辨率和实时监控您的服务器、容器和应用程序!
* [nektos/act](https://github.com/nektos/act) 在本地运行 GitHub Actions,快速反馈 - 无需在每次要测试对 `.github/workflows/` 文件所做的更改(或对嵌入式 GitHub 操作的任何更改)时都提交/推送,而是可以在 `act` 本地运行操作。环境变量和文件系统都配置为与 GitHub 提供的内容相匹配。
* [go-gitea/gitea](https://github.com/go-gitea/gitea) 轻松自托管的一体化软件开发服务,包括 Git 托管、代码审查、团队协作、包注册表和 CI/CD
* [Kong/kong](https://github.com/Kong/kong) 一种云原生、与平台无关、可扩展的 API 网关,以其高性能和通过插件的可扩展性而著称。通过提供代理、路由、负载均衡、运行状况检查、身份验证等功能,Kong 充当了轻松编排微服务或传统 API 流量的中心层。Kong在Kubernetes上本地运行,这要归功于其官方的Kubernetes Ingress Controller。
* [getsentry/sentry](https://github.com/getsentry/sentry) 开发人员优先的错误跟踪和性能监控
* [dokku/dokku](https://github.com/dokku/dokku) 基于 Docker 的 PaaS,可帮助您构建和管理应用程序的生命周期
* [MichaelCade/90DaysOfDevOps](https://github.com/MichaelCade/90DaysOfDevOps) 正在使用这个存储库来记录我学习 DevOps 的旅程。我于 2022 年 1 月 1 日开始了这个过程,并计划持续到 3 月 31 日。我每天(包括周末)将花一个小时来获得对DevOps各个方面的基本理解。这将是一个为期 90 天的强化学习期。
* [antirez/smallchat](https://github.com/antirez/smallchat) 聊天服务器的最小C编程示例
* [zu1k/nali](https://github.com/zu1k/nali) 一个查询IP地理信息和CDN服务提供商的离线终端工具.
* [awesome-foss/awesome-sysadmin](https://github.com/awesome-foss/awesome-sysadmin) 非常棒的开源系统管理员资源的精选列表。
* [SoftEtherVPN/SoftEtherVPN](https://github.com/SoftEtherVPN/SoftEtherVPN) 跨平台多协议 VPN 软件。
* [vishnubob/wait-for-it](https://github.com/vishnubob/wait-for-it) 纯 bash 脚本,用于测试和等待 TCP 主机和端口的可用性
* [Mailu/Mailu](https://github.com/Mailu/Mailu) 孤立的电子邮件分发 - 作为 Docker 映像的邮件服务器
* [mailcow/mailcow-dockerized](https://github.com/mailcow/mailcow-dockerized) 一个基于 Docker 的开源群件/电子邮件套件。Mailcow 依赖于许多众所周知且长期使用的组件,这些组件结合在一起形成了一个全方位的无忧电子邮件服务器。
* [NginxProxyManager/nginx-proxy-manager](https://github.com/NginxProxyManager/nginx-proxy-manager) 用于管理Nginx代理主机的Docker容器,具有简单,强大的界面
* [jhy/jsoup](https://github.com/jhy/jsoup) Java HTML 解析器,专为 HTML 编辑、清理、抓取和 XSS 安全而构建。
* [PostHog/posthog](https://github.com/PostHog/posthog) 提供开源产品分析、会话录制、功能标记和 A/B 测试,您可以自行托管。
* [XX-net/XX-Net](https://github.com/XX-net/XX-Net) 绕过 GFW 的代理工具。不去研究墙有什么缺陷,因为所有的缺陷都会被慢慢的补上。 我们的策略是化身为普通流量,完全无法区分,最终隐身在茫茫的网络连接中。
* [txthinking/brook](https://github.com/txthinking/brook) 一个跨平台可编程网络工具.
* [RunaCapital/awesome-oss-alternatives](https://github.com/RunaCapital/awesome-oss-alternatives) 知名 SaaS 产品的开源初创公司替代品的超棒列表
* [v2fly/v2ray-core](https://github.com/v2fly/v2ray-core) 一个用于构建代理以绕过网络限制的平台。
* [cyfdecyf/cow](https://github.com/cyfdecyf/cow) 用 Go 编写的 HTTP 代理。COW 可以自动识别被阻止的站点并使用父代理进行访问。
* [buger/goreplay](https://github.com/buger/goreplay) 用于捕获实时 HTTP 流量并将其重放到测试环境中,以便使用真实数据持续测试您的系统。可用于增强对代码部署、配置更改和基础结构更改的信心。
* [postalserver/postal](https://github.com/postalserver/postal) 功能齐全的开源邮件传递平台,用于传入和传出电子邮件
* [gogs/gogs](https://github.com/gogs/gogs) 一个无痛的自托管 Git 服务
* [yarnpkg/berry](https://github.com/yarnpkg/berry) 现代的包管理器,分为各种包。其新颖的架构允许完成目前使用现有解决方案无法完成的事情:Yarn 支持插件;添加插件就像将其添加到存储库中一样简单;Yarn 默认支持 Node,插件可以添加对其他语言的支持;Yarn 原生支持工作区,其 CLI 利用了这一点;Yarn 使用类似 bash 的可移植 shell 脚本可跨 Windows、Linux 和 macOS 移植;Yarn 首先是一个 Node API,可以通过编程方式(通过 @yarnpkg/core)使用;Yarn 是用 TypeScript 编写的,并且经过了完全的类型检查
* [DIYgod/RSSHub](https://github.com/DIYgod/RSSHub) 一切都是可RSS的,一个开源、易于使用且可扩展的 RSS 源生成器。它能够从几乎所有内容生成RSS提要。
* [Netflix/conductor](https://github.com/Netflix/conductor) Netflix 创建的一个平台,用于编排跨微服务的工作流程。Conductor 由 Netflix 的媒体工作流基础设施团队维护。
* [pytube/pytube](https://github.com/pytube/pytube) 一个轻量级、无依赖的 Python 库(和命令行实用程序),用于下载 YouTube 视频。
* [Qv2ray/Qv2ray](https://github.com/Qv2ray/Qv2ray) Linux / Windows / macOS 跨平台 V2Ray 客户端 | 支持 VMess / VLESS / SSR / Trojan / Trojan-Go / NaiveProxy / HTTP / HTTPS / SOCKS5 | 使用 C++ / Qt 开发 | 可拓展插件式设计
* [astrada/google-drive-ocamlfuse](https://github.com/astrada/google-drive-ocamlfuse) Google Drive 的 FUSE 文件系统(Filesystem in Userspace,用户空间中的文件系统),用 OCaml 编写。
* [umami-software/umami](https://github.com/umami-software/umami) Google Analytics 的一款简单快速、注重隐私的替代品。
* [Alvin9999/new-pac](https://github.com/Alvin9999/new-pac) 翻墙-科学上网、自由上网、免费科学上网、免费翻墙、油管youtube、fanqiang、VPN、一键翻墙浏览器,vps一键搭建翻墙服务器脚本/教程,免费shadowsocks/ss/ssr/v2ray/goflyway账号/节点,翻墙梯子,电脑、手机、iOS、安卓、windows、Mac、Linux、路由器翻墙、科学上网
* [adam-p/markdown-here](https://github.com/adam-p/markdown-here) Google Chrome,Firefox和Thunderbird扩展程序可让您在Markdown中编写电子邮件并在发送前呈现。
* [go-kratos/kratos](https://github.com/go-kratos/kratos) 面向云原生时代的终极 Go 微服务框架。
* [zeromicro/go-zero](https://github.com/zeromicro/go-zero) 带有 cli 工具的云原生 Go 微服务框架,可提高工作效率。
* [goharbor/harbor](https://github.com/goharbor/harbor) 开源的受信任的云原生注册表项目,用于存储、签名和扫描内容。
* [locustio/locust](https://github.com/locustio/locust) 易于使用、可编写脚本且可扩展的性能测试工具。在常规 Python 代码中定义负载测试,而不是受仅假装为真实代码的 UI 或域特定语言的约束。这使得 Locust 可以无限扩展并且对开发人员非常友好。
* [iawia002/lux](https://github.com/iawia002/lux) 用 Go 编写的快速简单的视频下载库和 CLI 工具
* [Molunerfinn/PicGo](https://github.com/Molunerfinn/PicGo) 由vue-cli-electron-builder构建的简单而漂亮的图片上传工具
* [itgoyo/TelegramGroup](https://github.com/itgoyo/TelegramGroup) 悄咪咪收集的1000+个Telegram群合集
* [python-telegram-bot/python-telegram-bot](https://github.com/python-telegram-bot/python-telegram-bot) 为 Telegram Bot API 提供了一个纯 Python 异步接口。
* [DrKLO/Telegram](https://github.com/DrKLO/Telegram) 一款专注于速度和安全性的消息传递应用程序。它超快速、简单且免费。此存储库包含适用于Android的Telegram应用程序的官方源代码。
* [telegramdesktop/tdesktop](https://github.com/telegramdesktop/tdesktop) 官方Telegram messenger桌面客户端的完整源代码和构建说明,基于Telegram API和MTProto安全协议。
* [session-replay-tools/tcpcopy](https://github.com/session-replay-tools/tcpcopy) 在线请求复制工具,也是tcp流重放工具,适用于真实测试,性能测试,稳定性测试,压力测试,负载测试,冒烟测试等
* [TooTallNate/Java-WebSocket](https://github.com/TooTallNate/Java-WebSocket) 100% Java 写的准系统 WebSocket 实现。
* [linlinjava/litemall](https://github.com/linlinjava/litemall) 又一个小商城。litemall = Spring Boot后端 + Vue管理员前端 + 微信小程序用户前端 + Vue用户移动端
* [iamadamdev/bypass-paywalls-chrome](https://github.com/iamadamdev/bypass-paywalls-chrome) 绕过适用于 Chrome 和 Firefox 的付费墙 Web 浏览器扩展程序。
* [InstaPy/InstaPy](https://github.com/InstaPy/InstaPy) 自动执行社交媒体交互以“耕种”Instagram 上的点赞、评论和关注者的工具 使用 Selenium 模块在 Python 中实现。
* [tiangolo/uwsgi-nginx-flask-docker](https://github.com/tiangolo/uwsgi-nginx-flask-docker) 带有uWSGI和Nginx的Docker镜像,用于在单个容器中运行的Python中的Flask应用程序。(可选)使用 Alpine Linux。
* [psf/requests-html](https://github.com/psf/requests-html) 使解析 HTML(例如抓取 Web)尽可能简单直观
* [fortra/impacket](https://github.com/fortra/impacket) 用于处理网络协议的 Python 类的集合。专注于提供对数据包的低级编程访问,对于某些协议(例如 SMB1-3 和 MSRPC),协议实现本身。数据包可以从头开始构建,也可以从原始数据中解析,面向对象的 API 使使用协议的深层层次结构变得简单。该库提供了一组工具作为示例。
* [encode/httpx](https://github.com/encode/httpx) 用于 Python 3 的全功能 HTTP 客户端库。它包括一个集成的命令行客户端,支持 HTTP/1.1 和 HTTP/2,并提供同步和异步 API。
* [tweepy/tweepy](https://github.com/tweepy/tweepy) 易于使用的 Python 库,用于访问 Twitter API。
* [aio-libs/aiohttp](https://github.com/aio-libs/aiohttp) 用于 asyncio 和 Python 的异步 HTTP 客户端/服务器框架。
* [eternnoir/pyTelegramBotAPI](https://github.com/eternnoir/pyTelegramBotAPI) 简单但可扩展的 Py实现,用于 Telegram Bot API。
* [aiogram/aiogram](https://github.com/aiogram/aiogram) 现代且完全异步的Telegram Bot API框架,使用asyncio用Py编写
* [FiloSottile/mkcert](https://github.com/FiloSottile/mkcert) 一个简单的零配置工具,用于使用您想要的任何名称创建本地信任的开发证书。用于制作本地信任的开发证书的简单工具。它不需要任何配置。
* [Rigellute/spotify-tui](https://github.com/Rigellute/spotify-tui) 用 Rust 编写的终端的 Spotify 客户端
* [extrawurst/gitui](https://github.com/extrawurst/gitui) 用rust编写的,终端中提供了git GUI
* [zulip/zulip](https://github.com/zulip/zulip) 开源的团队协作工具,具有独特的基于主题的线程,结合了电子邮件和聊天的优点,使远程工作高效且令人愉快。财富 500 强公司、领先的开源项目以及数以千计的其他组织每天都在使用 Zulip。Zulip 是唯一一款专为实时和异步对话而设计的现代团队聊天应用程序。
* [ArchiveBox/ArchiveBox](https://github.com/ArchiveBox/ArchiveBox) 开源自托管 Web 存档。获取 URL/浏览器历史记录/书签/Pocket/Pinboard/等,保存 HTML、JS、PDF、媒体等
* [TryGhost/Ghost](https://github.com/TryGhost/Ghost) 一款功能强大的应用程序,供专业出版商围绕其内容创建、共享和发展业务。它配备了现代工具,可以构建网站,发布内容,发送时事通讯并向会员提供付费订阅。
* [hwdsl2/setup-ipsec-vpn](https://github.com/hwdsl2/setup-ipsec-vpn) 使用 IPsec/L2TP、Cisco IPsec 和 IKEv2 构建您自己的 IPsec VPN 服务器的脚本
* [nextcloud/server](https://github.com/nextcloud/server) Nextcloud 服务器,您所有数据的安全家园。功能:访问您的数据 您可以将文件、联系人、日历等存储在您选择的服务器上。同步您的数据 您可以在设备之间保持文件、联系人、日历等的同步。分享您的数据...通过让其他人访问您希望他们查看或协作的内容。可扩展数百个应用程序...例如日历、通讯录、邮件、视频聊天以及您可以在我们的 App Store 中发现的所有内容。通过我们的加密机制、HackerOne 赏金计划和双因素身份验证确保安全性。
* [juanfont/headscale](https://github.com/juanfont/headscale) 建立在 Wireguard 之上的现代 VPN。它的工作方式类似于网络计算机之间的覆盖网络 - 使用 NAT 遍历。
* [nats-io/nats-server](https://github.com/nats-io/nats-server) 适用于 NATS.io、云和边缘原生消息传递系统的高性能服务器。
* [AdguardTeam/AdGuardHome](https://github.com/AdguardTeam/AdGuardHome) 网络范围的广告和跟踪器阻止DNS服务器
* [EZLippi/Tinyhttpd](https://github.com/EZLippi/Tinyhttpd) J. David Blackstone在1999年写的一个不到 500 行的超轻量型 Http Server,用来学习非常不错,可以帮助我们真正理解服务器程序的本质。
* [haraka/Haraka](https://github.com/haraka/Haraka) 快速、高度可扩展且事件驱动的 SMTP 服务器
* [foxcpp/maddy](https://github.com/foxcpp/maddy) 可组合的多合一邮件服务器。
* [dovecot/core](https://github.com/dovecot/core) 邮件服务器
* [iredmail/iRedMail](https://github.com/iredmail/iRedMail) 适用于Linux/BSD 发行版的全功能开源邮件服务器解决方案。
* [Foundry376/Mailspring](https://github.com/Foundry376/Mailspring) 适用于 Mac、Windows 和 Linux 的美观、快速且完全开源的邮件客户端。
* [navidrome/navidrome](https://github.com/navidrome/navidrome) 现代音乐服务器和流媒体与亚音速/Airsonic 兼容
* [processone/ejabberd](https://github.com/processone/ejabberd) 强大、无处不在且可大规模扩展的消息传递平台(XMPP、MQTT、SIP 服务器)
* [firezone/firezone](https://github.com/firezone/firezone) 基于 WireGuard® 的可扩展远程访问平台,与您的 IdP 集成,无需开放端口。开源平台,可安全地管理任何规模组织的远程访问。与大多数 VPN 不同,Firezone 采用精细、最低权限的访问管理方法,采用基于组的策略来控制对单个应用程序、整个子网以及介于两者之间的所有内容的访问。
* [Pawdroid/Free-servers](https://github.com/Pawdroid/Free-servers) 免费订阅地址,免费节点,6小时更新一次,共享节点,节点质量高可用,完全免费。免费clash订阅地址,免费翻墙、免费科学上网、免费梯子、免费ss/v2ray/trojan节点、谷歌商店、翻墙梯子。
* [vernesong/OpenClash](https://github.com/vernesong/OpenClash) 可运行在 OpenWrt 上的 Clash 客户端。兼容 Shadow socks、ShadowsocksR、Vmess、Trojan、Snell 等协议,根据灵活的规则配置实现策略代理
* [artilleryio/artillery](https://github.com/artilleryio/artillery) 云规模的负载测试,就像 1-2-3 一样简单。开箱即用的无服务器和分布式。永不扩展
* [novnc/noVNC](https://github.com/novnc/noVNC) HTML VNC 客户端 JS库,也是一个基于该库构建的应用程序。noVNC 在任何现代浏览器(包括移动浏览器(iOS 和 Android))中都能正常运行。
* [LibVNC/libvncserver](https://github.com/LibVNC/libvncserver) LibVNCServer/LibVNCClient 是跨平台的 C 库,可让您在程序中轻松实现 VNC 服务器或客户端功能。
* [activepieces/activepieces](https://github.com/activepieces/activepieces) 您最友好的开源多合一自动化工具 工作流自动化工具 ✨ 100+ 集成 / 企业自动化工具 / ChatBot / Zapier相关应用
* [huginn/huginn](https://github.com/huginn/huginn) 用于构建代理的系统,这些代理可以为您在线执行自动化任务。他们可以阅读网络、监视事件并代表您采取行动。Huginn 的代理创建和使用事件,并沿有向图传播它们。将其视为您自己的服务器上 IFTTT 或 Zapier 的可破解版本。
* [pinpoint-apm/pinpoint](https://github.com/pinpoint-apm/pinpoint) APM,用于大规模分布式系统的应用程序性能管理工具。
* [grpc/grpc](https://github.com/grpc/grpc) 现代、开源、高性能的远程过程调用 框架,可以在任何地方运行。gRPC 使客户端和服务器应用程序能够透明地进行通信,并简化连接系统的构建。
* [TKkk-iOSer/WeChatPlugin-MacOS](https://github.com/TKkk-iOSer/WeChatPlugin-MacOS) MacOS微信小助手 v2.0,消息自动回复、消息防撤回、远程控制(已支持语音)、微信多开、第二次登录免认证、聊天置底功能(类似置顶)、微信窗口置顶、会话多选删除、自动登录开关、通知中心快捷回复、聊天窗口表情包复制 & 存储、小助手检测更新提醒、alfred 快捷发送消息 & 打开窗口 (需安装:wechat-alfred-workflow)、会话一键已读、一键清除空会话、支持国际化、新增一键更新、新增关于小助手、去除微信url转链、史上最强 alfred 扩展、新增移除会话(不删除聊天记录)、菜单栏(关于小助手)新增 alfred 开关、新增是否使用微信自带浏览器开关、新增LaunchBar 扩展、新增禁止微信检测更新开关(非App Store版本)、新增小助手.app安装方式、支持退群监控,撤回消息定位
* [alexcasalboni/aws-lambda-power-tuning](https://github.com/alexcasalboni/aws-lambda-power-tuning) 开源工具,可帮助您可视化和微调 Lambda 函数的内存/电源配置。它在您自己的 AWS 账户中运行(由 AWS Step Functions 提供支持),并支持三种优化策略:成本、速度和平衡。
* [oldj/SwitchHosts](https://github.com/oldj/SwitchHosts) 用于管理hosts文件的应用程序,它基于Electron,React,Jotai,Chakra UI,CodeMirror等。
* [rclone/rclone](https://github.com/rclone/rclone) 命令行程序,用于将文件和目录与不同的云存储提供商同步。如Google Drive、S3、Dropbox、Backblaze B2、One Drive、Swift、Hubic、Wasabi、Google Cloud Storage、Yandex Files
* [alex/what-happens-when](https://github.com/alex/what-happens-when) 试图回答古老的面试问题“当您在浏览器中输入 google.com 并按回车键时会发生什么?
* [syncthing/syncthing](https://github.com/syncthing/syncthing) 连续的文件同步程序。它在两台或多台计算机之间同步文件。我们努力实现以下目标。目标按重要性顺序列出,最重要的目标排在最前面。
* [netbox-community/netbox](https://github.com/netbox-community/netbox) 用于建模和记录现代网络的领先解决方案。通过将 IP 地址管理 (IPAM) 和数据中心基础设施管理 (DCIM) 的传统规则与强大的 API 和扩展相结合,NetBox 为网络自动化提供了理想的“事实来源”。NetBox 作为 Apache 2.0 许可下的开源软件提供,是数千个组织网络自动化的基石。`物理基础设施`:精确地模拟物理世界,从全球区域到单个设备机架。然后连接一切 - 网络、控制台和电源!`现代 IPAM`:您期望的所有标准 IPAM 功能,以及 VRF 导入/导出跟踪、VLAN 管理和覆盖网络支持。`数据电路`:自信地管理来自各种服务提供商的关键电路的交付,并与您自己的基础设施无缝建模。`功率跟踪`:将上游电源的功率分布映射到各个馈电和插座。`组织`:以本机方式管理租户和联系人分配。`强大的搜索功能`:使用单一的全局搜索功能轻松找到您需要的任何内容。`全面的日志记录`:利用自动更改日志记录和用户提交的日志条目来跟踪网络随时间推移的增长情况。`无尽的自定义`:自定义字段、自定义链接、标签、导出模板、自定义验证、报告、脚本等!`灵活的权限`:高级权限系统可实现非常灵活的权限委派。`集成`:通过其REST和GraphQL API轻松将NetBox连接到您的其他工具。`插件`:尝试众多社区插件之一 - 或构建自己的插件!
* [discourse/discourse](https://github.com/discourse/discourse) 您社区的在线主页。我们为那些希望完全控制其网站运行方式和位置的人提供 100% 开源社区平台。
* [novuhq/novu](https://github.com/novuhq/novu) 面向开发人员的开源通知基础结构。使用单个 API 管理多渠道通知的终极服务。适用于所有消息传递提供商的单一 API(应用内、电子邮件、短信、推送、聊天)。轻松管理多个渠道的通知。配备CMS,用于高级布局和设计管理。内置对缺失变量的保护。易于设置和集成。在单个仪表板中调试和分析多渠道消息。具有实时更新的嵌入式通知中心。社区驱动。
* [frappe/erpnext](https://github.com/frappe/erpnext) 免费和开源的企业资源规划 (ERP),包括以下用于管理业务的领域:会计、仓库管理、客户关系管理、销售、购买、人力资源管理系统、项目管理、支持、资产管理、质量管理、制造业、网站管理、自定义 ERPNext、还有更多
* [odoo/odoo](https://github.com/odoo/odoo) 基于Web的开源商业应用程序。包括开源CRM,网站构建器,电子商务,仓库管理,项目管理,计费和会计,销售点,人力资源,营销,制造,...
* [yt-dlp/yt-dlp](https://github.com/yt-dlp/yt-dlp) youtube-dl 分支,基于现在不活跃的 youtube-dlc。该项目的主要重点是添加新功能和补丁,同时与原始项目保持同步
* [FreeTubeApp/FreeTube](https://github.com/FreeTubeApp/FreeTube) 用于隐私的开源 YouTube 应用程序
* [diaspora/diaspora](https://github.com/diaspora/diaspora) 一个具有隐私意识的分布式开源社交网络。
* [wildfirechat/im-server](https://github.com/wildfirechat/im-server) 专业级的即时通讯和实时音视频整体解决方案
* [IceWhaleTech/CasaOS](https://github.com/IceWhaleTech/CasaOS) 简单、易用、优雅的开源个人云系统。与社区建立联系,建立自主权,降低 SaaS 的成本,并最大限度地发挥个性化副驾驶的潜力。
* [filebrowser/filebrowser](https://github.com/filebrowser/filebrowser) 指定目录下提供了一个文件管理界面,可用于上传、删除、预览、重命名和编辑您的文件。它允许创建多个用户,每个用户都可以拥有自己的目录。它可以用作独立应用程序。
* [StevenBlack/hosts](https://github.com/StevenBlack/hosts) 整合和扩展来自多个精心策划的来源的主机文件。(可选)选择色情、社交媒体和其他类别的扩展。
* [ytdl-org/youtube-dl](https://github.com/ytdl-org/youtube-dl) 用于从 YouTube.com 和其他视频网站下载视频的命令行程序
* [iptv-org/iptv](https://github.com/iptv-org/iptv) 收集来自世界各地的公开可用的IPTV(互联网协议电视)频道。
* [wg/wrk](https://github.com/wg/wrk) 现代 HTTP 基准测试工具,能够在单个多核 CPU 上运行时产生大量负载。它将多线程设计与可扩展的事件通知系统(如 epoll 和 kqueue)相结合。可选的 LuaJIT 脚本可以执行 HTTP 请求生成、响应处理和自定义报告。
* [shadowsocks/ShadowsocksX-NG](https://github.com/shadowsocks/ShadowsocksX-NG) 下一代 ShadowsocksX
* [nsqio/nsq](https://github.com/nsqio/nsq) 实时分布式消息传递平台,旨在大规模运行,每天处理数十亿条消息。它促进了分布式和分散式拓扑结构,没有单点故障,实现了容错和高可用性以及可靠的消息传递保证。查看功能和保证。在操作上,NSQ 易于配置和部署(所有参数都在命令行上指定,编译的二进制文件没有运行时依赖性)。为了获得最大的灵活性,它与数据格式无关(消息可以是 JSON、MsgPack、协议缓冲区或其他任何格式)。官方的 Go 和 Python 库(以及许多其他客户端库)开箱即用,如果您有兴趣构建自己的库,这里有一个协议规范。
* [monicahq/monica](https://github.com/monicahq/monica) 个人客户关系管理。记住你的朋友、家人和业务关系的一切。
* [agalwood/Motrix](https://github.com/agalwood/Motrix) 功能齐全的下载管理器,支持下载 HTTP、FTP、BitTorrent、Magnet 等。
* [brave/brave-browser](https://github.com/brave/brave-browser) 适用于 Android、Linux、macOS、Windows 的下一代 Brave (Chromium) 浏览器。
* [shuzheng/zheng](https://github.com/shuzheng/zheng) 基于Spring+SpringMVC+Mybatis分布式敏捷开发系统架构,提供整套公共微服务模块:集中权限管理(单点登录)、内容管理、支付中心、用户管理(支持三方登录)、微信平台、存储系统、配置中心、日志分析、任务和通知等,支持服务治理、监控和追踪,努力为中小型企业打造全方位J2EE企业级开发解决方案。
* [square/okhttp](https://github.com/square/okhttp) Square 适用于 JVM、Android 和 GraalVM 的细致 HTTP 客户端。
* [square/retrofit](https://github.com/square/retrofit) 适用于 Android 和 JVM 的类型安全 HTTP 客户端
* [XIU2/CloudflareSpeedTest](https://github.com/XIU2/CloudflareSpeedTest) 「自选优选 IP」测试 Cloudflare CDN 延迟和速度,获取最快 IP !当然也支持其他 CDN / 网站 IP
* [heyxyz/hey](https://github.com/heyxyz/hey) 使用 Lens Protocol 构建的去中心化且无需许可的社交媒体应用程序
* [calcom/cal.com](https://github.com/calcom/cal.com) 为所有人安排基础设施。Calendly 和其他调度工具很棒。它使我们的生活变得非常轻松。我们用它来参加商务会议、研讨会、瑜伽课,甚至与家人通话。但是,大多数工具在控制和定制方面都非常有限。
* [medusajs/medusa](https://github.com/medusajs/medusa) 一组商务模块和工具,可让您构建丰富、可靠且高性能的商务应用程序,而无需重新发明核心商务逻辑。这些模块可以定制并用于构建高级电子商务商店、市场或任何需要基础商务原语的产品。
* [grpc/grpc-go](https://github.com/grpc/grpc-go) gRPC 的 Go 语言实现。基于 HTTP/2 的 RPC
* [grpc/grpc-java](https://github.com/grpc/grpc-java) Java gRPC 实现。基于 HTTP/2 的 RPC
* [grpc/grpc-web](https://github.com/grpc/grpc-web) 适用于 Web 客户端的 gRPC
* [mattermost/mattermost](https://github.com/mattermost/mattermost) 开源平台,用在整个软件开发生命周期中实现安全协作。
* [pion/webrtc](https://github.com/pion/webrtc) WebRTC API 的纯 Go 实现
* [cachethq/cachet](https://github.com/cachethq/cachet) 开源状态页面系统。
* [asciimoo/wuzz](https://github.com/asciimoo/wuzz) 用于 HTTP 检查的交互式 cli 工具。类似于 cURL 的参数,因此它可用于检查/修改从浏览器的网络检查器复制的请求,并具有“复制为 cURL”功能。
* [cilium/cilium](https://github.com/cilium/cilium) 基于 eBPF 的网络、安全性和可观测性
* [wekan/wekan](https://github.com/wekan/wekan) 开源看板,体验高效的任务管理,开源、可定制且注重隐私的看板。
* [apache/incubator-answer](https://github.com/apache/incubator-answer) 适用于任何规模团队的问答平台软件。无论是社区论坛、帮助中心还是知识管理平台,您始终可以信赖 Apache Answer。
* [forem/forem](https://github.com/forem/forem) 开源平台,用于构建现代、独立和安全的社区。
* [Binaryify/NeteaseCloudMusicApi](https://github.com/Binaryify/NeteaseCloudMusicApi) 网易云音乐 Node.js API service
* [cryptomator/cryptomator](https://github.com/cryptomator/cryptomator) 对云中的文件进行多平台透明客户端加密
* [movie-web/movie-web](https://github.com/movie-web/movie-web) 一个小型网络应用程序,可轻松观看电影和节目
* [aria2/aria2](https://github.com/aria2/aria2) 轻量级的多协议和多源、跨平台的下载实用程序,在命令行中运行。它支持 HTTP/HTTPS、FTP、SFTP、BitTorrent 和 Metalink。
* [gfwlist/gfwlist](https://github.com/gfwlist/gfwlist) 阻止和干扰包含敏感或不需要信息的网站
* [valyala/fasthttp](https://github.com/valyala/fasthttp) Go 的快速 HTTP 包。针对高性能进行了调整。热路径中的内存分配为零。比 net/http 快 10 倍
* [cloudreve/Cloudreve](https://github.com/cloudreve/Cloudreve) 自托管文件管理系统,支持多云。特征:支持将文件存储到本地存储、远程存储、七牛、阿里云 OSS、腾讯 COS、Upyun、OneDrive、S3 兼容 API。直接传输上传/下载,支持限速。与 Aria2 集成以离线下载文件,使用多个下载节点来分担负载。压缩/解压文件,批量下载文件。涵盖所有存储提供商的 WebDAV 支持。拖放以上传文件或文件夹,并具有流式上传处理功能。拖放以管理您的文件。多用户与多组。为具有到期日期的文件和文件夹创建共享链接。在线预览视频、图像、音频、ePub 文件;在线编辑文本、Office 文档。自定义主题颜色、深色模式、PWA 应用程序、SPA、i18n。多合一包装,所有功能开箱即用。
* [tailscale/tailscale](https://github.com/tailscale/tailscale) 使用 WireGuard 和 2FA 的最简单、最安全的方式。
* [trailofbits/algo](https://github.com/trailofbits/algo) 一组 Ansible 脚本,可简化个人 WireGuard 和 IPsec VPN 的设置。使用最安全的默认值,并与常见的云提供商合作。
* [ginuerzh/gost](https://github.com/ginuerzh/gost) GO语言实现的安全隧道。特性:多端口监听、可设置转发代理,支持多级转发(代理链)、支持标准HTTP(2)(S)/SOCKS4(A)(5)代理协议、Web代理支持探测防御、支持多种隧道类型、SOCKS5代理支持TLS协商加密、基于 TCP 的隧道 UDP、TCP/UDP透明代理、本地/远程TCP/UDP转发、支持Shadowsocks(TCP/UDP)协议、支持SNI代理、权限控制、负载均衡、路由控制、DNS解析和代理、TUN/TAP设备
* [wagtail/wagtail](https://github.com/wagtail/wagtail) 基于 Django 的开源内容管理系统,拥有强大的社区和商业支持。它专注于用户体验,并为设计人员和开发人员提供精确的控制。
* [skywind3000/kcp](https://github.com/skywind3000/kcp) 快速可靠协议,能以比 TCP 浪费 10%-20% 的带宽的代价,换取平均延迟降低 30%-40%,且最大延迟降低三倍的传输效果。纯算法实现,并不负责底层协议(如UDP)的收发,需要使用者自己定义下层数据包的发送方式,以 callback的方式提供给 KCP。 连时钟都需要外部传递进来,内部不会有任何一次系统调用。CP是为流量设计的(每秒内可以传输多少KB的数据),讲究的是充分利用带宽。而 KCP是为流速设计的(单个数据包从一端发送到一端需要多少时间),以10%-20%带宽浪费的代价换取了比 TCP快30%-40%的传输速度。TCP信道是一条流速很慢,但每秒流量很大的大运河,而KCP是水流湍急的小激流。
* [twitter/finagle](https://github.com/twitter/finagle) 容错、与协议无关的 RPC 系统。JVM 的可扩展 RPC 系统,用于构建高并发服务器。Finagle 为多种协议实现了统一的客户端和服务器 API,专为高性能和并发性而设计。Finagle 的大部分代码都与协议无关,从而简化了新协议的实现。
* [TeamNewPipe/NewPipe](https://github.com/TeamNewPipe/NewPipe) 适用于 Android 的自由轻量级流媒体前端。
* [mayswind/AriaNg](https://github.com/mayswind/AriaNg) 一个现代的 Web 前端,使 aria2 更易于使用。
* [Shabinder/SpotiFlyer](https://github.com/Shabinder/SpotiFlyer) Kotlin 多平台音乐下载器,支持 Spotify / Gaana / Youtube Music / Jio Saavn / SoundCloud。
* [ajayyy/SponsorBlock](https://github.com/ajayyy/SponsorBlock) 跳过 YouTube 视频赞助商(浏览器扩展程序)
* [libre-tube/LibreTube](https://github.com/libre-tube/LibreTube) 适用于 Android 的 YouTube 的替代前端。
* [daltoniam/Starscream](https://github.com/daltoniam/Starscream) 适用于 iOS 和 OSX 的 swift 中的 Websockets
* [cloudflare/quiche](https://github.com/cloudflare/quiche) IETF 指定的 QUIC 传输协议和 HTTP/3 的实现。它提供了一个低级 API,用于处理 QUIC 数据包和处理连接状态。该应用程序负责提供 I/O(例如套接字处理)以及支持计时器的事件循环。
* [cloudflare/cfssl](https://github.com/cloudflare/cfssl) Cloudflare 的 PKI 和 TLS 工具包。既是命令行工具,又是用于签名、验证和捆绑 TLS 证书的 HTTP API 服务器。
* [cloudflare/cloudflared](https://github.com/cloudflare/cloudflared) 包含 Cloudflare Tunnel 的命令行客户端,这是一个隧道守护程序,用于代理从 Cloudflare 网络到源的流量。此守护程序位于 Cloudflare 网络和您的源(例如 Web 服务器)之间。Cloudflare 吸引客户端请求并通过此守护程序将其发送给您,而无需您在防火墙上戳洞,---您的源可以尽可能保持关闭状态。
* [qbittorrent/qBittorrent](https://github.com/qbittorrent/qBittorrent) 用C++ / Qt编程的bittorrent客户端,它使用Arvid Norberg的libtorrent(有时称为libtorrent-rasterbar)。它旨在成为所有其他 bittorrent 客户端的良好替代品。qBittorrent 快速、稳定,并提供 unicode 支持以及许多功能。
* [c0re100/qBittorrent-Enhanced-Edition](https://github.com/c0re100/qBittorrent-Enhanced-Edition) qBittorrent 增强,基于 qBittorrent。特征:Auto Ban 迅雷、QQ、百度、Xfplay、DLBT和离线下载器;自动禁止来自中国的未知对等方选项(默认:关闭);自动更新公共跟踪器列表(默认:关闭);自动禁止 BitTorrent 媒体播放器对等选项(默认:关闭);对等白名单/黑名单
* [ZLMediaKit/ZLMediaKit](https://github.com/ZLMediaKit/ZLMediaKit) 基于 C++11 的 WebRTC/RTSP/RTMP/HTTP/HLS/HTTP-FLV/WebSocket-FLV/HTTP-TS/HTTP-fMP4/WebSocket-TS/WebSocket-fMP4/GB28181/SRT 服务器和客户端框架
* [go-chi/chi](https://github.com/go-chi/chi) 轻量级、惯用且可组合的路由器,用于构建 Go HTTP 服务
* [go-resty/resty](https://github.com/go-resty/resty) Go 的简单 HTTP 和 REST 客户端库
* [radishes-music/radishes](https://github.com/radishes-music/radishes) 跨平台的无版权的音乐平台
* [BlueMatthew/WechatExporter](https://github.com/BlueMatthew/WechatExporter) 微信聊天记录导出备份程序
* [chimurai/http-proxy-middleware](https://github.com/chimurai/http-proxy-middleware) 用于连接、快速、next.js等的单行node.js http 代理中间件
* [knadh/listmonk](https://github.com/knadh/listmonk) 高性能、自托管、时事通讯和邮件列表管理器,具有现代仪表板。
* [KRTirtho/spotube](https://github.com/KRTirtho/spotube) 开源 Spotify 客户端,不需要 Premium,也不使用 Electron,适用于桌面和移动设备
* [msgbyte/tailchat](https://github.com/msgbyte/tailchat) 不仅是 IM。相反,它为个人/团队设计了一个以IM为中心的高度定制化的应用平台,以第三方应用作为增强功能,以插件系统作为中间的胶水连接层。
* [koishijs/koishi](https://github.com/koishijs/koishi) 用爱制作的跨平台聊天机器人框架
* [Nyr/openvpn-install](https://github.com/Nyr/openvpn-install) 适用于 Ubuntu、Debian、AlmaLinux、Rocky Linux、CentOS 和 Fedora 的 OpenVPN road warrior 安装程序
* [dgtlmoon/changedetection.io](https://github.com/dgtlmoon/changedetection.io) 最好和最简单的免费开源网站更改检测、网站观察器、补货监控和通知服务。补货监控,变化检测。为简单而设计 - 只需免费监控哪些网站有文本更改。免费开源网页变更检测、网站污损监控、价格变更通知
* [haproxy/haproxy](https://github.com/haproxy/haproxy) HAProxy Load Balancer 的开发分支(git.haproxy.org 镜像)。高性能的负载均衡软件。因为其专注于负载均衡这一些事情,因此与nginx比起来在负载均衡这件事情上做更好,更专业。
* [centrifugal/centrifugo](https://github.com/centrifugal/centrifugo) 以与语言无关的方式扩展实时消息服务器。Pubnub、Pusher、Ably 的自托管替代品。设置一次,永远设置。开源、可扩展的实时消息服务器。Centrifugo可以即时向通过支持的传输(WebSocket、HTTP-streaming、SSE/EventSource、GRPC、SockJS、WebTransport)连接的应用程序在线用户发送消息。具有频道订阅的概念——因此它是一个面向用户的 PUB/SUB 服务器。
* [GopeedLab/gopeed](https://github.com/GopeedLab/gopeed) 支持所有平台的现代下载管理器。使用 Go 和 Flutter 构建。
* [ekzhang/sshx](https://github.com/ekzhang/sshx) 通过网络进行快速、协作的实时终端共享
* [adnanh/webhook](https://github.com/adnanh/webhook) 轻量级的传入 Webhook 服务器,用于运行 shell 命令
* [openresty/openresty](https://github.com/openresty/openresty) 基于 Nginx 和 LuaJIT 的高性能 Web 平台
* [janeczku/calibre-web](https://github.com/janeczku/calibre-web) 用于浏览、阅读和下载存储在 Calibre 数据库中的电子书的 Web 应用程序
* [messense/aliyundrive-webdav](https://github.com/messense/aliyundrive-webdav) 阿里云盘 WebDAV 服务
* [webtorrent/webtorrent-desktop](https://github.com/webtorrent/webtorrent-desktop) 流媒体 torrent 应用程序。适用于 Mac、Windows 和 Linux。
* [koodo-reader/koodo-reader](https://github.com/koodo-reader/koodo-reader) 具有 Windows、macOS、Linux 和 Web 同步和备份功能的现代电子书管理器和阅读器
* [rrweb-io/rrweb](https://github.com/rrweb-io/rrweb) “记录和重放网络”,用于记录和重放用户在网络上的交互的工具。
* [apernet/OpenGFW](https://github.com/apernet/OpenGFW) Linux 上 GFW(中国防火墙)的灵活、易用的开源实现
* [cdnjs/cdnjs](https://github.com/cdnjs/cdnjs) 免费和开源 CDN,旨在让开发人员的生活更轻松。
* [cloudflare/pingora](https://github.com/cloudflare/pingora) Rust 框架,用于构建快速、可靠和可编程的网络系统。Pingora 经过了实战考验,因为它已经为每秒超过 4000 万个互联网请求提供服务了几年多。
* [docker-mailserver/docker-mailserver](https://github.com/docker-mailserver/docker-mailserver) 生产就绪的全栈但简单的邮件服务器(SMTP、IMAP、LDAP、反垃圾邮件、防病毒等)在容器内运行。
* [localsend/localsend](https://github.com/localsend/localsend) AirDrop 的开源跨平台替代方案,可让您通过本地网络安全地与附近的设备共享文件和消息,而无需互联网连接。
* [schollz/croc](https://github.com/schollz/croc) 轻松安全地将内容从一台计算机发送到另一台计算机
* [mickael-kerjean/filestash](https://github.com/mickael-kerjean/filestash) 用于 SFTP、S3、FTP、WebDAV、Git、Minio、LDAP、CalDAV、CardDAV、Mysql、Backblaze 等的现代 Web 客户端。
* [szimek/sharedrop](https://github.com/szimek/sharedrop) 由 WebRTC 提供支持的轻松 P2P 文件传输 - 灵感来自 Apple AirDrop
* [nukeop/nuclear](https://github.com/nukeop/nuclear) 为您查找免费音乐的流媒体音乐播放器
* [spotDL/spotify-downloader](https://github.com/spotDL/spotify-downloader) 下载您的 Spotify 播放列表和歌曲以及专辑封面和元数据(如果找到匹配项,则从 YouTube 下载)。
* [caprover/caprover](https://github.com/caprover/caprover) 最简单的应用程序/数据库部署平台和 Web 服务器包,适用于 NodeJS、Python、PHP、Ruby、Go 应用程序。
* [mikeroyal/Self-Hosting-Guide](https://github.com/mikeroyal/Self-Hosting-Guide) 自托管指南。了解有关本地托管(本地和专用 Web 服务器)以及由您自己或您的组织管理软件应用程序的所有信息。包括云、LLMs、WireGuard、自动化、家庭助理和网络。
* [leiurayer/downkyi](https://github.com/leiurayer/downkyi) 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。
* [zerotier/ZeroTierOne](https://github.com/zerotier/ZeroTierOne) 用于地球的智能可编程以太网交换机。它允许所有联网设备、虚拟机、容器和应用程序进行通信,就好像它们都驻留在同一个物理数据中心或云区域中一样。这是通过将加密寻址的安全对等网络(称为 VL1)与有点类似于 VXLAN(称为 VL2)的以太网仿真层相结合来实现的。我们的 VL2 以太网虚拟化层包括高级企业 SDN 功能,例如用于网络微分段和安全监控的细粒度访问控制规则。所有 ZeroTier 流量都使用只有您才能控制的密钥进行端到端加密。大多数流量都是点对点的,但我们为无法建立点对点连接的用户提供免费(但速度慢)的中继。
* [chatwoot/chatwoot](https://github.com/chatwoot/chatwoot) 开源实时聊天、电子邮件支持、全渠道服务台。Intercom、Zendesk、Salesforce Service Cloud 等的替代品。支持以下对话渠道:网站:使用我们的实时聊天小部件与您的客户交谈,并利用我们的 SDK 来识别用户并提供上下文支持。Facebook、Instagram、Twitter、Telegram、WhatsApp、Line、Twilio 短信、API 通道、电子邮件。其他功能包括:CRM、自定义属性、共享多品牌收件箱、私人笔记、预制回复、对话标签、自动分配:根据可用性和负载智能地分配给有权访问收件箱的座席、对话连续性、多语言支持、强大的 API 和 Webhook
* [dutchcoders/transfer.sh](https://github.com/dutchcoders/transfer.sh) 从命令行轻松快速地共享文件。此代码包含服务器,其中包含创建自己的实例所需的一切。目前支持 s3 (Amazon S3)、gdrive (Google Drive)、storj (Storj) 提供程序和本地文件系统 (local)。
* [microsoft/IoT-For-Beginners](https://github.com/microsoft/IoT-For-Beginners) 12 周,24 节课,面向所有人的物联网!
* [Moya/Moya](https://github.com/Moya/Moya) 用 Swift 编写的网络抽象层。
* [mamoe/mirai](https://github.com/mamoe/mirai) 在全平台下运行,提供 QQ Android 协议支持的高效率机器人库
* [hubotio/hubot](https://github.com/hubotio/hubot) 构建聊天机器人的框架,以 GitHub 的同名 Campfire 机器人 hubot 为蓝本。他很酷。可以使用脚本进行扩展,并且可以在许多不同的聊天服务上工作。
* [tgbot-collection/YYeTsBot](https://github.com/tgbot-collection/YYeTsBot) 人人影视 机器人和网站,包含人人影视全部资源以及众多网友的网盘分享
* [element-hq/element-web](https://github.com/element-hq/element-web) 一个光鲜亮丽的 Web Matrix 协作客户端。
* [gotify/server](https://github.com/gotify/server) 简单的服务器,用于每个 WebSocket 实时发送和接收消息。
* [sockjs/sockjs-client](https://github.com/sockjs/sockjs-client) WebSocket 仿真 - Javascript 客户端
* [Jackett/Jackett](https://github.com/Jackett/Jackett) 您最喜欢的 torrent 跟踪器,Jackett 用作代理服务器:它将来自应用程序(Sonarr、Radarr、SickRage、CouchPotato、Mylar3、Lidarr、DuckieTV、qBittorrent、Nefarious 等)的查询转换为特定于跟踪器站点的 http 查询,解析 html 或 json 响应,然后将结果发送回请求软件。这允许获取最近上传的内容(如 RSS)并执行搜索。Jackett 是维护索引器抓取和翻译逻辑的单一存储库 - 消除了其他应用程序的负担。
* [lingochamp/FileDownloader](https://github.com/lingochamp/FileDownloader) Android多任务文件下载引擎。多任务、多线程(MultiConnection)、断点-恢复、高并发、简单易用、单/非单进程
* [lingochamp/okdownload](https://github.com/lingochamp/okdownload) 可靠、灵活、快速、强大的Android下载引擎。
* [web1n/wechat-universal-flatpak](https://github.com/web1n/wechat-universal-flatpak/tree/main) 基于微信 Linux Universal 版打包,无发行版限制。
* [versatica/mediasoup](https://github.com/versatica/mediasoup) 尖端的 WebRTC 视频会议。MediaSoup 及其客户端库旨在实现以下目标:成为 SFU(选择性转发单元)。支持 WebRTC 和普通 RTP 输入和输出。是服务器端的Node.js模块或 Rust crate。成为客户端的小型 TypeScript 和 C++ 库。极简主义:只需处理媒体层即可。信令不可知:不要强制要求任何信令协议。是超低级别的 API。支持所有现有的 WebRTC 端点。启用与知名多媒体库/工具的集成。
* [public-api-lists/public-api-lists](https://github.com/public-api-lists/public-api-lists) 用于软件和 Web 开发的免费 API 的集合列表。
* [drakkan/sftpgo](https://github.com/drakkan/sftpgo/) 功能齐全且高度可配置的 SFTP、HTTP/S、FTP/S 和 WebDAV 服务器 - S3、Google Cloud Storage、Azure Blob
* [sergiotapia/magnetissimo](https://github.com/sergiotapia/magnetissimo) 为所有流行的 torrent 站点编制索引并将其保存到本地数据库的 Web 应用程序。
* [Sonarr/Sonarr](https://github.com/Sonarr/Sonarr) Usenet 和 BitTorrent 用户的 PVR。它可以监控您喜欢的节目的新剧集的多个 RSS 提要,并会抓取、排序和重命名它们。它还可以配置为在质量更好的格式可用时自动升级已下载文件的质量。
* [Radarr/Radarr](https://github.com/Radarr/Radarr) Usenet 和 BitTorrent 用户的电影收藏管理器。它可以监控新电影的多个 RSS 源,并将与客户端和索引器交互以抓取、排序和重命名它们。它还可以配置为在有更好的质量格式可用时自动升级库中现有文件的质量。请注意,仅支持给定影片的一种类型。如果您想要给定电影的 4k 版本和 1080p 版本,则需要多个实例。
* [webtorrent/instant.io](https://github.com/webtorrent/instant.io) 通过 WebTorrent 传输流式文件(网络上的种子)。使用 WebTorrent 协议(基于 WebRTC 的 BitTorrent)下载/上传文件。由 WebTorrent 提供支持,这是第一个无需插件即可在浏览器中运行的 torrent 客户端。WebTorrent 由 JavaScript 和 WebRTC 提供支持。支持 Chrome、Firefox、Opera(桌面和 Android)。在控制台中运行 localStorage.debug = '*' 并刷新以获取详细的日志输出。
* [transmission-remote-gui/transgui](https://github.com/transmission-remote-gui/transgui) 功能丰富的跨平台传输BitTorrent客户端。比内置的 Web GUI 更快,功能更多。
* [roundcube/roundcubemail](https://github.com/roundcube/roundcubemail) 基于浏览器的多语言 IMAP 客户端,具有类似应用程序的用户界面。它提供了您期望从电子邮件客户端获得的全部功能,包括 MIME 支持、地址簿、文件夹管理、邮件搜索和拼写检查。Roundcube Webmail 是用 PHP 编写的,需要 MySQL、PostgreSQL 或 SQLite 数据库。凭借其插件 API,它很容易扩展,并且用户界面可以使用皮肤完全自定义。设计用于在 Web 服务器上运行的代码主要用 PHP 和 Javascript 编写。它包括一个自定义框架,其中包含派生自 IlohaMail 的 IMAP 库,并且需要一组外部库(请参阅 composer.json 和 jsdeps.json 文件)。
* [pallets/werkzeug](https://github.com/pallets/werkzeug) 全面的 python WSGI Web 应用程序库。它最初是 WSGI 应用程序的各种实用程序的简单集合,现已成为最先进的 WSGI 实用程序库之一。包括:一个交互式调试器,允许在浏览器中使用堆栈中任何帧的交互式解释器检查堆栈跟踪和源代码。一个功能齐全的请求对象,其中包含用于与标头、查询参数、表单数据、文件和 Cookie 交互的对象。一个响应对象,可以包装其他 WSGI 应用程序并处理流数据。用于将 URL 匹配到端点并为端点生成 URL 的路由系统,以及用于从 URL 捕获变量的可扩展系统。HTTP 实用程序,用于处理实体标记、缓存控制、日期、用户代理、cookie、文件等。在本地开发应用程序时使用的线程 WSGI 服务器。一个测试客户端,用于在测试期间模拟 HTTP 请求,而无需运行服务器。
* [hiddify/hiddify-next](https://github.com/hiddify/hiddify-next) 多平台自动代理客户端,支持Sing-box、X-ray、TUIC、Hysteria、Reality、Trojan、SSH等。它是开源的、安全的、无广告的。
* [pallets/itsdangerous](https://github.com/pallets/itsdangerous) 将可信数据安全地传递到不受信任的环境并返回。各种帮助程序将数据传递到不受信任的环境,并使其安全无恙地恢复。数据经过加密签名,以确保令牌未被篡改。可以自定义数据序列化的方式。根据需要压缩数据。加载令牌时,可以自动添加和验证时间戳。
* [berty/berty](https://github.com/berty/berty) 安全的点对点消息传递应用程序,无论是否具有互联网访问、蜂窝数据或网络信任,都可以使用。建立在 Wesh 协议之上的隐私优先消息传递应用程序。安全和私密:默认情况下,消息是端到端加密的;元数据保持在最低限度;创建帐户不需要电话号码或电子邮件地址;即使在对抗性网络上使用时,也能保留其属性;具有审查弹性;去中心化、分布式、点对点和无服务器;由于采用了 BLE 技术和 mDNS,因此不需要互联网连接。;永久免费和开源Berty 被设计为在所有其他传统信使失败时用作通信工具。Berty Messenger 提供以下用例:当您需要通过不受信任的网络共享敏感信息时,例如在旅行时;
如果您想匿名交流;如果您想完全控制您的数据,因此不想依赖第三方服务器;
在积极监控和调整其网络的国家,限制其使用并审查其某些内容;在连接较弱或根本没有连接的区域。* [Evil0ctal/Douyin_TikTok_Download_API](https://github.com/Evil0ctal/Douyin_TikTok_Download_API) 开箱即用的高性能异步抖音、快手、TikTok、Bilibili数据爬取工具,支持API调用,在线批量解析及下载。
* [secdev/scapy](https://github.com/secdev/scapy) 基于Python的交互式数据包操作程序和库。它能够伪造或解码各种协议的数据包,通过网络发送它们,捕获它们,使用 pcap 文件存储或读取它们,匹配请求和回复等等。它旨在通过使用有效的默认值来允许快速数据包原型设计。它可以轻松处理大多数经典任务,如扫描、跟踪路由、探测、单元测试、攻击或网络发现(它可以替换 hping 、 等的 85% nmap arpspoof arp-sk arping tcpdump wireshark p0f 的 、它在大多数其他工具无法处理的许多其他特定任务中也表现得很好,例如发送无效帧、注入您自己的 802.11 帧、组合技术(VLAN 跳跃 + ARP 缓存中毒、WEP 受保护信道上的 VoIP 解码等)等。Scapy 支持 Python 3.7+。它旨在跨平台运行,并在许多不同的平台(Linux、OSX、*BSD 和 Windows)上运行。
* [uNetworking/uWebSockets](https://github.com/uNetworking/uWebSockets) 简单、安全且符合标准的 Web 服务器,适用于要求最苛刻的应用程序。μWebSockets 针对速度和内存占用进行了精心优化,速度足够快,可以比大多数替代服务器更快地完成加密的 TLS 1.3 消息传递,甚至可以执行未加密的明文消息传递。μWebSockets完全是用C&C++编写的,但与Node.js后端无缝集成。这允许使用广泛的能力快速编写功能强大的应用程序的脚本。请参见μWebSockets.js。μWebSockets 为世界上许多最大的加密货币交易所提供支持,每天处理数十亿美元的交易量。如果您交易加密货币,您很有可能通过μWebSockets进行交易。围绕一个方便的URL路由器设计,支持通配符和参数 - 与WebSockets的高效发布/订阅功能配对。μWebSockets 应该是任何具有高要求的实时 Web 项目的明显、完整的起点。μWebSockets 建立在 μSockets 之上,μSockets 是一个在三个不同层中实现事件、网络和加密的基础库。每一层都有多个实现,您可以使用标志控制编译后的组合。目前有五个事件循环集成;libuv、ASIO、GCD 和原始 epoll/kqueue。
* [VinciGit00/Scrapegraph-ai](https://github.com/VinciGit00/Scrapegraph-ai) 网络抓取 python 库,它使用LLM和指导图形逻辑为网站和本地文档(XML、HTML、JSON 等)创建抓取管道。有三种主要的抓取管道可用于从网站(或本地文件)中提取信息:只需要用户提示和输入源的单页抓取工具;从搜索引擎的前 n 个搜索结果中提取信息的多页抓取工具;从网站中提取信息并生成音频文件的单页抓取工具。
* [google/go-github](https://github.com/google/go-github) 用于访问 GitHub v3 API 的 Go 库
* [http-party/http-server](https://github.com/http-party/http-server) 一个简单的零配置命令行 HTTP 服务器,它足够强大,可用于生产用途,但它足够简单且易于破解,可用于测试、本地开发和学习。
* [coredns/coredns](https://github.com/coredns/coredns) DNS 服务器/转发器,用 Go 编写,用于链接插件。每个插件都执行一个(DNS)功能。快速灵活的DNS服务器。这里的关键词是灵活:使用CoreDNS,您可以通过使用插件对DNS数据做任何您想做的事情。如果某些功能没有开箱即用,您可以通过编写插件来添加它。
* [tdlib/td](https://github.com/tdlib/td) TDLib(Telegram 数据库库)是一个用于构建 Telegram 客户端的跨平台库。它几乎可以在任何编程语言中轻松使用。TDLib 有很多优点。值得注意的是 TDLib :跨平台: TDLib 可在 Android、iOS、Windows、macOS、Linux、FreeBSD、OpenBSD、NetBSD、illumos、Windows Phone、WebAssembly、watchOS、tvOS、visionOS、Tizen、Cygwin 上使用。它还应该在其他 *nix 系统上工作,无论是否付出最小的努力。多语言: TDLib 可以很容易地与任何能够执行 C 函数的编程语言一起使用。此外,它已经具有本机 Java(使用 JNI )绑定和 .NET(使用 C++/CLI 和 C++/CX )绑定。易于使用: TDLib 负责所有网络实施细节、加密和本地数据存储。高性能:在 Telegram Bot API 中,每个 TDLib 实例同时处理超过 24000 个活动机器人。有据可查:所有 TDLib API 方法和公共接口都有完整的文档记录。一致性: TDLib 保证所有更新都以正确的顺序交付。可靠: TDLib 在缓慢且不可靠的 Internet 连接上保持稳定。安全:所有本地数据都使用用户提供的加密密钥进行加密。完全异步:请求 TDLib 不要相互阻止或其他任何内容,响应在可用时发送。
* [JeffreySu/WeiXinMPSDK](https://github.com/JeffreySu/WeiXinMPSDK) 微信全平台 .NET SDK, Senparc.Weixin for C#,支持 .NET Framework 及 .NET Core、.NET 8.0。已支持微信公众号、小程序、小游戏、微信支付、企业微信/企业号、开放平台、JSSDK、微信周边等全平台。 WeChat SDK for C#.
* [grpc-ecosystem/awesome-grpc](https://github.com/grpc-ecosystem/awesome-grpc) gRPC 有用资源的精选列表。gRPC 是一个现代开源高性能远程过程调用 (RPC) 框架,可以在任何环境中运行。它可以有效地连接数据中心内和数据中心之间的服务,并提供对负载均衡、跟踪、运行状况检查和身份验证的可插拔支持。它也适用于分布式计算的最后一英里,将设备、移动应用程序和浏览器连接到后端服务。简单的服务定义:使用协议缓冲区定义服务,这是一种强大的二进制序列化工具集和语言。快速启动并扩展:使用单行安装运行时和开发环境,并使用该框架扩展到每秒数百万个 RPC。跨语言和平台工作:以各种语言和平台为您的服务自动生成惯用的客户端和服务器存根。双向流式处理和集成身份验证:双向流式处理和完全集成的可插拔身份验证,具有基于 HTTP/2 的传输。
* [jeessy2/ddns-go](https://github.com/jeessy2/ddns-go) 简单易用的DDNS。自动获得你的公网 IPv4 或 IPv6 地址,并解析到对应的域名服务。支持阿里云、腾讯云、Dnspod、Cloudflare、回调、华为云、百度云、Porkbun、GoDaddy、Namecheap、NameSilo...支持Mac、Windows、Linux系统,支持ARM、x86架构。支持的域名服务商 阿里云 腾讯云 Dnspod Cloudflare 华为云 Callback 百度云 Porkbun GoDaddy Namecheap NameSilo Dynadot。支持接口/网卡/命令获取IP。支持以服务的方式运行。默认间隔5分钟同步一次。支持同时配置多个DNS服务商。支持多个域名同时解析。支持多级域名。网页中配置,简单又方便,默认勾选禁止从公网访问。网页中方便快速查看最近50条日志。支持Webhook通知。支持TTL。支持部分DNS服务商传递自定义参数,实现地域解析/多IP等功能。
* [zfile-dev/zfile](https://github.com/zfile-dev/zfile) 在线云盘、网盘、OneDrive、云存储、私有云、对象存储、h5ai、上传、下载。ZFile 是一个适用于个人的在线网盘(列目录)程序,可以将你各个存储类型的存储源,统一到一个网页中查看、预览、维护,再也不用去登录各种各样的网页登录后管理文件,现在你只需要在 ZFile 中使用。你只需要填写存储源相关信息,其他的令牌刷新,授权都是尽量自动化的,且有完善的文档帮助你使用。支持对接 S3、OneDrive、SharePoint、Google Drive、多吉云、又拍云、本地存储、FTP、SFTP 等存储源。支持在线浏览图片、播放音视频,文本文件、Office、obj(3d)等文件类型。
* [xykt/IPQuality](https://github.com/xykt/IPQuality) 用于 IP 质量检测的脚本。中英文双语言支持。支持IPv4/IPv6双栈查询;精美排版,直观显示,多终端单屏优化展示,便于截图分享;基础信息、IP类型、风险评分、风险因子、流媒体解锁、邮局检测六大模块;基础数据源自Maxmind数据库;风险信息 IPinfo / ipregistry / ipapi / AbuseIPDB / IP2LOCATION / IPQS / DB-IP / SCAMALYTICS / IPWHOIS 多数据库整合;流媒体及AI多个服务商 TikTok / Disney+ / Netflix / Youtube / AmazonPrimeVideo / Spotify / ChatGPT 解锁及解锁类型检测;多邮局服务商 Gmail / Outlook / Yahoo / Apple / QQ / Mail.ru / AOL / GMX / Mail.com / 163 / Sohu / Sina 连通性检测;多邮局服务商 Gmail / Outlook / Yahoo / Apple / QQ / Mail.ru / AOL / GMX / Mail.com / 163 / 搜狐 / Sina 连通性检测;IP地址黑名单400+数据库检测
* [caorushizi/mediago](https://github.com/caorushizi/mediago) m3u8[m3u8-downloader] 视频在线提取工具 流媒体下载 、视频下载 、 m3u8下载 、 B站视频下载 桌面客户端 windows mac
* [cloudflare/boringtun](https://github.com/cloudflare/boringtun) Rust 中的用户空间 WireGuard® 实现,专为便携性和速度而设计。BoringTun 已成功部署在数百万台 iOS 和 Android 消费类设备以及数千台 Cloudflare Linux 服务器上。可执行文件 boringtun-cli ,用于 Linux 和 macOS 的用户空间 WireGuard 实现。该库 boringtun 可用于在各种平台(包括 iOS 和 Android)上实现快速高效的 WireGuard 客户端应用程序。它实现了底层的 WireGuard 协议,没有网络或隧道堆栈,这些协议可以以平台惯用的方式实现。WireGuard ® 是一款极其简单但快速且现代的 VPN,它利用了最先进的加密技术。它旨在比 IPsec 更快、更简单、更精简、更有用,同时避免了令人头疼的问题。它打算比OpenVPN性能高得多。WireGuard 被设计为通用 VPN,可在嵌入式接口和超级计算机上运行,适用于许多不同的情况。它最初是为 Linux 内核发布的,现在是跨平台(Windows、macOS、BSD、iOS、Android)并可广泛部署的。它目前正在大量开发中,但它已经被认为是业内最安全、最容易使用和最简单的 VPN 解决方案。
* [git-ecosystem/git-credential-manager](https://github.com/git-ecosystem/git-credential-manager) 安全的跨平台 Git 凭据存储,可对 GitHub、Azure Repos 和其他常用 Git 托管服务进行身份验证。Git 凭据管理器 (GCM) 是基于 .NET 构建的安全 Git 凭据帮助程序,可在 Windows、macOS 和 Linux 上运行。它旨在为每个主要的源代码控制托管服务和平台提供一致且安全的身份验证体验,包括多因素身份验证。GCM 支持(按字母顺序排列)Azure DevOps、Azure DevOps Server(以前称为 Team Foundation Server)、Bitbucket、GitHub 和 GitLab。与 Git 的内置凭据帮助程序(Windows:wincred,macOS:osxkeychain,Linux:gnome-keyring/libsecret)相比,它们仅为用户名/密码提供单因素身份验证支持。GCM 取代了基于 .NET Framework 的 Git Credential Manager(适用于 Windows)和基于 Java 的 Git Credential Manager(适用于 Mac 和 Linux)。
* [SagerNet/sing-box](https://github.com/SagerNet/sing-box) 通用代理平台,一款功能强大的跨平台代理客户端软件,支持多种代理协议,如 Shadowsocks、Trojan、VMess 等。它整合了多种代理协议,支持跨平台使用,并提供灵活的流量控制功能,可用于改善网络连接、绕过网络限制以及优化网络流量路由。此外,Sing-box 还可以创建网络代理服务器、客户端和透明代理,并允许用户管理和使用本地、iCloud 和远程配置文件。
## 区块链、智能合约
* [chaozh/awesome-blockchain-cn](https://github.com/chaozh/awesome-blockchain-cn) 收集所有区块链(BlockChain)技术开发相关资料,包括Fabric和Ethereum开发资料
* [bitcoin/bitcoin](https://github.com/bitcoin/bitcoin) 比特币核心代码功能的集成/暂存树
* [ethereum/go-ethereum](https://github.com/ethereum/go-ethereum) 以太坊协议的官方Go实现
* [ethereum/solidity](https://github.com/ethereum/solidity) 静态类型的、面向合约的高级语言,用于在以太坊平台上实现智能合约。
* [imfly/bitcoin-on-nodejs](https://github.com/imfly/bitcoin-on-nodejs) 《Node.js区块链开发》
* [OpensourceBooks/blockchain](https://github.com/OpensourceBooks/blockchain) 开源教程:从零开始写区块链
* [yeasy/blockchain_guide](https://github.com/yeasy/blockchain_guide) 区块链技术指南。以全球最大的开源分布式账本项目——超级账本为例讲解具体应用。
* [dvf/blockchain](https://github.com/dvf/blockchain) 一个简单的 Python 区块链
* [anders94/blockchain-demo](https://github.com/anders94/blockchain-demo) 基于网络的区块链概念演示。
* [Jeiwan/blockchain_go](https://github.com/Jeiwan/blockchain_go) Golang 中的简化区块链实现
* [liuchengxu/blockchain-tutorial](https://github.com/liuchengxu/blockchain-tutorial) 简体中文区块链教程
* [The-Hitchhiker-s-Guide-to-the-Blockchain-Sec](https://github.com/BlockchainSecBook/The-Hitchhiker-s-Guide-to-the-Blockchain-Sec) 《区块链安全入门与实战》
* [slowmist/Blockchain-dark-forest-selfguard-handbook](https://github.com/slowmist/Blockchain-dark-forest-selfguard-handbook/) 区块链黑暗森林自救手册掌握这些,掌握你的加密货币安全。
* [Rivaill/CryptoVulhub](https://github.com/Rivaill/CryptoVulhub) 分析和重现区块链世界中的攻击事件或漏洞。
* [bunturx/Awesome-Blockchain-Security](https://github.com/bunturx/Awesome-Blockchain-Security) 由伟大的@0xRajeev 创建核心焦点将是以太坊智能合约安全审计。 以太坊、Solidity、智能合约安全和审计。
* [FuelLabs/sway](https://github.com/FuelLabs/sway) 使每个人都能构建可靠高效的智能合约。Sway是为Fuel区块链开发的一种语言。深受 Rust 的启发,旨在为区块链生态系统带来现代语言开发和性能。
* [ccxt/ccxt](https://github.com/ccxt/ccxt) JavaScript / TypeScript / Python / C# / PHP加密货币交易API,支持100多个比特币/山寨币交易所
* [diem/diem](https://github.com/diem/diem) Diem的使命是建立一个值得信赖和创新的金融网络,为世界各地的人们和企业提供支持。Diem Core 实现了一个去中心化、可编程的分布式账本,它提供了一个可以为数十亿人赋能的金融基础设施。
* [monero-project/monero](https://github.com/monero-project/monero) 门罗币:安全、私密、无法追踪的加密货币 。你是你的银行,你控制着你的资金,除非你允许他们这样做,否则没有人可以追踪你的转账。隐私:门罗币使用加密系统,允许您发送和接收资金,而无需在区块链(每个人都拥有的交易分类账)上轻松显示您的交易。这可确保您的购买、收据和所有转账在默认情况下保持私密。安全性:利用分布式点对点共识网络的强大功能,网络上的每笔交易都受到加密保护。单个钱包有一个 25 个单词的助记词种子,只显示一次,可以写下来备份钱包。钱包文件应使用强密码进行加密,以确保它们在被盗时毫无用处。不可追踪性:通过利用环签名(某种类型的密码学的特殊属性),门罗币能够确保交易不仅不可追踪,而且具有可选的模糊度量,确保交易不容易与单个用户或计算机绑定。去中心化:门罗币的效用取决于其去中心化的点对点共识网络——任何人都应该能够运行门罗币软件,验证区块链的完整性,并使用消费级商品硬件参与门罗币网络的各个方面。门罗币网络的去中心化是通过软件开发来维持的,该软件开发最大限度地降低了运行门罗币软件的成本,并抑制了专用非商品硬件的扩散。这是门罗币的核心实现。它是开源的,可以不受限制地完全免费使用,但以下许可协议中指定的除外。对创建以兼容方式使用协议和网络的门罗币替代实现的任何人没有任何限制。
* [bitcoinbook/bitcoinbook](https://github.com/bitcoinbook/bitcoinbook) 掌握比特币第 3 版 - 对开放区块链进行编程
* [kroma-network/tachyon](https://github.com/kroma-network/tachyon) GPU加速的模块化ZK(Zero Knowledge 零知识证明)后端,设计目标:通用:多功能的 ZK 库使开发人员能够以最小的工作量实现任何证明方案,从而提高开发人员的工作效率,要创建通用后端,使代码结构尽可能与代数结构保持一致至关重要。易于使用:实现广泛采用对于任何产品的成功都至关重要,因此,Tachyon项目的关键焦点之一是包括为各种编程语言和运行时提供软件包。超快:超光速子的首要要求是速度,不仅仅是任何速度,而是超快的速度,这需要 Tachyon 在 CPU 和 GPU 平台上提供卓越的性能。GPU 互操作性:Tachyon 的代码旨在在大多数情况下与 CPU 和 GPU 兼容。
* [krzyzanowskim/CryptoSwift](https://github.com/krzyzanowskim/CryptoSwift) CryptoSwift 是用 Swift 实现的标准和安全加密算法的不断增长的集合。特征:简单易用、字符串和数据的便捷扩展、支持增量更新流...、支持iOS、Android、macOS、AppleTV、watchOS、Linux。Hash (Digest) 哈希(摘要)、循环冗余校验 (CRC)、Cipher 密码、RSA(公钥加密算法)、信息身份验证器、 密码操作模式、基于密码的密钥派生函数、数据填充、使用关联数据进行身份验证加密 (AEAD)。
* [xmrig/xmrig](https://github.com/xmrig/xmrig) 高性能、开源、跨平台的RandomX、KawPow、CryptoNight 和 GhostRider 统一的 CPU/GPU 矿工和 RandomX 基准测试。`RandomX`是一个对通用CPU友好的工作量证明算法,它使用随机代码执行和多种内存困难技术使特定的硬件(ASIC)没有特别的优势。`KAWPOW`是一种挖矿算法,主要归功于Ravencoin,它还支持其他加密货币,如Gravium、Hilux以及其他不太受欢迎的项目,该算法可防止ASIC和潜在的中心化,为了实现这一点,开发人员在X15和SHA51算法之间进行交替,它们的选择还取决于前一个块的散列。`CryptoNight` 是一个内存难解(memory-hard)哈希函数,内存难解主要是指运算过程中需要大量的暂存器,一般的 GPU 或 ASIC 很难做到有这么大的内存空间(因为成本太高),设计架构上对 GPU, FPGA 和 ASIC 不友好,其运算步骤大概分为四步,第一步:初始化大量伪随机数(存放在暂存器),伪随机指的是结果看起来像的随机产生,但每次输入相同的参数,结果都是一样的,(大概需要 2M 内存)第二步:对这些伪随机数进行大量读写操作,运算过程及中间需要保存的数据对于 GPU 或 ADIC 来说也是不友好的,(大概需要 524,288 次)第三步:源数据替换,第四步:选择合适的哈希算法,并对所有的数据进行哈希运算以得到最终结果(这里的哈希运行能确保最终生成的数据长度是相同的)。GhostRider是专门为Raptoreum创建的算法。它的构建旨在阻止专用硬件(例如ASIC和FPGA)的出现,从而使任何人都可以竞争性地挖掘它并增加总体分散性。
* [HelloZeroNet/ZeroNet](https://github.com/HelloZeroNet/ZeroNet) 使用比特币加密货币和 BitTorrent 网络的去中心化网站
* [freqtrade/freqtrade](https://github.com/freqtrade/freqtrade) 用 Python 编写的免费开源加密交易机器人。它旨在支持所有主要交易所,并通过Telegram或webUI进行控制。它包含回测、绘图和资金管理工具,以及通过机器学习进行策略优化。
* [status-im/status-mobile](https://github.com/status-im/status-mobile) 一个免费的(自由)开源,以太坊的移动操作系统。一个浏览器、信使和通往去中心化世界的门户。Status是一个免费(自由)的开源移动客户端,完全基于以太坊技术构建,面向Android和iOS。没错,没有中间商, go-ethereum 直接在您的设备上运行。
* [OpenZeppelin/openzeppelin-contracts](https://github.com/OpenZeppelin/openzeppelin-contracts) 用于安全智能合约开发的库。建立在社区审查代码的坚实基础上。ERC20 和 ERC721 等标准的实施。灵活的基于角色的权限方案。可重用的 Solidity 组件,用于构建自定义合约和复杂的去中心化系统。
* [OffcierCia/DeFi-Developer-Road-Map](https://github.com/OffcierCia/DeFi-Developer-Road-Map) DeFi 开发者路线图是一本精心策划的开发者手册,其中包括 DApp 开发的最佳工具、资源和参考资料列表!
* [FuelLabs/fuel-core](https://github.com/FuelLabs/fuel-core) Fuel v2 协议的 Rust 全节点实现。Fuel(V2)的技术堆栈有三个核心支柱,分别为:`并行交易执行`:Fuel 使用 UTXO(未花费交易输出)模型形式的严格状态访问列表(strict access list),因此具有并行执行交易的能力,在计算、状态访问和事务吞吐量方面较具优势)。`Fuel 虚拟机`(FuelVM):旨在减少传统区块链虚拟机架构的浪费处理情况,同时增加开发人员的潜在设计空间。`开发者体验`(使用 Sway 和 Forc):Fuel 使用自己的特定领域语言 Sway(受 Rust 启发)和支持工具链 Forc(Fuel Orchestrator)提供较为强大和流畅的开发人员体验。开发环境保留了 Solidity 等智能合约语言的优势,同时采用了 Rust 工具生态系统中引入的范式,并包含利用区块链 VM 的语法。
* [FuelLabs/fuels-rs](https://github.com/FuelLabs/fuels-rs) Fuel v2 Rust SDK。它可以用于多种用途,包括但不限于:编译、部署和测试 Sway 合约;启动本地Fuel网络;使用手工制作的脚本或合约调用来制作和签署交易;生成合约方法的类型安全的 Rust 绑定。
* [FuelLabs/fuels-ts](https://github.com/FuelLabs/fuels-ts) 用于与 Fuel v2 交互的库。
* [Consensys/smart-contract-best-practices](https://github.com/Consensys/smart-contract-best-practices) 智能合约安全最佳实践指南
* [ethers-io/ethers.js](https://github.com/ethers-io/ethers.js) 在 JavaScript 中完成以太坊库和钱包实现。
* [smartcontractkit/full-blockchain-solidity-course-py](https://github.com/smartcontractkit/full-blockchain-solidity-course-py) 终极可靠性、区块链和智能合约 - 从初学者到专家的完整课程 |Python 版本
* [smartcontractkit/full-blockchain-solidity-course-js](https://github.com/smartcontractkit/full-blockchain-solidity-course-js) 使用 Javascript 学习区块链、Solidity 和全栈 Web3 开发
* [ethereumbook/ethereumbook](https://github.com/ethereumbook/ethereumbook) 面向开发人员的书,提供了以太坊、以太坊经典、RootStock (RSK) 和其他基于 EVM 的兼容开放区块链的操作和使用指南。
* [trufflesuite/truffle](https://github.com/trufflesuite/truffle) 以太坊的开发环境、测试框架和资产管道,旨在让以太坊开发人员的生活更轻松。项目维护中。
* [solana-labs/solana](https://github.com/solana-labs/solana) 网络规模区块链,用于快速、安全、可扩展、去中心化的应用程序和市场。
* [AmazingAng/WTF-Solidity](https://github.com/AmazingAng/WTF-Solidity) 重新学solidity,巩固一下细节,也写一个“WTF Solidity极简入门”,供小白们使用(编程大佬可以另找教程),每周更新1-3讲。
* [sismo-core/sismo-badges](https://github.com/sismo-core/sismo-badges) Sismo 协议的智能合约。
* [MetaMask/metamask-extension](https://github.com/MetaMask/metamask-extension) 浏览器扩展程序支持浏览支持以太坊区块链的网站
* [bkrem/awesome-solidity](https://github.com/bkrem/awesome-solidity) 精选的 Solidity 资源、库、工具等列表
* [scaffold-eth/scaffold-eth-2](https://github.com/scaffold-eth/scaffold-eth-2) 开源的最新工具包,用于在以太坊区块链上构建去中心化应用程序 (dapp)。它旨在使开发人员更容易创建和部署智能合约,并构建与这些合约交互的用户界面。
* [foundry-rs/foundry](https://github.com/foundry-rs/foundry) 用 Rust 编写的用于以太坊应用程序开发的超快速、可移植和模块化工具包。
* [Uniswap/web3-react](https://github.com/Uniswap/web3-react) 简单、可扩展、依赖性最小化的框架,用于构建现代以太坊 dApp
* [web3/web3.js](https://github.com/web3/web3.js) 以太坊 JSON RPC API 和相关工具的 TypeScript 实现,由 ChainSafe Systems 维护。
* [fltenwall/web3-awesome](https://github.com/fltenwall/web3-awesome) web3百科全书, 打造 web3 全球第一中文资源
* [iptv-org/awesome-iptv](https://github.com/iptv-org/awesome-iptv) 与IPTV相关的资源精选列表。
* [zhuima/awesome-cloudflare](https://github.com/zhuima/awesome-cloudflare) 精选的 Cloudflare 工具、开源项目、指南、博客和其他资源列表。被称为赛博菩萨的 Cloudflare 提供内容交付网络 (CDN) 服务、DDoS 缓解、互联网安全和分布式域名服务器 (DNS) 服务,位于访问者和 Cloudflare 用户的托管提供商之间,充当网站的反向代理。内容:图床、邮箱、博客、短链、网站分析、隧道、加速、文件分享、测速、监控、文章、其他、教程。
# 推荐系统
## 推荐系统算法库与列表
* [shenweichen/DeepCTR](https://github.com/shenweichen/DeepCTR) 易于使用、模块化和可扩展的基于深度学习的 CTR 模型包,用于搜索和推荐。
* [hongleizhang/RSPapers](https://github.com/hongleizhang/RSPapers) 推荐系统必读论文精选列表。
* [YuyangZhangFTD/awesome-RecSys-papers](https://github.com/YuyangZhangFTD/awesome-RecSys-papers) 推荐系统中的经典论文
* [ChenglongChen/tensorflow-DeepFM](https://github.com/ChenglongChen/tensorflow-DeepFM)
* [twitter/the-algorithm](https://github.com/twitter/the-algorithm) Twitter 的推荐算法是一组服务和作业,负责在所有 Twitter 产品表面(例如,为你时间线、搜索、探索)提供推文和其他内容的提要。有关算法工作原理的介绍,请参阅我们的工程博客。
* [alibaba/DeepRec](https://github.com/alibaba/DeepRec) 基于 TensorFlow 的推荐引擎。具有超大规模分布式训练能力,支持万亿样本的模型训练和千亿的Embedding Processing。针对稀疏模型场景,在CPU和GPU平台上进行了深度的性能优化。
* [cheungdaven/DeepRec](https://github.com/cheungdaven/DeepRec) 基于 TensorFlow 的深度学习推荐的开源工具包。
* [lyst/lightfm](https://github.com/lyst/lightfm) LightFM 的 Python 实现,一种混合推荐算法。
* [tensorflow/recommenders](https://github.com/tensorflow/recommenders) 使用 TensorFlow 构建推荐系统模型的库。
* [RUCAIBox/RecBole](https://github.com/RUCAIBox/RecBole) 统一,全面,高效的推荐库,包括:AFM,AutoInt,DCN,DeepFM,DSSM,FFM,FM,FNN,FwFM,LR,NFM,PNN,WideDeep,xDeepFM,BPR,ConvNCF,DGCF,DMF,FISM,GCMC,ItemKNN,LightGCN,NAIS,NeuMF,NGCF,Pop,SpectralCF,CFKG。CKE(Collaborative Knowledge base Embedding 发自16年KDD,将KG与CF融合做联合训练)。KGAT Knowledge Graph Attention Network for Recommendation 用KG做增强,捕捉这种高阶交互式特征,做推荐预测。KGCN,KGNNLS。KTUP Unifying Knowledge Graph Learning and Recommendation:Towards a Better Understanding of User Preferences 一方面利用KG可以帮助更好的理解用户偏好,另一方面,用户-物品的交互可以补全KG,增强KG中缺少的事实,最终使两个部分都得到加强。MKR(Multi-task Learning for KG enhanced Recommendation 融合KG和RC) 左边是推荐任务,用户和物品的特征表示作为输入,预测点击率y 右边是知识图谱任务。三元组的头结点h和关系r表示作为输入,预测的尾节点t 两者的交互由一个cross-feature-sharing units完成,由于物品向量和实体向量实际上是对同一个对象的两种描述,他们之间的信息交叉共享可以让两者都获得来自对方的额外信息,从而弥补了自身的信息稀疏性的不足。ippleNet,BERT4Rec,Caser,DIN,FDSA,FPMC,GCSAN,GRU4Rec,GRU4RecF,GRU4RecKG,KSR,NARM,NextItNet,S3Rec,SASRec,SASRecF,SRGNN,STAMP,TransRec。
* [pytorch/torchrec](https://github.com/pytorch/torchrec) PyTorch 域库,旨在提供大规模推荐系统 (RecSys) 所需的常见稀疏性和并行性基元。它允许作者使用跨多个 GPU 分片的大型嵌入表来训练模型。包含:并行基元,支持使用混合数据并行性/模型并行性轻松创作大型高性能多设备/多节点模型。TorchRec 分片可以使用不同的分片策略对嵌入表进行分片嵌入,包括数据并行、表分片、行分片、分片、分片。TorchRec 规划器可以自动为模型生成优化的分片计划。流水线训练与数据加载设备传输(复制到 GPU)、设备间通信 (input_dist) 和计算(向前、向后)重叠,以提高性能。由 FBGEMM 提供支持的 RecSys 的优化内核。量化支持,可降低训练和推理的精度。RecSys 的通用模块。经过生产验证的 RecSys 模型架构。RecSys 数据集(criteo 点击日志和 movielens)。端到端训练示例,例如在 criteo 点击日志数据集上训练的 dlrm 事件预测模型。
* [Coder-Yu/QRec](https://github.com/Coder-Yu/QRec) QRec:快速实现推荐系统的 Python 框架(基于 TensorFlow)
* [Transformers4Rec](https://github.com/NVIDIA-Merlin/Transformers4Rec/) Transformers4Rec 是一个灵活且高效的库,用于顺序和基于会话的推荐,可用于 PyTorch 和 Tensorflow。
* [datawhalechina/torch-rechub](https://github.com/datawhalechina/torch-rechub) 用于推荐模型的轻量级Pytorch 框架,易于使用且易于扩展。scikit-learn风格易用的API。模型训练与模型定义解耦,易拓展,可针对不同类型的模型设置不同的训练机制。接受pandas的DataFrame、Dict数据输入,上手成本低。高度模块化,容易调用组装成新模型 LR、MLP、FM、FFM、CIN、target-attention、self-attention、transformer。支持常见排序模型 WideDeep、DeepFM、DIN、DCN、xDeepFM等。支持常见召回模型 DSSM、YoutubeDNN、YoutubeDSSM、FacebookEBR、MIND等。多任务学习支持SharedBottom、ESMM、MMOE、PLE、AITM等模型。 GradNorm、UWL、MetaBanlance等动态loss加权机制。
* [shenweichen/DeepMatch](https://github.com/shenweichen/DeepMatch) 用于推荐和广告的深度匹配模型库。训练模型和导出用户和项目的表示向量非常容易,可用于ANN搜索。
* [PaddlePaddle/PaddleRec](https://github.com/PaddlePaddle/PaddleRec) 大规模推荐算法库,包含推荐系统经典及最新算法LR、Wide&Deep、DSSM、TDM、MIND、Word2Vec、Bert4Rec、DeepWalk、SSR、AITM,DSIN,SIGN,IPREC、GRU4Rec、Youtube_dnn、NCF、GNN、FM、FFM、DeepFM、DCN、DIN、DIEN、DLRM、MMOE、PLE、ESMM、ESCMM, MAML、xDeepFM、DeepFEFM、NFM、AFM、RALM、DMR、GateNet、NAML、DIFM、Deep Crossing、PNN、BST、AutoInt、FGCNN、FLEN、Fibinet、ListWise、DeepRec、ENSFM,TiSAS,AutoFIS等,包含经典推荐系统数据集criteo 、movielens等
* [wangshusen/RecommenderSystem](https://github.com/wangshusen/RecommenderSystem) 结合小红书的业务场景和内部实践,讲解主流的工业界推荐系统技术。
* [CHIANGEL/Awesome-LLM-for-RecSys](https://github.com/CHIANGEL/Awesome-LLM-for-RecSys) 关于大型语言模型(LLM)相关推荐系统主题的AWESOME论文和资源的集合。
* [WLiK/LLM4Rec-Awesome-Papers](https://github.com/WLiK/LLM4Rec-Awesome-Papers) 关于大型语言模型的推荐系统的精彩论文和资源列表。大致分为三类:LLM Embeddings + RS、LLM Tokens + RS、LLM as RS
* [HKUDS/LLMRec](https://github.com/HKUDS/LLMRec) 新颖的框架,它通过将三种简单而有效的LLM基于图增强策略应用于推荐系统来增强推荐器。LLMRec 旨在充分利用在线平台(例如 Netflix、MovieLens)中的内容,通过 i) 加强 u-i 交互边缘,ii) 增强项目节点属性,以及 iii) 从自然语言的角度直观地进行用户节点分析来增强交互图。
* [HKUDS/RLMRec](https://github.com/HKUDS/RLMRec) 与模型无关的框架 RLMRec,通过LLM授权的表示学习来增强现有的推荐者。它提出了一种范式,将表征学习与LLMs捕获用户行为和偏好的复杂语义方面相结合。RLMRec 整合了辅助文本信号,开发了由 LLMs赋能的用户/项目分析范式,并通过跨视图对齐框架将协作关系信号的LLMs语义空间与表示空间对齐。
* [ZiyaoGeng/Recommender-System-with-TF2.0](https://github.com/ZiyaoGeng/Recommender-System-with-TF2.0) CTR预言论文进行复现,包括传统模型(MF,FM,FFM等),神经网络(WDL,DCN等)以及序列模型(DIN)。
* [THUwangcy/ReChorus](https://github.com/THUwangcy/ReChorus) 用于Top-K推荐的通用PyTorch框架,具有隐式反馈,尤其是用于研究目的。BPR NCF Tensor GRU4Rec NARM SASRec TiSASRec CFKG SLRC Chorus
* [NVIDIA/NVTabular](https://github.com/NVIDIA/NVTabular) 为特征工程、前处理提供了更快的迭代速度,同时利用异步批量加载的方法有效提高了GPU的利用率,提供更快的加载速率。Merlin推荐系统框架的模块。
* [NVIDIA/HugeCTR](https://github.com/NVIDIA/HugeCTR) a high efficiency GPU framework designed for Click-Through-Rate (CTR) estimating training ,在Embedding lookup上做了很多优化,可以轻易的通过数据和模型并行的方式将模型扩展到TB级别,在大规模参数的背景下,这给挖掘模型能力提供了更多的想象力。同时更快的训练速度也让算法工程师能够尝试更多的网络结构,挖掘最适合所研究问题的模型。
* [microsoft/recommenders](https://github.com/microsoft/recommenders) 推荐系统上的最佳实践。包括多个模型:ALS A2SVD BPR Caser DKN xDeepFM FAST LightFM/Hybrid Matrix Factorization LightGBM/Gradient Boosting Tree* LightGCN GeoIMC GRU4Rec Multinomial VAE LSTUR NAML NCF NPA NRMS NextItNet RBM RLRMC SAR SLi-Rec SUM Standard VAE SVD TF-IDF Vowpal Wabbit (VW)* Wide and Deep FM&FFM
* [AmazingDD/daisyRec](https://github.com/AmazingDD/daisyRec) 在 pytorch 中开发的推荐系统。算法:KNN、LFM、SLIM、NeuMF、FM、DeepFM、VAE 等,旨在公平比较推荐系统基准
* [wubinzzu/NeuRec](https://github.com/wubinzzu/NeuRec) 全面且灵活的 Python 库,用于推荐系统,其中包括大量最先进的神经推荐模型。该库旨在解决一般、社交和顺序(下一项)推荐任务,使用Tensorflow库提供 33 个开箱即用的模型。
* [guoguibing/librec](https://github.com/guoguibing/librec) 一个用于推荐系统的 Java 库(需要 Java 版本 1.7 或更高版本)。它实现了一套最先进的推荐算法,旨在解决两个经典的推荐任务:**评分预测**和**项目排名**。
* [facebookresearch/torchrec](https://github.com/facebookresearch/torchrec) 推荐系统的 Pytorch库,旨在提供大型推荐系统 (RecSys) 所需的通用稀疏性和并行性原语。它允许作者使用跨多个 GPU 分片的大型嵌入表来训练模型。
* [huawei-noah/FuxiCTR](https://github.com/huawei-noah/benchmark/tree/main/FuxiCTR) FuxiCTR 为 CTR 预测提供了一个开源库,在可配置性、可调整性和可重复性方面具有惊人的功能。模型包括:LR FM CCPM FFM YoutubeDNN Wide&Deep IPNN DeepCross HOFM DeepFM NFM AFM DCN FwFM xDeepFM DIN FiGNN AutoInt/AutoInt+ FiBiNET FGCNN HFM/HFM+ ONN AFN/AFN+ LorentzFM FLEN FmFM
* [openbenchmark/BARS](https://github.com/openbenchmark/BARS) 迈向推荐系统的开放基准测试。 BARS 基准目前涵盖以下两项任务:点击率预测\候选项目匹配
* [PersiaML/PERSIA](https://github.com/persiaml/persia) 基于 PyTorch 训练深度学习推荐模型的高性能分布式框架。它能够训练具有多达 100 万亿个参数的推荐模型。对公共数据集的实证研究表明,PERSIA 在推荐方面优于其他系统。它的效率和稳健性也得到了快手1亿级DAU的多个应用程序的验证。
* [alibaba/EasyRec](https://github.com/alibaba/EasyRec) 大规模推荐算法的框架。实现了用于常见推荐任务的最先进的深度学习模型:候选生成(匹配)、评分(排名)和多任务学习。它通过简单的配置和超参数调整(HPO)提高了生成高性能模型的效率。
* [pytorch/torchrec](https://github.com/pytorch/torchrec) 推荐系统的 Pytorch 域库
* [PKU-DAIR/GNN-in-RS](https://github.com/PKU-DAIR/GNN-in-RS) 推荐系统中的 GNN(ACM 计算调查 2022)
* [NicolasHug/Surprise](https://github.com/NicolasHug/Surprise) 用于构建和分析推荐系统的 Python scikit
* [caserec/CaseRecommender](https://github.com/caserec/CaseRecommender) 案例推荐器:用于推荐系统的灵活且可扩展的 Py框架
* [grahamjenson/list_of_recommender_systems](https://github.com/grahamjenson/list_of_recommender_systems) 推荐系统和资源列表
* [mengfeizhang820/Paperlist-for-Recommender-Systems](https://github.com/mengfeizhang820/Paperlist-for-Recommender-Systems) 推荐系统论文列表
* [caserec/CaseRecommender](https://github.com/caserec/CaseRecommender) 案例推荐器:用于推荐系统的灵活且可扩展的 Python 框架
## 其他_推荐系统
* [imsheridan/DeepRec](https://github.com/imsheridan/DeepRec) 推荐、广告工业界经典以及最前沿的论文、资料集合
* [laekov/fastmoe](https://github.com/laekov/fastmoe) 一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.
* [oywtece/dstn](https://github.com/oywtece/dstn)
* [shenweichen/DSIN](https://github.com/shenweichen/DSIN)
* [facebookresearch/dlrm](https://github.com/facebookresearch/dlrm) 深度学习推荐模型(DLRM)的实现
* [vze92/DMR](https://github.com/vze92/DMR) Deep Match to Rank Model for Personalized Click-Through Rate Prediction DMR:Matching和Ranking相结合的点击率预估模型
* [kang205/SASRec](https://github.com/kang205/SASRec) 源于Transformer的基于自注意力的序列推荐模型
* [microsoft/RecAI](https://github.com/microsoft/RecAI) 利用大型语言模型构建下一代推荐系统。大型语言模型(LLMs)为开发尖端推荐系统提供了巨大的潜力,特别是在增强交互性、可解释性和可控性方面。这些都是历来构成挑战的方面。然而,由于缺乏特定的领域知识,LLM将通用用于推荐目的的直接应用是不可行的。RecAI项目旨在通过研究各种策略来弥合这一差距,以集成LLMs到推荐系统中,人们通常将这一概念称为LLM4Rec。我们的目标是通过整体观点和方法论来反映LLM4Rec的现实需求。我们相信,通过采用整体视角,我们可以将 LLM4Rec 的大部分实际需求整合到 RecAI 项目中探索的一种或多种技术中。这些技术包括但不限于推荐器 AI 代理、通过个性化提示注入知识、微调语言模型作为推荐器、评估和LLMs模型解释器。最终目标是创建一个更复杂、交互式和以用户为中心的推荐系统。`推荐 AI 代理`:LLMs提供自然的交互并智能地响应人类指令,但缺乏特定领域的专业知识。相比之下,传统的推荐系统在域内数据训练方面表现出色,但仅限于结构化数据,缺乏交互性。InteRecAgent 引入了一个结合了两者优势的 AI 代理:它采用大脑LLM和传统推荐模型作为工具。因此,矩阵分解等传统模型可以转换为对话式、交互式和可解释的推荐系统。`选择性知识插件`:我们如何在不微调模型的情况下增强LLM特定领域的能力?那么提示就是关键。在这项工作中,我们引入了一种LLMs通过选择性知识进行增强的方法,以便可以通过提示注入大规模的、不断发展的和特定领域的数据模式。`嵌入 RecLM`:密集检索是一系列场景中的关键组件,包括推荐系统和检索增强生成 (RAG)。虽然生成语言模型(如 GPT)专为顺序令牌生成而设计,但它们并未针对面向检索的嵌入进行优化。这就是我们的项目 RecLM-emb 发挥作用的地方。RecLM-emb 与文本嵌入模型(如 text-embedding-ada-002)保持一致,但它专门针对项目检索进行了优化。目标是嵌入用于项目检索的所有内容。目前仅支持文本模式,例如搜索查询、项目描述和用户说明。`生成式 RecLM`:需要注意的是,不同域的数据模式差异很大,这意味着通用LLM型可能无法在特定域内提供优化的性能。为了适应特定的领域数据模式,为领域项目目录奠定基础,并增强指令跟踪能力,本项目讨论了为推荐者微调生成语言模型的过程,称为 RecLM-gen。技术包括监督微调 (SFT) 和强化学习 (RL)。这种方法的潜在应用包括排名器、对话推荐器和用户模拟器。`模型解释器`:基于深度学习的推荐系统因其在有效性和效率方面的优势而广泛应用于各种在线服务中。然而,这些模型通常缺乏可解释性,使它们对用户和开发人员来说都不太可靠和透明。在这项工作中,我们提出了一种新的推荐系统模型解释方法,称为 RecExplainer,通过用作LLMs代理模型并学习模仿和理解目标推荐模型。`RecLM 评估器`:评估对于评估模型的真实能力和确定需要进一步改进的薄弱环节至关重要。在以类似人类的方式使用语言模型作为推荐器的时代,评估方法已经明显偏离了传统风格。该项目旨在为基于LM的推荐系统的评估提供全面的服务。无论是提供经过训练的 LM 还是 API(例如 Azure OpenAI API),它都会从各个角度评估模型的性能,包括检索、排名、解释功能和常规 AI 能力。
* [shichence/AutoInt](https://github.com/shichence/AutoInt) 使用Multi-Head self-Attention进行自动的特征提取
* [xiangwang1223/neural_graph_collaborative_filtering](https://github.com/xiangwang1223/neural_graph_collaborative_filtering) 神经图协同过滤
* [UIC-Paper/MIMN](https://github.com/UIC-Paper/MIMN) 点击率预测的长序列用户行为建模的实践
* [motefly/DeepGBM](https://github.com/motefly/DeepGBM) 结合了GBDT 和神经网络的优点,在有效保留在线更新能力的同时,还能充分利用类别特征和数值特征。由两大块组成,CatNN 主要侧重于利用 Embedding 技术将高维稀疏特征转为低维稠密特征,而 GBDT2NN 则利用树模型筛选出的特征作为神经网络的输入,并通过逼近树结构来进行知识蒸馏。
* [LeeeeoLiu/ESRM-KG](https://github.com/LeeeeoLiu/ESRM-KG) 关键词生成的基于电商会话的推荐模型
* [zhuchenxv/AutoFIS](https://github.com/zhuchenxv/AutoFIS) 自动特征交互选择的点击率预测模型
* [pangolulu/exact-k-recommendation](https://github.com/pangolulu/exact-k-recommendation) 解决推荐中带约束的Top-K优化问题
* [Scagin/NeuralLogicReasoning](https://github.com/Scagin/NeuralLogicReasoning) 神经协同推理,提出了一种新的神经逻辑推荐(NLR)框架,能够将逻辑结构和神经网络相结合,将推荐任务转化为一个逻辑推理任务。
* [allenjack/HGN](https://github.com/allenjack/HGN) 用矩阵分解的形式捕捉用户的长期兴趣,同时将短期兴趣进行拆分,分为group-level以及instance-level的,通过Hierarchical Gating来处理group-level的信息,item-item的乘积来捕捉商品之间的关系。
* [RUCAIBox/CIKM2020-S3Rec](https://github.com/RUCAIBox/CIKM2020-S3Rec) 自我推荐学习,用于具有互信息最大化的顺序推荐
* [chenchongthu/SAMN](https://github.com/chenchongthu/SAMN) 社交注意力记忆网络在推荐系统中的应用
* [Lancelot39/KGSF](https://github.com/Lancelot39/KGSF) 基于知识图谱语义融合改进会话推荐系统
Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion* [DeepGraphLearning/RecommenderSystems](https://github.com/DeepGraphLearning/RecommenderSystems) 顺序推荐 基于维度的推荐 社交推荐
* [FeiSun/BERT4Rec](https://github.com/FeiSun/BERT4Rec) 基于BERT的顺序推荐
* [ChuanyuXue/CIKM-2019-AnalytiCup](https://github.com/ChuanyuXue/CIKM-2019-AnalytiCup) 2019-CIKM挑战赛,超大规模推荐之用户兴趣高效检索赛道 冠军解决方案 ,召回阶段基于 Item CF 相似性做召回( item-item 相似性),排序阶段,最终使用了 Catboost 和 Lightgbm 建模。
* [zyli93/InterHAt](https://github.com/zyli93/InterHAt) 通过分层注意力预测可解释的点击率。
* [SSE-PT/SSE-PT](https://github.com/SSE-PT/SSE-PT) 基于Transformer的模型,但是和SASRec类似, 效果不错,但是缺少个性化,而且没有加入基于个性化的用户embedding。为了克服这种问题,本文提出来一种个性化的Transformer(SSE-PT),该方法相较于之前的方案提升了5%。
* [triton-inference-server/server](https://github.com/triton-inference-server/server) 面向高吞吐低延时的生产环境的框架,通过Triton做线上推理,将TensorRT作为执行后端,能够有效降低Latency,并最大化地利用GPU资源。相比于一个纯CPU的方案,两者的结合使用能够使Latency达到原先的1/18,数据吞吐量达到原先的17.6倍。
* [lqfarmer/GraphTR](https://github.com/lqfarmer/GraphTR) 采用了GraphSAGE+FM+Transformer多种手段,粒度上从粗到细,交叉、聚合来自不同领域的异构消息,相比于mean/max pooling、浅层FC等传统聚合方式,极大提升了模型的表达能力
* [guyulongcs/CIKM2020_DMT](https://github.com/guyulongcs/CIKM2020_DMT) 将兴趣建模、多任务学习、偏置学习等几部分进行融合,提出了DMT模型(Deep Multifaceted Transformers)
* [hwwang55/DKN](https://github.com/hwwang55/DKN) 将知识图表示融入到新闻推荐中。DKN是一种基于内容的用于点击率预估的深度推荐框架。DKN的主要部分是一个多通道、单词实体对齐的知识感知卷积神经网络,KCNN,其中融入了新闻在语意层面和知识层面的表示。KCNN将单词和实体作为多通道,在卷积过程中明确保留他们之间的对齐关系。
* [yusanshi/NewsRecommendation](https://github.com/yusanshi/NewsRecommendation) NRMS NAML LSTUR DKN Hi-Fi Ark TANR
* [johnny12150/GCE-GNN](https://github.com/johnny12150/GCE-GNN) 提出了一种全局上下文增强(global-context enhanced)的GNN网络,称为GCE-GNN。能够从两种层次来学习物品的表征,包括global-level:从所有session构成的图上进行全局的表征;以及session-level:从单个session局部item转移图上进行局部的表征;最后融合二者,并通过注意力机制形成最终的序列表征,用于序列推荐任务。
* [BinbinJin/SD-GAR](https://github.com/BinbinJin/SD-GAR) 第一篇将生成式对抗网络(GAN)框架应用于信息检索(包括推荐系统)的研究工作。在该工作中,IRGAN 训练了一个生成器和一个判别器,其中生成器用来自适应地生成合适的负样本以帮助判别器训练;而判别器则是用来判断样本是来自用户真实的反馈还是生成器生成的样本。通过两者交替式对抗性地训练达到互相提升效果的目的。
* [twchen/lessr](https://github.com/twchen/lessr) 将会话记录构建成图来建模商品之间的跳转关系的图神经网络
* [NLPWM-WHU/AGNN](https://github.com/NLPWM-WHU/AGNN) 区分了推荐系统中的一般冷启动和严格冷启动,并提出了属性图神经网络方法有效应对严格冷启动的场景。
* [CRIPAC-DIG/SR-GNN](https://github.com/CRIPAC-DIG/SR-GNN) 会话序列推荐的图应用 直接将会话序列建模为图结构数据,并使用图神经网络捕获复杂的项目物品item间转换,每一个会话利用注意力机制将整体偏好与当前偏好结合进行表示。同时这种方式也就不依赖用户的表示了,完全只基于会话内部的潜在向量获得Embedding,然后预测下一个点击。
* [uctoronto/SHAN](https://github.com/uctoronto/SHAN) Sequential Recommender System based on Hierarchical Attention Network 分层注意力网络SHAN用于序列推荐 。提出新颖的两层分层注意力网络,将上述特性考虑进来,用于推荐可能感兴趣的下一个商品。第一层注意力网络基于用户的历史购买商品的表示来学习用户的长期偏好,第二层通过将用户的长期和短期偏好结合起来,输出最终的用户表示。
* [chenghuige/mind](https://github.com/chenghuige/mind) MIND新闻推荐冠军分享细节揭秘
* [WayneDW/DeepLight_Deep-Lightweight-Feature-Interactions](https://github.com/WayneDW/DeepLight_Deep-Lightweight-Feature-Interactions) 轻量级特征交互算法deeplight 大幅加速ctr预估在线服务。 一,通过在浅层结构中精确搜索信息量更大的特征交互来加速模型推理,二,在深层结构中,从层内和层间对冗余的层和冗余的参数进行剪枝,三,促使embedding层的稀疏性,进而保持最有判别性的信息。为了解决预测延迟问题,我们通过结构修剪来加速预测,最终以46倍的速度提高而不会牺牲Criteo数据集上的最新性能。
* [JiachengLi1995/TiSASRec](https://github.com/JiachengLi1995/TiSASRec) Time Interval Aware Self-Attention for Sequential Recommendation 时间间隔自注意力模型用于序列推荐。 基于序列模型框架对行为的时间戳进行建模,在下一个商品预测中探索不同时间间隔的影响。
* [wuch15/IJCAI2019-NAML](https://github.com/wuch15/IJCAI2019-NAML) 多视图学习新闻推荐系统Neural News Recommendation with Attentive Multi-View Learning 可以通过利用不同种类的新闻信息来学习用户和新闻的特征表示。
* [guoday/Tencent2020_Rank1st](https://github.com/guoday/Tencent2020_Rank1st) 广告受众基础属性预估 2020 Tencent College Algorithm Contest, and the online result ranks 1st.
* [yuduo93/THIGE](https://github.com/yuduo93/THIGE) 基于时序异质交互图表示学习的商品推荐 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。
* [guyulongcs/CIKM2020_DMT](https://github.com/guyulongcs/CIKM2020_DMT) 大型电子商务推荐系统中多目标排名的深层多面Transformers模型
* [weiyinwei/MMGCN](https://github.com/weiyinwei/MMGCN) 多模态图神经网络解决短视频推荐难题
* [wujcan/SGL](https://github.com/wujcan/SGL) 基于图自监督学习的推荐系统。应用于「用户-物品二分图推荐系统」的「图自监督学习」框架。
* [wangjiachun0426/StackRec](https://github.com/wangjiachun0426/StackRec) 通过迭代堆叠实现推荐系统的高效训练。采用对一个浅层序列推荐模型进行多次层堆叠(Layer Stacking),从而得到一个深层序列推荐模型。具体来说,训练过程包含以下步骤:1)预训练一个浅层序列推荐模型;2)对该模型进行层堆叠,得到一个两倍深度的模型;3)微调这个深层模型;4)将深层模型作为一个新的浅层模型,重复1)至3)直到满足业务需求。
* [xiangwang1223/neural_graph_collaborative_filtering](https://github.com/xiangwang1223/neural_graph_collaborative_filtering) 神经图协同过滤(NGCF)是一种基于图神经网络的新推荐框架,通过执行嵌入传播,在用户项二部图中以高阶连通性的形式对协同信号进行显式编码。
* [johnnyjana730/MVIN](https://github.com/johnnyjana730/MVIN) 提出multi-view item network (MVIN) ,从user和item来学习多个视角下的商品表示,进而进行商品推荐。在实体视图中,项目表示由KG中连接到它的实体来定义的。
* [weberrr/CKAN](https://github.com/weberrr/CKAN) Collaborative Knowledge-aware Attentive Network for Recommender Systems 协作知识感知的注意力网络推荐系统
* [danyang-liu/KRED](https://github.com/danyang-liu/KRED) KRED:基于知识感知的文档表示应用于新闻推荐。首先是用KGAT来表示每个实体,然后使用用实体的位置 实体出现频率 实体的类别等信息。再用Transformer来优化表征。最后做多任务:包括个性化推荐,项目到项目推荐、新闻流行预测、新类别预测和本地新闻检测等等。
* [CRIPAC-DIG/DGCF](https://github.com/CRIPAC-DIG/DGCF) 动态图协同过滤算法,利用动态图来同时捕捉用户和商品之间的协同和序列关系的框架。提出三种更新机制: 零阶继承,一阶传播,二阶聚合,来表示新的交互发生时,该交互对用户或者商品的影响。基于这三种机制,交互发生时同时更新用户和商品的embedding,并且利用最新的embedding来给出推荐。
* [QYQ-bot/CLEA](https://github.com/QYQ-bot/CLEA) 运用对比学习解决购物篮推荐场景。(下一个购物篮推荐,也就是根据用户的历史购物篮序列,来推荐用户在下一次可能购买的商品集合。)
* [huangtinglin/MixGCF](https://github.com/huangtinglin/MixGCF) 基于多层嵌入合成负例用于推荐,相对NGCF 提高 26%, LightGCN 提高 22%
* [DyGRec/ASReP](https://github.com/DyGRec/ASReP) 反向预训练Transformer 增广序列推荐系统.解决序列推荐系统中的冷启动(cold-start)问题。为了解决该问题,我们提出需要对冷启动对应的短序列(short sequence)进行增广(Augmentation),从而能够补全信息而避免冷启动的问题。
* [NLPWM-WHU/EDUA](https://github.com/NLPWM-WHU/EDUA) 多样性推荐的 EDUA 模型。其采用双边分支网络作为双目标优化的主要架构,该架构既保持传统学习分支的准确性,又提高自适应学习分支的多样性。
* [gluver/KG4Rec_Paperlist](https://github.com/gluver/KG4Rec_Paperlist) 这是关于基于知识图谱的推荐的顶级论文列表。
* [xidongbo/AITM](https://github.com/xidongbo/AITM) 自适应信息传输多任务 (AITM) 框架的 TensorFlow 实现。 提交给 KDD21 的论文代码:使用多任务学习为客户获取建模受众多步转换之间的顺序依赖性。应用场景:联名卡获客,从曝光(Impression)、点击(Click)、申请(Application)、核卡(Approval)、激活(Activation)。另外,使用公开的[Ali-CCP阿里巴巴点击和转化预测数据集](https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)。[pytorch实现](https://github.com/adtalos/AITM-torch)
* [newlei/LR-GCCF](https://github.com/newlei/LR-GCCF) 重温基于图的协同过滤:一种线性残差图卷积网络方法,AAAI2020 本文提出了一种使用非线性特征传播和残差结构的GCN网络LR-GCCF用于基于CF的推荐系统,在模型表型上和时间效率上有了一定的提高。
* [wangzhegeek/EGES](https://github.com/wangzhegeek/EGES) 阿里巴巴论文的实施:阿里巴巴[电子商务推荐的十亿级商品嵌入](https://arxiv.org/abs/1803.02349)
* [YushanZhu/K3M](https://github.com/YushanZhu/K3M) 电子商务中的知识感知多模态预训练
* [tsinghua-fib-lab/GNN-Recommender-Systems](https://github.com/tsinghua-fib-lab/GNN-Recommender-Systems) 基于图神经网络的推荐算法索引。
* [oywtece/deepmcp](https://github.com/oywtece/deepmcp) 点击率 (CTR) 预测模型。大多数现有方法主要对特征-CTR 关系进行建模,并且存在数据稀疏问题。相比之下,DeepMCP 对其他类型的关系进行建模,以学习更多信息和统计上可靠的特征表示,从而提高 CTR 预测的性能。DeepMCP 包含三部分:匹配子网、关联子网和预测子网。这些子网分别为用户-广告、广告-广告和功能-点击率关系建模。当这些子网在目标标签的监督下联合优化时,学习到的特征表示既具有良好的预测能力,又具有良好的表示能力。
* [rener1199/deep_memory](https://github.com/rener1199/deep_memory) 用户记忆网络的点击率预测
* [xiaxin1998/DHCN](https://github.com/xiaxin1998/DHCN) 用于基于会话的推荐的自超图卷积网络
* [maenzhier/GRecX](https://github.com/maenzhier/GRecX) 基于 GNN 的推荐的高效统一基准。
* [RUCAIBox/Awesome-Privacy-Preserving-RS-Paper](https://github.com/RUCAIBox/Awesome-Privacy-Preserving-RS-Paper) 本知识库收集了 2018 年后隐私保护推荐系统的最新研究进展。
* [github.com/THUDM/ComiRec](https://github.com/THUDM/ComiRec) KDD 2020 论文《Controllable Multi-Interest Framework for Recommendation》的源代码和数据集 可控的多兴趣推荐框架
* [microsoft/tutel](https://github.com/microsoft/tutel) Tutel MoE:优化的专家组合实施
* [Jhy1993/Awesome-GNN-Recommendation](https://github.com/Jhy1993/Awesome-GNN-Recommendation) GNN-推荐相关资源
* [sisinflab/elliot](https://github.com/sisinflab/elliot) 用于可重现推荐系统评估的全面而严谨的框架
* [sumitsidana/recsys_challenge_2020](https://github.com/sumitsidana/recsys_challenge_2020) 此存储库包含 2020 年 RecSys 挑战赛方法的第四名解决方案的代码。该挑战侧重于在动态环境中进行推文参与度预测的现实任务。目标是根据异构输入数据预测目标用户对一组推文的不同类型参与(点赞、回复、转推和转推)的概率。
* [ystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution](https://github.com/lystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution) WSDM CUP 2018 音乐推荐挑战赛第一名解决方案的对应代码。预测 3 月订阅到期的用户中,哪些会流失。为解决该题,阿里巴巴使用了两层 Stacking Model,第一层采用逻辑回归、随机森林、XGBoost 算法,第二层又采用 XGBoost 算法把第一层的结果融合。流失用户预测,对有会员体系的业务场景都可以使用,其中会员付费为主要收入的业务就更为关键,比如像 Apple Music、虾米音乐。多层 Stacking Model 由 AliOS 神灯研发,极大提升了分类预测的准确率,已广泛应用于 AliOS 多项业务中。
* [DiligentPanda/Tencent_Ads_Algo_2018](https://github.com/DiligentPanda/Tencent_Ads_Algo_2018) 该仓库维护2018年腾讯广告算法大赛的代码。我们的代码在决赛中排名第三。基于 FFM 的注意力神经网络的平均值。在最终提交中,我们使用了 13 个这样的网络。但是这些网络只是在它们的随机种子上有所不同。 5 个这样的网络将给出几乎相同的结果。Lookalike 相似人群拓展
* [ttvand/Santander-Product-Recommendation](https://github.com/ttvand/Santander-Product-Recommendation) Kaggle 竞赛第二名解决方案 - Santander 产品推荐
* [Travisgogogo/BAAI-ZHIHU-2019](https://github.com/Travisgogogo/BAAI-ZHIHU-2019) Top3 高效地将用户新提出的问题邀请其他用户进行解答,以及挖掘用户有能力且感兴趣的问题进行邀请下发,优化邀请回答的准确率,提高问题解答率以及回答生产数。
* [LogicJake/tuling-video-click-top3](https://github.com/LogicJake/tuling-video-click-top3) 图灵联邦视频点击预测大赛线上第三
* [PPshrimpGo/BDCI2018-ChinauUicom-1st-solution](https://github.com/PPshrimpGo/BDCI2018-ChinauUicom-1st-solution) CCF BDCI 2018的面向电信领域的个性化套餐匹配第一名解决方案
* [hydantess/TianChi_zhilianzhaopin:](https://github.com/hydantess/TianChi_zhilianzhaopin) 智联招聘人岗智能匹配 根据智联招聘抽样的经过脱敏的求职者标签数据、职位信息、及部分求职者行为信息、用人单位反馈信息,训练排序模型,对求职者的职位候选集进行排序,尽可能使得双端都满意的职位(求职者满意以及用人单位满意)优先推荐。
* [RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge](https://github.com/RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge) 天池-安泰杯跨境电商智能算法大赛 冠军。 通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。
* [fuxiAIlab/RL4RS](https://github.com/fuxiAIlab/RL4RS) 基于强化学习的推荐系统的真实世界基准
* [NVIDIA-Merlin/competitions](https://github.com/NVIDIA-Merlin/competitions) 推荐系统竞赛的解决方案 RecSys2019_Challenge, RecSys2020_Challenge,RecSys2021_Challenge,SIGIR_eCommerce_Challenge_2021,WSDM_WebTour2021_Challenge
* [rosetta-ai/rosetta_recsys2019](https://github.com/rosetta-ai/rosetta_recsys2019) RosettaAI 团队在 2019 年 ACM Recsys 挑战赛中获得第四名的解决方案
* [kupuSs/CIKM-CUP-2019-track2-rank10](https://github.com/kupuSs/CIKM-CUP-2019-track2-rank10) CIKM 2019 E-Commerce AI Challenge - 超大规模推荐之用户兴趣高效检索
* [miziha-zp/KDD2020_mutilmodalities](https://github.com/miziha-zp/KDD2020_mutilmodalities) top8 KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall
* [steven95421/KDD_WinnieTheBest](https://github.com/steven95421/KDD_WinnieTheBest) KDD Cup 2020 现代电商平台挑战:Multi-modalities Recall 第一名。数据来自移动电商平台的真实场景多模态数据。数据集由搜索查询和产品图像特征组成,是一个基于查询的多模式检索任务。实现了根据候选产品的图像特征对它们的集合进行排名。这些查询中的大多数是搜索具有特定特征的产品的名词短语。候选商品图片由卖家提供的照片,通过黑盒功能转化为2048维特征。与查询最相关的候选产品被视为查询的基本事实。
* [aister2020/KDDCUP_2020_Debiasing_1st_Place](https://github.com/aister2020/KDDCUP_2020_Debiasing_1st_Place) 去偏Debiasing中获得第一名。侧重于暴露的复杂性,即如何推荐过去很少暴露的项目,以对抗推荐系统中经常遇到的马太效应。特别是,在对点击数据进行训练时减少偏差对于此任务的成功至关重要。就像现代推荐系统中记录的点击数据和实际在线环境之间存在差距一样,训练数据和测试数据之间也会存在差距,主要是在趋势和项目的流行度方面。
* [RUCAIBox/FMLP-Rec](https://github.com/RUCAIBox/FMLP-Rec) 堆叠多个过滤器增强块以生成用于推荐的顺序用户偏好的表示。我们的方法与 SASRec 的主要区别在于用一种新颖的过滤器结构(傅里叶变换MLP)替换了 Transformer 中的多头自注意力结构。
* [RUCAIBox/NCL](https://github.com/RUCAIBox/NCL) 通过邻域丰富的对比学习改进图协同过滤。
* [alibaba/HybridBackend](https://github.com/alibaba/HybridBackend) 用于在异构集群上训练广泛和深度推荐系统的高性能框架
* [CAN-Paper/Co-Action-Network](https://github.com/CAN-Paper/Co-Action-Network) CAN的实现:重新审视点击率预测的特征协同作用
* [tsinghua-fib-lab/CLSR](https://github.com/tsinghua-fib-lab/CLSR) 解开推荐的长期和短期利益
* [easezyc/Multitask-Recommendation-Library](https://github.com/easezyc/Multitask-Recommendation-Library) 提供了多任务推荐模型和通用数据集的 PyTorch 实现。
* [awarebayes/RecNN](https://github.com/awarebayes/RecNN) 围绕 pytorch构建的强化学习推荐工具包
* [Tencent/embedx](https://github.com/Tencent/embedx) 基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等
* [bytedance/LargeBatchCTR](https://github.com/bytedance/LargeBatchCTR) 基于 DeepCTR 和 CowClip 的 CTR 模型的大批量训练。
* [xiangwang1223/disentangled_graph_collaborative_filtering](https://github.com/xiangwang1223/disentangled_graph_collaborative_filtering) 解缠结图协同过滤 一个可解释的推荐框架,它配备了 (1) 胶囊网络的动态路由机制,以细化意图感知图中用户-项目交互的强度,(2) 图的嵌入传播机制神经网络,从高阶连通性中提取相关信息,以及(3)独立建模的距离相关性,以确保意图之间的独立性。因此,我们明确地解开了用户在表示学习中的隐藏意图。
* [gusye1234/LightGCN-PyTorch](https://github.com/gusye1234/LightGCN-PyTorch) 旨在简化 GCN 的设计,使其更简洁,更适合推荐。提出了名为 LightGCN 的新模型,仅包含 GCN 中最重要的组件—邻域聚合—用于协同过滤
* [muhanzhang/IGMC](https://github.com/muhanzhang/IGMC) 基于图神经网络的归纳矩阵补全模型,不使用任何边信息。 传统的矩阵分解方法将(评级)矩阵分解为行(用户)和列(项目)的低维潜在嵌入的乘积,这是转导的,因为学习的嵌入不能推广到看不见的新矩阵。为了使矩阵完成归纳,必须事先使用内容(辅助信息),如年龄或电影的类型。然而,高质量内容并不总是可用,而且很难提取。IGMC 通过训练一个GNN来实现,该网络完全基于从评分矩阵形成的二分图中提取的(用户、项目)对周围的局部子图,并将子图映射到其相应的评分。它不依赖于特定评分矩阵或任务的任何全局信息,也不学习特定于观察到的用户/项目的嵌入。因此,它是一个完全归纳模型,它可泛化到训练时看不见的用户/项目(假设交互存在),甚至可以迁移到新任务,从 MovieLens训练出来的模型可以直接用于预测豆瓣电影评分,并且效果出奇的好。
* [jennyzhang0215/STAR-GCN](https://github.com/jennyzhang0215/STAR-GCN) 用于推荐系统的堆叠和重构图卷积网络
* [wenqifan03/GraphRec-WWW19](https://github.com/wenqifan03/GraphRec-WWW19) 用于社交推荐的图神经网络
* [PeiJieSun/diffnet](https://github.com/PeiJieSun/diffnet) 基于图神经网络的社交推荐模型。SIGIR2019。
* [hwwang55/KGCN](https://github.com/hwwang55/KGCN) 用于推荐系统的知识图卷积网络,它使用图卷积网络(GCN)技术来处理知识图谱以达到推荐的目的。
* [huangtinglin/Knowledge_Graph_based_Intent_Network](https://github.com/huangtinglin/Knowledge_Graph_based_Intent_Network) 与推荐知识图交互背后的学习意图,WWW2021
* [amzn/pecos](https://github.com/amzn/pecos) 巨大和相关空间的预测 。用于对具有大输出空间的问题进行快速学习和推理,例如极端多标签排序 (XMR) 和大规模检索。
* [summmeer/session-based-news-recommendation](https://github.com/summmeer/session-based-news-recommendation) 通过利用不同类型的隐式反馈,我们减轻了精度和多样性与冷启动问题之间的权衡,这对于实际应用是有效的。命名为 TCAR(时间和内容感知推荐系统)
* [ahmedrashed-ml/CARCA](https://github.com/ahmedrashed-ml/CARCA) 通过交叉注意的上下文和属性感知顺序推荐,RecSys 2022
* [Coder-Yu/SELFRec](https://github.com/Coder-Yu/SELFRec) 一个用于自我监督推荐 (SSR) 的 Python 框架,它集成了常用的数据集和指标,并实现了许多最先进的 SSR 模型。 SELFRec 具有轻量级架构并提供用户友好的界面。 它可以促进模型的实施和评估。
* [caserec/Datasets-for-Recommender-Systems](https://github.com/caserec/Datasets-for-Recommender-Systems) 一个以主题为中心的高质量推荐系统(RS)公共数据集。
* [zygmuntz/goodbooks-10k](https://github.com/zygmuntz/goodbooks-10k) 包含一万本最受欢迎(评分最多)书籍的 600 万个评分。还有:用户标记为阅读的书籍、书籍元数据(作者、年份等)、标签/货架/流派
* [twitter/the-algorithm-ml](https://github.com/twitter/the-algorithm-ml) 这个项目开源了 Twitter 使用的一些 ML 模型。目前这些是:“For You”重磅排名(项目/主页/回顾)。TwHIN 嵌入。
* [SAI990323/TALLRec](https://github.com/SAI990323/TALLRec/tree/main) 新颖的框架TALLRec,使LLM能够高效和有效地适应推荐任务。
# 机器视觉
## 人像\姿势\3D人脸
* [deepinsight/insightface](https://github.com/deepinsight/insightface) 最先进的2D和3D人脸分析项目 人脸识别\检测\对齐
* [modelscope/facechain](https://github.com/modelscope/facechain) 深度学习工具链,用于生成数字孪生。FaceChain是一个新颖的框架,用于生成身份保存的人类肖像。在最新的 FaceChain FACT(带解耦训练的面部适配器)版本中,只需 1 张照片和 10 秒,您就可以生成不同设置的个人肖像(现在支持多种样式!FaceChain在人像生成方面具有高度的可控性和真实性,包括基于文本到图像和修复的流水线,并与ControlNet和LoRA无缝兼容。您可以通过 FaceChain 的 Python 脚本、熟悉的 Gradio 界面或 sd webui 生成肖像。
* [facefusion/facefusion](https://github.com/facefusion/facefusion) 下一代换脸器和增强器。人脸分析:年龄、性别、人脸检测器、尺寸、分数。口罩。面部增强。换脸。唇型同步器。
* [yoyo-nb/Thin-Plate-Spline-Motion-Model](https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model) 用于图像动画的薄板样条运动模型 人脸、人物动作姿势模拟
* [AliaksandrSiarohin/first-order-model](https://github.com/AliaksandrSiarohin/first-order-model) 图像动画的一阶运动模型,实现静态图像到动态图像的转换.人脸、人物动作姿势模拟
* [leap-ai/headshots-starter](https://github.com/leap-ai/headshots-starter) 可在几分钟内生成专业的 AI 头像。
* [InstantID/InstantID](https://github.com/InstantID/InstantID) 在数秒内实现零样本人身份保留生成,最先进的免调谐方法,只需一张图像即可实现 ID 保留生成,支持各种下游任务。InstantID 实现了更好的保真度,并保留了良好的文本可编辑性(面孔和样式融合得更好)。[InstantX/InstantID](https://huggingface.co/InstantX/InstantID)
* [Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB](https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB) 超轻-快速-通用-人脸检测器-1MB,超轻量级人脸检测模型。模型大小方面,默认FP32精度(.pth)文件大小为1.04~1.1MB,推理框架int8量化大小约为300KB。就模型的计算量而言,320x240的输入分辨率约为90~109 MFlops。该模型有两个版本,version-slim(网络骨干简化,稍快)和version-RFB(带有修改后的RFB模块,精度更高)。提供320x240和640x480不同输入分辨率的Widerface训练预训练模型,以更好地在不同应用场景下工作。支持 onnx 导出,便于迁移和推理。提供 NCNN C++ 推理代码。提供MNN C++推理代码,MNN Python推理代码,FP32/INT8量化模型。提供 Caffe 型号和 onnx2caffe 转换代码。Caffe python 推理代码和 OpencvDNN 推理代码。* [minivision-ai/photo2cartoon](https://github.com/minivision-ai/photo2cartoon) 人像卡通化探索项目
* [ShiqiYu/libfacedetection](https://github.com/ShiqiYu/libfacedetection) 用于图像中人脸检测的开源库。人脸检测速度可以达到1000FPS。
* [iperov/DeepFaceLive](https://github.com/iperov/DeepFaceLive) 用于 PC 流媒体或视频通话的实时换脸
* [davidsandberg/facenet](https://github.com/davidsandberg/facenet) 使用 TensorFlow 进行人脸识别
* [serengil/deepface](https://github.com/serengil/deepface) 轻量级人脸识别和人脸属性分析(年龄、性别、情感和种族)库
* [exadel-inc/CompreFace](https://github.com/exadel-inc/CompreFace) 领先的免费开源人脸识别系统
* [tencent-ailab/hifi3dface](https://github.com/tencent-ailab/hifi3dface )RGB-D 的高保真3D 数字人类创建
* [alievk/avatarify-python](https://github.com/alievk/avatarify-python) Zoom、Skype 和其他视频会议应用程序的头像。基于一阶运动模型( First Order Motion Model)。Avatarify 附带了一组标准的名人头像,但您只需将头像复制到 avatars 文件夹中即可扩展此集。
* [iPERDance/iPERCore](https://github.com/iPERDance/iPERCore) 处理人体图像合成任务。其中包括人体运动模仿、外观转换和新视角合成等。并且,该项目的代码、数据集已开源。
* [anandpawara/Real_Time_Image_Animation](https://github.com/anandpawara/Real_Time_Image_Animation) 实时图像动画,使原图的人像与新图上的人脸动作一致。
* [GuyTevet/motion-diffusion-model](https://github.com/guytevet/motion-diffusion-model) 人体运动扩散模型的PyTorch官方实现
* [FACEGOOD-Audio2Face](https://github.com/FACEGOOD/FACEGOOD-Audio2Face) 将音频转换为混合形状权重,并在UE中驱动数字人小美。
* [facebookresearch/pifuhd](https://github.com/facebookresearch/pifuhd) 使用AI从2D图像生成人的3D高分辨率重建
* [open-mmlab/mmskeleton](https://github.com/open-mmlab/mmskeleton) 用于人体姿势估计,基于骨骼的动作识别和动作合成。
* [thepowerfuldeez/facemesh.pytorch](https://github.com/thepowerfuldeez/facemesh.pytorch) 单目实时人脸表面3D点云提取
* [anibali/margipose](https://github.com/anibali/margipose) 基于2D边缘热图的3D人体姿态估计
* [wmcnally/evopose2d](https://github.com/wmcnally/evopose2d) 神经架构搜索推动2D姿态识别边界
* [hellojialee/OffsetGuided](https://github.com/hellojialee/OffsetGuided) Bottom-up人体姿态估计最优网络,多人关键点坐标的编解码方法.
* [ziwei-zh/CorrPM](https://github.com/ziwei-zh/CorrPM) 关联人体边缘,人体姿态解析.研究了人的语义边界和关键点位置如何共同改善人的部件解析性能。
* [SangbumChoi/MobileHumanPose](https://github.com/SangbumChoi/MobileHumanPose) 在移动设备中实现实时 3D 人体姿态估计,PyTorch。
* [jby1993/SelfReconCode](https://github.com/jby1993/SelfReconCode) 从单目视频自我重建你的数字化身
* [ibaiGorordo/ONNX-Mobile-Human-Pose-3D](https://github.com/ibaiGorordo/ONNX-Mobile-Human-Pose-3D) 使用 ONNX 中的移动人体姿势模型执行 3D 人体姿势估计的 Python 脚本。
* [CMU-Perceptual-Computing-Lab/openpose](https://github.com/CMU-Perceptual-Computing-Lab/openpose) 用于身体、面部、手和脚估计的实时多人关键点检测库。
* [wzmsltw/PaintTransformer](https://github.com/wzmsltw/PaintTransformer) Paint Transformer:具有笔画预测的前馈神经绘画网络。预测图片如何用画笔画出。
* [cleardusk/3DDFA_V2](https://github.com/cleardusk/3DDFA_V2) Towards Fast 的官方 PyTorch 实现,准确稳定的3D密集人脸对齐,ECCV 2020。预测出图片人脸的3D结构。
* [PeterL1n/RobustVideoMatting](https://github.com/PeterL1n/RobustVideoMatting) 可在任意视频上做实时高清人物抠像.
* [changgyhub/deepsketch2face](https://github.com/changgyhub/deepsketch2face) 用于 3D 面部和漫画建模的基于深度学习的草图系统。
* [YadiraF/DECA](https://github.com/YadiraF/DECA) 详细的表情捕捉和动画(SIGGRAPH 2021).从单个输入图像重建具有详细面部几何形状的 3D 头部模型。生成的 3D 头部模型可以轻松制作动画。
* [sicxu/Deep3DFaceRecon_pytorch](https://github.com/sicxu/Deep3DFaceRecon_pytorch) 具有弱监督学习的准确 3D 人脸重建:从单张图像到图像集 (CVPRW 2019)。PyTorch 实现。
* [xierc/Semi_Human_Pose](https://github.com/xierc/Semi_Human_Pose) 半监督二维人体姿态估计中折叠问题的实证研究。
* [DrMahdiRezaei/DeepSOCIAL](https://github.com/DrMahdiRezaei/DeepSOCIAL) DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。
* [shliang0603/Yolov4_DeepSocial](https://github.com/shliang0603/Yolov4_DeepSocial) DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。
* [Mukosame/Anime2Sketch](https://github.com/Mukosame/Anime2Sketch) 动画/插图的草图提取器。
* [google/mediapipe](https://github.com/google/mediapipe) 适用于直播和流媒体的跨平台、可定制的 ML 解决方案。包括:人脸、面网、虹膜手、姿势、整体姿势、人脸检测、头发分割、物体检测、箱子追踪、即时运动追踪、日常物体的实时 3D 物体检测、关键点神经不变特征变换。人脸检测模型:检测是否存在具有一些关键面部特征的人脸。人脸网格模型:添加人脸的完整映射。模型会输出 478 个三维人脸特征点的估计值。Blendshape 预测模型:接收人脸网格模型的输出,并预测 52 个融合变形分数,这些分数是代表不同面部表情的系数。手部特征点模型包可检测已检测到的手部区域内 21 个指节坐标的关键点定位。该模型基于大约 3 万张真实图像以及对各种背景施加的几个渲染合成手部模型进行了训练。
* [minivision-ai/photo2cartoon](https://github.com/minivision-ai/photo2cartoon) 人像卡通化探索项目
* [MobileStyleGAN.pytorch](https://github.com/bes-dev/MobileStyleGAN.pytorch) 用于高保真图像合成的轻量级卷积神经网络
* [TencentARC/GFPGAN](https://github.com/TencentARC/GFPGAN) GFPGAN 旨在开发用于真实世界面部恢复的实用算法。
* [人脸识别常用开源数据集大全](https://mp.weixin.qq.com/s/bcYmSh6cli7kPeEOgmw3mg) 哥伦比亚大学公众人物脸部数据、CelebA、美国国防部、MTFL、BioID、PersonID人脸识别数据集、CMU PIE人脸库、Youtube视频人脸、CASIA 人脸图像、Caltech人脸数据库
* [sallymmx/ActionCLIP](https://github.com/sallymmx/ActionCLIP) 视频动作识别的新范式
* [IGLICT/DeepFaceDrawing-Jittor](https://github.com/IGLICT/DeepFaceDrawing-Jittor) 从草图中深度生成人脸图像
* [RameenAbdal/StyleFlow](https://github.com/RameenAbdal/StyleFlow) 使用条件连续归一化流对 StyleGAN 生成的面部图像进行属性条件探索
* [kennymckormick/pyskl](https://github.com/kennymckormick/pyskl) 用于基于骨架的动作识别的工具箱。
* [nenadmarkus/pico](https://github.com/nenadmarkus/pico) 对标准 Viola-Jones 方法的修改。基本思想是在所有合理的位置和尺度上用级联的二元分类器扫描图像。如果图像区域成功通过级联的所有成员,则将其分类为感兴趣对象。每个二元分类器由一组决策树组成,其中像素强度比较作为其内部节点中的二元测试。这使检测器能够以非常高的速度处理图像区域。
* [YuliangXiu/ICON](https://github.com/YuliangXiu/ICON) 从图片法线获得的隐式穿衣人类的3D姿态(CVPR 2022)
* [DirtyHarryLYL/Activity2Vec](https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec) 基于HAKE数据的通用人类活动特征提取器和人体PaSta(部分状态)检测器。它的工作原理类似于 ImageNet/COCO 预训练的主干,旨在为下游任务(如 VQA、字幕、聚类等)提取多模态活动表示。
* [fengq1a0/FOF](https://github.com/fengq1a0/FOF) 学习傅里叶占有场(Fourier Occupancy Fields)用于单目实时人体重建
* [damo/cv_mobilenet_face-2d-keypoints_alignment](https://modelscope.cn/models/damo/cv_mobilenet_face-2d-keypoints_alignment/summary) 106点人脸关键点检测模型,该模型主要用于人脸关键点检测和对齐任务,从包含人脸的图片中检测出人脸框、人脸关键点坐标和人脸姿态角。主要借鉴MobileNetV1和MobileNetV2的思路(如下图),MobileNetV1速度快,放在浅层用于提取特征图,MobileNetV2速度相对慢但是信息保存好,用于提取深层语义信息,模型参数量少速度快,能良好应用在移动端实时人脸关键点检测场景。
* [open-mmlab/mmpose](https://github.com/open-mmlab/mmpose) OpenMMLab 姿势估计工具箱和基准测试。
* [justadudewhohacks/face-api.js](https://github.com/justadudewhohacks/face-api.js) JavaScript API,用于浏览器中的人脸检测和人脸识别,以及带有 tensorflow 的 nodejs.js
* [CelebA](https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html) 大型人脸属性数据集,包含超过 200K 张名人图片,每张图片有 40 个属性注释。此数据集中的图像涵盖了较大的姿势变化和背景杂乱。
* [switchablenorms/CelebAMask-HQ](https://github.com/switchablenorms/CelebAMask-HQ) CelebAMask-HQ 是一个大规模的人脸图像数据集,其中包含从 CelebA 数据集中选择的 30,000 张高分辨率人脸图像,遵循 CelebA-HQ。每个图像都有与 CelebA 相对应的面部属性的分割蒙版。CelebAMask-HQ 的面具以 512 x 512 的大小和 19 个类别手动注释,包括所有面部组件和配件,例如皮肤、鼻子、眼睛、眉毛、耳朵、嘴巴、嘴唇、头发、帽子、眼镜、耳环、项链、脖子和布料。CelebAMask-HQ 可用于训练和评估人脸解析、人脸识别和人脸生成和编辑的 GAN 算法。
## 图像恢复
* [microsoft/Bringing-Old-Photos-Back-to-Life](https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life) 旧照片修复
* [Sanster/lama-cleaner](https://github.com/Sanster/lama-cleaner) 由 SOTA AI 模型提供支持的图像修复工具。 从照片中删除任何不需要的物体、缺陷、人或擦除和替换(由稳定扩散驱动)你照片上的任何东西。
* [TaoWangzj/Awesome-Face-Restoration](https://github.com/TaoWangzj/Awesome-Face-Restoration) 深层面部修复资源的完整列表 去噪、超分辨率、去模糊和去除伪影
* [sczhou/CodeFormer](https://github.com/sczhou/CodeFormer) 使用 Codebook Lookup Transformer 实现强大的盲脸恢复,增强旧照片/修复 AI 艺术,面部修复,面部颜色增强和修复。[sczhou/CodeFormer](https://huggingface.co/spaces/sczhou/CodeFormer)
* [upscayl/upscayl](https://github.com/upscayl/upscayl) 可让您使用先进的 AI 算法放大和增强低分辨率图像。在不损失质量的情况下放大图像。
* [xinntao/Real-ESRGAN](https://github.com/xinntao/Real-ESRGAN) 旨在开发通用图像恢复的实用算法。
* [zhangmozhe/Deep-Exemplar-based-Video-Colorization](https://github.com/zhangmozhe/Deep-Exemplar-based-Video-Colorization) 基于深层范例的视频着色,着色时间的连贯性与稳定性
* [JingyunLiang/SwinIR](https://github.com/JingyunLiang/SwinIR) 使用 Swin Transformer 的图像恢复,图像SR\图像去噪\伪影减少
* [yangxy/GPEN](https://github.com/yangxy/GPEN) 用于脸部高清增强,还能将黑白人物照转成彩色照片。GPEN模型明显优于其他的修复人脸的GAN模型。
* [bilibili/ailab](https://github.com/bilibili/ailab) 使用百万级动漫数据进行训练的,结构与Waifu2x兼容的通用动漫图像超分辨率模型。它支持2x\3x\4x倍超分辨率,其中2倍模型支持4种降噪强度与保守修复,3倍/4倍模型支持2种降噪强度与保守修复。
* [nagadomi/waifu2x](https://github.com/nagadomi/waifu2x) 动漫风格艺术的图像超分辨率
* [andreas128/RePaint](https://github.com/andreas128/RePaint) 官方 PyTorch 代码和“重绘:使用去噪扩散概率模型进行修复”模型,CVPR 2022
* [AaronFeng753/Waifu2x-Extension-GUI](https://github.com/AaronFeng753/Waifu2x-Extension-GUI) 视频、图像和GIF放大/放大(超分辨率)和视频帧插值。通过 Waifu2x、Real-ESRGAN、Real-CUGAN、RTX Video Super Resolution VSR、SRMD、RealSR、Anime4K、RIFE、IFRNet、CAIN、DAIN 和 ACNet 实现。
## 光学字符识别OCR
* [ouyanghuiyu/chineseocr_lite](https://github.com/ouyanghuiyu/chineseocr_lite) 超轻量级中文ocr
* [JiaquanYe/TableMASTER-mmocr](https://github.com/JiaquanYe/TableMASTER-mmocr) 将表格内容识别任务分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。 基于 MASTER,我们提出了一种新颖的表结构识别架构,我们称之为 TableMASTER。
* [breezedeus/cnocr](https://github.com/breezedeus/cnocr) cnocr
* [alibabaresearch/advancedliteratemachinery](https://github.com/alibabaresearch/advancedliteratemachinery) 一系列原创的、创新的想法和算法,旨在实现先进的识字机械。该项目由阿里巴巴集团通益实验室语言技术实验室的OCR团队进行维护。我们研究的最终目标是建立一个具有高级智能的系统,即拥有阅读、思考和创造的能力,这些能力如此先进,以至于在未来的某一天甚至可能超过人类的智力。我们将这种系统命名为高级识字机械(ALM)。首先,我们目前专注于教机器从图像和文档中读取。在未来的岁月里,我们将探索赋予机器思考和创造的智力能力的可能性,赶上并超越GPT-4和GPT-4V。
* [naptha/tesseract.js](https://github.com/naptha/tesseract.js) 支持 100 多种语言的纯 Javascript OCR
* [JiaquanYe/MASTER-mmocr](https://github.com/JiaquanYe/MASTER-mmocr) 本项目是 MMOCR 对 MASTER: Multi-Aspect Non-local Network for Scene Text Recognition (场景文本识别)的重新实现。
* [PaddlePaddle/PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) 很棒的基于PaddlePaddle的多语言OCR工具包(实用的超轻量级OCR系统,支持80+语言识别,提供数据标注和合成工具,支持服务器、移动、嵌入式和物联网设备之间的训练和部署)
* [hiroi-sora/Umi-OCR](https://github.com/hiroi-sora/Umi-OCR) 开源、免费的离线OCR软件。支持截屏/粘贴/批量导入图片,段落排版/排除水印,扫描/生成二维码。内置多国语言库。
* [FudanVI/benchmarking-chinese-text-recognition](https://github.com/FudanVI/benchmarking-chinese-text-recognition) 该存储库包含用于对中文文本识别进行基准测试的数据集和基线。收集公开可用的场景数据集,包括**RCTW**、**ReCTS**、**LSVT**、**ArT**、**CTW** ,得到 636,455 个样本,这些样本被随机打乱,然后按 8:1:1 的比例划分,以构建训练、验证和测试数据集。六种具有代表性的方法作为基线:CRNN是典型的基于 CTC 的方法,在学术界和工业界得到广泛应用,它首先将文本图像发送到 CNN 以提取图像特征,然后采用两层 LSTM 对序列特征进行编码,最后,LSTM 的输出被馈送到 CTC解码器,以最大化所有路径通往基本事实的概率。ASTER 是典型的基于校正的方法,旨在处理不规则的文本图像,引入了空间变换器网络 (STN),将给定的文本图像纠正为易于识别的外观,然后将校正后的文本图像发送到 CNN 和两层 LSTM 提取特征,ASTER 利用注意力机制来预测最终的文本序列。MORAN 是基于整流的方法,它首先采用多对象校正网络(MORN)以弱监督方式预测校正后的像素偏移(与利用 STN 的 ASTER 不同),输出像素偏移进一步用于生成校正后的图像,该图像进一步发送到基于注意力的解码器(ASRN)进行文本识别。SAR 利用二维特征图进行更稳健的解码,特别是,它主要是针对不规则文本提出的,一方面,SAR 在 CNN 编码器中采用更强大的残差块来学习更强的图像表示,另一方面,与 CRNN、ASTER 和 MORAN 将给定图像压缩成一维特征图不同,SAR 对特征图的空间维度采用二维注意力进行解码,从而在弯曲和斜体文字。SEED是基于语义的方法,它引入了一个语义模块来提取全局语义嵌入并利用它来初始化解码器的第一个隐藏状态,SEED的解码器在继承ASTER结构的同时,吸收语义嵌入为识别过程提供先验,从而在识别低质量文本图像方面表现出优越性。TransOCR 是基于 Transformer 的方法之一,它最初旨在为超分辨率任务提供文本先验,它使用 ResNet-34 作为编码器,使用自注意力模块作为解码器,与基于 RNN 的解码器不同,自注意力模块更有效地捕获给定文本图像的语义特征。
* [adeline-cs/GTR](https://github.com/adeline-cs/GTR) 场景文字识别 现有的场景文本识别(STR)方法通常使用语言模型来优化视觉识别(VR)模型预测的一维字符序列的联合概率,忽略字符实例内部和之间的视觉语义的二维空间上下文,使它们不能很好地推广到任意形状的场景文本。为了解决这个问题,本文中首次尝试基于视觉语义进行文本推理。给定 VR 模型预测的字符分割图,为每个实例构建子图,节点表示其中的像素,根据它们的空间相似性在节点之间添加边。然后,子图通过根节点顺序连接成一个完整的图。
* [lukas-blecher/LaTeX-OCR](https://github.com/lukas-blecher/LaTeX-OCR) pix2tex:使用ViT将方程式图像转换为LaTeX代码。目标是创建一个基于学习的系统,该系统获取数学公式的图像并返回相应的LaTeX代码。
* [Layout-Parser/layout-parser](https://github.com/Layout-Parser/layout-parser) 基于深度学习的文档图像分析的统一工具包,旨在简化文档图像分析 (DIA) 任务。
* [phamquiluan/PubLayNet](https://github.com/phamquiluan/PubLayNet) PubLayNet数据集上的MaskRCNN。段落检测、表格检测、图形检测... 个大型文档图像数据集,其布局使用边界框和多边形分割进行标注。
* [JaidedAI/EasyOCR](https://github.com/JaidedAI/EasyOCR) 即用型 OCR,支持 80 多种语言和所有流行的书写脚本,包括拉丁文、中文、阿拉伯文、天城文、西里尔文等。
* [ocrmypdf/OCRmyPDF](https://github.com/ocrmypdf/OCRmyPDF) 为扫描的 PDF 文件添加OCR 文本图层,允许对其进行搜索
* [RapidAI/RapidOCR](https://github.com/RapidAI/RapidOCR) 基于 PaddleOCR & OnnxRuntime & OpenVINO 的跨平台 OCR
* [breezedeus/Pix2Text](https://github.com/breezedeus/Pix2Text) Pix 输入、Latex 和文本输出。从图像中识别中文、英文文本和数学公式。支持80+种语言。
## 视频生成、补帧、摘要
* [hpcaitech/Open-Sora](https://github.com/hpcaitech/Open-Sora) 致力于高效制作高质量视频并使所有人都可以使用模型、工具和内容的计划。通过采用开源原则,Open-Sora 不仅使对高级视频生成技术的访问民主化,而且还提供了一个简化且用户友好的平台,简化了视频制作的复杂性。通过Open-Sora,我们的目标是在内容创作领域激发创新、创造力和包容性。Open-Sora 1.1,它支持 2s~15s、144p 到 720p、任意宽高比的文本到图像、文本到视频、图像到视频、视频到视频、无限时间生成。此外,还发布了完整的视频处理流水线。
* [PKU-YuanGroup/Open-Sora-Plan](https://github.com/PKU-YuanGroup/Open-Sora-Plan) 本项目旨在重现 Sora(Open AI T2V 模型),我们希望开源社区为本项目做出贡献。推出 Open-Sora-Plan v1.1.0,它显着增强了视频生成质量和文本控制功能。该项目旨在创建一个简单且可扩展的存储库,以重现 Sora(OpenAI,但我们更愿意将其称为“ClosedAI”)。我们希望开源社区能够为这个项目做出贡献。欢迎拉取请求!!本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前版本离目标差距仍然较大,仍需持续完善和快速迭代。项目阶段:设置代码库并在landscape景观数据集上训练无条件模型。训练可提高分辨率和持续时间的模型。在landscape景观数据集上进行text2video实验。在 video2text 数据集上训练 1080p 模型。具有更多条件的控制模型。
* [hzwer/arXiv2020-RIFE](https://github.com/hzwer/arXiv2020-RIFE) 视频帧插值的实时中级流量估计.旷视和北大提出的一种实时中间流估计算法。用于视频帧插值,能够改善伪影、让视频更丝滑。
* [Justin62628/Squirrel-RIFE](https://github.com/Justin62628/Squirrel-RIFE) 基于RIFE算法的中文补帧软件.
* [baowenbo/DAIN](https://github.com/baowenbo/DAIN) DAIN(深度感知视频帧插值)可以把30fps的进一步插帧到480fps。
* [nihui/dain-ncnn-vulkan](https://github.com/nihui/dain-ncnn-vulkan) DAIN 的 ncnn 实现,深度感知视频帧插值。dain-ncnn-vulkan 使用 ncnn 项目作为通用神经网络推理框架。
* [HumanAIGC/EMO](https://github.com/HumanAIGC/EMO) 在弱条件下使用 Audio2Video 扩散模型生成富有表现力的人像视频
* [nihui/rife-ncnn-vulkan](https://github.com/nihui/rife-ncnn-vulkan) RIFE,视频帧插值的实时中级流量估计与 ncnn 库一起实现
* [myungsub/CAIN](https://github.com/myungsub/CAIN) 视频帧插值只需要频道注意力
* [nihui/cain-ncnn-vulkan](https://github.com/nihui/cain-ncnn-vulkan) CAIN,使用 ncnn 库实现的视频帧插值只需要频道注意力
* [damo/cv_googlenet_pgl-video-summarization](https://modelscope.cn/models/damo/cv_googlenet_pgl-video-summarization/summary) 输入一段长视频,算法对视频进行镜头切割得到视频片段,评估视频帧的重要性,输出重要视频帧的帧号,根据帧号可以合成一段短视频(摘要视频)。采用local和global的多头注意力构成的transformer模型
* [RayVentura/ShortGPT](https://github.com/RayVentura/ShortGPT) 用于自动创建短视频内容的实验性 AI 框架。它简化了视频创建、素材获取、画外音合成和编辑任务。自动编辑框架:使用面向LLM的视频编辑语言简化视频创建过程。脚本和提示:为各种LLM自动编辑过程提供即用型脚本和提示。画外音/内容创作:支持多种语言。字幕生成:自动生成视频字幕。资产来源:从互联网上获取图像和视频片段,并根据需要与网络和 Pexels API 连接。内存和持久性:使用 TinyDB 确保自动编辑变量的长期持久性。
## 对象检测、分割
* [facebookresearch/segment-anything](https://github.com/facebookresearch/segment-anything) Segment Anything Model从输入提示(如点或框)生成高质量的对象遮罩,并且可用于为图像中的所有对象生成遮罩。它已经在1100万张图像和11亿个掩码的数据集上进行了训练,并且在各种分割任务上具有强大的零样本性能。
* [ultralytics/ultralytics](https://github.com/ultralytics/ultralytics) Ultralytics YOLOv8 是一种尖端的、最先进的 (SOTA) 模型,它建立在以前 YOLO 版本的成功基础上,并引入了新功能和改进,以进一步提高性能和灵活性。YOLOv8 旨在快速、准确且易于使用,使其成为各种目标检测和跟踪、实例分割、图像分类和姿态估计任务的绝佳选择。
* [ultralytics/yolov3](https://github.com/ultralytics/yolov3) 全球最受欢迎的视觉 AI,代表了 Ultralytics 对未来视觉 AI 方法的开源研究,融合了数千小时研发的经验教训和最佳实践。可用于执行检测、分割、obb(定向物体检测)、分类和姿态估计,这些任务中的每一个都有不同的目标和用例。
* [CVHub520/X-AnyLabeling](https://github.com/CVHub520/X-AnyLabeling) 借助 Segment Anything 和其他出色模型的 AI 支持,轻松进行数据标记。X-AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行各种复杂任务的标定。关键功能:支持GPU推理加速;支持图像和视频处理;支持单帧和批量预测所有任务;支持自定义模型和二次开发设计;支持一键导入和导出主流的标签格式,如COCO\VOC\YOLO\DOTA\MOT\MASK;支持多种图像标注样式,包括 :多边形、矩形、旋转框、圆形、线条、点,以及 文本检测、识别 和 KIE 标注;支持各类视觉任务,如图像分类、目标检测、实例分割、姿态估计、旋转检测、多目标跟踪、光学字符识别、图像文本描述、车道线检测、分割一切系列等。
* [mikel-brostrom/boxmot](https://github.com/mikel-brostrom/boxmot) 用于分割、目标检测和姿态估计模型的可插拔 SOTA 跟踪模块。此存储库包含一组可插拔的最先进的多目标跟踪器,用于分割、对象检测和姿态估计模型。对于使用外观描述的方法,重型(CLIPReID)和轻型最先进的ReID模型(LightMBN,OSNet等)都可以自动下载。我们提供了有关如何将此软件包与流行的对象检测模型(例如:Yolov8、Yolo-NAS 和 YOLOX)一起使用的示例。
* [open-mmlab/mmdetection](https://github.com/open-mmlab/mmdetection) OpenMMLab基于PyTorch的开源对象检测工具箱
* [microsoft/Swin-Transformer](https://github.com/microsoft/Swin-Transformer) 基于Masked Image Modeling的预训练方法,适用于 Swin 和 SwinV2(也适用于 ViT 和 ResNet)。它可作为CV的通用主干。它基本上是一个分层变换器,其表示是用移位窗口计算的。移位窗口方案通过将 self-attention 计算限制在不重叠的本地窗口上,同时还允许跨窗口连接,从而带来更高的效率。将 CLIP 预训练的 ViT-L 提高了 +1.6%,以达到ImageNet-1K 图像分类,这是最准确的 ViT-L 模型。在 COCO 对象检测(58.7 box AP和51.1 mask APtest-dev)和 ADE20K 语义分割(53.5 mIoU在 val)上实现了强大的性能,大大超过了以前的模型。
* [IDEA-Research/Grounded-Segment-Anything](https://github.com/IDEA-Research/Grounded-Segment-Anything) 将Grounding-DINO与Segment Anything & Stable Diffusion相结合,识别任何内容-自动检测、分割和生成任何内容
* [facebookresearch/detr](https://github.com/facebookresearch/detr) 使用Transformer进行端到端目标检测。适用于 DETR (DEtection TRansformer) 的 PyTorch 训练代码和预训练模型。我们用 Transformer 替换了整个复杂的手工目标检测管道,并将 Faster R-CNN 与 ResNet-50 匹配,使用一半的计算能力 (FLOP) 和相同数量的参数在 COCO 上获得 42 个 AP。在 50 行 PyTorch 中进行推理。
* [vietanhdev/anylabeling](https://github.com/vietanhdev/anylabeling) 借助 YOLO、Segment Anything、MobileSAM 的 AI 支持,轻松实现 AI 辅助数据标注!!
* [caoyunkang/GPT4V-for-Generic-Anomaly-Detection](https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection) 异常检测是跨不同领域和数据类型的一项关键任务。但是,现有的异常检测模型通常是针对特定领域和模式设计的。本研究探讨了使用 GPT-4V(ision),一种强大的视觉语言模型,以通用方式处理异常检测任务。我们研究了GPT-4V在多模态、多域异常检测任务中的应用,包括图像、视频、点云和时间序列数据,涉及工业、医疗、逻辑、视频、3D异常检测和定位等多个应用领域。为了提高 GPT-4V 的性能,我们加入了不同类型的附加提示,例如班级信息、人类专业知识和参考图像作为提示。根据我们的实验,GPT-4V 被证明在检测和解释零/单次异常检测中的全局和细粒度语义模式方面非常有效。这样可以准确区分正常和异常实例。总体而言,GPT-4V在通用异常检测和理解方面表现出良好的性能,从而为异常检测开辟了一条新的途径。
* [PeterL1n/BackgroundMattingV2](https://github.com/PeterL1n/BackgroundMattingV2) 论文 Real-Time High-Resolution Background Matting 的官方存储库。我们的模型需要捕获额外的背景图像,并在 Nvidia RTX 2080 TI GPU 上以 4K 30fps 和 HD 60fps 的速度产生最先进的抠图效果。
* [PaddlePaddle/PaddleSeg](https://github.com/PaddlePaddle/PaddleSeg) 易于使用的图像分割库,具有出色的预训练模型库,支持语义分割、交互式分割、全景分割、图像叠加、3D 分割等广泛的实际任务。
* [mrgloom/awesome-semantic-segmentation](https://github.com/mrgloom/awesome-semantic-segmentation) 令人敬畏的语义分割
* [open-mmlab/mmsegmentation](https://github.com/open-mmlab/mmsegmentation) OpenMMLab语义分割工具箱和基准测试。
* [PaddlePaddle/PaddleDetection](https://github.com/PaddlePaddle/PaddleDetection) 基于 PaddlePaddle 的目标检测工具包。它支持目标检测、实例分割、多目标跟踪和实时多人关键点检测。
* [google-research/kubric](https://github.com/google-research/kubric) 一个数据生成管道,用于创建具有丰富注释的半真实合成多对象视频,例如实例分割掩码、深度图和光流。
* [megvii-model/YOLOF](https://github.com/megvii-model/YOLOF) 一个没有FPN的简单、快速、高效的目标检测器。
* [JosephKJ/OWOD](https://github.com/JosephKJ/OWOD) (CVPR 2021 Oral) 开放世界目标检测.引入了强大的评估协议并提供了一种新颖的解决方案,我们称之为 ORE:开放世界对象检测器,基于对比聚类和基于能量的未知识别。
* [RangiLyu/nanodet](https://github.com/RangiLyu/nanodet) 超快速和轻量级的无锚物体检测模型。 仅 980 KB(int8) / 1.8MB (fp16) 并在手机上运行 97FPS.
* [jizhishutong/YOLOU](https://github.com/jizhishutong/YOLOU) 收集更多关于YOLO系列的算法,让小伙伴们更好的学习物体检测的知识。同时,为了更好的应用AI技术,YOLOU也将加入相应的Deploy技术,加速我们所学算法的落地,实现价值。
* [qubvel/segmentation_models.pytorch](https://github.com/qubvel/segmentation_models.pytorch) 具有预训练骨干的分割模型。PyTorch 的。主要功能是:高级 API(只需两行即可创建神经网络)、用于二进制和多类分割的 9 种模型架构(包括传奇的 Unet)、124 种可用编码器(以及 TIMM 的 500+ 种编码器)、所有编码器都具有预先训练的权重,以实现更快更好的收敛、训练例程的流行指标和损失
* [ultralytics/yolov5](https://github.com/ultralytics/yolov5) 在 COCO 数据集上预训练的对象检测模型,代表 Ultralytics 对未来视觉 AI 方法的开源研究,结合了数千小时的研究和经验教训和最佳实践。
* [meituan/YOLOv6](https://github.com/meituan/YOLOv6) 专用于工业应用的单阶段目标检测框架。
* [xuebinqin/U-2-Net](https://github.com/xuebinqin/U-2-Net) 我们在 Pattern Recognition 2020 上新接受的论文的代码:“U^2-Net:使用嵌套 U 结构进行突出对象检测的深入发展”。
* [iscyy/yoloair](https://github.com/iscyy/yoloair) 基于PyTorch的YOLO算法库。统一模型代码框架、统一应用、统一改进、易于模块组合、构建更强大的网络模型。
* [PaddlePaddle/PaddleClas](https://github.com/PaddlePaddle/PaddleClas) 飞桨图像识别套件 PaddleClas 是飞桨为工业界和学院所准备的一个图像任务的工具集,桌面和用户训练出更好的图像分类和应用落地。PaddleClas 前沿分类、识别相关支持算法,发布行业级特色骨算法PP-HGNet、PP-LCNetv2、PP-LCNet和SSLD 半监督干式网络知识模型等模型,在此基础上打造PULC 超轻量级分类分类方案和PP-ShiTu图像识别系统。
* [Hawkeye-FineGrained/Hawkeye](https://github.com/Hawkeye-FineGrained/Hawkeye) 基于开源深度学习的细粒度图像识别工具箱构建于PyTorch。基于深度滤波器:S3N (ICCV 2019) Interp-Parts (CVPR 2020) ProtoTree (CVPR 2021)。基于注意力机制:OSME+MAMC (ECCV 2018) MGE-CNN (ICCV 2019) APCNN (IEEE TIP 2021) 。基于高阶特征交互: BCNN (ICCV 2015) CBCNN (CVPR 2016) Fast MPN-COV (CVPR 2018) 。基于特殊损失函数: Pairwise Confusion (ECCV 2018) API-Net (AAAI 2020) CIN (AAAI 2020) 。基于网络数据: Peer-Learning (ICCV 2021) 其他方法 NTS-Net (ECCV 2018) CrossX (ICCV 2019) DCL (CVPR 2019)。
* [lucidrains/vit-pytorch](https://github.com/lucidrains/vit-pytorch) 在 Pytorch 中实现 Vision Transformer,一种仅使用单个 Transformer 编码器即可在视觉分类中实现 SOTA 的简单方法
* [alibaba/EasyCV](https://github.com/alibaba/EasyCV) 基于Pytorch的计算机视觉工具,聚焦自监督学习和视觉transformer关键技术,覆盖主流的视觉建模任务例如图像分类,度量学习,目标检测,关键点检测等。
* [ibm-aur-nlp/PubLayNet](https://github.com/ibm-aur-nlp/PubLayNet) 大型文档图像数据集,其布局用边界框和多边形分割进行了注释。 文件来源是 PubMed Central Open Access Subset(商业用途合集)。 注释是通过匹配 PubMed Central Open Access 子集中文章的 PDF 格式和 XML 格式自动生成的。
* [zongdai/AutoShape](https://github.com/zongdai/AutoShape) ICCV2021 论文:AutoShape:实时形状感知单目 3D 对象检测
* [facebookresearch/detectron2](https://github.com/facebookresearch/detectron2) 用于对象检测、分割和其他视觉识别任务的下一代平台。
* [cfzd/Ultra-Fast-Lane-Detection](https://github.com/cfzd/Ultra-Fast-Lane-Detection) 论文“超快速结构感知深度车道检测”的实现
* [RangiLyu/nanodet](https://github.com/RangiLyu/nanodet) NanoDet 轻量级1.8MB、超快(移动端97fps)目标检测项目
* [Megvii-BaseDetection/YOLOX](https://github.com/Megvii-BaseDetection/YOLOX) 高性能目标检测器YOLOX。并将YOLO检测器切换到anchor-free的方式,并结合其他先进的检测技术,如decouple head和标签分配策略SimOTA,实现了当前目标检测最优性能。
* [hoya012/deep_learning_object_detection](https://github.com/hoya012/deep_learning_object_detection) 使用深度学习进行对象检测的纸质列表。
* [yuantn/MI-AOD](https://github.com/yuantn/MI-AOD) 用于目标检测的多示例主动学习方法, 提出多示例主动目标检测MI-AOD,通过观察示例级的不确定性来选择信息量最大的图像用于检测器的训练。
* [microsoft/SoftTeacher](https://github.com/microsoft/SoftTeacher) ICCV2021 使用软教师进行端到端的半监督目标检测
* [raoyongming/DenseCLIP](https://github.com/raoyongming/DenseCLIP) DenseCLIP:具有上下文感知提示的语言引导密集预测
* [dddzg/up-detr](https://github.com/dddzg/up-detr) 使用 Transformers 进行目标检测的无监督预训练
* [Megvii-BaseDetection/DeFCN](https://github.com/Megvii-BaseDetection/DeFCN) 全卷积网络的端到端目标检测
* [HRNet/HRFormer](https://github.com/HRNet/HRFormer) 高分辨率变换器(HRFormer),它学习用于密集预测任务的高分辨率表示,而原始的视觉变换器产生低分辨率表示并且具有高内存和计算成本。
* [Sense-X/UniFormer](https://github.com/Sense-X/UniFormer) 统一卷积和自注意的视觉识别统一变压器,实现高效的时空表示学习 可用于: 图像分类、 视频分类、 物体检测、 语义分割、 姿势估计
* [bytedance/ibot](https://github.com/bytedance/ibot) 自我监督预训练框架,通过自蒸馏执行蒙版图像建模。iBOT 显示了局部语义特征,有助于模型在全局范围和局部范围内很好地转移到下游任务。iBOT在 COCO 对象检测和 ADE20K 语义分割上实现了强大的性能。
* [hkchengrex/XMem](https://github.com/hkchengrex/XMem) [ECCV 2022]使用 Atkinson-Shiffrin 进行长期视频对象分割
* [ytongbai/ViTs-vs-CNNs](https://github.com/ytongbai/ViTs-vs-CNNs) 变形金刚比 CNN 更强大吗 在测量对抗鲁棒性时,Transformers 胜过 CNN。CNN 在防御对抗性攻击方面很容易像 Transformers 一样强大,如果它们正确采用 Transformers 的训练方法的话。虽然关于分布外样本的泛化,我们表明在(外部)大规模数据集上进行预训练并不是使 Transformer 能够获得比 CNN 更好的性能的基本要求。此外,我们的消融表明,这种更强的泛化在很大程度上得益于 Transformer 本身的类似自我注意的架构,而不是其他训练设置。希望这项工作可帮助社区更好地理解和衡量 Transformer 和 CNN 的鲁棒性。
* [open-mmlab/mmrotate](https://github.com/open-mmlab/mmrotate) 基于 PyTorch 的旋转框检测的开源工具箱
* [MediaBrain-SJTU/RegAD](https://github.com/MediaBrain-SJTU/RegAD) 基于注册的少样本异常检测”(RegAD) 的官方实现
* [NVlabs/MinVIS](https://github.com/nvlabs/minvis) 无需基于视频的培训的最小视频实例分割框架
* [AlexeyAB/darknet](https://github.com/AlexeyAB/darknet) 用于对象检测的神经网络 YOLOv4 / Scaled-YOLOv4 / YOLO
* [ttengwang/Caption-Anything](https://github.com/ttengwang/Caption-Anything) 一款结合了图像分割、视觉字幕和 ChatGPT 的多功能工具,可根据用户偏好生成具有不同控件的定制字幕。
* [WZMIAOMIAO/deep-learning-for-image-processing](https://github.com/WZMIAOMIAO/deep-learning-for-image-processing) 用于图像处理的深度学习,包括分类和对象检测等。
* [satellite-image-deep-learning/techniques](https://github.com/satellite-image-deep-learning/techniques) 用于分析卫星和航空图像的各种深度学习技术,包括用于分类、分割和对象检测等任务的架构、模型和算法。对于研究人员、从业者和任何对深度学习的最新进展及其对计算机视觉和遥感的影响感兴趣的人来说,它都是宝贵的资源。
* [wkentaro/labelme](https://github.com/wkentaro/labelme) 使用 Python 的图像多边形注释(多边形、矩形、圆形、直线、点和图像级标志注释)。
* [facebookresearch/Detectron](https://github.com/facebookresearch/Detectron) FAIR用于对象检测研究的研究平台,实现了Mask R-CNN和RetinaNet等流行算法。
* [jolibrain/deepdetect](https://github.com/jolibrain/deepdetect) 用 C++11 编写的机器学习 API 和服务器。使最先进的机器学习易于使用并集成到现有应用程序中。它支持训练和推理,并可通过 TensorRT 和 NCNN (ARM CPU) 自动转换为嵌入式平台。它实现了对图像、文本、时间序列和其他数据的有监督和无监督深度学习的支持,重点是简单易用、测试和连接到现有应用程序。它支持分类、对象检测、分割、回归、自动编码器......
* [jacobgil/pytorch-grad-cam](https://github.com/jacobgil/pytorch-grad-cam) 计算机视觉的高级 AI 可解释性。支持 CNN、视觉变压器、分类、对象检测、分割、图像相似性等。
* [roboflow/supervision](https://github.com/roboflow/supervision) 为您编写可重复使用的计算机视觉工具。无论您是需要从硬盘加载数据集、在图像或视频上绘制检测,还是计算区域中的检测数量。
* [lucasjinreal/yolov7_d2](https://github.com/lucasjinreal/yolov7_d2) 早期的 YOLOv7 不是官方的,YOLO 具有 Transformer 和实例分割功能,具有 TensorRT 加速功能
* [nadermx/backgroundremover](https://github.com/nadermx/backgroundremover) Background Remover 可让您使用 AI 通过免费和开源的简单命令行界面从图像和视频中删除背景。
## 图像风格
* [mchong6/GANsNRoses](https://github.com/mchong6/GANsNRoses) 多样化的 im2im 和 vid2vid 自拍到动漫转换。从人脸面部图像映射动漫风格图像。
* [williamyang1991/VToonify](https://github.com/williamyang1991/vtoonify) SIGGRAPH Asia 2022 可控高分辨率人像视频风格迁移
* [mchong6/JoJoGAN](https://github.com/mchong6/JoJoGAN) JoJoGAN 的官方 PyTorch 存储库:One Shot Face Stylization 人脸风格化
* [orpatashnik/StyleCLIP](https://github.com/orpatashnik/StyleCLIP) 文本驱动的StyleGAN风格生成图像处理
* [syz825211943/Multi-Style-Photo-Cartoonization](https://github.com/syz825211943/Multi-Style-Photo-Cartoonization) 多风格照片卡通化
* [bryandlee/animegan2-pytorch](https://github.com/bryandlee/animegan2-pytorch) AnimeGANv2 的 PyTorch 实现 基于 CartoonGAN 的改进,并提出了一个更加轻量级的动漫风格效果生成器架构.
* [TachibanaYoshino/AnimeGANv2](https://github.com/TachibanaYoshino/AnimeGANv2) AnimeGAN的改进版本。风景照片/视频到动漫风格
* [PaddlePaddle/PaddleGAN](https://github.com/PaddlePaddle/PaddleGAN/) 飞桨生成对抗网络开发套件--PaddleGAN,为开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,以供学术、娱乐及产业应用。包括:人脸属性编辑之年龄变换 一键实现变老变年轻;视频超分SOTA算法PP-MSVSR;StyleGAN V2人脸属性编辑之性别转换;LapStyle风格迁移;人脸融合能力,结合新版Frirst Order Motion,实现人脸完美融合并带有丰富表情;真实照片转油画风格;人脸融合、风格迁移、老视频修复、人脸动作迁移、超分辨率、妆容迁移、人脸动漫化、写实人像卡通化、照片动漫化、唇形同步
* [SHI-Labs/Versatile-Diffusion](https://github.com/SHI-Labs/Versatile-Diffusion) 多功能扩散:文本、图像和变体合二为一的扩散模型,可以原生支持图像到文本、图像变体、文本到图像和文本变体,并且可以进一步扩展到其他应用,例如语义式解缠、图像-文本双引导生成、潜在图像到文本到图像编辑等。
* [FrozenBurning/Text2Light](https://github.com/frozenburning/text2light) 零样本的文本驱动的HDR全景图生成
* [junyanz/CycleGAN](https://github.com/junyanz/CycleGAN) 可以从绘画中生成照片、将马变成斑马、执行风格转换等的软件。
* [NVIDIA/FastPhotoStyle](https://github.com/NVIDIA/FastPhotoStyle) 风格迁移、深度学习、特征变换
* [lengstrom/fast-style-transfer](https://github.com/lengstrom/fast-style-transfer) TensorFlow CNN 用于快速样式变换,在几分之一秒内将名画的风格添加到任何照片中!您甚至可以设置视频样式!
* [fogleman/primitive](https://github.com/fogleman/primitive) 使用几何基元再现图像。提供目标图像作为输入。该算法试图找到可以绘制的单个最佳形状,以最大程度地减少目标图像和绘制图像之间的误差。它重复此过程,一次添加一个形状。大约需要 50 到 200 个形状才能达到可识别但又具有艺术性和抽象性的结果。由于该算法具有随机组件,因此您可以多次针对同一输入图像运行它,以使静态图像栩栩如生。特征:爬坡或模拟退火进行优化(爬坡多个随机形状几乎与退火一样好,而且速度更快);在纯 Go 中对形状进行扫描线光栅化(更适合实现以下功能);基于每个形状的受影响像素的最佳颜色计算(颜色是直接计算的,而不是优化的);部分图像差异,可加快评分速度(仅需要考虑变化的像素);抗锯齿输出渲染。
## 多模态大模型
* [microsoft/unilm/layoutlm](https://github.com/microsoft/unilm/tree/master/layoutlm) 多模态预训练模型 LayoutLM 2.0,不仅考虑了文本和页面布局信息,还将图像信息融合到了多模态框架内。下游任务微调:表单理解 票据理解 复杂布局长文档理解 文档图像分类 视觉问答
* [LargeWorldModel/LWM](https://github.com/LargeWorldModel/LWM) 大世界模型(LWM)是一种通用的大上下文多模态自回归模型。它使用 RingAttention 在包含各种长视频和书籍的大型数据集上进行训练,可以执行语言、图像和视频的理解和生成。当前的语言模型在理解世界不容易用语言描述的方面存在不足,并且难以完成复杂的长篇任务。视频序列提供了语言和静态图像中不存在的有价值的时间信息,使其对于与语言的联合建模具有吸引力。这样的模型可以发展对人类文本知识和物理世界的理解,从而实现更广泛的人工智能能力来协助人类。然而,由于内存限制、计算复杂性和有限的数据集,从数以百万计的视频和语言序列中学习带来了挑战。为了应对这些挑战,我们策划了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展的训练,并逐渐将上下文大小从 4K 增加到 1M 令牌。本文做出了以下贡献:(a)最大的上下文大小神经网络:我们在长视频和语言序列上训练了最大的上下文大小转换器之一,在困难的检索任务和长视频理解方面设定了新的基准。(b) 克服视觉语言训练挑战的解决方案,包括使用掩码序列打包来混合不同的序列长度,使用失权来平衡语言和视觉,以及使用模型生成的QA数据集进行长序列聊天。(c) 高度优化的实现,具有 RingAttention、屏蔽序列打包和其他关键功能,用于训练数百万长度的多模态序列。(d) 完全开源的7B参数模型系列,能够处理超过100万个令牌的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。 这项工作为在长视频和语言的海量数据集上进行训练铺平了道路,以发展对人类知识和多模态世界的理解,以及更广泛的能力。
* [mlfoundations/open_flamingo](https://github.com/mlfoundations/open_flamingo) 用于训练大型多模态模型的开源框架。DeepMind Flamingo模型的开源版本。提供了用于训练和评估模型的PyTorch 实现。还提供了在新的多模式 C4 数据集上训练的初始 9B 模型。
* [https://github.com/SoraWebui/SoraWebui](https://github.com/SoraWebui/SoraWebui) SoraWebui 是一个开源的 Sora Web 客户端,使用户能够使用 OpenAI 的 Sora 模型轻松地从文本创建视频。简化视频创建,具有简单的一键式网站部署功能。使用SoraWebui,任何人都可以通过简单地输入文本来创建视频,使其成为视频制作和AI技术的专业人士和爱好者的可访问工具。
* [harry0703/MoneyPrinterTurbo](https://github.com/harry0703/MoneyPrinterTurbo) 利用AI大模型,一键生成高清短视频。只需提供一个视频主题或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。功能特性:完整的MVC架构,代码 结构清晰,易于维护,支持API和Web界面; 支持视频文案 AI自动生成,也可以自定义文案; 支持多种高清视频尺寸; 竖屏 9:16,1080x1920、 横屏 16:9,1920x1080; 支持 批量视频生成,可以一次生成多个视频,然后选择一个最满意的; 支持 视频片段时长 设置,方便调节素材切换频率; 支持中文和英文视频文案; 支持 多种语音 合成,可实时试听效果; 支持 字幕生成,可以调整;字体、位置、颜色、大小,同时支持字幕描边设置; 支持 背景音乐,随机或者指定音乐文件,可设置背景音乐音量; 视频素材来源 高清,而且 无版权,也可以使用自己的 本地素材; 支持 OpenAI、Moonshot、Azure、gpt4free、one-api、通义千问、Google Gemini、Ollama、 DeepSeek、 文心一言 等多种模型接入;中国用户建议使用 DeepSeek 或 Moonshot 作为大模型提供商。
* [haotian-liu/LLaVA](https://github.com/haotian-liu/LLaVA) 面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。
* [BradyFU/Awesome-Multimodal-Large-Language-Models](https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models) 多模态大型语言模型的最新论文和数据集
* [THUDM/VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B) 多模态中英双语对话语言模型
* [DAMO-NLP-SG/M3Exam](https://github.com/DAMO-NLP-SG/M3Exam) 一种新颖的基准,来自真实和官方的人类考试问题,用于在多语言,多模态和多层次的背景下评估LLM。
* [NExT-GPT/NExT-GPT](https://github.com/NExT-GPT/NExT-GPT) 任意多模态大语言模型,第一个端到端MM-LLM,可感知输入并以文本,图像,视频和音频等的任意组合(任意对任意)生成输出。NExt-GPT建立在现有的预训练LLM,多模态编码器和SoTA扩散模型之上,具有足够的端到端指令调谐。`1. 多模态编码阶段。`利用已建立的编码器以各种模式对输入进行编码,其中这些表示通过投影层投影为LLM可理解的类似语言的表示。`2. LLM理解和推理阶段。`利用现有的开源LLM作为核心来处理语义理解和推理的输入信息。LLM不仅直接生成文本标记,而且还生成独特的“模态信号”标记,这些令牌作为指令来指示解码层是否以及相应地输出什么模态内容。`3. 多模式生成阶段。`基于变压器的输出投影层通过来自LLM(如果有)的特定指令接收多模态信号,将信号令牌表示映射到以下多模态解码器可以理解的表示中。
* [OpenBMB/VisCPM](https://github.com/OpenBMB/VisCPM) 基于CPM基础模型的中英双语多模态大模型系列。支持面向图像进行中英双语多模态对话。该模型使用Muffin视觉编码架构,使用CPM-Bee(10B)作为语言基座模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段:`1.预训练`:我们使用约100M高质量英文图文对数据对VisCPM-Chat进行了预训练,数据包括CC3M、CC12M、COCO、Visual Genome、Laion等。在预训练阶段,语言模型参数保持固定,仅更新视觉编码器的参数,以支持大规模视觉-语言表示的高效对齐。`2.指令精调`:采用LLaVA-150K英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,更新全部模型参数,以提升指令精调数据的利用效率。有趣的是,发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。表明模型的多语言多模态能力已得到良好泛化。在指令精调阶段进一步加入少量中文翻译数据,可以将模型回复语言和用户问题语言对齐。
* [X-PLUG/mPLUG-Owl](https://github.com/X-PLUG/mPLUG-Owl) 模块化赋能多模态大型语言模型,一种针对大型多模态语言模型的模块化设计的新训练范式。学习视觉知识,同时支持由不同形式(图像/视频/文本)组成的多回合对话。观察能力,如多图像关联和场景文本理解,基于视觉的文档理解。发布与视觉相关的指令评估集 OwlEval。
* [airaria/Visual-Chinese-LLaMA-Alpaca](https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca) 基于中文LLaMA&Alpaca模型开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力。
* [alpha-vllm/lumina-t2x](https://github.com/alpha-vllm/lumina-t2x) Lumina-T2X是一个统一的框架,用于文本到任何模态生成。一系列文本条件扩散转换器 (DiT),能够将文本描述转换为生动的图像、动态视频、详细的多视图 3D 图像和合成语音。Lumina-T2X的核心是基于流量的大扩散变压器(Flag-DiT)——一个强大的引擎,支持多达70亿个参数,并将序列长度扩展到128,000个令牌。Lumina-T2X从Sora中汲取灵感,将图像,视频,3D对象的多视图和语音频谱图集成在时空潜在标记空间中,并且可以生成任何分辨率,纵横比和持续时间的输出。
* [Skyvern-AI/skyvern](https://github.com/Skyvern-AI/skyvern) 使用LLMs计算机视觉自动执行基于浏览器的工作流。Skyvern 使用LLMs计算机视觉自动执行基于浏览器的工作流程。它提供了一个简单的 API 端点,可以完全自动化大量网站上的手动工作流程,取代脆弱或不可靠的自动化解决方案。Skyvern 不仅依赖于代码定义的 XPath 交互,还依赖于计算机视觉和LLMs混合的提示来实时解析视口中的项目,创建交互计划并与之交互。这种方法为我们提供了一些优点:Skyvern 可以在以前从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何自定义代码;Skyvern 可以抵抗网站布局更改,因为在尝试导航时,我们的系统没有预先确定的 XPaths 或其他选择器;Skyvern 能够采用单个工作流程并将其应用于大量网站,因为它能够通过完成工作流程所需的交互进行推理;Skyvern LLMs 利用交互进行推理,以确保我们能够涵盖复杂的情况。
* [YangLing0818/RPG-DiffusionMaster](https://github.com/YangLing0818/RPG-DiffusionMaster) RPG采用先进的大语言模型(LLM)来提升对图像生成的文字提示的理解,将图像分解为不同的部分或区域。RPG是一种强大的免训练范式,可以利用专有的MLLM(如GPT-4、Gemini-Pro)或开源的本地MLLM(如miniGPT-4)作为提示的字幕重配和区域规划器,通过我们的互补区域扩散来实现SOTA文本到图像的生成和编辑。我们的框架非常灵活,可以推广到任意MLLM架构和扩散主干网。RPG还能够生成超高分辨率的图像。高度准确的图像生成: RPG框架能够根据复杂的描述生成高度准确和详细的图像,尤其在处理包含多个对象、属性和关系的场景时表现出色,生成的图像与文本描述高度一致。超越现有技术: 与现有的文本到图像模型相比,RPG框架展现了更好的性能,尤其在处理多元素组合和文本-图像语义对齐方面。灵活性和广泛适用性: 实验表明,RPG框架能够与不同的多模态大型语言模型和扩散模型兼容,适用于多种图像生成场景。提升质量和细节: 生成的图像不仅在视觉上吸引人,而且细节丰富,对于艺术创作、设计和娱乐等领域至关重要。RPG框架还能够处理复杂的交互和环境,生成的图像在构图和细节方面表现出色。
* [LinkSoul-AI/LLaSM](https://github.com/LinkSoul-AI/LLaSM) 第一个支持中英文语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。
* [microsoft/i-Code](https://github.com/microsoft/i-Code) 构建集成和可组合的多模态人工智能。“i”代表综合多模态学习。
* [VPGTrans/VPGTrans](https://github.com/VPGTrans/VPGTrans) 跨LLM传输视觉提示生成器,实现极低成本训练一个高性能多模态大模型。从头开始训练一个视觉-语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。现有的常用的VL-LLM基本采取的架构:VPG(比如1.2B)->Projector(4M)->LLM(比如11B),在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector)。在训练过程中,LLM参数一般不会被更新,或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调。(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。(2)第二阶段:直接正常训练VPG和projector。
* [0nutation/SpeechGPT](https://github.com/0nutation/SpeechGPT) 为大型语言模型提供内在的跨模态对话能力。具有固有跨模态对话能力的大型语言模型,能够按照人类指令感知和生成多模型内容。对于离散语音表示,我们首先构建了SpeechInstruct,这是一个大规模的跨模态语音指令数据集。此外,我们采用三阶段训练策略,包括模态适应预训练、跨模态指令微调和模态链指令微调。实验结果表明,SpeechGPT具有令人印象深刻的遵循多模态人类指令的能力,并突出了用一个模型处理多种模态的潜力。
* [luogen1996/LaVIN](https://github.com/luogen1996/LaVIN) 提出了一种新颖且经济实惠的视觉语言教学调整解决方案,即模态混合自适应(MMA)。MA是一种端到端的优化机制,它通过轻量级适配器连接图像编码器和LLM。同时,还提出了MMA路由算法,可以帮助模型自动移动单模态和多模态指令的推理路径。基于MMA,开发了LaVIN的大型视觉语言指导模型,该模型在各种指令遵循任务中表现出比现有多模态LLM更高的训练效率和更好的推理能力。
* [DLYuanGod/TinyGPT-V](https://github.com/DLYuanGod/TinyGPT-V) 通过小骨干网实现高效的多模态大型语言模型,性能已经达到了 InstructBLIP 性能的 98%
* [unum-cloud/uform](https://github.com/unum-cloud/uform) 袖珍型多模态 AI,用于跨多语言文本、图像和视频的内容理解和生成,比 OpenAI CLIP 和 LLaVA 快 5 倍
* [yxuansu/PandaGPT](https://github.com/yxuansu/PandaGPT) 第一个能够跨六种模式的指令遵循数据的基础模型,而无需明确的监督。它展示了多种多模态功能,例如复杂的理解/推理、基于知识的描述和多回合对话。PandaGPT 是一种通用的指令遵循模型,既能看又能听。可以执行复杂的任务,例如生成详细的图像描述、编写受视频启发的故事以及回答有关音频的问题。更有趣的是,PandaGPT 可以同时接受多模态输入并自然地组成它们的语义。例如,PandaGPT 可以连接对象在照片中的外观以及它们在音频中的声音。
* [RunpeiDong/DreamLLM](https://github.com/RunpeiDong/DreamLLM) 一个学习框架,它首先实现了多功能的多模态大语言模型(MLLM),它赋予了多模态理解和创造之间经常被忽视的协同作用。DreamLLM基于两个基本原则运作。第一个侧重于通过在原始多模态空间中直接采样来对语言和图像后验进行生成建模。其次,DreamLLM促进了原始交错文档的生成,对文本和图像内容以及非结构化布局进行了建模。一个零样本多模态通才,能够理解和创造。
* [dvlab-research/MGM](https://github.com/dvlab-research/MGM) 多模态大语言模型Mini-Gemini,它采用双视觉编码器,分别提供低分辨率的视觉嵌入和高分辨率的候选区域;提出了一种区域信息挖掘方法,用于在高分辨率区 域与低分辨率视觉查询之间进行像素级挖掘;利用大规模语言模型(MLM) 同时实现文本与图像的理解和生成。该框架支持从2B到34B的一系列密集和MoE大型语言模型(LLMs),同时进行图像理解、推理和生成。我们基于 LLaVA 构建此存储库。
* [OthersideAI/self-operating-computer](https://github.com/OthersideAI/self-operating-computer) 使多模态模型能够操作计算机的框架。使用与人类操作员相同的输入和输出,模型查看屏幕并决定一系列鼠标和键盘操作以达到目标。主要特点:兼容性:专为各种多模式模型而设计。集成:目前与 GPT-4v、Gemini Pro Vision、Claude 3 和 LLaVa 集成。未来计划:支持其他型号。
* [MMInstruction/M3IT](https://huggingface.co/datasets/MMInstruction/M3IT) 我们的数据集汇集了经典视觉语言任务的各种任务,包括字幕、视觉问答~(VQA)、视觉条件生成、推理和分类。英文和中文。80 翻译版本可在 M3IT-80 找到。
* [open-compass/VLMEvalKit](https://github.com/open-compass/VLMEvalKit) 大型视觉语言模型 (LVLM) 的开源评估工具包,支持 ~100 个 VLM,30+ 基准测试。VLMEvalKit(python 包名称为 vlmeval)是大型视觉语言模型 (LVLM) 的开源评估工具包。它支持在各种基准测试下对 LVLM 进行单命令评估,而无需在多个存储库下进行繁重的数据准备工作量。在VLMEvalKit中,我们对所有LVLM都采用基于生成的评估,并提供通过精确匹配和LLM基于答案提取获得的评估结果。
* [opendilab/LMDrive](https://github.com/opendilab/LMDrive) 使用大型语言模型实现闭环端到端驾驶。一个端到端、闭环、基于语言的自动驾驶框架,通过多模态多视图传感器数据和自然语言指令与动态环境进行交互。我们的目标是开发一种智能驾驶智能体,该智能体可以基于三个输入源生成驾驶动作:1)传感器数据(多视角摄像头和激光雷达),使智能体能够生成感知并符合当前场景的动作;2)导航指令(例如变道、转弯),以便智能体可以驾驶以满足自然语言的要求(来自人类或导航软件的指令);3)人类注意指令,使智能体能够与人类互动,适应人类的建议和偏好(例如注意对抗性事件,处理长尾事件等)。
* [OpenMOSS/AnyGPT](https://github.com/OpenMOSS/AnyGPT) 一种任意对任意的多模态语言模型,它利用离散表示来统一处理各种模态,包括语音、文本、图像和音乐。基本模型对齐了四种模态,允许在不同模态和文本之间进行多模态转换。此外,我们构建了基于各种生成模型的 AnyInstruct 数据集,其中包含任意模态互换的指令。在这个数据集上训练,我们的聊天模型可以进行自由的多模态对话,其中可以随意插入多模态数据。AnyGPT 提出了一种生成训练方案,该方案将所有模态数据转换为统一的离散表示,使用 Next Token Prediction 任务在大型语言模型 (LLM) 上进行统一训练。从“压缩就是智能”的角度来看:当 Tokenizer 的质量足够高,而 Tokenizer 的困惑度 (PPL) LLM 足够低时,就可以将互联网上的大量多模态数据压缩到同一个模型中,从而涌现出纯文本中LLM不存在的功能。
* [SHI-Labs/CuMo](https://github.com/SHI-Labs/CuMo) LLM通过共同升级再造的专家组合扩展多模式。将 Co-upcycled Top-K 稀疏门控专家混合模块整合到视觉编码器和 MLP 连接器中,从而增强了多模态的能力LLMs。我们进一步采用辅助损失的三阶段培训方法,以稳定培训过程并保持专家的平衡负载。CuMo 在开源数据集上进行了专门训练,LLMs并在多个 VQA 和可视化指令跟踪基准上实现了与其他最先进的多模态相当的性能。
* [Luodian/Otter](https://github.com/Luodian/Otter) 基于 OpenFlamingo(DeepMind 的 Flamingo 的开源版本)的多模态模型,在 MIMIC-IT 上进行了训练,并展示了改进的指令遵循和上下文学习能力。
* [baaivision/Emu](https://github.com/baaivision/Emu) BAAI的生成式多模态模型,人类在上下文中轻松解决多模态任务的能力(即,只需一些演示或简单的指令),是当前的多模态系统在很大程度上难以模仿的。在这项工作中,我们证明了大型多模态模型的任务无关的上下文学习能力可以通过有效的扩展得到显着增强。我们引入了 Emu2,这是一个具有 370 亿个参数的生成多模态模型,在具有统一自回归目标的大规模多模态序列上进行训练。Emu2 表现出强大的多模态上下文学习能力,甚至可以解决需要即时推理的任务,例如视觉提示和基于对象的生成。该模型在少样本设置下的多个多模态理解任务上创造了新纪录。当指令调整为遵循特定指令时,Emu2 在具有挑战性的任务上进一步实现了新的最先进的技术,例如大型多模态模型的问答基准和开放式主题驱动的生成。这些成就表明,Emu2可以作为各种多模态任务的基础模型和通用接口。
* [NVlabs/VILA](https://github.com/NVlabs/VILA) VILA - 一种具有训练、推理和评估配方的多图像视觉语言模型,可从云部署到边缘(Jetson Orin 和笔记本电脑)。VILA 是一种视觉语言模型 (VLM),使用大规模交错的图文数据进行预训练,可实现视频理解和多图像理解能力。VILA 可通过 AWQ 4bit 量化和 TinyChat 框架在边缘部署。我们发现:(1)图文对是不够的,交错的图文是必不可少的;(2)交错图文预训练中的解冻LLM使上下文学习成为可能;(3)重新混合纯文本指令数据对于提高VLM和纯文本性能至关重要;(4) 令牌压缩扩展 #video 帧。VILA展示了吸引人的功能,包括:视频推理、上下文学习、视觉思维链和更好的世界知识。
## 其他_机器视觉
* [opencv/opencv](https://github.com/opencv/opencv) 开源计算机视觉库
* [taichi-dev/taichi](https://github.com/taichi-dev/taichi) 高效且可移植的 Python 高性能编程。该语言具有广泛的应用,包括实时物理模拟、数字计算、增强现实、人工智能、视觉和机器人技术、电影和游戏中的视觉效果、通用计算等等。
* [blender/blender](https://github.com/blender/blender) Blender的官方镜像,免费的开源 3D 创作套件。它支持整个 3D 管线建模、绑定、动画、模拟、渲染、合成、运动跟踪和视频编辑。
* [open-mmlab/mmcv](https://github.com/open-mmlab/mmcv) MMCV 是计算机视觉研究的基础库,它提供以下功能:通用 IO API、图像/视频处理、图像和注释可视化、有用的实用程序(进度条,计时器,...)、具有挂钩机制的 PyTorch runner、各种CNN架构、CPU 和 CUDA 操作的高质量实现。
* [ArduPilot/ardupilot](https://github.com/ArduPilot/ardupilot) 最先进、功能最全、最可靠的开源自动驾驶软件。自 2010 年以来,它一直由专业工程师、计算机科学家和社区贡献者组成的多元化团队开发。我们的自动驾驶软件能够控制几乎任何可以想象的车辆系统,从传统飞机、四架飞机、多旋翼和直升机到漫游车、船只、平衡机器人,甚至潜艇。它正在不断扩展,为新的车辆类型提供支持。
* [Stability-AI/stablediffusion](https://github.com/Stability-AI/stablediffusion) 具有潜在扩散模型的高分辨率图像合成
* [Stability-AI/generative-models](https://github.com/Stability-AI/generative-models) 文本到图像模型\图像到视频的模型。发布 SDXL-Turbo,这是一款闪电般快速的文本到图像模型。 Stable Video Diffusion,一种图像到视频的模型。SDXL-base-0.9 :在分辨率为 1024^2 的图像上,对基础模型进行了各种纵横比的训练。基本模型使用 OpenCLIP-ViT/G 和 CLIP-ViT/L 进行文本编码,而精简模型仅使用 OpenCLIP 模型。SDXL-refiner-0.9 :精简器已经过训练,可以对高质量数据的小噪声水平进行降噪,因此不应用作文本到图像模型;相反,它只能用作图像到图像模型。
* [hua1995116/awesome-ai-painting](https://github.com/hua1995116/awesome-ai-painting) AI绘画资料合集(包含国内外可使用平台、使用教程、参数教程、部署教程、业界新闻等等)
* [YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy](https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy) 扩散模型论文、调查和分类法
* [comfyanonymous/ComfyUI](https://github.com/comfyanonymous/ComfyUI) 功能最强大、模块化最稳定的扩散 GUI,带有图形/节点界面。特征:节点/图形/流程图界面,无需编写任何代码即可试验和创建复杂的稳定扩散工作流程。完全支持 SD1.x、SD2.x、SDXL 和稳定的视频扩散。许多优化:仅重新执行在执行之间更改的工作流部分。命令行选项: --lowvram 使其在 vram 小于 3GB 的 GPU 上运行(在 vram 较低的 GPU 上自动启用)。即使您没有具有以下功能的 GPU,也能正常工作: --cpu (慢速)。可以加载 ckpt、safetensor 和扩散器模型/检查点。独立的 VAE 和 CLIP 型号。嵌入/文本反转。Loras(常规、locon 和 loha)。超网络。从生成的 PNG 文件加载完整的工作流(带有种子)。将工作流保存/加载为 Json 文件。节点接口可用于创建复杂的工作流程,例如用于 Hires 修复或更高级的工作流程。区域构成。使用常规模型和修复模型进行修复。ControlNet 和 T2I 适配器。高档型号(ESRGAN、ESRGAN 变体、SwinIR、Swin2SR 等)。unCLIP 型号。GLIGEN。模型合并。LCM 模型和 Loras。SDXL 涡轮增压。使用 TAESD 进行潜在预览。启动速度非常快。完全离线工作:永远不会下载任何内容。配置文件来设置模型的搜索路径。
* [6174/comflowy](https://github.com/6174/comflowy) 借助 ComfyUI 和 Stable Diffusion 释放无限可能,致力于打造精炼的 AI-Gen 工具,并为开发者和用户培养一个充满活力的社区。这个社区可以提供什么:更全面、更系统的 Stable Diffusion & ComfyUI 教程;通过 Discord 社区进行互动讨论;工作流和模型内容的数据库:ComfyUI 的重要价值在于它能够共享或导入工作流。Better ComfyUI 的开源版本Comflowyspace。
* [lllyasviel/Fooocus](https://github.com/lllyasviel/Fooocus) 图像生成软件(基于Gradio)。对 Stable Diffusion 和 Midjourney 设计的重新思考:从 Stable Diffusion 中学习,该软件是离线、开源和免费的。从Midjourney中学习,不需要手动调整,用户只需要专注于提示和图像。
* [diff-usion/Awesome-Diffusion-Models](https://github.com/diff-usion/Awesome-Diffusion-Models) 关于扩散模型的资源和论文集
* [cumulo-autumn/StreamDiffusion](https://github.com/cumulo-autumn/StreamDiffusion) 用于实时交互生成图片的流水线级解决方案,创新的扩散管道,专为实时交互式生成而设计。它为当前基于扩散的图像生成技术引入了显著的性能增强。主要特点:流批处理,通过高效的批处理操作简化数据处理。无残差分类器指南,改进的引导机制,可最大限度地减少计算冗余。随机相似性过滤器,通过高级过滤技术提高 GPU 利用率。队列,高效管理输入和输出操作,实现更顺畅的执行。KV 缓存的预计算,优化缓存策略以加速处理。模型加速工具,利用各种工具进行模型优化和性能提升。
* [huggingface/diffusers](https://github.com/huggingface/diffusers) 用于在 PyTorch 中生成图像和音频的最先进的扩散模型,用于生成分子的图像、音频甚至 3D 结构。无论您是在寻找简单的推理解决方案还是训练自己的扩散模型,扩散器都是一个支持两者的模块化工具箱。我们的库的设计侧重于可用性而不是性能,简单而不是简单,以及可定制性而不是抽象。扩散器提供三个核心组件:最先进的扩散管道,只需几行代码即可在推理中运行。可互换的噪声调度器,用于不同的扩散速度和输出质量。预训练模型,可用作构建块,并与调度程序结合使用,用于创建您自己的端到端扩散系统。
* [Stability-AI/StableStudio](https://github.com/Stability-AI/StableStudio) Stability AI 的官方开源版本 DreamStudio,这是我们用于生成式 AI 的用户界面。基于 Web 的应用程序,允许用户创建和编辑生成的图像。
* [TheRamU/Fay](https://github.com/TheRamU/Fay) Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。
* [borisdayma/dalle-mini](https://github.com/borisdayma/dalle-mini) DALL·E Mini - 从文本提示生成图像
* [lucidrains/DALLE-pytorch](https://github.com/lucidrains/DALLE-pytorch) 在Pytorch中实现/复制DALL-E,OpenAI的文本到图像转换器
* [ashawkey/stable-dreamfusion](https://github.com/ashawkey/stable-dreamfusion) 文本到3D和图像到3D和网格导出与NeRF +扩散。
* [camenduru/stable-diffusion-webui-colab](https://github.com/camenduru/stable-diffusion-webui-colab) 稳定的扩散 Webui colab
* [facebookresearch/AnimatedDrawings](https://github.com/facebookresearch/AnimatedDrawings) 旨在成为一个有用的创意工具,让您可以灵活地创建以自己绘制的角色为主角的动画。
* [tencent-ailab/IP-Adapter](https://github.com/tencent-ailab/IP-Adapter) 图像提示适配器旨在使预训练的文本到图像扩散模型能够生成具有图像提示的图像。
* [KwaiVGI/LivePortrait](https://github.com/KwaiVGI/LivePortrait) 有拼接和重定向控制的高效肖像动画。摒弃了主流的基于扩散的方法,探索并扩展了基于隐式关键点的框架的潜力,该框架有效地平衡了计算效率和可控性。在此基础上,我们开发了一个名为 LivePortrait 的视频驱动人像动画框架,重点是在实际使用中实现更好的泛化、可控性和效率。为了提高生成质量和泛化能力,我们将训练数据放大到约6900万帧的高质量帧,采用混合图视频训练策略,升级网络架构,设计更好的运动变换和优化目标。此外,我们发现紧凑的隐式关键点可以有效地表示一种混合形状,并精心提出了一个拼接模块和两个重定向模块,这些模块利用一个计算开销可以忽略不计的小 MLP 来增强可控性。实验结果表明,与基于扩散的方法相比,我们的框架也具有有效性。在配备 PyTorch 的 RTX 4090 GPU 上,生成速度显着达到 12.8ms。第一阶段的流水线:基础模型训练,优化了外观和运动提取器、变形模块和解码器,在此阶段,模型是从头开始训练的;第二阶段的管道:拼接和重定向模块培训,在第一阶段训练基础模型后,我们冻结了外观和运动提取器、变形模块和解码器,在第二阶段,只有拼接模块和重定向模块进行了优化。
* [willwulfken/MidJourney-Styles-and-Keywords-Reference](https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference) 包含可用于 MidJourney AI 的样式和关键字的参考。还有一些页面显示分辨率比较、图像权重等等!
* [ChenyangSi/FreeU](https://github.com/ChenyangSi/FreeU/tree/main) 免费大幅提高扩散模型样本质量的方法:无需训练,无需引入其他参数,也不会增加内存或采样时间。
* [HumanAIGC/AnimateAnyone](https://github.com/HumanAIGC/AnimateAnyone) 为任何人制作动画:用于角色动画的一致且可控的图像到视频合成
* [magic-research/magic-animate](https://github.com/magic-research/magic-animate) 使用扩散模型进行时间一致的人体图像动画,基于扩散的人体图像动画框架,旨在增强时间一致性,忠实地保留参考图像,并提高动画保真度。
* [lucidrains/DALLE2-pytorch](https://github.com/lucidrains/DALLE2-pytorch) 在 Pytorch 中实现 DALL-E 2,OpenAI 更新的文本到图像合成神经网络
* [apple/ml-stable-diffusion](https://github.com/apple/ml-stable-diffusion) 在 Apple 芯片上使用 Core ML 实现稳定扩散
* [3DTopia/LGM](https://github.com/3DTopia/LGM) 用于高分辨率 3D 内容创建的大型多视图高斯模型。推理大约需要 10GB GPU 内存(加载所有 imagedream、mvdream 和我们的 LGM)。
* [geekyutao/Inpaint-Anything](https://github.com/geekyutao/Inpaint-Anything) 使用 Segment Anything 和 inpainting 模型绘制任何内容。用户可以通过单击来选择图像中的任何对象。凭借强大的视觉模型,例如 SAM、LaMa 和稳定扩散 (SD),Inpaint Anything 能够顺利地去除物体(即去除任何东西)。此外,在用户输入文本的提示下,Inpaint Anything 可以用任何所需的内容填充对象(即 Fill Anything)或任意替换它的背景(即 Replace Anything)。
* [divamgupta/diffusionbee-stable-diffusion-ui](https://github.com/divamgupta/diffusionbee-stable-diffusion-ui) 适用于 MacOS 的Stable Diffusion GUI 应用程序
* [luosiallen/latent-consistency-model](https://github.com/luosiallen/latent-consistency-model) 潜在一致性模型:使用几步推理合成高分辨率图像。
* [modelscope/DiffSynth-Studio](https://github.com/modelscope/DiffSynth-Studio) 享受 Diffusion 模型的魔力!DiffSynth Studio 是一个扩散引擎。我们重组了包括 Text Encoder、UNet、VAE 等在内的架构,保持了与开源社区模型的兼容性,同时提高了计算性能。我们提供了许多有趣的功能。享受 Diffusion 模型的魔力!到目前为止,DiffSynth Studio 支持以下模型:ExVideo,Kolors,Stable Diffusion 3,Stable Video Diffusion,Hunyuan-DiT,RIFE,ESRGAN,Ip-Adapter,AnimateDiff,ControlNet,Stable Diffusion XL,Stable Diffusion
* [cbh123/emoji](https://github.com/cbh123/emoji) 使用 AI 为 Slack 制作表情符号
* [ali-vilab/VGen](https://github.com/ali-vilab/VGen) VGen是由阿里巴巴集团同义实验室开发的开源视频合成代码库,采用最先进的视频生成模型。此存储库包括以下方法的实现:I2VGen-xl:通过级联扩散模型实现高质量图像到视频合成;VideoComposer:具有运动可控性的合成视频合成;面向文本转视频生成的分层时空解耦;使用无文本视频扩大文本到视频生成的秘诀;InstructVideo:使用人工反馈指导视频扩散模型;DreamVideo:使用自定义主题和动作组成您的梦想视频;VideoLCM:视频潜在一致性模型;Modelscope文字转视频技术报告。VGen 可以从输入文本、图像、所需的运动、所需的主题甚至提供的反馈信号中生成高质量的视频。它还提供了各种常用的视频生成工具,例如可视化、采样、训练、推理、使用图像和视频的联接训练、加速等。
* [OpenAI/CLIP](https://github.com/OpenAI/CLIP) 对比语言图像预训练
* [mlfoundations/open_clip](https://github.com/mlfoundations/open_clip) CLIP (对比语言-图像预训练)的开源实现。在各种数据源和计算预算上训练了多个模型,从小规模实验到大型运行,包括在 LAION-400M、LAION-2B 和 DataComp-1B 等数据集上训练的模型。在论文中详细研究了我们的许多模型及其缩放特性,用于对比语言图像学习的可重复缩放定律。此存储库专注于训练 CLIP 模型。要在下游分类任务(如 ImageNet)上微调经过训练的零样本模型,请参阅我们的其他存储库:WiSE-FT。WiSE-FT 存储库包含我们关于零样本模型的鲁棒微调的论文的代码,其中我们介绍了一种微调零样本模型的技术,同时在分布偏移下保持鲁棒性。
* [yangjianxin1/CLIP-Chinese](https://github.com/yangjianxin1/CLIP-Chinese) 中文多模态对比学习预训练模型 ,可获取140w中文图文对预训练数据,以及中文CLIP预训练权重。下游任务:图文相似度计算、文本相似度计算、图片相似度计算
* [jina-ai/clip-as-service](https://github.com/jina-ai/clip-as-service) 使用 CLIP 对图像和句子进行可扩展的嵌入、推理和排名。一种低延迟、高可扩展性的服务,用于嵌入图像和文本。它可以作为微服务轻松集成到神经搜索解决方案中。`快速`:使用 TensorRT、ONNX 运行时和 PyTorch 提供 CLIP 模型,而无需 JIT,速度为 800QPS。请求和响应的无阻塞双工流,专为大数据和长时间运行的任务而设计。`弹性`:在单个 GPU 上水平扩展和缩减多个 CLIP 模型,并具有自动负载均衡功能。`易于使用`:没有学习曲线,客户端和服务器上的极简设计。直观且一致的 API,用于图像和句子嵌入。`新式`:异步客户端支持。使用 TLS 和压缩在 gRPC、HTTP、WebSocket 协议之间轻松切换。`集成`:与神经搜索生态系统(包括 Jina 和 DocArray)平滑集成。立即构建跨模式和多模式解决方案。
* [lllyasviel/ControlNet](https://github.com/lllyasviel/ControlNet) 让我们控制扩散模型!ControlNet 是一种神经网络结构,通过添加额外条件来控制扩散模型。
* [Stability-AI/StableCascade](https://github.com/Stability-AI/StableCascade) 该模型建立在 Würstchen 架构之上,它与其他模型(如 Stable Diffusion)的主要区别在于它在更小的潜在空间上工作。为什么这很重要?潜在空间越小,推理运行速度就越快,训练成本就越低。潜空间有多小?Stable Diffusion 使用 8 的压缩系数,导致 1024x1024 图像被编码为 128x128。Stable Cascade 实现了 42 的压缩系数,这意味着可以将 1024x1024 图像编码为 24x24,同时保持清晰的重建。然后,在高度压缩的潜在空间中训练文本条件模型。该架构的早期版本比 Stable Diffusion 1.5 降低了 16 倍的成本。因此,这种模型非常适合效率重要的用途。此外,所有已知的扩展,如微调、LoRA、ControlNet、IP 适配器、LCM 等也可以使用这种方法。其中一些已经在训练和推理部分提供(微调、ControlNet、LoRA)。此外,Stable Cascade 在视觉和评估方面都取得了令人印象深刻的结果。根据我们的评估,在几乎所有比较中,Stable Cascade 在快速对齐和美学质量方面都表现最佳。Stable Cascade 对效率的关注体现在其架构和更高的压缩潜在空间上。模型概述:稳定级联由三个模型组成:A级、B级和C级,代表用于生成图像的级联,因此得名“稳定级联”。A阶段和B阶段用于压缩图像,类似于VAE在稳定扩散中的工作。但是,如前所述,通过此设置,可以实现更高的图像压缩。此外,阶段 C 负责在给定文本提示的情况下生成小型 24 x 24 潜伏。请注意,阶段A是VAE,阶段B和C都是扩散模型。
* [Mikubill/sd-webui-controlnet](https://github.com/Mikubill/sd-webui-controlnet) 适用于 ControlNet 的 WebUI 扩展
* [facebookresearch/DiT](https://github.com/facebookresearch/DiT) 带变压器的可扩展扩散模型 (DiT)。我们训练潜扩散模型,用在潜伏补丁上运行的变压器取代常用的U-Net主干网。我们通过Gflops测量的前向传递复杂性来分析扩散变压器(DiTs)的可扩展性。我们发现,具有较高 Gflops 的 DiT---通过增加转换器深度/宽度或增加输入令牌数量---始终具有较低的 FID。除了良好的可扩展性外,我们的 DiT-XL/2 模型在类条件 ImageNet 512×512 和 256×256 基准测试上优于所有先前的扩散模型,在后者上实现了 2.27 的先进 FID。
* [jexom/sd-webui-depth-lib](https://github.com/jexom/sd-webui-depth-lib) 深度图库,用于 Automatic1111/stable-diffusion-webui 的控制网扩展
* [Nutlope/roomGPT](https://github.com/Nutlope/roomGPT) 上传您的房间照片,使用 AI 生成您的梦想房间。使用称为ControlNet的ML模型来生成房间的变化。此应用程序使您能够上传任何房间的照片,该照片将使用 Next.js API 路由通过此 ML 模型发送照片,并返回生成的房间。
* [princeton-vl/infinigen](https://github.com/princeton-vl/infinigen) 使用程序生成的无限逼真世界
* [jbilcke-hf/ai-comic-factory](https://github.com/jbilcke-hf/ai-comic-factory) 使用 LLM + SDXL 生成漫画面板。
* [SawyerHood/draw-a-ui](https://github.com/SawyerHood/draw-a-ui) 使用 tldraw 和 gpt-4-vision api 根据您绘制的线框生成 html 的应用程序。
* [XingangPan/DragGAN](https://github.com/XingangPan/DragGAN) 拖动 GAN:基于点操作的交互式图像流形生成
* [OFA-Sys/OFA](https://github.com/OFA-Sys/OFA) 统一的序列到序列预训练模型(支持中英文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO 第一) ), VQA (链接),视觉基础,文本到图像生成,文本分类,文本生成,图像分类等。
* [openai/consistency_models](https://github.com/openai/consistency_models) 一致性模型的官方存储库。Diffusion Models 在生成一张图片时需要多次进行模型推理,对于实时性较强的应用,就很难让人满意了。这篇文章所claim的一步采样即能达到较好的效果。
* [CompVis/latent-diffusion](https://github.com/CompVis/latent-diffusion) 基于潜在扩散模型的高分辨率图像合成
* [FoundationVision/VAR](https://github.com/FoundationVision/VAR) 一种新的视觉生成方法将 GPT 风格的模型提升到超越扩散和缩放定律。视觉自回归建模 (VAR) 将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”,与标准光栅扫描的“下一标记预测”不同。
* [open-mmlab/mmagic](https://github.com/open-mmlab/mmagic) OpenMMLab 多模态高级、生成和智能创建工具箱。解锁魔法:生成AI(AIGC),易于使用的API,awsome模型库,扩散模型,用于文本到图像生成,图像/视频恢复/增强等。
* [jbhuang0604/awesome-computer-vision](https://github.com/jbhuang0604/awesome-computer-vision) 令人敬畏的计算机视觉资源的精选列表
* [alicevision/meshroom](https://github.com/alicevision/meshroom) 3D 重建软件,一款基于 AliceVision 摄影测量计算机视觉框架的免费开源 3D 重建软件。
* [google-research/magvit](https://github.com/google-research/magvit) 官方 JAX 实现:掩码生成视频转换器 .引入 MAGVIT 以使用单一模型处理各种视频合成任务,并展示了其质量、效率和灵活性。
* [silverriver/MMChat](https://github.com/silverriver/MMChat) 大规模的对话数据集,其中包含以图像为基础的中文对话。 MMChat 中的每个对话都与一个或多个图像相关联(每个对话最多 9 张图像)。 我们设计了各种策略来确保 MMChat 中对话的质量。 数据集中的图像托管在微博的静态图像服务器上。
* [tyxsspa/AnyText](https://github.com/tyxsspa/AnyText) 多语言视觉文本生成和编辑,近年来,随着AIGC的爆火,图片生成技术得到飞速发展,当前AI生成的图片已达到真假难辨的高保真度。不过,当合成图片中出现文字内容时,仍能够使AI露出马脚,因为当前主流方法尚无法在图片中生成准确可读的字符。最近半年来已有学者开始研究文本生成的问题,但这些方法大多以英文为主,无法解决中文这种字形繁杂、字符数以万计的文字生成。因此,我们提出了一种新颖的文字生成方法AnyText,通过创新性的算法设计,可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。本模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型AIGC应用提供了可能性。
* [deepseek-ai/DeepSeek-VL](https://github.com/deepseek-ai/DeepSeek-VL) 专为真实世界视觉和语言理解应用而设计的开源视觉语言 (VL) 模型。DeepSeek-VL具备通用的多模态理解能力,能够在复杂场景下处理逻辑图、网页、公式识别、科学文献、自然图像和具身智能。
* [PKU-YuanGroup/MoE-LLaVA](https://github.com/PKU-YuanGroup/MoE-LLaVA) 大型视觉语言模型的专家组合,MoE-LLaVA-Qwen1.5,更好地支持汉语。在更高的图像分辨率下训练更强的模型(例如768×768)。
* [TencentARC/InstantMesh](https://github.com/TencentARC/InstantMesh) 使用稀疏视图大型重建模型从单个图像生成高效的 3D 网格
* [OpenBMB/MiniCPM-V](https://github.com/OpenBMB/MiniCPM-V) 面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。我们发布了两个版本的模型,旨在实现领先的性能和高效的部署:MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。
* [FreedomIntelligence/ALLaVA](https://github.com/FreedomIntelligence/ALLaVA) 利用 GPT4V 合成数据构建精简视觉语言模型
* [KaiyangZhou/CoOp](https://github.com/KaiyangZhou/CoOp) 通过快速学习将CLIP等视觉语言模型适应下游数据集
* [j-min/VL-T5](https://github.com/j-min/VL-T5) 通过文本生成统一视觉和语言任务
* [cloneofsimo/lora](https://github.com/cloneofsimo/lora) 用于快速文本到图像扩散微调的低秩适配。
* [HuiGuanLab/ms-sl](https://github.com/HuiGuanLab/ms-sl) 基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,提出了部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。PRVR 旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。
* [facebookresearch/AugLy](https://github.com/facebookresearch/AugLy) 用于音频、图像、文本和视频的数据增强库。
* [aigc-apps/sd-webui-EasyPhoto](https://github.com/aigc-apps/sd-webui-EasyPhoto) 一个 Webui UI 插件,用于生成 AI 肖像,可用于训练与您相关的数字分身。
* [alembics/disco-diffusion](https://github.com/alembics/disco-diffusion) 用于生成 AI 艺术和动画的笔记本、模型和技术的科学怪人融合。
* [xxxnell/how-do-vits-work](https://github.com/xxxnell/how-do-vits-work) “视觉转换器如何工作?(ICLR 2022 )”的 PyTorch 实现。CV的多头自注意力 (MSA) 的成功并不在于弱归纳偏差以及捕获远程依赖项。 MSA 不仅是广义的 Convs,而是补充 Convs 的广义空间平滑。特别是,MSA 通过拉平损失情况来改进 NN。一个关键特征是它的数据特异性(数据依赖性),而不是远程依赖性。另一方面,ViTs 遭受非凸损失。MSA 和 Convs 表现出相反的行为,MSA 是低通滤波器,而 Convs 是高通滤波器。MSA 是形状偏向的,而 Convs 是纹理偏向的。因此,MSAs 和 Convs 是互补的。阶段末尾的 MSA(不是模型)显着提高了准确性。我们通过用 MSA 替换阶段结束时的 Convs 来引入 AlterNet。 AlterNet 在大小数据领域都优于 CNN。
* [salesforce/LAVIS](https://github.com/salesforce/LAVIS) 用于语言和视觉智能研究和应用的 Python 深度学习库。 该库旨在为工程师和研究人员提供一站式解决方案,以针对其特定的多模式场景快速开发模型,并跨标准和定制数据集对它们进行基准测试。 它具有统一的界面设计以访问:10 多个任务(检索、字幕、视觉问答、多模态分类等);20 多个数据集(COCO、Flickr、Nocaps、Conceptual Commons、SBU 等);30 多个最先进的基础语言视觉模型的预训练权重及其特定于任务的改编,包括 ALBEF、BLIP、ALPRO、CLIP。
* [luban-agi/Awesome-AIGC-Tutorials](https://github.com/luban-agi/Awesome-AIGC-Tutorials) 收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。
* [willard-yuan/awesome-cbir-papers](https://github.com/willard-yuan/awesome-cbir-papers) 经典图像检索论文合集
* [pliang279/awesome-multimodal-ml](https://github.com/pliang279/awesome-multimodal-ml) 多模态机器学习研究课题阅读清单
* [lucidrains/imagen-pytorch](https://github.com/lucidrains/imagen-pytorch) 在 Pytorch 中实现谷歌的文本到图像神经网络 Imagen ,谷歌的文本到图像神经网络,击败了 DALL-E2。 它是文本到图像合成的新 SOTA。在架构上上比 DALL-E2 简单得多。 它由一个级联 DDPM 组成,该 DDPM 以来自大型预训练 T5 模型(注意网络)的文本嵌入为条件。 它还包含用于改进分类器自由引导、噪声级调节和内存高效 unet 设计的动态裁剪。
* [divamgupta/stable-diffusion-tensorflow](https://github.com/divamgupta/stable-diffusion-tensorflow) Stable Diffusion 稳定扩散的 Keras Tensorflow 实现。
* [LuChengTHU/dpm-solver](https://github.com/LuChengTHU/dpm-solver) 用于扩散概率模型采样的快速 ODE 求解器。DPM-Solver 适用于离散时间和连续时间扩散模型,无需任何进一步训练。 实验结果表明,仅需对各种数据集进行 10 到 20 次函数评估即可生成高质量样本。
* [jina-ai/clip-as-service](https://github.com/jina-ai/clip-as-service) 一种用于嵌入图像和文本的低延迟、高可伸缩性的服务。它可以作为一个微服务轻松集成到神经搜索解决方案中。有四种基本的视觉推理技能:对象识别、对象计数、颜色识别和空间关系理解。文本到图像跨模态搜索。
* [hua1995116/awesome-ai-painting](https://github.com/hua1995116/awesome-ai-painting) AI绘画资料合集(包含国内外可使用平台、使用教程、参数教程、部署教程、业界新闻等等)
* [lllyasviel/style2paints](https://github.com/lllyasviel/style2paints) 草图 + 风格 = 绘画
* [realtime-semantic-segmentation](https://github.com/hugozanini/realtime-semantic-segmentation) 用TF.js实施RefineNet以在浏览器中执行实时实例分割
* [extreme-assistant/CVPR2021-Paper-Code-Interpretation](https://github.com/extreme-assistant/CVPR2021-Paper-Code-Interpretation) cvpr2021 cvpr2020 cvpr2019 cvpr2018 cvpr2017 论文/代码/解读/直播合集,极市团队整理
* [LeonLok/Multi-Camera-Live-Object-Tracking](https://github.com/LeonLok/Multi-Camera-Live-Object-Tracking) 多摄像头实时目标跟踪和计数,使用YOLOv4,Deep SORT和Flask
* [kornia/kornia](https://github.com/kornia/kornia) 基于 PyTorch 的可微分(differentiable)的计算机视觉开源库, 实现了:可微的基础计算机视觉算子、可微的数据增广。OpenCV 和 PIL 都是不可微的,所以这些处理都只可以作为图像的预处理而无法通过观察梯度的变化来对这些算子进行优化 (gradient-based optimization),因此Kornia 便应运而生。
* [architras/Advanced_Lane_Lines](https://github.com/architras/Advanced_Lane_Lines) 基于阈值的车道标记
* [facebookresearch/pytorch3d](https://github.com/facebookresearch/pytorch3d) 基于PyTorch将深度学习与3D进行结合的研究框架。
* [facebookresearch/pytorchvideo](https://github.com/facebookresearch/pytorchvideo) 为视频理解研究打造的深度学习库。
* [rwightman/pytorch-image-models](https://github.com/rwightman/pytorch-image-models) PyTorch图像类模型库,包括:ResNet, ResNeXT, EfficientNet, EfficientNetV2, NFNet, Vision Transformer, MixNet, MobileNet-V3/V2, RegNet, DPN, CSPNet
* [Thinklab-SJTU/ThinkMatch](https://github.com/Thinklab-SJTU/ThinkMatch) 深度图匹配算法 图形匹配(GM)是计算机视觉,模式识别和数据挖掘中一个基本但具有挑战性的问题。GM旨在通过解决称为二次分配问题(QAP)的NP硬组合问题来找到多个图之间的节点到节点对应关系。应用:桥接电影和简介、图像对应、分子匹配
* [google-research/vision_transformer](https://github.com/google-research/vision_transformer) 视觉Transformer和 MLP-混合器架构,Transformer应用于视觉,纯多层感知机视觉架构。
* [China-UK-ZSL/ZS-F-VQA](https://github.com/China-UK-ZSL/ZS-F-VQA) 一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,缓解了误差传播对于模型性能的影响。
* [luost26/diffusion-point-cloud](https://github.com/luost26/diffusion-point-cloud) 基于非平衡态热力学的全新三维点云生成模型
* [PeterWang512/GANSketching](https://github.com/PeterWang512/GANSketching) 绘制您自己的 GAN:用手绘草图自定义 GAN 模型。
* [microsoft/AutoML/iRPE](https://github.com/microsoft/AutoML/tree/main/iRPE) 视觉位置编码,在ImageNet和COCO上,与原始版相比,分别获得了1.5%(top-1 Acc)和1.3%(mAP)的性能提升(无需任何调参)。
* [shahroudy/NTURGB-D](https://github.com/shahroudy/NTURGB-D) “NTU RGB+D”动作识别数据集、“NTU RGB+D 120”动作识别数据集、“NTU RGB+D”是用于人类动作识别的大规模数据集。“NTU RGB+D 120”是“NTU RGB+D”数据集的扩展版本。
* [yuhuan-wu/P2T](https://github.com/yuhuan-wu/P2T) 基于金字塔池化的视觉Transformer,可用于各类下游场景理解任务。
* [jantic/DeOldify](https://github.com/jantic/DeOldify) 基于NoGAN技术,保证视频着色的稳定性,例如,视频中的同一件衣服,不至于转换成多种颜色。
* [junyanz/pytorch-CycleGAN-and-pix2pix](https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix) 图像到图像的转换
* [joelibaceta/video-to-ascii](https://github.com/joelibaceta/video-to-ascii) 可以使用字符作为像素在终端中播放视频
* [bytedance/OMGD](https://github.com/bytedance/OMGD) 用于 GAN 压缩的在线多粒度蒸馏 (ICCV2021)
* [TorchSSL/TorchSSL](https://github.com/TorchSSL/TorchSSL) 基于 PyTorch 的半监督学习库 (NeurIPS'21)
* [google-research/mixmatch](https://github.com/google-research/mixmatch) 集成了自洽正则化的超强半监督学习 MixMatch
* [google-research/remixmatch](https://github.com/google-research/remixmatch) 改进了最近提出的MixMatch半监督学习算法,引入了两种新技术:分布对齐和增强锚定。分布对齐鼓励未标记数据预测的分布接近标签的分布。增强锚定为模型提供多个强增强版本的输入,并鼓励每个输出接近同一输入的弱增强版本的预测。
* [NVlabs/stylegan3](https://github.com/NVlabs/stylegan3) 更适合视频和动画的生成模型。
* [isl-org/DPT](https://github.com/isl-org/DPT) 用于密集预测的Transformers,图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为**密集预测**(dense prediction)。
* [google-research/mint](https://github.com/google-research/mint) 多模式内容创建模型训练基础设施,包括 FACT 模型(AI Choreographer)实现。带有 AIST++ 的音乐条件 3D 舞蹈生成。
* [yihongXU/TransCenter](https://github.com/yihongXU/TransCenter)TransCenter:用于多对象跟踪的密集查询转换器
* [cvat-ai/cvat](https://github.com/cvat-ai/cvat) 使用 CVAT(行业领先的机器学习数据引擎)更好地进行注释。任何规模的团队都可以使用和信任任何规模的数据。用于计算机视觉的交互式视频和图像注释工具。它被全球数以万计的用户和公司使用。我们的使命是帮助世界各地的开发人员、公司和组织使用以数据为中心的 AI 方法解决实际问题。
* [ashkamath/mdetr](https://github.com/ashkamath/mdetr) 用于端到端多模态理解的调制检测。输入描述文本及图片,识别出文字描述的对应物体。
* [erikalu/omnimatte](https://github.com/erikalu/omnimatte) 提取视频中的前、背景。精确蒙版(matte)操作,分离前景背景。
* [microsoft/SimMIM](https://github.com/microsoft/SimMIM) 用作掩码图像建模的简单框架。通过系统研究,我们发现每个组件的简单设计都显示出非常强的表示学习性能:1)用中等大小的掩码补丁大小(例如,32)对输入图像进行随机掩码,这是一个强大的前置任务;2) 通过直接回归预测 RGB 值的原始像素的性能并不比设计复杂的补丁分类方法差;3)预测头可以像线性层一样轻,性能不比较重的层差。
* [microsoft/Oscar](https://github.com/microsoft/Oscar) 跨模态预训练方法Oscar(Object-Semantics Aligned Pre-training)。它利用在图像中检测到的对象标签作为锚点来显着简化图像-文本对齐的学习。在 650 万个文本图像对的公共语料库上对 Oscar 进行预训练,并在下游任务上对其进行微调,在六项成熟的视觉语言理解和生成任务上创造新的最新技术。
* [xyzforever/BEVT](https://github.com/xyzforever/BEVT) 视频转换器的BERT预训练。BEVT首先对图像数据进行蒙版图像建模,然后对视频数据进行蒙版图像建模和蒙版视频建模。
* [fengpanhe/MT-ORL](https://github.com/fengpanhe/MT-ORL)PyTorch 实现论文“MT-ORL:多任务遮挡关系学习”(ICCV 2021)
* [snap-research/CAT](https://github.com/snap-research/CAT) 用于压缩"图像到图像模型"CycleGAN Pix2pix的压缩和教学框架.
* [nikheelpandey/TAUP-PyTorch](https://github.com/nikheelpandey/TAUP-PyTorch) 任务不可知的无监督预训练。simCLR 论文的粗略实现。 如论文中所述,在对比损失函数上使用 LARS 优化器来训练对比模型。 将此模型用作编码器并添加全连接层以创建分类器。
* [HobbitLong/SupContrast](https://github.com/HobbitLong/SupContrast) “监督对比学习”的 PyTorch 实现(顺便提一下 SimCLR)
* [hustvl/QueryInst](https://github.com/hustvl/QueryInst) Instances as Queries是一种简单有效的基于查询的实例分割方法,由动态掩码头的并行监督驱动,在准确性和速度方面均优于以前的技术。
* [isl-org/MiDaS](https://github.com/isl-org/MiDaS) 单目深度估计的成功依赖于大量且多样化的数据集。但是由于深度的真实值在不同的环境尺度下获取的,大量数据具有不同的特征和偏差。本文提出了一种对于深度的范围和尺度具有不变性的训练方法,从而可以在训练期间混合多个数据集。因此,本文利用3D电影构建了一个数据集并进行训练,然后在训练期间未见过的数据集上进行评测。实验证明,混合训练来自不同的数据集可以改善深度估计的效果,特别是针对训练时未见过的数据集(zero-shot dataset)。
* [google-research/deeplab2](https://github.com/google-research/deeplab2) 用于深度标记的 TensorFlow 库,旨在为密集像素标记任务提供统一且最先进的 TensorFlow 代码库。旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。深度标记是指通过深度神经网络为图像中的每个像素分配预测值来解决计算机视觉问题。
* [YifanXu74/Evo-ViT](https://github.com/YifanXu74/Evo-ViT) 腾讯优图提出高性能Transformer加速方法.Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer,能在保证分类准确率损失较小的情况下,大幅提升推理速度,如在ImageNet 1K数据集下,可提升DeiT-S 60%推理速度的同时仅损失0.4%的精度。
* [researchmm/CKDN](https://github.com/researchmm/CKDN) 用于退化参考图像质量评估的学习条件知识提炼
* [phecy/SSL-FEW-SHOT](https://github.com/phecy/SSL-FEW-SHOT) 小样本图像分类的自监督学习
* [yangle15/RANet-pytorch](https://github.com/yangle15/RANet-pytorch) 提出的分辨率自适应网络 (RANet) 通过利用spatial redundancy输入图像的分辨率来进行自适应推理。动机是低分辨率表示足以对包含具有原型特征的大对象的简单样本进行分类,只有一些困难样本需要空间详细信息。
* [microsoft/NUWA](https://github.com/microsoft/NUWA) 一个统一的多模态预训练模型,可以为8个视觉合成任务(文本转图像、模板转图像、图像补全、图像操纵、文本转视频、模板转视频、视频帧预测、视频操纵) 生成新的或操纵现有的视觉数据(即图像和视频)。待开放源码。
* [lucidrains/nuwa-pytorch](https://github.com/lucidrains/nuwa-pytorch) 用于文本到视频合成的最先进的注意力网络
* [yuxie11/R2D2](https://github.com/yuxie11/R2D2) 大规模中文跨模式基准和视觉语言框架
* [google-research-datasets/conceptual-captions](https://github.com/google-research-datasets/conceptual-captions) 包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M)和1200万张图像(CC12M)两个版本,并通过过滤程序从网络自动收集弱相关描述。
* [ShannonAI/OpenViDial](https://github.com/ShannonAI/OpenViDial) 一个大规模多模态对话数据集.当人类交谈时,说话者接下来会说什么很大程度上取决于他所看到的。OpenViDial 是用于此目的的大型多模块对话数据集。这些对话回合和视觉上下文是从电影和电视剧中提取的,其中每个对话回合都与它发生的相应视觉上下文配对。对于OpenViDial 1.0,共包含 110 万个对话轮次,因此图像中存储了 110 万个视觉上下文。对于OpenViDial 2.0,包含 560 万个对话轮次以及 560 万个存储在图像中的视觉上下文。基于OpenViDial,同时提出了三个模型,以不同的粒度融合视觉信息,预测下一句的对话内容。
* [Alibaba-MIIL/STAM](https://github.com/Alibaba-MIIL/STAM) 受NLP中Transformer成功的启发,我们尝试将一个标准Transformer直接应用到图像上,尽可能少的修改。为此,我们将图像分割成小块,并将这些块转化为线性嵌入序列,作为Transformer的输入。图像块(image patches)就相当于NLP任务中的单词(token)来做处理。并以有监督的方式训练图像分类模型。大规模的训练可以克服归纳偏置(inductive biases)。当ViT在足够规模上进行预先训练,并迁移到较少数据量的任务时,可以获得出色结果。
* [openai/glide-text2im](https://github.com/openai/glide-text2im) 基于扩散的文本条件图像合成模型。以文本提示为条件的图像;填充图像的蒙版区域,以文本提示为条件;使用 GLIDE(过滤)+ 过滤噪声感知 CLIP 模型来生成以文本提示为条件的图像。
* [SysCV/pcan](https://github.com/SysCV/pcan) 用于多对象跟踪和分割的原型交叉注意网络
* [google-research/scenic](https://github.com/google-research/scenic) Scenic:用于计算机视觉研究及其他领域的 Jax 库
* [CryhanFang/CLIP2Video](https://github.com/CryhanFang/CLIP2Video) 基于CLIP (ViT-B/32)的视频文本检索模型,将图像语言预训练模型以端到端的方式转换为视频文本检索。模型包括一个时间差异块来捕捉精细时间视频帧的运动,以及时间对齐块来重新对齐视频剪辑和短语的标记并增强多模态相关性。在主要的文本到视频和视频到文本检索基准上取得了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。
* [ArrowLuo/CLIP4Clip](https://github.com/ArrowLuo/CLIP4Clip) CLIP4Clip 是基于CLIP (ViT-B)的视频文本检索模型。在这项工作中,我们研究了三种相似度计算方法:无参数类型、顺序类型和紧密类型。该模型在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 上实现了 SOTA 结果。
* [sail-sg/poolformer](https://github.com/sail-sg/poolformer) PoolFormer:MetaFormer 实际上是您的视觉所需要的。transformer/MLP-like 模型的能力主要源于通用架构 MetaFormer,而不是配备的特定令牌混合器。作者独树一帜提出视觉Transformer及其变种的成功原因主要是架构的设计,并且将token mixer换为了简单的池化获得了相当好的效果。
* [jonhare/DifferentiableSketching](https://github.com/jonhare/DifferentiableSketching) 微分绘图和素描
* [thuiar/Self-MM](https://github.com/thuiar/Self-MM) 多模态情感分析的自监督多任务学习学习模态特定表示中的代码
* [nuno-faria/tiler](https://github.com/nuno-faria/tiler) 使用各种其他较小图像(图块)创建图像的工具。它不同于其他马赛克工具,因为它可以适应多种形状和大小的瓷砖(即不限于正方形)。图像可以由圆圈、线条、波浪、十字绣、乐高积木、我的世界积木、回形针、字母等组成…
* [leandromoreira/ffmpeg-libav-tutorial](https://github.com/leandromoreira/ffmpeg-libav-tutorial) FFmpeg libav 教程 - 了解媒体如何从基础到转换、转码等工作
* [Tencent/libpag](https://github.com/Tencent/libpag) 动画文件的渲染 SDK,降低或消除动画研发相关的成本,打通设计师创作到素材交付上线的极简流程,不断输出运行时可编辑的高质量动画内容。
* [salesforce/BLIP](https://github.com/salesforce/BLIP) 用于 BLIP 的 PyTorch 代码:用于统一视觉语言理解和生成的引导语言图像预训练
* [VALUE-Leaderboard/StarterCode](https://github.com/VALUE-Leaderboard/StarterCode) VALUE 基准测试的入门代码 。用于训练、评估和分析系统以理解视频和字幕的资源集合。
* [starmemda/CAMoE](https://github.com/starmemda/CAMoE) 通过多流语料库对齐和双 Softmax 损失改进视频文本检索
* [facebookresearch/SLIP](https://github.com/facebookresearch/SLIP) SLIP 自监督代码发布符合语言-图像预训练
* [OFA-Sys/Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP) 中文版CLIP,实现中文跨模态检索和表示生成。使用大规模中文数据进行训练(~2亿图文对),旨在帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务。
* [yuewang-cuhk/awesome-vision-language-pretraining-papers](https://github.com/yuewang-cuhk/awesome-vision-language-pretraining-papers) 视觉和语言预训练模型 (VL-PTM) 的最新进展
* [zengyan-97/X-VLM](https://github.com/zengyan-97/X-VLM) 多粒度视觉语言预训练 将文本与视觉概念对齐。
* [facebookresearch/vilbert-multi-task](https://github.com/facebookresearch/vilbert-multi-task) 12 合 1:多任务视觉和语言表征学习
* [airsplay/lxmert](https://github.com/airsplay/lxmert) 从 Transformers 学习跨模态编码器表示
* [uclanlp/visualbert](https://github.com/uclanlp/visualbert) 视觉和语言的简单且高效的基线 arxiv.org/abs/1908.03557 预训练一个 Transformer,用于处理图像字幕数据的视觉和语言 (V&L) 任务。 无监督 VisualBERT,预训练了没有对齐的图像字幕对的 V&L 转换器。
* [jackroos/VL-BERT](https://github.com/jackroos/VL-BERT) 用于视觉语言任务的简单而强大的可预训练通用表示。它在大规模字幕数据集和纯文本语料库上进行了预训练,可以针对各种下游视觉语言任务进行微调,例如视觉常识推理、视觉问答和参考表达理解。
* [ChenRocks/UNITER](https://github.com/ChenRocks/UNITER) 支持在 [NLVR2](http://lil.nlp.cornell.edu/nlvr/)、[VQA](https://visualqa.org/)、[VCR](https://visualcommonsense.com/)、 [SNLI-VE 、](https://github.com/necla-ml/SNLI-VE) [COCO](https://cocodataset.org/#home)和 [Flickr30k](http://shannon.cs.illinois.edu/DenotationGraph/)的图像文本检索以及 [引用表达式理解](https://github.com/lichengunc/refer)(RefCOCO、RefCOCO+ 和 RefCOCO-g)上微调 UNITER。UNITER-base 和 UNITER-large 的预训练检查点均已发布。还可以使用域内数据进行基于 UNITER 的预训练。
* [ERNIE/ernie-vil](https://github.com/PaddlePaddle/ERNIE/tree/repro/ernie-vil) 视觉语言任务的知识增强联合表示,第一个引入结构化知识以增强视觉语言预训练的工作。利用从场景图中获得的结构化知识,ERNIE-ViL 构造了三个场景图预测任务,即对象预测、属性预测和关系预测任务。因此,可以学习更好的联合视觉语言表示,表征跨视觉和语言的详细语义的对齐。
* [Research/NLP/UNIMO](https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO) UNIfied-MODal 预训练架构,即UNIMO,可以有效地适应单模态和多模态的理解和生成任务。利用大规模的自由文本语料库和图像集合来提高视觉和文本理解能力,并利用跨模态对比学习(CMCL)将文本和视觉信息对齐到图像语料库上的统一语义空间中。用相关图像和文本增强的文本对。在丰富的非配对单模态数据的帮助下,我们的模型能够通过允许文本知识和视觉知识在统一的语义空间中相互增强来学习更多的泛化表示。实验结果表明,大大提高了几个单模态和多模态下游任务的性能。
* [fairseq/examples/MMPT](https://github.com/facebookresearch/fairseq/tree/main/examples/MMPT) 用于多模态视频理解的工具包!包含两篇多模态视频理解论文[VideoCLIP](https://arxiv.org/pdf/2109.14084.pdf) (EMNLP, 2021) 和[VLM](https://aclanthology.org/2021.findings-acl.370.pdf) (ACL Findings, 2021) 的实现。VideoCLIP 是一种对比学习模型,用于将零样本迁移到检索/分类/序列标记样式任务。VLM 是一种掩码语言模型样式预训练,仅使用一个带有掩码模态模型 (MMM) 的编码器来执行检索/生成/序列标签样式任务。
* [mczhuge/Kaleido-BERT](https://github.com/mczhuge/Kaleido-BERT) (CVPR2021) Kaleido-BERT:时尚领域的视觉语言预训练。
* [linjieli222/HERO](https://github.com/linjieli222/HERO) # 用于视频+语言全表示预训练的分层编码器 该存储库目前支持在 [TVR](https://tvr.cs.unc.edu/)、[TVQA](http://tvqa.cs.unc.edu/)、[TVC](https://tvr.cs.unc.edu/tvc.html)、 [VIOLIN](https://github.com/jimmy646/violin)、 [DiDeMo](https://github.com/LisaAnne/TemporalLanguageRelease)和 [MSR-VTT Retrieval](http://ms-multimedia-challenge.com/2017/challenge)上微调 HERO 。发布了最好的预训练检查点(在[HowTo100M](https://www.di.ens.fr/willow/research/howto100m/)和[TV](http://tvqa.cs.unc.edu/)数据集上)。还提供了在 TV 数据集上进行 HERO 预训练的代码。
* [gabeur/mmt](https://github.com/gabeur/mmt) 用于视频检索的多模态变压器 提出的多模态转换器 (MMT) 从视频中聚合多模态特征序列(例如外观、运动、音频、OCR 等)。然后,它将聚合的多模式特征嵌入到带有文本的共享空间中以进行检索。它在 MSRVTT、ActivityNet 和 LSMDC 数据集上实现了最先进的性能。
* [Noah-Wukong Dataset](https://wukong-dataset.github.io/wukong-dataset/) 大规模的多模态中文数据集。数据集包含1 亿个image, text对。数据集中的图像根据大小(两个维度 > 200px)和纵横比(1/3 ~ 3)进行过滤。数据集中的文本根据其语言、长度和频率进行过滤。
* [lyakaap/ISC21-Descriptor-Track-1st](https://github.com/lyakaap/ISC21-Descriptor-Track-1st) Facebook AI 图像相似度挑战赛 (ISC21) 的第一名解决方案
* [sun-xl/ISC2021](https://github.com/sun-xl/ISC2021) Facebook AI 组织的图像相似度挑战赛Image Similarity Challenge (ISC) 2021 匹配赛道的第三名解决方案的源代码
* [zr2021/2021_QQ_AIAC_Tack1_1st](https://github.com/zr2021/2021_QQ_AIAC_Tack1_1st) QQ浏览器2021多模态视频相似度 第1名 方案
* [PKU-DAIR/2021_AIAC_Task2_1st](https://github.com/PKU-DAIR/2021_AIAC_Task2_1st) QQ浏览器2021多模态视频相似度 第1名 方案
* [kywen1119/Video_sim](https://github.com/kywen1119/Video_sim) 2021年qq浏览器AI算法大赛 多模态视频相似度 第四名
* [ChasingStar95/AIAC2021_task1_rank6](https://github.com/ChasingStar95/AIAC2021_task1_rank6) 2021QQ浏览器 多模态视频相似度 rank6
* [AIAC_qq_browser_2021_task1_rank11](https://github.com/cgxcompetition/AIAC_qq_browser_2021_task1_rank11) 2021年 qq浏览器AI 算法大赛 赛道一 多模态视频相似度 决赛第11名
* [Tencent/Lichee](https://github.com/Tencent/Lichee) 一个多模态内容理解算法框架,其中包含数据处理、预训练模型、常见模型以及模型加速等模块。
* [saic-mdal/lama](https://github.com/saic-mdal/lama) LaMa 图像修复,具有傅里叶卷积的分辨率稳健的大型蒙版修复
* [microsoft/VideoX](https://github.com/microsoft/VideoX/) 跨模态视频内容理解
* [fnzhan/MISE](https://github.com/fnzhan/MISE) 多模态图像合成和编辑:调查
* [NVlabs/instant-ngp](https://github.com/NVlabs/instant-ngp) 即时神经图形基元:闪电般快速的 NeRF 等 。Neural Radiance Fields(神经辐射场),是一项利用多目图像重建三维场景的技术。
* [Mengzi/Mengzi-Oscar](https://github.com/Langboat/Mengzi/blob/main/Mengzi-Oscar.md) 中文多模态预训练 Mengzi-Oscar 模型 下游任务模型: 中文图像摘要. 中文图文互检.
* [WangWenhao0716/ISC-Track2-Submission](https://github.com/WangWenhao0716/ISC-Track2-Submission) [NeurIPS Challenge Rank 3rd] 重现 Image Similarity Challenge Track 2 结果的代码和相关文件。
* [facebookresearch/Motionformer](https://github.com/facebookresearch/Motionformer) 训练和测试我们提出的 Motionformer 模型。Motionformer 使用提议的*轨迹注意*在几个视频动作识别基准(例如 Kinetics-400 和Something-Something V2)上实现最先进的结果。
* [snap-research/NeROIC](https://github.com/snap-research/NeROIC) 来自在线图像集合的神经对象捕获和渲染,两阶段模型将来自不同条件的对象图像作为输入。利用其他最先进方法获取的图像的相机位姿和对象前景蒙版,我们首先通过训练基于 NeRF 的网络优化扫描对象的几何形状并细化相机位姿;然后我们使用我们的法线提取层从几何体(由密度函数表示)计算表面法线;最后,我们的第二阶段模型分解了物体的材料属性,并解决了每个图像的光照条件。
* [facebookresearch/ConvNeXt](https://github.com/facebookresearch/ConvNeXt) 一个完全由标准 ConvNet 模块构建的纯 ConvNet 模型。ConvNeXt 准确、高效、可扩展且设计非常简单。
* [declare-lab/MELD](https://github.com/declare-lab/MELD/) 用于对话中情绪识别的多模多方数据集
* [visualcommonsense](https://visualcommonsense.com/) 视觉常识推理 ( VCR ) 是一项用于认知级视觉理解的新任务和大规模数据集
* [imageclef.org](https://www.imageclef.org/) ImageCLEF 旨在为图像的跨语言注释和检索提供一个评估论坛。由于需要支持来自全球社区的多语言用户访问不断增长的视觉信息体,ImageCLEF 的主要目标是支持视觉媒体分析、索引、分类和检索领域的进步,通过开发必要的用于评估在单语、跨语言和与语言无关的上下文中运行的视觉信息检索系统的基础设施。ImageCLEF 旨在为此类基准测试提供可重用资源。包括:(视觉)信息检索、跨语言信息检索、计算机视觉和模式识别、医学信息学、人机交互等。
* [studiomoniker/Quickdraw-appendix](https://github.com/studiomoniker/Quickdraw-appendix) 25k 阴茎涂鸦数据集
* [Jittor/JNeRF](https://github.com/Jittor/JNeRF) 基于 Jittor 的 NeRF 基准测试。JNeRF 重新实现了 Instant-ngp 并达到了与原始论文相同的性能。
* [THUDM/CogVideo](https://github.com/THUDM/CogVideo) 文本到视频生成的代码和模型,只支持简体中文输入。
* [THUDM/CogView](https://github.com/THUDM/CogView) 文本到图像的生成。NeurIPS 2021 论文“CogView: Mastering Text-to-Image Generation via Transformers”
* [CompVis/stable-diffusion](https://github.com/CompVis/stable-diffusion) 潜在的文本到图像的扩散模型。凭借其860M UNet和 123M文本编码器,该模型相对轻量级,并在具有至少10GB 的 GPU 上运行。
* [invoke-ai/InvokeAI](https://github.com/invoke-ai/InvokeAI) 这个版本的 Stable Diffusion 具有流畅的 WebGUI、交互式命令行脚本,它在“dream bot”风格的界面中结合了 text2img 和 img2img 功能,以及多个功能和其他增强功能。可以在 Win、Mac 和 Linux 机器上运行,GPU 卡只有 4 GB 的 RAM。
* [AUTOMATIC1111/stable-diffusion-webui](https://github.com/AUTOMATIC1111/stable-diffusion-webui) 稳定的扩散(文本到图像的扩散模型)网页界面
* [divamgupta/diffusionbee-stable-diffusion-ui](https://github.com/divamgupta/diffusionbee-stable-diffusion-ui) Diffusion Bee 是在 M1 Mac 上本地运行 Stable Diffusion 的最简单方法。附带一键安装程序。无需依赖或技术知识。
* [cmdr2/stable-diffusion-ui](https://github.com/cmdr2/stable-diffusion-ui) 在pc上安装和使用稳定扩散的最简单方式。提供用于从文本提示和图像生成图像的浏览器 UI。只需输入您的文本提示,然后查看生成的图像。
* [nateraw/stable-diffusion-videos](https://github.com/nateraw/stable-diffusion-videos) 通过探索潜在空间和文本提示之间的变形来实现稳定扩散(stable diffusion)的视频
* [kuprel/min-dalle](https://github.com/kuprel/min-dalle) DALL·E Mini 到 PyTorch 的快速、最小的接口。DALL-E是一个可以通过文本描述中生成图像的AI程序。 通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入并生成相应的图片。可生成现实、现实中不存在的对象。
* [heejkoo/Awesome-Diffusion-Models](https://github.com/heejkoo/Awesome-Diffusion-Models) 关于扩散模型的资源和论文集
* [YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy](https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy) 扩散模型:方法和应用的综合调查
* [open-mmlab/mmgeneration](https://github.com/open-mmlab/mmgeneration) 一个强大的生成模型工具包,基于PyTorch和MMCV。`高质量的训练`:支持无条件 GAN、内部 GAN 和图像翻译模型的培训。对条件模型的支持即将推出。`强大的工具包`:为用户提供了包含GAN中多个应用程序的丰富工具包。GAN 插值、GAN 投影和 GAN 操作已集成到我们的框架中。`高效分布式训练`:对于生成模型中的高动态训练,采用了一种新的方法来训练动态模型 MMDDP 。`灵活组合的新模块化设计`:针对复杂损耗模块的定制链接,提出一种新的设计,可以实现不同模块之间的灵活组合。
* [rinongal/textual_inversion](https://github.com/rinongal/textual_inversion) 使用个性化文本反转到图像生成 。仅使用提供的概念(如对象或样式)的 3-5 张图像,通过学习冻结文本到图像模型的嵌入空间中的新“词”来表示它。 这些“词”可以组合成自然语言句子,以直观的方式指导个性化创作。
* [remotion-dev/remotion](https://github.com/remotion-dev/remotion) 使用 React 以编程方式创建视频的框架。
* [zhegan27/VILLA](https://github.com/zhegan27/VILLA) 视觉和语言对抗训练 (NeurIPS 2020 Spotlight) 的官方库。 目前支持 UNITER 在 VQA、VCR、NLVR2 和 SNLI-VE 上的对抗微调。 使用域内数据的对抗性预训练将很快可用。 VILLA-base 和 VILLA-large 预训练检查点均已发布。
* [Sally-SH/VSP-LLM](https://github.com/sally-sh/vsp-llm) 视觉语音处理与LLMs(VSP-LLM)相结合,通过带来压倒性的LLMs功率来最大限度地提高上下文建模能力。具体来说,VSP-LLM旨在执行视觉语音识别和翻译的多任务,其中给定的指令控制任务的类型。通过采用自监督视觉语音模型,将输入视频映射到 LLM 的输入潜在空间。针对输入帧中存在冗余信息的事实,我们提出了一种新颖的重复数据删除方法,该方法通过采用视觉语音单元来减少嵌入的视觉特征。通过所提出的重复数据删除和低秩适配器 (LoRA),VSP-LLM 可以以计算高效的方式进行训练。
* [piskelapp/piskel](https://github.com/piskelapp/piskel) 易于使用的精灵编辑器。 可用于创建精灵、动画、像素艺术。
* [pencil2d/pencil](https://github.com/pencil2d/pencil) 制作二维手绘动画的简单、直观的工具。
* [OpenShot/libopenshot](https://github.com/OpenShot/libopenshot) 致力于为全世界提供高质量的视频编辑、动画和播放解决方案。 API 目前支持 C++、Python 和 Ruby。
* [microsoft/GLIP](https://github.com/microsoft/GLIP) 将目标检测任务转换为短语定位任务。对待任意一张训练图片,把标签用句号隔开,拼接成一句话。通过这种方式,所有的目标检测数据集都可转化为短语定位数据集。至此,便有了文字-重点区域对(word-region pair)。然后,对文字和图片分别进行编码,获得了文字与图片各自的特征。
* [jina-ai/discoart](https://github.com/jina-ai/discoart) DiscoArt 是一种优雅的方式,可以为生成艺术家、AI 爱好者和铁杆开发人员创建引人注目的 Disco Diffusion艺术作品。
* [olive-editor/olive](https://github.com/olive-editor/olive) 适用于 Win、macOS 和 Linux 的免费非线性视频编辑器。
* [NatronGitHub/Natron](https://github.com/NatronGitHub/Natron) 一款免费的开源(GPLv2 许可证)视频合成器,其功能类似于 Adobe After Effects、Foundry 的 Nuke 或 Blackmagic Fusion。 它是可移植的和跨平台的(GNU/Linux、macOS 和 Microsoft Windows)。
* [patriciogonzalezvivo/glslViewer](https://github.com/patriciogonzalezvivo/glslViewer) 基于控制台的 OpenGL 沙盒,无需 UI 即可显示 2D/3D GLSL 着色器。 您绝对可以使用 Python 模块(包括)或任何其他通过标准 POSIX 控制台输入/输出或 OSC 与 glslViewer 来回通信的工具来制作自己的 UI 或包装器。
* [ossrs/srs](https://github.com/ossrs/srs) SRS是一个简单、高效的实时视频服务器,支持RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH和GB28181。
* [google-research/jax3d](https://github.com/google-research/jax3d) Jax 中用于神经渲染的库,旨在成为一个灵活的 NeRF 生态系统,以支持快速原型设计、轻松协作以及研究代码的发布。
* [MCG-NJU/VideoMAE](https://github.com/MCG-NJU/VideoMAE) 简单高效的视频自监督预训练新范式。提出了极高的掩蔽率 (90%-95%) 和管掩蔽策略,为自监督视频预训练创建具有挑战性的任务。VideoMAE 可以作为未来自监督视频预训练研究的简单但强大的基线。适用于不同规模的视频数据集,在 Kinects-400 上可以达到 87.4%(Kinetics-400是一个大规模,高质量的YouTube视频网址数据集,其中包含各种以人为本的行动。该数据集包含 400 个人类动作类,每个动作至少有 400 个视频剪辑。每个剪辑持续大约 10 秒,并且取自不同的 YouTube 视频。这些动作以人类为中心,涵盖广泛的类别,包括演奏乐器等人与物体的交互,以及握手等人与人的交互。),在 Something-Something V2 (大型的带有标签的记录了人类与日常生活中的一些物体之间的动作数据集)上可以达到 75.4%,在 UCF101 上可以达到 91.3%(UCF-101(2012)包含13,320个视频(共27个小时),101个人类行为类别,如运动、乐器和人物交互等。),在 HMDB51(HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,。来自于YouTube,google视频等,共2G) 上可以达到 62.6%。
* [POSTECH-CVLab/PeRFception](https://github.com/POSTECH-CVLab/PeRFception) 隐式3D表示(即神经辐射场(NeRFs))的最新进展使得以可微分方式进行精确和逼真的3D重建成为可能。
* [opendilab/InterFuser](https://github.com/opendilab/InterFuser) 使用可解释传感器融合Transformer实现安全增强型自动驾驶
* [Kuaipedia/Kuaipedia](https://github.com/Kuaipedia/Kuaipedia) 全球首个大规模多模态短视频百科,以条目、方面、短视频为基本单位。亿级别多模态短视频百科体系。
* [Moguri/awesome-panda3d](https://github.com/Moguri/awesome-panda3d) 使用Panda3D(py 3D库)的优秀资源的精选列表
* [photoprism/photoprism](https://github.com/photoprism/photoprism) 基于人工智能的去中心化网络照片应用程序。利用最新技术自动标记和查找图片,而不会妨碍您。您可以在家中、私人服务器或云端运行它。
* [magicleap/SuperGluePretrainedNetwork](https://github.com/magicleap/SuperGluePretrainedNetwork) 强力胶:使用图神经网络学习特征匹配 。一个图神经网络,与最佳匹配层相结合,经过训练以对两组稀疏图像特征执行匹配。包括 PyTorch 代码和预训练权重,用于在 SuperPoint 关键点和描述符之上运行 SuperGlue 匹配网络。给定一对图像,可以使用此存储库提取图像对中的匹配特征。
* [neutraltone/awesome-stock-resources](https://github.com/neutraltone/awesome-stock-resources) 免费图库摄影、视频和插图网站的链接集合
* [aleju/imgaug](https://github.com/aleju/imgaug) 机器学习实验的图像增强。
* [libvips/libvips](https://github.com/libvips/libvips) 一个需求驱动的水平线程图像处理库。与类似的库相比,libvips 运行速度快,占用内存很少。涵盖算术、直方图、卷积、形态操作、频率过滤、颜色、重采样、统计等。它支持从 8 位 int 到 128 位复数的大量数值类型。影像可以具有任意数量的波段。它支持多种图像格式。
* [Charmve/computer-vision-in-action](https://github.com/Charmve/computer-vision-in-action) 学习闭环《计算机视觉实战演练:算法与应用》中文电子书、源码、读者交流社区 [计算机视觉实战演练:算法与应用🌱](https://charmve.github.io/computer-vision-in-action/)
* [raulmur/ORB_SLAM2](https://github.com/raulmur/ORB_SLAM2) 单目、立体和RGB-D相机的实时SLAM,具有环路检测和重新定位功能
* [dk-liang/Awesome-Visual-Transformer](https://github.com/dk-liang/Awesome-Visual-Transformer) 收集一些关于Transformer变压器与计算机视觉的VIT论文。
* [lukasHoel/text2room](https://github.com/lukasHoel/text2room) Text2Room 使用 2D 文本到图像模型 (ICCV2023) 从给定的文本提示生成纹理 3D 网格。
* [facebookresearch/ImageBind](https://github.com/facebookresearch/ImageBind) 一个嵌入空间以绑定图像的所有内容,ImageBind 学习跨六种不同模式的联合嵌入 - 图像、文本、音频、深度、热量和 IMU 数据(惯性测量单元,是用来测量物体加速度、角速度、磁场,高度等)。它支持“开箱即用”的新型紧急应用,包括跨模态检索、使用算术组合模态、跨模态检测和生成。
* [vdumoulin/conv_arithmetic](https://github.com/vdumoulin/conv_arithmetic) 深度学习背景下卷积算法的技术报告
* [eriklindernoren/PyTorch-GAN](https://github.com/eriklindernoren/PyTorch-GAN) 生成对抗网络的 PyTorch 实现。
* [spmallick/learnopencv](https://github.com/spmallick/learnopencv) 此存储库包含博客 LearnOpenCV.com 上共享的计算机视觉、深度学习和 AI 文章的代码。
* [facebookresearch/dino](https://github.com/facebookresearch/dino) 使用PyTorch的自监督学习进行视觉转换器训练的代码
* [facebookresearch/dinov2](https://github.com/facebookresearch/dinov2) 在没有监督的情况下学习强大的视觉特征,DINOv2 模型可产生高性能的视觉特征,这些特征可以直接与分类器一起使用,就像在各种计算机视觉任务中执行线性层一样简单;这些视觉功能非常强大,并且在各个领域中表现良好,无需任何微调。这些模型在包含 142 M 张图像的数据集上进行了预训练,没有使用任何标签或注释。
* [python-pillow/Pillow](https://github.com/python-pillow/Pillow) Jeffrey A. Clark (Alex) 和贡献者推出的友好 PIL 叉。PIL 是 Fredrik Lundh 和贡献者开发的 Python 图像库。
* [Zulko/moviepy](https://github.com/Zulko/moviepy) 用于视频编辑的 Python 库:剪切、串联、标题插入、视频合成(又名非线性编辑)、视频处理和创建自定义效果。可以读取和写入所有最常见的音频和视频格式,包括 GIF,并使用 Python 3.6+ 在 Windows/Mac/Linux 上运行。
* [abhiTronix/vidgear](https://github.com/abhiTronix/vidgear) 高性能视频处理 Python 库,它提供了一个易于使用、高度可扩展、彻底优化的多线程 + Asyncio API 框架,它基于许多最先进的专业库,如 OpenCV、FFmpeg、ZeroMQ、picamera、starlette、yt_dlp、pyscreenshot、dxcam、aiortc 和 python-mss 在其后端服务,使我们能够灵活地利用它们的内部参数和方法,同时静默地提供强大的错误处理和实时性能
* [Breakthrough/PySceneDetect](https://github.com/Breakthrough/PySceneDetect) 基于 Py 和 OpenCV 的场景剪切/过渡检测程序和库。
* [torch-points3d/torch-points3d](https://github.com/torch-points3d/torch-points3d) 用于在点云上进行深度学习的 Pytorch 框架。用于根据经典基准运行用于点云分析任务的常见深度学习模型。它严重依赖 Pytorch Geometric 和 Facebook Hydra。
* [alex000kim/nsfw_data_scraper](https://github.com/alex000kim/nsfw_data_scraper) 训练 NSFW 图像分类器的脚本集合
* [tnfe/FFCreator](https://github.com/tnfe/FFCreator) 基于Node.js的轻量级灵活的短视频处理库。您只需要添加一些图片、音乐或视频剪辑,就可以使用它快速创建非常令人兴奋的视频相册。
* [HumanSignal/labelImg](https://github.com/HumanSignal/labelImg) 在数十名贡献者的帮助下创建的流行图像注释工具,现已不再积极开发,而是已成为 Label Studio 社区的一部分。查看 Label Studio,这是一款最灵活的开源数据标注工具,适用于图像、文本、超文本、音频、视频和时间序列。
* [pytorch/vision](https://github.com/pytorch/vision) 由流行的数据集、模型架构和用于计算机视觉的常见图像转换组成。
* [Cadene/pretrained-models.pytorch](https://github.com/Cadene/pretrained-models.pytorch) pytorch 预训练的 ConvNet:NASNet、ResNeXt、ResNet、InceptionV4、InceptionResnetV2、Xception、DPN 等。
* [camenduru/ShareGPT4V-colab](https://github.com/camenduru/ShareGPT4V-colab) 使用更好的字幕改进大型多模态模型。一个开创性的大规模资源,拥有 120 万个高度描述性的标题,在多样性和信息内容方面超越了现有的数据集,涵盖了世界知识、物体属性、空间关系和美学评估。具体来说,ShareGPT4V 起源于从高级 GPT4-Vision 收集的精选 100K 高质量字幕,并已扩展到 120 万,并在这个子集上训练了出色的字幕模型。ShareGPT4V 首先证明了其在监督微调 (SFT) 阶段的有效性,方法是用我们的高质量字幕子集替换现有 SFT 数据集中等量的详细字幕,显着增强了 MME 和 MMBench 基准测试上的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMM,分别获得了 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据整合到预训练和 SFT 阶段,获得了 ShareGPT4V-7B,这是一款基于简单架构的卓越 LMM,在大多数多模态基准测试中具有卓越的性能。
* [xbmc/xbmc](https://github.com/xbmc/xbmc) 屡获殊荣的免费开源家庭影院/媒体中心软件和数字媒体娱乐中心。凭借其漂亮的界面和强大的皮肤引擎。
* [obsproject/obs-studio](https://github.com/obsproject/obs-studio) 专为高效捕获、合成、编码、录制和流式传输视频内容而设计的软件。
* [OpenTalker/SadTalker](https://github.com/OpenTalker/SadTalker) [CVPR 2023年]SadTalker:学习逼真的3D运动系数,用于风格化的音频驱动的单图像说话人脸动画
* [glfw/glfw](https://github.com/glfw/glfw) 用于 OpenGL、OpenGL ES 和 Vulkan 应用程序开发的开源多平台库。它提供了一个简单的、独立于平台的 API,用于创建窗口、上下文和图面、读取输入、处理事件等。
* [amusi/CVPR2023-Papers-with-Code](https://github.com/amusi/CVPR2023-Papers-with-Code) CVPR 2023 论文和开源项目合集
* [zalandoresearch/fashion-mnist](https://github.com/zalandoresearch/fashion-mnist) 类似MNIST的时尚产品数据库。Zalando 文章图像的数据集,由包含 60,000 个示例的训练集和包含 10,000 个示例的测试集组成。每个示例都是一个 28x28 灰度图像,与来自 10 个类的标签相关联。我们打算 `Fashion-MNIST` 直接替代原始MNIST数据集,用于对机器学习算法进行基准测试。它与训练和测试拆分的图像大小和结构相同。
* [albumentations-team/albumentations](https://github.com/albumentations-team/albumentations) 用于图像增强的 Python 库。图像增强用于深度学习和计算机视觉任务,以提高训练模型的质量。图像增强的目的是从现有数据创建新的训练样本。支持所有常见的计算机视觉任务,例如分类、语义分割、实例分割、对象检测和姿态估计。提供了一个简单的统一 API 来处理所有数据类型:图像(RBG 图像、灰度图像、多光谱图像)、分割掩码、边界框和关键点。该库包含 70 多种不同的增强,用于从现有数据生成新的训练样本。
* [isl-org/Open3D](https://github.com/isl-org/Open3D) 支持快速开发处理 3D 数据的软件。Open3D 前端在 C++ 和 Python 中公开了一组精心挑选的数据结构和算法。后端经过高度优化,并设置为并行化。
* [microsoft/computervision-recipes](https://github.com/microsoft/computervision-recipes) 计算机视觉的最佳做法、代码示例和文档。应用包括人脸识别、图像理解、搜索、无人机、测绘、半自动和自动驾驶汽车。其中许多应用的关键部分是视觉识别任务,例如图像分类、对象检测和图像相似性。
* [esimov/caire](https://github.com/esimov/caire) 基于 Seam Carving for Content-Aware Image Adjustment 的内容感知图像大小调整库。
* [PointCloudLibrary/pcl](https://github.com/PointCloudLibrary/pcl) 点云库 (PCL) 是一个独立的、大规模的、开放的项目,用于 2D/3D 图像和点云处理。已发布模块如下:filters 过滤器、features 特征、keypoints 关键点、registration注册、kdtree 、octree八叉树、segmentation 分割 、sample_consensus 、surface表面、recognition识别、io、visualization可视化
* [timzhang642/3D-Machine-Learning](https://github.com/timzhang642/3D-Machine-Learning) 近年来,3D机器学习领域取得了巨大的进展,这是一个融合了计算机视觉、计算机图形学和机器学习的跨学科领域。这个 repo 源自我的学习笔记,将用作对新研究论文进行分类的地方。
* [kjw0612/awesome-deep-vision](https://github.com/kjw0612/awesome-deep-vision) 用于计算机视觉的深度学习资源精选列表
* [doitsujin/dxvk](https://github.com/doitsujin/dxvk) 基于 Vulkan 的 D3D9、D3D10 和 D3D11 for Linux / Wine 实现。适用于 Direct3D 9/10/11 的基于 Vulkan 的转换层,允许使用 Wine 在 Linux 上运行 3D 应用程序。
* [EBazarov/nsfw_data_source_urls](https://github.com/EBazarov/nsfw_data_source_urls) 收集NSFW 图像 URL,用于训练NSFW图像分类器
* [FujiwaraChoki/MoneyPrinter](https://github.com/FujiwaraChoki/MoneyPrinter) 使用 MoviePy 自动创建 YouTube Shorts。
* [JoeyDeVries/LearnOpenGL](https://github.com/JoeyDeVries/LearnOpenGL) 本书及其随附网站中所有 OpenGL 章节的代码存储库 learnopengl.com
* [0voice/audio_video_streaming](https://github.com/0voice/audio_video_streaming) 音视频流媒体权威资料整理,500+份文章,论文,视频,实践项目,协议,业界大神名单。
* [danielgatis/rembg](https://github.com/danielgatis/rembg) 去除图像背景的工具
* [Curzibn/Luban](https://github.com/Curzibn/Luban) 可能是最接近微信朋友圈的图片压缩算法
* [leandromoreira/digital_video_introduction](https://github.com/leandromoreira/digital_video_introduction) 视频技术的实践介绍:图像、视频、编解码器(av1、vp9、h265)等(ffmpeg 编码)
* [mltframework/shotcut](https://github.com/mltframework/shotcut) 跨平台 (Qt)、开源 (GPLv3) 视频编辑器
* [ssloy/tinyrenderer](https://github.com/ssloy/tinyrenderer) 简短的计算机图形学/渲染课程,通过编写 OpenGL 的克隆(一个简化得多的克隆)来展示 OpenGL 的工作方式。令人惊讶的是,我经常遇到无法克服学习 OpenGL / DirectX 的最初障碍的人。因此,我准备了一系列简短的讲座,之后我的学生展示了相当不错的渲染器。
* [phillipi/pix2pix](https://github.com/phillipi/pix2pix) 使用条件对抗网络进行图像到图像转换
* [graphdeco-inria/gaussian-splatting](https://github.com/graphdeco-inria/gaussian-splatting) “用于实时辐射场渲染的 3D 高斯飞溅”的原始参考实现,摘要:光辉场方法最近彻底改变了用多张照片或视频拍摄的场景的新颖视图合成。然而,实现高视觉质量仍然需要神经网络,而神经网络的训练和渲染成本很高,而最近的更快方法不可避免地会以速度换取质量。对于无界和完整的场景(而不是孤立的对象)和 1080p 分辨率渲染,目前没有一种方法可以实现实时显示速率。我们介绍了三个关键要素,使我们能够在保持有竞争力的训练时间的同时实现最先进的视觉质量,重要的是,它们允许在 1080p 分辨率下进行高质量的实时(≥ 30 fps)新颖视图合成。首先,从相机校准过程中产生的稀疏点开始,我们用 3D 高斯来表示场景,它保留了连续体积辐射场的理想属性以进行场景优化,同时避免了在空白空间中不必要的计算;其次,我们对三维高斯进行交错优化/密度控制,特别是优化各向异性协方差,以实现场景的准确表示;第三,我们开发了一种快速可见性感知渲染算法,该算法支持各向异性飞溅,既能加速训练,又能实现实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染。
* [NVlabs/stylegan2](https://github.com/NVlabs/stylegan2) 分析和改进StyleGAN的图像质量
* [NVlabs/stylegan](https://github.com/NVlabs/stylegan) StyleGAN - 官方 TensorFlow 实现
* [hindupuravinash/the-gan-zoo](https://github.com/hindupuravinash/the-gan-zoo) 每周都有新的GAN论文问世,很难全部跟踪,更不用说研究人员为这些GAN命名的令人难以置信的创造性方式了!所以,这里有一个列表,最初是一个有趣的活动,汇编了所有命名的 GAN!
* [tonybeltramelli/pix2code](https://github.com/tonybeltramelli/pix2code) 从图形用户界面屏幕截图生成代码
* [alyssaxuu/screenity](https://github.com/alyssaxuu/screenity) 免费且隐私友好的屏幕录像机,没有限制。功能强大的隐私友好型屏幕录像机和注释工具,可为工作、教育等制作更好的视频。您可以创建令人惊叹的产品演示、教程、演示文稿或与您的团队分享反馈 - 所有这些都是免费的。特征:对您的选项卡、特定区域、桌面、任何应用程序或相机进行无限制的记录;录制麦克风或内部音频,并使用一键通等功能;通过在屏幕上的任意位置绘图、添加文本、箭头、形状等进行注释;使用 AI 驱动的相机背景或模糊来增强您的录制效果;平滑放大录音以专注于特定区域;模糊任何页面的任何敏感内容以保持其私密性;使用全面的编辑器删除或添加音频、剪切、修剪或裁剪您的录音;突出显示您的点击和光标,然后进入聚光灯模式;设置闹钟以自动停止录制;导出为 mp4、gif 和 webm,或将视频直接保存到 Google 云端硬盘以共享链接;设置倒计时、隐藏 UI 的某些部分或将其移动到任何位置;只有您可以看到您的视频,我们不会收集您的任何数据。您甚至可以离线;没有限制,随心所欲地制作任意数量的视频;还有更多 - 全部免费,无需登录
* [thumbor/thumbor](https://github.com/thumbor/thumbor) globo.com 的开源照片缩略图服务,智能成像服务,可实现按需裁剪、调整大小、应用滤镜和优化图像。自动裁剪照片可能是一种令人沮丧的体验,涉及断头。thumbor 使用 AI 进行智能检测。
* [ImageMagick/ImageMagick](https://github.com/ImageMagick/ImageMagick) ImageMagick® 是一个免费的开源软件套件,用于编辑和操作数字图像。它可用于创建、编辑、合成或转换位图图像,并支持多种文件格式,包括 JPEG、PNG、GIF、TIFF 和 PDF。ImageMagick 广泛应用于 Web 开发、平面设计和视频编辑等行业,以及科学研究、医学成像和天文学。其多功能性和可定制性,以及强大的图像处理能力,使其成为各种图像相关任务的热门选择。ImageMagick 包括一个用于执行复杂图像处理任务的命令行界面,以及用于将其功能集成到软件应用程序中的 API。它是用 C 语言编写的,可以在各种操作系统上使用,包括 Linux、Windows 和 macOS。
* [ByteDance/Hyper-SD](https://huggingface.co/ByteDance/Hyper-SD) Hyper-SD是最先进的扩散模型加速技术之一。在这个存储库中,我们发布了从 SDXL Base 1.0 和 Stable-Diffusion v1-5 中提炼出来的模型。协同融合了 ODE 轨迹保留和重新制定的优点,同时在阶跃压缩期间保持近乎无损的性能。首先,我们引入了轨迹分段一致性蒸馏,在预定义的时间步长段内逐步进行一致蒸馏,这有助于从高阶角度保留原始常微分方程轨迹。其次,我们结合了人工反馈学习,以提高模型在低步长状态下的性能,并减轻蒸馏过程产生的性能损失。第三,我们集成了分数蒸馏,以进一步提高模型的低步长生成能力,并首次尝试利用统一的 LoRA 来支持所有步骤的推理过程。大量的实验和用户研究表明,Hyper-SD 在 SDXL 和 SD1.5 上都能实现 1 到 8 个推理步骤的 SOTA 性能。
* [segmind/SSD-1B](https://huggingface.co/segmind/SSD-1B) Segmind Stable Diffusion Model (SSD-1B) 是 Stable Diffusion XL (SDXL) 的精炼 50% 缩小版本,提供 60% 的加速,同时保持高质量的文本到图像生成功能。它已经在各种数据集上进行了训练,包括 Grit 和 Midjourney 抓取数据,以增强其基于文本提示创建各种视觉内容的能力。该模型采用知识蒸馏策略,先后利用多个专家模型(包括 SDXL、ZavyChromaXL 和 JuggernautXL)的教学,结合它们的优势并产生令人印象深刻的视觉输出。
* [image-rs/image](https://github.com/image-rs/image) 在 Rust 中编码和解码图像,提供了基本的图像处理功能和方法,用于在各种图像格式之间进行转换。提供的所有图像处理函数都对实现 GenericImageView 和 GenericImage 特征并返回 ImageBuffer .
* [darktable-org/darktable](https://github.com/darktable-org/darktable) Darktable 是一个开源摄影工作流程应用程序和 RAW 开发人员。Darktable 是一个开源摄影工作流程应用程序和非破坏性 RAW 开发人员 - 摄影师的虚拟 LightTable 和暗室。它在数据库中管理您的数字底片,让您可以通过可缩放的光照表查看它们,并使您能够开发原始图像、增强它们并将它们导出到本地或远程存储。darktable 不是免费的 Adobe® Lightroom® 替代品。
* [roboflow/inference](https://github.com/roboflow/inference) 用于计算机视觉的快速、易于使用、生产就绪的推理服务器,支持许多流行的模型架构和微调模型的部署。Roboflow Inference 是一个开源平台,旨在简化计算机视觉模型的部署。它使开发人员能够执行对象检测、分类和实例分割,并通过 Python 原生包、自托管推理服务器或完全托管的 API 利用 CLIP、Segment Anything 和 YOLO-World 等基础模型。
* [kovacsv/Online3DViewer](https://github.com/kovacsv/Online3DViewer) 在浏览器中可视化和探索 3D 模型的解决方案。在线 3D 查看器 (https://3dviewer.net) 是一种免费的开源 Web 解决方案。
# 因果推断
* [microsoft/EconML](https://github.com/microsoft/EconML) ALICE(因果关系和经济学的自动学习和智能)是微软研究项目,旨在将AI概念应用于经济决策。 其目标之一是构建一个工具包,将最先进的机器学习技术与计量经济学相结合,以便将自动化应用于复杂的因果关系
* [Microsoft/dowhy](https://github.com/Microsoft/dowhy) 用于因果推理的 Python 库,它支持因果假设的显式建模和测试。 DoWhy 基于因果推理的统一语言,结合了因果图模型和潜在结果框架。
* [FenTechSolutions/CausalDiscoveryToolbox](https://github.com/FenTechSolutions/CausalDiscoveryToolbox) 图形和成对设置中的因果推断包。 包括用于图结构恢复和依赖关系的工具。
* [uber/causalml](https://github.com/uber/causalml) 使用机器学习算法进行提升建模和因果推理
* [erdogant/bnlearn](https://github.com/erdogant/bnlearn) 贝叶斯网络的图形结构、参数学习、推理和采样方法的 Py包。
* [rguo12/awesome-causality-algorithms](https://github.com/rguo12/awesome-causality-algorithms) 用数据学习因果关系的算法索引
* [gcastle](https://github.com/huawei-noah/trustworthyAI/tree/master/gcastle) 华为诺亚方舟实验室自研的因果结构学习工具链,主要的功能包括:数据生成及处理;因果图构建: 包含了主流的因果学习算法以及最近兴起的基于梯度的因果结构学习算法;因果评价: 提供因果结构学习评价指标,包括F1, SHD, FDR, TPR, FDR, NNZ等。
* [cmu-phil/causal-learn](https://github.com/cmu-phil/causal-learn) 用于因果发现的 python 包,它实现了经典和最先进的因果发现算法,它是Tetrad的 Python 翻译和扩展。
* [DataCanvasIO/YLearn](https://github.com/DataCanvasIO/YLearn) 因果学习算法工具包,支持因果学习任务中的各类相关任务,从因果效应识别(causal effect idenfitication),到因果效应估计(causal effect estimation),到因果发现(causal discovery)等等,都可以通过YLearn实现。
* [huawei-noah/trustworthyAI](https://github.com/huawei-noah/trustworthyAI) 基于图自编码器的因果结构学习模型
* [wanyu-lin/ICML2021-Gem](https://github.com/wanyu-lin/ICML2021-Gem) 针对图神经网络的通用因果解释方法
* [econometric/CausalitySlides](https://gitee.com/econometric/CausalitySlides) 西雅图大学因果推理课程的幻灯片
* [pgmpy/pgmpy](https://github.com/pgmpy/pgmpy) 用于学习(结构和参数)、推理(概率和因果)以及贝叶斯网络模拟的 Py库。
* [quantumblacklabs/causalnex](https://github.com/quantumblacklabs/causalnex) 可帮助数据科学家推断因果关系而不是观察相关性的Py 库。
* [google/CausalImpact](https://github.com/google/CausalImpact) 用于时间序列中因果推理的 R 包
* [quantumblacklabs/causalnex](https://github.com/quantumblacklabs/causalnex) “使用贝叶斯网络进行因果推理的工具包。”利用贝叶斯网络来识别数据中的因果关系,以便我们可以从分析中制定正确的干预措施。 与基于模式识别和相关性分析的传统机器学习方法相比,利用贝叶斯网络更直观地描述因果关系。 CausalNex 旨在简化因果关系和反事实分析的端到端流程。
* [fulifeng/Causal_Reading_Group](https://github.com/fulifeng/Causal_Reading_Group) 不定期更新有关机器学习+因果论的论文列表,同时也会在每周内讨论NExT++(NUS)和LDS(USTC)之间的相关论文。
* [matheusfacure/python-causality-handbook](https://github.com/matheusfacure/python-causality-handbook) 勇敢和真实的因果推理。学习影响估计和因果关系的轻松而严格的方法。轻松而严谨的学习影响评估和敏感性分析方法。一切都在 Python 中,并带有尽可能多的模因。
# 金融股票与时间序列
## 金融股票
* [microsoft/qlib](https://github.com/microsoft/qlib) Qlib是一个面向AI的量化投资平台,旨在实现潜力,增强研究能力并创造AI技术在量化投资中的价值。包括多个模型。
* [QUANTAXIS/QUANTAXIS](https://github.com/QUANTAXIS/QUANTAXIS) 量化金融策略框架
* [ricequant/rqalpha](https://github.com/ricequant/rqalpha) 从数据获取、算法交易、回测引擎,实盘模拟,实盘交易到数据分析,为程序化交易者提供了全套解决方案
* [cedricporter/funcat](https://github.com/cedricporter/funcat) 将同花顺、通达信、文华财经麦语言等的公式写法移植到了 Python
* [georgezouq/awesome-deep-reinforcement-learning-in-finance](https://github.com/georgezouq/awesome-deep-reinforcement-learning-in-finance) 金融市场上使用的那些AI(RL/DL/SL/进化/遗传算法)的集合
* [wangshub/RL-Stock](https://github.com/wangshub/RL-Stock) 如何用深度强化学习自动炒股。
* [tensortrade-org/tensortrade](https://github.com/tensortrade-org/tensortrade) 一个开源强化学习框架,用于训练,评估和部署强大的交易程序。
* [juspay/hyperswitch](https://github.com/juspay/hyperswitch) 用 Rust 编写的开源支付开关,使支付快速、可靠且经济实惠。社区主导的开放式支付交换机,可为每个数字企业提供最佳支付基础设施。使用 Hyperswitch,您可以:减少对 Stripe 或 Braintree 等单个处理器的依赖;将开发工作量减少 90%,以添加和维护集成;通过无缝故障转移和自动重试提高成功率;通过智能路由降低处理费用;通过完全可见性和控制力自定义支付流程;通过本地/替代支付方式扩大业务覆盖面。截至 2023 年 9 月,我们支持 50+ 种支付处理器和多种全球支付方式。此外,我们还根据新处理器的覆盖范围和社区要求不断集成新处理器。我们的目标是到 2023 年下半年支持 100+ 处理器。您可以在此处找到最新的支付处理器列表、支持的方法和功能。
* [wilsonfreitas/awesome-quant](https://github.com/wilsonfreitas/awesome-quant) 适用于量化金融的精选库、软件包和资源列表
* [OpenBB-finance/OpenBBTerminal](https://github.com/OpenBB-finance/OpenBBTerminal) 适合每个人、任何地方的投资研究。OpenBB致力于通过专注于每个人都可以访问的开源基础架构来构建投资研究的未来。
* [bsolomon1124/pyfinance](https://github.com/bsolomon1124/pyfinance) 为投资管理和证券收益分析而构建的Python分析包。主要是对面向定量金融的现有包进行补充,如pyfolio和pandas-datareader等。pyfinance包含六个模块,它们分别是:datasets.py :金融数据下载,基于request进行数据爬虫;general.py:通用财务计算,例如主动份额计算,收益分配近似值和跟踪误差优化;ols.py:回归分析,支持pandas滚动窗口回归;options.py:期权衍生品计算和策略分析;returns.py:通过CAPM框架对财务时间序列进行统计分析,旨在模拟FactSet Research Systems和Zephyr等软件的功能,并提高了速度和灵活性;utils.py:基础架构。
* [quantopian/alphalens](https://github.com/quantopian/alphalens) Python量化分析库,量化网站quantopian开发维护的量化三件套之一,用于股票因子(alpha)的性能分析。alphalens与zipline以及pyfolio常常一同使用,其中,pyfolio提供财务组合的性能和风险分析,zipline用于量化策略回测。alphalens的主要功能包括对一个alpha因子进行统计和绘图,包括:因子收益分析、因子信息系数分析、换手率分析以及分组分析。
* [quantopian/pyfolio](https://github.com/quantopian/pyfolio) 用于金融投资组合的性能和风险分析。它可以很好地与Zipline回测库一起工作。
* [quantopian/zipline](https://github.com/quantopian/zipline) 美国著名量化策略平台quantopian开发和维护的量化交易库,并且quantopian平台的回测引擎也是基于zipline的,除此之外,像国内有名的矿聚宽(JointQuant)、米筐(RiceQuant)、优矿的回测引擎也是基于此。zipline是一种事件驱动(event-driven)的回测框架,有完整的文档和社区,如果你是对国外美股交易感兴趣,那么zipline将比较合适;但是对于国内像A股的数据则无法支持,只能通过本地化的数据进行回测。
* [UFund-Me/Qbot](https://github.com/UFund-Me/Qbot) AI 自动量化交易机器人,旨在实现量化投资的潜力,赋能人工智能技术。支持多种机器学习建模范式。包括监督学习、市场动态建模和强化学习。
* [gbeced/pyalgotrade](https://github.com/gbeced/pyalgotrade) 一个事件驱动的回测框架,虽然不如zipline的名气大,但是同样也具有完善的社区和详细的文档。据说pyalgotrade的运行速度和灵活度要比zipline强,但是缺点是不支持pandas。
* [mementum/backtrader](https://github.com/mementum/backtrader) 一个功能强大的量化策略回测平台。backtrader允许你专注于编写可重用的交易策略、指标和分析工具,而不是花时间构建基础设施。
* [enigmampc/catalyst](https://github.com/enigmampc/catalyst) 对于虚拟货币交易的量化回测平台。Catalyst是一个底层基于zipline的算法交易框架,目前比较成熟,并且可以支持策略的回测与实盘( 目前支持四家交易所 Binance, Bitfinex, Bittrex, Poloniex) 。
* [vnpy/vnpy](https://github.com/vnpy/vnpy) 国内由陈晓优团队开发量化交易框架,它目前在github上star和fork的数量已经超过了zipline,目前是全球开源量化框架的首位。vn.py主要侧重于实盘交易,同样支持通过历史数据进行回测,包括数据的可视化、收益结果、参数调优等,除此之外,它还具备一些常用的CTA策略、SpreadTrading价差交易、行情录制等功能,并且它还具备完善的社区以及教程。新手在使用时,可以通过它的GUI环境VN Station进行使用,同时也可以基于它的策略模版进行自定义的策略开发。
* [waditu/tushare](https://github.com/waditu/tushare) 拥有丰富的数据内容,如股票、基金、期货、数字货币等行情数据,公司财务、基金经理等基本面数据。其SDK开发包支持语言,同时提供HTTP Restful接口,最大程度方便不同人群的使用。并且,它提供多种数据储存方式,如Oracle、MySQL,MongoDB、HDF5、CSV等,为数据获取提供了性能保证。
* [jindaxiang/akshare](https://github.com/jindaxiang/akshare) 基于 Py 的财经数据接口库, 目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具, 主要用于学术研究目的。特点是获取的是相对权威的财经数据网站公布的原始数据, 通过利用原始数据进行各数据源之间的交叉验证, 进而再加工, 从而得出科学的结论。
* [AI4Finance-LLC/FinRL-Library](https://github.com/AI4Finance-LLC/FinRL-Library) 哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库
* [Heerozh/spectre](https://github.com/Heerozh/spectre) GPU 加速的因子分析库和回测工具。
* [stefan-jansen/machine-learning-for-trading](https://github.com/stefan-jansen/machine-learning-for-trading) 旨在展示ML如何以实用而全面的方式为算法交易策略增加价值。它涵盖了从线性回归到深度强化学习的广泛 ML 技术,并演示了如何构建、回测和评估由模型预测驱动的交易策略。
* [midas-research/sthan-sr-aaai](https://github.com/midas-research/sthan-sr-aaai) 通过时空超图注意力网络进行股票选择:一种学习排名方法
* [yumoxu/stocknet-dataset](https://github.com/yumoxu/stocknet-dataset) 从推文和历史股价预测股票走势的综合数据集。
* [goiter/CoCPC](https://github.com/goiter/CoCPC) 基于 Copula 的对比预测编码 (Co-CPC)。通过考虑与宏观经济指标的耦合来发布股票走势预测的代码和数据。
* [hkgsas/LOB](https://github.com/hkgsas/LOB) 中国市场限价订单短期市场预测基准数据集。
* [jrothschild33/learn_backtrader](https://github.com/jrothschild33/learn_backtrader) BackTrader中文教程笔记,系统性介绍Bactrader的特性、策略构建、数据结构、回测交易等,彻底掌握量化神器的使用方法。章节:介绍篇、数据篇、指标篇、交易篇、策略篇、可视化篇…
* [AI4Finance-Foundation/FinRL-Meta](https://github.com/AI4Finance-Foundation/FinRL-Meta) 数据驱动金融强化学习的市场环境和基准
* [AI4Finance-Foundation/FinRL-Live-Trading](https://github.com/AI4Finance-Foundation/FinRL-Live-Trading) 自动股票交易的深度强化学习:一种集成策略。ICAIF 2020。
* [AI4Finance-Foundation/DQN-DDPG_Stock_Trading](https://github.com/AI4Finance-Foundation/DQN-DDPG_Stock_Trading) 使用 DQN/DDPG 进行股票交易。Xiong, Z.、Liu, XY、Zhong, S.、Yang, H. 和 Walid, A.,2018 年。股票交易的实用深度强化学习方法,NeurIPS 2018 AI in Finance Workshop。
* [AI4Finance-Foundation/FinRL_Podracer](https://github.com/AI4Finance-Foundation/FinRL_Podracer) 一个优雅(轻量级、高效且稳定)的 FinRL 库,允许研究人员和量化交易者轻松开发算法策略。
* [tkfy920/qstock](https://github.com/tkfy920/qstock) 打造成个人量化投研分析包,目前包括数据获取(data)、可视化(plot)、选股(stock)和量化回测(策略backtest)模块。 qstock将为用户提供简洁的数据接口和规整化后的金融市场数据。可视化模块为用户提供基于web的交互图形的简单接口; 选股模块提供了同花顺的选股数据和自定义选股,包括RPS、MM趋势、财务指标、资金流模型等; 回测模块为大家提供向量化(基于pandas)和基于事件驱动的基本框架和模型。
* [je-suis-tm/quant-trading](https://github.com/je-suis-tm/quant-trading) Python 量化交易策略,包括 VIX 计算器、模式识别、商品交易顾问、蒙特卡洛、期权跨式、射击之星、伦敦突破、Heikin-Ashi、配对交易、RSI、布林带、抛物线 SAR、双推力、真棒、MACD
* [AlgoTraders/stock-analysis-engine](https://github.com/AlgoTraders/stock-analysis-engine) 回测 1000 种每分钟交易算法,使用来自 IEX、Tradier 和 FinViz 的自动定价数据训练 AI。数据集和交易表现自动发布到 S3,用于构建 AI 训练数据集,以教授 DNN 如何交易。在 Kubernetes 和 docker-compose 上运行。
* [amor71/LiuAlgoTrader](https://github.com/amor71/LiuAlgoTrader) 一个可扩展的、多进程的 ML 就绪框架,用于有效的算法交易。该框架简化了开发、测试、部署、分析和训练算法交易策略。该框架自动分析交易会话、超参数优化,分析可用于训练预测模型。
* [bbfamily/abu](https://github.com/bbfamily/abu) 阿布量化交易系统(股票,期权,期货,比特币,机器学习) 基于python的开源量化交易,量化投资架构
* [QuantConnect/Lean](https://github.com/QuantConnect/Lean) 开源算法交易引擎,旨在简化策略研究、回测和实时交易。我们与常见的数据提供商和经纪公司集成,因此您可以快速部署算法交易策略。
* [StockSharp/StockSharp](https://github.com/StockSharp/StockSharp) 算法交易和量化交易开源平台,用于开发交易机器人(股票市场、外汇、加密货币、比特币和期权)。
* [cantaro86/Financial-Models-Numerical-Methods](https://github.com/cantaro86/Financial-Models-Numerical-Methods) 量化金融的笔记本集合,带有交互式py代码。偏微分方程方法、Lévy 过程、傅里叶方法或卡尔曼滤波等主题。内容:1.1) Black-Scholes 布莱克-斯科尔斯数值方法(对数正态分布、测度变化、蒙特卡罗、二项式方法)。1.2) SDE仿真与统计(路径生成、置信区间、假设检验、几何布朗运动、Cox-Ingersoll-Ross过程、Euler Maruyama法、参数估计)1.3) 傅里叶反演方法(反演公式、数值反演、期权定价、FFT、刘易斯公式)1.4) SDE、Heston 模型(相关布朗运动、Heston 路径、Heston 分布、特征函数、期权定价)1.5) SDE,莱维过程(默顿,方差伽玛,NIG,路径生成,参数估计)2.1)布莱克-斯科尔斯偏微分方程(偏微分方程离散化,隐式方法,稀疏矩阵教程)2.2) 奇异期权(二元期权、障碍期权、亚洲期权)2.3) 美式期权(偏微分方程、早期行权、二项式法、Longstaff-Schwartz、永续看跌期权)3.1) Merton Jump-Diffusion PIDE(隐式-显式离散化、离散卷积、模型限制、蒙特卡罗、傅里叶反演、半闭式)3.2) Gamma Variance PIDE(近似跳跃扩散PIDE、蒙特卡洛、傅里叶反演、与Black-Scholes的比较)3.3) 正态逆高斯PIDE(近似跳跃扩散PIDE、蒙特卡罗、傅里叶反演、Lévy测度的性质)4.1) 交易成本定价(Davis-Panas-Zariphopoulou 模型、奇异控制问题、HJB 变分不等式、无差异定价、二项式树、性能)4.2) 波动率微笑和模型校准(波动率微笑、寻根方法、校准方法)5.1) 线性回归和卡尔曼滤波(市场数据清洗、线性回归方法、卡尔曼滤波设计、参数选择)5.2) 卡尔曼自相关跟踪 - AR(1) 过程(自回归过程、估计方法、卡尔曼滤波、卡尔曼平滑、变量自相关跟踪)5.3) 波动率跟踪(赫斯顿模拟、假设检验、分布拟合、估计方法、GARCH(1,1)、卡尔曼滤波、卡尔曼平滑)6.1) Ornstein-Uhlenbeck过程及应用(参数估计、命中时间、Vasicek PDE、卡尔曼滤波、交易策略)7.1) 经典 MVO(均值方差优化、二次规划、仅多头和长空、闭合公式)
* [ranaroussi/yfinance](https://github.com/ranaroussi/yfinance) 从雅虎财经的 API 下载市场数据
* [firefly-iii/firefly-iii](https://github.com/firefly-iii/firefly-iii) 免费开源的个人理财经理,可以帮助您跟踪您的支出和收入,因此您可以花更少的钱并节省更多的钱。Firefly III 支持使用预算、类别和标签。使用一堆外部工具,您可以导入数据。它还有许多简洁的财务报告。
## 时间序列
* [Zeying-Gong/PatchMixer](https://github.com/Zeying-Gong/PatchMixer) 最先进的长期时间序列预测,用于长期时间序列预测的 Patch-Mixing 架构。PatchMixer 主要由两个卷积层和两个预测头组成。它的显着特点是“补丁混合”设计,这意味着模型最初将输入时间序列分割成更小的时间补丁,然后集成来自这些补丁内部和之间的信息。从定量上看,与最先进的 Transformer (PatchTST) 相比,PatchMixer 在 MSE 上总体上相对减少了 3.9%,在 MAE 上相对减少了 3.0%。当根据性能最佳的基于 MLP 的模型 (DLinear) 进行评估时,我们的模型显示 MSE 上的 11.6% 和 MAE 上的 9.4% 总体下降。此外,与基于CNN的最佳模型(TimesNet)的可实现结果相比,我们证明了MSE上21.2%和MAE上12.5%的总体相对减少显着。
* [HuggingFace 中的 PatchTSMixer - 入门](https://github.com/huggingface/blog/blob/main/patchtsmixer.md) 基于MLP-Mixer架构的轻量级时间序列建模方法。PatchTSMixer 在预测方面优于最先进的 MLP 和 Transformer 模型,差距很大,为 8-60%。它还优于 Patch-Transformer 型号的最新强大基准测试(1-2%),内存和运行时间显着减少 (2-3 倍)。有关详细信息,请参阅[论文](https://arxiv.org/pdf/2306.09364.pdf)。概述:PatchTSMixer 将给定的输入多变量时间序列拆分为一系列补丁或窗口。随后,它将序列传递到嵌入层,该嵌入层生成多维张量。多维张量随后传递到 PatchTSMixer 主干网,主干网由一系列 MLP Mixer 层组成。每个 MLP 混频器层通过一系列排列和 MLP 操作来学习 patch 间、 patch 内和 channel 间的相关性。PatchTSMixer 还采用残余连接和门控注意力来优先考虑重要特征。因此,一系列 MLP 混频器层创建了以下 PatchTSMixer 主干。PatchTSMixer 采用模块化设计,可无缝支持掩码时间序列预训练以及直接时间序列预测。
* [thuml/Autoformer](https://github.com/thuml/Autoformer) 用于长期序列预测的具有自相关性的分解变压器。Autoformer超越了Transformer系列,首次实现了串联。在六个基准上进行实验,涵盖五个主流应用程序。我们将我们的模型与十个基线进行比较,包括 Informer、N-BEATS 等。通常,对于长期预测设置,Autoformer 实现了 SOTA,相对于之前的基线有38% 的相对改进。
* [alan-turing-institute/sktime](https://github.com/alan-turing-institute/sktime) 时间序列的机器学习统一框架 。包括时间序列分类、回归、聚类、注释和预测。
* [facebook/prophet](https://github.com/facebook/prophet) 用于为具有线性或非线性增长的多个季节性的时间序列数据生成高质量预测的工具。
* [jdb78/pytorch-forecasting](https://github.com/jdb78/pytorch-forecasting) pytorch的时间系列预测库,模型包括:RecurrentNetwork、DecoderMLP、NBeats 、DeepAR 、TemporalFusionTransformer。
* [qingsongedu/time-series-transformers-review](https://github.com/qingsongedu/time-series-transformers-review) 专业策划的关于时间序列的变压器的很棒的资源(论文、代码、数据等)列表。
* [Nixtla/statsforecast](https://github.com/Nixtla/statsforecast) 使用统计和计量经济学模型进行闪电般的快速预测。StatsForecast 提供了一系列广泛使用的单变量时间序列预测模型,包括自动 ARIMA、ETS、CES 和 Theta 建模,这些建模针对使用 numba 的高性能进行了优化。它还包括大量基准测试模型。目前用于统计模型的 Python 替代方案速度慢、不准确且扩展性不佳。因此,我们创建了一个库,可用于在生产环境中进行预测或作为基准测试。StatsForecast 包括大量的模型,可以有效地拟合数百万个时间序列。
* [google-research/timesfm](https://github.com/google-research/timesfm) TimesFM(时间序列基础模型)是由 Google Research 开发的用于时间序列预测的预训练时间序列基础模型。TimesFM-1.0-200M是第一个开放模型检查点:它使用可选的频率指示器,对多达 512 个时间点和任何地平线长度的上下文长度执行单变量时间序列预测;它侧重于点预测,不支持概率预测,我们通过实验提供了分位数头,但它们在预训练后尚未校准;它要求上下文是连续的(即没有“洞”),并且上下文和视界具有相同的频率。
* [Nixtla/nixtla](https://github.com/Nixtla/nixtla) TimeGPT-1:用于预测和异常检测的生产就绪预训练时间序列基础模型。用于在超过 100B 数据点上训练的时间序列的生成式预训练转换器。它只需几行代码即可准确预测零售、电力、金融和物联网等各个领域。
* [arrigonialberto86/deepar](https://github.com/arrigonialberto86/deepar) Amazon于2017年提出的基于深度学习的时间序列预测方法
* [fjxmlzn/DoppelGANger](https://github.com/fjxmlzn/DoppelGANger) 使用GAN共享网络时间序列数据:挑战,初步承诺和未解决的问题,IMC 2020(最佳论文入围)
* [AIStream-Peelout/flow-forecast](https://github.com/AIStream-Peelout/flow-forecast) 一个开源的深度学习时间序列预测库。包括模型:Vanilla LSTM、Full transformer、Simple Multi-Head Attention、Transformer w/a linear decoder、DA-RNN (CPU only for now)。
* [tslearn-team/tslearn](https://github.com/tslearn-team/tslearn) 时间序列机器学习python工具包,其中包括了一些基本的时间序列预测或者分类模型,如多层感知机,SVR,KNN以及基本的数据预处理工具和数据集的生成与加载模块。
* [blue-yonder/tsfresh](https://github.com/blue-yonder/tsfresh) 时间序列特征提取python工具包,它会自动计算出大量的时间序列特征。此外,该工具包还包含了一些方法,用于评估回归或分类任务中这些特征的解释能力和重要性。
* [johannfaouzi/pyts](https://github.com/johannfaouzi/pyts) 时间序列分类工具包。提供预处理工具及若干种时间序列分类算法。
* [PaddlePaddle/PaddleTS](https://github.com/PaddlePaddle/PaddleTS) 基于PaddlePaddle的易于使用的深度时间序列建模,包括TSDataset,分析,转换,模型,AutoTS和Ensemble等综合功能模块,支持时间序列预测,表示学习和异常检测等多功能任务。
* [linkedin/greykite](https://github.com/linkedin/greykite) Greykite 库通过其旗舰算法 Silverkite 提供灵活、直观和快速的预测。Silverkite 算法适用于大多数时间序列,尤其适用于趋势或季节性变化点、事件/假日效应和时间依赖性的那些。它是可解释的,因此对于值得信赖的决策和洞察力很有用。
* [amazon-science/chronos-forecasting](https://github.com/amazon-science/chronos-forecasting) 用于概率时间序列预测的预训练(语言)模型,通过缩放和量化将时间序列转换为标记序列,并使用交叉熵损失在这些标记上训练语言模型。经过训练后,通过在历史背景下对多个未来轨迹进行采样来获得概率预测。Chronos 模型已经在大量公开可用的时间序列数据以及使用高斯过程生成的合成数据上进行了训练。
* [zhouhaoyi/Informer2020](https://github.com/zhouhaoyi/Informer2020) 效果远超Transformer的长序列预测,提出了ProbSparse self-attention机制来高效的替换常规的self-attention并且获得了的O(LlogL)时间复杂度以及O(LlogL)的内存使用率,提出了self-attention distilling操作,它大幅降低了所需的总空间复杂度O((2-e)LlogL);我们提出了生成式的Decoder来获取长序列的输出,这只需要一步,避免了在inference阶段的累计误差传播;
* [deeptime-ml/deeptime](https://github.com/deeptime-ml/deeptime) 用于分析时间序列数据,包括降维,聚类和马尔可夫模型估计
* [unit8co/darts](https://github.com/unit8co/darts) python 库,用于对时间序列进行用户友好的预测和异常检测。
* [bashtage/arch](https://github.com/bashtage/arch) 自回归条件异方差 (ARCH) 和其他金融计量经济学工具,用 Python 编写(使用 Cython 和/或 Numba 来提高性能)
* [nnzhan/MTGNN](https://github.com/nnzhan/MTGNN) 通用的图神经网络框架 MTGNN,通过图学习模块融合外部知识和变量之间的单向关系,再使用 mix-hop 传播层和膨胀 inception 捕获空间和时序依赖。
* [VachelHU/EvoNet](https://github.com/VachelHU/EvoNet) Time-Series Event Prediction with Evolutionary State Graph 将时间序列转化为动态图进行表示的方法。该方法成功在阿里云 ·SLS 商业化,作为一项智能巡检服务,可以对大规模时间序列进行异常检测与分析。
* [microsoft/StemGNN](https://github.com/microsoft/StemGNN) 基于图谱分解的时间序列预测。进一步提高多元时间序列预测的准确性。StemGNN 在spectral domain中捕获系列间(inter-series)相关性和时间依赖性(temporal dependencies)。它结合了图傅立叶变换 (GFT) 和离散傅立叶变换 (DFT),GFT对序列间(inter-series)相关性进行建模,而离散傅立叶变换 (DFT) 则对端到端框架中的时间依赖性(temporal dependencies)进行建模。通过 GFT 和 DFT 后,谱表示具有清晰的模式,可以通过卷积和序列学习模块进行有效预测。
* [fulifeng/Temporal_Relational_Stock_Ranking](https://github.com/fulifeng/Temporal_Relational_Stock_Ranking) 基于图神经网络、图谱型数据的收益预测模型
* [emadeldeen24/TS-TCC](https://github.com/emadeldeen24/TS-TCC) 一个无监督的时间序列表示学习框架,通过时间和上下文对比。
* [nnzhan/MTGNN](https://github.com/nnzhan/MTGNN) 基于图神经网络的多变量时间序列预测模型
* [adarnn](https://github.com/jindongwang/transferlearning/tree/master/code/deep/adarnn) 提出自适应的RNN模型,使得其可以更好地泛化。由时序相似性量化和时序分布匹配算法组成,前者用于表征时序中的分布信息,后者通过分布匹配构建广义RNN模型。
* [facebookresearch/Kats](https://github.com/facebookresearch/Kats) 用于分析时间系列数据的工具包,轻量级、易于使用、通用和可扩展的框架,用于执行时间系列分析,从了解关键统计数据和特征、检测变化点和异常,到预测未来趋势。
* [slaypni/fastdtw](https://github.com/slaypni/fastdtw) 近似动态时间规整算法,提供与 O(N)时间和内存复杂性的最佳或接近最佳对齐。
* [ourownstory/neural_prophet](https://github.com/ourownstory/neural_prophet) 基于神经网络的时间系列模型,灵感来自 Facebook Prophet 和 AR-Net,建立在 PyTorch 之上。
* [jsyoon0823/TimeGAN](https://github.com/jsyoon0823/TimeGAN) 时间序列生成对抗网络
* [lucidrains/perceiver-pytorch](https://github.com/lucidrains/perceiver-pytorch) 具有迭代注意的通用感知器,利用非对称注意力机制将输入迭代地提取到一个紧密的潜在空间中,使其能够扩展以处理非常大的输入。
* [alasdairtran/radflow](https://github.com/alasdairtran/radflow) [TheWebConf 2021] Radflow:时间序列网络的循环、聚合和可分解模型
* [eBay/RANSynCoders](https://github.com/eBay/RANSynCoders) 一种无监督的深度学习架构,用于在大型多元时间序列中进行实时异常检测和定位。
* [gzerveas/mvts_transformer](https://github.com/gzerveas/mvts_transformer) 多元时间序列转换器框架
* [zhhlee/InterFusion](https://github.com/zhhlee/InterFusion) KDD 2021:使用分层度量间和时间嵌入的多变量时间序列异常检测和解释
* [NSIBF/NSIBF](https://github.com/NSIBF/NSIBF) 通过神经系统识别和贝叶斯过滤对网络物理系统进行时间序列异常检测
* [winedarksea/AutoTS](https://github.com/winedarksea/AutoTS) AutoTS 是 Python 的时间序列包,旨在快速大规模部署高精度预测。
* [facebookresearch/transformer-sequential](https://github.com/facebookresearch/transformer-sequential) 两篇论文的代码:Feedback Transformer 和 Expire-Span。用于使用类似 Transformer 的架构进行长序列建模。
* [angus924/minirocket](https://github.com/angus924/minirocket) MINIROCKET:用于时间序列分类的非常快速(几乎)确定性转换
* [EvilPsyCHo/Deep-Time-Series-Prediction](https://github.com/EvilPsyCHo/Deep-Time-Series-Prediction) Seq2Seq、Bert、Transformer、WaveNet 用于时间序列预测。
* [locuslab/TCN](https://github.com/locuslab/TCN) 序列建模基准和时间卷积网络
* [jambo6/neuralRDEs](https://github.com/jambo6/neuralRDEs) 长时间序列的神经粗糙微分方程
* [sktime/sktime-dl](https://github.com/sktime/sktime-dl) 基于TensorFlow的深度学习sktime配套包
* [jiwidi/time-series-forecasting-with-python](https://github.com/jiwidi/time-series-forecasting-with-python) 使用 python 进行时间序列预测的以用例为中心的教程
* [timeseriesAI/tsai](https://github.com/timeseriesAI/tsai) 时间序列 Timeseries 深度学习 机器学习 Pytorch fastai | Pytorch / fastai 中用于时间序列和序列的最先进的深度学习库
* [Alro10/deep-learning-time-series](https://github.com/Alro10/deep-learning-time-series) 使用深度学习进行时间序列预测的论文、代码和实验列表
* [ElementAI/N-BEATS](https://github.com/ElementAI/N-BEATS) 基于神经网络的单变量时间序列预测模型
* [yuezhihan/ts2vec](https://github.com/yuezhihan/ts2vec) 一个通用的时间序列表示学习框架
* [firmai/atspy](https://github.com/firmai/atspy) Python 中的自动化时间序列模型
* [cesium-ml/cesium](https://github.com/cesium-ml/cesium) 用于时间序列推理的开源平台。从原始时间序列数据中提取特征,构建机器学习模型,为新数据生成预测。
* [zhengqi98/Hefei_ECG_TOP1](https://github.com/zhengqi98/Hefei_ECG_TOP1) “合肥高新杯”心电人机智能大赛 —— 心电异常事件预测 TOP1 Solution,依据心电图机8导联的数据和年龄、性别特征,预测心电异常事件
* [thuml/Anomaly-Transformer](https://github.com/thuml/Anomaly-Transformer) 基于关联偏差的时间序列异常检测
* [thuml/Nonstationary_Transformers](https://github.com/thuml/Nonstationary_Transformers) 非平稳时间序列的通用预测框架。非平稳的时序数据具有更复杂且难以捕捉的时序依赖,以及随着时间不断变化的数据分布,以往的研究旨在利用平稳化技术消除数据在时间维度上的分布差异,以提高数据本身的可预测性。然而在平稳化后的数据上进行模型训练会限制Transformer建模时序依赖的能力,导致模型仅能学到不易区分的注意力图与较弱的时序依赖,从而产生平稳性过高的预测输出与较大的预测误差,我们称之为过平稳现象(Over-stationarization)。针对非平稳时序预测问题,提出了Non-stationary Transformers,其包含一对相辅相成的序列平稳化(Series Stationarization)和去平稳化注意力(De-stationary Attention)模块,能够广泛应用于Transformer以及变体,一致提升其在非平稳时序数据上的预测效果。
* [microprediction/timemachines](https://github.com/microprediction/timemachines) 利用流行的python时间序列包的功能,如river,pydlm,tbats,pmdarima,statsmodels.tsa,neuralprophet,Facebook Prophet,Uber的orbit,Facebook的greykitite等。
* [ngruver/llmtime](https://github.com/ngruver/llmtime) 大型语言模型是零样本的时间序列预测器
* [rlabbe/Kalman-and-Bayesian-Filters-in-Python](https://github.com/rlabbe/Kalman-and-Bayesian-Filters-in-Python) 使用 Jupyter Notebook 的 Kalman Filter book。专注于建立直觉和经验,而不是形式证明。包括卡尔曼滤波器、扩展卡尔曼滤波器、无迹卡尔曼滤波器、粒子滤波器等。所有练习都包括解决方案。
# 强化学习 Reinforcement Learning
* [ray-project/ray](https://github.com/ray-project/ray) 构建分布式机器学习应用提供简单和通用式的API。Ray打包了Tune、RLlib、RaySGD和Ray Serve等多款机器学习库。
* [google/dopamine](https://github.com/google/dopamine) 多巴胺是强化学习算法快速原型设计的研究框架。它旨在满足对一个小的,易于理解的代码库的需求,用户可以在其中自由地尝试疯狂的想法(推测性研究)。
* [Farama-Foundation/PettingZoo](https://github.com/Farama-Foundation/PettingZoo) 一个用于进行多智能体强化学习研究的 Python 库,类似于[Gym](https://github.com/openai/gym)的多智能体版本。
* [Unity-Technologies/ml-agents](https://github.com/Unity-Technologies/ml-agents) Unity 机器学习代理工具包 (ML-Agents) 是一个开源项目,它使游戏和模拟成为使用深度强化学习和模仿学习训练智能代理的环境。
* [opendilab/DI-star](https://github.com/opendilab/DI-star) 星际争霸2的人工智能平台,具有大规模分布式训练和大师代理。
* [DLR-RM/stable-baselines3](https://github.com/DLR-RM/stable-baselines3) PyTorch 版本的 Stable Baselines,强化学习算法的可靠实现。主要特点:最先进的RL方法、自定义环境、自定义策略、通用接口、观测空间支持、Ipython / 笔记本友好、Tensorboard 支持、PEP8 代码样式、自定义回调、高代码覆盖率、类型提示
* [Farama-Foundation/D4RL](https://github.com/Farama-Foundation/D4RL) 离线强化学习的开源基准。 它为训练和基准测试算法提供标准化的环境和数据集。
* [astooke/rlpyt](https://github.com/astooke/rlpyt) PyTorch中常见深度强化学习算法的模块化优化实现,具有统一的基础设施,支持三个主要系列的算法:策略梯度、深度q学习和q函数策略梯度。旨在成为中小型研究的高吞吐量代码库(大规模意味着像OpenAI Dota与100的GPU)。
* [dennybritz/reinforcement-learning](https://github.com/dennybritz/reinforcement-learning) 强化学习算法的实现。Python,OpenAI Gym,Tensorflow。萨顿的书和大卫·西尔弗的课程的练习和解决方案。
* [keiohta/tf2rl](https://github.com/keiohta/tf2rl) 深度强化学习库,它使用 TF2.x 实现各种深度强化学习算法。
* [ShangtongZhang/reinforcement-learning-an-introduction](https://github.com/ShangtongZhang/reinforcement-learning-an-introduction) Python强化学习的实现
* [rlgraph/rlgraph](https://github.com/rlgraph/rlgraph) 一个框架,用于在研究和实践中快速原型化,定义和执行强化学习算法。RLgraph与大多数其他库不同,因为它可以通过单个组件接口支持TensorFlow(或一般的静态图)或渴望/定义运行执行(PyTorch)。
* [bulletphysics/bullet3](https://github.com/bulletphysics/bullet3) 用于 VR、游戏、视觉效果、机器人、机器学习等的实时碰撞检测和多物理场仿真。
* [deepmind/trfl](https://github.com/deepmind/trfl) 一个建立在TensorFlow之上的库,它公开了几个有用的构建块,用于实现强化学习代理。
* [Ceruleanacg/Personae](https://github.com/Ceruleanacg/Personae) 用于量化交易的Deep Reinforcement Learning & Supervised Learning 的工具和环境的回购。
* [dgriff777/a3c_continuous](https://github.com/dgriff777/a3c_continuous) 采用 pytorch 和 A3G 设计的 A3C LSTM 的连续动作空间版本
* [keras-rl/keras-rl](https://github.com/keras-rl/keras-rl) 在Python中实现了一些最先进的深度强化学习算法,并与深度学习库Keras无缝集成。
* [openai/gym](https://github.com/openai/gym) Gym 是一个开源 Python 库,用于开发和比较强化学习算法,提供标准 API 在学习算法和环境之间进行通信,以及与该 API 兼容的标准环境集。自发布以来,Gym 的 API 已成为执行此操作的现场标准。
* [Farama-Foundation/Gymnasium](https://github.com/Farama-Foundation/Gymnasium) 用于单代理强化学习环境的 API 标准,具有流行的参考环境和相关实用程序(以前称为 Gym)
* [georgezouq/awesome-deep-reinforcement-learning-in-finance](https://github.com/georgezouq/awesome-deep-reinforcement-learning-in-finance) 金融市场上使用的那些AI(RL/DL/SL/进化/遗传算法)的集合
* [brain-tokyo-workshop](https://github.com/google/brain-tokyo-workshop) 世界模型 prettyNEAT
* [google-research/football](https://github.com/google-research/football) 此存储库包含基于开源游戏游戏足球的 RL 环境。
* [tensortrade-org/tensortrade](https://github.com/tensortrade-org/tensortrade) 一个开源强化学习框架,用于训练,评估和部署强大的交易程序。
* [Baekalfen/PyBoy](https://github.com/Baekalfen/PyBoy) 用 Python 编写的 Game Boy 模拟器
* [tencent-ailab/hok_env](https://github.com/tencent-ailab/hok_env) 腾讯王者荣耀AI开放环境
* [google-research/batch_rl](https://github.com/google-research/batch_rl) 离线强化学习
* [tensorflow/agents](https://github.com/tensorflow/agents) TF-Agents是TensorFlow中的强化学习库
* [YingtongDou/Nash-Detect](https://github.com/YingtongDou/Nash-Detect) 通过Nash强化学习进行鲁棒的垃圾邮件发送者检测
* [deepmind/acme](https://github.com/deepmind/acme) 强化学习的研究框架,强化学习组件和代理库
* [XinJingHao/TD3](https://github.com/XinJingHao/TD3) TD3强化算法的实现
* [huawei-noah/xingtian](https://github.com/huawei-noah/xingtian) 刑天(XingTian)是一个组件化的库,用于开发和验证强化学习算法。它支持多种算法,包括DQN,DDPG,PPO和IMPALA等,可以在多个环境中训练代理,例如Gym,Atari,Torcs,StarCraft等。
* [thu-ml/tianshou](https://github.com/thu-ml/tianshou) 天授是基于纯PyTorch强化学习的平台。与现有的强化学习库主要基于TensorFlow,具有许多嵌套类,不友好的API或速度较慢的现有学习库不同,天守提供了快速的模块化框架和pythonic API,用于以最少的行数构建深度强化学习代理代码。
* [Jingliang-Duan/Distributional-Soft-Actor-Critic](https://github.com/Jingliang-Duan/Distributional-Soft-Actor-Critic) 一种用于连续控制任务的强化学习算法—DSAC,其优势在于减少Q值的过估计并显著改进策略的性能。证明了强化学习中引入分布式回报可显著降低Q值的过估计误差,并定量表明此误差与分布的方差呈反比关系。与主流RL算法相比,策略性能提升20% 以上。
* [tencent-ailab/TLeague](https://github.com/tencent-ailab/TLeague) 一种基于竞争性自我驱动的多智能体强化学习框架。
* [minerllabs/minerl](https://github.com/minerllabs/minerl) Minecraft 游戏环境
* [mwydmuch/ViZDoom](https://github.com/mwydmuch/ViZDoom) ZDoom末日的AI研究平台,可从原始视觉信息进行强化学习。
* [openai/retro](https://github.com/openai/retro) 复古游戏
* [rlgraph/rlgraph](https://github.com/rlgraph/rlgraph) 用于深度强化学习的模块化计算图
* [google-research/football](https://github.com/google-research/football) 基于开源游戏Game Football的RL环境
* [TorchCraft/TorchCraftAI](https://github.com/TorchCraft/TorchCraftAI) 可让您建立机器人以学习玩《星际争霸:巢穴之战》。
* [deepmind/pysc2](https://github.com/deepmind/pysc2) 星际争霸II强化学习环境
* [datamllab/rlcard](https://github.com/datamllab/rlcard) 纸牌(扑克)游戏中的强化学习/ AI机器人-大酒杯,勒杜克,德克萨斯州,窦滴竹,麻将,UNO。
* [projects/torcs](sourceforge.net/projects/torcs) ORCS,开放式赛车模拟器是一种高度便携式的多平台赛车模拟。
* [Microsoft/AirSim](https://github.com/Microsoft/AirSim) 基于Unreal Engine / Unity的自动驾驶汽车开源模拟器
* [carla-simulator/carla](https://github.com/carla-simulator/carla) 用于自动驾驶研究的开源模拟器。
* [aitorzip/DeepGTAV](https://github.com/aitorzip/DeepGTAV) GTAV的插件,可将其转变为基于视觉的自动驾驶汽车研究环境。
* [deepdrive/deepdrive](https://github.com/deepdrive/deepdrive) D模拟器,它使拥有PC的任何人都能推动最新的自动驾驶
* [robotology/gym-ignition](https://github.com/robotology/gym-ignition) 使用Ignition Gazebo模拟开发OpenAI Gym机器人环境的框架
* [stanfordnmbl/osim-rl](https://github.com/stanfordnmbl/osim-rl) 具有肌肉骨骼模型的强化学习环境
* [lsw9021/MASS](https://github.com/lsw9021/MASS) 全身肌肉骨骼系统实现了基本的仿真和控制。骨骼运动由肌肉的驱动力来驱动,并与激活水平相协调。通过与python和pytorch的接口,可以使用深度强化学习(DRL)算法,例如近端策略优化(PPO)。
* [deepmind/lab](https://github.com/deepmind/lab) DeepMind Lab为学习代理提供了一套具有挑战性的3D导航和解谜任务。它的主要目的是充当人工智能(尤其是深度强化学习)研究的测试平台。
* [maximecb/gym-minigrid](https://github.com/maximecb/gym-minigrid) OpenAI Gym的简约gridworld软件包
* [maximecb/gym-miniworld](https://github.com/maximecb/gym-miniworld) 用于RL和机器人研究的简单3D室内模拟器
* [minosworld/minos](https://github.com/minosworld/minos) MINOS:多模式室内模拟器 旨在支持在复杂的室内环境中为目标定向导航开发多传感器模型。MINOS利用复杂3D环境的大型数据集,并支持多模式传感器套件的灵活配置。
* [facebookresearch/habitat-sim](https://github.com/facebookresearch/habitat-sim) 灵活,高性能的3D仿真器,适用于嵌入式AI研究。
* [facebookresearch/habitat-lab](https://github.com/facebookresearch/habitat-lab) 一个模块化的高级库,可在各种任务,环境和模拟器中训练嵌入式AI代理。
* [facebookresearch/house3d](https://github.com/facebookresearch/house3d) 逼真的丰富3D环境 由数以千计的室内场景组成,这些场景配有从SUNCG数据集中获取的各种场景类型,布局和对象。它包含超过4.5万个室内3D场景,从工作室到带有游泳池和健身室的两层房屋。
* [staghuntrpg/RPG](https://github.com/staghuntrpg/RPG) 通过奖励随机化发现多智能体游戏中多样性策略行为。通过奖励随机化对原始游戏(StagHunt)的奖励(reward)进行扰动,将问题转化为在扰动后的游戏中寻找合作策略,然后再回到原始游戏中进行微调(fine-tune),进而找到最优策略。
* [daochenzha/rapid](https://github.com/daochenzha/rapid) 一种为每个回合的探索动作打分和排序的机制,以选出好的探索行为。不同于以往基于内部奖励的方法,回合排序算法将好的探索行为记录下来,然后通过模仿学习鼓励智能体探索。初步结果表明,该方法具有非常好的效果,特别是在具有随机性的环境中。
* [AI4Finance-LLC/ElegantRL](https://github.com/AI4Finance-LLC/ElegantRL) 基于PyTorch的轻量-高效-稳定的深度强化学习框架
* [datawhalechina/easy-rl](https://github.com/datawhalechina/easy-rl) 强化学习中文教程
* [kwai/DouZero](https://github.com/kwai/DouZero) 斗地主AI
* [opendilab/DI-engine](https://github.com/opendilab/DI-engine) 通用的决策智能引擎。它支持最基本的深度强化学习 (DRL) 算法,如 DQN、PPO、SAC 和域特定算法,如多代理 RL 中的 QMIX、逆RL 中的 GAIL 和探索问题的 RND。还支持各种培训管道和定制决策 AI 应用程序。
* [kzl/decision-transformer](https://github.com/kzl/decision-transformer) UC 伯克利、FAIR 和谷歌大脑的研究者提出了 Decision Transformer,通过序列建模进行强化学习的架构。
* [instadeepai/Mava](https://github.com/instadeepai/Mava) 用于构建多智能体强化学习 (MARL) 系统的库。Mava 为 MARL 提供了有用的组件、抽象、实用程序和工具,并允许对多进程系统训练和执行进行简单的扩展,同时提供高度的灵活性和可组合性。
* [google/brax](https://github.com/google/brax) 物理模拟引擎Brax,只需一个TPU/GPU,就能和数千个CPU或GPU的计算集群的速度一样快,直接将所需时间缩短到几分钟
* [sjtu-marl/malib](https://github.com/sjtu-marl/malib) 专门面向基于种群的多智能体深度强化学习 PB-MARL 的开源大规模并行训练框架。MALib 支持丰富的种群训练方式(例如,self-play, PSRO, league training),并且实现和优化了常见多智能体深度强化学习算法,为研究人员降低并行化工作量的同时,大幅提升了训练效率。此外,MALib 基于 Ray 的底层分布式框架,实现了全新的中心化任务分发模型,相较于常见的多智能体强化学习训练框架(RLlib,PyMARL,OpenSpiel),相同硬件条件下吞吐量和训练速度有着数倍的提升。现阶段,MALib 已对接常见多智能体环境(星际争霸、谷歌足球、棋牌类、多人 Atari 等),后续将提供对自动驾驶、智能电网等场景的支持。
* [octavio-santiago/Super-Mario-Land-AI](https://github.com/octavio-santiago/Super-Mario-Land-AI) 机器学习和 AI 算法玩超级马里奥。
* [salesforce/warp-drive](https://github.com/salesforce/warp-drive) GPU 上极快的端到端深度多智能体强化学习框架。
* [xunger99/SAAC-StarCraft-Adversary-Agent-Challenge](https://github.com/xunger99/SAAC-StarCraft-Adversary-Agent-Challenge) 提出了一种具有对手代理的强化学习环境,用于战争迷雾下的追捕-逃避游戏,这在航空航天应用中具有科学意义和实际意义。
* [SunQingYun1996/Graph-Reinforcement-Learning-Papers](https://github.com/SunQingYun1996/Graph-Reinforcement-Learning-Papers) 图强化学习论文的精选列表。
* [sail-sg/envpool](https://github.com/sail-sg/envpool) 用于通用 RL 环境的基于 C++ 的高性能并行环境执行引擎(矢量化环境)。
* [YeWR/EfficientZero](https://github.com/YeWR/EfficientZero) 一种采样高效的强化学习算法.基于MuZero的一种算法。该类算法同属于蒙特卡洛树搜索(MCTS)强化学习。
* [XinJingHao/RL-Algorithms-by-Pytorch](https://github.com/XinJingHao/RL-Algorithms-by-Pytorch) Pytorch 对强化学习算法的干净和健壮的实现。 已完成了Q-learning,DQN,DDQN,PPO 离散,PPO 连续,TD3,SAC 连续。
* [kakaoenterprise/JORLDY](https://github.com/kakaoenterprise/JORLDY) 开源强化学习框架 JORLDY 的存储库, 提供 20 多种 RL 算法和各种 RL 环境,算法和环境可定制,可以添加新的算法和环境,使用ray提供分布式 RL 算法,算法的基准测试是在许多 RL 环境中进行的
* [jiupinjia/rocket-recycling](https://github.com/jiupinjia/rocket-recycling) 基于强化学习的SpaceX火箭回收
* [p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch](https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch) 深度强化学习算法和环境的 PyTorch 实现。实现的算法:深度 Q 学习 (DQN) ( Mnih et al. 2013 )、具有固定 Q 目标的 DQN ( Mnih et al. 2013 )、双 DQN (DDQN) ( Hado van Hasselt et al. 2015 )、具有优先体验重放的DDQN ( Schaul et al. 2016 )、Dueling DDQN (Wang et al. 2016)、REINFORCE 加强 (Williams et al. 1992)、深度确定性策略梯度 (DDPG) ( Lillicrap et al. 2016 )、双延迟深度确定性策略梯度 (TD3) ( Fujimoto et al. 2018 )、软演员-评论家 (SAC) ( Haarnoja et al. 2018 )、离散动作的软演员-评论家 (SAC-Discrete) ( Christodoulou 2019 )、Asynchronous Advantage Actor Critic (A3C) ( Mnih et al. 2016 )、同步优势演员评论家 (A2C)、近端策略优化 (PPO) ( Schulman et al. 2017 )、具有事后经验重放的 DQN (DQN-HER) ( Andrychowicz et al. 2018 )、具有事后经验重放的 DDPG (DDPG-HER) ( Andrychowicz et al. 2018 )、分层 DQN (h-DQN) ( Kulkarni et al. 2016 )、用于分层强化学习 (SNN-HRL) 的随机神经网络 ( Florensa et al. 2017 )、多样性就是你所需要的 (DIAYN) ( Eyensbach et al. 2018 )。所有实现都能够快速解决 Cart Pole(离散动作)、Mountain Car Continuous(连续动作)、Bit Flipping(具有动态目标的离散动作)或 Fetch Reach(具有动态目标的连续动作)。计划添加更多的分层 RL 算法。
* [distributional-rl.org](https://www.distributional-rl.org/) 教科书《Distributional Reinforcement Learning 分布强化学习》。
* [deepmind/alphatensor](https://github.com/deepmind/alphatensor) 矩阵乘法是计算机要做的最关键数学计算之一。改进了目前最优的 4×4 矩阵解法(50 年前由施特拉森提出),还进一步提升了其他 70 余种不同大小矩阵的计算速度。
* [facebookresearch/diplomacy_cicero](https://github.com/facebookresearch/diplomacy_cicero) Cicero 的代码,这是一个通过开放域自然语言协商玩外交游戏的 AI 代理。
* [eloialonso/iris](https://github.com/eloialonso/iris) 提出了IRIS,由离散自编码器和自回归Transformer组成的世界模型中学习的数据高效的智能体。在Atari 100k基准测试中,只用了两小时的游戏时间,就取得了1.046的人类归一化平均分,并在26个中的10个游戏中优于人类。IRIS的世界模型获得了对游戏机制的深刻理解,从而在一些游戏中实现了像素的完美预测。本文还说明了世界模型的生成能力,在想象训练时提供了丰富的游戏体验。IRIS以最小的调整开辟了一条有效解决复杂环境问题的新道路。
* [MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning](https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning) 这是一本名为“强化学习的数学基础”的新书的主页。
* [ShangtongZhang/DeepRL](https://github.com/ShangtongZhang/DeepRL) 深度强化学习算法在 PyTorch 中的模块化实现
* [seungeunrho/minimalRL](https://github.com/seungeunrho/minimalRL) 以最少的代码行实现基本RL算法!(基于PyTorch)
* [andri27-ts/Reinforcement-Learning](https://github.com/andri27-ts/Reinforcement-Learning) 在 60 天内学习深度强化学习!Python的讲座和代码。强化学习 + 深度学习
* [carla-simulator/carla](https://github.com/carla-simulator/carla) 用于自动驾驶研究的开源模拟器。
* [ApolloAuto/apollo](https://github.com/ApolloAuto/apollo) 高性能、灵活的架构,可加速自动驾驶汽车的开发测试和部署。
* [autowarefoundation/autoware](https://github.com/autowarefoundation/autoware) 全球领先的自动驾驶开源软件项目
* [vwxyzjn/cleanrl](https://github.com/vwxyzjn/cleanrl) 具有研究友好功能(PPO、DQN、C51、DDPG、TD3、SAC、PPG)的深度强化学习算法的高质量单文件实现
* [wangshusen/DRL](https://github.com/wangshusen/DRL) 深度强化学习列表
* [tensorlayer/TensorLayer](https://github.com/tensorlayer/TensorLayer) 面向科学家和工程师的深度学习和强化学习库,基于 TensorFlow 的新型深度学习和强化学习库,专为研究人员和工程师设计。它提供了大量可定制的神经层,以快速构建高级 AI 模型,基于此,社区开源了大量教程和应用程序。统一的深度学习和强化学习框架,适用于所有硬件、后端和操作系统。当前版本支持TensorFlow、Pytorch、MindSpore、PaddlePaddle、OneFlow和Jittor作为后端,允许用户在Nvidia-GPU、华为-昇腾等不同硬件上运行代码。
* [yandexdataschool/Practical_RL](https://github.com/yandexdataschool/Practical_RL) 野外强化学习的公开课程。针对好奇者进行优化。对于所有未详细介绍的材料,都有指向更多信息和相关材料的链接(D.Silver/ Sutton/ blogs/whatever)。
* [openai/baselines](https://github.com/openai/baselines) OpenAI Baselines 是一组高质量的强化学习算法实现。
# 语音识别与合成
* [espnet/espnet](https://github.com/espnet/espnet) End-to-End Speech Processing Toolkit 端到端的语音处理工具箱,主要特性:kaldi风格的处理模式、ASR、TTS、语音翻译、机器翻译、语音转换、DNN框架
* [PaddlePaddle/PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech) 易于使用的语音工具包,包括SOTA ASR 管道、带有文本前端的有影响力的 TTS 和端到端语音同步翻译。
* [athena-team/athena](https://github.com/athena-team/athena) 基于序列到序列的语音处理引擎的开源实现
## 语音识别
* [wenet-e2e/wenet](https://github.com/wenet-e2e/wenet) 面向工业落地应用的语音识别工具包,提供了从语音识别模型的训练到部署的一条龙服务,其主要特点如下:
* 使用 conformer 网络结构和 CTC/attention loss 联合优化方法,统一的流式/非流式语音识别方案,具有业界一流的识别效果。
* 提供云上和端上直接部署的方案,最小化模型训练和产品落地之间的工程工作。
* 框架简洁,模型训练部分完全基于 pytorch 生态,不依赖于 kaldi 等复杂的工具。
* 详细的注释和文档,非常适合用于学习端到端语音识别的基础知识和实现细节。
* 支持时间戳,对齐,端点检测,语言模型等相关功能。* [k2-fsa/k2](https://github.com/k2-fsa/k2) 愿景是能够将有限状态自动机 (FSA) 和有限状态传感器 (FST) 算法无缝集成到基于 autograd 的机器学习工具包中,例如 PyTorch 和 TensorFlow。对于语音识别应用,这应该可以很容易地插入和组合各种训练目标,例如交叉熵、CTC 和 MMI,并联合优化具有多个解码通道的语音识别系统,包括格重新评分和置信度估计。
* [openai/whisper](https://github.com/openai/whisper) 一种通用的语音识别模型。 它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言ASR以及翻译和识别。Transformer 模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。 所有这些任务都联合表示为由解码器预测的一系列标记,允许单个模型替换传统语音处理管道的许多不同阶段。 多任务训练格式使用一组特殊标记作为任务说明符或分类目标。
* [m-bain/whisperX](https://github.com/m-bain/whisperX) 基于whisper(耳语)的自动语音识别 (ASR),使用强制对齐提高了时间戳的准确性。带python库。
* [shirayu/whispering](https://github.com/shirayu/whispering) whisper“耳语”模型的流式识别。需足够的机器来实时转录。
* [m1guelpf/yt-whisper](https://github.com/m1guelpf/yt-whisper) 使用OpenAI的Whisper自动生成YouTube字幕
* [ggerganov/whisper.cpp](https://github.com/ggerganov/whisper.cpp) OpenAI Whisper自动语音识别(ASR)模型的高性能推理
* [sanchit-gandhi/whisper-jax](https://github.com/sanchit-gandhi/whisper-jax) 针对 OpenAI 的 Whisper 模型优化的 JAX 代码。与 OpenAI 的 PyTorch 代码相比,Whisper JAX 的运行速度快了 70 倍以上,使其成为可用的最快的 Whisper 实现。
* [guillaumekln/faster-whisper](https://github.com/guillaumekln/faster-whisper) 使用 CTranslate2 更快的 Whisper 转录。在使用更少内存的情况下,此实现比 openai/whisper 快 4 倍,达到相同的精度。在 CPU 和 GPU 上都可以通过 8 位量化进一步提高效率。
* [mli/autocut](https://github.com/mli/autocut) 用文本编辑器剪视频。对你的视频自动生成字幕。然后你选择需要保留的句子,AutoCut 将对你视频中对应的片段裁切并保存。
* [yufan-aslp/AliMeeting](https://github.com/yufan-aslp/AliMeeting) ICASSP 2022 多通道多方会议转录挑战赛,为参与者提供会议场景中语音识别和说话人分类的基线系统。 挑战主要由两个轨道组成,名为自动语音识别 (ASR) 和说话人分类。 对于每个曲目,可以在其相应目录中找到详细说明。
* [audier/DeepSpeechRecognition](https://github.com/audier/DeepSpeechRecognition) 基于深度学习的中文语音识别系统
* [ZhengkunTian/OpenTransformer](https://github.com/ZhengkunTian/OpenTransformer) 语音识别的无重复序列到序列模型,实现aishell 6.7%的CER。
* [alphacep/vosk-api](https://github.com/alphacep/vosk-api) Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node 支持十七种语言,提供中文语言模型。
* [tencent-ailab/pika](https://github.com/tencent-ailab/pika) 基于Pytorch和Kaldi的轻量级语音处理工具包 PIKA 具备以下特征:即时数据增强和特征加载器;TDNN Transformer编码器,以及基于卷积和 Transformer 的解码器结构;RNNT训练和批解码;利用 Ngram FST 的 RNNT 解码;RNNT最小贝叶斯风险MBR训练;用于 RNNT 的 LAS 前向与后向重评分器;基于高效 BMUF的分布式训练。
* [speechbrain/speechbrain](https://github.com/speechbrain/speechbrain) 基于 PyTorch 的开源一体化语音工具包,可用于开发最新的语音技术,包括语音识别、说话者识别、语音增强、多麦克风信号处理和语音识别系统等,且拥有相当出色的性能。将其特征概况为易于使用、易于定制、灵活、模块化等。
* [Snowdar/asv-subtools](https://github.com/Snowdar/asv-subtools) 基于Kaldi和PyTorch推出了一套高效、易于开发扩展的声纹识别开源工具—ASV-Subtools。
* [wav2vec](https://github.com/pytorch/fairseq/tree/master/examples/wav2vec/unsupervised) 无监督语音识别 性能直逼监督模型,只需要从录制的语音音频和未配对的文本中学习,无需进行任何转录。
* [speechio/leaderboard](https://github.com/speechio/leaderboard) SpeechIO 排行榜:用于自动语音识别的大型、强大、全面的基准测试平台。
* [cywang97/StreamingTransformer](https://github.com/cywang97/StreamingTransformer) 流式 Transformer 关于大规模语音识别的流行端到端模型的比较,它基于 ESPnet0.6.0。 流式 Transformer 包括一个流式编码器(基于块或前瞻)和一个基于触发注意的解码器。
* [hirofumi0810/neural_sp](https://github.com/hirofumi0810/neural_sp) 使用 PyTorch 实现端到端的 ASR/LM
* [thu-spmi/CAT](https://github.com/thu-spmi/CAT) 基于 CRF 的数据高效的端到端语音识别提供了完整的工作流程。
* [zycv/awesome-keyword-spotting](https://github.com/zycv/awesome-keyword-spotting) 很棒的语音关键字发现(唤醒词检测)的精选列表。
* [TalAter/annyang](https://github.com/TalAter/annyang) 小型JS语音识别库,可让您的用户通过语音命令控制您的网站。
* [common-voice/common-voice](https://github.com/common-voice/common-voice) 一个收集语音捐赠的平台,以便创建用于训练语音识别相关工具的公共领域数据集。
* [alibaba-damo-academy/FunASR](https://github.com/alibaba-damo-academy/FunASR) 来自阿里达摩院的端到端语音识别工具包
* [k2-fsa/sherpa-ncnn](https://github.com/k2-fsa/sherpa-ncnn) 使用下一代 Kaldi 和 ncnn 进行实时语音识别,无需互联网连接。支持iOS,Android,Raspberry Pi,VisionFive2等。
* [wenet-e2e/wespeaker](https://github.com/wenet-e2e/wespeaker) 专注于说话人嵌入学习,并应用于说话人验证任务。我们支持在线特征提取或加载 kaldi 格式的预提取特征。
* [damo/speech_charctc_kws_phone-xiaoyun](https://modelscope.cn/models/damo/speech_charctc_kws_phone-xiaoyun/summary) CTC语音唤醒-移动端-单麦-16k-小云小云,网络结构继承自论文《Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting》,其主体为4层cFSMN结构(如下图所示),参数量约750K,适用于移动端设备运行。模型输入采用Fbank特征,训练阶段使用CTC-loss计算损失并更新参数,输出为基于char建模的中文全集token预测,token数共2599个。测试工具根据每一帧的预测数据进行后处理得到输入音频的实时检测结果。模型训练采用"basetrain + finetune"的模式,basetrain过程使用大量内部移动端数据,在此基础上,使用1万条设备端录制安静场景“小云小云”数据进行微调,得到最终面向业务的模型。由于采用了中文char全量token建模,并使用充分数据进行basetrain,本模型支持基本的唤醒词/命令词自定义功能,但具体性能无法评估。
* [SevaSk/ecoute](https://github.com/SevaSk/ecoute) 一种实时转录工具,可在文本框中为用户的麦克风输入(您)和用户的扬声器输出(扬声器)提供实时脚本。它还使用 OpenAI 的 GPT-3.5 生成建议的响应,供用户根据对话的实时转录说出来。
* [sooftware/conformer](https://github.com/sooftware/conformer) Conformer 的 PyTorch 实现:用于语音识别的卷积增强转换器。Transformer 擅长捕捉基于内容的全局交互,而 CNN 则有效地利用了局部特征。Conformer 将CNN和Transformer结合,以参数高效的方式对音频序列的局部和全局依赖关系进行建模。性能明显优于以前的基于 Transformer 和 CNN 的模型。
* [Uberi/speech_recognition](https://github.com/Uberi/speech_recognition) Py语音识别模块,支持多种引擎和API,在线和离线。
* [SocialSisterYi/bcut-asr](https://github.com/SocialSisterYi/bcut-asr) 使用必剪API的语音字幕识别
* [chidiwilliams/buzz](https://github.com/chidiwilliams/buzz) Buzz 在您的个人计算机上离线转录和翻译音频。由 OpenAI 的 Whisper 提供支持。特征:导入音频和视频文件并将脚本导出为 TXT、SRT 和 VTT;从计算机的麦克风转录和翻译成文本(资源密集型,可能不是实时的);支持 Whisper、Whisper.cpp、Faster Whisper、兼容 Whisper 的 Hugging Face 模型和 OpenAI Whisper API;适用于 Mac、Windows 和 Linux
* [modelscope/FunClip](https://github.com/modelscope/FunClip) 开源、准确、易用的视频语音识别和剪辑工具,LLM基于AI剪辑集成。FunClip 是一个完全开源、本地部署的自动化视频剪辑工具。它利用阿里巴巴同艺语音实验室的开源 FunASR Paraformer 系列模型对视频进行语音识别。然后,用户可以从识别结果中自由选择文本片段或说话人,点击剪辑按钮,获取所选片段对应的视频片段。
## 语音合成
* [2noise/ChatTTS](https://github.com/2noise/ChatTTS) 专为LLM助手等对话场景设计的文本转语音模型。它支持英文和中文。我们的模型训练了 100,000+ 小时,由中文和英文组成。HuggingFace 上的开源版本是一个 40,000 小时的预训练模型,没有 SFT。特色:对话式 TTS:ChatTTS 针对基于对话的任务进行了优化,可实现自然和富有表现力的语音合成。它支持多个扬声器,促进交互式对话。细粒度控制:该模型可以预测和控制细粒度的韵律特征,包括笑声、停顿和感叹词。更好的韵律:ChatTTS 在韵律方面超过了大多数开源 TTS 模型。我们提供预训练模型来支持进一步的研究和开发。
* [myshell-ai/OpenVoice](https://github.com/myshell-ai/OpenVoice) MyShell的即时语音克隆。OpenVoice 的优势有三个方面:1.准确的色调颜色克隆。OpenVoice可以准确克隆参考音色,生成多种语言和口音的语音。2.灵活的语音风格控制。OpenVoice 支持对语音风格(如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。3.零样本跨语言语音克隆。生成的语音的语言和参考语音的语言都不需要在大规模说话人多语言训练数据集中呈现。
* [myshell-ai/MeloTTS](https://github.com/myshell-ai/MeloTTS) MyShell.ai 的高质量多语言文本转语音库。支持英语、西班牙语、法语、中文、日语和韩语。
* [huggingface/parler-tts](https://github.com/huggingface/parler-tts) Parler-TTS 是一种轻量级文本转语音 (TTS) 模型,可以按照给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。它复制了 Dan Lyth 和 Simon King 分别来自 Stability AI 和爱丁堡大学的论文 Natural language guidance of high-fidelity text-to-speech with synthetic annotations 的工作。与其他 TTS 模型相反,Parler-TTS 是一个完全开源的版本。所有数据集、预处理、训练代码和权重都在宽松许可下公开发布,使社区能够在我们的工作基础上开发自己强大的 TTS 模型。
* [w-okada/voice-changer](https://github.com/w-okada/voice-changer) 实时语音转换器。客户端软件,使用各种语音转换AI(VC,语音转换)执行实时音频转换。 支持的语音转语音 AI 包括:MMVC、so-vits-svc 、RVC(Retrieval-based-Voice-Conversion 基于检索的语音转换)、DDSP-SVC、Beatrice JVS Corpus Edition
* [RVC-Boss/GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) 1分钟的语音数据也可以用来训练一个好的TTS模型。零样本 TTS:输入 5 秒的人声样本,体验即时文本到语音转换。Few-shot TTS:仅使用 1 分钟的训练数据对模型进行微调,以提高语音相似度和真实感。跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,协助初学者创建训练数据集和GPT/SoVITS模型。
* [babysor/MockingBird](https://github.com/babysor/MockingBird) AI拟声: 5秒内克隆您的声音并生成任意语音内容。
* [rany2/edge-tts](https://github.com/rany2/edge-tts) 从Python使用Microsoft Edge的在线文本到语音服务(无需Microsoft Edge/Windows或API密钥)
* [coqui-ai/TTS](https://github.com/coqui-ai/TTS) 用于文本到语音的深度学习工具包,在研究和生产中经过实战测试。TTS 带有预训练模型、用于测量数据集质量的工具,并且已经在 20 多种语言中用于产品和研究项目。实例:`tts --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --text "你好。"`
* [jaywalnut310/vits](https://github.com/jaywalnut310/vits) 一种用于端到端文本语音转换的条件变分自编码器,它比现有的两阶段模型产生更自然的声音。该方法采用变分推理和归一化流以及对抗式训练过程,提高了生成式建模的表达能力。
* [rhasspy/piper](https://github.com/rhasspy/piper) 快速的本地神经文本到语音系统,听起来很棒,并针对 Raspberry Pi 4 进行了优化。支持多种语言。
* [MoonInTheRiver/DiffSinger](https://github.com/MoonInTheRiver/DiffSinger) DiffSinger:通过浅扩散机制(SVS和TTS)进行歌声合成;AAAI 2022年;官方代码
* [svc-develop-team/so-vits-svc](https://github.com/svc-develop-team/so-vits-svc) SoftVC VITS 歌声转换。这个项目与 Vits 有着根本的不同。 Vits 是 TTS,这个项目是 SVC。本项目不能进行TTS,Vits不能进行SVC,两种项目模型不通用。
* [voicepaw/so-vits-svc-fork](https://github.com/voicepaw/so-vits-svc-fork) so-vits-svc fork 歌唱语音转换 具有实时支持、改进的界面和更多功能。实时语音转换、更准确的音调估计、2x 更快的训练
* [isletennos/MMVC_Trainer](https://github.com/isletennos/MMVC_Trainer) 人工智能实时语音转换器(培训师)
* [Plachtaa/VITS-fast-fine-tuning](https://github.com/Plachtaa/VITS-fast-fine-tuning/tree/main) 用于快速扬声器适配 TTS 和多对多语音转换的 VITS 微调管道
* [jianchang512/clone-voice](https://github.com/jianchang512/clone-voice) 带web界面的声音克隆工具,使用你的音色或任意声音来录制音频。支持 中、英、日、韩、法、德、意等语言,可在线从麦克风录制声音。为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。
* [yl4579/StyleTTS2](https://github.com/yl4579/StyleTTS2) 通过大型语音语言模型的风格扩散和对抗训练实现人级文本转语音
* [RVC-Project/Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI) 小于10分钟的语音数据也可以用来训练一个好的VC模型 一个基于VITS的简单易用的语音转换(变声器)框架
* [JasonWei512/Tacotron-2-Chinese](https://github.com/JasonWei512/Tacotron-2-Chinese) 中文语音合成
* [alibaba-damo-academy/KAN-TTS](https://github.com/alibaba-damo-academy/KAN-TTS) 来自阿里达摩院的TTS框架,使用 KAN-TTS,您可以训练自己的 TTS 模型
* [suno-ai/bark](https://github.com/suno-ai/bark) 由Suno创建的基于变压器的文本到音频模型。Bark可以生成高度逼真的多语言语音以及其他音频 - 包括音乐,背景噪音和简单的音效。该模型还可以产生非语言交流,如笑、叹息和哭泣。为了支持研究社区,我们正在提供对预训练模型检查点的访问,这些检查点已准备好进行推理并可用于商业用途。完全生成的文本到音频模型,用于研究和演示目的。它遵循类似于AudioLM和Vall-E的GPT风格架构以及EnCodec的量化音频表示。它不是传统的 TTS 模型,而是一个完全生成的文本到音频模型,能够以意想不到的方式偏离任何给定的脚本。与以前的方法不同,输入文本提示直接转换为音频,而无需中间使用音素。因此,它可以推广到语音以外的任意指令,例如音乐歌词、音效或其他非语音声音。
* [Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) Microsoft的VALL-E X零样本TTS模型的开源实现。`多语言TTS`:用英语,中文和日语进行自然而富有表现力的语音合成。`零样本语音克隆`:注册一个看不见的演讲者的短短 3~10 秒录音, VALL-E X 即可创建听起来像他们的个性化、高质量的语音!`言语情绪控制`:可以合成具有与提供的声学提示相同的情感的语音,为您的音频添加额外的表现力。`零样本跨语言TTS`:让单语使用者踏上语言之旅!VALL-E X可以用另一种语言生成个性化的语音,而不会影响流利度或口音。`口音控制`:利用口音发挥创意!允许您尝试不同的口音,例如说带有英语口音的中文,反之亦然。`声学环境维护`:无需完全干净的音频提示!可适应输入的声学环境,使语音生成感觉自然而身临其境。
* [haoheliu/AudioLDM](https://github.com/haoheliu/AudioLDM) 生成语音、音效、音乐等。文本到音频生成:生成给定文本输入的音频。音频到音频生成:给定一个音频,生成另一个包含相同类型声音的音频。文本引导式音频到音频风格传输:使用文本描述将音频的声音传输到另一个音频中。
* [openai/jukebox](https://github.com/openai/jukebox) 论文“点唱机:音乐的生成模型”的代码
* [OlaWod/FreeVC](https://github.com/OlaWod/FreeVC) 迈向高质量的无文本一次性语音转换。采用VITS端到端框架进行高质量波形重建,并提出了无文本标注的干净内容信息提取策略。通过对WavLM特征施加信息瓶颈来解开内容信息,并提出基于频谱图调整大小的数据增强,以提高提取内容信息的纯度。
* [fishaudio/Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) 具有多语言 BERT 的 vits2 骨干网
* [facebookresearch/audiocraft](https://github.com/facebookresearch/audiocraft) 一个用于通过深度学习进行音频处理和生成的库。它具有最先进的 EnCodec 音频压缩器/分词器,以及 MusicGen,这是一种简单且可控的音乐生成 LM,具有文本和旋律调节功能。
* [NATSpeech/NATSpeech](https://github.com/NATSpeech/NATSpeech) 非自回归文本转语音 (NAR-TTS) 框架,包括 PortaSpeech (NeurIPS 2021) 和 DiffSpeech (AAAI 2022) 的官方 PyTorch 实现。PortaSpeech:便携式和高质量的生成文本到语音转换(NeurIPS 2021)。DiffSinger:通过浅扩散机制合成歌唱声音(DiffSpeech)(AAAI 2022)。
* [Rongjiehuang/ProDiff](https://github.com/Rongjiehuang/ProDiff) ProDiff (ACM-MM 22) 的 PyTorch 实现,具有极快的扩散语音合成管道。条件扩散概率模型,能够有效地生成高保真语音。[demo page](https://prodiff.github.io/)
* [TensorSpeech/TensorflowTTS](https://github.com/TensorSpeech/TensorflowTTS) Tensorflow 2的实时最新语音合成
* [kan-bayashi/ParallelWaveGAN](https://github.com/kan-bayashi/ParallelWaveGAN) Parallel WaveGAN (+ MelGAN Multi-band MelGAN) implementation with Pytorch
* [KuangDD/zhrtvc](https://github.com/KuangDD/zhrtvc) 好用的中文语音克隆兼中文语音合成系统,包含语音编码器、语音合成器、声码器和可视化模块。
* [cnlinxi/book-text-to-speech](https://github.com/cnlinxi/book-text-to-speech) 一本关于中文文本到语音转换 (TTS) 的书。
* [JasonWei512/Tacotron-2-Chinese](https://github.com/JasonWei512/Tacotron-2-Chinese) 中文语音合成
* [lturing/tacotronv2_wavernn_chinese](https://github.com/lturing/tacotronv2_wavernn_chinese) tacotronV2 + wavernn 实现中文语音合成(Tensorflow + pytorch)
* [JasonWei512/wavenet_vocoder](https://github.com/JasonWei512/wavenet_vocoder) WaveNet 声码器
* [tulasiram58827/TTS_TFLite](https://github.com/tulasiram58827/TTS_TFLite) TFLite中广泛流行的文本语音转换TTS模型的集合。
* [thuhcsi/VAENAR-TTS](https://github.com/thuhcsi/VAENAR-TTS) 基于 VAE 的非自回归 TTS 模型。
* [keonlee9420/VAENAR-TTS](https://github.com/keonlee9420/VAENAR-TTS) 基于 VAE 的非自回归 TTS 模型。PyTorch
* [ben-hayes/neural-waveshaping-synthesis](https://github.com/ben-hayes/neural-waveshaping-synthesis) 波形域中的高效神经音频合成.使用神经网络有效合成音频波形的方法。
* [Jackiexiao/zhtts](https://github.com/Jackiexiao/zhtts) 中文实时语音合成系统Demo
* [PlayVoice/vits_chinese](https://github.com/PlayVoice/vits_chinese) 基于BERT和VITS结合微软自然语音特征的最佳TTS支持
* [YatingMusic/ddsp-singing-vocoders](https://github.com/yatingmusic/ddsp-singing-vocoders) 声码器是一种条件音频生成模型,可将声学特征(如 mel 频谱图)转换为波形。从可微分数字信号处理(DDSP)中汲取灵感,提出SawSing新型声码器,用于歌声。SawSing使用线性时变有限脉冲响应滤波器过滤锯齿波源信号来合成歌唱声音的谐波部分,该滤波器的系数由神经网络根据输入的mel频谱图估计。加强了相位连续性,因此可以生成歌声,不会出现许多现有声码器的相位不连续性故障。在资源有限的场景中,收敛速度更快,且优于最先进的生成对抗网络和基于扩散的声码器,只有3个训练录音和3小时的训练时间。
* [CjangCjengh/MoeGoe](https://github.com/CjangCjengh/MoeGoe) 用于 VITS 推理的可执行文件,包括上海方言模型。VITS:用于语音合成带有对抗学习的条件变分自编码器。
* [enhuiz/vall-e](https://github.com/enhuiz/vall-e) 音频LM VALL-E的非官方PyTorch实现。3 秒音频可模仿人说话的语音大模型。使用了 Meta 提出的 [Audio Codec](https://link.zhihu.com/?target=https%3A//github.com/facebookresearch/encodec%23extracting-discrete-representations) 提取离散的音频码本,作为训练标签,其包含8(音频码维数)个 Decoder Block,每个 Block 含有 12 层 TransformerDecoder 层,第一个 block 为自回归结构,其余 block 为非自回归结构。[lifeiteng/vall-e](https://github.com/lifeiteng/vall-e)
* [espeak-ng/espeak-ng](https://github.com/espeak-ng/espeak-ng) 开源语音合成器,支持一百多种语言和口音。
* [keithito/tacotron](https://github.com/keithito/tacotron) 使用预训练模型的Google的Tacotron语音合成的TensorFlow实现(非官方)
* [r9y9/deepvoice3_pytorch](https://github.com/r9y9/deepvoice3_pytorch) 基于卷积神经网络的文本到语音合成模型的Torch 实现
* [AIGC-Audio/AudioGPT](https://github.com/AIGC-Audio/AudioGPT) 理解和生成语音、音乐、声音和说话的头部
* [riffusion/riffusion](https://github.com/riffusion/riffusion) 稳定扩散,实时生成音乐
* [bytedance/SALMONN](https://github.com/bytedance/SALMONN) 支持语音、音频事件和音乐输入的大型语言模型(LLM),由清华大学电子工程系和字节跳动开发。SALMONN可以感知和理解各种音频输入,而不是仅语音输入或仅音频事件输入,从而获得新兴功能,例如多语言语音识别和翻译以及音频 - 语音协同推理。
* [ga642381/SpeechGen](https://github.com/ga642381/SpeechGen) 用提示解锁语音语言模型的生成能力,探索了在称为SpeechGen的统一框架内应用提示调谐来刺激语音LM用于各种生成任务,该框架具有大约10M的可训练参数。
* [pndurette/gTTS](https://github.com/pndurette/gTTS) Python 库和 CLI 工具,用于与 Google 翻译的文本转语音 API 交互
* [Rongjiehuang/FastDiff](https://github.com/Rongjiehuang/FastDiff) 用于高质量语音合成的快速条件扩散模型
* [archinetai/audio-diffusion-pytorch](https://github.com/archinetai/audio-diffusion-pytorch) 在 PyTorch 中使用扩散模型生成音频。包括用于无条件音频生成、文本条件音频生成、扩散自动编码、上采样和声编码的模型。提供的模型是基于波形的,但是,U-Net(使用 a-unet )、 DiffusionModel 、扩散方法和扩散采样器构建,对于任何维度都是通用的,并且高度可定制以适用于其他格式。注意:(1)这里没有提供预训练的模型,(2)显示的配置是指示性的,未经测试,参见Moûsai了解论文中使用的配置。
* [marytts/marytts](https://github.com/marytts/marytts) 用纯 Java 编写的开源、多语言文本到语音合成系统
* [KoljaB/RealtimeTTS](https://github.com/KoljaB/RealtimeTTS) 专为实时应用程序设计的最先进的文本转语音 (TTS) 库。它以最小的延迟将文本流快速转换为高质量的听觉输出。
* [PlayVoice/VI-SVS](https://github.com/PlayVoice/VI-SVS) 基于VITS的歌声合成,不同于VISinger
* [fatchord/WaveRNN](https://github.com/fatchord/WaveRNN) WaveRNN 声码器 + TTS
* [p0p4k/pflowtts_pytorch](https://github.com/p0p4k/pflowtts_pytorch) 通过语音提示实现快速且数据高效的零样本 TTS
* [netease-youdao/EmotiVoice](https://github.com/netease-youdao/EmotiVoice) 功能强大且现代的开源文本转语音引擎,可供您免费使用。EmotiVoice 会说英语和中文,并有超过 2000 种不同的声音(有关详细信息,请参阅语音列表)。最突出的特点是情绪合成,让你创造出具有广泛情绪的语音,包括快乐、兴奋、悲伤、愤怒等。
* [Edresson/YourTTS](https://github.com/Edresson/YourTTS) 面向所有人的零样本多扬声器 TTS 和零样本语音转换
* [neonbjb/tortoise-tts](https://github.com/neonbjb/tortoise-tts) 以质量为重点的多语音TTS系统,强大的多声部功能。高度逼真的韵律和语调。
* [yxlllc/DDSP-SVC](https://github.com/yxlllc/DDSP-SVC) 基于DDSP(微分数字信号处理)的实时端到端歌唱语音转换系统
* [innnky/emotional-vits](https://github.com/innnky/emotional-vits) 无需情感标注的情感可控语音合成模型,基于VITS
* [see2023/Bert-VITS2-ext](https://github.com/see2023/Bert-VITS2-ext) 基于Bert-VITS2做的表情、动画测试,比如TTS同步产生脸部表情数据。
## 语音识别与合成_其他
* [lyswhut/lx-music-mobile](https://github.com/lyswhut/lx-music-mobiles) 一个基于 React native 开发的音乐软件。
* [lyswhut/lx-music-mobile](https://github.com/lyswhut/lx-music-mobiles) 一个基于 React native 开发的音乐软件。* [TencentGameMate/chinese_speech_pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain) WenetSpeech train_l 集的 1 万小时中文数据作为无监督预训练数据。数据主要来源于 YouTube 和 Podcast,覆盖了各种类型录制场景、背景噪声、说话方式等,其领域主要包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景。
* [zzw922cn/awesome-speech-recognition-speech-synthesis-papers](https://github.com/zzw922cn/awesome-speech-recognition-speech-synthesis-papers) 自动语音识别 (ASR)、说话人验证、语音合成、文本到语音转换 (TTS)、语言建模、歌唱语音合成 (SVS)、语音转换 (VC)
* [AIGC-Audio/AudioGPT](https://github.com/AIGC-Audio/AudioGPT) 理解和生成语音、音乐、声音和说话人头部动作。
* [deezer/spleeter](https://github.com/deezer/spleeter) 人声分离模型
* [Anjok07/ultimatevocalremovergui](https://github.com/Anjok07/ultimatevocalremovergui) GUI,用于使用深度神经网络的人声去除器。
* [google-research/sound-separation](https://github.com/google-research/sound-separation) 用于分离声音的开源数据集和深度学习模型。
* [WenzheLiu-Speech/awesome-speech-enhancement](https://github.com/WenzheLiu-Speech/awesome-speech-enhancement) 总结了用于单/多通道语音增强/语音分离的论文、代码和工具。
* [stemrollerapp/stemroller](https://github.com/stemrollerapp/stemroller) 从任何歌曲中分离出人声、鼓、贝斯和其他器乐声部
* [microsoft/unilm/wavlm](https://github.com/microsoft/unilm/tree/master/wavlm) 用于全栈语音处理的大规模自我监督预训练,下游任务如ASR、声纹识别、声音分类等。
* [Windstudent/Complex-MTASSNet](https://github.com/Windstudent/Complex-MTASSNet) 多任务音源分离,两阶段模型,复杂域。
* [facebookresearch/seamless_communication](https://github.com/facebookresearch/seamless_communication) 一系列 AI 模型,可实现更自然、更真实的跨语言交流。SeamlessM4T 是一个庞大的多语言多模态机器翻译模型,支持大约 100 种语言。SeamlessM4T 是 SeamlessExpression 和 SeamlessStreaming 的基础,SeamlessExpression 是一个跨语言保留韵律和语音风格元素的模型,该模型支持大约 100 种语言的同声传译和流式 ASR。SeamlessExpressive 和 SeamlessStreaming 合并为 Seamless,这是一个具有多语言、实时和富有表现力的翻译的统一模型。支持以下任务:Speech-to-speech translation 语音到语音翻译 (S2ST)、Speech-to-text translation语音到文本翻译 (S2TT)、Text-to-speech translation 文本到语音转换 (T2ST)、Text-to-text translation 文本到文本翻译 (T2TT)、Automatic speech recognition 自动语音识别 (ASR)
* [Rudrabha/Wav2Lip](https://github.com/Rudrabha/Wav2Lip) 唇语识别 唇语同步 ,用来生成准确的唇语同步视频。
* [facebookresearch/voxpopuli](https://github.com/facebookresearch/voxpopuli) 目前世界上最大的多语言语音数据集,涵盖了23种语言,时长超过40万小时。
* [WenetSpeech](https://wenet-e2e.github.io/WenetSpeech/) 从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。 采用OCR 和ASR分别标记每个录音。 为了提高语料库的质量,使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。
* [fighting41love/zhvoice](https://github.com/fighting41love/zhvoice) 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字。
* [tyiannak/pyAudioAnalysis](https://github.com/tyiannak/pyAudioAnalysis) Python 音频分析库:特征提取、分类、分割和应用
* [microsoft/muzic](https://github.com/microsoft/muzic) 用人工智能理解和生成音乐,包括:符号音乐理解:MusicBERT、自动歌词转录:PDAugment 音乐生成:作曲:SongMASS、歌词生成:DeepRapper、旋律生成:TeleMelody、伴奏生成:PopMAG、歌声合成。
* [MubertAI/Mubert-Text-to-Music](https://github.com/MubertAI/Mubert-Text-to-Music) 演示通过 Mubert API 生成基于提示的音乐
* [facebookresearch/av_hubert](https://github.com/facebookresearch/av_hubert) 用于视听语音的自监督学习框架,在 LRS3 视听语音基准上,它在唇读、ASR 和视听语音识别方面取得了最先进的结果。
* [lhotse-speech/lhotse](https://github.com/lhotse-speech/lhotse) 在机器学习项目中处理语音数据的工具。
* [microsoft/NeuralSpeech](https://github.com/microsoft/NeuralSpeech) 微软亚洲研究院的研究项目,专注于基于神经网络的语音处理,包括自动语音识别(ASR)、文本到语音(TTS)、空间音频等。
* [chrisdonahue/ddc](https://github.com/chrisdonahue/ddc) 自动编舞系统,将原始音频转换为可播放的舞蹈。
* [google/lyra](https://github.com/google/lyra) 高质量、低比特率的语音编解码器,在最慢网络上也能进行语音通信。 为此,它应用了传统的编解码器技术,同时利用机器学习 (ML) 的进步和经过数千小时数据训练的模型来创建一种压缩和传输语音信号的新方法。
* [mixxxdj/mixxx](https://github.com/mixxxdj/mixxx) 免费的 DJ 软件,可为您提供执行现场混音所需的一切。
* [QiuChenly/QQFlacMusicDownloader](https://github.com/QiuChenly/QQFlacMusicDownloader) [秋城落叶] QQ 音乐源无损歌曲下载
* [noisetorch/NoiseTorch](https://github.com/noisetorch/NoiseTorch) Linux 上的实时麦克风噪声抑制。
* [werman/noise-suppression-for-voice](https://github.com/werman/noise-suppression-for-voice) 基于Xiph的RNNoise的噪声抑制插件
* [ggeop/Python-ai-assistant](https://github.com/ggeop/Python-ai-assistant) Python蟒蛇AI助手 语音命令助手服务,它可以识别人类语音,与用户交谈并执行基本命令。
* [spotify/pedalboard](https://github.com/spotify/pedalboard) 由Spotify音频智能实验室构建,可以在Python和TensorFlow中使用工作室质量的音频效果。`内置音频 I/O 实用程序`:支持在所有平台上读写 AIFF、FLAC、MP3、OGG 和 WAV 文件,无需依赖关系;对读取 AAC、AC3、WMA 和其他格式的额外支持,具体取决于平台;支持对音频文件和流进行动态重采样,内存使用量为 0;通过 AudioStream 的实时音频效果。内置支持许多基本`音频转换`,包括:吉他风格效果;响度和动态范围效果;均衡器和滤波器;空间效果;音高效果;有损压缩;质量降低。在 macOS、Windows 和 Linux 上支持` VST3® 乐器和效果插件`。支持 macOS 上的乐器和效果音频单元。强大的`线程安全性、内存使用和速度保证`,以允许使用多个 CPU 内核,处理单个转换的音频速度比 pySoX 快 300 倍,比 SoxBindings(通过 iCorv)快 2-5 倍,读取音频的速度比librosa.load快4倍(在许多情况下)。
* [wenet-e2e/opencpop](https://github.com/wenet-e2e/opencpop) 用于歌声合成的高质量开源中文流行歌曲数据库
* [snakers4/silero-models](https://github.com/snakers4/silero-models) Silero 模型:预先训练的语音转文本、文本转语音和文本增强模型变得简单得令人尴尬.
* [LCAV/pyroomacoustics](https://github.com/LCAV/pyroomacoustics) 用于室内应用音频信号处理的软件包。它是作为室内场景中波束成形算法的快速原型平台开发的。
* [asteroid-team/asteroid](https://github.com/asteroid-team/asteroid) 面向研究人员的基于 PyTorch 的音频源分离工具包
* [boy1dr/SpleeterGui](https://github.com/boy1dr/SpleeterGui) 适用于 Spleeter 的 Windows 桌面前端 - AI音乐源分离
* [krantiparida/awesome-audio-visual](https://github.com/krantiparida/awesome-audio-visual) 视听处理领域的不同论文和数据集的精选列表
* [Rikorose/DeepFilterNet](https://github.com/Rikorose/DeepFilterNet) 用于全频带音频 (48kHz) 的低复杂度语音增强框架,用于深度滤波。
* [spicetify/spicetify-cli](https://github.com/spicetify/spicetify-cli) 用于自定义 Spotify 客户端的命令行工具。支持 Win、MacOS 和 Linux。
* [beetbox/beets](https://github.com/beetbox/beets) 面向痴迷音乐极客的媒体库管理系统。一劳永逸地获得正确的音乐收藏。它会对您的收藏进行编目,并自动改进其元数据。然后,它提供了一束用于操作和访问音乐的工具。
* [resemble-ai/resemble-enhance](https://github.com/resemble-ai/resemble-enhance) AI 驱动的工具,旨在通过执行降噪和增强来提高语音的整体质量。它由两个模块组成:一个降噪器,用于将语音与嘈杂的音频分开,另一个增强器通过恢复音频失真和扩展音频带宽来进一步提高感知音频质量。这两个模型都使用高质量的 44.1kHz 语音数据进行训练,从而保证以高质量增强您的语音。
* [kyleneideck/BackgroundMusic](https://github.com/kyleneideck/BackgroundMusic) macOS 音频实用工具“背景音乐”:自动暂停音乐、设置各个 App 的音量并录制系统音频。
* [ExistentialAudio/BlackHole](https://github.com/ExistentialAudio/BlackHole) 现代 macOS 音频环回驱动程序,允许应用程序以零额外延迟将音频传递给其他应用程序。
* [audacity/audacity](https://github.com/audacity/audacity) 易于使用的多轨音频编辑器和录音机。从主机系统可用的任何真实或虚拟音频设备进行录制。导出/导入多种音频格式,可通过 FFmpeg 进行扩展。使用 32 位浮点音频处理的高品质。插件 支持多种音频插件格式,包括 VST、LV2 和 AU。用于链接命令和批处理的宏。使用 Python、Perl 或任何其他支持命名管道的语言编写脚本。Nyquist,一种功能强大的内置脚本语言,也可用于创建插件。编辑具有采样精度和任意采样率的多轨编辑。VI用户的可访问性。用于分析音频或其他信号数据的分析和可视化工具。
* [AudioKit/AudioKit](https://github.com/AudioKit/AudioKit) 适用于 iOS、macOS 和 tvOS 的音频合成、处理和分析平台
* [sonic-pi-net/sonic-pi](https://github.com/sonic-pi-net/sonic-pi) 免费的基于代码的音乐创作和表演工具。对于专业音乐家和 DJ 来说功能强大。富有表现力的构图和表演。盲人和部分视力障碍者可以使用。简单的计算和音乐课程。通过创作或表演从古典和爵士乐到嘻哈和电子舞曲等各种风格的音乐来学习创造性地编码。每个人都免费提供友好的教程。
* [MarshallOfSound/Google-Play-Music-Desktop-Player-UNOFFICIAL-](https://github.com/MarshallOfSound/Google-Play-Music-Desktop-Player-UNOFFICIAL-) 适用于 Google Play 音乐的精美跨平台桌面播放器
* [wenet-e2e/WeTextProcessing](https://github.com/wenet-e2e/WeTextProcessing) 中文的文本规范化和反向文本规范化
* [mozilla-foundation/common_voice_13_0](https://huggingface.co/datasets/mozilla-foundation/common_voice_13_0) 由唯一的 MP3 和相应的文本文件组成。数据集中记录的 27141 小时中的许多还包括年龄、性别和口音等人口统计元数据,这有助于提高语音识别引擎的准确性。该数据集目前包含 108 种语言的 17689 个验证小时数,后续会添加更多语音和语言。
* [FunAudioLLM/SenseVoice](https://github.com/FunAudioLLM/SenseVoice) SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。多语言语音识别:经过超过 400,000 小时的数据训练,支持 50 多种语言,识别性能超过了 Whisper 模型。丰富的转录:具备出色的情绪识别能力,在测试数据上达到并超越当前最佳情绪识别模型的有效性;提供声音事件检测能力,支持bgm、掌声、笑声、哭声、咳嗽声、打喷嚏等各种常见人机交互事件的检测。高效推理:SenseVoice-Small 模型利用非自回归端到端框架,可实现极低的推理延迟。只需 70 毫秒即可处理 10 秒的音频,比 Whisper-Large 快 15 倍。方便的微调:提供便捷的微调脚本和策略,让用户根据自己的业务场景,轻松解决长尾样本问题。服务部署:提供服务部署管道,支持多并发请求,客户端语言包括 Python、C++、HTML、Java 和 C# 等。
* [FunAudioLLM/CosyVoice](https://github.com/FunAudioLLM/CosyVoice) 多语言大语音生成模型,提供推理、训练和部署全栈能力。一个旨在增强人类与大型语言模型之间的自然语音交互的框架 (LLMs)。其核心是两款创新模型:SenseVoice,用于高精度多语言语音识别、情感识别和音频事件检测;和 CosyVoice,用于生成具有多语言、音色和情感控制的自然语音。SenseVoice 提供极低的延迟并支持 50 多种语言,而 CosyVoice 在多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟踪功能方面表现出色。SenseVoice 和 CosyVoice 相关的模型已经在 Modelscope 和 Huggingface 上开源,相应的训练、推理和微调代码也发布在 GitHub 上。通过将这些模型与 LLMs集成,FunAudioLLM 实现了语音翻译、情感语音聊天、交互式播客和富有表现力的有声读物旁白等应用,从而突破了语音交互技术的界限。
* [QwenLM/Qwen2-Audio](https://github.com/QwenLM/Qwen2-Audio) 阿里云提出的Qwen2-Audio聊天和预训练大型音频语言模型的官方仓库。它能够接受各种音频信号输入,并对语音指令进行音频分析或直接文本响应。我们介绍了两种不同的音频交互模式:语音聊天:用户无需文字输入即可自由地与Qwen2-Audio进行语音交互;音频分析:用户可以在交互过程中提供音频和文本指令进行分析。
# 生物医药
## 蛋白质结构
* [deepmind/alphafold](https://github.com/deepmind/alphafold) 此包提供了 AlphaFold v2.0 的推理流线的实现。AlphaFold是Google旗下DeepMind开发的一款人工智能程序,它使用深度学习算法通过蛋白质序列来预测蛋白质结构。蛋白质通过卷曲折叠会构成三维结构,蛋白质的功能正由其结构决定。了解蛋白质结构有助于开发治疗疾病的药物。
* [RosettaCommons/RoseTTAFold](https://github.com/RosettaCommons/RoseTTAFold) 结合AlphaFold相关思想的网络架构,并通过三轨网络获得了最佳性能,其中1D序列、2D距离图和3D坐标的信息依次转换和集成。三轨网络精度接近AlphaFold2,能够快速解决具有挑战性的X-ray晶体学和冷冻电镜结构建模问题,并提供对当前未知结构蛋白质功能的见解。还能够仅从序列信息中快速生成准确的蛋白质-蛋白质复合物模型。
* [aqlaboratory/openfold](https://github.com/aqlaboratory/openfold) AlphaFold2的可训练、内存效率高且GPU友好的 PyTorch 再现。
* [dauparas/ProteinMPNN](https://github.com/dauparas/ProteinMPNN) 基于深度学习的蛋白质序列设计方法,在计算和实验测试中都有出色的表现。在本地蛋白质骨架上,它的序列恢复率为52.4%,而Rosetta为32.9%。不同位置的氨基酸序列可以在单链或多链之间进行耦合,从而能够应用于当前广泛的蛋白质设计挑战。研究员利用X射线晶体学、冷冻电镜和功能研究证明了它的广泛实用性和高准确性,挽救了使用Rosetta或AlphaFold进行的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶标结合蛋白的失败设计。
* [HeliXonProtein/OmegaFold](https://github.com/HeliXonProtein/OmegaFold) 《从原生层序进行高分辨率从头构造预测》的代码。AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院。
* [sokrypton/ColabFold](https://github.com/sokrypton/ColabFold) 让蛋白质折叠预测人人可及,预测蛋白质结构。
* [salesforce/provis](https://github.com/salesforce/provis) BERTology Meets Biology: Interpreting Attention in Protein Language Models 注意力机制在蛋白质语言模型的应用
* [ElwynWang/DeepFragLib](https://github.com/ElwynWang/DeepFragLib) 基于深度神经网络和改进的片段测序方法从头预测蛋白质结构
* [bowman-lab/diffnets](https://github.com/bowman-lab/diffnets) 采用DiffNets通过比较结构集来深度学习蛋白质生化特性的结构决定因素
* [nadavbra/protein_bert](https://github.com/nadavbra/protein_bert) 专为蛋白质序列和功能设计的通用深度学习模型
* [pengxingang/Pocket2Mol](https://github.com/pengxingang/pocket2mol) 基于 3D 蛋白质口袋的高效分子采样 使用等变图神经网络来提高以前基于结构的药物设计模型的效率和分子质量。
* [jertubiana/ScanNet](https://github.com/jertubiana/ScanNet) 可解释的几何深度学习模型,用于结构的蛋白质结合位点预测
* [strauchlab/scaffold_design](https://github.com/strauchlab/scaffold_design) 小蛋白质折叠结构和序列空间的采样
* [flatironinstitute/DeepFRI](https://github.com/flatironinstitute/DeepFRI) 基于结构和GCN的蛋白质功能预测
* [j3xugit/RaptorX-3DModeling](https://github.com/j3xugit/RaptorX-3DModeling) RaptorX 通过深度卷积残差网络预测蛋白质接触/距离/方向和局部结构特性(例如,二级结构和 phi/psi 角度)。它还使用预测的距离/方向和 phi/psi 角度构建蛋白质序列的 3D 模型。
* [FreyrS/dMaSIF](https://github.com/FreyrS/dMaSIF) 蛋白质表面的快速端到端学习.蛋白质的生物学功能由其 3D 分子表面的几何和化学结构定义。最近的工作表明,几何深度学习可用于蛋白质的基于网格的表示,以识别潜在的功能位点,例如潜在药物的结合目标。不幸的是,使用网格作为蛋白质结构的底层表示有多个缺点,包括需要预先计算输入特征和网格连接性。这成为蛋白质科学中许多重要任务的瓶颈。在本文中,我们提出了一个新的蛋白质结构深度学习框架,以解决这些限制。
* [nferruz/ProtGPT2](https://huggingface.co/nferruz/ProtGPT2) 一种蛋白质语言模型,可用于从头蛋白质设计和工程。ProtGPT2产生的序列保留了天然蛋白质的关键特征(氨基酸倾向、二级结构含量和球形度),同时探索蛋白质空间的未被发现的区域。
* [Superzchen/iLearnPlus](https://github.com/Superzchen/iLearnPlus) 具有基于图形和基于 Web 的用户界面的机器学习平台,可以构建自动化机器学习管道,以使用核酸和蛋白质序列进行计算分析和预测。
* [baldassarreFe/graphqa](https://github.com/baldassarreFe/graphqa) 使用图卷积网络进行蛋白质质量评估
* [phermosilla/IEConv_proteins](https://github.com/phermosilla/IEConv_proteins) 用于学习 3D 蛋白质结构的内在-外在卷积和池化
* [sameerkhurana10/DSOL_rv0.2](https://github.com/sameerkhurana10/DSOL_rv0.2) 深度蛋白质溶解度预测
* [luoyunan/ECNet](https://github.com/luoyunan/ECNet) 用于蛋白质工程的进化上下文集成深度学习框架
* [luoyunan/ECNet](https://github.com/luoyunan/ECNet) 用于蛋白质工程的进化上下文集成深度学习框架
* [deepmodeling/Uni-Fold](https://github.com/deepmodeling/Uni-Fold) Uni-Fold:训练您自己的深度蛋白质折叠模型。
* [bigbio/py-pgatk](https://github.com/bigbio/py-pgatk/) 蛋白质组学分析工具包的 Python 工具。蛋白质组学是生物学研究的一个领域,它利用蛋白质组学、基因组学和转录组学的组合来帮助发现和识别/量化肽和蛋白质。蛋白质组学用于通过将 MS/MS 光谱与源自基因组和转录组学信息的蛋白质数据库进行比较来识别新肽。
* [zjunlp/OntoProtein](https://github.com/zjunlp/OntoProtein) OntoProtein 是一种将 GO(Gene Ontology)中的结构用于文本增强的蛋白质预训练模型的有效方法。一种知识增强的蛋白质语言模型,它共同优化了 KE 和 MLM 目标,为广泛的蛋白质任务带来了出色的改进。并且我们引入了**ProteinKG25**,一个新的大规模KG数据集,促进了蛋白质语言预训练的研究。支持ss3, ss8( 3-class and 8-class protein secondary structure 3类和8类蛋白质二级结构), contact, remote_homology, fluorescence 荧光, stability 稳定等下游任务。
* [ProteinDesignLab/protein_seq_des](https://github.com/ProteinDesignLab/protein_seq_des) 具有学习潜力的蛋白质序列设计
* [gjoni/trRosetta](https://github.com/gjoni/trRosetta) 从序列数据中预测蛋白质残基间几何形状的软件包
* [gjoni/trDesign](https://github.com/gjoni/trDesign) 用于蛋白质设计的 trRosetta
* [RosettaCommons/RFDesign](https://github.com/RosettaCommons/RFDesign) 用RoseTTAFold 实现蛋白质幻觉(AI 生成)和修复
* [facebookresearch/esm](https://github.com/facebookresearch/esm) 进化规模建模(esm):蛋白质的预训练语言模型
* [uw-ipd/RoseTTAFold2NA](https://github.com/uw-ipd/RoseTTAFold2NA) RoseTTAFold2蛋白/核酸复合物预测
* [pylelab/USalign](https://github.com/pylelab/USalign) 核酸和蛋白质单体结构和复杂结构的通用结构比对
* [agemagician/ProtTrans](https://github.com/agemagician/ProtTrans) 正在为蛋白质提供最先进的预训练语言模型。使用 Transformers 模型在 Summit 的数千个 GPU 和数百个 Google TPU 上进行了训练。
## 药物发现、药物设计
* [DeepGraphLearning/torchdrug](https://github.com/DeepGraphLearning/torchdrug) 药物发现强大而灵活的机器学习平台
* [jdurrant/deepfrag](https://git.durrantlab.pitt.edu/jdurrant/deepfrag) 药物发现是一个成本高昂且耗时的过程。在前期,研究员试图找到能够初步抑制某些疾病关联蛋白的苗头化合物。但这些化合物必须经过先导优化,包括添加或交换某些化学部分,旨在提高化合物的结合亲合力或其他与吸收、分布、代谢、排泄和毒性有关的化学性质(ADMET)。而计算机辅助药物设计(CADD)能够加速前期的这些研究。例如,作者团队最近开发了基于3D卷积神经网络的模型DeepFrag来进行更进一步的先导优化,不幸的是,基于深度学习的模型对于非计算机专业研究者并不友好。为了追求更高的易用性,作者开发了名为DeepFrag的网页应用,为对编程不太熟悉的研究人员提供了图形化的界面,利用本地资源即可运行DeepFrag进行CADD的研究。
* [Mariewelt/OpenChem](https://github.com/Mariewelt/OpenChem) 用于计算化学和药物设计研究的深度学习工具包
* [deepchem/deepchem](https://github.com/deepchem/deepchem) DeepChem 旨在提供一个高质量的开源工具链,使深度学习在药物发现、材料科学、量子化学和生物学中的使用民主化。
* [maxime-langevin/scaffold-constrained-generation](https://github.com/maxime-langevin/scaffold-constrained-generation) 基于现有的 SMILES 循环神经网络模型来执行支架约束生成。支架约束生成和优化并不是很好研究的问题,但在处理药物发现项目时(尤其是在化合物的后期优化中),这是我们试图解决的问题。
* [pyli0628/MPG](https://github.com/pyli0628/MPG) 一种有效的自我监督框架,用于学习药物发现的表达性分子全局表示
* [luost26/3D-Generative-SBDD](https://github.com/luost26/3D-Generative-SBDD) 基于结构的药物设计的 3D 生成模型 (NeurIPS 2021)
* [XuhanLiu/DrugEx](https://github.com/XuhanLiu/DrugEx) 多药理学中基于帕累托的多目标优化药物设计深度学习工具包。由于可用于寻找可行的类药物分子的类药物化学空间大,合理的药物设计通常从添加或修饰侧链/取代基的特定支架开始。随着深度学习在药物发现中应用的快速增长,已经开发出多种有效的方法来进行从头药物设计。提出了DrugEx 的方法,该方法可以应用于基于多目标深度强化学习的多药理学。为了提高普遍适用性, DrugEx 以设计基于支架的药物分子,支架由用户提供的多个片段组成。在这项工作中,Transformer 用于生成分子结构。Transformer 包含一个接收支架作为输入的编码器和一个生成分子作为输出的解码器。为了处理分子的图形表示,我们提出了一种基于邻接矩阵的每个原子和键的新位置编码,以扩展 Transformer 的架构。每个分子都是通过生长和连接给定支架中的片段的程序生成的,这些片段被统一到一个模型中。此外,我们在强化学习框架下训练了这个生成器,以增加所需配体的数量。
* [kekegg/DLEPS](https://github.com/kekegg/DLEPS) 利用深度学习从基因转录数据中预测药物疗效
* [tencent-ailab/DrugOOD](https://github.com/tencent-ailab/DrugOOD) 人工智能辅助药物发现的 OOD 数据集和基准
## 药物-靶标 药物-药物 化合物-蛋白质 相互作用
* [ddinter.scbdd.com](http://ddinter.scbdd.com/) 专门针对药物-药物相互作用的综合、专业和开放存取的数据库。它为每个 DDI 关联提供了丰富的注释,包括机制描述、风险级别、管理策略、替代药物等,以改善临床决策和患者安全。
* [kexinhuang12345/DeepPurpose](https://github.com/kexinhuang12345/DeepPurpose) PyTorch来解锁50多个用于药物-靶标相互作用(Drug-Target Interaction)预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码,就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用:虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)。
* [ETHmodlab/molgrad](https://github.com/ETHmodlab/molgrad) 通过将积分梯度可解释人工智能(XAI)方法应用于图神经网络模型,提高了理性分子设计的建模透明度,并基于四个药理学相关ADME终点的实验,验证了所提出的方法能够突出与已知药效团基序一致的分子特征和结构元素,正确识别性质断崖,并提供了对非特异性配体-靶标相互作用的见解。
* [thinng/GraphDTA](https://github.com/thinng/GraphDTA) 使用图神经网络预测药物-靶标的结合亲和力
* [isjakewong/MIRACLE](https://github.com/isjakewong/MIRACLE) 多视图图对比表示学习用于药物药物相互作用预测
* [FangpingWan/DeepCPI](https://github.com/FangpingWan/DeepCPI) 基于深度学习的化合物和蛋白质相互作用预测框架
* [yueyu1030/SumGNN](https://github.com/yueyu1030/SumGNN) multi-typed drug interaction prediction via efficientknowledge graph summarization 基于高效知识图谱汇总的多类型药物关联预测。 整合了DDI信息(药物-药物相互作用)以及生物医学KG数据,并提出了有效的聚合机制以进行DDI预测。实验结果表明,该模型具有良好的预测性能。
* [kanz76/SSI-DDI](https://github.com/kanz76/SSI-DDI) 预测药物之间不良DDI的深度学习框架。首次将药物间相互作用预测的任务转化为子结构间相互作用预测的任务。实验结果表明,该方法有着目前最好的性能。并在transductive和inductive (冷启动场景)设置方面都取得了良好的效果。
* [jacklin18/KGNN](https://github.com/jacklin18/KGNN) IJCAI'20 "KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction" 基于知识图谱的图神经网络(KGNN),以解决DDI预测问题。该框架可通过在KG中挖掘相关联的关系,来有效地捕获药物及其潜在的邻域实体信息。
* [twopin/CAMP](https://github.com/twopin/CAMP) 用于多层次肽-蛋白质相互作用预测的基于卷积注意力的神经网络
* [lvguofeng/GNN_PPI](https://github.com/lvguofeng/GNN_PPI) 提出了一种基于图神经网络的方法 (GNN-PPI),以更好地预测新蛋白质之间的相互作用。在不同规模的真实世界数据集上的实验结果表明,GNN-PPI 显着优于最先进的 PPI 预测方法,特别是对于小说间的蛋白质相互作用预测。
* [Liuxg16/GeoPPI](https://github.com/Liuxg16/GeoPPI) 用于模拟突变对蛋白质-蛋白质结合亲和力的影响的深度几何表示
* [biomed-AI/GraphPPIS](https://github.com/biomed-AI/GraphPPIS) GraphPPIS 是一种使用深度图卷积网络进行基于结构的蛋白质-蛋白质相互作用位点预测的新框架,它能够从高阶空间相邻氨基酸中捕获信息。
* [aqlaboratory/hsm](https://github.com/aqlaboratory/hsm) 使用机器学习对蛋白质-肽相互作用和信号网络进行生物物理预测
* [THinnerichs/DTI-VOODOO](https://github.com/THinnerichs/DTI-VOODOO) 使用深度图学习方法进行药物靶标相互作用预测的 PPI 网络驱动方法。
* [ohuelab/QEPPI](https://github.com/ohuelab/QEPPI) 针对蛋白质-蛋白质相互作用的化合物早期筛选的定量估计指数
* [DeepRank/deeprank](https://github.com/DeepRank/deeprank)使用 CNN 数据挖掘蛋白质-蛋白质相互作用的深度学习框架
* [violet-sto/TGSA](https://github.com/violet-sto/TGSA) TGSA 的 PyTorch 实现:基于蛋白质-蛋白质关联的双图神经网络用于相似性增强的药物反应预测
* [PaddleHelix/drug_target_interaction/sign](https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/drug_target_interaction/sign) 用于预测蛋白质-配体结合亲和力的结构感知交互式图神经网络
* [biomed-AI/GraphSite](https://github.com/biomed-AI/GraphSite) 用于使用图形转换器和来自 AlphaFold2 的预测蛋白质结构进行基于序列的蛋白质-DNA 结合位点预测。
* [pharmai/plip](https://github.com/pharmai/plip) 根据 PDB 文件分析和可视化非共价蛋白质-配体相互作用
* [Layne-Huang/EGFI](https://github.com/Layne-Huang/EGFI) 融合丰富实体和句子信息的药物-药物相互作用提取和生成
* [Ieremie/TransformerGO](https://github.com/Ieremie/TransformerGO) 通过对基因本体术语集之间的注意力进行建模来预测蛋白质-蛋白质相互作用
* [YifanDengWHU/DDIMDL](https://github.com/YifanDengWHU/DDIMDL) 具有多种药物特征的多模式深度学习框架来预测药物-药物相互作用(DDI)事件。
* [CSUBioGroup/BACPI](https://github.com/CSUBioGroup/BACPI) 用于化合物-蛋白质相互作用和结合亲和力预测的双向注意力神经网络
* [biomed-AI/CoSMIG](https://github.com/biomed-AI/CoSMIG) 多关系归纳药物-基因相互作用预测的交际子图表示学习
* [IsXudongZhang/Molormer](https://github.com/IsXudongZhang/Molormer) 基于分子图空间结构的轻量级自注意药物相互作用预测方法
## 分子
* [futianfan/CORE](https://github.com/futianfan/CORE) 利用复制和改进策略自动优化分子
* [zhang-xuan1314/Molecular-graph-BERT](https://github.com/zhang-xuan1314/Molecular-graph-BERT) 面向药物分子性质预测的大规模原子表征预训练模型
* [microsoft/Graphormer](https://github.com/microsoft/Graphormer) 图结构数据上的Transformer变种,应用于2D 分子化学结构图预测分子性质,还可以应用于主流图预测任务、社交网络的推荐和广告、知识图谱、自动驾驶的雷达点云数据、对交通物流运输等的时空预测和优化、程序理解和生成等等,还包括分子性质预测所涉及的行业,比如药物发掘、材料发现、分子动力学模拟、蛋白质结构预测等等。
* [dptech-corp/Uni-Mol](https://github.com/dptech-corp/Uni-Mol) 通用的 3D 分子预训练框架,显着扩大了药物设计中的表示能力和应用范围。由两个模型组成:一个由 209M 分子 3D 构象训练的分子预训练模型; 由 3M 候选蛋白质口袋数据训练的口袋预训练模型。两种模型独立用于不同的任务,并在用于蛋白质-配体结合任务时结合使用。 Uni-Mol 在 14/15 分子特性预测任务中优于 SOTA。 此外,在3D空间任务中实现了卓越的性能,包括蛋白质-配体结合位姿预测(protein-ligand binding pose prediction)、分子构象生成(molecular conformation generation)等。
* [HIPS/neural-fingerprint](https://github.com/HIPS/neural-fingerprint) 图卷积网络用于学习分子指纹。使用神经网络在数据样本中归纳总结,然后来预测新型分子的属性或者性质。
* [binghong-ml/MolEvol](https://github.com/binghong-ml/MolEvol) 通过可解释进化进行分子优化
* [MinkaiXu/GeoDiff](https://github.com/MinkaiXu/GeoDiff) 用于分子构象生成的几何扩散模型 (ICLR 2022)。
* [MinkaiXu/ConfVAE-ICML21](https://github.com/MinkaiXu/ConfVAE-ICML21) 基于双层规划的端到端分子构象生成框架
* [mohimanilab/molDiscovery](https://github.com/mohimanilab/molDiscovery) 使用质谱数据预测分子的身份
* [binghong-ml/retro_star](https://github.com/binghong-ml/retro_star) 自提升策略规划真实且可执行的分子逆合成路线
* [GraphPKU/3DLinker](https://github.com/GraphPKU/3DLinker) 用于分子链接器设计的 E (3) 等变变分自动编码器
* [marcopodda/fragment-based-dgm](https://github.com/marcopodda/fragment-based-dgm) 基于片段的分子深度生成模型.作者在ZINC数据集上进行了实验,该数据由250K类药物化合物组成。为了进一步评估LFM的影响,作者还使用了Pub Chem Bio Assay(PCBA)数据集测试了模型变体,该数据集包括约440k小分子。
* [torchmd/torchmd](https://github.com/torchmd/torchmd) 一个混合经典和机器学习势的分子模拟(molecular simulations)的框架。通过将MD(经典分子动力学)中的键合和非键合力术语扩展到任意复杂的DNN上,实现了机器学习势的快速成型和集成。TorchMD关键点:一,PyTorch编写,容易集成其他ML模型;二,提供执行端到端可微模拟能力,在参数上都是可微的。
* [MolecularAI/GraphINVENT](https://github.com/MolecularAI/GraphINVENT) 基于GNN的分子生成平台
* [shenwanxiang/bidd-molmap](https://github.com/shenwanxiang/bidd-molmap) MolMapNet 可预测药物特性,通过广泛学习的基于知识的分子表示对药物特性进行开箱即用的深度学习预测
* [DeepGraphLearning/GraphAF](https://github.com/DeepGraphLearning/GraphAF) 基于Flow的自回归模型,以生成真实多样的分子图。由于标准化Flow的灵活性,GraphAF能够模拟复杂的分子分布,并在实验中生成新的和100%有效的分子。
* [anny0316/Drug3D-Net](https://github.com/anny0316/Drug3D-Net) 提出了一种新的基于分子空间几何结构的深度神经网络结构Drug3D-Net,用于预测分子性质。它是基于网格的三维卷积神经网络,具有时空门注意模块,可以提取卷积过程中分子预测任务的几何特征。
* [deepmodeling/deepmd-kit](https://github.com/deepmodeling/deepmd-kit) 用于多体势能表示和分子动力学的深度学习包
* [lol88/Mol2Context-vec](https://github.com/lol88/Mol2Context-vec) 提供了一种深入的上下文感知分子表示,以推动药物发现的边界。它可以整合不同层次的内部状态,带来丰富的分子结构信息。
* [jcchan23/CoMPT](https://github.com/jcchan23/CoMPT) 本文提出了Communicative Message Passing Transformer网络,一种通过在Transformer架构中融合消息传递机制并加强节点与边之间的消息交互来改进药物分子图的表征方法。此外,受热扩散现象的启发,该表征方法通过将消息传递机制转化为消息扩散机制减少了消息过度富集的影响。大量实验表明,本文提出的模型在七个化学性质数据集(图级任务)和两个化学位移数据集(节点级任务)上的性能优于基线模型的性能(平均性能提升约4%)。可视化研究也进一步表明该模型实现了更好的药物分子图表征能力。
* [zetayue/MXMNet](https://github.com/zetayue/MXMNet) 具有分子结构多重图的分子力学驱动图神经网络
* [ChenDdon/AGBTcode](https://github.com/ChenDdon/AGBTcode) 代数图辅助双向变换器用于分子特性预测”的实现
* [yvquanli/trimnet](https://github.com/yvquanli/trimnet) 论文代码“TrimNet:从生物医学的三元组消息中学习分子表示”
* [lmmpf/PyAutoFEP](https://github.com/lmmpf/PyAutoFEP) PyAutoFEP:用于 GROMACS 的自动化 FEP 工作流程,集成了增强的采样方法.PyAutoFEP 是一种自动化自由能扰动 (FEP) 计算的工具,用于估计小分子与大分子目标的相对自由能结合 (RFEB)。它自动生成微扰图、构建配体对的双拓扑、设置 MD 系统和分析。与众不同的是,PyAutoFEP 支持多个力场,集成了增强的采样方法,并允许灵活的 λ 窗口方案。
* [hannesstark/3dinfomax](https://github.com/hannesstark/3dinfomax) 通过使用分子的 3D 几何来预训练 GNN,使自我监督学习对分子起作用。在 DGL 和 Pytorch Geometric 中实现。
* [microsoft/FS-Mol](https://github.com/microsoft/FS-Mol) FS-Mol 是一个 Few-Shot 分子学习数据集,包含具有针对各种蛋白质靶标的活性测量值的分子化合物。该数据集提供了一个模型评估基准,旨在推动分子和图形结构数据领域的小样本学习研究。
* [zhichunguo/Meta-MGNN](https://github.com/zhichunguo/Meta-MGNN) 用于分子性质预测的小样本图学习
* [illidanlab/MoCL-DK](https://github.com/illidanlab/MoCL-DK) 论文 MoCL 的实现:具有多层次领域知识的分子图对比学习
* [smiles724/Molformer](https://github.com/smiles724/Molformer) Molformer(以前称为 3D-Transformer)的存储库,它在许多分子表示学习问题中实现了最先进的技术。
* [gasteigerjo/dimenet](https://github.com/gasteigerjo/dimenet) DimeNet 和 DimeNet++ 模型,如“分子图的定向消息传递”(ICLR 2020)和“非平衡分子的快速和不确定性感知定向消息传递”(NeurIPS-W 2020)中提出
* [LiteGEM/kddcup2021-PCQM4M-LSC](https://github.com/PaddlePaddle/PaddleHelix/tree/dev/competition/kddcup2021-PCQM4M-LSC) LiteGEM:KDD Cup 2021 PCQM4M-LSC解决方案. PCQM4M-LSC是量子化学数据集,任务是预测给定分子的重要分子特性,即HOMO-LUMO间隙(图形回归)。即一个分子图的量子特性回归数据集,它包含了3,803,453个图。它基于PubChemQC项目的归纳式图回归数据集。它包含约400万以SMILES串描述的小分子。目的是加速量子化学计算,尤其是预测每个分子的HOMO-LUMO轨道距离。HOMO-LUMO距离是量子化学中最重要的属性之一,因为他和分子的反应性、光激励、电荷输送有关。每个分子的真实标签是通过昂贵的DFT计算得到,每个分子需要计算几个小时。在足够的训练数据支持下,类似GNN的基于分子图网络的机器学习模型,可以以很小代价得到近似DFT的结果。这些分子根据他们的PubChem ID按照8:1:1划分作为训练、验证、测试数据集。
* [deepmind//ogb_lsc/pcq](https://github.com/deepmind/deepmind-research/tree/master/ogb_lsc/pcq) DeepMind 进入OGB大规模挑战赛(OGB-LSC) 的PCQM4M-LSC(量子化学)轨道的条目 。通过汇集 20 个模型(10 倍 x 2 个种子)的集合来实现的。
* [divelab/MoleculeX](https://github.com/divelab/MoleculeX) 用于分子探索的全新且快速发展的机器学习方法和软件工具。MoleculeX 的最终目标是实现各种基本和复杂的分子建模任务,例如分子性质预测、3D 几何建模等。目前,包括一套机器学习方法,用于基态 3D 分子几何预测和分子属性预测。具体来说,BasicProp包括基于图神经网络的基本监督学习方法,用于分子特性预测。BasicProp适用于有大量标记样本可用的任务,因此只需要监督学习。BasicProp已用于参与2021年OGB-LSC是获胜者之一。当只有少量标记样本可用时,AdvProp包括用于分子特性预测的机器学习方法,因此需要自我监督学习来实现理想的性能。此外,AdvProp能够处理来自不同类别的样本高度不平衡的任务。在这些情况下,我们采用先进的损失函数来优化曲线下的各个区域 (AUC)。AdvProp已被用于参与COVID-19 的 AI 治愈公开挑战赛排名第一。此外,Molecule3D提供了软件工具来处理我们提出的 数据集,这是一种专门为基态 3D 分子几何预测而设计的新型数据集。它还包括几种几何预测的基线方法,以及使用预测的 3D 几何作为输入的量子特性预测方法。目前,MoleculeX 的包只包含 Molecule3D 模块代码。
* [divelab/MoleculeX](https://github.com/divelab/MoleculeX) 用于分子探索的全新且快速发展的机器学习方法和软件工具。MoleculeX 的最终目标是实现各种基本和复杂的分子建模任务,例如分子性质预测、3D 几何建模等。目前,包括一套机器学习方法,用于基态 3D 分子几何预测和分子属性预测。具体来说,BasicProp包括基于图神经网络的基本监督学习方法,用于分子特性预测。BasicProp适用于有大量标记样本可用的任务,因此只需要监督学习。BasicProp已用于参与2021年OGB-LSC是获胜者之一。当只有少量标记样本可用时,AdvProp包括用于分子特性预测的机器学习方法,因此需要自我监督学习来实现理想的性能。此外,AdvProp能够处理来自不同类别的样本高度不平衡的任务。在这些情况下,我们采用先进的损失函数来优化曲线下的各个区域 (AUC)。AdvProp已被用于参与COVID-19 的 AI 治愈公开挑战赛排名第一。此外,Molecule3D提供了一套软件工具来处理我们提出的 Molecule3D 数据集,这是一种专门为基态 3D 分子几何预测而设计的新型数据集。它还包括几种几何预测的基线方法,以及使用预测的 3D 几何作为输入的量子特性预测方法。目前,MoleculeX 的 pip 包只包含 Molecule3D 模块的代码。我们将在未来逐步包含其他模块。
* [PattanaikL/GeoMol](https://github.com/PattanaikL/GeoMol) 直接从分子图生成 3D 构象集合的方法
* [IBM/QMO](https://github.com/IBM/QMO) 基于查询的分子优化。利用来自分子自动编码器的潜在嵌入。在一组分子特性预测和评估指标的指导下,基于有效查询改进输入分子的所需特性
* [grogdrinker/pyuul](https://bitbucket.org/grogdrinker/pyuul/src/master/) 旨在处理大分子的 3D 结构,例如 PDB,将它们转换为完全可微分的数据结构。
* [Saoge123/ccgnet](https://github.com/Saoge123/ccgnet) Co-Crystal Graph Network是二元有机共晶虚拟筛选的深度学习框架,将先验知识融入分子图的特征学习中,实现共晶筛选性能的极大提升。
* [ZJU-Fangyin/KCL](https://github.com/ZJU-Fangyin/KCL) 化学元素知识图谱的分子对比学习
* [nyu-dl/dl4chem-mgm](https://github.com/nyu-dl/dl4chem-mgm) 用于[Masked 图建模分子生成](https://translate.google.com/website?sl=en&tl=zh-CN&hl=zh-CN&client=webapp&u=https://www.nature.com/articles/s41467-021-23415-2)中进行实验的模型、数据和脚本。
* [ccsb-scripps/AutoDock-Vina](https://github.com/ccsb-scripps/AutoDock-Vina) 速度最快、使用最广泛的开源分子对接引擎之一。基于简单的评分函数和快速梯度优化构象搜索。它最初由分子图形实验室的 Oleg Trott 博士设计和实现。在分子建模领域,对接docking是一种在配体和靶标相互结合形成稳定复合物时,预测一个分子对第二个分子的优选取向的方法。 反过来,优选方向的知识可用于预测两个分子之间的缔合强度或结合亲和力,例如使用评分函数。将小分子配体与蛋白质靶标对接产生稳定复合物。蛋白质、肽、核酸、碳水化合物和脂质等生物学相关分子之间的关联在信号转导中起着核心作用。此外,两个相互作用伙伴的相对方向可能会影响产生的信号类型(例如,激动与拮抗)。因此,对接对于预测产生的信号的强度和类型非常有用。分子对接是基于结构的药物设计中最常用的方法之一,因为它能够预测小分子配体与适当靶结合位点的结合构象。结合行为的表征在药物的合理设计以及阐明基本的生化过程中起着重要作用。
* [devalab/molgpt](https://github.com/devalab/molgpt) 使用下一个令牌预测任务在 Moses 和 Guacamol 数据集上训练小型自定义 GPT。然后将该模型用于无条件和有条件的分子生成。我们将我们的模型与之前在 Moses 和 Guacamol 数据集上的方法进行比较。使用Ecco库获得显着性图的可解释性。
* [tencent-ailab/grover](https://github.com/tencent-ailab/grover) 大规模分子数据上的自监督图转换器。支持预训练、微调、预测、指纹生成和评估功能。
* [rampasek/GraphGPS](https://github.com/rampasek/GraphGPS) 通用、强大、可扩展的图形转换器的秘诀。如何构建图形转换器? 我们提供了一个由 3 部分组成的秘诀,介绍如何构建具有线性复杂度的图形转换器。 我们的 GPS 配方包括选择 3 种主要成分:位置/结构编码:LapPE、RWSE、SignNet、EquivStableLapPE,本地消息传递机制:GatedGCN、GINE、PNA,全局注意力机制:Transformer、Performer、BigBird。在ZINC 数据集上的图形回归任务目前SOTA。ZINC 是用于虚拟筛选的商用化合物的免费数据库。 ZINC 包含超过 2.3 亿种可购买的即用型 3D 格式化合物。 ZINC 还包含超过 7.5 亿种可购买的化合物,可用于搜索类似物。
* [wenhao-gao/mol_opt](https://github.com/wenhao-gao/mol_opt) 实用分子优化 (PMO) 的开源基准,以促进对分子优化算法进展的透明和可重复评估。支持 23 种任务的 25 种分子设计算法。
* [THUDM/GraphMAE](https://github.com/THUDM/GraphMAE) 生成式自监督图学习方法,在节点分类、图分类和分子特性预测等任务上与现有对比方法相比具有竞争力或更好的性能。
* [lucidrains/egnn-pytorch](https://github.com/lucidrains/egnn-pytorch) E(n)-等变图网络, 可能最终用于Alphafold2 复制。 适用于简单的不变特征,最终在准确性和性能上击败了所有以前的方法(包括 SE3 Transformer 和 Lie Conv)。 动力系统模型、分子活动预测任务等中的 SOTA。
* [OptiMaL-PSE-Lab/DeepDock](https://github.com/OptiMaL-PSE-Lab/DeepDock) 预测生物活性分子结合构象的几何深度学习方法
* [hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarios](https://github.com/hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarios) 低资源反应预测场景的自监督分子预训练策略
* [xzenglab/KG-MTL](https://github.com/xzenglab/KG-MTL) 以协同的方式从知识图谱和分子图中提取特征。此外,我们设计了一个有效的共享单元,帮助模型在两个层次的图中共同保留药物实体的语义关系和化合物的相邻结构。在四个真实世界数据集上的广泛实验表明,我们提出的KG-MTL在两个具有代表性的分子相互作用预测任务上优于最先进的方法:药物-靶点相互作用(DTI)预测和化合物-蛋白质相互作用(CPI)预测。
## 抗菌肽
* [vail-uvm/amp-gan](https://github.com/vail-uvm/amp-gan) 一种基于双向条件生成对抗网络的抗菌肽(AMPs)设计方法AMPGAN v2。AMPGAN v2使用生成器和鉴别器来学习数据驱动的先验知识,并使用条件变量控制生成。
* [reymond-group/MLpeptide](https://github.com/reymond-group/MLpeptide) 机器学习设计非溶血性抗菌肽。使用来自DBAASP的数据训练RNN来设计非溶血性抗菌肽(Antimicrobial peptides, AMP),合成并测试了28个生成肽,鉴定出针对绿脓杆菌、鲍曼不动杆菌和耐甲氧西林金黄色葡萄球菌 (MRSA) 的8种新的非溶血性 AMP。结果表明机器学习可以用来设计非溶血性AMP。
* [IBM/controlled-peptide-generation](https://github.com/IBM/controlled-peptide-generation) IBM利用深度生成模型和分子动力学模拟加速抗菌肽发现
## 其他_生物医药
* [KailiWang1/DeepDTAF](https://github.com/KailiWang1/DeepDTAF) 预测蛋白质与配体结合亲和力的深度学习方法
* [cansyl/MDeePred](https://github.com/cansyl/MDeePred) 多通道蛋白质的特征化来解决深度学习下药物发现中亲和力预测问题
* [microsoft/BioGPT](https://github.com/microsoft/BioGPT) 用于生物医学文本生成和挖掘的生成预训练转换器的实现。提供预先训练的 BioGPT 模型检查点以及用于下游任务的微调检查点:用于PubMedQA(从PubMed摘要中收集的新颖的生物医学问答(QA)数据集。)上的问答任务、用于BC5CDR(人工标注的文档级关系抽取数据集,由1,500篇PubMed文档构成是生物医学特定领域,且仅考虑“化学诱导的疾病”关系)关系提取、用于DDI(药物间的相互作用)关系提取任务、用于KD-DTI(built *upon* *Drug*- *Bank* (*Wishart* *et* *al*. 2017) *and* *Therapeutic* *Target* *Database* (*briefly*, *TTD*) (*Wang* *et* *al*. 2020). DTI预测药物-靶点相互作用)关系提取任务、HoC 上的文档分类任务。
* [CBLUEbenchmark/CBLUE](https://github.com/CBLUEbenchmark/CBLUE) 中文医疗信息处理基准CBLUE 8个中文医疗语言理解任务。包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。
* [dmis-lab/biobert](https://github.com/dmis-lab/biobert) 用于生物医学文本挖掘的预训练生物医学语言表示模型
* [mims-harvard/TDC](https://github.com/mims-harvard/TDC) Therapeutics Data Commons (TDC),第一个机器学习在生物医药的大规模数据集。TDC目前包含了20+有意义的任务,和70多个高质量数据集,从靶蛋白的发现,药物动力学,安全性,药物生产都有包含到。而且不仅仅是小分子,还有抗体,疫苗,miRNA等。之后也会加入CRISPR,Clinical Trials等等。
* [alibaba-research/ChineseBLUE](https://github.com/alibaba-research/ChineseBLUE) 中国生物医学语言理解评估基准
* [lrsoenksen/CL_RNA_SynthBio](https://github.com/lrsoenksen/CL_RNA_SynthBio) RNA合成生物学的深度学习
* [uci-cbcl/UFold](https://github.com/uci-cbcl/UFold) 利用深度学习进行快速准确的 RNA 二级结构预测
* [lanagarmire/DeepImpute](https://github.com/lanagarmire/DeepImpute) 一种基于深度神经网络来插补单细胞RNA测序数据的方法
* [emreg00/toolbox](https://github.com/emreg00/toolbox) 疾病和药物相关的生物学数据集时所使用的各种脚本。它包含用于数据处理的通用实用程序(例如,解析,基于网络的分析,邻近性等)。
* [ruoqi-liu/DeepIPW](https://github.com/ruoqi-liu/DeepIPW) 基于真实世界患者数据的药物重定位的深度学习框架
* [CutillasLab/DRUMLR](https://github.com/CutillasLab/DRUMLR) 利用机器学习预测抗癌药物疗效。提出Drug Ranking Using ML方法,使用omics数据,根据药物抗肿瘤细胞增殖疗效对超过400种药物进行排序。
* [kaist-amsg/Synthesizability-PU-CGCNN](https://github.com/kaist-amsg/Synthesizability-PU-CGCNN) 基于半监督学习的晶体结构的合成预测
* [xiaoyeye/CCST](https://github.com/xiaoyeye/CCST) 使用图神经网络对空间转录组学数据进行细胞聚类。利用最近的两个技术发展,空间转录组学和图神经网络,用图神经网络进行空间转录组学数据的细胞聚类,一种基于图卷积网络的无监督细胞聚类方法,以改进从头算细胞聚类和发现 基于策划的细胞类别注释的新型子细胞类型。 CCST是处理各种空间分辨转录组学的通用框架。
* [WLYLab/PepFormer](https://github.com/WLYLab/PepFormer) 基于Transformer的对比学习框架实现多肽可检测性预测
* [NYSCF/monoqlo_release](https://github.com/NYSCF/monoqlo_release) 提出了模块化的深度学习框架Monoqlo来自动识别细胞集落,并从细胞成像中识别克隆性。
* [deepmodeling/deepks-kit](https://github.com/deepmodeling/deepks-kit) DeePKS: A Comprehensive Data-Driven Approach toward Chemically Accurate Density Functional Theory 提出了构建准确且高效的密度泛函模型的通用机器学习框架,并且利用这一框架训练了具有化学精度的密度泛函模型,应用于电子结构性质的计算。
* [juexinwang/scGNN](https://github.com/juexinwang/scGNN) 新型的用于单细胞RNA测序分析的图神经网络框架
* [liulizhi1996/HPOFiller](https://github.com/liulizhi1996/HPOFiller) 基于图卷积网络(GCN)的方法,用于预测缺失的HPO注释。 人类表型本体(HPO)是描述人类疾病中遇到的表型异常的标准化词汇(疾病的术语)。探索人类蛋白质和异常表型之间的关系在疾病的预防、诊断和治疗中具有重要意义。
* [zty2009/GCN-DNN](https://github.com/zty2009/GCN-DNN) 基于图卷积网络和深度神经网络的药物靶点相互作用识别
* [WebyGit/CGINet](https://github.com/WebyGit/CGINet) 大规模药物信息网络构建及图卷积预测模型
* [ziyujia/SalientSleepNet](https://github.com/ziyujia/SalientSleepNet) 用于睡眠分期的多模态凸波检测网络
* [ziyujia/Physiological-Signal-Classification-Papers](https://github.com/ziyujia/Physiological-Signal-Classification-Papers) 500余篇基于机器学习/深度学习的生理信号分类论文列表
* [ziyujia/Sleep-Stages-Classification-Papers](https://github.com/ziyujia/Sleep-Stages-Classification-Papers) 基于深度学习的睡眠阶段分类论文列表
* [ziyujia/Motor-Imagery-Papers](https://github.com/ziyujia/Motor-Imagery-Papers) 基于深度学习的运动想象分类论文列表
* [BojarLab/SweetNet](https://github.com/BojarLab/SweetNet) 图卷积神经网络分析复杂碳水化合物。
* [jaswindersingh2/SPOT-RNA2](https://github.com/jaswindersingh2/SPOT-RNA2) 利用进化概况、突变耦合和二维迁移学习改进了RNA二级结构和三级碱基配对预测
* [QSong-github/scGCN](https://github.com/QSong-github/scGCN) 单细胞图卷积网络模型(single-cell Graph Convolutional Network)可以实现跨越不同数据集的知识转移(knowledge transfer)。通过在30个单细胞组学数据集上进行基准测试实验,结果表明scGCN在利用来自不同组织、平台和物种以及分子层的细胞方面展现了优于其他方法的准确性。
* [mauragarofalo/LICTOR](https://github.com/mauragarofalo/LICTOR) 抗体体细胞突变的机器学习分析预测免疫球蛋白轻链毒性
* [JieZheng-ShanghaiTech/KG4SL](https://github.com/JieZheng-ShanghaiTech/KG4SL) 用于人类癌症合成致死预测的知识图神经网络
* [immunogenomics/symphony](https://github.com/immunogenomics/symphony) 使用 Symphony 进行高效、精确的单细胞参考图谱映射
* [calico/scnym](https://github.com/calico/scnym) 用于对单细胞分类的半监督对抗式神经网络
* [enformer](https://github.com/deepmind/deepmind-research/tree/master/enformer) 一种新的Transformer模型,“通过整合长程相互作用从序列中有效预测基因表达“,可大大提高从 DNA 序列预测基因表达的准确性,其能够「阅读」很长的 DNA 序列,可处理的序列长度达到之前的 5 倍(20W 个碱基对)
* [schulter/EMOGI](https://github.com/schulter/EMOGI) 一种基于图卷积网络的可解释多组学图集成方法预测癌症基因。
* [hui2000ji/scETM](https://github.com/hui2000ji/scETM) 生成主题模型,可促进对大规模单细胞 RNA 测序数据的综合分析。
* [Google-Health/genomics-research](https://github.com/Google-Health/genomics-research) Google Health 共享的基因组学研究代码
* [CompbioLabUCF/omicsGAN](https://github.com/CompbioLabUCF/omicsGAN) omicsGAN 是一种基于生成对抗网络的框架,可以将两个 omiocs 数据与其交互网络相结合,以生成与每个组学特征相对应的合成数据,从而可以更好地预测表型。乳腺癌表型预测的样本数据集。
* [BackofenLab/CRISPRloci](https://github.com/BackofenLab/CRISPRloci) CRISPRloci 在细菌和古细菌基因组上提供了 CRISPR-Cas 系统的自动化和全面的计算机表征。它是完整的 CRISPR 基因座表征套件,包括 CRISPR 阵列定向、保守前导检测、cas 基因注释和亚型分类。
* [suhrig/arriba](https://github.com/suhrig/arriba) 从 RNA-Seq 数据中快速准确地检测基因融合
* [haiyang1986/Subtype-GAN](https://github.com/haiyang1986/Subtype-GAN) 多组学数据综合癌症亚型的深度学习方法
* [oxpig/dlab-public](https://github.com/oxpig/dlab-public) “DLAB——基于结构的抗体虚拟筛选的深度学习方法”论文代码
* [heislab/scarches](https://github.com/theislab/scarches) scArches 是一个将新生成的单细胞数据集集成到集成参考图谱中的包。我们的方法可以通过分散的培训和不同组的多个数据集的集成来促进大型协作项目。scArches 与[scanpy](https://scanpy.readthedocs.io/en/stable/)兼容。并为单细胞数据托管了几个条件生成模型的有效实现。构建单模态或多模态 (CITE-seq) 参考图集并共享经过训练的模型和数据(如果可能)。为您感兴趣的地图集下载预先训练的模型,使用新数据集对其进行更新并与您的合作者分享。在参考的顶部投影和集成查询数据集,并使用潜在表示进行下游任务,例如:差异测试、聚类、分类
* [HantaoShu/DeepSEM](https://github.com/HantaoShu/DeepSEM) 基于深度学习的方法,具有新颖的神经网络架构,可以推断基因调控网络,嵌入scRNA-seq数据,并通过解释不同的模块来模拟真实的scRNA-seq数据。
* [Tsedao/MultiRM](https://github.com/Tsedao/MultiRM) 基于注意力的多标签神经网络,用于对十二种广泛发生的 RNA 修饰进行综合预测和解释
* [hybrid-kg/clep](https://github.com/hybrid-kg/clep) 用于生成由数据和先验知识驱动的新患者表示的 Python 包
* [d909b/drnet](https://github.com/d909b/drnet) 剂量反应网络 (DRNets) 是一种学习方法,用于学习使用神经网络从观察数据中估计多个参数治疗的个体剂量反应曲线。
* [claudiashi57/dragonnet](https://github.com/claudiashi57/dragonnet) 适应神经网络以估计治疗效果 使用神经网络从观察数据中估计因果效应的方法。
* [PaddlePaddle/PaddleHelix](https://github.com/PaddlePaddle/PaddleHelix/) 螺旋桨(PaddleHelix)是一个生物计算工具集,是用机器学习的方法,特别是深度神经网络,致力于促进以下领域的发展。**新药发现**。提供1)大规模预训练模型:化合物和蛋白质; 2)多种应用:分子属性预测,药物靶点亲和力预测,和分子生成。**疫苗设计**。提供RNA设计算法,包括LinearFold和LinearPartition。**精准医疗**。提供药物联用的应用。
* [OATML-Markslab/EVE](https://github.com/OATML-Markslab/EVE) 论文“使用进化数据和深度学习对遗传变异进行大规模临床解释”的官方存储库。
* [ZJUFanLab/scDeepSort](https://github.com/ZJUFanLab/scDeepSort) 使用带有加权图神经网络的深度学习对单细胞转录组学进行细胞类型注释.单细胞 RNA 测序 (scRNA-seq) 的最新进展已经实现了对多个复杂组织中数千个细胞的大规模转录表征,其中准确的细胞类型识别成为 scRNA-seq 研究的先决条件和重要步骤。开发了一种预训练的细胞类型标注方法,scDeepSort 是基于加权 GNN 框架构建的,然后在两个嵌入的高质量 scRNA-seq 图集中学习,该图集包含人类和小鼠 88 个组织中的 764,741 个细胞。
* [jianhuupenn/SpaGCN](https://github.com/jianhuupenn/SpaGCN) SpaGCN:整合基因表达、空间位置和组织学,通过图卷积网络识别空间域和空间可变基因
* [immunogenomics/symphony](https://github.com/immunogenomics/symphony) 使用 Symphony 进行高效、精确的单细胞参考图谱映射
* [kipoi/models](https://github.com/kipoi/models) 基因组学的预测模型,并用作Kipoi的模型源。Kipoi(发音:kípi;来自希腊语 κήποι:gardens)是一个API和用于基因组学的即用型训练模型的存储库。它目前包含 2201 个不同的模型,涵盖转录和转录后基因调控中的规范预测任务。例如预测称为转录因子的蛋白质如何与DNA结合,或者酶可能在何处拼接遗传密码。
* [LiuJJ0327/CCPE](https://github.com/LiuJJ0327/CCPE) scRNA-seq 数据的细胞周期假体估计。细胞周期(cell cycle)是指细胞从一次分裂完成开始到下一次分裂结束所经历的全过程,分为间期与分裂期两个阶段。
* [broadinstitute/Tangram](https://github.com/broadinstitute/Tangram) 单细胞转录组数据的空间对齐。单细胞数据集和空间数据集应该从相同的解剖区域/组织类型中收集,最好是从生物复制中收集,并且需要共享一组基因。Tangram 通过在共享基因上拟合基因表达来对齐空间中的单细胞数据。
* [franciscozorrilla/metaGEM](https://github.com/franciscozorrilla/metaGEM) 一个易于使用的工作流程,用于生成特定于上下文的基因组规模代谢模型并直接从宏基因组数据预测微生物群落内的代谢相互作用
* [scverse/scvi-tools](https://github.com/scverse/scvi-tools) 单细胞组学数据的深度概率分析
* [www.serratus.io](https://www.serratus.io/) 一个开放科学的病毒发现平台。NCBI 序列读取存档数据库包含来自全球研究实验室十多年来收集的数百万个生物多样性样本的 DNA 和 RNA 测序数据。我们正在重新分析 NCBI 短读存档中的所有 RNA-seq、元基因组学、元转录组学和环境测序数据,以发现新病毒。即>600 万个生物样本或 >10 PB 的测序数据。
* [BioDynaMo/biodynamo](https://github.com/BioDynaMo/biodynamo) 生物动力学建模器 可以通过该平台轻松创建、运行和可视化 3D 生物模拟。BioDynaMo 平台建立在最新的计算技术之上,将使用户能够执行以前无法实现的规模和复杂性的模拟,从而有可能解决具有挑战性的科学研究问题。
* [RasmussenLab/vamb](https://github.com/RasmussenLab/vamb) 用于宏基因组分档的变分自动编码器
* [XieResearchGroup/DeepREAL](https://github.com/XieResearchGroup/DeepREAL) 深度学习驱动的多尺度建模框架,用于预测配体结合的分布外受体活性
* [rankchen121212/RHSNet](https://github.com/frankchen121212/RHSNet) 用于重组热点识别和量化的 RHSNet 的 TF 和 Keras 实现。 重组热点是基因组中相对于中性预期表现出重组率升高的区域。热点内的重组率可以是周围区域的数百倍。 重组热点是由这些区域中较高的 DNA 断裂形成引起的,适用于有丝分裂和减数分裂细胞。这个称谓可以指由程序减数分裂双链断裂的不均匀分布引起的重组事件。通过交叉进行的减数分裂重组被认为是细胞促进同源染色体正确分离和修复 DNA 损伤的机制。交叉需要 DNA 双链断裂,然后是同源物的链入侵和随后的修复。
* [microsoft/InnerEye-DeepLearning](https://github.com/microsoft/InnerEye-DeepLearning) 用于在 Azure 机器学习上训练和部署 3D 分割模型的医学影像深度学习库
* [细菌和古细菌细胞结构图谱](https://jensenlab.caltech.edu/book/) 随着近 20 年低温电子断层扫描 (cryo-ET) 的发展,我们对细菌和古细菌细胞结构的理解有了爆炸式增长,但传统教科书并没有跟上所有新信息。为了解决这个问题,并与世界分享我们所见,我们创作了这本书。它遵循 1960 年代和 1970 年代细胞结构图谱的传统,显示了不同细胞和组织的显微照片以及扩展的图形图例,以帮助每个人了解他们在看什么。五十年后,我们有了一组新的图像——这次是 3D 冷冻断层照片——以及展示它们的新技术:我们的每个免费数字页面都包含一部 3D 断层照片的电影,而不是一本昂贵的书中的静态 2D 数字。一个单元格,带有注释和动画。
* [TencentAILabHealthcare/MLA-GNN](https://github.com/TencentAILabHealthcare/MLA-GNN) 对于胶质瘤数据集,基于共表达基因模块用于疾病诊断和预后的多级注意力图神经网络。
* [TencentAILabHealthcare/scBERT](https://github.com/TencentAILabHealthcare/scBERT) 单细胞RNA-seq数据细胞类型注释的大规模预训练深度语言模型。可靠的细胞类型注释是单细胞RNA测序数据下游分析的先决条件。受大规模预训练语言模型的启发,提出了基于预训练深度神经网络的模型scBERT。scBERT的第一阶段,它通过对大量未标记的scRNA-seq数据进行预训练,获得了对基因 - 基因相互作用的一般理解。然后,预先训练的scBERT可以通过监督微调用于看不见和用户特异性scRNA-seq数据的细胞注释任务。
* [Graylab/IgFold](https://github.com/Graylab/IgFold) 通过深度学习对大量天然抗体进行快速、准确的抗体结构预测。
* [Graylab/IgLM](https://github.com/Graylab/IgLM) 抗体设计的衍生语言建模
* [oxpig/AbLang](https://github.com/oxpig/AbLang) 抗体的语言模型。动机:一般蛋白质语言模型已被证明可以将蛋白质序列的语义总结为对最先进的预测方法有用的表示。然而,对于抗体特异性问题,例如恢复由于测序错误而丢失的残基,仅根据抗体训练的模型可能更强大。抗体是为数不多的可以获得此类语言模型所需序列数据的蛋白质类型之一,例如在观察到的抗体空间(OAS)数据库中。
* [luost26/diffab](https://github.com/luost26/diffab) 使用基于扩散的蛋白质结构生成模型进行抗原特异性抗体设计和优化(NeurIPS 2022)
* [volkamerlab/kissim](https://github.com/volkamerlab/kissim) 提供了一种专为激酶口袋设计的新型指纹图谱策略,允许对结构覆盖的激酶组进行相似性研究。激酶指纹图谱基于 KLIFS 口袋比对,它定义了所有激酶结构的 85 个口袋残基。这样就可以逐个残基进行比较,而无需计算成本高昂的对齐步骤。
* [jerryji1993/DNABERT](https://github.com/jerryji1993/DNABERT) 来自 Transformers 模型的预训练双向编码器表示,用于基因组中的 DNA 语言
* [google/deepvariant](https://github.com/google/deepvariant) 使用深度神经网络从下一代 DNA 测序数据中调用遗传变异。基于深度学习的 trio 变体调用器,构建在 DeepVariant 之上。DeepTrio 扩展了 DeepVariant 的功能,使其能够利用神经网络的力量来预测三人组或二重组的基因组变异。
* [sourmash-bio/sourmash](https://github.com/sourmash-bio/sourmash) 快速搜索、比较和分析基因组和宏基因组数据集。 K-mer 分析多功能工具,为各种序列比较提供稳定、强大的编程和命令行 API。
* [KamilSJaron/smudgeplot](https://github.com/KamilSJaron/smudgeplot) 利用全基因组测序数据推断倍性和杂合性结构。该工具从 kmer 计数数据库中提取杂合 kmer 对。够通过比较 kmer 对覆盖率 (CovA + CovB) 的总和与其相对覆盖率 (CovB / (CovA + CovB)) 来解开基因组结构。这种方法还使我们能够分析具有重复性、各种倍性水平等的晦涩基因组。
* [shenwei356/kmcp](https://github.com/shenwei356/kmcp) 准确的宏基因组分析和快速的大规模序列/基因组搜索
* [mcveanlab/mccortex](https://github.com/mcveanlab/mccortex) 从头基因组组装和多样本变异检出,使用 Linked de bruijn 图进行多样本从头组装和变体调用。有和没有参考基因组的变异检出。在密切相关的样本或高度分歧的样本之间。从细菌基因组到哺乳动物基因组。
* [HUANGLIZI/LViT](https://github.com/HUANGLIZI/LViT) [IEEE医学影像汇刊/TMI]此 repo 是“LViT:语言在医学图像分割中的视觉转换器”的官方实现
* [AI4Chem/ChemLLM-7B-Chat-1.5-DPO](https://huggingface.co/AI4Chem/ChemLLM-7B-Chat-1.5-DPO) 第一个用于化学和分子科学的开源大型语言模型,基于 InternLM-2 构建
* [allenai/scispacy](https://github.com/allenai/scispacys) 完整的 spaCy 管道和科学/生物医学文档模型。特别是,有一个自定义分词器,可以在 spaCy 基于规则的分词器之上添加分词规则,一个在生物医学数据和实体跨度检测模型上训练的 POS 标记器和句法解析器。另外,还有用于更具体任务的NER模型。
* [openbabel/openbabel](https://github.com/openbabel/openbabel) Open Babel 是一个化学工具箱,旨在使用多种语言的化学数据。这是一个开放的协作项目,允许任何人搜索、转换、分析或存储来自分子建模、化学、固态材料、生物化学或相关领域的数据。
# 图数据库图算法
* [Tencent/plato](https://github.com/Tencent/plato) 腾讯高性能分布式图计算框架Plato
* [apache/incubator-hugegraph](https://github.com/apache/incubator-hugegraph) 支持超过100+亿数据,高性能和可扩展性的图形数据库(包括OLTP引擎和REST-API和后端)
* [vtraag/leidenalg](https://github.com/vtraag/leidenalg) c++ 实现了 社区发现 Leiden 算法
* [erikbern/ann-benchmarks](https://github.com/erikbern/ann-benchmarks) 最邻近搜索
* [vesoft-inc/nebula](https://github.com/vesoft-inc/nebula) 分布式、可扩展、闪电般的图形数据库
* [dgraph-io/dgraph](https://github.com/dgraph-io/dgraph) 唯一具有图形后端的本机 GraphQL 数据库。
* [vesoft-inc/nebula](https://github.com/vesoft-inc/nebula) Nebula Graph 是开源的、分布式的、易扩展的原生图数据库,能够承载数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。
* [shobrook/communities](https://github.com/shobrook/communities) 社区检测算法和可视化工具库
* [jm199504/Financial-Knowledge-Graphs](https://github.com/jm199504/Financial-Knowledge-Graphs) 小型金融知识图谱构建流程
* [apache/incubator-s2graph](https://github.com/apache/incubator-s2graph) [S2Graph](http://s2graph.apache.org/)是一个图形数据库,旨在大规模处理事务性图形处理。它的 REST API 允许您以完全异步和非阻塞的方式使用边缘和顶点表示来存储、管理和查询关系信息。S2Graph 是[Apache TinkerPop](https://tinkerpop.apache.org/)在[Apache HBASE](https://hbase.apache.org/)上的一个实现。
# 图神经网络GNN
## 图机器学习库
* [dmlc/dgl](https://github.com/dmlc/dgl) Deep Graph Library一个易于使用、高性能和可扩展的 Python 包,用于对图进行深度学习。
* [dmlc/dgl/examples](https://github.com/dmlc/dgl/blob/master/examples/README.md) 官方DGL示例和模块,包含与图神经网络相关的选定研究论文的示例实现。半监督节点分类、聚类、节点分类、标签传播、图注意力等。
* [rusty1s/pytorch_geometric](https://github.com/rusty1s/pytorch_geometric) PyTorch的深度图学习扩展库。PyG对已发表或者常用的图神经网络和数据集都进行了集成,因而是当前最流行和广泛使用的GNN库。
* [alibaba/euler](https://github.com/alibaba/euler) 分布式图深度学习框架。
* [facebookresearch/PyTorch-BigGraph](https://github.com/facebookresearch/PyTorch-BigGraph) 从大型图形结构化数据生成嵌入
* [shenweichen/GraphNeuralNetwork](https://github.com/shenweichen/GraphNeuralNetwork) 图神经网络的实现和实验,gcn\graphsage\gat等。
* [THUDM/cogdl](https://github.com/THUDM/cogdl) 图形表示学习工具包,实现的模型,非GNN基线:如Deepwalk,LINE,NetMF,GNN基线:如GCN,GAT,GraphSAGE
* [imsheridan/CogDL-TensorFlow](https://github.com/imsheridan/CogDL-TensorFlow) 图表示学习工具包,使研究人员和开发人员可以轻松地训练和比较基线或自定义模型,以进行节点分类,链接预测和其他图任务。它提供了许多流行模型的实现,包括:非GNN基准,例如Deepwalk,LINE,NetMF;GNN基准,例如GCN,GAT,GraphSAGE。
* [CrawlScript/tf_geometric](https://github.com/CrawlScript/tf_geometric) 高效友好的图神经网络库 节点分类:图卷积网络(GCN)、多头图注意力网络(GAT),链接预测:平均池、SAGPooling,图分类:图形自动编码器(GAE)
* [alibaba/graph-learn](https://github.com/alibaba/graph-learn) 旨在简化图神经网络应用的框架。从实际生产案例中提取解决方案。已在推荐,反作弊和知识图系统上得到应用和验证。
* [BUPT-GAMMA/OpenHINE](https://github.com/BUPT-GAMMA/OpenHINE) 异构信息网络嵌入(OpenHINE)的开源工具包。实现的模型包括:DHNE,HAN,HeGAN,HERec,HIN2vec,Metapath2vec,MetaGraph2vec,RHINE。
* [PaddlePaddle/PGL](https://github.com/PaddlePaddle/PGL) 基于PaddlePaddle的高效灵活的图学习框架
* [THUDM/cogdl](https://github.com/THUDM/cogdl) 由清华大学计算机系知识工程实验室(KEG)开发的基于图的深度学习的研究工具,基于Python语言和Pytorch库。
* [THUMNLab/AutoGL](https://github.com/THUMNLab/AutoGL) 开源自动图学习工具包AutoGL (Auto Graph Learning),支持在图数据上全自动进行机器学习。
* [benedekrozemberczki/pytorch_geometric_temporal](https://github.com/benedekrozemberczki/pytorch_geometric_temporal) 该库包含来自各种已发表研究论文的dynamic+temporal图深度学习,embedding以及spatio-temporal regression 方法。它还带有许多带有时间和动态图的基准数据集。离散递归图卷积 DCRNN GConvGRU GConvLSTM GC-LSTM LRGCN DyGrEncoder EvolveGCNH EvolveGCNO ;辅助图卷积 Temporal Graph Convolutions 时间图卷积 STGCN ;Auxiliary Graph Convolutions TemporalConv DConv
* [divelab/DIG](https://github.com/divelab/DIG) 支持研究方向:图生成、图自监督学习、图神经网络可解释性以及 3D 图深度学习。对于每个领域,DIG 都提供了通用、可扩展的数据接口、常用算法与评估标准实现。
* [chaitjo/awesome-efficient-gnn](https://github.com/chaitjo/awesome-efficient-gnn) 令人敬畏的高效图神经网络,一份关于有效图神经网络和可扩展图表示学习的必读论文的精选列表,用于实际应用。
* [EdisonLeeeee/GraphGallery](https://github.com/EdisonLeeeee/GraphGallery) 一个用于对图神经网络 (GNN) 进行基准测试的图库。实现的方法:节点分类、图净化、链接预测、节点嵌入。
* [Awesome-GNN-Research](https://github.com/XunKaiLi/Awesome-GNN-Research) 很棒的 GNN 研究
* [quiver-team/torch-quiver](https://github.com/quiver-team/torch-quiver) 用于快速轻松的分布式图学习的 PyTorch 库
* [GRAND-Lab/Awesome-Graph-Neural-Networks](https://github.com/GRAND-Lab/Awesome-Graph-Neural-Networks) 图神经网络论文列表
* [GNNBook@2022](https://graph-neural-networks.github.io/index.html) 图神经网络 基础、前沿和应用
* [stellargraph/stellargraph](https://github.com/stellargraph/stellargraph) 星际图机器学习库
* [JDGalileo/galileo](https://github.com/JDGalileo/galileo) Galileo(伽利略)是一个图深度学习框架,具备超大规模、易使用、易扩展、高性能、双后端等优点,旨在解决超大规模图算法在工业级场景的落地难题,提供图神经网络和图嵌入等模型的训练评估及预测能力。
* [networkx/networkx: Network Analysis in Python](https://github.com/networkx/networkx) Python 包,用于创建、操作和研究复杂网络的结构、动力学和功能。
## 图注意力机制
* [PetarV-/GAT](https://github.com/PetarV-/GAT) Graph Attention Networks 图注意力神经网络
* [inyeoplee77/SAGPool](https://github.com/inyeoplee77/SAGPool) Self-Attention Graph Pooling torch 自我注意力图池化
* [aravindsankar28/DySAT](https://github.com/aravindsankar28/DySAT) 提出了DYNAMIC SELF-ATTENTION NETWORK,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。
* [jwzhanggy/Graph-Bert](https://github.com/jwzhanggy/Graph-Bert) 仅基于Attention机制而不依赖任何类卷积或聚合操作即可学习图的表示,并且完全不考虑节点之间的连接信息。通过将原始图分解为以每个节点为中心的多个子图来学习每个节点的表征信息,这不仅能解决图模型的预训练问题,还能通过并行处理还提高效率。
* [dongkwan-kim/SuperGAT](https://github.com/dongkwan-kim/SuperGAT) ICLR2021|GAT升级版:通过多种自监督方式提升GAT中注意力,性能在15个数据集有所提升。
* [graphdeeplearning/graphtransformer](https://github.com/graphdeeplearning/graphtransformer) 针对任意图的 Transformer 神经网络架构的泛化 。注意机制是图中每个节点的邻域连通性的函数。位置编码由拉普拉斯特征向量表示,它自然地概括了 NLP 中经常使用的正弦位置编码。层归一化被批量归一化层取代。该架构被扩展为具有边缘表示,这对于边缘信息丰富的任务或成对交互(例如分子中的键类型或 KG 中的关系类型等)至关重要。
* [Graph-COM/GSAT](https://github.com/Graph-COM/GSAT) 提出了一种全新的随机注意力机制(Stochastic Attention Mechanism),该机制显示出了强大的可解释能力和泛化能力。对比过去的可解释工作,该机制在6个数据集上提升了至多20%、平均12%的可解释性能;在11个数据集上提升了平均3%的模型准确率,并且在OGBG-MolHiv榜单上达到SOTA(在不使用手工设计的专家特征的模型中)。
* [Diego999/pyGAT](https://github.com/Diego999/pyGAT) Pytorch 实现的图注意力网络模型,作者:Veličković et.AL
## 异构图、 异质图
* [BUPT-GAMMA/OpenHGNN](https://github.com/BUPT-GAMMA/OpenHGNN) 这是一个基于 DGL 的异构图神经网络(OpenHGNN)的开源工具包。支持特定任务的模型:RGCN[ESWC 2018]、HAN[WWW 2019]、KGCN[WWW 2019]、HetGNN[KDD 2019]、GTN[NeurIPS 2019]RSHN[ICDM 2019]、DGMI[AAAI 2020]、MAGNN[WWW 2020]、CompGCN[ICLR 2020]、NSHE[IJCAI 2020]、NARS[arxiv]、MHNF[arxiv]、HGSL[AAAI 2021]、HGNN-AC[WWW 2021]、HeCo[KDD 2021]、HPN[TKDE 2021]、RHGNN[arxiv]
* [Jhy1993/HAN](https://github.com/Jhy1993/HAN) 异构图注意力网络,遵循经典的异质图神经网络架构(节点级别聚合与语义级别聚合),为了更好的实现层次聚合函数,HAN利用语义级别注意力和节点级别注意力来同时学习元路径与节点邻居的重要性,并通过相应地聚合操作得到最终的节点表示。
* [brxx122/HeterSumGraph](https://github.com/brxx122/HeterSumGraph) 用于提取文档摘要的异构图神经网络
* [chuxuzhang/KDD2019_HetGNN](https://github.com/chuxuzhang/KDD2019_HetGNN) KDD2019论文中HetGNN的代码:异构图神经网络 用了LSTM作为来聚合某种关系下的节点邻居并更新节点表示。这里的邻居选择也有所不同:通过random walk with restart来选择固定数量的邻居。
* [acbull/pyHGT](https://github.com/acbull/pyHGT) Heterogeneous Graph Transformer 异构图Transformer
可以处理大规模的异构图和动态图.* [Googlebaba/KDD2019-MEIRec](https://github.com/Googlebaba/KDD2019-MEIRec) 基于异质图神经网络的用户意图推荐
* [Andy-Border/HGSL](https://github.com/Andy-Border/HGSL) 异质图结构学习(Heterogeneous Graph Structure Learning)问题,并提出了HGSL框架来联合学习适合分类的异质图结构和图神经网络参数。通过挖掘特征相似性、特征与结构之间的交互以及异质图中的高阶语义结构来生成适合下游任务的异质图结构并联合学习GNN参数。HGSL的性能优于基线模型。
* [yuduo93/THIGE](https://github.com/yuduo93/THIGE) 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。
* [iqiyi/HMGNN](https://github.com/iqiyi/HMGNN) 异构小图神经网络及其在拉新裂变风控场景的应用.尝试通过图神经网络对欺诈邀请进行检测的方法。在GCN和异构图神经网络的基础上,HMGNN使用超图和异构图卷积克服了小图和异构图带来的问题。并在实际拉新场景中取得了不错的效果。此外,我们也在尝试将其应用到更广阔的场景中,比如金融反欺诈、关注点赞反作弊等问题。
* [THUDM/cogdl](https://github.com/THUDM/cogdl) 用于图形表示学习的广泛研究平台
* [kepsail/ie-HGCN](https://github.com/kepsail/ie-HGCN) 可解释且高效的异构图卷积网络,IEEE TKDE 2021
* [AutoML-Research/DiffMG](https://github.com/AutoML-Research/DiffMG) 异构图神经网络的可微元图搜索
* [jindi-tju/HGNN-AC](https://github.com/jindi-tju/HGNN-AC) “WWW21 - 通过属性完成的异构图神经网络”的源代码
* [safe-graph/GNN-FakeNews](https://github.com/safe-graph/GNN-FakeNews) 基于GNN假新闻检测模型的集合。异构图分类。
* [liun-online/HeCo](https://github.com/liun-online/HeCo) 具有协同对比学习的自监督异构图神经网络。
* [NSSSJSS/MHGCN](https://github.com/NSSSJSS/MHGCN) 多路异构图卷积网络,节点分类任务,链接预测任务。
## 图嵌入、网络表征学习
* [thunlp/OpenKE](https://github.com/thunlp/OpenKE) 使用PyTorch实现的知识嵌入开源框架。RESCAL、DistMult, ComplEx, Analogy、TransE, TransH, TransR, TransD、SimplE、RotatE
* [DeepGraphLearning/graphvite](https://github.com/DeepGraphLearning/graphvite) GraphVite 高速、大规模图嵌入.通过多个 CPU 和 GPU 加速图形嵌入。只需大约1分钟即可学习具有100万个节点的图形的节点嵌入,从而实现算法和思想的快速迭代。
* [shenweichen/GraphEmbedding](https://github.com/shenweichen/GraphEmbedding) 图嵌入算法的实现和实验。算法包括:DeepWalk、LINE、Node2Vec、SDNE、Struc2Vec。
* [thunlp/Fast-TransX](https://github.com/thunlp/Fast-TransX) Fast-TransX这是TransE及其扩展模型用于知识表示学习的高效轻量级实现,包括 TransH、TransR、TransD、TranSparse 和 PTransE。[TensorFlow版](https://github.com/thunlp/TensorFlow-TransX)
* [thunlp/NRLPapers](https://github.com/thunlp/NRLPapers) 关于网络表示学习(NRL)/网络嵌入(NE)的必读论文。
* [Wentao-Xu/SEEK](https://github.com/Wentao-Xu/SEEK) 轻量级知识图谱嵌入框架
* [woojeongjin/dynamic-KG](https://github.com/woojeongjin/dynamic-KG) 嵌入动态知识图
* [awslabs/dgl-ke](https://github.com/awslabs/dgl-ke) 高性能,易于使用且可扩展的软件包,用于学习大规模知识图嵌入。
* [leoribeiro/struc2vec](https://github.com/leoribeiro/struc2vec) struc2vec算法学习任何图形中节点的连续表示,捕获节点之间的结构等效性。
* [HLTCHKUST/ke-dialogue](https://github.com/HLTCHKUST/ke-dialogue) 将任意大小的知识库直接嵌入到模型参数中的方法
* [aditya-grover/node2vec](https://github.com/aditya-grover/node2vec) 由Aditya Grover和Jure Leskovec提出的一种Graph Embedding方法,node2vec在DeepWalk的基础上引入BFS(广度优先搜索)和DFS(深度优先搜索)两种有偏的随机游走方式,以达到分别表征网络的结构对等性(structural equivalence)和同质性(homophily)的目的。
* [jwzhanggy/Graph-Bert](https://github.com/jwzhanggy/Graph-Bert) 学习图形表示只需要注意力机制。
* [thunlp/OpenNE](https://github.com/thunlp/OpenNE) 该库提供了标准的NE/NRL(网络表示学习)训练和测试框架 :DeepWalk、node2vec、LINE、GraRep、TADW、GCN、GraphFactorization、SDNE
* [Shubhranshu-Shekhar/ctdne](https://github.com/Shubhranshu-Shekhar/ctdne) 连续时间动态网络嵌入。依据deepwalk与node2vec等模型的启发,作者基于动态图的性质,提出了temporal random walk的概念,即在一条随机游走路径上,从起始节点到终止节点,连边的时态信息依次递增。针对边上存在时态信息的问题,作者提出了unbiased/biased采样算法。采样后的路径将会蕴含动态图中的时态依赖信息。作者在多个动态图数据集上做了实验,并与Deepwalk/Node2vec/LINE等静态图表示学习算法进行了对比。
* [TUM-DAML/pprgo_pytorch](https://github.com/TUM-DAML/pprgo_pytorch) 在一个包含1240万个节点,17300万条边组成的大规模图上,PPRGo只花了不到2分钟就给图上所有节点分了类,这2分钟还是包括了预处理、训练、预测的全流程时间. PPRGo先用每个节点的本地特征学习出每个节点的本地embedding,再用PPR矩阵完成本地embedding在图上的传递与聚合。
* [Malllabiisc/CompGCN](https://github.com/Malllabiisc/CompGCN) 针对多关系有向图的图神经网络。该模型实现框架采用了R-GCN提出的Encoder-Decoder框架,在编码阶段将Entity Embedding和Realtion Embedding进行组合Aggregation,然后在解码阶段再采用类似TransE/H或者ConvE等方式对(h,r,t)三元组进行解码。因为它在编码阶段就引入了Realtion,使用同一套Realtion Embedding,使得表征学习更加精准。
* [TimDettmers/ConvE](https://github.com/TimDettmers/ConvE) 2D卷积知识图谱嵌入
* [daiquocnguyen/ConvKB](https://github.com/daiquocnguyen/ConvKB) 通过使用卷积神经网络改进了最先进的模型,因此它可以捕获实体之间的全局关系和过渡特性,以及知识库中的关系。在ConvKB中,每个三元组(头实体,关系,尾部实体)都表示为3列矩阵,其中每个列向量代表一个三元元素。然后将此3列矩阵馈送到卷积层,在该卷积层上对矩阵操作多个滤波器以生成不同的特征图。然后将这些特征图串联到代表输入三元组的单个特征向量中。通过点积将特征向量与权重向量相乘以返回分数。
* [kavehhassani/mvgrl](https://github.com/kavehhassani/mvgrl) 通过对比图的结构视图来学习节点和图级表示的自监督方法。通过对比一阶邻居编码和图扩散来实现的。在线性评估协议下,在 8 个节点中的 8 个和图分类基准上实现了新的最先进的自监督学习结果。
* [phanein/deepwalk](https://github.com/phanein/deepwalk) DeepWalk 使用短随机游走来学习图中顶点的表示。
* [KDDCUP_2020_AutoGraph_1st_Place](https://github.com/aister2020/KDDCUP_2020_AutoGraph_1st_Place) KDDCUP 2020自动图形表示学习:第一名解决方案。实现了四种不同的模型GCN、GAT、GraphSage、TAGConv.
* [JinheonBaek/GMT](https://github.com/JinheonBaek/GMT) 使用 Graph Multiset Pooling 准确学习图表示。GMT 也包含在 PyTorch Geometric 中nn.glob.GraphMultisetTransformer ,可以在其中更轻松地实现模型。贡献:将图池化问题视为多集编码问题,在此问题下,考虑具有多个注意单元的集合中节点之间的关系,以仅使用一个全局函数来紧凑地表示整个图,而无需额外的消息传递操作。展示了现有的 GNN 与我们的参数池操作可以与 WL 测试一样强大,并且还可以轻松扩展到具有可学习集群的节点集群方法。广泛验证了 GMT 在合成图和现实图上的图分类、重建和生成任务,在这些任务上,它在很大程度上优于大多数图池基线。
## 时空网络_交通预测_动态图
* [guoshnBJTU/ASTGCN-r-pytorch](https://github.com/guoshnBJTU/ASTGCN-r-pytorch) 基于注意的时空图卷积网络,用于交通流量预测。
* [LeiBAI/AGCRN](https://github.com/LeiBAI/AGCRN) 端到端的流量预测模型-自适应图卷积递归网络。AGCRN可以捕获流量序列中特定于节点的细粒度空间和时间相关性,并通过嵌入DAGG来统一修订GCN中的节点嵌入。这样,训练AGCRN可以针对每个交通系列源(例如,用于交通速度/流量的道路,用于乘客需求的车站/区域)产生有意义的节点表示向量。学习的节点表示包含有关道路/区域的有价值的信息,并且可以潜在地应用于其他任务。
* [nnzhan/Graph-WaveNet](https://github.com/nnzhan/Graph-WaveNet) 时空序列预测模型,本文目标是,给定图G和历史S步的图信号数据,学习映射关系f,进而预测接下来T步的图信号。源于WaveNet,并在图卷积的基础上提出了动态自适应的邻接矩阵来捕获隐藏的图结构关系。数据集:META-LA是洛杉矶公路探测器收集到的交通数据,有207个传感器搜集了四个月的数据(2012.3.1 2012.6.30);PEMS-BAY是加州交通部门Performance Measurement System搜集到的交通数据,有325个传感器搜集了六个月的数据(2017.1.1 2017.5.31)。
* [Davidham3/STSGCN](https://github.com/Davidham3/STSGCN) 时空同步图卷积网络:一种时空网络数据预测的新框架 该模型能够有效地捕捉复杂的局域时空相关性。同时,在模型中设计了多个不同时间段的模块,以有效地捕获局部时空图中的异质性。
* [IBM/EvolveGCN](https://github.com/IBM/EvolveGCN) 动态时序知识图谱。为了实现动态学习主要注意以下三点:1、每个时间片单独学习一个GCN,每个GCN输入不同体现在图谱的邻接矩阵不同,但在代码实现时必须要求每个时刻的节点是保持一致的,而节点之间的关系存在变动;2、为了考虑动态图谱联系,用RNN将每个时间片GCN模型参数串起来进行序列学习;3、RNN循环网络采用两种:GRU,LSTM。
* [twitter-research/tgn](https://github.com/twitter-research/tgn) Temporal Graph Networks 动态图的神经网络模型
* [lehaifeng/T-GCN](https://github.com/lehaifeng/T-GCN) 通过图卷积网络进行的城市交通流量预测的工作。文件结构如下所示:1 T-GCN是时间图卷积网络的源代码。2 A3T-GCN是具有注意力结构的时间图卷积网络的源代码。3 AST-GCN是属性增强的时空图卷积网络的源代码。4 基准包括以下方法,例如历史平均模型(HA)、自回归综合移动平均模型(ARIMA)、支持向量回归模型(SVR)、图卷积网络模型(GCN)、门控循环单位模型(GRU)
* [palash1992/DynamicGEM](https://github.com/palash1992/DynamicGEM) 捕捉动态图演化的动力学特征,生成动态图表示的方法,本质上是输入为动态图的前T个时间步的snapshot,输出为T+1时刻的图嵌入式表达。
* [LZH-YS1998/STHSL](https://github.com/LZH-YS1998/STHSL) 城市犯罪预测的时空超图自监督学习中提出的STHSL模型代码
* [rootlu/MMDNE](https://github.com/rootlu/MMDNE) 从微观/宏观两种层级建模动态网络中节点演化规律,并能够在节点表示中学习到这种规律。微观更偏向于捕捉具体边对形成过程 宏观更偏向于从网络动力学挖掘网络演变的规律,最终生成节点的表示。
* [skx300/DyHATR](https://github.com/skx300/DyHATR) 同时考虑到图的异构性和动态性的特点,对于图的每个时间切片,利用node-level attention和edge-level attention以上两个层次的注意力机制实现异质信息的有效处理,并且通过循环神经网络结合self-attention研究节点embedding的演化特性,并且通过链接预测任务进行试验,验证模型的有效性。
* [aravindsankar28/DySAT](https://github.com/aravindsankar28/DySAT) 提出了DYNAMIC SELF-ATTENTION机制,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。
* [luckiezhou/DynamicTriad](https://github.com/luckiezhou/DynamicTriad) 依据动态网络的特性,提出了依据triad结构建模动态图演化模式的方法DynamicTraid。三元组(Triad)演化的过程就是三个节点中两个互不链接的节点之间建立链接,形成一个闭合三元组的过程。作者在几个不同的真实业务场景(电信欺诈,贷款偿还等)数据集中做了实验,证明了模型的有效性。
* [jwwthu/GNN4Traffic](https://github.com/jwwthu/GNN4Traffic) 整理了基于图神经网络的交通预测相关的顶会论文及统计分析。
* [SpaceLearner/Awesome-DynamicGraphLearning](https://github.com/SpaceLearner/Awesome-DynamicGraphLearning) 将深度学习技术(图神经网络等)应用在动态图、动态网络、动态知识图谱上的论文、代码、工具等。
* [liangzhehan/DMSTGCN](https://github.com/liangzhehan/DMSTGCN) 用于交通速度预测的动态和多方面时空深度学习
* [LibCity/Bigscity-LibCity-PaperList](https://github.com/LibCity/Bigscity-LibCity-PaperList) 交通预测领域论文列表
* [LibCity/Bigscity-LibCity](https://github.com/LibCity/Bigscity-LibCity/) 统一、全面、可扩展的代码库,为交通预测领域的研究人员提供了一个可靠的实验工具和便捷的开发框架。 我们的库基于 PyTorch 实现,并将与交通预测相关的所有必要步骤或组件包含到系统的流水线中,使研究人员能够进行全面的对比实验。 我们的库将有助于交通预测领域的标准化和可复现性。LibCity 目前支持以下任务:- 交通状态预测(交通流量预测、交通速度预测、交通需求预测、起点-终点(OD)矩阵预测、交通事故预测)轨迹下一跳预测、到达时间预测、路网匹配、路网表征学习。
* [microsoft/FOST](https://github.com/microsoft/FOST) FOST 是一个通用的预测工具,它展示了我们在实际预测领域的经验和先进技术,包括时间、时空和分层预测。当前的通用预测工具(亚马逊的Gluon-TS、facebook的Prophet等)无法处理和建模结构图数据,尤其是在空间数据中
* [drop-out/Tianchi-Wifi-Positioning](https://github.com/drop-out/Tianchi-Wifi-Positioning) 天池wifi定位大赛第一名解决方案 。给定交易时的环境信息(包括GPS坐标、wifi信息(bssid/信号强度/是否连接)、用户id),确定交易所处的商铺。
* [Cantoria/dynamic-graph-papers](https://github.com/Cantoria/dynamic-graph-papers) 动态图表示学习、动态图分析论文汇总项目
* [BIRD-TAO/CLCRN](https://github.com/BIRD-TAO/CLCRN) 用于时空气象预报的条件局部卷积的 Pytorch 实现,AAAI 2022
## 图预训练 Pre-Training of Graph
* [THUDM/GCC](https://github.com/THUDM/GCC) Graph Contrastive Coding for Graph Neural Network Pre-Training 用于图形神经网络预训练的图形对比编码,下游任务:节点分类、图分类、相似性搜索。
* [acbull/GPT-GNN](https://github.com/acbull/GPT-GNN) Generative Pre-Training of Graph Neural Networks 图神经网络的生成式预训练。在预处理阶段,算法会首先随机地遮盖掉图中的一些边和点,利用生成模型来生成(预测)这些边的存在和节点的属性。模型的损失函数会使得预测的结果尽量接近真实的网络结构。这样的话,在GPT-GNN训练完成后,其内部的图神经网络层就可以被拿出来进行调优。
* [rootlu/L2P-GNN](https://github.com/rootlu/L2P-GNN) 首次探索学习预训练GNNs,缓解了预训练与微调目标之间的差异,并为预训练GNN提供了新的研究思路。针对节点与图级表示,该研究提出完全自监督的GNN预训练策略。针对预训练GNN,该研究建立了一个新型大规模书目图数据,并在两个不同领域的数据集上进行了大量实验。实验表明,该方法显著优于SOTA方法。
* [Shen-Lab/GraphCL](https://github.com/Shen-Lab/GraphCL) 设计了一种针对无监督图表示学习的图对比学习框架 GraphCL。在该框架下,作者探索了 4 种不同先验下的图数据增强方法。考虑到半监督,无监督和迁移等任务,作者在很多数据集上系统的分析了不同图增强组合的影响。实验结果表明,作者所设计的 GraphCL 框架能够取得相似或者更优于 SOTA。GraphCL是一个基于对比学习的自监督图谱预训练模型,GraphCL模型对一个节点得到两个随机扰动的L-hop的Subgraph,通过最大化两个Subgraph之间的相似度来进行自监督学习。
## 图对抗攻击
* [EdisonLeeeee/Graph-Adversarial-Learning](https://github.com/EdisonLeeeee/Graph-Adversarial-Learning) 图对抗性攻击和防御的精选集合。
* [danielzuegner/robust-gcn](https://github.com/danielzuegner/robust-gcn) Robust Graph Convolutional Network是最早的有关于图数据集上对抗攻击防御的工作之一。本文对GCN作出的改进主要体现在以下两点:基于高斯分布的图卷积层(Gaussian-based Graph Convolution Layer) 、采用attention机制为聚合的邻居特征分配权重。
* [ChandlerBang/Pro-GNN](https://github.com/ChandlerBang/Pro-GNN) 鲁棒图神经网络的图结构学习,抗严重干扰。
* [DSE-MSU/DeepRobust](https://github.com/DSE-MSU/DeepRobust) 用于图像和图模型的攻击和防御方法的pytorch库.
* 图模型防御方法
* adv_training、gcn、pgd近端梯度下降
* gcn_preprocess GCNJaccard 首先通过不同的边缘对输入图进行预处理,并根据处理后的图训练GCN。
* GCNSVD 一个2层图卷积网络,以SVD作为预处理。All You Need Is Low (Rank): Defending Against Adversarial Attacks on Graphs
* prognn Pro-GNN 属性图神经网络
* r_gcn 强大的图卷积网络,抵抗对抗攻击。KDD 2019。* [ChandlerBang/awesome-graph-attack-papers](https://github.com/ChandlerBang/awesome-graph-attack-papers) 此存储库旨在提供有关图形数据或 GNN(图形神经网络)上对抗性攻击和防御作品的链接。
* [MengmeiZ/LafAK](https://github.com/MengmeiZ/LafAK) 图神经网络的对抗标签翻转攻击与防御.提出了基于自监督的防御框架, 以社区分类作为辅助任务,引入社区级别的信号以惩罚过拟合翻转标签的GNN。
* [snap-stanford/gib](https://github.com/snap-stanford/gib) 图信息瓶颈 (GIB)。研究者基于该原则构建了两个 GNN 模型:GIB-Cat 和 GIB-Bern,二者在抵御对抗攻击时取得了优异的性能。 图信息Bottleneck打造图最优表示->避免过拟合,并具备稳健性
* [liaopeiyuan/GAL](https://github.com/liaopeiyuan/GAL) 图对抗网络 Information Obfuscation of Graph Neural Networks 图神经网络的信息模糊处理,使得攻击者很难推断。
* [mims-harvard/GNNGuard](https://github.com/mims-harvard/GNNGuard) 保护图神经网络免受对抗性攻击。 即使是最强大和最流行的GNN,图结构的微小、不明显的扰动也会灾难性地降低性能。通过与提出的 GNNGuard 集成,GNN 分类器即使在强烈的对抗性攻击下也可以正确分类目标节点。GNNGuard 关键思想是检测和量化图结构和节点特征之间的关系(如果存在),然后利用这种关系来减轻攻击的负面影响。GNNGuard 学习如何最好地为连接相似节点的边分配更高的权重,同时修剪不相关节点之间的边。GNNGuard不是神经消息传递,而是控制消息流,例如阻止来自不相关邻居的消息,但加强来自高度相关邻居的消息。是第一个可以保护异质图(例如,具有结构等价性)的模型,而所有现有的防御者只考虑同质图。
## 图聚合_节点聚合
* [williamleif/GraphSAGE](https://github.com/williamleif/GraphSAGE) 核心思想就是学习聚合节点的邻居特征生成当前节点的信息的「聚合函数」,有了聚合函数不管图如何变化,都可以通过当前已知各个节点的特征和邻居关系,得到节点的embedding特征。
* [trinayan/PinSageMultiGPU](https://github.com/trinayan/PinSageMultiGPU) 一个能够学习节点嵌入的随机游走GCN,由Pinterest公司和Stanford完成的工作,首次将图方法落地到了工业界。PinSage的理论背景是基于GraphSAGE,即归纳(inductive)式的学习,直接学习聚合函数而不是固定的节点,这也是其他的图算法如GCN等等直推式(transductive)方法无法做到的,更能满足实际中的图节点是不断变化的需求(节点和关系都会不断的变化)。
* [graphdml-uiuc-jlu/geom-gcn](https://github.com/graphdml-uiuc-jlu/geom-gcn) 几何图卷积网络 将节点映射为连续空间的一个向量graph embedding,在隐空间查找邻居并进行聚合。
* [EstelleHuang666/gnn_hierarchical_pooling](https://github.com/EstelleHuang666/gnn_hierarchical_pooling) Hierarchical Graph Representation Learning 构建了一个多层次的、节点可微分的聚合 GNN 网络。在每一层中,完成信息的抽取,并将当前的图聚合为一个更粗粒度的图,供下一层使用。
* [lukecavabarrett/pna](https://github.com/lukecavabarrett/pna) 提出了Principal Neighbourhood Aggregation (PNA),一种考虑了 degree 的全新的 GNN 聚合器(泛化了现有的求和聚合器)。作者通过一些图例形象的解释了现有的各种聚合器的表示能力及其缺陷。
## 图卷积网络
* [benedekrozemberczki/ClusterGCN](https://github.com/benedekrozemberczki/ClusterGCN) 提出了一种新的方法来进行GCN训练:首先,对图进行聚类,把原图划分成一些紧密连接的子图;然后,抽样一个或者一些子图作为一个batch,在抽样出来的子图上进行卷积计算。
* [tkipf/relational-gcn](https://github.com/tkipf/relational-gcn) 关系图卷积网络,是最早提出利用GCN来解决图结构中不同边关系对节点影响,在进行信息汇聚更新时,充分考虑节点之间的Edge对节点表征影响的模型。
* [MichSchli/RelationPrediction](https://github.com/MichSchli/RelationPrediction) 图卷积网络用于关系链接预测
* [JD-AI-Research-Silicon-Valley/SACN](https://github.com/JD-AI-Research-Silicon-Valley/SACN) 端到端结构感知卷积网络(SACN)模型充分利用了GCN和ConvE的优势来完成知识库。SACN由加权图卷积网络(WGCN)的编码器和称为Conv-TransE的卷积网络的解码器组成。WGCN利用知识图节点结构,节点属性和边缘关系类型。解码器Conv-TransE使最新的ConvE能够在实体和关系之间转换,同时保持与ConvE相同的链路预测性能。
* [zhiyongc/Graph_Convolutional_LSTM](https://github.com/zhiyongc/Graph_Convolutional_LSTM)
* [Jiakui/awesome-gcn](https://github.com/Jiakui/awesome-gcn) 该存储库用于收集GCN,GAT(图形关注)相关资源。
* [tkipf/gcn](https://github.com/tkipf/gcn) 图卷积网络在TensorFlow中的实现 [keras](https://github.com/tkipf/keras-gcn)
* [karenlatong/AGC-master](https://github.com/karenlatong/AGC-master) Attributed Graph Clustering via Adaptive Graph Convolution 通过自适应图卷积的属性图聚类
* [TAMU-VITA/L2-GCN](https://github.com/TAMU-VITA/L2-GCN) GCN高效分层训练框架
* [mdeff/cnn_graph](https://github.com/mdeff/cnn_graph) 具有快速局部光谱滤波的图卷积神经网络,实现了将流行的卷积神经网络 (CNN) 有效地推广到任意图
* [tkipf/pygcn](https://github.com/tkipf/pygcn) PyTorch 中的图卷积网络
## 图监督_半监督_对比学习
* [THUDM/GRAND](https://github.com/THUDM/GRAND) Graph Random Neural Network ,用于图半监督学习的新型图神经网络框架。在模型架构上,提出了一种简单有效的图数据增强方法 Random Propagation,用来增强模型鲁棒性及减轻过平滑。基于 Random Propagation,GRAND 在优化过程中使用一致性正则(Consistency Regularization)来增强模型的泛化性,即除了优化标签节点的 cross-entropy loss 之外,还会优化模型在无标签节点的多次数据增强的预测一致性。节点预测 state of the Art.
* [LirongWu/awesome-graph-self-supervised-learning](https://github.com/LirongWu/awesome-graph-self-supervised-learning) 图自监督学习(Graph Self-supervised Learning)最新综述+Github代码汇总
* [RingBDStack/SUGAR](https://github.com/RingBDStack/SUGAR) “SUGAR:具有强化池和自监督互信息机制的子图神经网络”的代码
* [lxiaorui/ElasticGNN](https://github.com/lxiaorui/ElasticGNN) 弹性图神经网络提出了一种新颖的GNN通用消息传递方案到。这种算法不仅对反向传播训练友好,而且在理论上收敛保证的情况下实现了所需的平滑特性。半监督学习任务的实验表明,所提出的 Elastic GNN 在基准数据集上获得了更好的适应性,并且对图对抗攻击的鲁棒性明显更强。
* [SXKDZ/awesome-self-supervised-learning-for-graphs](https://github.com/SXKDZ/awesome-self-supervised-learning-for-graphs) 一个很棒的图表自监督学习的精选列表。
* [GraphCL/PyGCL](https://github.com/GraphCL/PyGCL) PyTorch 的图形对比学习库.图对比学习 (GCL) 建立了一种无需人工注释即可学习图表示的新范式。 典型的 GCL 算法首先通过输入的随机增强构造多个图视图,然后通过将正样本与负样本进行对比来学习表示。
## 其他_图神经网络GNN
* [naganandy/graph-based-deep-learning-literature](https://github.com/naganandy/graph-based-deep-learning-literature) 基于图的深度学习中的会议出版物
* [DGraphXinye/2022_finvcup_baseline](https://github.com/DGraphXinye/2022_finvcup_baseline) 第七届信也科技杯-欺诈用户风险识别的baseline。节点分类
* [RobertAckleyKid/2022_finvcup_RobertAckley_8363](https://github.com/RobertAckleyKid/2022_finvcup_RobertAckley_8363) 第七届信也科技杯图算法大赛——欺诈用户风险识别 代码 。包括三步:基于GraphSAGE的节点Embedding(与baseline一致),手工加入时序等特征,通过LightGBM分类。
* [pygod-team/pygod](https://github.com/pygod-team/pygod) 用于图异常值检测(异常检测)的 Python 库。包含10多种最新的基于图的检测算法。
* [graphdeeplearning/benchmarking-gnns](https://github.com/graphdeeplearning/benchmarking-gnns) 用于基准测试图形神经网络的存储库
* [alibaba/GraphScope](https://github.com/alibaba/GraphScope) 阿里巴巴一站式大规模图计算系统 图分析 图查询 图机器学习
* [tkipf/gae](https://github.com/tkipf/gae) 图自动编码器在TensorFlow中的实现
* [peter14121/intentgc-models](https://github.com/peter14121/intentgc-models) 意图gc模型.从常见的用户行为和项目信息中收集了大量的关系,并提出名为IntentGC的新框架,通过图卷积网络来利用显式偏好和异构关系。
* [shawnwang-tech/GeniePath-pytorch](https://github.com/shawnwang-tech/GeniePath-pytorch) 自适应深度和广度图神经网络表征学习模型Geniepath
* [GRAND-Lab/SUBLIME](https://github.com/GRAND-Lab/SUBLIME) 走向无监督深度图结构学习
* [neural_graph_collaborative_filtering](https://github.com/xiangwang1223/neural_graph_collaborative_filtering) 神经图协同滤波(NGCF)是一种基于图神经网络的新型推荐框架,通过进行嵌入传播,以用户-项目二分图中的高阶连接性形式对协同信号进行显式编码。
* [gated-graph-neural-network-samples](https://github.com/microsoft/gated-graph-neural-network-samples) 门控图神经网络的两种实现,用于学习化学分子的性质
* [deepmind/graph_nets](https://github.com/deepmind/graph_nets) 在Tensorflow中构建图网
* [hwwang55/RippleNet](https://github.com/hwwang55/RippleNet) 将知识图谱作为额外信息,融入到CTR/Top-K推荐。[完整的逐行中文注释笔记](https://github.com/nakaizura/Source-Code-Notebook/tree/master/RippleNet)
* [klicperajo/ppnp](https://github.com/klicperajo/ppnp) 预测然后传播:图形神经网络满足个性化PageRank
* [Variational-Graph-Auto-Encoders](https://github.com/limaosen0/Variational-Graph-Auto-Encoders) 可变图自动编码器 链接预测
* [animutomo/gcmc](https://github.com/animutomo/gcmc) Graph Convolution Matrix Completion 解决推荐系统中 矩阵补全 matrix completion 问题,并引入 side information(节点的额外信息)提升预测效果。
* [Ruiqi-Hu/ARGA](https://github.com/Ruiqi-Hu/ARGA) 对抗正则化图自动编码器Adversarially Regularized Graph Autoencoder,可用于图卷积的链路预测。进化路线GAE->VGAE->ARGA
* [safe-graph/DGFraud](https://github.com/safe-graph/DGFraud) 基于深度图的工具箱,用于欺诈检测
* [graph-fraud-detection-papers](https://github.com/safe-graph/graph-fraud-detection-papers) 基于图的欺诈检测论文和资源
* [awesome-fraud-detection-papers](https://github.com/benedekrozemberczki/awesome-fraud-detection-papers) 关于欺诈检测的数据挖掘论文的精选列表。
* [snap-stanford/distance-encoding](https://github.com/snap-stanford/distance-encoding) 距离编码-为结构表示学习设计更强大的GNN,提出了一类与结构相关的特征,称为距离编码(Distance Encoding,DE),以帮助 GNN 以比 1-WL test 更严格的表达能力来表示任意大小的节点集。
* [megvii-research/DPGN](https://github.com/megvii-research/DPGN) Distribution Propagation Graph Network for Few-shot Learning 分布传播图网络的小样本学习
* [CUAI/CorrectAndSmooth](https://github.com/CUAI/CorrectAndSmooth) 标签信息 + 简单模型 直接使用标签进行预测。与其他方案相比,本文中的CS模型需要的参数量往往要少得多。在很多标准直推式节点分类(transductive node classification)基准上,超过或媲美当前最优的性能。
* [YimiAChack/GraphSTONE](https://github.com/YimiAChack/GraphSTONE) Graph Structural-topic Neural Network 图结构主题神经网络 本文类比自然语言处理中的相关概念,借助主题模型学习图的结构信息。
* [YuGuangWang/PAN](https://github.com/YuGuangWang/PAN) 借鉴了物理中的一些概念,设计了一种 path integral based graph neural networks (PAN)。 PAN 将图拉普拉斯泛化到一种新的转移矩阵 maximal entropy transition (MET) matrix。重要的是,MET 矩阵的对角线元素直接和子图中心性相关,因此提供了一种自然的自适应池化机制。
* [benedekrozemberczki/SimGNN](https://github.com/benedekrozemberczki/SimGNN) A Neural Network Approach to Fast Graph Similarity Computation 图相似度计算
* [snap-stanford/GraphGym](https://github.com/snap-stanford/GraphGym) Identity-aware Graph Neural Networks一种身份感知图神经网络对现有的消息传递 GNN 进行了扩展,将其性能提升到了高于 1-WL 测试的水平。实验结果表明,将现有的 GNN 转变为 ID-GNN 可以在难以分类的节点预测、边预测、图属性预测任务中获得平均 40% 的准确率提升;在节点和图分类对比基准任务获得 3%的准确率提升;链接预测任务获得 15% 的ROC提升。
* [YuweiCao-UIC/KPGNN](https://github.com/YuweiCao-UIC/KPGNN) 图神经网络增量学习在事件检测中的应用
* [divelab/DeeperGNN](https://github.com/divelab/DeeperGNN) 解耦Transformation和Propagation的深度图神经网络 1、Transformation操作:MLP操作,torch.nn.Linear线性映射操作;2、Propagation操作:图中的邻居节点往中心节点汇聚的操作,最简单的实现方式是AH,A是图的邻接矩阵,H是图的特征矩阵。
* [BUPT-GAMMA/CPF](https://github.com/BUPT-GAMMA/CPF) 提出了一个有效的知识蒸馏框架,以将任意预训练的GNN教师模型的知识注入精心设计的学生模型中。学生模型是通过两个简单的预测机制构建的,即标签传播和特征转换,它们自然分别保留了基于结构和基于特征的先验知识。
* [WangXuhongCN/APAN](https://github.com/WangXuhongCN/APAN) Asynchronous Propagation Attention Network for Real-time Temporal Graph Embedding 实时时间图嵌入的异步传播注意网络
* [flyingdoog/PGExplainer](https://github.com/flyingdoog/PGExplainer) GNN 的参数化解释器 PGExplainer。PGExplainer 利用深度神经网络对解释的生成过程进行参数化处理,能够实现同时对多个实例进行解释。
* [lsj2408/GraphNorm](https://github.com/lsj2408/GraphNorm) 图归一化:一种加速图神经网络训练的原则性方法,通过一个可学习的移位来归一化每个单独图的所有节点上的特征值。收敛速度要快得多。它还改进了GNN的泛化,在图分类上实现更好的性能。
* [YuGuangWang/UFG](https://github.com/YuGuangWang/UFG) 基于小波变换(framelet transforms)的图神经网络。
* [maxiaoba/GRAPE](https://github.com/maxiaoba/GRAPE) 基于GNN的缺失特征填充和标签预测模型。将特征填充问题转为边级别的预测任务,将标签预测问题转为节点级别的预测任务。
* [PKU-DAIR/DGMLP](https://github.com/PKU-DAIR/DGMLP) 评估深度图神经网络,对图形结构数据使用深度汇总的实验评估。GNN模型普遍较浅的真正原因 - 模型退化与过平滑。
* [snap-stanford/CAW](https://github.com/snap-stanford/CAW) 基于因果匿名游走的时序网络归纳表示学习模型
* [BUPT-GAMMA/Graph-Structure-Estimation-Neural-Networks](https://github.com/BUPT-GAMMA/Graph-Structure-Estimation-Neural-Networks) 用于估计适配于GNN的图结构,以提高下游任务性能。GEN引入结构模型考虑图生成过程中的潜在社团结构,并提出观察模型将多方面信息(例如,多阶邻域相似性)作为图结构的观测。基于这些模型,GEN利用贝叶斯推断框架得到最终估计图。大量实验结果验证了GEN的有效性及其估计图的合理性。
* [thunlp/GNNPapers](https://github.com/thunlp/GNNPapers) 图神经网络上的必读论文 (GNN)
* [google-research/graph-attribution](https://github.com/google-research/graph-attribution) 用于[*评估图神经网络属性的*](https://papers.nips.cc/paper/2020/hash/417fbbf2e9d5a28a855a11894b2e795a-Abstract.html)代码库
* [Saro00/DGN](https://github.com/Saro00/DGN) 定向图网络在 PyTorch 和 DGL 中的实现
* [liaopeiyuan/GAL](https://github.com/liaopeiyuan/GAL) 图神经网络的信息混淆 使用 FB15k-237 和 WN18RR 数据集进行知识图链接预测。使用 Movielens-1M 数据集进行推荐系统链接预测任务。
* [zwt233/GAMLP](https://github.com/zwt233/GAMLP) 图形注意多层感知器 ,在 OGB 数据集上重现
* [susheels/adgcl](https://github.com/susheels/adgcl) 对抗性图增强以改善图对比学习
* [amazon-science/gnn-tail-generalization](https://github.com/amazon-science/gnn-tail-generalization) 提取具有不完整或缺失邻域的图节点表示。GNN在节点分类或回归任务中表现出卓越的性能。归纳GNN 需要事先知道节点的边缘连接结构才能正常工作。在节点度数具有幂律分布的几个实际应用中,情况通常并非如此,并且具有少量连接的节点可能具有噪声边缘。一个极端的情况是严格的冷启动 (SCS) 问题,其中没有可用的邻域信息,迫使预测模型完全依赖于节点特征。为了使用归纳 GNN 解决 SCS 问题,引入特征贡献率 (FCR),这是一种量化节点特征及其邻域特征在预测节点标签中的贡献的指标,并将这个新指标用作模型选择奖励。然后,提出Cold Brew,这是一种通过蒸馏方法在 SCS 中比基于点和基于图的模型更好地概括 GNN 的新方法。动机:长尾分布普遍存在于大规模图挖掘任务中。在某些应用中,一些冷启动节点在图中的邻域太少或没有邻域,这使得基于图的方法由于没有足够的高质量边来执行消息传递而变得次优。
* [zhitao-wang/PLNLP](https://github.com/zhitao-wang/PLNLP) 用于ogb链路预测的成对学习神经链预测。2022年,在Open Graph Benchmark链接预测数据集中包括ddi和collab,ppa和ciation2分别实现了第1、2名的成绩。
* [yushundong/REFEREE](https://github.com/yushundong/REFEREE) “关于图神经网络中偏差的结构解释”的开源代码。 以GE-REFEREE为例来解释经过训练的GAT模型。评估它如何帮助GAT消除偏见。
* [yongduosui/CAL](https://github.com/yongduosui/CAL) "可解释和可归纳图分类的因果注意"。基于PyTorch的因果注意在可解释和可推广**图分类**中的实现
* [PKU-DAIR/SGL](https://github.com/PKU-DAIR/SGL) 针对可扩展图形学习的图形神经网络工具包,它支持对超大型数据集进行深度图形学习。SGL允许用户轻松实现可扩展的图形神经网络,并评估其在节点分类、节点聚类和链路预测等各种下游任务中的性能。
* [Thinklab-SJTU/pygmtools](https://github.com/Thinklab-SJTU/pygmtools) Python 图形匹配求解器库。图匹配是模式识别、数据挖掘等领域中一个基本但具有挑战性的问题。图匹配旨在通过求解NP硬组合优化问题,找到多个图之间的节点间对应关系。特点:支持多种求解器,包括传统的组合求解器(包括线性、二次和多图)和新型的基于深度学习的求解器;支持各种后端,包括 numpy 普遍可访问的后端,以及一些支持 GPU 的最先进的深度学习架构: pytorch 、jittor 、mindspore 、 paddle、tensorflow ;深度学习友好,这些操作旨在最好地保留计算过程中的梯度,并支持批处理操作以获得最佳性能。
* [HKUDS/GraphGPT](https://github.com/HKUDS/GraphGPT) 该框架与图结构知识和图指令调优范式保持一致LLMs。图神经网络 (GNN) 通过图节点之间的递归信息交换和聚合来理解高级图结构。为了提高模型的鲁棒性,自监督学习(SSL)已成为一种很有前途的数据增强方法。然而,用于生成预训练图嵌入的现有方法通常依赖于对特定下游任务标签的微调,这限制了它们在标记数据稀缺或不可用的情况下的可用性。为了解决这个问题,我们的研究重点是在具有挑战性的零样本学习场景中提高图模型的泛化能力。受大型语言模型(LLMs)成功的启发,我们的目标是开发一种面向图的图LLM,即使没有来自下游图数据的任何信息,也可以在不同的下游数据集和任务中实现高度泛化。在这项工作中,我们提出了与图结构知识和图指令调优范式相一致LLMs的 GraphGPT 框架。我们的框架包含一个文本图基础组件,以在文本信息和图结构之间建立联系。此外,我们还提出了一种双阶段指令调优范式,并配有轻量级图形-文本对齐投影仪。该范式探索了自监督图结构信号和特定于任务的图指令,以指导LLMs理解复杂的图结构并提高其在不同下游任务中的适应性。我们的框架在监督和零样本图学习任务上进行了评估,展示了卓越的泛化性和优于最先进的基线。
# 大数据
## 数据库管理系统* [MySQL](https://www.mysql.com/) 开源的关系数据库管理系统 (RDBMS)。它的名字是“My”(联合创始人 Michael Widenius 的女儿 My 的名字)和“SQL”(结构化查询语言的缩写)的组合。它将数据组织成一个或多个数据表,其中数据可能相互关联;这些关系有助于构建数据。SQL 是程序员用来创建、修改和从关系数据库中提取数据以及控制用户对数据库的访问的语言。[mysql/mysql-server](https://github.com/mysql/mysql-server)
* [MariaDB](https://mariadb.org/) MySQL的社区开发、商业支持的分支,旨在在 GNU 通用公共许可证下保持免费和开源软件。开发由 MySQL 的一些原始开发人员领导,由于担心 2009 年被甲骨文公司收购,他们将其分叉。
* [PostgreSQL](https://www.postgresql.org/) 一个免费的开源关系数据库管理系统 (RDBMS),强调可扩展性和 SQL 合规性。它最初被命名为 POSTGRES,指的是它的起源是加州大学伯克利分校开发的 Ingres 数据库的继承者。一个功能强大的开源对象关系数据库系统,经过 30 多年的积极开发,在可靠性、功能稳健性和性能方面赢得了良好的声誉。
* [oceanbase/oceanbase](https://github.com/oceanbase/oceanbase) 一个高可用、高性能、横向扩展、兼容SQL标准的企业级分布式关系数据库。蚂蚁集团从零开始构建的分布式关系 SQL 数据库。它具有高度可扩展性、弹性,可以同时处理事务和分析工作负载,并且与 MySQL 语法和功能高度兼容。OceanBase 可以部署在任何云中的虚拟机或本地物理主机上。同时,由于是多租户集群,用户可以实现数据库资源池化,提高效率。
* [apache/flink](https://github.com/apache/flink) 开源的流处理框架,具有强大的流处理和批处理能力。支持批处理和数据流式处理程序的流优先运行时;Java 和 Scala 中优雅流畅的 API;同时支持非常高吞吐量和低事件延迟的运行时;支持基于数据流模型的 DataStream API 中的事件时间和无序处理;跨不同时间语义(事件时间、处理时间)的灵活窗口(时间、计数、会话、自定义触发器);容错,保证一次处理;流媒体节目中的自然背压;用于图形处理(批处理)、机器学习(批处理)和复杂事件处理(流式处理)的库;DataSet(批处理)API 中对迭代程序 (BSP) 的内置支持;自定义内存管理,可在内存中和核外数据处理算法之间实现高效、稳健的切换;Apache Hadoop MapReduce的兼容层;与 YARN、HDFS、HBase 和 Apache Hadoop 生态系统的其他组件集成;
* [pingcap/tidb](https://github.com/pingcap/tidb) 开源、云原生、分布式、MySQL 兼容数据库,用于弹性扩展和实时分析。开源分布式SQL数据库,支持混合事务和分析处理(HTAP)工作负载。它与 MySQL 兼容,并具有水平可扩展性、强一致性和高可用性。
* [apache/doris](https://github.com/apache/doris) 简单易用、高性能、统一的分析数据库。基于 MPP 架构的简单易用、高性能、实时的分析数据库,以其极快的速度和易用性而闻名。在海量数据下,只需亚秒级响应时间即可返回查询结果,不仅可以支持高并发的点查询场景,还可以支持高吞吐量的复杂分析场景。
* [apache/zookeeper](https://github.com/apache/zookeeper) 集中式服务,实现高度可靠的分布式协调。用于维护配置信息、命名、提供分布式同步和提供组服务。所有这些类型的服务都以某种形式被分布式应用程序使用。每次实施它们时,都会有很多工作来修复不可避免的错误和竞争条件。由于实现此类服务的困难,应用程序最初通常会吝啬它们,这使得它们在存在变化时变得脆弱并且难以管理。即使操作得当,这些服务的不同实现也会导致部署应用程序时的管理复杂性。
* [binhnguyennus/awesome-scalability](https://github.com/binhnguyennus/awesome-scalability) 一个更新和有组织的阅读列表,用于说明可扩展、可靠和高性能的大型系统的模式。概念在著名工程师的文章和可靠的参考文献中进行了解释。案例研究取自为数百万至数十亿用户提供服务的经过实战考验的系统。
* [apache/hive](https://github.com/apache/hive) Apache Hive (TM) 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。它建立在 Apache Hadoop (TM) 之上,提供:通过 SQL 轻松访问数据的工具,从而实现数据仓库任务,例如提取/转换/加载 (ETL)、报告和数据分析;一种将结构强加于各种数据格式的机制;访问直接存储在 Apache HDFS (TM) 或其他数据存储系统(如 Apache HBase (TM))中的文件;使用 Apache Hadoop MapReduce 或 Apache Tez 框架执行查询。Hive 提供标准的 SQL 功能,包括许多后来的 2003 和 2011 分析功能。其中包括 OLAP 函数、子查询、通用表表达式等。Hive 的 SQL 还可以通过用户定义函数 (UDF)、用户定义聚合 (UDAF) 和用户定义表函数 (UDTF) 使用用户代码进行扩展。Hive 用户可以选择 Apache Hadoop MapReduce 或 Apache Tez 框架作为其执行后端。请注意,MapReduce框架从Hive 2开始就被弃用了,推荐使用Apache Tez。MapReduce是一个成熟的框架,在大规模上得到了验证。但是,MapReduce是一个纯粹的批处理框架,使用它的查询可能会遇到更高的延迟(数十秒),即使在较小的数据集上也是如此。Apache Tez 专为交互式查询而设计,与 MapReduce 相比,开销大大降低。用户可以随时在这些框架之间自由切换。在每种情况下,Hive 都最适合处理的数据量大到需要分布式系统的用例。Hive 不是为联机事务处理而设计的。它最适合用于传统的数据仓库任务。Hive 旨在最大限度地提高可扩展性(通过动态向 Hadoop 集群添加更多计算机进行横向扩展)、性能、可扩展性、容错性以及与其输入格式的松散耦合。
* [heibaiying/BigData-Notes](https://github.com/heibaiying/BigData-Notes) 大数据入门指南
* [newTendermint/awesome-bigdata](https://github.com/newTendermint/awesome-bigdata) 令人敬畏的大数据框架、资源和其他令人敬畏的精选列表。
* [guangzhengli/k8s-tutorials](https://github.com/guangzhengli/k8s-tutorials) k8s 教程
* [seata/seata](https://github.com/seata/seata) 简单可扩展的自主事务体系结构
* [apache/incubator-shardingsphere](https://github.com/apache/incubator-shardingsphere) 分布式数据库中间件生态圈
* [Tencent/wwsearch](https://github.com/Tencent/wwsearch) 企业微信后台自研的全文检索引擎
* [apache/druid](https://github.com/apache/druid) Apache Druid:高性能的实时分析数据库,可在负载下大规模对流和批处理数据进行亚秒级查询。在具有数十亿到数万亿行的高基数和高维数据集上,在毫秒内执行 OLAP 查询,而无需预先定义或缓存查询。构建实时分析应用程序,以一致的性能支持每秒 100 到 100,000 次查询,采用比其他数据库使用更少的基础架构的高效架构。通过 Druid 与 Apache Kafka 和 Amazon Kinesis 的原生集成释放流数据潜力,因为它支持每秒数百万个事件的到达时查询、低延迟摄取和有保证的一致性。Druid 专为快速查询和摄取非常重要的工作流而设计。Druid 擅长为 UI 提供支持、运行操作(即席)查询或处理高并发性。考虑将 Druid 作为各种用例的数据仓库的开源替代品。设计文档解释了关键概念。你可以通过我们的本地或 Docker 快速入门开始使用 Druid。Druid 提供了一组丰富的 API(通过 HTTP 和 JDBC)来加载、管理和查询您的数据。您还可以通过内置的 Web 控制台与 Druid 进行交互。使用点击式向导加载流式处理和批处理数据,以指导您完成引入设置。监视一次性任务和引入主管。轻松管理集群。从一个方便的位置查看数据源、区段、引入任务和服务。所有这些都由 SQL 系统表提供支持,允许您查看每个视图的基础查询。使用内置的查询工作台对 DruidSQL 和本机查询进行原型设计,或连接帮助您充分利用 Druid 的众多工具之一。
* [apache/airflow](https://github.com/apache/airflow) 一个以编程方式编写,安排和监视工作流的平台
* [apache/shardingsphere](https://github.com/apache/shardingsphere) Distributed database middleware 分布式数据库中间件
* [opencurve/curve](https://github.com/opencurve/curve) 网易自主设计研发的高性能、高可用、高可靠分布式存储系统,具有良好扩展性。
* [ClickHouse/ClickHouse](https://github.com/ClickHouse/ClickHouse) 开源极速列式数据库系统,允许实时生成数据分析报告。
* [mongodb/mongo](https://github.com/mongodb/mongo) 文档数据库,旨在简化应用程序开发和扩展。借助基于领先的现代数据库构建的应用程序数据平台,更快地将您的想法推向市场。支持事务性、搜索、分析和移动使用案例,同时采用通用查询接口和开发人员喜爱的数据模型。
* [canonical/dqlite](https://github.com/canonical/dqlite) 可嵌入、复制和故障耐受性 SQL 引擎。
* [apache/iceberg](https://github.com/apache/iceberg) 新兴的数据湖框架之一,开创性的抽象出”表格式“(table format)这一中间层,既独立于上层的计算引擎(如Spark和Flink)和查询引擎(如Hive和Presto),也和下层的文件格式(如Parquet,ORC和Avro)相互解耦。同时,还提供了许多额外的能力:ACID事务;时间旅行(time travel),以访问之前版本的数据;完备的自定义类型、分区方式和操作的抽象;列和分区方式可以进化,而且进化对用户无感,即无需重新组织或变更数据文件;隐式分区,使SQL不用针对分区方式特殊优化;面向云存储的优化
* [apache/hudi](https://github.com/apache/hudi) 基于Hadoop兼容的存储,提供了Update/Delete Record、Change Streams 将HDFS和Hudi结合起来,提供对流处理的支持能力。如:支持记录级别的更新、删除,以及获取基于HDFS之上的Change Streams。
* [greenplum-db/gpdb](https://github.com/greenplum-db/gpdb) 基于 PostgreSQL 的高级、功能齐全的开源数据仓库。 它提供对 PB 级数据量的强大而快速的分析。 Greenplum Database 专门针对大数据分析,由世界上最先进的基于成本的查询优化器提供支持,可在大数据量上提供高分析查询性能。
* [TurboWay/bigdata_analyse](https://github.com/TurboWay/bigdata_analyse) 大数据分析项目,包括1 亿条淘宝用户行为分析 、1000 万条淘宝用户行为 、300 万条《野蛮时代》的玩家 、130 万条深圳通刷卡、10 万条厦门招聘、7000 条租房、6000 条倒闭企业、COVID-19 疫情、7 万条天猫订单数据
* [juicedata/juicefs](https://github.com/juicedata/juicefs) Apache License 2.0 下发布的高性能 POSIX 文件系统,专为云原生环境设计。通过 JuiceFS 存储的数据会持久化在对象存储(例如 Amazon S3)中,相应的元数据可以根据场景和需求持久化到 Redis、MySQL、TiKV 等各种兼容的数据库引擎中。JuiceFS,海量云存储可以直接连接到大数据、机器学习、人工智能以及生产环境中的各种应用平台。无需修改代码,海量云存储可以像本地存储一样高效使用。
* [trinodb/trino](https://github.com/trinodb/trino) Trino 的官方存储库,用于大数据的分布式 SQL 查询引擎,以前称为 PrestoSQL。Trino 是一个用于大数据分析的快速分布式 SQL 查询引擎。
* [facebook/rocksdb](https://github.com/facebook/rocksdb) 提供可嵌入的持久键值存储,以实现快速存储。由 Facebook 数据库工程团队开发和维护。它建立在 Sanjay Ghemawat ([email protected]) 和 Jeff Dean ([email protected]) 在 LevelDB 上的早期工作之上。它构成了快速键值服务器的核心构建块,特别适用于在闪存驱动器上存储数据。它采用对数结构合并数据库 (LSM) 设计,可在写入放大因子 (WAF)、读取放大因子 (RAF) 和空间放大因子 (SAF) 之间灵活权衡。它具有多线程压缩功能,特别适合在单个数据库中存储数 TB 的数据。
* [avinassh/fast-sqlite3-inserts](https://github.com/avinassh/fast-sqlite3-inserts) 1分钟插入10亿行数据,写脚本请使用Rust
* [baidu/BaikalDB](https://github.com/baidu/BaikalDB) 分布式HTAP数据库 支持PB级结构数据的顺序和随机实时读取/写入。 B与MySQL协议兼容,并且支持MySQL样式SQL方言,通过该方言,用户可以将其数据存储从MySQL无缝迁移到BaikalDB。
* [ApsaraDB/PolarDB-for-PostgreSQL](https://github.com/ApsaraDB/PolarDB-for-PostgreSQL) 阿里云自主研发的云原生数据库服务。PolarDB-X 是一款面向超高并发、海量存储、复杂查询场景设计的云原生分布式数据库系统。其采用 Shared-nothing 与存储计算分离架构,支持水平扩展、分布式事务、混合负载等能力,具备企业级、云原生、高可用、高度兼容 MySQL 系统及生态等特点。
* [ApsaraDB/galaxysql](https://github.com/ApsaraDB/galaxysql) GalaxySQL 是 PolarDB-X 的计算节点(CN, Compute Node)。
* [ApsaraDB/galaxyengine](https://github.com/ApsaraDB/galaxyengine) GalaxyEngine 是源自阿里巴巴集团的 MySQL 分支,特别支持大型分布式数据库系统。
* [qiurunze123/miaosha](https://github.com/qiurunze123/miaosha) 秒杀系统设计与实现.互联网工程师进阶与分析
* [timescale/tsbs](https://github.com/timescale/tsbs) 时间序列基准套件,用于比较和评估时间序列数据数据库工具
* [byzer-org/byzer-lang](https://github.com/byzer-org/byzer-lang) Byzer(前 MLSQL):一种用于数据管道、分析和 AI 的低代码开源编程语言。
* [xephonhq/awesome-time-series-database](https://github.com/xephonhq/awesome-time-series-database) 精选的时间序列数据库、基准和论文列表
* [influxdata/influxdb](https://github.com/influxdata/influxdb/) 用 Rust 编写的开源时间序列数据库,使用 Apache Arrow、Apache Parquet 和 Apache DataFusion 作为其基础构建块。InfluxDB 的最新版本 (3.x) 专注于为各种观察数据(指标、事件、日志、跟踪等)提供实时缓冲区,这些数据可通过 SQL 或 InfluxQL 进行查询,并作为 Parquet 文件批量保存到对象存储中,然后其他第三方系统可以使用。它既可以使用预写日志运行,也可以在禁用预写日志的情况下完全关闭对象存储(在此操作模式下,对于尚未持久保存到对象存储的任何缓冲数据,都有数据丢失的可能性窗口)。
* [XiaoMi/soar](https://github.com/XiaoMi/soar) SQL Optimizer And Rewriter是对 SQL进行优化改写的自动化工具。
* [Meituan-Dianping/SQLAdvisor](https://github.com/Meituan-Dianping/SQLAdvisor) 输入SQL,输出索引优化建议
* [cookieY/Yearning:](https://github.com/cookieY/Yearning) 一个最流行的mysql审计平台
* [hhyo/Archery](https://github.com/hhyo/Archery) [archer](https://github.com/jly8866/archer)的分支项目,定位于SQL审核查询平台,旨在提升DBA的工作效率,支持多数据库的SQL上线和查询,同时支持丰富的MySQL运维功能,所有功能都兼容手机端操作
* [MyCATApache/Mycat-Server](https://github.com/MyCATApache/Mycat-Server) Java语言编写的MySQL数据库网络协议的开源中间件, 它支持分布式SQL查询,兼容MySQL通信协议,以Java生态支持多种后端数据库,通过数据分片提高数据查询处理能力。
* [Qihoo360/Quicksql](https://github.com/Qihoo360/Quicksql) 体系结构图可帮助您更轻松地访问 Quicksql
* [Qihoo360/Atlas](https://github.com/Qihoo360/Atlas) MySQL的高性能稳定代理,由奇虎DBA和基础架构团队开发
* [akopytov/sysbench](https://github.com/akopytov/sysbench) 可编写脚本的数据库和系统性能基准
* [github/gh-ost](https://github.com/github/gh-ost) MySQL 的无触发在线模式迁移解决方案。它是可测试的,并提供可暂停性、动态控制/重新配置、审计和许多操作特权。
* [openark/orchestrator](https://github.com/openark/orchestrator) MySQL 复制拓扑管理和 HA
* [alchemystar/Freedom](https://github.com/alchemystar/Freedom) 自己DIY一个具有ACID的数据库
* [alibaba/otter](https://github.com/alibaba/otter) 阿里巴巴分布式数据库同步系统(解决中美异地机房)
* [m3o/m3o](https://github.com/m3o/m3o) 一个云平台,它将现有的公共 API 变成更小更易于使用的微服务,您可以在一个地方探索、发现和使用更简单的可编程构建块。该平台生成统一的 API 文档、客户端和示例,这使得使用所有 API 变得更加容易。
* [meta-soul/LakeSoul](https://github.com/meta-soul/LakeSoul) 基于数据湖的表结构存储,统一批处理和流式数据处理
* [PrefectHQ/prefect](https://github.com/PrefectHQ/prefect) 工作流引擎。设计初衷是为了处理现代数据堆栈所需的动态、可扩展的工作负载。它由全新的异步规则引擎 Prefect Orion 提供支持。
* [facebookincubator/velox](https://github.com/facebookincubator/velox) 旨在优化查询引擎和数据处理系统的 C++ 矢量化数据库加速库。
* [alibaba/havenask](https://github.com/alibaba/havenask) 阿里巴巴自研的大规模分布式检索系统。支持千亿级数据实时检索,百万QPS查询,百万TPS写入,毫秒级查询延迟与秒级数据更新。
* [grafana/grafana](https://github.com/grafana/grafana) 开放、可组合的可观测性和数据可视化平台。可视化来自多个来源的指标、日志和跟踪,如 Prometheus、Loki、Elasticsearch、InfluxDB、Postgres 等等。
* [ctripcorp/x-pipe](https://github.com/ctripcorp/x-pipe) 携程框架部门研发的Redis多数据中心复制管理系统。基于Redis的Master-Slave复制协议,实现低延时、高可用的Redis多中心、跨公网数据复制,并且提供一键机房切换,复制监控、异常报警等功能。
* [ctripcorp/drc](https://github.com/ctripcorp/drc) 携程框架架构研发部数据中心组推出的用于数据双向或多向复制的数据库中间件,服务于异地多活项目,同时赋予了业务全球化的部署能力。为了做到真正的数据异地多活,实现MySQL同机房就近读写,机房故障时无需进行数据库DR操作,只进行流量切换,就需要引入数据实时双向(多向)复制组件。
* [digoal/blog](https://github.com/digoal/blog) 关于数据库,业务的一切。(大多数用于PostgreSQL)。
* [zhisheng17/flink-learning](https://github.com/zhisheng17/flink-learning) Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等内容的学习案例,还有 Flink 落地应用的大型项目案例(PVUV、日志存储、百亿数据实时去重、监控告警)分享。
* [donnemartin/awesome-aws](https://github.com/donnemartin/awesome-aws) 精选的亚马逊云科技 (AWS) 库、开源存储库、指南、博客和其他资源列表。以 AWSome 的火热仪表为特色。
* [spotify/luigi](https://github.com/spotify/luigi) Luigi 是一个 Python 模块,可帮助您构建复杂的批处理作业管道。它处理依赖关系解析、工作流管理、可视化等。它还内置了Hadoop支持。
* [cockroachdb/cockroach](https://github.com/cockroachdb/cockroach) 开源的云原生分布式SQL数据库。
* [madd86/awesome-system-design](https://github.com/madd86/awesome-system-design) 分布式计算(又名大数据)的精彩系统设计文章、视频和资源的精选列表。无论您是在准备面试,还是想设计面向分布式/微服务的应用程序,此列表都一定会帮助您实现这一目标。
* [dhamaniasad/awesome-postgres](https://github.com/dhamaniasad/awesome-postgres) 受 awesome-mysql 启发的出色 PostgreSQL 软件、库、工具和资源的精选列表。PostgreSQL,通常简称为 Postgres,是一个对象关系数据库 (ORDBMS)。PostgreSQL 符合 ACID 标准且具有事务性。内容:高可用性、备份、图形用户界面、分布式、命令行界面、服务器、监测、扩展、优化、工具、语言绑定、PaaS(PostgreSQL 即服务)、Docker 镜像、资源、教程、博客、文章、文档、通讯、视频、社区、路线图。
* [wangzhiwubigdata/God-Of-BigData](https://github.com/wangzhiwubigdata/God-Of-BigData) 专注大数据学习面试,大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...
* [apache/spark](https://github.com/apache/spark) 用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的一般计算图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL和数据帧的Spark SQL,用于pandas工作负载的Spark上的pandas API,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的结构化流。
* [google/leveldb](https://github.com/google/leveldb) 一个在Google编写的快速键值存储库,它提供了从字符串键到字符串值的有序映射。
* [apache/couchdb](https://github.com/apache/couchdb) 开源 NoSQL 文档数据库,用于存储 JSON 格式的数据。与关系数据库不同,CouchDB 使用无模式数据模型,简化了各种计算设备、手机和 Web 浏览器中的记录管理。特点:双向复制,用于在多个服务器和设备之间同步数据。将视图用作运行查询以及根据存储的文档文件创建报告的主要工具。使用 [REST API](https://www.ibm.com/cn-zh/topics/rest-apis) 从任何地点访问数据库,并具有完全的 CRUD(创建、读取、更新、删除)操作灵活性。设计中考虑了脱机操作。高效的文档存储。提供多种兼容性优势,可轻松地与当前基础架构集成。优点:可扩展性。没有读取锁。
* [surrealdb/surrealdb](https://github.com/surrealdb/surrealdb) 可扩展的、分布式的、协作的、文档图形数据库,用于实时 Web。端到端的云原生数据库,专为现代应用程序而设计,包括 Web、移动、无服务器、Jamstack、后端和传统应用程序。借助 SurrealDB,您可以简化数据库和 API 基础架构,缩短开发时间,并快速、经济高效地构建安全、高性能的应用程序。
* [pingcap/talent-plan](https://github.com/pingcap/talent-plan) 由 PingCAP 发起的开源培训计划。它旨在为对开源、分布式系统、Rust、Golang 和其他基础设施知识感兴趣的人创建或组合一些开源学习材料。因此,它提供了一系列专注于开源协作、rust 编程、分布式数据库和系统的课程。
* [alibaba/druid](https://github.com/alibaba/druid) 阿里云计算平台DataWorks团队出品,为监控而生的数据库连接池。一个 JDBC 组件库,包含数据库连接池、SQL Parser 等组件, 被大量业务和技术产品使用或集成,经历过最严苛线上业务场景考验,是你值得信赖的技术产品。
* [questdb/questdb](https://github.com/questdb/questdb) 用于快速摄取和 SQL 查询的开源时间序列数据库。QuestDB 非常适合金融市场数据、物联网传感器数据、应用程序指标、实时仪表板和快速分析。
* [duckdb/duckdb](https://github.com/duckdb/duckdb) 进程内SQL OLAP数据库管理系统,高性能的分析数据库系统。它快速可靠、便携且易于使用。提供了丰富的SQL方言,其支持远远超出了基本的SQL。支持任意和嵌套的相关子查询、窗口函数、排序规则、复杂类型(数组、结构)等。
* [dbeaver/dbeaver](https://github.com/dbeaver/dbeaver) 面向开发人员、SQL 程序员、数据库管理员和分析师的免费多平台数据库工具。支持任何具有JDBC驱动程序的数据库(基本上意味着 - 任何数据库)。商业版本还支持非JDBC数据源,如MongoDB、Cassandra、Couchbase、Redis、BigTable、DynamoDB等。可以找到商业版本中支持的所有数据库的列表。
* [etcd-io/etcd](https://github.com/etcd-io/etcd) 分布式可靠的键值存储,用于存储分布式系统中最关键的数据,重点是:简单:定义明确、面向用户的 API (gRPC),安全:具有可选客户端证书身份验证的自动 TLS,快速:以 10,000 次写入/秒为基准,可靠:使用 Raft 正确分发。etcd 是用 Go 语言编写的,它使用 Raft 共识算法来管理一个高度可用的复制日志。
* [typicode/lowdb](https://github.com/typicode/lowdb) 简单易用的类型安全本地 JSON 数据库
* [pouchdb/pouchdb](https://github.com/pouchdb/pouchdb) 开源的 JavaScript 数据库,其灵感来自 Apache CouchDB,旨在在浏览器中运行良好。
* [dolthub/dolt](https://github.com/dolthub/dolt) 一个 SQL 数据库,您可以像 Git 存储库一样对其进行分叉、克隆、分支、合并、推送和拉取。连接到 Dolt 就像连接到任何 MySQL 数据库以读取或修改架构和数据一样。版本控制功能通过系统表、函数和过程在 SQL 中公开。
* [realm/realm-swift](https://github.com/realm/realm-swift) 一个移动数据库,直接运行在手机、平板电脑或可穿戴设备中。这个仓库保存了 iOS、macOS、tvOS 和 watchOS 版本的 Realm Swift 和 Realm Objective-C 的源代码。
* [realm/realm-java](https://github.com/realm/realm-java) 移动数据库:SQLite 和 ORM 的替代品,java版
* [beekeeper-studio/beekeeper-studio](https://github.com/beekeeper-studio/beekeeper-studio) 适用于 MySQL、Postgres、SQLite、SQL Server 等的现代且易于使用的 SQL 客户端。Linux、MacOS 和 Windows。
* [go-sql-driver/mysql](https://github.com/go-sql-driver/mysql) golang写的数据库/sql 包的 MySQL 驱动程序
* [arangodb/arangodb](https://github.com/arangodb/arangodb) 原生多模型数据库,具有用于文档、图形和键值的灵活数据模型。使用方便的类似 SQL 的查询语言或 JavaScript 扩展构建高性能应用程序。
* [golang-migrate/migrate](https://github.com/golang-migrate/migrate) 用 Go 编写的数据库迁移。用作 CLI 或作为库导入。Migrate 从源读取迁移,并按正确的顺序将其应用于数据库。驱动程序是“愚蠢的”,迁移将所有内容粘合在一起,并确保逻辑是无懈可击的。数据库驱动程序不会假设某些事情或尝试更正用户输入。
* [dotnet/efcore](https://github.com/dotnet/efcore) .NET 的新式对象数据库映射器。它支持 LINQ 查询、更改跟踪、更新和架构迁移。EF Core 通过提供程序插件 API 与 SQL Server、Azure SQL 数据库、SQLite、Azure Cosmos DB、MySQL、PostgreSQL 和其他数据库配合使用。
* [dgraph-io/badger](https://github.com/dgraph-io/badger) 可嵌入的、持久的、快速的键值 (KV) 数据库,用纯 Go 编写。它是 Dgraph 的基础数据库,Dgraph 是一个快速的分布式图形数据库。它旨在成为非基于 Go 的键值存储(如 RocksDB)的高性能替代方案。
* [rqlite/rqlite](https://github.com/rqlite/rqlite) 关系数据库,它结合了 SQLite 的简单性和健壮、容错的分布式系统的强大功能。它专为易于部署和轻量级操作而设计,为 Linux、macOS 和 Win 以及各种 CPU 平台提供开发人员友好且以操作员为中心的解决方案。
* [edgedb/edgedb](https://github.com/edgedb/edgedb) 具有声明性架构、内置迁移系统和下一代查询语言的图关系数据库
* [scylladb/scylladb](https://github.com/scylladb/scylladb) NoSQL数据存储使用seastar框架,与Apache Cassandra兼容
* [cstack/db_tutorial](https://github.com/cstack/db_tutorial) 用 C 从头开始编写 sqlite 克隆
* [coleifer/peewee](https://github.com/coleifer/peewee) 小型的、富有表现力的 ORM -- 支持 PostgreSQL、MySQL、SQLite 和 CockroachDB,ORM是对象关系映射,用于把面向对象的概念和数据库中的表的概念对应起来,方便编程和操作。
* [pingcap/awesome-database-learning](https://github.com/pingcap/awesome-database-learning) 了解数据库内部结构的学习材料清单
* [orbitdb/orbitdb](https://github.com/orbitdb/orbitdb) 去中心化网络的点对点数据库
* [risingwavelabs/risingwave](https://github.com/risingwavelabs/risingwave) 用于流处理、分析和管理的可扩展 Postgres。KsqlDB 和 Apache Flink 替代方案。生产率提高 10 倍。成本效益提高 10 倍。
* [bigchaindb/bigchaindb](https://github.com/bigchaindb/bigchaindb) 区块链数据库。它具有一些数据库特征和一些区块链属性,包括去中心化、不变性和对资产的原生支持。
* [oceanbase/miniob](https://github.com/oceanbase/miniob) 紧凑的数据库,可帮助开发人员了解数据库的基本工作原理。
* [Wisser/Jailer](https://github.com/Wisser/Jailer) 数据库子集和关系数据浏览工具。Subsetter 从数据库中创建小切片(一致且引用完整),作为 SQL(拓扑排序)、DbUnit 记录或 XML。非常适合创建测试数据的小样本或使用相关生产数据进行本地问题分析。通过数据浏览器,您可以按照表之间的关系(基于外键或用户定义)浏览数据库。
* [mirage/irmin](https://github.com/mirage/irmin) 分布式数据库,遵循与 Git 相同的设计原则。OCaml 库,用于构建可合并、可分支的分布式数据存储。
* [georgia-tech-db/evadb](https://github.com/georgia-tech-db/evadb) 使软件开发人员能够通过几行代码构建 AI 应用程序。其强大的 SQL API 简化了结构化和非结构化数据的 AI 应用程序开发。EvaDB的优势包括:轻松将 EvaDB 查询引擎与您的数据源(如 PostgreSQL 或 S3 存储桶)连接,并使用 SQL 查询构建 AI 驱动的应用程序。使用 Hugging Face、OpenAI、YOLO、Stable Diffusion 等预训练的 AI 模型查询您的连接数据。创建或微调用于回归、分类和时间序列预测的 AI 模型。得益于以 AI 为中心的查询优化,例如缓存、批处理和并行处理,因此可以更快地进行 AI 查询。
* [apple/foundationdb](https://github.com/apple/foundationdb) 分布式数据库,旨在跨商用服务器集群处理大量结构化数据。它将数据组织为有序的键值存储,并将 ACID 事务用于所有操作。它特别适用于读/写工作负载,但对于写入密集型工作负载也具有出色的性能。用户使用 API 语言绑定与数据库进行交互。
* [citusdata/citus](https://github.com/citusdata/citus) PostgreSQL 扩展,可将 Postgres 转换为分布式数据库,因此您可以在任何规模下实现高性能。借助 Citus,您可以使用新的超能力扩展 PostgreSQL 数据库:分布式表在 PostgreSQL 节点集群中进行分片,以组合其 CPU、内存、存储和 I/O 容量。引用表将复制到所有节点,以便从分布式表中进行联接和外键,并实现最大读取性能。分布式查询引擎在整个集群中路由和并行化分布式表上的 SELECT、DML 和其他操作。列式存储可压缩数据,加快扫描速度,并支持常规表和分布式表上的快速投影。通过从任何节点进行查询,可以利用集群的全部容量进行分布式查询
* [mongodb/mongo-go-driver](https://github.com/mongodb/mongo-go-driver) MongoDB 的官方 Golang 驱动程序
* [apache/arrow](https://github.com/apache/arrow) 多语言工具箱,用于加速数据交换和内存处理。初创团队主要来自于Dremio公司和由Apache Parquet(一种列式存储格式)的开发人员于2016年创建。其最初的定位是通过定义一套通用数据结构和 API,使数据可以在不同的编程语言和计算引擎之间以零复制(zero-copy)的方式进行共享和交换,从而提高数据处理的效率。Arrow 的核心数据结构是统一的列式内存格式,该格式采用了内存连续布局和零复制策略,以减少数据传输的开销。它支持对连续的列式数据使用现代处理器中包SIMD(单指令、多数据)进行向量化操作。此外,Arrow 还提供了一套丰富的数据操作接口,如过滤、转换、聚合等,以支持高效的数据分析和处理。随着时间的推移,Apache Arrow 在逐渐扩展和发展,到现在Apache Arrow已经发展成为一个用于构建处理和传输大型数据集的高性能应用程序软件开发平台,它不仅支持多种编程语言(如C++, Java, Python, R等),还与许多主流的数据处理框架集成,如 Apache Spark、Pandas、TensorFlow 等。
* [pgadmin-org/pgadmin4](https://github.com/pgadmin-org/pgadmin4) PostgreSQL 最受欢迎且功能丰富的开源管理和开发平台,PostgreSQL 是世界上最先进的开源数据库。pgAdmin 4 是作为 Web 应用程序编写的,服务器端使用 Python(Flask),客户端使用 ReactJS、HTML5 和 CSS,用于客户端处理和 UI。虽然使用 Web 技术开发,但 pgAdmin 4 可以使用浏览器部署在 Web 服务器上,也可以独立部署在工作站上。runtime/ 子目录包含一个基于 NWjs 的运行时应用程序,旨在允许这样做,它将执行 Python 服务器并显示 UI。
* [sosedoff/pgweb](https://github.com/sosedoff/pgweb) PostgreSQL 数据库的跨平台客户端,基于 Web 的 PostgreSQL 数据库浏览器,用 Go 编写,适用于 Mac、Linux 和 Windows 机器。作为零依赖关系的简单二进制文件分发。非常易于使用,并包含适量的功能。
* [FerretDB/FerretDB](https://github.com/FerretDB/FerretDB) MongoDB 事实上的开源替代品。FerretDB 是一个开源代理,使用 PostgreSQL 或 SQLite 作为数据库引擎,将 MongoDB 5.0+ 有线协议查询转换为 SQL。
* [delta-io/delta](https://github.com/delta-io/delta) 开源存储框架,支持使用 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎以及 API 构建湖仓一体架构。以下是一些比较流行的 Delta Lake 集成:Apache Spark™:此连接器允许 Apache Spark™ 读取和写入 Delta Lake。Apache Flink(预览版):此连接器允许 Apache Flink 写入 Delta Lake。PrestoDB:此连接器允许 PrestoDB 从 Delta Lake 读取数据。Trino:此连接器允许 Trino 读取和写入 Delta Lake。Delta Standalone:此库允许基于 Scala 和 Java 的项目(包括 Apache Flink、Apache Hive、Apache Beam 和 PrestoDB)读取和写入 Delta Lake。Apache Hive:此连接器允许 Apache Hive 从 Delta Lake 读取数据。Delta Rust API:该库允许 Rust(使用 Python 和 Ruby 绑定)对 Delta 表进行低级访问,旨在与数据处理框架一起使用,例如 datafusion、ballista、rust-dataframe、vega 等。
* [Sequel-Ace/Sequel-Ace](https://github.com/Sequel-Ace/Sequel-Ace) 适用于 macOS 的 MySQL/MariaDB 数据库管理
* [tursodatabase/libsql](https://github.com/tursodatabase/libsql) SQLite 的一个分支,它既是开源的,也是开放贡献的。由 Turso 创建和维护。我们的目标是改进它,以适应比SQLite最初设计的更多的用例,并计划在任何有意义的地方使用第三方OSS代码。特征:嵌入式副本,允许您在应用内复制数据库。用于远程 SQLite 访问的 libSQL 服务器,类似于 PostgreSQL 或 MySQL。支持 Rust、JavaScript、Python、Go 等。
* [apache/storm](https://github.com/apache/storm) 分布式实时计算系统。与Hadoop提供一组用于进行批处理的通用原语类似,Storm提供了一组用于执行实时计算的通用原语。Storm 很简单,可以与任何编程语言一起使用,被许多公司使用,而且使用起来很有趣!Apache Storm 有许多用例:实时分析、在线机器学习、持续计算、分布式 RPC、ETL 等。Apache Storm 速度很快:基准测试显示,每个节点每秒处理超过 100 万个元组。它具有可扩展性、容错性,可保证您的数据得到处理,并且易于设置和操作。Apache Storm 与您已经使用的排队和数据库技术集成。Apache Storm 拓扑使用数据流,并以任意复杂的方式处理这些流,根据需要在计算的每个阶段之间重新划分流。在本教程中阅读更多内容。
* [erikgrinaker/toydb](https://github.com/erikgrinaker/toydb) Rust 中的分布式 SQL 数据库,作为学习项目编写。大多数组件都是从头开始构建的,包括:基于 Raft 的分布式共识引擎,用于线性化状态机复制。符合 ACID 标准的事务引擎,具有基于 MVCC 的快照隔离。具有 BitCask 和内存后端的可插拔存储引擎。基于迭代器的查询引擎,具有启发式优化和时间旅行支持。SQL 接口,包括投影、筛选器、联接、聚合和事务。toyDB 不适合在现实世界中使用,但其他学习数据库内部的人可能会感兴趣。
* [readysettech/readyset](https://github.com/readysettech/readyset) Readyset 是一个 MySQL 和 Postgres 线路兼容的缓存层,位于现有数据库的前面,以加速查询并水平扩展读取吞吐量。在后台,ReadySet 缓存缓存的 select 语句的结果,并随着基础数据的变化随着时间的推移逐步更新这些结果。
## 数据搜索引擎
* [searx/searx](https://github.com/searx/searx) 尊重隐私的元搜索引擎
* [benbusby/whoogle-search](https://github.com/benbusby/whoogle-search) 一个自托管、无广告、尊重隐私的元搜索引擎
* [elastic/elasticsearch](https://github.com/elastic/elasticsearch) 免费开放、分布式、RESTful 搜索引擎
* [typesense/typesense](https://github.com/typesense/typesense) Algolia + Pinecone 的开源替代品和 ElasticSearch 的更易于使用的替代品。 快速、容错、内存模糊搜索引擎,用于构建令人愉悦的搜索体验
* [openobserve/openobserve](https://github.com/openobserve/openobserve) 简化10倍,存储成本降低140 倍,高性能,PB级 - Elasticsearch/Splunk/Datadog 替代(日志、指标、跟踪)。OpenObserve(简称 O2)是一个云原生可观测性平台,专为日志、指标、跟踪、分析、RUM(真实用户监控 - 性能、错误、会话回放)而构建,旨在以 PB 级规模工作。它简单易用,与需要理解和调整大量设置的 Elasticsearch 形成鲜明对比。在 2 分钟内启动并运行 OpenObserve。OpenObserve 是 Elasticsearch 的无缝替代品,适用于使用 API 采集数据并执行搜索的用户。OpenObserve 自带用户界面,无需单独安装。与 Elasticsearch 相比,使用 OpenObserve,您可以将日志存储成本降低 ~140 倍。下面,我们将介绍使用 Fluent Bit 将日志从生产 Kubernetes 集群推送到 Elasticsearch 和 OpenObserve 的结果。
* [zincsearch/zincsearch](https://github.com/zincsearch/zincsearch) 轻量级elasticsearch 替代方案,需要最少的资源,用 Go 编写。
* [apache/lucene-solr](https://github.com/apache/lucene-solr) Apache Lucene和Solr开源搜索软件
* [valeriansaliou/sonic](https://github.com/valeriansaliou/sonic) 快速、轻量级和无模式的搜索后端。Elasticsearch的替代方案,运行在几MB的RAM上。
* [opensearch-project/OpenSearch](https://github.com/opensearch-project/OpenSearch) 开源分布式和 RESTful 搜索引擎。Elasticsearch 和 Kibana 的社区驱动的开源分支
* [quickwit-oss/tantivy](https://github.com/quickwit-oss/tantivy) 一个全文搜索引擎库,灵感来自Apache Lucene,用Rust编写。
* [medcl/elasticsearch-analysis-ik](https://github.com/medcl/elasticsearch-analysis-ik) IK 分析插件将 Lucene IK 分析器集成到 elasticsearch 中,支持自定义词典。
* [deviantony/docker-elk](https://github.com/deviantony/docker-elk) 由Docker和Compose提供支持的Elastic stack(ELK)。使用 Elasticsearch 的搜索/聚合功能和 Kibana 的可视化功能来分析任何数据集。
* [chrismattmann/tika-python](https://github.com/chrismattmann/tika-python) Tika-Python 是与 Apache Tika REST 服务的 Python 绑定,允许在 Python 社区中本地调用 Tika™。Apache Tika 是一个内容分析工具包,可以检测上千种文件类型,并提取它们的元数据和文本。tika在设计上十分精巧,单一的接口使它易于使用,在搜索引擎索引,内容分析,翻译等诸多方面得到了广泛使用。
* [appbaseio/dejavu](https://github.com/appbaseio/dejavu) Elasticsearch 缺少的 Web UI:使用丰富的过滤器和查询视图导入、浏览和编辑数据,直观地创建搜索 UI。
* [oramasearch/orama](https://github.com/oramasearch/orama) 快速、内存中、容错、用 TypeScript 编写的全文搜索引擎。
* [nextapps-de/flexsearch](https://github.com/nextapps-de/flexsearch) 适用于浏览器和Nodejs的下一代js全文搜索库
* [RediSearch/RediSearch](https://github.com/RediSearch/RediSearch) Redis的查询和索引引擎,提供二级索引,全文搜索,矢量相似性搜索和聚合。
* [GerevAI/gerev](https://github.com/GerevAI/gerev) 人工智能驱动的企业搜索引擎
* [alibaba/Chat2DB](https://github.com/alibaba/Chat2DB) 智能且通用的SQL客户端和数据库报告工具,集成了ChatGPT功能。
* [amazon-science/esci-data](https://github.com/amazon-science/esci-data) 一个困难搜索查询的大型数据集,旨在促进查询和产品语义匹配领域的研究。对于每个查询,数据集提供最多 40 个潜在相关结果的列表,以及 ESCI 相关性判断(精确、替代、补充、不相关),指示产品与查询的相关性。每个查询产品对都附有其他信息。数据集是多语言的,因为它包含英语、日语和西班牙语的查询。
* [searxng/searxng](https://github.com/searxng/searxng) 免费的互联网元搜索引擎,它汇总了来自各种搜索服务和数据库的结果。既不会跟踪用户,也不会对用户进行分析。
## 向量数据库、向量搜索、最近邻搜索
* [milvus-io/milvus](https://github.com/milvus-io/milvus) 大规模特征向量的最快相似度搜索引擎 基于Faiss、Annoy等开源库,并针对性做了定制,支持结构化查询、多模查询等业界比较急需的功能;Milvus支持cpu、gpu、arm等多种类型的处理器;同时使用mysql存储元数据,并且在共享存储的支持下,Milvus可以支持分布式部署。
* [vearch/vearch](https://github.com/vearch/vearch) 用于嵌入式向量高效相似性搜索的分布式系统
* [spotify/annoy](https://github.com/spotify/annoy) C++/Python 中的近似最近邻针对内存使用和加载/保存到磁盘进行了优化
* [qdrant/qdrant](https://github.com/qdrant/qdrant) 一个矢量相似性搜索引擎和矢量数据库。它提供生产就绪的服务,并带有方便的 API 来存储、搜索和管理点 - 具有附加有效载荷的矢量 Qdrant 专为扩展过滤支持量身定制。它使其可用于各种神经网络或基于语义的匹配、分面搜索和其他应用程序。
* [weaviate/weaviate](https://github.com/weaviate/weaviate) Weaviate 是一个开源矢量数据库,它存储对象和矢量,允许将矢量搜索与结构化过滤与云原生数据库的容错和可扩展性相结合,所有这些都可以通过 GraphQL、REST 和各种语言客户端访问。
* [pgvector/pgvector](https://github.com/pgvector/pgvector) Postgres的开源向量相似性搜索
* [FALCONN-LIB/FALCONN](https://github.com/FALCONN-LIB/FALCONN) 余弦和其他最近邻的首次查找(基于快速局部敏感哈希)
* [yahoojapan/NGT](https://github.com/yahoojapan/NGT) 使用邻域图和树进行最近邻搜索,以获取高维数据
* [hora-search/hora](https://github.com/hora-search/hora) 高效的近似最近邻搜索算法集合库用 Rust 编写。
* [marqo-ai/marqo](https://github.com/marqo-ai/marqo) 端到端的多模态矢量搜索引擎。借助 Marqo,用户可以通过单个易于使用的 API 存储和查询非结构化数据,例如文本、图像和代码。输入预处理、机器学习推理和存储都是开箱即用的,可以轻松扩展。
* [currentslab/awesome-vector-search](https://github.com/currentslab/awesome-vector-search) 矢量搜索相关库、服务和研究论文集
* [vdaas/vald](https://github.com/vdaas/vald) 高度可扩展的分布式矢量搜索引擎
* [docarray/docarray](https://github.com/docarray/docarray) Python 库,专为多模态数据的表示、传输、存储和检索而精心制作。专为多模态AI应用程序的开发量身定制,其设计可确保与广泛的Python和机器学习生态系统无缝集成。
* [neuml/txtai](https://github.com/neuml/txtai) 用于语义搜索、LLM 编排和语言模型工作流的一体化开源嵌入数据库
* [chroma-core/chroma](https://github.com/chroma-core/chroma) AI 原生开源嵌入数据库
* [milvus-io/milvus-lite](https://github.com/milvus-io/milvus-lite) Milvus 的轻量级版本,可以嵌入到 Python 应用程序中。
* [milvus-io/bootcamp](https://github.com/milvus-io/bootcamp) 处理所有非结构化数据,如反向图像搜索、音频搜索、分子搜索、视频分析、问答系统、NLP 等。使用神经网络从非结构化数据中提取特征向量,例如图像、音频和视频等。然后通过计算特征向量来分析非结构化数据,例如计算向量的欧几里得或余弦距离以获得相似性。
* [zilliztech/VectorDBBench](https://github.com/zilliztech/VectorDBBench) 不仅仅是主流矢量数据库和云服务的基准测试结果,还是您进行终极性能和成本效益比较的首选工具。VectorDBBench 在设计时考虑到了易用性,旨在帮助用户(甚至是非专业人士)重现结果或测试新系统,从而在众多云服务和开源矢量数据库中寻找最佳选择变得轻而易举。
* [Tencent/wcdb](https://github.com/Tencent/wcdb) WCDB是由微信开发的跨平台数据库框架。高效、完整、易用的移动数据库框架,用于微信应用。它基于SQLite和SQLCipher,支持五种语言:C++,Java,Kotlin,Swift和Objective-C。
* [lancedb/lancedb](https://github.com/lancedb/lancedb) 面向 AI 应用程序的开发人员友好型无服务器向量数据库。轻松为您的LLM应用程序添加长期记忆!
* [infiniflow/infinity](https://github.com/infiniflow/infinity) 专LLM为应用程序构建的 AI 原生数据库,提供令人难以置信的快速全文和矢量搜索
* [tensorchord/pgvecto.rs](https://github.com/tensorchord/pgvecto.rs) Postgres 中可扩展、低延迟和支持混合的矢量搜索。彻底改变矢量搜索,而不是数据库。超低延迟、高精度的矢量搜索。使用 SPLADE 或 BM25 算法进行基于关键字的向量搜索。跨任何语言的全面文本搜索,由 tsvector 提供支持。完整的 SQL 支持,支持连接和筛选器,没有限制或额外配置。非阻塞插入,具有最新的查询就绪情况。无需将向量和元数据与外部向量数据库同步,简化开发。支持 FP16 和 INT8 数据类型,以提高存储和计算效率。使用二进制向量进行向量索引,并支持 Jaccard 距离。子向量索引,如向量[0:256],用于增强的套娃嵌入。支持高达 65535 的矢量长度,是最新尖端模型的理想选择。与 PostgreSQL 集成的久经考验的数据库生态系统。逻辑复制支持,确保高可用性。利用 PostgreSQL 实现高效的属性存储。简单的访问控制,如只读角色,由 PostgreSQL 提供支持。
* [SuperDuperDB/superduperdb](https://github.com/SuperDuperDB/superduperdb) 将 AI 引入您的数据库!直接使用现有数据基础架构构建、部署和管理任何 AI 应用程序,而无需移动数据。包括流式推理、可扩展模型训练和向量搜索。SuperDuperDB 是一个 Python 框架,用于将 AI 模型、API 和矢量搜索引擎直接与您现有的数据库集成,包括托管您自己的模型、流式推理和可扩展的模型训练/微调。
* [qdrant/fastembed](https://github.com/qdrant/fastembed) FastEmbed 是一个轻量级、快速的 Python 库,专为嵌入生成而构建。我们支持流行的文本模型。轻量级:FastEmbed 是一个轻量级的库,几乎没有外部依赖性,我们不需要 GPU,也不需要下载 GB 的 PyTorch 依赖项,而是使用 ONNX 运行时,这使它成为 AWS Lambda 等无服务器运行时的绝佳候选者。快速:FastEmbed 专为速度而设计,我们使用 ONNX 运行时,它比 PyTorch 更快,我们还使用数据并行性来编码大型数据集。准确:FastEmbed 优于 OpenAI Ada-002,我们还支持一组不断扩展的模型,包括一些多语言模型。
* [asg017/sqlite-vec](https://github.com/asg017/sqlite-vec) 正在进行中的向量搜索SQLite扩展,可在任何地方运行。一个非常小的,“足够快”的向量搜索SQLite扩展,可以在任何地方运行!sqlite-vss 的继任者。在 vec0 虚拟表中存储和查询浮点数、int8 和二进制向量;用纯C语言编写,没有依赖项,可以在SQLite运行的任何地方运行(Linux / Mac OS / Windows,在带有WASM,Raspberry Pis等的浏览器中);使用 rowid IN (...) 子查询预过滤向量
* [pinecone-io/examples](https://github.com/pinecone-io/examples) 示例应用程序和 Jupyter Notebook 的集合,您可以运行、下载、研究和修改它们,以便亲身体验 Pinecone 向量数据库和常见的 AI 模式、工具和算法。
## 其他__大数据
* [redis/redis](https://github.com/redis/redis) 一个内存中数据库,它保留在磁盘上。数据模型是键值,但支持许多不同类型的值:字符串、列表、集合、排序集、哈希、流、Hyper Log Logs、位图。
* [dragonflydb/dragonfly](https://github.com/dragonflydb/dragonfly) Redis和Memcached的现代替代品
* [bilibili/overlord](https://github.com/bilibili/overlord) 哔哩哔哩基于Go语言编写的memcache和redis cluster的代理及集群管理功能,致力于提供自动化高可用的缓存服务解决方案。
* [redis/redis-py](https://github.com/redis/redis-py) redis内存中数据库的python客户端
* [redis/node-redis](https://github.com/redis/node-redis) redis内存中数据库的Node.js客户端
* [redis/ioredis](https://github.com/redis/ioredis) 适用于 Node.js 的强大、注重性能且功能齐全的 Redis 客户端。
* [redis/jedis](https://github.com/redis/jedis) Redis Java 客户端
* [redis/go-redis](https://github.com/redis/go-redis) redis内存中数据库的Go 客户端
* [redisson/redisson](https://github.com/redisson/redisson) 具有内存数据网格功能的简易 Redis Java 客户端。Sync/ Async/RxJava/Reactive API.超过50个基于Redis的Java对象和服务:Set,Multimap,SortedSet,Map,List,Queue,Deque,Semaphore,Lock,AtomicLong,Map Reduce,Bloom filter,Spring Cache,Tomcat,Scheduler,JCache API,Hibernate,RPC,本地缓存...
* [sohutv/cachecloud](https://github.com/sohutv/cachecloud) 搜狐视频(sohu tv)Redis私有云平台 :支持Redis多种架构(Standalone、Sentinel、Cluster)高效管理、有效降低大规模redis运维成本,提升资源管控能力和利用率。平台提供快速搭建/迁移,运维管理,弹性伸缩,统计监控,客户端整合接入等功能。
* [qishibo/AnotherRedisDesktopManager](https://github.com/qishibo/AnotherRedisDesktopManager) 更快,更好,更稳定的Redis桌面管理器[GUI客户端],兼容Linux,Windows,Mac。
* [luin/medis](https://github.com/luin/medis) 美观、易用的 Redis Mac 数据库管理应用程序。
* [twitter/twemproxy](https://github.com/twitter/twemproxy) memcached 和 redis 的快速、轻量级代理
* [Snapchat/KeyDB](https://github.com/Snapchat/KeyDB) Redis 的高性能分支,专注于多线程、内存效率和高吞吐量。除了性能改进外,KeyDB 还提供主动复制、闪存存储和子密钥过期等功能。KeyDB 具有 MVCC 架构,允许您执行 KEYS 和 SCAN 等查询,而不会阻塞数据库和降低性能。KeyDB 保持与 Redis 协议、模块和脚本的完全兼容。这包括脚本和事务的原子性保证。由于 KeyDB 与 Redis 开发保持同步,因此 KeyDB 是 Redis 功能的超集,因此 KeyDB 可以替代现有的 Redis 部署。在相同的硬件上,KeyDB 可以实现比 Redis 高得多的吞吐量。主动复制简化了热备盘故障转移,使您能够轻松地在副本上分配写入,并使用基于 TCP 的简单负载平衡/故障转移。KeyDB的更高性能允许您在更少的硬件上做更多的事情,从而降低运营成本和复杂性。
* [golang/groupcache](https://github.com/golang/groupcache) 一个缓存和缓存填充库,在许多情况下旨在替代 memcached。
* [huangz1990/redis-3.0-annotated](https://github.com/huangz1990/redis-3.0-annotated) 带有详细注释的 Redis 3.0 代码
* [DataTalksClub/data-engineering-zoomcamp](https://github.com/DataTalksClub/data-engineering-zoomcamp) 免费数据工程课程
* [apache/kafka](https://github.com/apache/kafka) 分布式数据存储和流处理平台,可以发布和订阅记录流,按顺序存储和处理数据。
* [yahoo/CMAK](https://github.com/yahoo/CMAK) 用于管理 Apache Kafka 群集的工具
* [phpmyadmin/phpmyadmin](https://github.com/phpmyadmin/phpmyadmin) MySQL 和 MariaDB 的 Web 界面,phpMyAdmin 使用 Composer 来管理库依赖项;使用 Git 开发版本时,必须手动运行 Composer。有关详细信息,请参阅文档。
* [prisma/prisma](https://github.com/prisma/prisma) 下一代 ORM 对象关系映射(Object Relational Mapping,为了解决面向对象与关系数据库存在的互不匹配)for Node.js & TypeScript |PostgreSQL,MySQL,MariaDB,SQL Server,SQLite,MongoDB和CockroachDB
* [sequelize/sequelize](https://github.com/sequelize/sequelize) 功能丰富的ORM(Object Relational Mapping,为了解决面向对象与关系数据库存在的互不匹配),用于现代Node.js和TypeScript,它支持PostgreSQL(支持JSON和JSONB),MySQL,MariaDB,SQLite,MS SQL Server,Snowflake,Oracle DB(v6),DB2和DB2 for IBM i。
* [mikro-orm/mikro-orm](https://github.com/mikro-orm/mikro-orm) 基于数据映射器、工作单元和身份映射模式的 Node.js 的 TypeScript ORM。支持 MongoDB、MySQL、MariaDB、MS SQL Server、PostgreSQL 和 SQLite/libSQL 数据库。
* [porsager/postgres](https://github.com/porsager/postgres) Postgres.js - 适用于 Node.js、Deno、Bun 和 CloudFlare 的最快全功能 PostgreSQL 客户端
* [seaweedfs/seaweedfs](https://github.com/seaweedfs/seaweedfs) 一个快速分布式存储系统,适用于 blob、对象、文件和数据湖,适用于数十亿个文件!Blob 存储具有 O(1) 磁盘查找和云分层。Filer 支持 Cloud Drive、跨 DC 主动-主动复制、Kubernetes、POSIX FUSE 挂载、S3 API、S3 Gateway、Hadoop、WebDAV、加密、纠删码。
* [Database-like ops benchmark](https://h2oai.github.io/db-benchmark/) 对开源数据科学中流行的各种类似数据库的工具进行基准测试。
* [tonsky/datascript](https://github.com/tonsky/datascript) 用于 Clojure、ClojureScript 和 JS 的不可变数据库和数据日志查询引擎
* [cube-js/cube](https://github.com/cube-js/cube) 多维数据集 — 用于构建数据应用程序的语义层。帮助数据工程师和应用程序开发人员访问新式数据存储中的数据,将其组织成一致的定义,并将其交付给每个应用程序。
* [bytebase/bytebase](https://github.com/bytebase/bytebase) 面向开发人员、DBA 和平台工程团队的世界上最先进的数据库 DevOps 和 CI/CD。用于数据库 DevOps 的 GitLab/GitHub。
* [mingrammer/diagrams](https://github.com/mingrammer/diagrams) 允许您在 Python 代码中绘制云系统架构。它诞生于在没有任何设计工具的情况下对新的系统架构设计进行原型设计。您还可以描述或可视化现有系统架构。Diagrams目前支持的主要提供商包括: GCP \ Kubernetes \Alibaba Cloud \Oracle Cloud \Azure AWS 等。它还支持 On-Premise 节点、 SaaS 主要 Programming 框架和语言。
* [alibaba/DataX](https://github.com/alibaba/DataX) 阿里云DataWorks数据集成的开源版本。在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
* [PRQL/prql](https://github.com/PRQL/prql) 用于转换数据的现代语言 — 一种简单、强大、流水线式的 SQL 替代品
* [go-gorm/gorm](https://github.com/go-gorm/gorm) Golang的梦幻般的ORM库,旨在对开发人员友好
* [ben-manes/caffeine](https://github.com/ben-manes/caffeine) 适用于 Java 的高性能缓存库,Google Guava 启发的API提供内存缓存。这些改进借鉴了Guava缓存和ConcurrentLinkedHashMap的经验。
* [ipfs/kubo](https://github.com/ipfs/kubo) Kubo是第一个IPFS实现,也是当今使用最广泛的一个。实施星际文件系统 - 用于内容寻址的 Web3 标准,可与 HTTP 互操作。因此,由IPLD的数据模型和用于网络通信的libp2p提供支持。
* [tendermint/tendermint](https://github.com/tendermint/tendermint) 拜占庭容错 (BFT) 中间件,它采用状态转换机器(用任何编程语言编写)并在许多机器上安全地复制它。
* [lni/dragonboat](https://github.com/lni/dragonboat) Go 中功能完整且高性能的多组 Raft 库。像 Raft 这样的共识算法通过让系统在大多数成员服务器可用时继续运行来提供容错能力。例如,一个 5 台服务器的 Raft 分片,即使有 2 台服务器出现故障,也可以取得进展。在客户看来,它也是一个单一的实体,始终提供强大的数据一致性。所有 Raft 副本都可用于处理聚合读取吞吐量的读取请求。
* [spandanb/learndb-py](https://github.com/spandanb/learndb-py) 通过从头开始实现数据库来学习数据库内部结构。
* [dbcli/pgcli](https://github.com/dbcli/pgcli) 具有自动完成和语法突出显示功能的 Postgres CLI
* [tiangolo/sqlmodel](https://github.com/tiangolo/sqlmodel) Python 中的 SQL 数据库,旨在实现简单性、兼容性和稳健性。
* [diesel-rs/diesel](https://github.com/diesel-rs/diesel) 摆脱了数据库交互的样板,并在不牺牲性能的情况下消除了运行时错误。充分利用 Rust 的类型系统来创建一个“感觉像 Rust”的低开销查询构建器。
* [launchbadge/sqlx](https://github.com/launchbadge/sqlx) Rust SQL 工具包。一个异步的纯 Rust SQL crate,具有编译时检查的查询,无需 DSL。支持 PostgreSQL、MySQL、SQLite 和 MSSQL。
* [codenotary/immudb](https://github.com/codenotary/immudb) 基于零信任的不可变数据库,SQL/键值/文档模型,防篡改,数据更改历史。
* [tiangolo/full-stack-fastapi-postgresql](https://github.com/tiangolo/full-stack-fastapi-postgresql) 全栈、现代 Web 应用程序生成器。使用 FastAPI、PostgreSQL 作为数据库、Docker、自动 HTTPS 等。
* [timescale/timescaledb](https://github.com/timescale/timescaledb) 针对快速引入和复杂查询进行了优化的开源时序 SQL 数据库。打包为 PostgreSQL 扩展。
* [osquery/osquery](https://github.com/osquery/osquery) SQL 支持的操作系统检测、监控和分析。
* [PostgREST/postgrest](https://github.com/PostgREST/postgrest) 适用于任何 Postgres 数据库的 REST API
* [minio/minio](https://github.com/minio/minio) 高性能、兼容 S3 的对象存储。它专为大规模 AI/ML、数据湖和数据库工作负载而构建。它是软件定义的,可在任何云或本地基础架构上运行。MinIO 在开源 GNU AGPL v3 和商业企业许可证下获得双重许可。
* [sqlitebrowser/sqlitebrowser](https://github.com/sqlitebrowser/sqlitebrowser) DB浏览器SQLite版
* [xuxueli/xxl-job](https://github.com/xuxueli/xxl-job) 分布式任务调度框架。它的核心设计目标是快速开发并学习简单、轻量级和易于扩展。它已经开源,许多公司在生产环境中使用它,真正的“开箱即用”。
* [tikv/tikv](https://github.com/tikv/tikv) 分布式事务性键值数据库,最初是为了补充 TiDB 而创建的
* [airbytehq/airbyte](https://github.com/airbytehq/airbyte) 用于 ELT 管道的数据集成平台,从 API、数据库和文件到数据库、仓库和湖泊。只有开源的数据移动解决方案才能覆盖数据源的长尾,同时使数据工程师能够自定义现有的连接器。我们的最终愿景是帮助您将数据从任何来源移动到任何目的地。Airbyte 已经为 API、数据库、数仓和数据湖提供了300+ 连接器。
* [apache/dolphinscheduler](https://github.com/apache/dolphinscheduler) 现代数据编排平台。敏捷地使用低代码创建高性能工作流。它还提供了强大的用户界面,专门用于解决数据管道中的复杂任务依赖关系,并提供开箱即用的各种类型的作业。易于部署,提供四种部署方式,包括单机、集群、Docker 和 Kubernetes。简单易用,工作流可以通过四种方式创建和管理,包括 Web UI、Python SDK、Yaml 文件和 Open API。高可靠高可用,多主多工作线程的去中心化架构,原生支持水平扩展。高性能,其性能比其他编排平台快N倍,每天可支持数千万个任务。云原生,DolphinScheduler 支持编排多云/数据中心工作流,支持自定义任务类型。对工作流和工作流实例(包括任务)进行版本控制。工作流和任务的各种状态控制,支持随时暂停/停止/恢复。其他如回填支持(Web UI原生),权限控制,包括项目、资源和数据源。
* [apache/rocketmq](https://github.com/apache/rocketmq) 云原生消息和流式处理平台,可以简化构建事件驱动的应用程序。分布式消息流平台,具有低时延、高性能、高可靠、万亿级容量和灵活扩展性。
* [jaegertracing/jaeger](https://github.com/jaegertracing/jaeger) 受 Dapper 和 OpenZipkin 的启发,是由 Uber Technologies 创建并捐赠给云原生计算基金会的分布式追踪平台。它可用于监控基于微服务的分布式系统:分布式上下文传播、分布式事务监控、根本原因分析、服务依赖分析、性能/延迟优化。
* [alibaba/spring-cloud-alibaba](https://github.com/alibaba/spring-cloud-alibaba) 阿里巴巴中间件的分布式解决方案提供一站式应用开发解决方案。
* [elastic/logstash](https://github.com/elastic/logstash) 传输和处理您的日志、事件或其他数据。是 Elastic Stack 的一部分。Logstash 是一个服务器端数据处理管道,可同时从多个来源提取数据,对其进行转换,然后将其发送到您最喜欢的“存储”。
* [elastic/beats](https://github.com/elastic/beats) 用 Go 编写的轻量级数据传送器,您可以将其安装在服务器上以捕获各种操作数据(例如日志、指标或网络数据包数据)。Beats 将运营数据直接或通过 Logstash 发送到 Elasticsearch,以便使用 Kibana 进行可视化。
* [apache/pulsar](https://github.com/apache/pulsar) 分布式 pub-sub 消息传递平台,具有非常灵活的消息传递模型和直观的客户端 API。特点:水平可扩展(每秒发布数百万个独立主题和数百万条消息)、强大的排序和一致性保证、低延迟持久存储、主题和队列语义、负载均衡器、设计用于部署为托管服务:多租户 认证 授权 配额 支持混合非常不同的工作负载 可选硬件隔离、跟踪消费者光标位置、用于配置管理和统计的 REST API、异地复制、透明地处理分区主题、消息的透明批处理
* [harelba/q](https://github.com/harelba/q) 直接在分隔文件和多文件 sqlite 数据库上运行 SQL。允许以下操作:直接对表格文本数据执行类似 SQL 语句,自动缓存数据以加速对同一文件的其他查询。直接在多文件 sqlite3 数据库上执行 SQL,而无需合并它们或将它们加载到内存中。
* [theanalyst/awesome-distributed-systems](https://github.com/theanalyst/awesome-distributed-systems) 关于分布式系统上令人敬畏的材料的精选列表
* [apache/zeppelin](https://github.com/apache/zeppelin) 基于 Web 的笔记本,支持数据驱动的交互式数据分析以及使用 SQL、Scala 等的协作文档。
* [dtm-labs/dtm](https://github.com/dtm-labs/dtm) 分布式事务框架,支持工作流、saga、tcc、xa、两阶段消息、发件箱模式,支持多种语言。
* [k8sgpt-ai/k8sgpt](https://github.com/k8sgpt-ai/k8sgpt) 用于扫描 Kubernetes 集群、诊断和分类问题的工具,用简单的英语。它将 SRE 经验编入其分析器中,并帮助提取最相关的信息以使用 AI 来丰富它。与 OpenAI、Azure、Bedrock、Google Gemini 和本地模型的开箱即用集成。
* [mongodb/node-mongodb-native](https://github.com/mongodb/node-mongodb-native) 官方的MongoDB Node.js驱动程序
* [xo/usql](https://github.com/xo/usql) PostgreSQL,MySQL,Oracle数据库,SQLite3,Microsoft SQL Server和许多其他数据库(包括NoSQL和非关系数据库)的通用命令行界面
* [yugabyte/yugabyte-db](https://github.com/yugabyte/yugabyte-db) 用于关键任务应用程序的云原生分布式 SQL 数据库。旨在支持所有 PostgreSQL 功能。它最适合云原生 OLTP(即实时、业务关键型)应用程序,这些应用程序需要绝对的数据正确性,并且至少需要以下一项:可伸缩性、对故障的高容忍度或全球分布式部署。核心特点:`强大的 RDBMS 功能` Yugabyte SQL(简称 YSQL)重用了 PostgreSQL 的查询层(类似于 Amazon Aurora PostgreSQL),从而支持其大部分功能(数据类型、查询、表达式、运算符和函数、存储过程、触发器、扩展等)。以下是 YSQL 当前支持的功能的详细列表。`分布式事务` 事务设计基于 Google Spanner 架构。通过使用混合逻辑时钟将 Raft 共识用于复制和集群范围的分布式 ACID 事务,可以实现写入的强一致性。支持快照、可序列化和读取提交隔离级别。默认情况下,读取(查询)具有很强的一致性,但可以动态调整以从关注者和只读副本中读取。`持续可用性` YugabyteDB 通过本机故障转移和修复对常见中断具有极强的弹性。YugabyteDB可以配置为自动容忍磁盘、节点、可用区、区域和云故障。对于在公有云上跨多个区域部署一个区域的典型部署,RPO 为 0(表示故障时不会丢失任何数据),RTO 为 3 秒(表示故障节点提供的数据在 3 秒内可用)。`水平可扩展性` 扩展 YugabyteDB 集群以实现更高的 IOPS 或数据存储就像向集群添加节点一样简单。`地理分布式多云` YugabyteDB 可以部署在公共云中,也可以原生部署在 Kubernetes 中。它支持跨三个或更多容错域的部署,例如多区域、多区域和多云部署。它还支持具有单向主从和双向多主主配置的 xCluster 异步复制,可在双区域部署中利用。若要以低延迟提供(过时)数据,只读副本也是一项受支持的功能。`多 API 设计` YugabyteDB 的查询层构建为可扩展的。目前,YugabyteDB 支持两个分布式 SQL API:Yugabyte SQL (YSQL),一个完全关系的 API,重用 PostgreSQL 的查询层,以及 Yugabyte Cloud QL (YCQL),一个半关系型 SQL,支持 Apache Cassandra QL 根的文档/索引。`100% 开源` YugabyteDB 在 Apache 2.0 许可下是完全开源的。开源版本具有强大的企业功能,例如分布式备份、静态数据加密、动态 TLS 加密、更改数据捕获、只读副本等。
* [mbdavid/LiteDB](https://github.com/mbdavid/LiteDB) 小型、快速和轻量级的 .NET NoSQL 嵌入式数据库。
* [manticoresoftware/manticoresearch](https://github.com/manticoresoftware/manticoresearch) 易于使用的开源快速数据库,用于搜索 |现在是 Elasticsearch 的好替代品 |即将在 ELK 中直接替代 E。它非常快,因此比替代品更具成本效益,例如 Manticore 是:对于小数据,速度比 MySQL 快 182 倍;比 Elasticsearch 快 29 倍的日志分析;对于小型数据集,速度比 Elasticsearch 快 15 倍;中型数据比 Elasticsearch 快 5 倍;比 Elasticsearch 大数据快 4 倍;在单个服务器上提取数据的最大吞吐量比 Elasticsearch 快 2 倍。凭借其现代多线程架构和高效的查询并行化功能,Manticore 能够充分利用您的所有 CPU 内核,以实现尽可能快的响应时间。强大而快速的全文搜索可与小型和大型数据集无缝协作。小型、中型和大型数据集的逐行存储。对于更大的数据集,Manticore 通过 Manticore 列式库提供列式存储支持,能够处理太大而无法放入 RAM 的数据集。系统会自动创建高性能二级索引,从而节省您的时间和精力。基于成本的查询优化器可优化搜索查询以获得最佳性能。Manticore 是 SQL 优先的,利用 SQL 作为其本机语法,并提供与 MySQL 协议的兼容性,允许您使用您喜欢的 MySQL 客户端。借助 PHP、Python、JavaScript、Typescript、Java、Elixir 和 Go 中的客户端,与 Manticore Search 的集成变得容易。Manticore 还提供了一个编程化的 HTTP JSON 协议,用于更通用的数据和模式管理。Manticore Search 内置于 C++ 中,可快速启动并使用最少的 RAM,低级优化有助于其令人印象深刻的性能。通过实时插入,可以立即访问新添加的文档。互动课程可通过互动课程获得,让学习变得轻而易举。Manticore 还拥有内置的复制和负载平衡功能,可提高可靠性。可以轻松地从 MySQL、PostgreSQL、ODBC、xml 和 csv 等来源同步数据。虽然不完全符合 ACID,但 Manticore 仍然支持事务和二进制日志以确保安全写入。使用内置工具和 SQL 命令轻松备份和恢复数据。
* [digoal/blog](https://github.com/digoal/blog) PostgreSQL, Greenplum 学习视频,开源,数据库,商业,思想。
* [flyway/flyway](https://github.com/flyway/flyway) 数据库迁移变得简单。在所有实例中轻松可靠地改进数据库架构。支持的数据库:Aurora MySQL、Aurora PostgreSQL、Azure Synapse、Clickhouse、CockroachDB、DB2、Derby、Firebird、Google BigQuery、Google Cloud Spanner、H2、HSQLDB、Informix、MariaDB、MongoDB、MySQL、Oracle、Percona XtraDB Cluster、PostgreSQL、Redshift、SAP HANA(包括 SAP HANA Cloud)、SingleStoreDB、Snowflake、SQLite、SQL Server、Sybase ASE、TiDB、TimescaleDB、YugabyteDB
* [doctrine/dbal](https://github.com/doctrine/dbal) 基于 PHP 的 Doctrine 数据库抽象层,具有许多用于数据库模式自省和模式管理的功能。提供了一个面向对象的 API 和许多额外的水平功能,如数据库模式内省和操作。
* [twpayne/chezmoi](https://github.com/twpayne/chezmoi) 安全地跨多台不同的机器管理您的点文件。Chezmoi 可帮助您跨多台计算机管理您的个人配置文件(dotfiles,如 ~/.gitconfig )。Chezmoi 提供了许多功能,除了符号链接或使用裸 Git 存储库之外,还包括:模板(用于处理机器之间的微小差异)、密码管理器支持(用于安全地存储您的机密)、从存档导入文件(非常适合 shell 和编辑器插件)、完整文件加密(使用 GPG 或 AGE)和运行脚本(用于处理其他所有事情)。
* [syndtr/goleveldb](https://github.com/syndtr/goleveldb) Go 编程语言实现的 LevelDB 键/值数据库。
* [spacejam/sled](https://github.com/spacejam/sled) 基于rust的嵌入式数据库,特征:类似于 threadsafe BTreeMap 的 API;可序列化 (ACID) 事务,用于对多个密钥空间中的多个密钥进行原子读取和写入;全原子单键操作,包括比较和交换;零拷贝读取;写入批处理;订阅键前缀的更改;多个键空间;合并运算符;对项目范围进行正向和反向迭代器;一个碰撞安全的单调 ID 生成器,每秒能够生成 7千5百万-1.25 亿个唯一 ID;zstd 压缩(使用 compression 构建功能,默认禁用);CPU 可扩展的无锁实现;闪存优化的日志结构化存储;使用现代 B 树技术(如前缀编码和后缀截断)来降低具有共享前缀的长键的存储成本。如果密钥的长度和顺序相同,那么在大多数情况下,系统可以避免存储 99%+ 的密钥数据,本质上就像一个学习索引
* [StarRocks/starrocks](https://github.com/StarRocks/starrocks) Linux 基金会的一个项目,是面向全分析场景的下一代亚秒级 MPP OLAP 数据库,包括多维度分析、实时分析、即席查询等。InfoWorld 的 2023 年 BOSSIE 最佳开源软件奖。旨在使数据密集型实时分析变得快速和简单。它的查询速度比其他流行的解决方案快 5 到 10 倍。StarRocks 在更新历史记录的同时,可以很好地进行实时分析。它还可以轻松地利用来自数据湖的历史数据来增强实时分析。使用 StarRocks,您可以摆脱非规范化的表,获得最佳的性能和灵活性。特征:原生矢量化SQL引擎:StarRocks采用矢量化技术,充分利用CPU的并行算力,在多维分析中实现亚秒级查询返回,比以往系统快5-10倍。标准 SQL:StarRocks 支持 ANSI SQL 语法(完全支持 TPC-H 和 TPC-DS)。它还与MySQL协议兼容。可以使用各种客户端和 BI 软件来访问 StarRocks。 智能查询优化:StarRocks 可以通过 CBO(Cost Based Optimizer,成本优化器)对复杂查询进行优化。有了更好的执行计划,数据分析效率就会大大提高。实时更新:StarRocks 更新后的模型可以根据主键进行更新/删除操作,在并发更新的同时实现高效查询。智能物化视图:StarRocks 的物化视图可在数据导入过程中自动更新,并在执行查询时自动选择。直接查询数据湖中的数据:StarRocks 支持直接访问来自 Apache Hive™、Apache Iceberg™ 和 Apache Hudi™ 的数据,无需导入。资源管理:支持 StarRocks 限制查询资源消耗,实现同一集群租户间资源的隔离和高效利用。易于维护:简单的架构使 StarRocks 易于部署、维护和扩展。StarRocks 敏捷地调整查询计划,在集群扩容或扩容时均衡资源,并在节点故障时自动恢复数据副本。
* [datafuselabs/databend](https://github.com/datafuselabs/databend) 基于 Rust的开源云数据仓库,可作为 Snowflake 的经济高效的替代方案。它专注于快速查询执行和数据摄取,专为对世界上最大的数据集进行复杂分析而设计。云原生:与 AWS S3、Azure Blob、Google Cloud 等集成。高性能:Rust 构建,具有尖端、高速矢量化执行。经济高效:专为可扩展的存储和计算而设计,在提高性能的同时降低成本。AI 驱动的分析:使用 AI 功能实现高级分析。数据简化:简化数据引入,无需外部 ETL。格式灵活性:支持多种数据格式和类型,包括 JSON、CSV、Parquet、GEO 等。ACID 事务:通过原子、一致、隔离和持久的操作确保数据完整性。版本控制:为数据提供类似 Git 的版本控制,允许随时查询、克隆和还原。无模式:VARIANT 数据类型,支持无模式数据存储和灵活的数据建模。灵活索引:虚拟列、聚合索引和全文索引,可加快数据检索速度。社区驱动:加入热情好客的社区,获得用户友好的云分析体验。
* [groue/GRDB.swift](https://github.com/groue/GRDB.swift) SQLite数据库工具包,专注于swift应用程序开发
* [volatiletech/sqlboiler](https://github.com/volatiletech/sqlboiler) 生成针对您的数据库架构量身定制的 Go ORM。
* [vrana/adminer](https://github.com/vrana/adminer) 单个 PHP 文件中的数据库管理
* [apache/seatunnel](https://github.com/apache/seatunnel) 新一代超高性能、分布式、海量数据集成工具,能够每天同步大量数据。它因其效率和稳定性而受到众多公司的信任。SeaTunnel 解决了常见的数据集成挑战:多样化的数据源:与数百个不断发展的数据源无缝集成。复杂同步场景:支持多种同步方式,包括实时同步、CDC同步、全量数据库同步等。资源效率:最大限度地减少计算资源和 JDBC 连接,以实现实时同步。质量和监控:提供数据质量和监控,以防止数据丢失或重复。主要特点:多样化的连接器:支持 100 多个连接器,并不断扩展。批量流集成:易于调整的连接器简化了数据集成管理。分布式快照算法:确保同步数据之间的数据一致性。多引擎支持:适用于 SeaTunnel Zeta 引擎、Flink 和 Spark。JDBC多路复用和日志解析:高效同步多表和数据库。高吞吐低时延:提供低时延的高吞吐量数据同步。实时监控:在同步过程中提供详细的见解。两种作业开发方法:支持使用 SeaTunnel Web 项目进行编码和可视化作业管理。
* [debezium/debezium](https://github.com/debezium/debezium) 各种数据库的更改数据捕获。为变更数据捕获 (CDC) 提供了一个低延迟的数据流平台。您设置并配置 Debezium 以监视您的数据库,然后您的应用程序会为对数据库所做的每个行级更改使用事件。只有提交的更改是可见的,因此应用程序不必担心回滚的事务或更改。Debezium 提供了所有变更事件的单一模型,因此您的应用程序不必担心每种数据库管理系统的复杂性。此外,Debezium 将数据更改的历史记录记录在持久的复制日志中,因此您的应用程序可以随时停止和重新启动,并且它将能够使用它在不运行时错过的所有事件,从而确保所有事件都得到正确和完整的处理。监控数据库并在数据更改时收到通知一直很复杂。关系数据库触发器可能很有用,但特定于每个数据库,并且通常仅限于更新同一数据库中的状态(不与外部进程通信)。一些数据库提供用于监控更改的 API 或框架,但没有标准,因此每个数据库的方法都不同,需要大量知识渊博的专业代码。确保以相同的顺序查看和处理所有更改,同时将对数据库的影响降至最低,这仍然非常具有挑战性。Debezium 提供了为您完成这项工作的模块。有些模块是通用的,可以与多个数据库管理系统配合使用,但在功能和性能方面也受到一些限制。其他模块是为特定的数据库管理系统量身定制的,因此它们通常功能更强大,并且它们利用了系统的特定功能。Debezium 通过重用 Kafka 和 Kafka Connect 来实现其持久性、可靠性和容错质量。部署到 Kafka Connect 分布式、可伸缩、容错服务的每个连接器都监视单个上游数据库服务器,捕获所有更改并将其记录在一个或多个 Kafka 主题(通常每个数据库表一个主题)中。Kafka 确保所有这些数据更改事件都是复制的和完全有序的,并允许许多客户端独立使用这些相同的数据更改事件,而对上游系统的影响很小。此外,客户端可以随时停止消费,当他们重新启动时,他们会从中断的地方恢复。每个客户端都可以确定是要一次性还是至少一次性传递所有数据更改事件,并且每个数据库/表的所有数据更改事件都按照它们在上游数据库中发生的顺序传递。不需要或不需要这种级别的容错、性能、可伸缩性和可靠性的应用程序可以使用 Debezium 的嵌入式连接器引擎直接在应用程序空间内运行连接器。他们仍然希望获得相同的数据更改事件,但更愿意让连接器将它们直接发送到应用程序,而不是将它们保存在 Kafka 中。常见用例:`缓存失效`:一旦条目的记录发生更改或删除,就会自动使缓存中的条目失效。如果缓存在单独的进程(例如 Redis、Memcache、Infinispan 等)中运行,则可以将简单的缓存失效逻辑放入单独的进程或服务中,从而简化主应用程序。在某些情况下,可以使逻辑更复杂一些,并且可以使用更改事件中的更新数据来更新受影响的缓存条目。`简化单片式应用`:许多应用程序会更新数据库,然后在提交更改后执行其他工作:更新搜索索引、更新缓存、发送通知、运行业务逻辑等。这通常称为“双重写入”,因为应用程序正在写入单个事务之外的多个系统。不仅应用程序逻辑复杂且更难维护,而且如果应用程序在提交后但在执行某些/所有其他更新之前崩溃,双重写入还存在丢失数据或使各种系统不一致的风险。使用变更数据捕获,当数据提交到原始数据库中时,可以在单独的线程或单独的进程/服务中执行这些其他活动。这种方法对故障的容忍度更高,不会错过事件,可以更好地扩展,并且更容易支持升级和操作。`共享数据库`:当多个应用程序共享一个数据库时,一个应用程序意识到另一个应用程序提交的更改通常并非易事。一种方法是使用消息总线,尽管非事务性消息总线会遇到上述“双重写入”问题。然而,这在 Debezium 中变得非常简单:每个应用程序都可以监控数据库并对更改做出反应。`数据集成`:数据通常存储在多个位置,尤其是当它用于不同的目的并且形式略有不同时。保持多个系统的同步可能具有挑战性,但可以使用 Debezium 和简单的事件处理逻辑快速实现简单的 ETL 类型的解决方案。`CQRS系列`:命令查询责任分离 (CQRS) 体系结构模式使用一个数据模型进行更新,使用一个或多个其他数据模型进行读取。当更改记录在更新端时,这些更改将被处理并用于更新各种读取表示形式。因此,CQRS 应用程序通常更加复杂,尤其是当它们需要确保可靠和完全有序的处理时。Debezium 和 CDC 可以使这一点更易于理解:写入记录为正常,但 Debezium 将这些更改捕获在持久的、完全有序的流中,这些流由异步更新只读视图的服务使用。写入端表可以表示面向域的实体,或者当 CQRS 与事件溯配对时,写入端表是命令的仅追加事件日志。
* [kysely-org/kysely](https://github.com/kysely-org/kysely) 类型安全且自动完成友好的 TypeScript SQL 查询构建器。灵感来自Knex.js。主要为Node.js开发,但也可以在所有其他 JavaScript 环境(如 Deno、Bun、Cloudflare Workers 和 Web 浏览器)上运行。
* [VictoriaMetrics/VictoriaMetrics](https://github.com/VictoriaMetrics/VictoriaMetrics) 快速、经济高效且可扩展的监控解决方案和时间序列数据库。具有以下突出功能:它可以用作 Prometheus 的长期存储。它可以用作 Grafana 中 Prometheus 的直接替代品,支持 Prometheus 查询 API。它可以用作 Grafana 中 Graphite 的直接替代品,因为它支持 Graphite API,与 Graphite 相比,VictoriaMetrics 可将基础设施成本降低 10 倍以上。它易于设置和操作:VictoriaMetrics 由一个没有外部依赖项的小型可执行文件组成。所有配置都是通过具有合理默认值的显式命令行标志完成的。所有数据都存储在 -storageDataPath 命令行标志指定的单个目录中。可以使用 vmbackup/vmrestore 工具轻松快速地从即时快照进行备份。它实现了类似 PromQL 的查询语言 - MetricsQL,它在 PromQL 之上提供了改进的功能。它提供全局查询视图。多个 Prometheus 实例或任何其他数据源可能会将数据摄取到 VictoriaMetrics 中。稍后,可以通过单个查询查询此数据。它为数据引入和数据查询提供了高性能以及良好的垂直和水平可伸缩性。它的性能比 InfluxDB 和 TimescaleDB 高出 20 倍。在处理数百万个独特的时间序列(又名高基数)时,它使用的 RAM 比 InfluxDB 少 10 倍,比 Prometheus、Thanos 或 Cortex 少 7 倍。它针对具有高流失率的时间序列进行了优化。它提供了高数据压缩率:根据这些基准测试,与TimescaleDB相比,在有限的存储中可以存储多达70倍的数据点,与Prometheus、Thanos或Cortex相比,所需的存储空间减少了7倍。根据这个基准。它针对具有高延迟 IO 和低 IOPS 的存储(AWS、Google Cloud、Microsoft Azure 等中的 HDD 和网络存储)进行了优化。请参阅这些基准测试中的磁盘 IO 图。单节点 VictoriaMetrics 可以替代使用 Thanos、M3DB、Cortex、InfluxDB 或 TimescaleDB 等竞争解决方案构建的中等规模的集群。查看垂直可扩展性基准测试,将 Thanos 与 VictoriaMetrics 集群进行比较,以及 PromCon 2019 上的远程写入存储大战演讲。由于存储架构,它可以保护存储在不干净的关闭(即 OOM、硬件重置或 kill -9 )时免受数据损坏。它支持通过以下协议进行指标抓取、摄取和回填:从 Prometheus 导出器抓取的指标、Prometheus 远程写入 API、Prometheus展览形式、基于 HTTP TCP 和 UDP 的 InfluxDB 线路协议、带有标签的Graphite plaintext协议、Statsd 明文协议、OpenTSDB消息、HTTP OpenTSDB /api/put 请求、JSON 行格式、任意 CSV 数据、本机二进制格式、DataDog 代理或 DogStatsD、NewRelic 基础结构代理、OpenTelemetry 指标格式。它支持强大的流聚合,可以用作 statsd 的替代方案。它支持指标重新标记。它可以通过系列限制器处理高基数问题和高流失率问题。它非常适合处理来自 APM、Kubernetes、物联网传感器、联网汽车、工业遥测、财务数据和各种企业工作负载的大量时间序列数据。它有一个开源集群版本。它可以将数据存储在基于 NFS 的存储上,例如 Amazon EFS 和 Google Filestore。
* [sabledb-io/sabledb](https://github.com/sabledb-io/sabledb) 键值NoSQL数据库, RocksDb 它作为其存储引擎,并与Redis协议兼容。与 Redis 相比,它旨在降低内存成本并增加容量。 SableDb 功能包括通过任何 Redis 客户端进行与 Redis 兼容的访问、高达 64K 的数据库支持、使用事务日志尾随的异步复制和 TLS 连接支持。
* [ploomber/ploomber](https://github.com/ploomber/ploomber) 构建数据管道的最快方法。使用您喜欢的编辑器(Jupyter、VSCode、PyCharm)以交互方式进行开发和部署,而无需更改代码(Kubernetes、Airflow、AWS Batch 和 SLURM)。你有旧版笔记本吗?使用单个命令将它们重构为模块化管道。
* [VertaAI/modeldb](https://github.com/VertaAI/modeldb) 用于机器学习模型版本控制、元数据和实验管理的开源系统。开源系统,用于对机器学习模型(包括其成分代码、数据、配置和环境)进行版本控制,并在整个模型生命周期中跟踪 ML 元数据。
* [lux-org/lux](https://github.com/lux-org/lux) Python 库,通过自动化可视化和数据分析过程来促进快速简便的数据探索。通过简单地在 Jupyter 笔记本中打印出数据帧,Lux 推荐一组可视化效果,突出显示数据集中有趣的趋势和模式。可视化通过交互式小部件显示,使用户能够快速浏览大量可视化并理解其数据。
* [tobymao/sqlglot](https://github.com/tobymao/sqlglot) Python SQL 解析器和转译器,无依赖性的 SQL 解析器、转译器、优化器和引擎。它可用于格式化 SQL 或在 21 种不同的方言之间进行翻译,例如 DuckDB、Presto / Trino、Spark / Databricks、Snowflake 和 BigQuery。它旨在读取各种 SQL 输入,并在目标方言中输出语法和语义正确的 SQL。
* [JSQLParser/JSqlParser](https://github.com/JSQLParser/JSqlParser) JSqlParser 解析 SQL 语句并将其转换为 Java 类的层次结构。生成的层次结构可以使用访客模式进行导航
* [thanos-io/thanos](https://github.com/thanos-io/thanos) 具有长期存储功能的高可用性 Prometheus 设置。CNCF孵化项目。Thanos 是一组组件,可以组合成一个具有无限存储容量的高可用度量系统,可以在现有 Prometheus 部署之上无缝添加。Thanos 利用 Prometheus 2.0 存储格式,以经济高效的方式将历史指标数据存储在任何对象存储中,同时保持快速查询延迟。此外,它还提供跨所有 Prometheus 安装的全局查询视图,并可以动态合并来自 Prometheus HA 对的数据。
* [SeaQL/sea-orm](https://github.com/SeaQL/sea-orm) 关系型 ORM,可帮助您在熟悉动态语言的情况下在 Rust 中构建 Web 服务。
* [fenixsoft/awesome-fenix](https://github.com/fenixsoft/awesome-fenix) 这是一部以“如何构建一套可靠的分布式大型软件系统”为叙事主线的开源文档,是一幅帮助开发人员整理现代软件架构各条分支中繁多知识点的技能地图。文章《什么是“凤凰架构”》详细阐述了这部文档的主旨、目标与名字的来由,文章《如何开始》简述了文档每章讨论的主要话题与内容详略分布,供阅前参考。除文档部分外,笔者同时还建立了若干配套的代码工程,这是针对不同架构、技术方案(如单体架构、微服务、服务网格、无服务架构,等等)的演示程序。它们既是文档中所述知识的实践示例,亦可作为实际项目新创建时的可参考引用的基础代码。
* [apache/beam](https://github.com/apache/beam) 用于批处理和流式处理数据的统一编程模型。Apache Beam 是一个统一的模型,用于定义批处理和流数据并行处理管道,以及一组用于构建管道的特定语言 SDK,以及用于在分布式处理后端(包括 Apache Flink、Apache Spark、Google Cloud Dataflow 和 Hazelcast Jet)上执行管道的 Runner。Beam 提供了一种通用方法来表达令人尴尬的并行数据处理管道,并支持三类用户,每类用户都有相对不同的背景和需求。最终用户:使用现有 SDK 编写管道,并在现有运行器上运行它。这些用户希望专注于编写他们的应用程序逻辑,而让其他一切都正常工作。SDK 编写者:开发针对特定用户社区(Java、Python、Scala、Go、R、图形等)的 Beam SDK。这些用户是语言极客,他们更愿意被屏蔽在各种运行器及其实现的所有细节之外。Runner Writers:具有分布式处理的执行环境,并希望支持针对 Beam 模型编写的程序。希望免受多个 SDK 细节的影响。Beam 背后的模型是从几个 Google 内部数据处理项目演变而来的,包括 MapReduce、FlumeJava 和 Millwheel。该模型最初称为“数据流模型”。要了解有关 Beam 模型的更多信息(尽管仍以 Dataflow 的原始名称命名),请参阅 O'Reilly 雷达网站上的 World Beyond Batch: Streaming 101 和 Streaming 102 帖子,以及 VLDB 2015 论文。eam 编程模型中的关键概念是:PCollection :表示数据的集合,其大小可以是有界的,也可以是无界的。PTransform :表示将输入 PCollections 转换为输出 PCollections 的计算。Pipeline :管理 PTransforms 和 PCollections 的有向无环图,该图已准备好执行。PipelineRunner :指定管道的执行位置和方式。
# 云&虚拟化
* [istio/istio](https://github.com/istio/istio) 开源服务网格,透明地分层到现有的分布式应用程序上。Istio 的强大功能提供了一种统一且更高效的方式来保护、连接和监控服务。Istio 是负载均衡、服务到服务身份验证和监控的途径,只需很少或无需更改服务代码。
* [apolloconfig/apollo](https://github.com/apolloconfig/apollo) 可靠的配置管理系统,适用于微服务配置管理场景。
* [jesseduffield/lazydocker](https://github.com/jesseduffield/lazydocker) docker 简单终端 UI
* [KubeOperator/KubeOperator](https://github.com/KubeOperator/KubeOperator) KubeOperator
* [rancher/k3s](https://github.com/rancher/k3s) Lightweight Kubernetes. 5 less than k8s. [k3s.io](https://k3s.io)
* [kubernetes/minikube](https://github.com/kubernetes/minikube) 在 macOS、Linux 和 Windows 上实现了本地 Kubernetes 集群。minikube 的主要目标是成为本地 Kubernetes 应用程序开发的最佳工具,并支持所有适合的 Kubernetes 功能。
* [rootsongjc/kubernetes-handbook](https://github.com/rootsongjc/kubernetes-handbook) Kubernetes中文指南/云原生应用架构实战手册。Kubernetes 是 Google 于 2014 年 6 月基于其内部使用的 Borg 系统开源出来的容器编排调度引擎,Google 将其作为初始和核心项目贡献给 CNCF(云原生计算基金会),近年来逐渐发展出了云原生生态。Kubernetes 的目标不仅仅是一个编排系统,而是提供一个规范用以描述集群的架构,定义服务的最终状态,使系统自动地达到和维持该状态。Kubernetes 作为云原生应用的基石,相当于一个云原生操作系统,其重要性不言而喻。云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括 容器、服务网格、微服务、不可变基础设施 和 声明式 API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。——CNCF(云原生计算基金会)。Kubernetes Handbook 项目始于 2016 年底,开源于 2017 年 3 月,作为第一本系统介绍 Kubernetes 的中文电子书,其后经过不断完善。写作本书的过程中,笔者记录了从零开始学习和使用 Kubernetes 的历程,着重于经验总结和资料分享,亦有 Kubernetes 核心概念解析,希望能够帮助大家少走弯路,为大家介绍 Kubernetes 周边生态,如微服务、DevOps、大数据应用、服务网格、云原生应用、Serverless 等领域。
* [docker-slim/docker-slim](https://github.com/docker-slim/docker-slim) 请勿更改Docker容器映像中的任何内容并将其最小化30倍
* [kubernetes-sigs/kustomize](https://github.com/kubernetes-sigs/kustomize) kustomize 允许您自定义原始的、无模板的 YAML 文件以用于多种用途,使原始 YAML 保持不变并按原样使用。kustomize 以 Kubernetes 为目标;它理解并可以修补 kubernetes 样式的 API 对象。这就像 make ,因为它所做的是在文件中声明的,就像 sed 一样,因为它发出编辑过的文本。
* [silenceshell/docker_mirror](https://github.com/silenceshell/docker_mirror) 发现国内加速的docker源。
* [AliyunContainerService/GPUshare-scheduler-extender](https://github.com/AliyunContainerService/GPUshare-scheduler-extender) GPU共享调度程序扩展器
* [yeasy/docker_practice](https://github.com/yeasy/docker_practice) 真正的DevOps实践,学习和理解Docker&Container技术
* [kubescape/kubescape](https://github.com/kubescape/kubescape) 开源的 Kubernetes 安全平台,适用于 IDE、CI/CD 管道和集群。它包括风险分析、安全性、合规性和错误配置扫描,为 Kubernetes 用户和管理员节省宝贵的时间、精力和资源。包括漏洞和错误配置扫描。您可以通过 CLI 运行扫描,或添加 Kubescape Helm 图表,该图表可以深入了解集群中正在发生的事情。Kubescape 包括错误配置和漏洞扫描,以及风险分析和安全合规指标。所有结果都显示在上下文中,用户会根据扫描结果获得许多有关操作的提示。它面向 DevSecOps 从业者或平台工程师,提供易于使用的 CLI 界面、灵活的输出格式和自动扫描功能。
* [containerd/containerd](https://github.com/containerd/containerd) containerd 是行业标准的容器运行时,强调简单性、健壮性和可移植性。它可作为 Linux 和 Windows 的守护进程使用,可以管理其主机系统的完整容器生命周期:镜像传输和存储、容器执行和监督、低级存储和网络连接等。containerd 的运行时要求非常低。与 Linux 和 Windows 容器功能集的大多数交互都是通过 runc 和/或特定于操作系统的库(例如 Microsoft 的 hcsshim)处理的。RUNC.md 中介绍了当前所需的版本 runc 。containerd 核心代码和快照器使用的一些特定功能需要 Linux 上的最低内核版本。根据发行版内核版本控制的理解警告,Linux 的合理起点是最低 4.x 内核版本。默认情况下使用的覆盖文件系统快照器使用在 4.x 内核系列中完成的功能。如果您选择使用 btrfs,内核版本可能会有更大的灵活性(建议的最低版本为 3.18),但需要在您的 Linux 发行版上安装 btrfs 内核模块和 btrfs 工具。要使用 Linux 检查点和还原功能,您需要 criu 在系统上安装。有关详细信息,请参阅检查点和还原。
* [harness/drone](https://github.com/harness/drone) 基于集装箱技术的持续交付系统。Drone 使用一个简单的 YAML 构建文件来定义和执行 Docker 容器内的构建管道。
* [portainer/portainer](https://github.com/portainer/portainer) 让 Docker 和 Kubernetes 管理变得简单。
* [kubesphere/kubesphere](https://github.com/kubesphere/kubesphere) 专为 Kubernetes 多云、数据中心和边缘管理⎈ desktop_computer cloud 量身定制的容器平台
* [hashicorp/consul](https://github.com/hashicorp/consul) 分布式、高度可用且具有数据中心感知能力的解决方案,用于跨动态分布式基础架构连接和配置应用程序。
* [foxlet/macOS-Simple-KVM](https://github.com/foxlet/macOS-Simple-KVM) 用于在 QEMU 中设置快速 macOS VM 的工具,由 KVM 加速。
* [utmapp/UTM](https://github.com/utmapp/UTM) 适用于 iOS 和 macOS 的虚拟机
* [kholia/OSX-KVM](https://github.com/kholia/OSX-KVM) 在 QEMU/KVM 上运行 macOS。现在有了OpenCore + Big Sur + Monterey + Ventura的支持
* [ima-vm/lima](https://github.com/lima-vm/lima) 在 macOS 上运行Linux 虚拟机容器
* [sickcodes/Docker-OSX](https://github.com/sickcodes/Docker-OSX) 在 Docker 中运行 macOS VM!在 Docker 中运行在本机 OSX-KVM 附近!X11 转发!用于 OS X 安全研究的 CI/CD
* [rancher/rancher](https://github.com/rancher/rancher) 完整的容器管理平台。开源容器管理平台,专为在生产中部署容器的组织而构建。Rancher 使在任何地方运行 Kubernetes 变得容易,满足 IT 要求,并为 DevOps 团队提供支持。
* [opentofu/opentofu](https://github.com/opentofu/opentofu) 允许您以声明方式管理您的云基础架构。一个 OSS 工具,用于安全高效地构建、更改和版本控制基础设施。OpenTofu可以管理现有和流行的服务提供商以及定制的内部解决方案。
* [lensapp/lens](https://github.com/lensapp/lens) 世界运行 Kubernetes 的方式,核心是一个库,由 Electron 和 React 提供支持。与通用的 Electron + React 框架/样板不同,它非常固执己见地创建类似 Lens Desktop 的应用程序,并支持 Lens Extensions。
* [argoproj/argo-cd](https://github.com/argoproj/argo-cd) Kubernetes 的声明式持续部署
* [kubeshark/kubeshark](https://github.com/kubeshark/kubeshark) Kubernetes 的 API 流量分析器提供实时 K8s 协议级可见性,捕获和监控进出容器、Pod、节点和集群的所有流量和有效负载。受 Wireshark 的启发,专为 Kubernetes 构建
* [moby/moby](https://github.com/moby/moby) 容器生态系统的一个协作项目,用于组装基于容器的系统, Docker 创建的开源项目,用于启用和加速软件容器化。
* [containrrr/watchtower](https://github.com/containrrr/watchtower) 自动执行 Docker 容器基础映像更新的过程。
* [docker/awesome-compose](https://github.com/docker/awesome-compose) 这些示例提供了如何使用 Compose 文件集成不同服务以及使用 Docker Compose 管理其部署的起点。
* [wagoodman/dive](https://github.com/wagoodman/dive) 用于浏览 docker 映像中每个层的工具
* [louislam/dockge](https://github.com/louislam/dockge) 花哨易用且灵敏的自托管 docker compose面向堆栈的管理器
* [bcicen/ctop](https://github.com/bcicen/ctop) 容器运行情况监控界面
* [hadolint/hadolint](https://github.com/hadolint/hadolint) 更智能的 Dockerfile linter,可帮助您构建最佳实践 Docker 映像。linter 将 Dockerfile 解析为 AST,并在 AST 之上执行规则。它站在 ShellCheck 的肩膀上,在指令中 `RUN` 对 Bash 代码进行 lint 检查。
* [docker/compose](https://github.com/docker/compose) 使用 Docker 定义和运行多容器应用程序。撰写文件用于定义如何配置组成应用程序的一个或多个容器。拥有撰写文件后,可以使用单个命令创建和启动应用程序: docker compose up 。
* [earthly/earthly](https://github.com/earthly/earthly) 超级简单的构建框架,具有快速、可重复的构建和即时熟悉的语法——就像 Dockerfile 和 Makefile 生了一个孩子一样。
* [veggiemonk/awesome-docker](https://github.com/veggiemonk/awesome-docker) Docker 资源和项目的精选列表
* [bottlerocket-os/bottlerocket](https://github.com/bottlerocket-os/bottlerocket) 专为托管容器而设计的操作系统,基于 Linux 的免费开源操作系统,用于托管容器。专注于安全性和可维护性,为基于容器的工作负载提供可靠、一致和安全的平台。
* [linuxkit/linuxkit](https://github.com/linuxkit/linuxkit) 用于为容器构建安全、可移植和精益操作系统的工具包。一个用于构建自定义最小、不可变的 Linux 发行版的工具包。
* [argoproj/argo-workflows](https://github.com/argoproj/argo-workflows) 开源容器原生工作流引擎,用于在 Kubernetes 上编排并行作业。Argo Workflows是作为Kubernetes CRD(自定义资源定义)实现的。
* [derailed/k9s](https://github.com/derailed/k9s) Kubernetes CLI 以时尚的方式管理您的集群
* [eip-work/kuboard-press](https://github.com/eip-work/kuboard-press) 基于 Kubernetes 的微服务管理界面。同时提供 Kubernetes 免费中文教程,入门教程,最新版本的 Kubernetes v1.23.4 安装手册,(k8s install) 在线答疑,持续更新。
* [qemu/qemu](https://github.com/qemu/qemu) QEMU是一个通用的开源机器和用户空间模拟器和虚拟器。QEMU 能够在软件中模拟完整的机器,而无需硬件虚拟化支持。通过使用动态平移,它实现了非常好的性能。QEMU 还可以与 Xen 和 KVM 虚拟机管理程序集成,以提供模拟硬件,同时允许虚拟机管理程序管理 CPU。借助虚拟机管理程序支持,QEMU 可以实现接近本机的 CPU 性能。当QEMU直接模拟CPU时,它能够在另一台机器(例如x86_64 PC板)上运行为一台机器(例如ARMv7板)制作的操作系统。
* [kubernetes-sigs/kubespray](https://github.com/kubernetes-sigs/kubespray) 部署生产就绪的 Kubernetes 集群
* [ramitsurana/awesome-kubernetes](https://github.com/ramitsurana/awesome-kubernetes) 精选的 Kubernetes 源代码列表
* [spacedriveapp/spacedrive](https://github.com/spacedriveapp/spacedrive) 开源的跨平台文件浏览器,由用 Rust 编写的虚拟分布式文件系统提供支持。
* [firecracker-microvm/firecracker](https://github.com/firecracker-microvm/firecracker) 实现容器和函数工作负载的安全、多租户、最小开销的执行。一种开源虚拟化技术,专为创建和管理安全的多租户容器和基于函数的服务而构建,这些服务提供无服务器操作模型。Firecracker 在称为 microVM 的轻量级虚拟机中运行工作负载,这些虚拟机将硬件虚拟化技术提供的安全性和隔离属性与容器的速度和灵活性相结合。
* [fission/fission](https://github.com/fission/fission) 适用于 Kubernetes 的快速简单的无服务器函数
* [fnproject/fn](https://github.com/fnproject/fn) 容器原生、与云无关的无服务器平台。
* [kelseyhightower/kubernetes-the-hard-way](https://github.com/kelseyhightower/kubernetes-the-hard-way) 在 Google Cloud Platform 上艰难地引导 Kubernetes。没有脚本。
* [labring/sealos](https://github.com/labring/sealos) 生产就绪的 K8s 发行版,为公有云和私有云提供一站式解决方案。
* [cert-manager/cert-manager](https://github.com/cert-manager/cert-manager) cert-manager 将证书和证书颁发者添加为 Kubernetes 集群中的资源类型,并简化了获取、续订和使用这些证书的过程。它支持从各种来源颁发证书,包括 Let's Encrypt (ACME)、HashiCorp Vault 和 Venafi TPP/TLS Protect Cloud,以及本地集群内颁发。cert-manager 还确保证书保持有效和最新,尝试在到期前的适当时间续订证书,以降低中断风险并消除工作。
* [abiosoft/colima](https://github.com/abiosoft/colima) macOS(和 Linux)上的容器运行时,只需最少的设置
* [alibaba/Sentinel](https://github.com/alibaba/Sentinel) 强大的流量控制组件,支持微服务的可靠性、弹性和监控。(面向云原生微服务的高可用流控防护组件)
* [alibaba/nacos](https://github.com/alibaba/nacos) 一个易于使用的动态服务发现、配置和服务管理平台,用于构建云原生应用程序。
* [go-kit/kit](https://github.com/go-kit/kit) 编程工具包,用于在 Go 中构建微服务(或优雅的单体)。我们解决分布式系统和应用程序架构中的常见问题,因此您可以专注于交付业务价值。
* [dapr/dapr](https://github.com/dapr/dapr) 可移植的、事件驱动的运行时,用于跨云和边缘构建分布式应用程序。
* [google/gvisor](https://github.com/google/gvisor) 用 Go 编写的应用程序内核,它实现了 Linux 系统表面的很大一部分。它包括一个名为 Open Container Initiative (OCI) 的运行时 `runsc` ,该运行时在应用程序和主机内核之间提供隔离边界。 `runsc` 运行时与 Docker 和 Kubernetes 集成,使运行沙盒容器变得简单。
* [hashicorp/nomad](https://github.com/hashicorp/nomad) 易于使用、灵活且高性能的工作负载编排器,可以部署微服务、批处理、容器化和非容器化应用程序的组合。Nomad 易于操作和扩展,并具有原生 Consul 和 Vault 集成
* [aws/aws-cdk](https://github.com/aws/aws-cdk) 用于在代码中定义云基础设施的框架。提供了高级的面向对象的抽象,以使用现代编程语言的强大功能来强制定义 AWS 资源。使用 CDK 的基础设施构造库,可以将 AWS 最佳实践封装到基础设施定义中并共享,而无需担心样板逻辑。
* [gitpod-io/gitpod](https://github.com/gitpod-io/gitpod) 开源 Kubernetes 应用程序,适用于可直接编写代码的云开发环境,可在几秒钟内在云中为每个任务启动全新的自动化开发环境。它使您能够将开发环境描述为代码,并直接从浏览器或桌面 IDE 启动即时、远程和云开发环境。
* [infracost/infracost](https://github.com/infracost/infracost) 显示 Terraform 的云成本估算。它允许工程师在进行更改之前查看成本明细并了解成本,无论是在终端、VS Code 还是拉取请求中。
* [firebase/functions-samples](https://github.com/firebase/functions-samples) 示例应用集合,展示了使用 Cloud Functions for Firebase 的热门用例。Cloud Functions 是一个托管、私有且可扩展的 Node.js 环境,可在其中运行 JS 或 Py 代码。Cloud Functions for Firebase 集成了 Firebase 平台,让您能够编写代码来响应事件并调用其他 Firebase 功能公开的功能。
* [google/go-cloud](https://github.com/google/go-cloud) Go 云开发工具包 (Go CDK) 允许 Go 应用程序开发人员在云提供商的任意组合上无缝部署云应用程序。它通过为存储和数据库等常见用途提供稳定、惯用的接口来实现这一点。
* [dotnet/orleans](https://github.com/dotnet/orleans) 跨平台框架,用于构建可靠、可扩展的分布式应用程序。以 .NET 的开发人员生产力为基础,并将其引入分布式应用程序(如云服务)的世界。Orleans 从单个本地服务器扩展到云中全球分布的高可用性应用程序。
* [helm/helm](https://github.com/helm/helm) 用于管理Kubernetes的工具。预配置的 Kubernetes 资源包。
* [apache/openwhisk](https://github.com/apache/openwhisk) 用于构建云应用程序的无服务器函数平台。OpenWhisk 提供了一个丰富的编程模型,用于从函数创建无服务器 API、将函数组合到无服务器工作流中,以及使用规则和触发器将事件连接到函数。OpenWhisk 也可以安装在 Kubernetes 集群上。您可以使用从公有云提供商(例如 AKS、EKS、IKS、GKE)预配的托管 Kubernetes 集群,也可以使用您自己管理的集群。此外,对于本地开发,OpenWhisk 与 Minikube 和 Kubernetes for Mac 兼容,使用 Docker 18.06(或更高版本)中内置的支持。
* [conductor-oss/conductor](https://github.com/conductor-oss/conductor) Conductor 是一个事件驱动的编排平台,Netflix 最初创建的一个平台,用于编排微服务和事件。Conductor OSS 由 Orkes 的开发团队以及开源社区的成员共同维护。用于商业和非商业用途的 Apache-2.0 许可证。自由部署、修改和回馈。通过完全抽象的后端,您可以选择自己的数据库持久层和排队服务。企业就绪的、基于Java Spring的平台,已经在Netflix和其他地方的生产系统中进行了实战测试。强大的流控制结构,包括决策、动态分叉连接和子工作流。支持变量和模板。多种语言的客户端库允许使用 Java、Node JS、Python 和 C# 实现 worker。适用于编排器和工作线程的分布式架构,可从单个工作流扩展到数百万个并发流程。Conductor 允许您使用简单而精细的任务来构建复杂的应用程序,这些任务不需要了解或跟踪应用程序执行流的状态。Conductor 跟踪状态,按正确的顺序(按顺序或并行,由您定义)调用任务,根据需要重试调用,优雅地处理故障场景,并输出最终结果。利用 Conductor 中的工作流,开发人员能够真正专注于他们的核心任务 - 使用他们选择的语言构建他们的应用程序代码。Conductor 承担了与确保其工作流程的高可靠性、事务一致性和长期耐用性相关的繁重工作。简单地说,无论您的应用程序组件位于何处,也无论它们使用哪种语言编写,您都可以在 Conductor 中构建一个工作流,以可靠且可扩展的方式编排它们的执行。
* [akuity/awesome-argo](https://github.com/akuity/awesome-argo) Argo 由一组用于在 Kubernetes 上部署和运行应用程序和工作负载的开源工具组成,包括:Argo 工作流:支持 DAG 和基于步骤的工作流的 Kubernetes 原生工作流引擎。Argo CD:具有完整加载 UI 的声明式持续交付。Argo Rollouts:Canary 和 Blue-Green 等高级 Kubernetes 部署策略变得简单。Argo Events:Kubernetes 基于事件的依赖项管理。项目包括:生态系统项目、书、博客文章、视频认证、社区等。
* [distribution/distribution](https://github.com/distribution/distribution) 用于打包、运输、存储和交付内容的工具集。该存储库的主要产品是开源注册表实施,用于使用 OCI 分发规范存储和分发容器映像和其他内容。此项目的目标是为构建大规模注册表解决方案或运行简单的专用注册表提供简单、安全且可扩展的基础。它是许多注册管理运行机构的核心库,包括 Docker Hub、GitHub Container Registry、GitLab Container Registry 和 DigitalOcean Container Registry,以及 CNCF Harbor Project 和 VMware Harbor Registry。
* [uber/cadence](https://github.com/uber/cadence) 分布式、可扩展、持久且高度可用的编排引擎,用于以可扩展和弹性的方式执行异步长时间运行的业务逻辑。开源的无故障状态代码平台和工作流引擎,专为解决与第三方 API、内部服务和长期运行的业务流程进行复杂交互的挑战。Cadence 为使用需要容错的基于微服务的架构以及包含无数多步骤并发工作流或与多个第三方 API 交互的应用程序的开发团队提供了很多价值。Cadence 将应用程序的整个状态保存在与任何特定进程无关的持久虚拟内存中。存储的应用程序状态包括用户定义活动的所有调用参数和返回结果。然后,它使用该信息来赶上并重播被中断的工作流。
* [amethyst/specs](https://github.com/amethyst/specs) Specs 是一个用 Rust 编写的实体组件系统。与大多数其他 ECS 库不同,它提供轻松并行:高灵活性、包含 5 种不同的组件存储,用户可以对其进行扩展;它的类型大多不是耦合的,所以你可以很容易地自己编写一些部分,并且仍然使用规范;System 可以读取和写入组件和资源,可以相互依赖,并且可以使用屏障来强制系统执行的几个阶段;适用于实际应用的高性能。
* [containers/youki](https://github.com/containers/youki) 用 Rust 编写的容器运行时,youki 是 Rust 中 OCI 运行时规范的实现,类似于 runc。Youki 有可能比 runc 更快、使用更少的内存,因此可以在内存使用要求严格的环境中工作。
* [lucavallin/barco](https://github.com/lucavallin/barco) barco 是旨在根据互联网上的其他指南更多地了解 Linux 容器和 Linux 内核。Linux 容器由一组 Linux 内核功能组成:命名空间,用于将内核对象分组到不同的集合中,这些集合可以由特定的进程树访问,命名空间有多种类型,例如,PID命名空间用于隔离进程树,而网络命名空间用于隔离网络堆栈。seccomp,用于限制进程可以进行的系统调用(通过 syscalls 处理)。功能:用于对 uid 0 (root) 可以执行的操作设置限制(通过 syscalls 处理)。cgroups:用于限制进程可以使用的资源(例如内存、磁盘 I/O、CPU-tme)(通过 cgroupfs 处理)。
* [budtmo/docker-android](https://github.com/budtmo/docker-android) Android 的 Docker 解决方案 ,支持 noVNC 和视频录制。Docker-Android 是一个 docker 镜像,用于与 Android 相关的所有内容。它可用于应用程序开发和测试(本机、Web 和混合应用程序)。使用此项目的优势:具有不同设备配置文件和皮肤的模拟器,例如三星Galaxy S6,LG Nexus 4,HTC Nexus One等。支持 vnc 能够看到 docker 容器内部发生了什么。支持日志共享功能,所有日志都可以从web-UI访问。能够使用 adb connect 从容器外部控制模拟器。与其他云解决方案集成,例如Genymotion云。它可以用来构建Android项目。它可用于使用不同的测试框架运行单元和 UI-Test,例如 Appium、Espresso 等。
# 安全与渗透
## 扫描器、资产收集、子域名
* [nmap/nmap](https://github.com/nmap/nmap) 网络映射器,网络端口扫描器。
* [zyylhn/zscan](https://github.com/zyylhn/zscan) 开源的内网端口扫描器、爆破工具和其他实用工具的集合体可以称为工具包。以主机和内网网段发现和端口扫描为基础,可以对mysql、mssql、redis、mongo、postgres、ftp、ssh、ldap、rdp、smb等服务进行爆破,还有其他netbios、smb、oxid、socks server(扫描内网中的代理服务器)、snmp、ms17010等扫描功能,支持poc(xray v1格式)单个和批量检测。
* [rverton/webanalyze](https://github.com/rverton/webanalyze) Wappalyzer 的端口(揭示网站上使用的技术)以自动进行大规模扫描。
* [a1phaboy/FastjsonScan](https://github.com/a1phaboy/FastjsonScan) Fastjson扫描器,可识别版本、依赖库、autoType状态等。
* [inbug-team/SweetBabyScan](https://github.com/inbug-team/SweetBabyScan) 支持弱口令爆破的内网资产探测漏洞扫描工具,集成了Xray与Nuclei的Poc
* [b0bac/ApolloScanner](https://github.com/b0bac/ApolloScanner) 自动化巡航扫描框架(可用于红队打点评估).资产收集 github敏感信息收集 破解(基于exp的暴力破解) 漏洞扫描模块
* [Adminisme/ServerScan](https://github.com/Adminisme/ServerScan) 使用Golang开发的高并发网络扫描、服务探测工具。
* [i11us0ry/goon](https://github.com/i11us0ry/goon) 集合了fscan和kscan等优秀工具功能的扫描爆破工具。功能包含:ip探活、port扫描、web指纹扫描、title扫描、压缩文件扫描、fofa获取、ms17010、mssql、mysql、postgres、redis、ssh、smb、rdp、telnet、tomcat等爆破以及如netbios探测等功能。
* [jwt1399/Sec-Tools](https://github.com/jwt1399/Sec-Tools) 基于Python-Django的多功能Web安全渗透测试工具,包含漏洞扫描,端口扫描,指纹识别,目录扫描,旁站扫描,域名扫描等功能。
* [lcvvvv/kscan](https://github.com/lcvvvv/kscan) 纯go的全方位扫描器,具备端口扫描、协议检测、指纹识别,暴力破解等功能。支持协议1200+,协议指纹1w+,应用指纹2w+,暴力破解协议10余种。
* [kelvinBen/AppInfoScanner](https://github.com/cqkenuo/appinfoscanner) 一款适用于以HW行动/红队/渗透测试团队为场景的移动端(Android、iOS、WEB、H5、静态网站)信息收集扫描工具,可以帮助渗透测试工程师、攻击队成员、红队成员快速收集到移动端或者静态WEB站点中关键的资产信息并提供基本的信息输出,如:Title、Domain、CDN、指纹信息、状态信息等。
* [airson/Yasso](https://github.com/sairson/Yasso) 强大的内网渗透辅助工具集-让Yasso像风一样 支持rdp,ssh,redis,postgres,mongodb,mssql,mysql,winrm等服务爆破,快速的端口扫描,强大的web指纹识别,各种内置服务的一键利用(包括ssh完全交互式登陆,mssql提权,redis一键利用,mysql数据库查询,winrm横向利用,多种服务利用支持socks5代理执行)
* [fullhunt/log4j-scan](https://github.com/fullhunt/log4j-scan) 用于查找 log4j RCE CVE-2021-44228 的的扫描程序
* [H4ckForJob/dirmap](https://github.com/H4ckForJob/dirmap) 一个高级web目录、文件扫描工具,功能将会强于DirBuster、Dirsearch、cansina、御剑。
* [chaitin/xray](https://github.com/chaitin/xray) 完善的安全评估工具,支持常见 web 安全问题扫描和自定义 poc
* [wgpsec/DBJ](https://github.com/wgpsec/DBJ) 大宝剑-边界资产梳理工具(红队、蓝队、企业组织架构、子域名、Web资产梳理、Web指纹识别、ICON_Hash资产匹配
* [sullo/nikto](https://github.com/sullo/nikto) 网络服务器扫描仪
* [zhzyker/vulmap](https://github.com/zhzyker/vulmap/) web 漏洞扫描和验证工具, 可对 webapps 进行漏洞扫描, 并且具备漏洞验证功能
* [Lissy93/web-check](https://github.com/Lissy93/web-check) 用于分析任何网站的多合一 OSINT 工具
* [jivoi/awesome-osint](https://github.com/jivoi/awesome-osint) 一个令人敬畏的开源智能工具和资源的精选列表。开源情报 (OSINT) 是从公开来源收集的情报。在情报界 (IC) 中,“公开”一词是指公开的、公开的来源(而不是隐蔽或秘密的来源)。此列表旨在帮助所有从事网络威胁情报 (CTI)、威胁搜寻或 OSINT 的人。从初学者到高级。目录:一般搜索、主要国家搜索引擎、元搜索、专业搜索引擎、可视化搜索和聚类搜索引擎、类似网站搜索、文档和幻灯片搜索、文件搜索、Pastebins、代码搜索、主要社交网络、实时搜索、社交媒体搜索和通用社交媒体工具、社交媒体工具、Twitter、脸书、Instagram、Pinterest、Reddit 、VKontakte、Tumblr、LinkedIn、Telegram、博客搜索、论坛和讨论区搜索、用户名检查、人员调查、电子邮件搜索/电子邮件检查、电话号码研究、车辆/汽车研究、专家搜索、公司研究、求职资源、问答网站、领域和知识产权研究、关键词发现和研究、网络历史记录和网站捕获、语言工具、图像搜索、图像分析、视频搜索和其他视频工具、学术资源和灰色文献、地理空间研究和制图工具、新闻、新闻摘要和发现工具、事实核查、数据与统计、网络监控、浏览器、线浏览、VPN服务、信息图表和数据可视化、社交网络分析、隐私和加密工具、DNS、其他工具、威胁情报、OSINT 视频、OSINT 博客、其他资源、相关精彩列表
* [maurosoria/dirsearch](https://github.com/maurosoria/dirsearch) 暴力破解网络服务器的目录和文件,网络路径扫描器
* [wpscanteam/wpscan](https://github.com/wpscanteam/wpscan) WordPress 安全扫描器。为安全专家和博客维护者编写,用于测试其 WordPress 网站的安全性。
* [projectdiscovery/nuclei](https://github.com/projectdiscovery/nuclei) 基于简单 YAML 的 DSL 的快速且可定制的漏洞扫描器
* [foryujian/yjdirscan](https://github.com/foryujian/yjdirscan) 御剑目录扫描专业版,简单实用的命令行网站目录扫描工具,支持爬虫、fuzz、自定义字典、字典变量、UA修改、假404过滤、扫描控速等功能。
* [robertdavidgraham/masscan](https://github.com/robertdavidgraham/masscan) TCP 端口扫描器,异步发送 SYN 数据包,在 5 分钟内扫描整个互联网,从单台机器每秒传输 1000 万个数据包。
* [78778443/QingScan](https://github.com/78778443/QingScan) 漏洞扫描器粘合剂,添加目标后30款工具自动调用;支持 web、系统、目录、主机扫描、子域名收集、主机发现、组件识别、URL爬虫、XRAY扫描、AWVS自动扫描、POC批量验证,SSH批量测试、vulmap。
* [test502git/awvs14-scan ](https://github.com/test502git/awvs14-scan)针对 Acunetix AWVS扫描器开发的批量扫描脚本,支持log4j漏洞、SpringShell、SQL注入、XSS、弱口令等专项,支持联动xray、burp、w13scan等被动批量
* [We5ter/Scanners-Box](https://github.com/We5ter/Scanners-Box) 安全行业从业者自研开源扫描器合辑
* [projectdiscovery/naabu](https://github.com/projectdiscovery/naabu) 用 go 编写的快速端口扫描器,专注于可靠性和简单性。旨在与其他工具结合使用,以在错误赏金和渗透测试中发现攻击面
* [projectdiscovery/nuclei](https://github.com/projectdiscovery/nuclei) 基于简单 YAML 的 DSL 的快速且可定制的漏洞扫描器。
* [AlphabugX/httpscan](https://github.com/AlphabugX/httpscan) 用于C段http资产快速扫描,目前只支持80端口。(多线程)
* [SiJiDo/H](https://github.com/SiJiDo/H) 一款强大的资产收集管理平台 主要用于src信息收集和红蓝对抗资产收集用,采用python celery分布式实现多节点部署,提高效率
* [EdgeSecurityTeam/Ehole](https://github.com/EdgeSecurityTeam/Ehole) 对资产中重点系统指纹识别的工具,在红队作战中,信息收集是必不可少的环节,如何才能从大量的资产中提取有用的系统(如OA、VPN、Weblogic...)。EHole旨在帮助红队人员在信息收集期间能够快速从C段、大量杂乱的资产中精准定位到易被攻击的系统,从而实施进一步攻击。
* [knownsec/Kunyu](https://github.com/knownsec/Kunyu) 让企业资产收集更高效,使更多安全相关从业者了解、使用网络空间测绘技术。
* [OWASP/Amass](https://github.com/OWASP/Amass) 使用开源信息收集和主动侦察技术执行攻击面的网络和资产发现。
* [hakluke/hakrawler](https://github.com/hakluke/hakrawler) 简单快速的网络爬虫,发现网络应用程序中的端点和资产
* [0x727/ShuiZe_0x727](https://github.com/0x727/ShuiZe_0x727) 水泽-信息收集自动化工具 只需要输入根域名即可全方位收集相关资产,并检测漏洞。
* [punk-security/dnsReaper](https://github.com/punk-security/dnsReaper) 子域接管工具,每秒扫描大约 50 个子域,使用超过 50 个接管签名测试每个子域。在10 秒内扫描其整个 DNS 资产。
* [zhzyker/dismap](https://github.com/zhzyker/dismap) 快速识别 Web 指纹信息,定位资产类型。辅助红队快速定位目标资产信息,辅助蓝队发现疑似脆弱点
* [s7ckTeam/Glass](https://github.com/s7ckTeam/Glass) 针对资产列表的快速指纹识别工具,通过调用Fofa ZoomEye Shodan 360等api接口快速查询资产信息并识别重点资产的指纹,也可针对IP/IP段或资产列表进行快速的指纹识别。
* [wappalyzer/wappalyzer](https://github.com/wappalyzer/wappalyzer) 识别网站上的技术。例如 CMS、Web 框架、电子商务平台、JavaScript 库、分析工具等。
* [0x727/ObserverWard](https://github.com/0x727/ObserverWard) 命令行Web指纹识别工具
* [urbanadventurer/WhatWeb](https://github.com/urbanadventurer/WhatWeb) 识别网站,包括内容管理系统 (CMS)、博客平台、统计/分析包、JavaScript 库、网络服务器和嵌入式设备。WhatWeb 有超过 1800 个插件,每个插件都能识别不同的东西。WhatWeb 还可以识别版本号、电子邮件地址、帐户 ID、Web 框架模块、SQL 错误等。
* [yogeshojha/rengine](https://github.com/yogeshojha/rengine) 用于 Web 应用程序的自动化侦察框架,专注于通过引擎、侦察数据关联和组织、持续监控、简单而直观的用户界面以及简单而直观的用户界面。reNgine 使渗透测试人员可以轻松地收集侦察信息
* [l3m0n/whatweb](https://github.com/l3m0n/whatweb) WEB指纹识别 - gowap基础上修改的golang版本
* [riramar/Web-Attack-Cheat-Sheet](https://github.com/riramar/Web-Attack-Cheat-Sheet) Web 攻击备忘单
* [TideSec/TideFinger](https://github.com/TideSec/TideFinger) TideFinger——指纹识别小工具,汲取整合了多个web指纹库,结合了多种指纹检测方法,让指纹检测更快捷、准确。
* [hktalent/scan4all](https://github.com/hktalent/scan4all) vuls 扫描:1.5W+PoCs; 23种应用密码破解; 7K+网络指纹; 146种协议和9W+条规则端口扫描; Fuzz,硬件,很棒的 BugBounty(͡° ͜ʖ ͡°)...
* [m3n0sd0n4ld/GooFuzz](https://github.com/m3n0sd0n4ld/GooFuzz) 使用OSINT方法执行模糊测试的工具,设法枚举目录,文件,子域或参数,同时利用Google Dorking,而无需在目标上留下证据。
* [guchangan1/All-Defense-Tool](https://github.com/guchangan1/All-Defense-Tool) 全网优秀的攻防武器工具项目,包含自动化利用,子域名、目录扫描、端口扫描等信息收集工具,各大中间件、cms漏洞利用工具,爆破工具、内网横向及免杀、社工钓鱼以及应急响应等资料。
* [KingOfBugbounty/KingOfBugBountyTips](https://github.com/KingOfBugbounty/KingOfBugBountyTips) 分享一些知名漏洞猎人的技巧。使用侦察方法,我们能够找到已经可利用的子域、api 和令牌。
* [devanshbatham/ParamSpider](https://github.com/devanshbatham/ParamSpider) 从 Web 档案的黑暗角落挖掘参数。 从输入域的网络档案中查找参数。也从子域中查找参数。支持排除具有特定扩展名的 url。以干净整洁的方式保存输出结果。它从网络档案中挖掘参数(不与目标主机交互)
* [m4ll0k/takeover](https://github.com/m4ll0k/takeover) 子域接管漏洞扫描程序
* [3nock/sub3suite](https://github.com/3nock/sub3suite) 用于子域枚举、OSINT 信息收集和攻击面映射的研究级工具套件。支持对具有许多可用功能和工具的各种目标类型进行手动和自动分析。
* [d3mondev/puredns](https://github.com/d3mondev/puredns) 快速的域解析器和子域暴力破解工具,可以准确过滤掉通配符子域和 DNS 中毒条目。
* [FeeiCN/ESD](https://github.com/FeeiCN/ESD) Enumeration sub domains(枚举子域名)
* [Threezh1/JSFinder](https://github.com/Threezh1/JSFinder) 快速在网站的js文件中提取URL,子域名的工具。
* [shmilylty/OneForAll](https://github.com/shmilylty/OneForAll) 功能强大的子域收集工具
* [tomnomnom/assetfinder](https://github.com/tomnomnom/assetfinder) 查找与给定域相关的域和子域
* [projectdiscovery/shuffledns](https://github.com/projectdiscovery/shuffledns) 使用主动暴力破解枚举有效的子域,并通过通配符处理和简单的输入输出支持来解析子域。
* [projectdiscovery/subfinder](https://github.com/projectdiscovery/subfinder) 子域发现工具,可以为网站发现有效的子域。设计为被动框架,可用于漏洞赏金和安全渗透测试。
* [knownsec/ksubdomain](https://github.com/knownsec/ksubdomain) 无状态子域名爆破工具
* [aboul3la/Sublist3r](https://github.com/aboul3la/Sublist3r) 用于渗透测试人员的快速子域枚举工具
* [lijiejie/subDomainsBrute](https://github.com/lijiejie/subDomainsBrute) 高并发的DNS暴力枚举工具。
* [edoardottt/scilla](https://github.com/edoardottt/scilla) 信息收集工具 - DNS / 子域 / 端口 / 目录枚举
* [graynjo/Heimdallr](https://github.com/graynjo/Heimdallr) 完全被动监听的谷歌插件,用于高危指纹识别、蜜罐特征告警和拦截、机器特征对抗
* [paralax/awesome-honeypots](https://github.com/paralax/awesome-honeypots) 一个精选的很棒的蜜罐列表,以及相关组件等等,分为 Web、服务等类别,重点是免费和开源项目。包括:数据库蜜罐、网络蜜罐、服务蜜罐、分布式蜜罐、反蜜罐的东西、 ICS/SCADA蜜罐、僵尸网络 C2 工具、IPv6 攻击检测工具、动态代码检测工具包、将网站转换为服务器蜜罐的工具、恶意软件收集器、分布式传感器部署、网络分析工具、日志匿名器、低交互蜜罐(路由器后门)、Honeynet Farm 流量重定向器、HTTPS 代理、用于 USB 传播恶意软件的蜜罐、被动网络审计框架解析器、VM 监控和工具、二进制调试器、移动分析工具、低交互蜜罐、SSH 蜜罐等。
* [StarCrossPortal/scalpel](https://github.com/StarCrossPortal/scalpel) 命令行漏洞扫描工具,支持深度参数注入,拥有一个强大的数据解析和变异算法,可以将常见的数据格式(json, xml, form等)解析为树结构,然后根据poc中的规则,对树进行变异,包括对叶子节点和树结构 的变异。变异完成之后,将树结构还原为原始的数据格式。
* [dark-kingA/superSearchPlus](https://github.com/dark-kingA/superSearchPlus) 谷歌插件版本- 聚合型信息收集插件,支持综合查询,资产测绘查询,信息收集 js敏感信息提取 注释资源扫描 目录扫描 整合了目前常见的资产测绘平台 同时支持数据导出
* [lukebaggett/dnscat2-powershell](https://github.com/lukebaggett/dnscat2-powershell) dnscat2 的 Powershell 客户端,一种加密的 DNS 命令和控制工具。
* [blark/aiodnsbrute](https://github.com/blark/aiodnsbrute) 异步 DNS 暴力破解
* [pablosnt/rekono](https://github.com/pablosnt/rekono) 自动执行结合多种黑客工具的完整渗透测试流程
* [Kento-Sec/AsamF](https://github.com/Kento-Sec/AsamF) 集成Fofa、Quake、Hunter、Shodan、Zoomeye、Chinaz、0.zone及爱企查的一站式企业信息资产收集、网络资产测绘工具。
* [jwt1399/Sec-Tools](https://github.com/jwt1399/Sec-Tools) 基于Python-Django的多功能Web安全渗透测试工具,包含漏洞扫描,端口扫描,指纹识别,目录扫描,旁站扫描,域名扫描等功能。
* [liamg/scout](https://github.com/liamg/scout) 轻量级URL模糊器和蜘蛛:发现Web服务器的未公开文件,目录和VHOST。
* [D3Ext/AORT](https://github.com/D3Ext/AORT) 用于漏洞赏金的多合一侦察工具
* [Sma11New/webEye](https://github.com/Sma11New/webEye) 快速批量检测IP上指定端口的Web站点存活信息,获取其Title,红队信息搜集、蓝队资产探测梳理。
* [ghtwf01/excavator](https://github.com/ghtwf01/excavator) 基于mitmproxy的插件式被动安全漏洞扫描器
* [DedSecInside/TorBot](https://github.com/DedSecInside/TorBot) 暗网OSINT(公开资源情报, Open-source intelligence)
* [trufflesecurity/trufflehog](https://github.com/trufflesecurity/trufflehog) 查找泄露的凭据。
* [RustScan/RustScan](https://github.com/RustScan/RustScan) 现代端口扫描仪(rust)
* [qeeqbox/social-analyzer](https://github.com/qeeqbox/social-analyzer) API、CLI 和 Web 应用程序,用于在 1000 个社交媒体\网站中分析和查找个人的个人资料
* [hslatman/awesome-threat-intelligence](https://github.com/hslatman/awesome-threat-intelligence) 令人敬畏的威胁情报,威胁情报的简明定义:基于证据的知识,包括背景、机制、指标、影响和可操作的建议,涉及对资产的现有或新出现的威胁或危害,可用于为有关主体对该威胁或危害的响应提供决策信息。下面列出的大多数资源都提供了列表和/或 API,以获取(希望)有关威胁的最新信息。有些人认为这些来源是威胁情报,但意见不一。要创建真正的威胁情报,需要一定数量的(特定于域或业务的)分析。
* [fastfire/deepdarkCTI](https://github.com/fastfire/deepdarkCTI) 从深网和暗网收集网络威胁情报来源
* [CISOfy/lynis](https://github.com/CISOfy/lynis) 适用于Linux,macOS和基于UNIX的系统的安全审计工具.协助进行一致性测试(HIPAA/ISO27001/PCI DSS)和系统强化。无代理,安装可选。它执行深入的安全扫描并在系统本身上运行。主要目标是测试安全防御,并为进一步强化系统提供提示。它还将扫描常规系统信息、易受攻击的软件包和可能的配置问题。系统管理员和审计人员通常使用 Lynis 来评估其系统的安全防御。除了“蓝队”之外,如今渗透测试人员的工具包中也有 Lynis。
* [future-architect/vuls](https://github.com/future-architect/vuls) 适用于 Linux、FreeBSD、容器、WordPress、编程语言库、网络设备的无代理漏洞扫描程序
* [prowler-cloud/prowler](https://github.com/prowler-cloud/prowler) 适用于 AWS、Azure 和 GCP 的开源安全工具,用于执行云安全最佳实践评估、审计、事件响应、合规性、持续监控、强化和取证准备。包括 CIS、NIST 800、NIST CSF、CISA、FedRAMP、PCI-DSS、GDPR、HIPAA、FFIEC、SOC2、GXP、Well-Architected Security、ENS 等。
* [meirwah/awesome-incident-response](https://github.com/meirwah/awesome-incident-response) 安全事件响应工具和资源的精选列表,旨在帮助安全分析师和 DFIR 团队。数字取证和事件响应 (DFIR) 团队是组织中负责管理安全事件响应的人员组,包括收集事件证据、修正其影响以及实施控制措施以防止事件在未来再次发生。内容:对手仿真、多合一工具、书、社区、磁盘映像创建工具、证据收集、事件管理、知识库、Linux 发行版、Linux 证据收集、日志分析、内存分析、内存成像工具、OSX 证据收集、其他列表、其他工具、剧本、进程转储工具、沙盒/反转工具、扫描仪工具、时间轴工具、视频、Windows 证据收集
* [zaproxy/zaproxy](https://github.com/zaproxy/zaproxy) Zed 攻击代理 (ZAP) 是世界上最受欢迎的免费安全工具之一,由专门的国际志愿者团队积极维护。它可以帮助您在开发和测试应用程序时自动查找 Web 应用程序中的安全漏洞。对于有经验的渗透测试人员来说,它也是一个很好的工具,可以用于手动安全测试。
* [maurosoria/dirsearch](https://github.com/maurosoria/dirsearch) 目录搜索 - Web 路径发现,高级网络路径暴力破解程序
* [yogeshojha/rengine](https://github.com/yogeshojha/rengine) 用于 Web 应用程序的自动化侦察框架,专注于通过引擎、侦察数据关联和组织、持续监控、数据库支持以及简单而直观的用户界面进行高度可配置的简化侦察过程。reNgine 使渗透测试人员可以轻松地收集侦察信息
* [iovisor/bcc](https://github.com/iovisor/bcc) 用于基于 BPF 的 Linux IO 分析、网络、监控等的工具
* [zhzyker/vulmap](https://github.com/zhzyker/vulmap) web 漏洞扫描和验证工具, 可对 webapps 进行漏洞扫描, 并且具备漏洞验证功能
* [Datalux/Osintgram](https://github.com/Datalux/Osintgram) Instagram 上的 OSINT 工具。它提供了一个交互式外壳,可以通过其昵称对任何用户的Instagram帐户进行分析
* [sherlock-project/sherlock](https://github.com/sherlock-project/sherlock) 在社交网络上按用户名寻找社交媒体帐户
* [bettercap/bettercap](https://github.com/bettercap/bettercap) 用于 802.11、BLE、IPv4 和 IPv6 网络侦察和 MITM 攻击的瑞士军刀。
* [samratashok/nishang](https://github.com/samratashok/nishang) 用于红队,渗透测试和攻击性安全性的攻击性PowerShell.
* [aress31/burpgpt](https://github.com/aress31/burpgpt) Burp Suite 扩展,集成了 OpenAI 的 GPT,可执行额外的被动扫描以发现高度定制的漏洞,并支持运行任何类型的基于流量的分析。
* [chaitin/xray](https://github.com/chaitin/xray) 一款完善的安全评估工具,支持常见 web 安全问题扫描和自定义 poc | 使用之前务必先阅读文档
* [laramies/theHarvester](https://github.com/laramies/theHarvester) 简单易用但功能强大的工具,设计用于红色的侦察阶段团队评估或渗透测试。它执行开源情报 (OSINT) 收集以帮助确定域的外部威胁态势。
* [soxoj/maigret](https://github.com/soxoj/maigret) 通过用户名从数千个站点收集有关某人的档案
* [epi052/feroxbuster](https://github.com/epi052/feroxbuster) 一个用 Rust 编写的快速、简单、递归的内容发现工具。强制浏览是一种攻击,其目的是枚举和访问 Web 应用程序未引用但攻击者仍可访问的资源。feroxbuster 使用暴力破解与单词列表相结合来搜索目标目录中未链接的内容。这些资源可能会存储有关 Web 应用程序和操作系统的敏感信息,例如源代码、凭据、内部网络寻址等。此攻击也称为可预测资源位置、文件枚举、目录枚举和资源枚举。
## web shell、shellcode
* web shell 使用PHP、Python、Ruby 等编程语言编写的恶意代码,可以上传到网站以访问存储在该网站上的文件。一旦它被上传,黑客可以利用它来编辑,删除或下载网站上的任何文件,或上传他们自己想要的文件或程式码。
* shellcode是一段用于利用软件漏洞而执行的代码,shellcode为16进制之机械码,以其经常让攻击者获得shell而得名。shellcode常常使用机器语言编写,由于现代电脑系统基本上启用NX位元保护使得机械码无法直接执行,可透过返回导向编程编写shellcode。
* [WangYihang/Platypus](https://github.com/WangYihang/Platypus) 用 go 编写的现代多反向 shell 会话管理器
* [Idov31/FunctionStomping](https://github.com/Idov31/FunctionStomping) shellcode 注入技术。以 C++ 头文件、独立的 Rust 程序或库的形式给出。
* [czz1233/GBByPass](https://github.com/czz1233/GBByPass) 冰蝎 哥斯拉 WebShell bypass
* [Tas9er/ByPassBehinder4J](https://github.com/Tas9er/ByPassBehinder4J) 冰蝎Java WebShell自动化免杀生成
* [LandGrey/webshell-detect-bypass](https://github.com/LandGrey/webshell-detect-bypass) 绕过专业工具检测的Webshell研究文章和免杀的Webshell
* [HZzz2/go-shellcode-loader](https://github.com/HZzz2/go-shellcode-loader) GO免杀shellcode加载器混淆AES加密
* [epinna/weevely3](https://github.com/epinna/weevely3) 为后期开发目的而设计的 web shell,可以在运行时通过网络进行扩展。将它上传到目标服务器以获取对其的远程 shell 访问。它有 30 多个模块来协助管理任务、维护访问、提供态势感知、提升权限以及传播到目标网络。
* [asta-mouse/Sherlock](https://github.com/rasta-mouse/Sherlock) PowerShell 脚本,快速查找权限提升漏洞的缺失补丁。
* [FunnyWolf/pystinger](https://github.com/FunnyWolf/pystinger) 使用webshell进行流量转发的出网工具
* [Cracked5pider/ShellcodeTemplate](https://github.com/Cracked5pider/ShellcodeTemplate) Win x64/x86 的易于修改的 shellcode 模板
* [icyguider/Nimcrypt2](https://github.com/icyguider/Nimcrypt2) Nim 编写的 .NET、PE 和原始 Shellcode 打包程序/加载程序
* [hosch3n/msmap](https://github.com/hosch3n/msmap) 一个Memory WebShell生成器。
* [tihanyin/PSSW100AVB](https://github.com/tihanyin/PSSW100AVB) 具有 100% AV 绕过功能的有用 Powershell 脚本。
* [bdamele/icmpsh](https://github.com/bdamele/icmpsh) 简单的反向 ICMP shell,win32 从站和一个 C、Perl 或 Python 中的 POSIX 兼容主站。它不需要管理权限即可在目标机器上运行。
* [JoelGMSec/PyShell](https://github.com/JoelGMSec/PyShell) 多平台 Python WebShell。此工具可帮助您在 Web 服务器上获得类似 shell 的界面以进行远程访问。
* [WhaleFell/CameraHack](https://github.com/WhaleFell/CameraHack) 批量扫描破解海康威视、大华等摄像头的常见漏洞。
* [LoRexxar/Kunlun-M](https://github.com/LoRexxar/Kunlun-M) 完全开源的静态白盒扫描工具,支持PHP、JavaScript的语义扫描,基础安全、组件安全扫描,Chrome Ext\Solidity的基础扫描。
* [wikiZ/ServerlessScan](https://github.com/wikiZ/ServerlessScan) 云函数扫描器实现代码
* [hannob/snallygaster](https://github.com/hannob/snallygaster) 用于扫描 HTTP 服务器上的机密文件的工具
* [michelin/ChopChop](https://github.com/michelin/ChopChop) 帮助开发人员扫描端点并识别敏感服务/文件/文件夹的公开。
* [1N3/Sn1per](https://github.com/1N3/Sn1per) 自动侦察扫描程序,用于发现资产并用最新开源工具和技术扫描漏洞。
* [shadow1ng/fscan](https://github.com/shadow1ng/fscan) 一款内网综合扫描工具,方便一键自动化、全方位漏扫扫描。
* [1n7erface/RequestTemplate](https://github.com/1n7erface/RequestTemplate) 双语双端内网扫描以及验证工具
* [API-Security/APIKit](https://github.com/API-Security/APIKit) 主动/被动扫描发现应用泄露的API文档,并将API文档解析成BurpSuite中的数据包用于API安全测试。
* [zan8in/afrog](https://github.com/zan8in/afrog) 性能卓越、快速稳定、PoC 可定制化的漏洞扫描工具
* [achuna33/MYExploit](https://github.com/achuna33/MYExploit) 基于产品的一键扫描工具。
* [ajinabraham/CMSScan](https://github.com/ajinabraham/CMSScan) CMS 扫描仪:扫描 Wordpress、Drupal、Joomla、vBulletin 网站以查找安全问题
* [dionach/CMSmap](https://github.com/Dionach/CMSmap) 开源 CMS 扫描程序,它可以自动检测最流行的 CMS 的安全漏洞。支持的 CMS 有 WordPress、Joomla、Drupal 和 Moodle。
* [0e0w/PassivesScan](https://github.com/0e0w/PassivesScan) 《被动扫描资源汇总》被动扫描一般是根据代理的流量中特定参数进行简单粗暴的发起请求。有些漏洞通过主动扫描很难发现,必须通过被动扫描实现。被动扫描结合爬虫技术往往是漏洞扫描的最优解。
* [chroblert/WindowsVulnScan](https://github.com/chroblert/WindowsVulnScan) 基于主机的漏洞扫描工具,采用多线程确保可以快速的请求数据,采用线程锁可以在向sqlite数据库中写入数据避免database is locked的错误,采用md5哈希算法确保数据不重复插入。
* [greenbone/openvas-scanner](https://github.com/greenbone/openvas-scanner) Greenbone 社区版的扫描仪组件 一个功能齐全的扫描引擎,可执行持续更新和扩展的漏洞测试 (VT) 馈送。
* [d3ckx1/Fvuln](https://github.com/d3ckx1/Fvuln) Find-Vulnerability是为了自己工作方便专门编写的一款自动化工具,主要适用于日常安全服务、渗透测试人员和RedTeam红队人员,它集合的功能包括:存活IP探测、开放端口探测、web服务探测、web漏洞扫描、smb爆破、ssh爆破、ftp爆破、mssql爆破等其他数据库爆破工作以及大量web漏洞检测模块。
* [sting8k/BurpSuite_403Bypasser](https://github.com/sting8k/BurpSuite_403Bypasser) 绕过 403 限制目录的 burpsuite 扩展。 通过使用 PassiveScan,每个 403 请求都会被这个扩展自动扫描。
* [HatBoy/Struts2-Scan](https://github.com/HatBoy/Struts2-Scan) Struts2全漏洞扫描利用工具 支持的漏洞如下: S2-001, S2-003, S2-005, S2-007, S2-008, S2-009, S2-012, S2-013, S2-015, S2-016, S2-019, S2-029, S2-032, S2-033, S2-037, S2-045, S2-046, S2-048, S2-052, S2-053, S2-devMode, S2-057
* [Tas9er/ByPassBehinder](https://github.com/Tas9er/ByPassBehinder) 冰蝎WebShell免杀生成
* [Axx8/ShellCode_Loader](https://github.com/Axx8/ShellCode_Loader) Msf&CobaltStrike免杀ShellCode加载器、免杀Shellcode加密生成工具,目前测试免杀360&火绒&电脑管家&Windows Defender
* [OWASP/wstg](https://github.com/OWASP/wstg) 《Web 安全测试指南》是用于测试 Web 应用程序和 Web 服务安全性的综合开源指南。
* [SpiderLabs/ModSecurity](https://github.com/SpiderLabs/ModSecurity) 由 Trustwave 的 SpiderLabs 开发的适用于 Apache、IIS 和 Nginx 的开源跨平台 Web 应用程序防火墙 (WAF) 引擎。它具有强大的基于事件的编程语言,可防止针对 Web 应用程序的一系列攻击,并允许 HTTP 流量监控、日志记录和实时分析
* [0xInfection/Awesome-WAF](https://github.com/0xInfection/Awesome-WAF) 从安全角度来看,Web 应用程序防火墙 (WAF)。
* [EnableSecurity/wafw00f](https://github.com/EnableSecurity/wafw00f) 允许识别和指纹保护网站的 Web 应用程序防火墙 (WAF) 产品。
* [flamegraph-rs/flamegraph](https://github.com/flamegraph-rs/flamegraph) Rust和其他所有项目的简单火焰图,无需 Perl 或管道
* [Hacker0x01/hacker101](https://github.com/Hacker0x01/hacker101) Hacker101 的源代码 - 免费的在线 Web 和移动安全课程。
* [juice-shop/juice-shop](https://github.com/juice-shop/juice-shop) OWASP Juice Shop:可能是最现代、最复杂的不安全 Web 应用程序,它可以用于安全培训、意识演示、CTF,也可以用作安全工具的白鼠!Juice Shop 包含来自整个 OWASP Top Ten 的漏洞,以及在实际应用程序中发现的许多其他安全漏洞!
* [digininja/DVWA](https://github.com/digininja/DVWA) 该死的易受攻击的 Web 应用程序
* [koalaman/shellcheck](https://github.com/koalaman/shellcheck) 一个 GPLv3 工具,它为 bash/sh shell 脚本提供警告和建议
* [tarunkant/Gopherus](https://github.com/tarunkant/Gopherus) 如果您知道某个地方容易受到 SSRF 攻击,此工具将帮助您生成 Gopher 有效负载,以利用 SSRF(服务器端请求伪造)并获得 RCE(远程代码执行)。它还将帮助您在受害者服务器上获取反向外壳。
## 杀毒免杀、逆向工程
* [TideSec/BypassAntiVirus](https://github.com/TideSec/BypassAntiVirus) 远控免杀系列文章及配套工具,汇总测试了互联网上的几十种免杀工具、113种白名单免杀方式、8种代码编译免杀、若干免杀实战技术,并对免杀效果进行了一一测试,为远控的免杀和杀软对抗免杀提供参考。
* [mytechnotalent/Reverse-Engineering](https://github.com/mytechnotalent/Reverse-Engineering) 涵盖 x86、x64、32 位 ARM 和 64 位 ARM 架构的免费综合逆向工程教程。
* [NationalSecurityAgency/ghidra](https://github.com/NationalSecurityAgency/ghidra) 由国家安全局研究局创建和维护的软件逆向工程 (SRE) 框架。该框架包括一套功能齐全的高端软件分析工具,使用户能够在各种平台(包括 Windows、macOS 和 Linux)上分析编译后的代码。功能包括反汇编、汇编、反编译、绘图和脚本,以及数百种其他功能。Ghidra 支持多种处理器指令集和可执行格式,可以在用户交互和自动模式下运行。用户还可以使用 Java 或 Python 开发自己的 Ghidra 扩展组件和/或脚本。
* [rshipp/awesome-malware-analysis](https://github.com/rshipp/awesome-malware-analysis) 精选的恶意软件分析工具和资源列表。
* [awsaaaq/GoBP](https://github.com/awsaaaq/GoBP) 免杀工具 Go语言编写
* [Yihsiwei/GoFileBinder](https://github.com/Yihsiwei/GoFileBinder) golang免杀捆绑器
* [midisec/BypassAnti-Virus](https://github.com/midisec/BypassAnti-Virus) 免杀姿势学习、记录、复现。
* [Arks7/Go_Bypass](https://github.com/Arks7/Go_Bypass) 一个免杀生成器模板,目前可以过国内主流杀毒。
* [Ed1s0nZ/cool](https://github.com/Ed1s0nZ/cool) Golang-Gin框架写的免杀平台,内置分离、捆绑等BypassAV方式。
* [Gality369/CS-Loader](https://github.com/Gality369/CS-Loader) CS免杀,包括python版和C版本
* [TideSec/GoBypassAV](https://github.com/TideSec/GoBypassAV) 整理了基于Go的16种API免杀测试、8种加密测试、反沙盒测试、编译混淆、加壳、资源修改等免杀技术,并搜集汇总了一些资料和工具。
* [0x9ef/golang-uacbypasser](https://github.com/0x9ef/golang-uacbypasser) 用 Go 实现和编写的 Windows UAC 绕过技术
* [safe6Sec/GolangBypassAV](https://github.com/safe6Sec/GolangBypassAV) 研究利用golang各种姿势bypassAV
* [Tlaster/YourAV](https://github.com/Tlaster/YourAV) 宇宙级最轻量杀毒软件
* [BC-SECURITY/Beginners-Guide-to-Obfuscation](https://github.com/BC-SECURITY/Beginners-Guide-to-Obfuscation) 规避检测:新手混淆指南防御者不断调整他们的安全措施以应对新的威胁。学习恶意软件交付和避免检测背后的方法。 探讨了 Microsoft 的反恶意软件扫描接口 (AMSI)、Windows Defender 和 Windows 事件跟踪 (ETW) 的内部工作原理。 学习如何使用 Visual Basic (VB)、PowerShell 和 C# 来使用混淆的恶意软件来避开 Microsoft 的防御。学习构建 AMSI 绕过技术,混淆来自动态和静态签名检测方法的有效负载,并了解替代网络规避方法。
* [seventeenman/CallBackDump](https://github.com/seventeenman/CallBackDump) 能过国内杀软的dump lsass进程工具,参考代码链接在下面。由minidumpCallback实现,对缓冲区中内存做了些修改后再写入磁盘。工具也没有任何网络行为。dump lsass通过检索Windows内存中的lsass.exe进程来获取凭据信息并将其存储到一个文件中,从而使攻击者能够拿到有效的用户凭据。它还可以在远程系统上执行恶意代码,以便获取更多的敏感信息。
* [H4de5-7/Bundler-bypass](https://github.com/H4de5-7/Bundler-bypass) 免杀捆绑器,过主流杀软。
* [x64dbg/x64dbg](https://github.com/x64dbg/x64dbg) 适用于 Windows 的开源用户模式调试器。针对逆向工程和恶意软件分析进行了优化。
* [capstone-engine/capstone](https://github.com/capstone-engine/capstone) 用于ARM,ARM64(ARMv8),BPF,Ethereum VM,M68K,M680X,Mips,MOS65XX,PPC,RISC-V(rv32G / rv64G),SH,Sparc,SystemZ,TMS320C64X,TriCore,Webassembly,XCore和X86的Capstone反汇编/反汇编器框架。
* [cyrus-and/gdb-dashboard](https://github.com/cyrus-and/gdb-dashboard) GDB 仪表板是使用 Python API 编写的独立 .gdbinit 文件,它支持模块化界面,显示有关正在调试的程序的相关信息。其主要目标是减少检查当前程序状态所需的 GDB 命令数量,从而使开发人员能够主要关注控制流。
* [OWASP/owasp-mastg](https://github.com/OWASP/owasp-mastg) 移动应用安全测试指南 (MASTG) 是一本用于移动应用安全测试和逆向工程的综合手册。它描述了用于验证 OWASP 移动应用程序安全验证标准 (MASVS) 中列出的控件的技术过程。
* [rizinorg/cutter](https://github.com/rizinorg/cutter) 由 rizin 提供支持的免费开源逆向工程平台。它旨在成为一个先进且可定制的逆向工程平台,同时牢记用户体验。
* [cs01/gdbgui](https://github.com/cs01/gdbgui) 基于浏览器的 gdb 前端(gnu 调试器)。在 C、C++、Go、Rust 和 Fortran 中添加断点、查看堆栈、可视化数据结构等。从终端运行 gdbgui,浏览器中将打开一个新选项卡。
* [brannondorsey/wifi-cracking](https://github.com/brannondorsey/wifi-cracking) 使用 Airodump-ng 和 Aircrack-ng/Hashcat 破解 WPA/WPA2 Wi-Fi 路由器
* [winsiderss/systeminformer](https://github.com/winsiderss/systeminformer) Windows 10 免费、功能强大、用途广泛的工具,可帮助您监控系统资源、调试软件和检测恶意软件。由 Winsider Seminars & Solutions, Inc. 提供。
* [icsharpcode/ILSpy](https://github.com/icsharpcode/ILSpy) 开源的 .NET 程序集浏览器和反编译器。
* [semgrep/semgrep](https://github.com/semgrep/semgrep) 适用于多种语言的轻量级静态分析。查找具有类似源代码的模式的 bug 变体。可以扫描代码和包依赖项以查找已知问题、软件漏洞,并高精度地查找密钥
* [JusticeRage/Gepetto](https://github.com/JusticeRage/Gepetto) Gepetto 是一个 Python 脚本,它使用各种大型语言模型为 IDA Pro 反编译的函数提供意义。目前,它可以要求他们解释函数的作用,并自动重命名其变量。
* [Ackites/KillWxapkg](https://github.com/Ackites/KillWxapkg) 自动化反编译微信小程序,小程序安全评估工具,发现小程序安全问题,自动解密,解包,可还原工程目录,支持Hook,小程序修改
## 漏洞库、漏洞靶场
* [trickest/cve](https://github.com/trickest/cve) 收集并使用其 PoC 更新所有可用和最新的 CVE。几乎所有公开可用的 CVE PoC。从 cvelist 收集 CVE 详细信息。按年份拆分 CVE。使用案例:四处浏览,找到一个不错的 PoC,然后进行测试!Watch 存储库,以便在新 PoC 公开后立即接收有关它们的通知。搜索特定产品(可能还有版本)以查找与其相关的所有公共漏洞。
* [pwntester/0day](https://github.com/pwntester/0day) 各种CMS、各种平台、各种系统、各种软件漏洞的EXP、POC 该项目将不断更新
* [ReAbout/web-sec](https://github.com/ReAbout/web-sec) WEB安全手册(红队安全技能栈),漏洞理解,漏洞利用,代码审计和渗透测试总结。
* [cckuailong/vulbase](https://github.com/cckuailong/vulbase) 各大漏洞文库合集 Vulbase漏洞库
* [helloexp/0day](https://github.com/helloexp/0day) 各CMS、各平台、各系统、各软件漏洞的EXP、POC
* [lxflxfcl/monitor](https://github.com/lxflxfcl/monitor) 漏洞监控平台。目前实现了监控GitHub、微软、CNNVD三者的漏洞信息,并使用企业微信实时推送。还可以使用邮箱推送,默认关闭。
* [binganao/vulns-2022](https://github.com/binganao/vulns-2022) 用于搜集 2022 年的漏洞,注意:本项目并不刻意搜集 POC 或 EXP,主要以CVE-2021、CVE-2022 为关键词,包含但不限于漏洞资讯、漏洞复现、漏洞分析、漏洞验证、漏洞利用
* [AonCyberLabs/Windows-Exploit-Suggester](https://github.com/AonCyberLabs/Windows-Exploit-Suggester) 该工具将目标补丁级别与 Microsoft 漏洞数据库进行比较,以检测目标上潜在的缺失补丁。如果存在可用于丢失公告的公共漏洞利用和 Metasploit 模块,它还会通知用户。
* [tangxiaofeng7/SecExample](https://github.com/tangxiaofeng7/SecExample) JAVA 漏洞靶场 (Vulnerability Environment For Java)
* [l4yn3/micro_service_seclab](https://github.com/l4yn3/micro_service_seclab) Java漏洞靶场是基于SpringBoot开发,目的是用来检测SAST工具的准确性(关注漏报和误报问题)的。
* [Threekiii/Vulnerability-Wiki](https://github.com/Threekiii/Vulnerability-Wiki) 一个综合漏洞知识库,集成了Vulhub、Peiqi、Edge、0sec、Wooyun等开源漏洞库
* [wooyunwang/Fortify](https://github.com/wooyunwang/Fortify) 源代码各种审计漏洞白测试盒的漏洞描述或具体修复方案
* [fofapro/vulfocus](https://github.com/fofapro/vulfocus) 漏洞集成平台,将漏洞环境docker镜像,开箱即用。
* [sqlsec/ssrf-vuls](https://github.com/sqlsec/ssrf-vuls) 手把手带你用 SSRF 打穿内网靶场源码
* [edoardottt/awesome-hacker-search-engines](https://github.com/edoardottt/awesome-hacker-search-engines) 在渗透测试、漏洞评估、红/蓝团队操作、漏洞赏金等期间有用的出色搜索引擎的精选列表
* [aquasecurity/trivy](https://github.com/aquasecurity/trivy) 查找容器、Kubernetes、代码存储库、云等中的漏洞、错误配置、机密、SBOM
* [qazbnm456/awesome-web-security](https://github.com/qazbnm456/awesome-web-security) 精心策划的网络安全材料和资源列表。
* [Mr-xn/Penetration_Testing_POC](https://github.com/Mr-xn/Penetration_Testing_POC) 渗透测试有关的POC、EXP、脚本、提权、小工具等---About penetration-testing python-script poc getshell csrf xss cms php-getshell domainmod-xss csrf-webshell cobub-razor cve rce sql sql-poc poc-exp bypass oa-getshell cve-cms
* [Gallopsled/pwntools](https://github.com/Gallopsled/pwntools) CTF 框架和漏洞利用开发库。它是用 Python 编写的,专为快速原型设计和开发而设计,旨在使漏洞编写尽可能简单。
* [LandGrey/SpringBootVulExploit](https://github.com/LandGrey/SpringBootVulExploit) SpringBoot 相关漏洞学习资料,利用方法和技巧合集,黑盒安全评估 check list
## 安卓Android
* [Simp1er/AndroidSec](https://github.com/Simp1er/AndroidSec) 记录一些我自己在学习安卓逆向过程中的海洋的东西
* [iBotPeaches/Apktool](https://github.com/iBotPeaches/Apktool) 一个逆向工程安卓apk文件的工具
* [cleverbao/520apkhook](https://github.com/cleverbao/520apkhook) 把ms的安卓远控附加进普通的app中,并进行隐藏特征。可以通用的手机安全管家。
* [r0ysue/r0capture](https://github.com/r0ysue/r0capture) 安卓应用层抓包通杀脚本
* [WindXaa/Android-Vulnerability-Mining](https://github.com/WindXaa/Android-Vulnerability-Mining) Android APP漏洞之战系列,主要讲述如何快速挖掘APP漏洞
* [user1342/DroidDetective](https://github.com/user1342/DroidDetective) 适用于Android 应用程序的机器学习恶意软件分析框架。
* [zhengjim/camille](https://github.com/zhengjim/camille) 基于Frida的Android App隐私合规检测辅助工具
* [WindXaa/Android-Vulnerability-Mining](https://github.com/WindXaa/Android-Vulnerability-Mining) Android APP漏洞之战系列,主要讲述如何快速挖掘APP漏洞
* [WindXaa/Android-reverse](https://github.com/WindXaa/Android-reverse) Android逆向的相关脚本文件 加壳与脱壳 Xposed/源码定制 Web服务器探测 Frida定制 静态分析ApkMean 动态分析GDroid 隐私合规框架PPExtract 恶意应用检测MalDroid
* [WindXaa/Android-Reverse-interview](https://github.com/WindXaa/Android-Reverse-interview) 主要针对移动安全中Android逆向工程师、漏洞挖掘工程师、渗透工程师的面试指南
## 加密、密码破解、字典
* [openssl/openssl](https://github.com/openssl/openssl) 强大的、商业级的、功能齐全的开源工具包,适用于 TLS(以前称为 SSL)、DTLS 和 QUIC(目前仅限客户端)协议。协议实现基于一个完整的通用加密库,该库也可以独立使用。还包括一个经过验证符合 FIPS 标准的加密模块。
* [0xHJK/TotalPass](https://github.com/0xHJK/TotalPass) 默认密码扫描器 是否存在默认密码\搜索常见设备默认密码\支持手动和自动更新密码库 扫描类型有SSH\Telnet\SNMP\Redis
* [certbot/certbot](https://github.com/certbot/certbot) Certbot 是 EFF 的工具,用于从 Let's Encrypt 获取证书,并(可选)在您的服务器上自动启用 HTTPS。它还可以充当使用 ACME 协议的任何其他 CA 的客户端。
* [zricethezav/gitleaks](https://github.com/zricethezav/gitleaks) 用于检测和防止git repos 中的密码、api 密钥和令牌等硬编码秘密。易于使用的一体化解决方案,用于检测代码中过去或现在的秘密。
* [Cyan4973/xxHash](https://github.com/Cyan4973/xxHash) xxHash 是一种极快的哈希算法,以 RAM 速度限制进行处理。代码具有高度的可移植性,并在所有平台上生成相同的哈希值(小端/大端)。该库包括以下算法:XXH32:使用 32 位算术生成 32 位哈希;XXH64:使用 64 位算术生成 64 位哈希;XXH3(自 v0.8.0 起):使用矢量化算术生成 64 位或 128 位哈希。128 位变体称为 XXH128。所有变体都成功完成了 SMHasher 测试套件,该套件评估哈希函数的质量(碰撞、色散和随机性)。此外,还提供了其他测试,这些测试可以更全面地评估 64 位哈希的速度和冲突属性。
* [bitsadmin/fakelogonscreen](https://github.com/bitsadmin/fakelogonscreen) 伪造 Windows 登录屏幕以窃取密码
* [gentilkiwi/mimikatz](https://github.com/gentilkiwi/mimikatz) 从内存中提取明文密码、哈希、PIN 码和 kerberos 票证。还可以执行 pass-the-hash、pass-the-ticket 或构建*Golden Tickets*。
* [hashcat/hashcat](https://github.com/hashcat/hashcat) 世界上速度最快、最先进的密码恢复实用程序,支持 300 多种高度优化的哈希算法的五种独特攻击模式。hashcat 目前支持 Linux、Win 和 macOS 上的 CPU、GPU 和其他硬件加速器,并具有帮助实现分布式密码破解的工具。
* [JDArmy/SharpXDecrypt](https://github.com/JDArmy/SharpXDecrypt) Xshell全版本密码恢复工具
* [L-codes/pwcrack-framework](https://github.com/L-codes/pwcrack-framework) 用Ruby编写的密码自动破解框架,目前提供了 22 个在线破解和 29 个离线破解接口,支持 52 种算法破解
* [Leon406/ToolsFx](https://github.com/Leon406/ToolsFx) 基于kotlin+tornadoFx的跨平台密码学工具箱.包含编解码,编码转换,加解密, 哈希,MAC,签名,大数运算,压缩,二维码功能,ctf等实用功能,支持插件
* [sry309/PwdBUD](https://github.com/sry309/PwdBUD) 一款SRC密码生成工具,尝试top字典无果后,可以根据域名、公司名等因素来生成特定的字典
* [914525753/Sh4d0w-BlastingDictionary](https://github.com/914525753/Sh4d0w-BlastingDictionary) 搜集的爆破字典,包括常用用户名、密码弱口令、XSS的on事件遍历、SQL万能密码等
* [whiteknight7/wordlist](https://github.com/whiteknight7/wordlist) 常用字典,弱用户名、弱口令、目录列表等。
* [t43Wiu6/blackJack-Dicts](https://github.com/t43Wiu6/blackJack-Dicts) 参考十余个项目整理的目录和文件字典。
* [Karanxa/Bug-Bounty-Wordlists](https://github.com/Karanxa/Bug-Bounty-Wordlists) 包含在寻找错误时使用的所有重要字典
* [insightglacier/Dictionary-Of-Pentesting](https://github.com/insightglacier/Dictionary-Of-Pentesting) Pentesing、Fuzzing、Bruteforce 和 BugBounty 等字典项目。渗透测试、SRC漏洞、爆破、Fuzzing等字典收集项目。
* [liamg/dismember](https://github.com/liamg/dismember) Linux 工具包,可用于扫描所有进程(或特定进程)的内存以查找公共机密和自定义正则表达式等。
* [zapstiko/wordlists](https://github.com/zapstiko/wordlists) 所有类型的有效负载字典。
* [drduh/YubiKey-Guide](https://github.com/drduh/YubiKey-Guide) 使用 YubiKey 作为智能卡来存储 GPG 加密、签名和身份验证密钥的指南,这些密钥也可用于 SSH。本文档中的许多原则适用于其他智能卡设备。
* [getsops/sops](https://github.com/getsops/sops) 用于管理机密的简单灵活的工具,一个加密文件编辑器,支持 YAML、JSON、ENV、INI 和 BINARY 格式,并使用 AWS KMS、GCP KMS、Azure Key Vault、age 和 PGP 进行加密。
* [google/tink](https://github.com/google/tink) 多语言、跨平台开源库,提供安全、易于正确使用且不滥用的加密 API。
* [dani-garcia/vaultwarden](https://github.com/dani-garcia/vaultwarden) 用 Rust 编写的非官方 Bitwarden 兼容服务器。Bitwarden 是一款安全的密码管理应用,帮助您保存密码并保证安全。
* [massgravel/Microsoft-Activation-Scripts](https://github.com/massgravel/Microsoft-Activation-Scripts) 使用 HWID / Ohook / KMS38 / Online KMS 激活方法的 Windows 和 Office 激活器,开源代码和较少的防病毒检测。
* [pyca/cryptography](https://github.com/pyca/cryptography) 为 Python 开发人员提供加密配方和原语的包。包括常见加密算法(如对称密码、消息摘要和密钥派生函数)的高级配方和低级接口。
* [keepassxreboot/keepassxc](https://github.com/keepassxreboot/keepassxc) 现代、安全且开源的密码管理器,可存储和管理您最敏感的信息。您可以在 Windows、macOS 和 Linux 系统上运行 KeePassXC。适用于对安全个人数据管理有极高要求的人。它将许多不同类型的信息(例如用户名、密码、URL、附件和注释)保存在一个离线加密文件中,该文件可以存储在任何位置,包括私有云和公共云解决方案。为了便于识别和管理,可以为条目指定用户定义的标题和图标。此外,条目被分类为可自定义的组。集成的搜索功能允许您使用高级模式轻松查找数据库中的任何条目。可自定义、快速且易于使用的密码生成器实用程序允许您使用任意字符组合或易于记忆的密码短语创建密码。
* [gravitational/teleport](https://github.com/gravitational/teleport) 保护对所有基础架构的访问。Teleport 为基础设施提供连接、身份验证、访问控制和审计。
* [Infisical/infisical](https://github.com/Infisical/infisical) 开源密钥管理平台:在团队/基础架构中同步密钥并防止密钥泄露。
* [jedisct1/libsodium](https://github.com/jedisct1/libsodium) 易于使用的全新软件库,用于加密、解密、签名、密码哈希等。
* [moonD4rk/HackBrowserData](https://github.com/moonD4rk/HackBrowserData) 可全平台运行的浏览器数据导出解密工具。
* [keeweb/keeweb](https://github.com/keeweb/keeweb) 与KeePass兼容的免费跨平台密码管理器
* [fail2ban/fail2ban](https://github.com/fail2ban/fail2ban) 用于禁止导致多个身份验证错误的主机的守护程序,Fail2Ban 扫描日志文件,例如 `/var/log/auth.log` 并禁止 IP 地址进行过多失败的登录尝试。它通过更新系统防火墙规则来拒绝来自这些 IP 地址的新连接,并在可配置的时间内实现此目的。Fail2Ban 开箱即用,可以读取许多标准日志文件,例如 sshd 和 Apache 的日志文件,并且可以轻松配置为读取您选择的任何日志文件,以处理您希望的任何错误。尽管 Fail2Ban 能够降低错误身份验证尝试的速率,但它无法消除弱身份验证带来的风险。如果确实想要保护服务,请将服务设置为仅使用双因素或公共/私有身份验证机制。
* [Ciphey/Ciphey](https://github.com/Ciphey/Ciphey) 在不知道密钥或密码的情况下自动解密加密,解码编码和破解哈希
## 其他_安全与渗透
* [NARKOZ/hacker-scripts](https://github.com/NARKOZ/hacker-scripts) 由 NARKOZ 维护的 Hacker Scripts 是一个开放源码的 GitHub 仓库,包含了各种小到大范围的脚本,涵盖了文件操作、网络监测、系统信息获取等多个领域。这些脚本大多是用 Bash 编写的,因此它们可以在任何支持 Bash 的 Unix-like 系统(如 Linux 和 macOS)上运行。在编程和黑客文化的世界中,效率是关键。GitHub 上的 Hacker Scripts 项目就是这样一个宝藏,它集合了一系列实用的 Bash 脚本,帮助开发者、系统管理员和爱好者自动化日常任务,提升工作效率。
* [Lissy93/personal-security-checklist](https://github.com/Lissy93/personal-security-checklist) 保护您的数字安全和隐私的精选提示清单
* [sqlmapproject/sqlmap](https://github.com/sqlmapproject/sqlmap) 自动 SQL 注入和数据库接管工具
* [rapid7/metasploit-framework](https://github.com/rapid7/metasploit-framework) 渗透测试平台,使您能够查找,利用和验证漏洞。 该平台包括Metasploit框架及其商业对手,如Metasploit Pro。 Metasploit是一个免费的、可下载的框架,通过它可以很容易对计算机软件漏洞实施攻击。 它本身附带数百个已知软件漏洞的专业级漏洞攻击工具。
* [trimstray/the-book-of-secret-knowledge](https://github.com/trimstray/the-book-of-secret-knowledge) 一系列鼓舞人心的列表、手册、备忘单、博客、黑客、单行、cli/web 工具等。
* [vitalysim/Awesome-Hacking-Resources](https://github.com/vitalysim/Awesome-Hacking-Resources) 黑客/渗透测试资源集合,让您变得更好!
* [The-Art-of-Hacking/h4cker](https://github.com/The-Art-of-Hacking/h4cker) 该存储库主要由 Omar Santos (@santosomar) 维护,包括与道德黑客/渗透测试、数字取证和事件响应 (DFIR)、人工智能、漏洞研究、漏洞开发、逆向工程等相关的数千种资源。
* [carpedm20/awesome-hacking](https://github.com/carpedm20/awesome-hacking) 黑客教程,工具和资源的精选列表
* [Hack-with-Github/Awesome-Hacking](https://github.com/Hack-with-Github/Awesome-Hacking) 为黑客、渗透测试人员和安全研究人员收集的各种很棒的列表
* [fr0gger/Awesome-GPT-Agents](https://github.com/fr0gger/Awesome-GPT-Agents) 由社区创建的编制一份专注于网络安全(进攻性和防御性)的 GPT 代理综合列表。
* [Z4nzu/hackingtool](https://github.com/Z4nzu/hackingtool) 黑客的多合一黑客工具 包括:匿名隐藏、信息收集、词表生成器、无线攻击、SQL 注入、网络钓鱼攻击、网络攻击、后期利用、取证工具、有效载荷创建、利用框架、逆向工程、DDOS 攻击、远程管理 (RAT)、XSS 攻击、隐写工具、社交媒体蛮力、安卓黑客、IDN Homograph 攻击、电子邮件验证、哈希破解、Wifi 取消身份验证、社交媒体查找器、有效载荷注入器、网络爬取、混合工具
* [sbilly/awesome-security](https://github.com/sbilly/awesome-security) 一系列很棒的软件、图书馆、文档、书籍、资源和有关安全的酷炫内容。
* [enaqx/awesome-pentest](https://github.com/enaqx/awesome-pentest) 一系列令人敬畏的渗透测试和攻击性网络安全资源。渗透测试是对计算机系统及其物理基础设施发起授权的模拟攻击,以暴露潜在的安全弱点和漏洞的做法。如果发现漏洞,请按照此指南负责任地报告。
* [prometheus/prometheus](https://github.com/prometheus/prometheus) 系统和服务监控系统。它以给定的时间间隔从配置的目标收集指标,评估规则表达式,显示结果,并在观察到指定条件时触发警报。
* [djsime1/awesome-flipperzero](https://github.com/djsime1/awesome-flipperzero) Flipper Zero设备的精彩资源集合。Flipper Zero配备了多种用于黑客的工具。您有用于模拟遥控器的无线电,RFID阅读器,红外收发器,甚至是GPIO引脚。
* [grafana/grafana](https://github.com/grafana/grafana) 开放、可组合的可观测性和数据可视化平台。可视化来自多个来源的指标、日志和跟踪,如 Prometheus、Loki、Elasticsearch、InfluxDB、Postgres 等等。
* [pinecone-wifi/pinecone](https://github.com/pinecone-wifi/pinecone) WLAN网络审计工具,适合红队使用。它可以通过模块进行扩展,并且设计为在基于 Debian 的操作系统中运行。松果专门用于与树莓派一起使用,作为便携式无线审计盒。
* [Trusted-AI/adversarial-robustness-toolbox](https://github.com/Trusted-AI/adversarial-robustness-toolbox) 用于机器学习安全的 Python 库 - 规避、中毒、提取、推理 - 红蓝团队。Adversarial Robustness Toolbox (ART) 是用于机器学习安全性的 Python 库。ART由Linux基金会人工智能与数据基金会(LF AI & Data)主办。ART 提供的工具使开发人员和研究人员能够防御和评估机器学习模型和应用程序,以应对规避、中毒、提取和推理的对抗性威胁。ART 支持所有流行的机器学习框架(TensorFlow、Keras、PyTorch、MXNet、scikit-learn、XGBoost、LightGBM、CatBoost、GPy 等)、所有数据类型(图像、表格、音频、视频等)和机器学习任务(分类、对象检测、语音识别、生成、认证等)。
* [occlum/occlum](https://github.com/occlum/occlum) 蚂蚁集团自研的开源可信执行环境(Trusted Execution Environments,简称 TEE) OS 系统 Occlum ,大幅降低 SGX 应用开发的门槛.机密计算(Confidential Computing)使得数据始终保持加密和强隔离状态,从而确保用户数据的安全和隐私。
* [LandGrey/domainNamePredictor](https://github.com/LandGrey/domainNamePredictor) 现代公司域名使用规律预测及生成工具
* [Al1ex/Pentest-tools](https://github.com/Al1ex/Pentest-tools) 内网渗透工具:ACL突破、交换、真实劫持、信息收集、内网电话、密码喷洒、密码抓取、密码破解、权限提升、权限维持、横向移动、端口扫描、端口转发、网络嗅探、集成工具
* [1N3/IntruderPayloads](https://github.com/1N3/IntruderPayloads) Burpsuite Intruder 有效载荷、BurpBounty 有效载荷、模糊列表、恶意文件上传和 Web 渗透测试方法和清单的集合。
* [safe6Sec/PentestDB](https://github.com/safe6Sec/PentestDB) 各种数据库的利用姿势
* [evilsocket/jscythe](https://github.com/evilsocket/jscythe) 滥用 node.js 检查器机制以强制任何基于 node.js/electron/v8 的进程执行任意 javascript 代码。
* [michaelweber/Macrome](https://github.com/michaelweber/Macrome) 用于红队和分析师的 Excel 宏文档阅读器/编写器。
* [DonatoReis/arno](https://github.com/DonatoReis/arno) 一个自动化工具,用于安装最流行的漏洞赏金或渗透测试工具! 这将为您在设置机器工作时节省 90% 的时间。
* [olist213/Information_Security_Books](https://github.com/olist213/Information_Security_Books) 信息安全方面的书籍书籍
* [xuanhusec/OscpStudyGroup](https://github.com/xuanhusec/OscpStudyGroup) Oscp公益学习组,包括:小技巧合集、Kali基本操作、常用工具、windows提权汇总、反弹shell方法汇总、靶机推荐列表、缓冲区溢出通关脚本框架、OSCP命令大全、反弹shell方法汇总、linux提权方法汇总、win提权方法汇总、Linux提权辅助、Win提权辅助、渗透测试方法论、靶机练习
* [DanMcInerney/xsscrapy](https://github.com/DanMcInerney/xsscrapy) XSS 蜘蛛 - 检测到 66/66 wavsep XSS
* [mitmproxy/mitmproxy](https://github.com/mitmproxy/mitmproxy) 渗透测试人员和开发人员的交互式 TLS 拦截 HTTP 代理。用于 MITM的 proxy,MITM即中间人攻击(Man-in-the-middle attack)。用于中间人攻击的代理首先会向正常的代理一样转发请求,保障服务端与客户端的通信,其次,会适时的查、记录其截获的数据,或篡改数据,引发服务端或客户端特定的行为。 mitmproxy 不仅可以截获请求帮助开发者查看、分析,更可以通过自定义脚本进行二次开发。
* [teamssix/container-escape-check](https://github.com/teamssix/container-escape-check) Docker 容器逃逸检测
* [KeenSecurityLab/BinAbsInspector](https://github.com/KeenSecurityLab/BinAbsInspector) 静态分析器,用于二进制文件中的自动逆向工程和扫描漏洞。它基于抽象解释,适用于Ghidra的Pcode而不是汇编。目前它支持 x86,x64、armv7 和 aarch64 上的二进制文件。
* [ybdt/post-hub](https://github.com/ybdt/post-hub) 传播代理、C2、免杀、横向、域渗透
* [maK-/parameth](https://github.com/maK-/parameth) 该工具可用于暴力发现 GET 和 POST 参数
* [quasar/Quasar](https://github.com/quasar/Quasar) 适用于 Windows 的免费、开源远程管理工具。用 C# 编码的快速、轻量级的远程管理工具。 使用范围从用户支持到日常管理工作再到员工监控。 提供高稳定性和易于使用的用户界面,是您的完美远程管理解决方案。
* [FreeRDP/FreeRDP](https://github.com/FreeRDP/FreeRDP) 远程桌面协议 (RDP) 的免费实现,在 Apache 许可下发布。 在一个互操作性最终可以解放您的计算体验的世界中,享受随时随地以您想要的方式使用您的软件的自由。
* [Cool-Coding/remote-desktop-control](https://github.com/Cool-Coding/remote-desktop-control) 远程桌面控制(Spring+Netty+Swing)
* [ffuf/ffuf](https://github.com/ffuf/ffuf) Go写的快速网络模糊器 内容发现\虚拟主机发现\参数模糊\POST 模糊测试
* [nelhage/reptyr](https://github.com/nelhage/reptyr) 实用程序,用于获取现有正在运行的程序并将其附加到新终端。 通过 ssh 启动了一个长时间运行的进程,但不得不离开并且不想中断它? 只需启动一个屏幕,使用 reptyr 抓取它,然后终止 ssh 会话并回家。
* [michenriksen/aquatone](https://github.com/michenriksen/aquatone) 跨大量主机对网站进行可视化检查的工具,便于快速了解基于 HTTP 的攻击面。
* [pen4uin/awesome-java-security](https://github.com/pen4uin/awesome-java-security) Java安全☞漏洞研究
* [ac0d3r/Hyuga](https://github.com/ac0d3r/Hyuga) 监控带外(Out-of-Band)流量的工具
* [tomnomnom/httprobe](https://github.com/tomnomnom/httprobe) 获取域列表并探测工作的 HTTP 和 HTTPS 服务器
* [ProjectAnte/dnsgen](https://github.com/ProjectAnte/dnsgen) 根据提供的输入生成域名组合。组合是根据单词表创建的。每次执行都会提取自定义词
* [xuedingmiaojun/wxappUnpacker](https://github.com/xuedingmiaojun/wxappUnpacker) 小程序反编译(支持分包)
* [neargle/my-re0-k8s-security](https://github.com/neargle/my-re0-k8s-security) 从零开始Kubernetes攻防
* [wetools/wept](https://github.com/wetools/wept) 微信小程序多端实时运行工具.支持iOS 安卓 Mac, Win 以及 Linux
* [ffffffff0x/1earn](https://github.com/ffffffff0x/1earn) ffffffff0x 团队维护的安全知识框架,内容包括不仅限于 web安全、工控安全、取证、应急、蓝队设施部署、后渗透、Linux安全、各类靶机writup
* [Power7089/PenetrationTest-Tips](https://github.com/Power7089/PenetrationTest-Tips) 渗透测试小技巧,渗透测试Tips
* [Lotus6/ThinkphpGUI](https://github.com/Lotus6/ThinkphpGUI) Thinkphp 漏洞利用工具,支持各版本TP漏洞检测,命令执行,getshell。
* [frida/frida](https://github.com/frida/frida) 面向开发、逆向工程师和安全研究的动态检测工具。-> [rida.re](https://frida.re/)
* [chaitin/veinmind-tools](https://github.com/chaitin/veinmind-tools) 长亭科技自研,基于 veinmind-sdk 打造的容器安全工具集
* [lintstar/About-Attack](https://github.com/lintstar/About-Attack) 一个旨在通过应用场景 / 标签对 Github 红队向工具 / 资源进行分类收集,降低红队技术门槛的手册
* [RickGray/vscan-go](https://github.com/RickGray/vscan-go) 用于nmap 服务和应用程序版本检测的 golang 版本
* [projectdiscovery/uncover](https://github.com/projectdiscovery/uncover) 使用多个搜索引擎快速发现互联网上暴露的主机。
* [huiyadanli/RevokeMsgPatcher](https://github.com/huiyadanli/RevokeMsgPatcher) PC版微信/QQ/TIM防撤回补丁
* [tombstoneghost/TIWAP](https://github.com/tombstoneghost/TIWAP) 使用 Flask 制作的 Web 安全测试实验室,供新手安全爱好者了解各种 Web 漏洞。
* [qianxiao996/CTF-Tools](https://github.com/qianxiao996/CTF-Tools) Python+Pyqt写的CTF编码、解码、加密、解密工具。
* [AntSwordProject/antSword](https://github.com/AntSwordProject/antSword) 中国蚁剑是跨平台的开源网站管理工具。
* [yzddmr6/As-Exploits](https://github.com/yzddmr6/As-Exploits) 中国蚁剑后渗透框架
* [ph4ntonn/Stowaway](https://github.com/ph4ntonn/Stowaway) 利用go语言编写、专为渗透测试工作者制作的多级代理工具
* [Dliv3/Venom](https://github.com/Dliv3/Venom/) 使用Go开发的多级代理工具。
* [jweny/pocassist](https://github.com/jweny/pocassist) 全新的开源漏洞测试框架,实现poc在线编辑、运行、批量测试。
* [wh1t3p1g/ysomap](https://github.com/wh1t3p1g/ysomap) 一个有用的 Java 反序列化漏洞利用框架。
* [whwlsfb/BurpCrypto](https://github.com/whwlsfb/BurpCrypto) AES/RSA/DES/ExecJs(execute JS encryption code in burpsuite). 支持多种加密算法或直接执行JS代码的用于爆破的BurpSuite插件
* [jonaslejon/malicious-pdf](https://github.com/jonaslejon/malicious-pdf) 生成一堆带有 phone-home 功能的恶意 pdf 文件。可以与 Burp Collaborator 或 Interact.sh 一起使用
* [al0ne/LinuxCheck](https://github.com/al0ne/LinuxCheck) Linux应急处置/信息搜集/漏洞检测工具,支持基础配置/网络流量/任务计划/环境变量/用户信息/Services/bash/恶意文件/内核Rootkit/SSH/Webshell/挖矿文件/挖矿进程/供应链/服务器风险等13类70+项检查
* [ffffffff0x/f8x](https://github.com/ffffffff0x/f8x) 红蓝队环境自动部署工具,支持多场景,渗透,开发,代理,服务可选项等.
* [SafeGroceryStore/Caesar](https://github.com/SafeGroceryStore/Caesar) 一个全新的敏感文件发现工具
* [pen4uin/pentest-note](https://github.com/pen4uin/pentest-note) 渗透测试☞经验/思路/想法/总结/笔记
* [timwhitez/Frog-checkCDN](https://github.com/timwhitez/Frog-checkCDN) 批量检查目标是否为cdn
* [MountCloud/FireKylin](https://github.com/MountCloud/FireKylin) 麒麟-网络安全应急响应工具(系统痕迹采集)
* [helloSystem/hello](https://github.com/helloSystem/hello) 专注于简单、优雅和可用性的创作者桌面系统。基于 FreeBSD。
* [hash3liZer/SillyRAT](https://github.com/hash3liZer/SillyRAT) 用纯 Python 编写的跨平台 RAT。RAT 接受命令和参数,以充当接受连接的服务器或充当与服务器建立连接的客户端/目标。
* [Cyber-Guy1/API-SecurityEmpire](https://github.com/Cyber-Guy1/API-SecurityEmpire) 旨在展示API安全领域独特的攻击和防御方法
* [s0md3v/uro](https://github.com/s0md3v/uro) 整理用于爬行/渗透测试的 url 列表
* [mzet-/linux-exploit-suggester](https://github.com/mzet-/linux-exploit-suggester) Linux提权审计工具 帮助检测给定 Linux 内核/基于 Linux 的机器的安全缺陷。它提供以下功能:评估已知漏洞的内核暴露情况、 验证内核强化安全措施的状态。
* [Idov31/Sandman](https://github.com/Idov31/Sandman) 基于 NTP 的后门,用于强化网络中的红队参与。
* [knownsec/pocsuite3](https://github.com/knownsec/pocsuite3) 由 Knownsec 404 团队开发的开源远程漏洞测试框架。
* [techgaun/github-dorks](https://github.com/techgaun/github-dorks) 通过 github 搜索找到泄露的秘密
* [H4CK3RT3CH/github-dorks](https://github.com/H4CK3RT3CH/github-dorks) Github 搜索是非常强大和有用的功能,可用于搜索存储库中的敏感数据。可以揭示敏感的个人和/或组织信息,例如私钥、凭据、身份验证令牌等。这个列表应该对评估安全性和执行系统的渗透测试很有用。
* [NyDubh3/Pentesting-Active-Directory-CN](https://github.com/NyDubh3/Pentesting-Active-Directory-CN) 域渗透脑图中文翻译版
* [Maka8ka/NGLite](https://github.com/Maka8ka/NGLite) 基于区块链网络的匿名跨平台远控程序 理论上完全的匿名性,当然要是有人监测并分析了所有中间节点除外,目前节点约8W个
* [3xpl01tc0d3r/ProcessInjection](https://github.com/3xpl01tc0d3r/ProcessInjection) 该程序旨在演示各种进程注入技术
* [Le0nsec/SecCrawler](https://github.com/Le0nsec/SecCrawler) 方便安全研究人员获取每日安全日报的爬虫和推送程序,目前爬取范围包括先知社区、安全客、Seebug Paper、跳跳糖、奇安信攻防社区、棱角社区以及绿盟、腾讯玄武、天融信、360等实验室博客,持续更新中。
* [redcode-labs/Coldfire](https://github.com/redcode-labs/Coldfire) Golang 中的恶意软件开发库 提供了各种有用的方法。
* [vxunderground/MalwareSourceCode](https://github.com/vxunderground/MalwareSourceCode) 收集各种不同编程语言、各种平台的恶意软件源代码。
* [hlldz/pickl3](https://github.com/hlldz/pickl3) Windows 活动用户凭据网络钓鱼工具
* [4ra1n/SpringInspector](https://github.com/4ra1n/SpringInspector) Java自动代码审计工具,尤其针对Spring框架,核心原理是模拟JVM栈帧进行分析,无需提供源码,通过一个JAR包即可
* [Tencent/secguide](https://github.com/Tencent/secguide) 面向开发人员梳理的代码安全指南
* [slowmist/cryptocurrency-security](https://github.com/slowmist/cryptocurrency-security) 加密资产安全解决方案
* [xmendez/wfuzz](https://github.com/xmendez/wfuzz) 在 HTTP 请求的任何字段中注入任何输入,允许在不同的 Web 应用程序组件中执行复杂的 Web 安全攻击,例如:参数、身份验证、表单、目录/文件、标头等。一个完全模块化的Python框架
* [Ryze-T/Sylas](https://github.com/Ryze-T/Sylas) 数据库综合利用工具
* [lab52io/LeakedHandlesFinder](https://github.com/lab52io/LeakedHandlesFinder) 泄露的 Windows 进程句柄识别工具
* [pen4uin/cloud-native-security](https://github.com/pen4uin/cloud-native-security) 云原生安全
* [weixinbao/ReverseTool](https://github.com/weixinbao/ReverseTool) 逆向工具集合 Java & Jar (Android)、 C++ & So (Android)、 C# & Dll & EXE、iOS
* [p0dalirius/DumpSMBShare](https://github.com/p0dalirius/DumpSMBShare) 从 Windows 共享 SMB 转储文件和文件夹的脚本。
* [yhy0/github-cve-monitor](https://github.com/yhy0/github-cve-monitor) 实时监控github上新的cve和工具更新,多渠道推送通知
* [whydee86/PlayWithDefender](https://github.com/whydee86/PlayWithDefender) 禁用和启用 Windows 防御者保护的简单工具
* [xiecat/fofax](https://github.com/xiecat/fofax) 基于[ofa.info](https://fofa.info/) API 的命令行查询工具
* [AntSwordProject/AntSword-Loader](https://github.com/AntSwordProject/AntSword-Loader) 蚁剑加载器
* [swisskyrepo/PayloadsAllTheThings](https://github.com/swisskyrepo/PayloadsAllTheThings) Web 应用程序安全和 Pentest/CTF 的有用有效负载和绕过列表
* [payloadbox/sql-injection-payload-list](https://github.com/payloadbox/sql-injection-payload-list) SQL 注入负载列表
* [projectdiscovery/interactsh](https://github.com/projectdiscovery/interactsh) OOB交互收集服务器和客户端库。用于检测带外交互的开源工具。它是一种旨在检测导致外部交互的漏洞的工具。
* [4ra1n/JavaSecInterview](https://github.com/4ra1n/JavaSecInterview) Java安全研究与安全开发面试题库,同是也是常见知识点的梳理和总结,包含问题和详细的答案,计划定期更新
* [devanshbatham/Awesome-Bugbounty-Writeups](https://github.com/devanshbatham/Awesome-Bugbounty-Writeups) 精选 bugbounty 文章列表(Bug 类型)包括:跨站脚本 (XSS)、跨站请求伪造 (CSRF)、点击劫持(UI Redressing Attack)、本地文件包含 (LFI)、子域接管、拒绝服务 (DOS)、身份验证绕过、SQL注入、不安全的直接对象引用 (IDOR)、2FA 、CORS 、服务器端请求伪造 (SSRF)、远程代码执行 (RCE)、安卓渗透测试
* [Impact-I/reFlutter](https://github.com/Impact-I/reFlutter) Flutter 逆向工程框架
* [m4ll0k/Atlas](https://github.com/m4ll0k/Atlas) 快速 SQLMap 篡改建议器.Quick SQLMap Tamper Suggester
* [AntSwordProject/ant](https://github.com/AntSwordProject/ant) 实时上线的 XSS 盲打平台
* [Lazenca/Kernel-exploit-tech](https://github.com/Lazenca/Kernel-exploit-tech) Linux 内核开发教程。
* [mstxq17/VunHunterTips](https://github.com/mstxq17/VunHunterTips) 漏洞挖掘技巧及其一些工具集成 。端口扫描、APP挖掘、BugbountyTips、SQL注入、SSRF、XSS、burp技巧、信息收集、信息泄露、另类漏洞挖掘、字典、常用扫描器、并发漏洞、弱口令Fuzz、文件读取、浏览器技巧、目录扫描、设备弱口令、越权相关、跳转redirect。
* [rabbitmask/WeblogicScan](https://github.com/rabbitmask/WeblogicScan) Weblogic一键漏洞检测工具
* [BeichenDream/Godzilla](https://github.com/BeichenDream/Godzilla) 内置3种Payload以及6种加密器,6种支持脚本后缀,20内置插件
* [Chora10/Cknife](https://github.com/Chora10/Cknife) 跨平台的基于配置文件的中国菜刀(渗透测试工具),把所有操作给予用户来定义,主程序只是图形的展示,以及数据的发送。
* [b1ackc4t/MarsCTF](https://github.com/b1ackc4t/MarsCTF) Vue+Springboot开发的CTF学习平台,提供动态靶机、学习模块、writeup模块等等CTF平台的核心功能。提供docker版本
* [xuanhun/PythonHackingBook1](https://github.com/xuanhun/PythonHackingBook1) Python黑客编程之极速入门 教程分为6个大的部分:Python编程基础 网络安全 Web应用安全 漏洞利用 逆向.
* [VMsec/iisScaner](https://github.com/VMsec/iisScaner) 多线程批量检测IIS短文件名漏洞+漏洞利用
* [shimmeris/SCFProxy](https://github.com/shimmeris/SCFProxy) 利用云函数实现各种功能的工具。HTTP 代理\SOCKS5 代理\接收反弹 shell\C2 域名隐藏
* [AnLoMinus/Bug-Bounty](https://github.com/Anlominus/Bug-Bounty) 很棒的漏洞赏金工具
* [daffainfo/Oneliner-Bugbounty](https://github.com/daffainfo/Oneliner-Bugbounty) 用于 bug 赏金的集合 oneliner 脚本
* [daffainfo/AllAboutBugBounty](https://github.com/daffainfo/AllAboutBugBounty) 关于漏洞赏金(绕过、有效负载等)
* [hfiref0x/UACME](https://github.com/hfiref0x/UACME) 通过滥用内置的 Windows AutoElevate 后门来获取Windows 用户帐户控制。
* [ezshine/wxapkg-convertor](https://github.com/ezshine/wxapkg-convertor) 反编译微信小程序的工具,仓库也收集各种微信小程序/小游戏.wxapkg文件
* [outflanknl/C2-Tool-Collection](https://github.com/outflanknl/C2-Tool-Collection) 通过 BOF 和反射 DLL 加载技术与 Cobalt Strike(以及可能的其他 C2 框架)集成的工具集合。
* [J0o1ey/BountyHunterInChina](https://github.com/J0o1ey/BountyHunterInChina) 重生之我是赏金猎人系列,分享自己和团队在SRC、项目实战漏洞测试过程中的有趣案例
* [metaStor/SpringScan](https://github.com/metaStor/SpringScan) SpringScan 漏洞检测 Burp插件
* [biggerduck/RedTeamNotes](https://github.com/biggerduck/RedTeamNotes) 红队笔记 ,涉及代码审计/打点/免杀/内网渗透等方向
* [DawnFlame/POChouse](https://github.com/DawnFlame/POChouse) POC&EXP仓库、hvv弹药库、Nday、1day
* [vavkamil/awesome-bugbounty-tools](https://github.com/vavkamil/awesome-bugbounty-tools) 各种错误bug赏金工具的精选列表
* [cdk-team/CDK](https://github.com/cdk-team/CDK) 为容器环境定制的渗透测试工具,在已攻陷的容器内部提供零依赖的常用命令及PoC/EXP。集成Docker/K8s场景特有的 逃逸、横向移动、持久化利用方式,插件化管理。
* [projectdiscovery/nuclei-templates](https://github.com/projectdiscovery/nuclei-templates) 社区核心引擎模板列表,用于查找安全漏洞。
* [Junehck/SQL-injection-bypass](https://github.com/Junehck/SQL-injection-bypass) 记录实战中的各种sql注入绕过姿势. 脏数据绕过waf\emoji绕过waf\注释符绕过waf\%00绕过waf\中间件特性绕过waf\关键字替换绕过waf\base64绕waf\全局替换绕过
* [codeyso/CodeTest](https://github.com/codeyso/CodeTest) 脚本工具合集GUI版本,内置漏洞验证、利用模块,可自定义脚本实现批量验证。
* [G4rb3n/IoT_Sec_Tutorial](https://github.com/G4rb3n/IoT_Sec_Tutorial) IoT安全教程 01-提取IoT固件 02-静态分析IoT固件 03-动态分析IoT固件 04-解密dlink固件 05-修复固件运行环境
* [CTF-MissFeng/NmapBrutes](https://github.com/CTF-MissFeng/NmapBrutes) 解析nmap扫描结果,并调用hydra进行暴力破解
* [YDHCUI/manjusaka](https://github.com/YDHCUI/manjusaka) 基于WEB界面的仿CobaltStrike C2远控
* [reidmu/sec-note](https://github.com/reidmu/sec-note) 记录安全方面的笔记/工具/漏洞合集
* [erev0s/VAmPI](https://github.com/erev0s/VAmPI) 用 Flask 制作的易受攻击的 API,它包括来自 OWASP 前 10 个 API 漏洞的漏洞。
* [FirmWire/FirmWire](https://github.com/FirmWire/FirmWire) 一个全系统基带固件仿真平台,用于对智能手机基带固件进行模糊测试、调试和根本原因分析
* [BWASP/BWASP](https://github.com/BWASP/BWASP) 一个开源的分析工具,用于支持 Web 漏洞手动分析
* [djadmin/awesome-bug-bounty](https://github.com/djadmin/awesome-bug-bounty) Bug 赏金计划的综合列表和文章。
* [Gapsdehal/awesome-ctf](https://github.com/apsdehal/awesome-ctf) [Capture The Flag](https://en.wikipedia.org/wiki/Capture_the_flag%23Computer_security) (CTF) 框架、库、资源、软件和教程的精选列表。此列表旨在帮助初学者和经验丰富的 CTF 玩家在一个地方找到与 CTF 相关的所有内容。
* [Viralmaniar/BigBountyRecon](https://github.com/Viralmaniar/BigBountyRecon) 使用 58 种不同的技术,使用各种 Google dorks 和开源工具来加快对目标组织的初始侦察过程。
* [j3ssie/osmedeus](https://github.com/j3ssie/osmedeus) Osmedeus 是用于进攻性安全的工作流引擎。它旨在构建具有能力和灵活性的基础,使您能够构建自己的侦察系统并在大量目标上运行它。
* [hahwul/dalfox](https://github.com/hahwul/dalfox) 一款功能强大的开源 XSS 扫描工具和参数分析器、实用工具
* [streaak/keyhacks](https://github.com/streaak/keyhacks) KeyHacks 展示了可以使用在错误赏金计划中找到的特定 API key密钥的方法,以检查它们是否有效。
* [p1ngul1n0/blackbird](https://github.com/p1ngul1n0/blackbird) 一个 OSINT 工具,用于在社交网络中按用户名搜索帐户。
* [NextronSystems/ransomware-simulator](https://github.com/NextronSystems/ransomware-simulator) 用 Golang 编写的勒索软件模拟器
* [epsylon/xsser](https://github.com/epsylon/xsser) Cross Site "Scripter" (aka XSSer) 是一个自动框架,用于检测、利用和报告基于 Web 的应用程序中的 XSS 漏洞。
* [0xJin/awesome-bugbounty-builder](https://github.com/0xJin/awesome-bugbounty-builder) 令人敬畏的bug赏金建设者项目
* [OTRF/ThreatHunter-Playbook](https://github.com/OTRF/ThreatHunter-Playbook) 一个社区驱动的开源项目,用于共享检测逻辑、对手的技术和资源,以提高检测开发的效率。
* [EdOverflow/bugbounty-cheatsheet](https://github.com/EdOverflow/bugbounty-cheatsheet) 漏洞猎人的载荷、提示和技巧的列表。
* [lanmaster53/recon-ng](https://github.com/lanmaster53/recon-ng) 开源情报收集工具,减少从开源收集信息所花费的时间。
* [projectdiscovery/httpx](https://github.com/projectdiscovery/httpx) 快速且多用途的 HTTP 工具包,它允许使用 retryablehttp 库运行多个探针。它旨在通过增加线程数来保持结果可靠性。
* [s0md3v/Arjun](https://github.com/s0md3v/Arjun) HTTP 参数发现套件。它使用包含 25,890 个参数名称的巨大默认字典找到有效的 HTTP 参数。
* [ron190/jsql-injection](https://github.com/ron190/jsql-injection) 用于自动 SQL 数据库注入的 Java 应用程序。
* [defparam/smuggler](https://github.com/defparam/smuggler) HTTP 请求走私/去同步测试工具.请求走私大多发生于前端服务器和后端服务器对客户端传入的数据理解不一致的情况。这是因为HTTP规范提供了两种不同的方法来指定请求的结束位置,即 Content-Length 和 Transfer-Encoding 标头。[协议层的攻击——HTTP请求走私](https://paper.seebug.org/1048/)
* [smicallef/spiderfoot](https://github.com/smicallef/spiderfoot) 自动化 OSINT 以获取威胁情报并映射您的攻击面。
* [jaeles-project/jaeles](https://github.com/jaeles-project/jaeles) 用于自动化 Web 应用程序测试的瑞士军刀
* [FortyNorthSecurity/EyeWitness](https://github.com/FortyNorthSecurity/EyeWitness) 截取网站截图,提供一些服务器标头信息,并在可能的情况下识别默认凭据。分析不同的 Web 应用程序,并将相似的 Web 应用程序分组在一起,那么可以很容易地快速分类/查看您想要定位的组。
* [tomnomnom/meg](https://github.com/tomnomnom/meg) 为许多主机获取许多路径 - 不杀死主机
* [lc/gau](https://github.com/lc/gau) 从 AlienVault 的 Open Threat Exchange、Wayback Machine 和 Common Crawl 获取已知 URL。
* [fuzzdb-project/fuzzdb](https://github.com/fuzzdb-project/fuzzdb) 黑盒应用程序故障注入和资源发现的攻击模式和原语字典。
* [jhaddix/tbhm](https://github.com/jhaddix/tbhm) Bug Hunters 漏洞猎人方法论
* [HolyBugx/HolyTips](https://github.com/HolyBugx/HolyTips) 关于漏洞赏金狩猎和 Web 安全性的注释、清单、文章的集合。
* [nahamsec/Resources-for-Beginner-Bug-Bounty-Hunters](https://github.com/nahamsec/Resources-for-Beginner-Bug-Bounty-Hunters) 初学者漏洞猎人资源
* [ncabatoff/process-exporter](https://github.com/ncabatoff/process-exporter) 挖掘 /proc 以报告选定进程的 Prometheus 导出器
* [lu2ker/PHP-Code](https://github.com/lu2ker/PHP-Code) 通过ThinkPHP框架学习PHP代码审计
* [UzJu/Cloud-Bucket-Leak-Detection-Tools](https://github.com/UzJu/Cloud-Bucket-Leak-Detection-Tools) 六大云存储,泄露利用检测工具
* [JDArmy/DCSec](https://github.com/JDArmy/DCSec) 专注于域控安全
* [0xsanny/solsec](https://github.com/0xsanny/solsec) 用于研究 Solana 智能合约安全、审计和漏洞利用的资源集合。
* [kadenzipfel/smart-contract-attack-vectors](https://github.com/kadenzipfel/smart-contract-attack-vectors) 智能合约攻击向量以及预防方法。
* [Sakurasan/scf-proxy](https://github.com/Sakurasan/scf-proxy) 云函数代理服务
* [teamssix/twiki](https://github.com/teamssix/twiki) 面向云安全方向的知识库
* [Getshell/LinuxTQ](https://github.com/Getshell/LinuxTQ) Linux提权方法论 包括提权漏洞原理或方法工具等。Linux提权在后渗透过程中较为重要,尤其是对于权限维持至关重要。
* [rootkit-io/awesome-malware-development](https://github.com/rootkit-io/awesome-malware-development) 恶意软件开发资源的列表
* [Yyyyshen/HackTechLearning](https://github.com/Yyyyshen/HackTechLearning) 学习《Windows黑客编程技术详解》 每个例子都有
* [KathanP19/HowToHunt](https://github.com/KathanP19/HowToHunt) 收集各种 Web 漏洞的方法和测试用例。[->gitbook](https://kathan19.gitbook.io/howtohunt/)
* [HummerRisk/HummerRisk](https://github.com/HummerRisk/HummerRisk) 云原生安全平台,包括混合云安全治理和安全检测。
* [wangyu-/udp2raw](https://github.com/wangyu-/udp2raw) 使用原始套接字将 UDP 流量转换为加密的 UDP/FakeTCP/ICMP 流量的隧道,帮助您绕过 UDP 防火墙(或不稳定的 UDP 环境)
* [iagox86/dnscat2](https://github.com/iagox86/dnscat2) 通过 DNS 协议创建加密的命令和控制 (C&C) 通道,这是几乎每个网络的有效通道。
* [SECFORCE/Tunna](https://github.com/SECFORCE/Tunna) 通过 HTTP 包装和隧道化任何 TCP 通信。 它可用于绕过完全防火墙环境中的网络限制。
* [sensepost/reGeorg](https://github.com/sensepost/reGeorg) reDuce 的继任者,拥有堡垒 Web 服务器并通过 DMZ 创建 SOCKS 代理。
* [XTLS/Xray-core](https://github.com/XTLS/Xray-core) 穿透一切。也是最好的v2ray核心,支持XTLS。完全兼容的配置。
* [vaxilu/x-ui](https://github.com/vaxilu/x-ui) 支持多协议多用户的 xray 面板,支持的协议:vmess、vless、trojan、shadowsocks、dokodemo-door、socks、http
* [hq450/fancyss](https://github.com/hq450/fancyss) 为ASUSWRT / Merlin的路由器提供代理工具。
* [mack-a/v2ray-agent](https://github.com/mack-a/v2ray-agent) Xray多合一一键脚本
* [shadowsocks/shadowsocks-rust](https://github.com/shadowsocks/shadowsocks-rust) Rust 的 shadowsocks 接口
* [apernet/hysteria](https://github.com/apernet/hysteria) 一个强大、闪电般快速且无审查的代理。广泛的模式范围,包括SOCKS5,HTTP代理,TCP / UDP转发,Linux TProxy - 更不用说不断添加的其他功能。Hysteria 由自定义 QUIC 协议提供支持,即使在最不可靠和最有损的网络上也能提供无与伦比的性能。我们的协议旨在伪装成标准的HTTP / 3流量,因此很难在不造成广泛附带损害的情况下进行检测和阻止。我们有针对所有主要平台和架构的构建。随处部署,随处使用。凭借对自定义身份验证、流量统计和访问控制的内置支持,Hysteria 可以轻松集成到您的基础设施中。
* [yichengchen/clashX](https://github.com/yichengchen/clashX) 简单轻量化的代理客户端,HTTP/HTTPS 和 SOCKS 协议,地理 IP 规则支持,浪涌式配置,支持Vmess/Shadowsocks/Socks5/Trojan,支持 Netfilter TCP 重定向
* [L-codes/Neo-reGeorg](https://github.com/L-codes/Neo-reGeorg) 积极重构 reGeorg 的项目,目的是:提高可用性,避免特征检测\提高 tunnel 连接安全性\提高传输内容保密性\应对更多的网络环境场景下使用
* [Endava/cats](https://github.com/Endava/cats) REST API 模糊器和 OpenAPI 端点的负面测试工具。CATS 以最少的配置自动生成、运行和报告测试,无需编码工作。测试是自我修复的,不需要维护。
* [t3l3machus/toxssin](https://github.com/t3l3machus/toxssin) XSS 利用命令行界面和有效负载生成器。
* [FeeiCN/GSIL](https://github.com/FeeiCN/GSIL) GitHub敏感信息泄露监控
* [TophantTechnology/ARL](https://github.com/TophantTechnology/ARL) 资产侦察灯塔系统旨在快速侦察与目标关联的互联网资产,构建基础资产信息库。 协助甲方安全团队或者渗透测试人员有效侦察和检索资产,发现存在的薄弱点和攻击面。
* [banach-space/llvm-tutor](https://github.com/banach-space/llvm-tutor) 用于教学和学习的 out-of-tree LLVM passes 的集合
* [optiv/Mangle](https://github.com/optiv/Mangle) 可操纵已编译的exe 或 DLL的各个方面,以避免被 EDR 检测到
* [0xrawsec/whids](https://github.com/0xrawsec/whids) 适用于 Windows 的开源 EDR(终端检测与响应)
* [MatrixTM/MHDDoS](https://github.com/MatrixTM/MHDDoS) 最佳 DDoS 攻击脚本 Python3,有 56 种方法
* [D3Ext/WEF](https://github.com/D3Ext/WEF) 一个完全攻击 802.11 网络和协议的框架,具有针对 WPA/WPA2 和 WEP 的不同类型的攻击、自动哈希破解等。
* [ainfosec/FISSURE](https://github.com/ainfosec/FISSURE) 与频率无关的基于 SDR 的信号理解和逆向工程。开源 RF 和逆向工程框架,专为所有技能水平而设计,具有用于信号检测和分类、协议发现、攻击执行、IQ 操纵、漏洞分析、自动化和 AI/ML 的钩子。 该框架旨在促进软件模块、无线电、协议、信号数据、脚本、流程图、参考资料和第三方工具的快速集成。友好的 Python 代码库和界面允许初学者快速了解涉及 RF 和逆向工程的流行工具和技术。
* [RedTeamPentesting/pretender](https://github.com/RedTeamPentesting/pretender) 您的 MitM 助手,用于中继攻击,具有 DHCPv6 DNS 接管以及 mDNS、LLMNR 和 NetBIOS-NS 欺骗。
* [r0uble-mAker/POC-bomber](https://github.com/tr0uble-mAker/POC-bomber) 漏洞检测/利用工具,利用大量高危漏洞的POC/EXP快速获取目标服务器权限 支持weblogic,tomcat,apache,jboss,nginx,struct2,thinkphp2x3x5x,spring,redis,jenkins,php语言漏洞,shiro,泛微OA,致远OA,通达OA等易受攻击组件的漏洞检测,支持调用dnslog检测无回显的rce(包括log4j2的检测),支持单目标和批量检测,程序采用高并发线程池,支持自定义导入poc/exp,并能够生成漏洞报告.使用验证模式进行poc的验证,如返回结果中attack的值为True时,可以加-attack进入攻击模式直接调用exp进行攻击(需要指定poc文件名),达到一键getshell
* [mitre/caldera](https://github.com/mitre/caldera) 一个网络安全平台,旨在轻松实现对手模拟的自动化、协助手动红队和自动化事件响应。
* [onekey-sec/unblob](https://github.com/onekey-sec/unblob) 准确、快速且易于使用的提取套件。 它为超过 30 种不同的存档、压缩和文件系统格式解析未知二进制 blob,递归地提取它们的内容,并分割出尚未考虑的未知块。这使 unblob 成为提取、分析和逆向工程固件映像的完美伴侣。
* [outflanknl/EvilClippy](https://github.com/outflanknl/EvilClippy) 用于创建恶意 MS Office 文档的跨平台助手。 可以隐藏 VBA 宏,踩踏 VBA 代码(通过 P-Code)并混淆宏分析工具。
* [decalage2/oletools](https://github.com/decalage2/oletools) 用于分析 MS OLE2 文件(结构化存储、复合文件二进制格式)和 MS Office 文档的 python 工具,用于恶意软件分析、取证和调试。
* [hluwa/frida-dexdump](https://github.com/hluwa/frida-dexdump) frida 工具,将dex转储到内存中以分析恶意软件。
* [1ndianl33t/Bug-Bounty-Roadmaps](https://github.com/1ndianl33t/Bug-Bounty-Roadmaps) Bug赏金路线图
* [stark0de/nginxpwner](https://github.com/stark0de/nginxpwner) 用于查找常见的 Nginx 配置错误和漏洞。
* [Ettercap/ettercap](https://github.com/Ettercap/ettercap) 中间人攻击的综合套件。 它具有实时连接嗅探、动态内容过滤和许多其他有趣的技巧。 它支持对许多协议的主动和被动剖析,并包括许多用于网络和主机分析的功能。
* [zhkl0228/unidbg](https://github.com/zhkl0228/unidbg) 允许您模拟 Android 本机库和实验性 iOS 模拟
* [qilingframework/qiling](https://github.com/qilingframework/qiling) 真正可检测的二进制仿真框架
* [BeichenDream/PrintNotifyPotato](https://github.com/BeichenDream/PrintNotifyPotato) 使用PrintNotify COM服务进行提权。适用于Windows 10 – 11、Windows Server 2012 – 2022
* [redteamsocietegenerale/DLLirant](https://github.com/redteamsocietegenerale/DLLirant) 自动的DLL劫持研究一个特定的二进制
* [wecooperate/iMonitor](https://github.com/wecooperate/iMonitor) 冰镜 - 终端行为分析系统,提供了对进程、文件、注册表、网络等系统行为的监控。支持扩展和脚本,可以轻易定制和添加更多功能。可以用于病毒分析、软件逆向、入侵检测,EDR等。
* [7dog7/bottleneckOsmosis](https://github.com/7dog7/bottleneckOsmosis) 瓶颈渗透,web渗透,red红队,fuzz param,注释,js字典,ctf
* [rootkiter/EarthWorm](https://github.com/rootkiter/EarthWorm) 便携式的网络穿透工具,具有 SOCKS v5服务架设和端口转发两大核心功能,可在复杂网络环境下完成网络穿透。
* [OWASP/crAPI](https://github.com/OWASP/crAPI) 将帮助您了解十个最关键的API安全风险。crAPI 在设计上是脆弱的,但您将能够安全地运行它来教育/培训自己。
* [DavidBuchanan314/dlinject](https://github.com/DavidBuchanan314/dlinject) 将共享库(即任意代码)注入实时 Linux 进程,无需跟踪
* [CoolerVoid/casper-fs](https://github.com/CoolerVoid/casper-fs) 一个自定义隐藏的 Linux 内核模块生成器。每个模块都在文件系统中工作,以保护和隐藏机密文件。
* [DataDog/threatest](https://github.com/DataDog/threatest) 一个用于端到端测试威胁检测规则的 CLI 和 Go 框架。
* [Idov31/MrKaplan](https://github.com/Idov31/MrKaplan) 帮助红队成员通过清除处决证据来隐藏。
* [Chuyu-Team/Dism-Multi-language](https://github.com/Chuyu-Team/Dism-Multi-language) Dism++ (功能全面的Windows系统精简工具)多语言支持和 BUG 报告.
* [acidanthera/OpenCorePkg](https://github.com/acidanthera/OpenCorePkg) 带有开发SDK的OpenCore引导加载程序。
* [radareorg/radare2](https://github.com/radareorg/radare2) 类 UNIX 逆向工程框架和命令行工具集。最初是一个简单的命令行十六进制编辑器,专注于取证。今天,r2 是一个功能丰富的低级命令行工具,支持脚本编写。R2 可以编辑本地硬盘驱动器上的文件、查看内核内存以及在本地或通过远程 GDB 服务器调试程序。R2 广泛的架构支持允许您分析、模拟、调试、修改和反汇编任何二进制文件。
* [2dust/v2rayN](https://github.com/2dust/v2rayN) 适用于Windows的GUI客户端,支持Xray核心和v2fly核心等
* [233boy/v2ray](https://github.com/233boy/v2ray) 最好用的 V2Ray 一键安装脚本 & 管理脚本
* [FelisCatus/SwitchyOmega](https://github.com/FelisCatus/SwitchyOmega) 快速轻松地在多个代理之间管理和切换。该项目可作为Chromium扩展。
* [xtaci/kcptun](https://github.com/xtaci/kcptun) 基于 KCP 的可靠、安全的隧道,使用 N:M 多路复用和 FEC。
* [amark/gun](https://github.com/amark/gun) 用于同步分散图形数据的开源网络安全协议。GUN是一个工具生态系统,可让您构建社区运行和加密的应用程序 - 例如开源Firebase或Decentralized Dropbox。
* [GreyDGL/PentestGPT](https://github.com/GreyDGL/PentestGPT) GPT 支持的渗透测试工具。由大型语言模型(LLM)提供支持的渗透测试工具。它旨在自动化渗透测试过程。它建立在 ChatGPT 之上,并以交互模式运行,以指导渗透测试人员的整体进度和特定操作。
* [Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning](https://github.com/Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning) 使用机器学习算法开发入侵检测系统(决策树,随机森林,额外树,XGBoost,堆栈,k均值,贝叶斯优化..)
* [skylot/jadx](https://github.com/skylot/jadx) Dex to Java 反编译器,命令行和GUI工具,用于从Android Dex和Apk文件生成Java源代码
* [Konloch/bytecode-viewer](https://github.com/Konloch/bytecode-viewer) 字节码查看器 - 轻量级的用户友好型Java / Android字节码查看器,反编译器等。
* [pluja/awesome-privacy](https://github.com/pluja/awesome-privacy) 令人敬畏的隐私 - 尊重您的隐私的精选服务和替代方案列表,因为隐私很重要。
* [k4m4/movies-for-hackers](https://github.com/k4m4/movies-for-hackers) 每个黑客和赛博朋克都必须观看的电影的精选列表。
* [WerWolv/ImHex](https://github.com/WerWolv/ImHex) 一个十六进制编辑器,适用于逆向工程师、程序员和在凌晨 3 点工作时重视视网膜的人。
* [GTFOBins/GTFOBins.github.io](https://github.com/GTFOBins/GTFOBins.github.io) Unix 二进制文件的精选列表,可用于绕过配置错误的系统中的本地安全限制
* [sharkdp/hexyl](https://github.com/sharkdp/hexyl) 命令行十六进制查看器
* [LC044/WeChatMsg](https://github.com/LC044/WeChatMsg) 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告
* [carlospolop/PEASS-ng](https://github.com/carlospolop/PEASS-ng) 适用于 Win、Linux/Unix* 和 MacOS 的权限提升工具。
* [imthenachoman/How-To-Secure-A-Linux-Server](https://github.com/imthenachoman/How-To-Secure-A-Linux-Server) 用于保护 Linux 服务器的不断发展的操作指南。
* [v1s1t0r1sh3r3/airgeddon](https://github.com/v1s1t0r1sh3r3/airgeddon) 多用途的 bash 脚本,用于 Linux 系统审计无线网络。
* [slackhq/nebula](https://github.com/slackhq/nebula) 可扩展的 Overlay 网络工具,专注于性能、简单性和安全性。它可以让您无缝连接世界任何地方的计算机。Nebula 是可移植的,可以在 Linux、OSX、Windows、iOS 和 Android 上运行。它可以用来连接少量的计算机,但也能够连接数以万计的计算机。Nebula 包含了许多现有概念,如加密、安全组、证书和隧道,这些单独的部分在 Nebula 之前就以各种形式存在。Nebula 与现有产品的不同之处在于,它将所有这些想法结合在一起,从而产生一个大于其各个部分的总和。
* [threat9/routersploit](https://github.com/threat9/routersploit) 专用于嵌入式设备的开源渗透测试开发框架。
* [wifiphisher/wifiphisher](https://github.com/wifiphisher/wifiphisher) 流氓接入点框架,用于执行红队参与或 Wi-Fi 安全测试。使用 Wifiphisher,渗透测试人员可以通过执行有针对性的 Wi-Fi 关联攻击,轻松实现针对无线客户端的中间人位置。Wifiphisher 可以进一步用于对连接的客户端发起受害者定制的网络钓鱼攻击,以捕获凭据(例如来自第三方登录页面或 WPA/WPA2 预共享密钥)或用恶意软件感染受害者站。
* [danluu/post-mortems](https://github.com/danluu/post-mortems) 互联网公司和平台事故及相关故障的事后分析的集合。
* [Manisso/fsociety](https://github.com/Manisso/fsociety) fsociety 黑客工具包 – 渗透测试框架
* [Tencent/secguide](https://github.com/Tencent/secguide) 面向开发人员梳理的代码安全指南,旨在梳理API层面的风险点并提供详实可行的安全编码方案。
* [evilsocket/pwnagotchi](https://github.com/evilsocket/pwnagotchi) 基于 A2C 的“AI”,它利用 bettercap 从其周围的 WiFi 环境中学习,以最大限度地利用它捕获的可破解 WPA 密钥材料(被动或通过执行身份验证和关联攻击)。此材料以 PCAP 文件的形式收集,其中包含 hashcat 支持的任何形式的握手,包括 PMKID、全 WPA 握手和半 WPA 握手。
* [carlospolop/hacktricks](https://github.com/carlospolop/hacktricks) 黑客技巧,找到我从 CTF、现实生活中的应用程序、阅读研究和新闻中学到的每个黑客技巧/技术/任何内容。
* [vpncn/vpncn.github.io](https://github.com/vpncn/vpncn.github.io) 2024中国VPN推荐以及上网,稳定好用。对比SSR、蓝灯、V2ray、VPS搭梯等上网软件,中国最新上网下载推荐,访问Chatgpt。
* [infosecn1nja/Red-Teaming-Toolkit](https://github.com/infosecn1nja/Red-Teaming-Toolkit) 包含尖端的开源安全工具 (OST),这些工具将在对手模拟期间为您提供帮助,并且用于威胁猎人的信息可以更轻松地进行检测和预防控制。以下工具列表可能被 APT 和人为勒索软件 (HumOR) 等威胁行为者滥用。如果您想为此列表做出贡献,请向我发送拉取请求。
* [trimstray/the-practical-linux-hardening-guide](https://github.com/trimstray/the-practical-linux-hardening-guide) 本指南详细介绍了如何创建安全的 Linux 生产系统。OpenSCAP(C2S/CIS、STIG)。
* [anderspitman/awesome-tunneling](https://github.com/anderspitman/awesome-tunneling) 此列表的目的是跟踪和比较隧道解决方案。这主要针对那些想要做一些事情的自托管者和开发人员,例如通过公共域名公开本地 Web 服务器,使用自动 HTTPS,即使在 NAT 或其他受限网络后面也是如此。
* [yaklang/yakit](https://github.com/yaklang/yakit) 网络安全一体化平台,基于安全融合的理念,Yaklang.io 团队研发出了安全领域垂直语言Yaklang,对于一些无法原生集成在 Yak 平台中的产品/工具,利用Yaklang可以重新编写他们的“高质量替代”。对于一些生态完整且认可度较高的产品,Yaklang能直接编译融合,并对源码进行必要修改,更好地适配Yaklang语言。对于一些不想写代码的安全从业者,Yakit会为Yaklang中所有的能力提供合适的GUI。
* [chaitin/safeline](https://github.com/chaitin/safeline) 一款足够简单、足够好用、足够强的免费 WAF。基于业界领先的语义引擎检测技术,作为反向代理接入,保护你的网站不受黑客攻击。核心检测能力由智能语义分析算法驱动,专为社区而生,不让黑客越雷池半步。
* [Safe3/uuWAF](https://github.com/Safe3/uuWAF) 工业级免费、高性能、高扩展,支持AI和语义引擎的Web应用和API安全防护产品-南墙。Web应用防火墙、WAF、WAAP
* [Atlas-OS/Atlas](https://github.com/Atlas-OS/Atlas) 对 Windows 的开放和轻量级修改,旨在优化性能、隐私和安全性。它通过消除对游戏性能产生负面影响的因素来增强 Windows。优化包括增强的隐私性、可用性、性能和更改,以最大限度地减少卡顿和输入延迟,同时专注于维护功能。Atlas 删除了 Windows 中嵌入的大部分遥测数据,并实施了许多组策略,以最大程度地减少数据收集。但是,它无法确保 Windows 范围之外的隐私,例如浏览器和其他第三方应用程序。Atlas在性能和兼容性之间取得了平衡。它实现了许多有意义的更改,以提高 Windows 性能和响应能力,而不会破坏基本功能。Atlas不会对安慰剂效应或边际收益进行调整,使Atlas更加稳定和兼容。
* [wazuh/wazuh](https://github.com/wazuh/wazuh) 开源安全平台。为端点和云工作负载提供统一的 XDR 和 SIEM 保护。免费的开源平台,用于威胁预防、检测和响应。它能够保护本地、虚拟化、容器化和基于云的环境的工作负载。Wazuh 解决方案由部署到受监控系统的端点安全代理和用于收集和分析代理收集的数据的管理服务器组成。此外,Wazuh 已与 Elastic Stack 完全集成,提供搜索引擎和数据可视化工具,允许用户浏览他们的安全警报。
* [veeral-patel/how-to-secure-anything](https://github.com/veeral-patel/how-to-secure-anything) 如何保护任何东西,安全工程是构建安全系统的学科。它的经验教训不仅适用于计算机安全。事实上,在这个 repo 中,我的目标是记录一个保护任何东西的过程,无论是中世纪城堡、艺术博物馆还是计算机网络。没有所谓的系统是安全的,只有针对特定对手的安全。这就是为什么了解你的对手是谁,以及每个对手背后的动机和能力很重要的原因。
# 硬件
## CPU RISC-V
* [OpenXiangShan/XiangShan](https://github.com/OpenXiangShan/XiangShan) 开源高性能 RISC-V 处理器
* [unicorn-engine/unicorn](https://github.com/unicorn-engine/unicorn) Unicorn CPU仿真器框架(ARM,AArch64,M68K,Mips,Sparc,PowerPC,RiscV,S390x,TriCore,X86)
* [SI-RISCV/e200_opensource](https://github.com/SI-RISCV/e200_opensource) 蜂鸟 E203 开源处理器核心
* [Lichee-Pi/Tang_E203_Mini](https://github.com/Lichee-Pi/Tang_E203_Mini) LicheeTang 蜂鸟E203 Core
* [riscv-mcu/e203_hbirdv2](https://github.com/riscv-mcu/e203_hbirdv2) 开源 Hummingbirdv2 E203 RISC-V 处理器内核和 SoC 项目,它由中国大陆领先的 RISC-V IP 和解决方案公司Nuclei System Technology开发和开源。
* [mit-pdos/xv6-riscv](https://github.com/mit-pdos/xv6-riscv) xv6 是丹尼斯 · 里奇和肯 · 汤普森的Unix 版本 6 (v6)的重新实现。 xv6 松散地遵循 v6 的结构和风格,但使用 ANSI C 为现代 RISC-V 多处理器实施。
* [plctlab/writing-your-first-riscv-simulator](https://github.com/plctlab/writing-your-first-riscv-simulator)《从零开始的RISC-V模拟器开发》配套的PPT和教学资料
* [cccriscv/mini-riscv-os](https://github.com/cccriscv/mini-riscv-os) 从零开始为 RISC-V 构建最小的多任务操作系统内核
* [plctlab/riscv-operating-system-mooc](https://github.com/plctlab/riscv-operating-system-mooc) 《从头写一个RISC-V OS》课程配套的资源
* [darklife/darkriscv](https://github.com/darklife/darkriscv) 一个晚上从零开始在 Verilog 实现 RISC-V cpu
* [ultraembedded/riscv](https://github.com/ultraembedded/riscv) RISC-V CPU 核心 (RV32IM)
* [ultraembedded/biriscv](https://github.com/ultraembedded/biriscv) 32 位超级RISC-V Cpu
* [liuqidev/8-bits-RISC-CPU-Verilog](https://github.com/liuqidev/8-bits-RISC-CPU-Verilog) 基于有限状态机的8位RISC(精简指令集)CPU(中央处理器)简单结构和Verilog实现。
* [litex-hub/linux-on-litex-vexriscv](https://github.com/litex-hub/linux-on-litex-vexriscv) 使用 VexRiscv CPU 运行 Linux,这是一种 32 位的 Linux 功能 RISC-V CPU。
* [riscv2os/riscv2os](https://github.com/riscv2os/riscv2os) 手把手帶你學習 RISC-V 到可以自製 RISC-V 處理器上的作業系統的電子書。
* [sgmarz/osblog](https://github.com/sgmarz/osblog) 在 Rust 中编写 RISC-V 操作系统
* [SpinalHDL/VexRiscv](https://github.com/SpinalHDL/VexRiscv) FPGA 友好的 32 位 RISC-V CPU 实现
* [chipsalliance/rocket-chip](https://github.com/chipsalliance/rocket-chip) 实例化 RISC-V Rocket Core 所需的 Rocket 芯片生成器。
* [riscv-boom/riscv-boom](https://github.com/riscv-boom/riscv-boom) 伯克利乱序 RISC-V 处理器.一个可合成和可参数化的开源 RV64GC RISC-V 内核,用[Chisel](https://chisel.eecs.berkeley.edu/)硬件构造语言编写。其重点是为研究创建一个高性能、可综合和可参数化的核心。当前版本的 BOOM 微架构([SonicBOOM,或 BOOMv3](https://carrv.github.io/2020/papers/CARRV2020_paper_15_Zhao.pdf))与商用高性能无序内核具有竞争力,达到 6.2 CoreMarks/MHz。
* [ucb-bar/chipyard](https://github.com/ucb-bar/chipyard) 具有有序内核、无序内核、加速器等的敏捷 RISC-V SoC 设计框架
* [ucb-bar/riscv-sodor](https://github.com/ucb-bar/riscv-sodor) risc-v isa 的教育微架构
* [pulp-platform/pulpino](https://github.com/pulp-platform/pulpino) 基于RISC-V的开源微控制器系统 苏黎世联邦理工学院开发的32位RISC-V内核。可配置为使用RISCY或零风险内核。
* [riscv-software-src/riscv-tools](https://github.com/riscv-software-src/riscv-tools) RISC-V 工具(ISA 模拟器和测试)
* [YosysHQ/picorv32](https://github.com/YosysHQ/picorv32) 尺寸优化的 RISC-V CPU.实现[RISC-V RV32IMC 指令集](http://riscv.org/)的 CPU 内核。它可以配置为 RV32E、RV32I、RV32IC、RV32IM 或 RV32IMC 内核,并可选择包含内置中断控制器。
* [liangkangnan/tinyriscv](https://gitee.com/liangkangnan/tinyriscv) 一个从零开始写的极简、非常易懂的RISC-V处理器核。
* [ucb-bar/riscv-mini](https://github.com/ucb-bar/riscv-mini) Chisel 编写的简单 3 级流水线 RISC-V
* [openhwgroup/cva6](https://github.com/openhwgroup/cva6) 6 级、单期、有序CPU,它实现了64位RISC-V指令集。它完全实现了第I卷中指定的I、M、A 和C扩展:用户级ISA V2.3以及草案权限扩展 1.10。它实现了三个特权级别 M、S、U 以完全支持类 Unix 操作系统。此外,它还符合外部调试规范草案 0.13。
* [plctlab/PLCT-Open-Reports](https://github.com/plctlab/PLCT-Open-Reports) PLCT实验室的公开演讲,或者决定公开的组内报告 RISCV LLVM 等。
* [lowRISC/ibex](https://github.com/lowRISC/ibex) 小型 32 位 RISC-V CPU 内核,以前称为 zero-riscy。用 System Verilog 编写的生产级开源 32 位 RISC-V CPU 内核。CPU 内核高度可参数化,非常适合嵌入式控制应用。Ibex 正在接受广泛的验证,并且已经看到多个流片。Ibex 支持整数 (I) 或嵌入式 (E)、整数乘除法 (M)、压缩 (C) 和B(位操作)扩展。
* [shawn110285/Cookabarra](https://github.com/shawn110285/Cookabarra) rv32im cpu 的训练目标实现,设计简单易懂。
* [risclite/ARM9-compatible-soft-CPU-core](https://github.com/risclite/ARM9-compatible-soft-CPU-core) ARM9 兼容软 CPU 内核 ARMv4 兼容的 CPU 内核内置在可合成的 verilog 中。它可以在 MODELSIM 中启动 uCLinux 和 Linux。它具有很高的 Dhrystone 基准值:1.2 DMIPS/MHz。如果您掌握了这个 .v 文件的接口,它可以在您的 FPGA 设计中作为一个子模块使用。该 IP 核非常紧凑。它是一个 .v 文件,只有不到 1800 行。
* [ZipCPU/openarty](https://github.com/ZipCPU/openarty) Arty 上实现ZipCPU,以及所有 Arty 外围设备的开源驱动程序。
* [chsasank/ARM7](https://github.com/chsasank/ARM7) ARM7 TDMI流水线处理器Verilog的实现。
* [nxbyte/ARM-LEGv8](https://github.com/nxbyte/ARM-LEGv8) Verilog 编写的 ARM LEGv8 CPU 的源代码。支持的指令包括:LDUR, STUR, ADD, SUB, ORR, AND, CBZ, B, 和NOP.单周期:模拟 ARM LEGv8 单周期 CPU 仅流水线:模拟 ARM LEGv8 多周期/流水线 CPU Pipelined with Hazard Detection and Forwarding Unit:模拟具有危险检测和转发功能的 ARM LEGv8 多周期/流水线 CPU
* [risclite/R8051](https://github.com/risclite/R8051) 8051软核CPU。111 条指令的 700 行语句。完全可合成的 Verilog-2001 内核。
* [freecores/8051](https://github.com/freecores/8051) 8051软核
* [jmahler/mips-cpu](https://github.com/jmahler/mips-cpu) 在 Verilog 中实现的 MIPS CPU
* [lvyufeng/step_into_mips](https://github.com/lvyufeng/step_into_mips) 重庆大学由2017年开始实施的计算机组成原理课程改革实验内容,通过合理的梯度划分,一步一步由单独器件连接构成CPU,最后实现一个简单的MIPS五级流水CPU。
* [ljlin/MIPS48PipelineCPU](https://github.com/ljlin/MIPS48PipelineCPU) 冯爱民老师《计算机组成原理A》课程设计 本实验通过工程化方法,使用 verilog 了一个支持 MIPS 指令执行集中 48 条指令,通过转向和支持阻尼冒险的 CPU。
* [olgirard/openmsp430](https://github.com/olgirard/openmsp430) 用 Verilog 编写的16 位微控制器内核。
* [qing-2/CPU](https://github.com/qing-2/CPU) 单周期 8指令 MIPS32CPU
* [fallen/tinycpu](https://github.com/fallen/tinycpu) Tiny CPU 是一个小型的 32 位 CPU,主要用于教育目的。
* [riscv-collab/riscv-gnu-toolchain](https://github.com/riscv-collab/riscv-gnu-toolchain) 用于RISC-V的GNU工具链,包括GCC
* [pulp-platform/pulpino](https://github.com/pulp-platform/pulpino) 开源的单核微控制器系统,基于苏黎世联邦理工学院开发的32位RISC-V内核。PULPino可以配置为使用RISCY或零RISCY内核。具有4个流水线级,其IPC接近1,完全支持基本整数指令集(RV32I),压缩指令(RV32C)和乘法指令集扩展(RV32M)。它可以配置为具有单精度浮点指令集扩展(RV32F)。它实现了多个 ISA 扩展,例如:硬件环路、后递增加载和存储指令、位操作指令、MAC 操作、支持定点运算、打包 SIMD 指令和点积。它旨在提高超低功耗信号处理应用的能效。RISCY实现了1.9特权规范的子集。
* [OSCPU/NutShell](https://github.com/OSCPU/NutShell) 国科大学生设计的RISC-V SoC。目前它支持 riscv64/32。
* [microdynamics-cpu/tree-core-ide](https://github.com/microdynamics-cpu/tree-core-ide) 用于处理器设计和验证的下一代集成开发环境。它具有多硬件语言支持、开源 IP 管理和易于使用的 RTL 仿真工具集。
* [microdynamics-cpu/tree-core-cpu](https://github.com/microdynamics-cpu/tree-core-cpu) 从零开始编写的一系列RISC-V软核处理器。现在,我们使用所有开源工具链(凿子,铣削,验证器,NEMU,AM和difftest框架等)进行设计和验证。
* [LekKit/RVVM](https://github.com/LekKit/RVVM) 用С编写和实现的RISC-V CPU和系统软件
* [TheThirdOne/rars](https://github.com/TheThirdOne/rars) RARS,RISC-V汇编器,模拟器和运行时,将组装和模拟RISC-V汇编语言程序的执行。主要目标是为开始使用RISC-V的人们提供一个有效的开发环境。
* [mortbopet/Ripes](https://github.com/mortbopet/Ripes) 用于 RISC-V ISA 的图形处理器模拟器和装配编辑器
* [rustsbi/rustsbi](https://github.com/rustsbi/rustsbi) Rust 中的 RISC-V Supervisor 二进制接口 (RISC-V SBI) 库;在 M 或 HS 模式下运行;对嵌入式 Rust 生态系统的良好支持。
* [rcore-os/rCore-Tutorial-v3](https://github.com/rcore-os/rCore-Tutorial-v3) 让我们从头开始编写一个可以在 Rust 中的 RISC-V 上运行的操作系统!
* [stnolting/neorv32](https://github.com/stnolting/neorv32) 一款小巧、可定制且高度可扩展的 MCU 级 32 位 RISC-V 软核 CPU 和类似微控制器的 SoC,采用独立于平台的 VHDL 编写。
* [openhwgroup/cv32e40p](https://github.com/openhwgroup/cv32e40p) CV32E40P是一款基于PULP平台RI5CY的4级RISC-V RV32IMFCXpulp CPU。一款小巧高效的32位有序RISC-V内核,具有4级流水线,可实现RV32IM[F|Zfinx]C 指令集架构和 PULP 自定义扩展,可实现更高的代码密度、性能和能效。它最初是基于OpenRISC ISA的OR10N CPU内核的一个分支。然后,以RI5CY的名义,它成为RISC-V核心(2016年),并由PULP平台团队维护,直到2020年2月,它被贡献给OpenHW集团。
* [olofk/serv](https://github.com/olofk/serv) 一款屡获殊荣的位串行 RISC-V 内核的CPU。 SERV 是世界上最小的 RISC-V CPU。每当您需要一些计算并且硅空间非常宝贵时,它都是完美的伴侣。
* [d0iasm/rvemu](https://github.com/d0iasm/rvemu) RISC-V仿真器,用于CLI和Web,用Rust和WebAssembly编写。它支持 xv6 和 Linux(正在进行中)。
* [probe-rs/probe-rs](https://github.com/probe-rs/probe-rs) 在单独主机上调试嵌入式 ARM 和 RISC-V 目标的调试工具集和库
* [syntacore/scr1](https://github.com/syntacore/scr1) 开源且免费使用的RISC-V兼容MCU级内核,由Syntacore设计和维护。它是工业级和硅验证(包括全晶圆生产),在所有主要的EDA流程和Verilator中开箱即用,并带有广泛的宣传资料和文档。
* [jasonlin316/RISC-V-CPU](https://github.com/jasonlin316/RISC-V-CPU) 支持向量指令的 RISC-V 5 级流水线 CPU。使用 U18 技术流片。这是一个 32 位 5 级流水线 RISC-V CPU,支持基本指令和一些向量运算。为了流片,还要进行栅极级合成和APR。仿真由NC-verilog完成,并由Desgin Compiler合成。该芯片已于2019年12月2日进行了测试,所有功能均正常工作。
* [larsbrinkhoff/awesome-cpus](https://github.com/larsbrinkhoff/awesome-cpus) 所有 CPU 和 MCU 文档都集中在一个地方。此存储库包含各种 CPU 的文档。有数据表、程序员手册、快速参考卡等。
## 硬件_其他
* [zhengnianli/EmbedSummary](https://github.com/zhengnianli/EmbedSummary) 精品嵌入式资源汇总
* [thibmaek/awesome-raspberry-pi](https://github.com/thibmaek/awesome-raspberry-pi) 树莓派工具、项目、图像和资源的精选列表
* [arduino/Arduino](https://github.com/arduino/Arduino) 基于简单 I/O 板和实现处理/布线语言的开发环境的开源物理计算平台。Arduino可用于开发独立的交互式对象,也可以连接到计算机上的软件(例如Flash,Processing和MaxMSP)。
* [micropython/micropython](https://github.com/micropython/micropython) 用于微控制器和受限系统的精简高效的 Python 实现
* [adafruit/circuitpython](https://github.com/adafruit/circuitpython) 适合初学者的 Python 开源版本,适用于称为微控制器的微型廉价计算机。微控制器是许多电子产品的大脑,包括用于构建业余爱好项目和原型的各种开发板。CircuitPython 基于 MicroPython。
* [micropython/micropython-lib](https://github.com/micropython/micropython-lib) 一个包的存储库,旨在用于编写 MicroPython 应用程序。此处的包分为与四个顶级目录相对应的类别:`python-stdlib`:Python 标准库中模块的兼容版本。这些应该是相应 Python 模块的直接替代品。`python-ecosys`:来自更广泛的 Python 生态系统的兼容但功能缩减的包版本。例如,可以在 Python 包索引中找到的包。`micropython`:特定于 MicroPython 的包,在其他 Python 环境中没有等效包。这包括硬件(例如传感器、外围设备或显示器)的驱动程序、使用嵌入式功能(例如蓝牙)的库,或 CPython 中没有等效项的特定于 MicroPython 的包。`unix-ffi`:这些软件包专门用于 MicroPython Unix 移植,并通过 FFI 提供对操作系统和第三方库的访问,或者对非 Unix 移植没有用的功能。
* [Lichee-Pi/Tang_FPGA_Examples](https://github.com/Lichee-Pi/Tang_FPGA_Examples) LicheeTang FPGA例程
* [nf9/police_light](https://github.com/nf9/police_light) Lichee Tang板实现警灯
* [danjulio/lepton/ESP32](https://github.com/danjulio/lepton/tree/master/ESP32) 基于 ESP32 的热像仪(Lepton 3.5)。
* [larryli/u8g2_wqy](https://github.com/larryli/u8g2_wqy) 适合 u8g2 的中文字体,采用文泉驿点阵宋体作为源本,提供 12x12、13x13、14x14、15x15 和 16x16 点阵字库。
* [edgeimpulse/example-esp32-cam](https://github.com/edgeimpulse/example-esp32-cam) 在 ESP32 Cam 上构建并运行导出的图像分类
* [lvgl/lvgl](https://github.com/lvgl/lvgl) 强大且易于使用的嵌入式 GUI 库,具有许多小部件、高级视觉效果(不透明度、抗锯齿、动画)和低内存要求(16K RAM、64K 闪存)。
* [avakar/usbcorev](https://github.com/avakar/usbcorev) 用 Verilog 编写的全速设备端 USB 外设内核。
* [Kevincoooool/ESP_MASTER](https://github.com/Kevincoooool/ESP_MASTER) ESP32-CAM 带 LVGL 语音/人脸识别红外控制
* [FASTSHIFT/WatchX](https://github.com/FASTSHIFT/WatchX) 开源智能手表, 高质量流畅(60FPS+)的动画效果, 易于扩展的系统框架.
* [amaranth-lang/amaranth](https://github.com/amaranth-lang/amaranth) 开源工具链,用于使用 Python 编程语言开发基于同步数字逻辑的硬件,以及评估板定义、片上系统工具包等。它旨在易于学习和使用,减少或消除常见的编码错误,并使用可重用的组件简化复杂硬件的设计。
* [MegEngine/MegPeak](https://github.com/MegEngine/MegPeak) 测试处理器峰值计算工具,支持OpenCL驱动的arm,x86和GPU。
* [killerp/off_asr](https://gitee.com/killerp/off_asr) 智能遥控器(离线版)本项目基于esp32a1s模组,设计了一个遥控器,除了实现基本的红外遥控功能,人们还能通过语音,手机远程进行红外遥控。同时又加入温度传感器,并支持将温度数据上传云端,使能随时随地查看、分析数据。
* [killerp/smart_control](https://gitee.com/killerp/smart_control) 智能遥控器(在线版)。
* [espressif/esp-skainet](https://github.com/espressif/esp-skainet) 乐鑫推出的智能语音助手,目前支持唤醒词和命令词识别。
* [Neutrino-1/Fitness_Watch](https://github.com/Neutrino-1/Fitness_Watch) 一款基于 esp12E 和 arudino 框架的健身手表。功能包括:自动显示开启和关闭、运动检测、心率传感器、NTP时间同步、触觉反馈、SMTP 电子邮件功能
* [alexforencich/verilog-ethernet](https://github.com/alexforencich/verilog-ethernet) 用FPGA实现的 Verilog 以太网组件
* [corundum/corundum](https://github.com/corundum/corundum) 用于网络计算的开源基于 FPGA 的 NIC 和平台
* [MiSTer-devel/Main_MiSTer](https://github.com/MiSTer-devel/Main_MiSTer) MiSTer是一个开放项目,旨在使用现代硬件重新创建各种经典计算机、游戏机和街机。它允许软件和游戏图像像在原始硬件上一样运行,使用鼠标、键盘、游戏杆和其他游戏控制器等外围设备。
* [revoxhere/duino-coin](https://github.com/revoxhere/duino-coin) 几乎可以用任何东西开采的硬币,包括 Arduino 板。
* [eloquentarduino/EloquentTinyML](https://github.com/eloquentarduino/EloquentTinyML/) 用于微控制器的Tensorflow Lite的Eloquent接口,可在arduino上进行机器学习计算推理。
* [ultraembedded/cores: Various HDL (Verilog) IP Cores](https://github.com/ultraembedded/cores) 各种 HDL (Verilog) IP 核 sram FIFO 接口 I2S USB
* [dawsonjon/fpu](https://github.com/dawsonjon/fpu) Verilog 中可合成的 IEEE 754 浮点库。
* [pebri86/esplay_micro_hardware](https://github.com/pebri86/esplay_micro_hardware) esplay硬件微版,基于ESP32的游戏机
* [WalkerLau/DetectHumanFaces](https://github.com/WalkerLau/DetectHumanFaces) 采用ARM Cortex-M3软核及FPGA构成了轻量级的实时人脸检测SOC,通过ov5640摄像头采集实时图像,经过检测系统的检测后,将已经框出人脸的实时图像通过HDMI输出到显示器,同时可以通过UART查看检测时间等信息,还能通过板载LED灯查看检测到的人脸数量。
* [ Qirun/ARM_Cortex-M3](https://github.com/Qirun/ARM_Cortex-M3) 在FPGA上搭建Cortex-M3软核、图像协处理器,并通过OV5640摄像头采集车牌图像,实现对车牌的识别与结果显示。基于Altera DE1 FPGA搭载Cortex-M3软核,依据AHB-Lite总线协议,将LCD1602、RAM、图像协处理器等外设挂载至Cortex-M3。视频采集端,设计写FiFo模块、SDRAM存储与输出、读FiFo模块、灰度处理模块、二值化、VGA显示等模块。最终将400位宽的结果数据(对应20张车牌)存储在RAM中,输出至AHB总线,由Cortex-M3调用并显示识别结果。
* [TimRudy/ice-chips-verilog](https://github.com/TimRudy/ice-chips-verilog) Verilog 中所有常见分立逻辑器件的库 74LS、74HC、74HCT 系列芯片
* [awrie/fpga_pio](https://github.com/lawrie/fpga_pio) 尝试在 FPGA 中重新创建 RP2040 PIO.PIO 代表 Progammaable I/O,它是 RP2040 SoC 的一部分,它比 SPI、I2C、UART 等特定协议的硬件实现灵活得多。它可以实现所有这些协议,甚至更多速度和任何 GPIO 引脚。
* [abnoname/iceZ0mb1e](https://github.com/abnoname/iceZ0mb1e) 使用完整的开源 FPGA[工具链流程](http://www.clifford.at/yosys/) 构建基于 TV80 的演示片上系统,包括使用 SDCC 进行固件编译。
* [brickbots/HandiPi](https://github.com/brickbots/HandiPi) 带键盘和显示屏的手持式 树莓派4 计算机
* [mit-han-lab/tiny-training](https://github.com/mit-han-lab/tiny-training) 256KB 内存下的设备上训练DNN
* [pbatard/rufus](https://github.com/pbatard/rufus) 实用程序,可帮助格式化和创建可启动的USB闪存驱动器。
* [mainflux/mainflux](https://github.com/mainflux/mainflux) 工业物联网消息传递和设备管理平台。用 Go 编写的现代、可扩展、安全、开源且无专利的物联网云平台。
* [ExpressLRS/ExpressLRS](https://github.com/ExpressLRS/ExpressLRS) 基于 STM32/ESP32/ESP8285 的高性能无线电链路,适用于 RC 应用。它旨在成为最好的 FPV 链接, 它基于梦幻般的 Semtech SX127x/SX1280 LoRa 硬件与乐鑫或 STM32 处理器相结合。使用 LoRa 调制以及减小的数据包大小,它实现了同类最佳范围和延迟.它使用高度优化的无线数据包结构来实现这一点,从而提供同时范围和延迟优势。它支持 900 MHz 和 2.4 GHz 链路,每种链路都有自己的优势。900 MHz 支持最大 200 Hz 的数据包速率,具有更高的穿透率。2.4 GHz 在 EdgeTX 上支持极快的 1000 Hz。拥有 60 多个不同的硬件目标和 13 个硬件制造商,硬件的选择不断增加,不同的硬件适合不同的要求。
* [1technophile/OpenMQTTGateway](https://github.com/1technophile/OpenMQTTGateway) MQTT网关,用于ESP8266,ESP32,Sonoff RF Bridge或Arduino,双向433mhz / 315mhz / 868mhz,红外通信,BLE,蓝牙,信标检测,mi flora,mi jia,LYWSD02,LYWSD03MMC,Mi Scale,TPMS,BBQ温度计兼容性,SMS和LORA。
* [Aircoookie/WLED](https://github.com/Aircoookie/WLED) 通过 WiFi 使用 ESP8266 或 ESP32 控制WS2812B和更多类型的数字 RGB LED
* [coolsnowwolf/lede](https://github.com/coolsnowwolf/lede) Lean 的 LEDE 路由器系统的源码仓库。LEDE是OpenWrt 的一个分支。
* [mcxiaoke/mqtt](https://github.com/mcxiaoke/mqtt) MQTT协议3.1.1中文翻译版,IoT,物联网
* [vernemq/vernemq](https://github.com/vernemq/vernemq) 基于 Erlang/OTP 的分布式 MQTT 消息代理。专为高质量和工业用例而设计。
* [ZoneMinder/zoneminder](https://github.com/ZoneMinder/zoneminder) 一个免费的开源闭路电视软件应用程序,为Linux开发,支持IP,USB和模拟摄像机。
* [qewer33/qpaperOS](https://github.com/qewer33/qpaperOS) 适用于 LILYGO T ESP32 开发板的智能手表固件
* [Rem0o/FanControl.Releases](https://github.com/Rem0o/FanControl.Releases) 适用于 Windows 的高度可定制的风扇控制软件。
* [rwaldron/johnny-five](https://github.com/rwaldron/johnny-five) JavaScript Robotics和IoT编程框架,由Bocoup开发。一个开源的,基于Firmata协议的物联网和机器人编程框架,由Nodebots社区开发。Johnny-Five 程序可以编写为 Arduino(所有型号)、Electric Imp、Beagle Bone、Intel Galileo & Edison、Linino One、Pinoccio、pcDuino3、Raspberry Pi、Particle/Spark Core & Photon、Tessel 2、TI Launchpad 等
* [justcallmekoko/ESP32Marauder](https://github.com/justcallmekoko/ESP32Marauder) 一套适用于 ESP32 的 WiFi/蓝牙攻防工具
* [MarlinFirmware/Marlin](https://github.com/MarlinFirmware/Marlin) 基于Arduino平台的RepRap 3D打印机的优化固件。许多商用3D打印机都安装了Marlin。如果您需要特定计算机的源代码,请咨询您的供应商。
* [OpenMachine-ai/tinyfive](https://github.com/OpenMachine-ai/tinyfive) 轻量级的RISC-V仿真器和汇编器,Python编写,带有神经网络示例。
* [hybridgroup/gobot](https://github.com/hybridgroup/gobot) 用于机器人、无人机和物联网 (IoT) 的 Golang 框架
* [mpaland/printf](https://github.com/mpaland/printf) 用于嵌入式系统的微小、快速、非依赖和满载的 printf 实现。广泛的测试套件通过。
* [cesanta/mongoose](https://github.com/cesanta/mongoose) 用于 C/C++ 的网络库。它为 TCP、UDP、HTTP、WebSocket、MQTT 实现了事件驱动的非阻塞 API。它专为连接设备并使其联机而设计。自 2004 年以来在市场上,被大量开源和商业产品使用 - 它甚至在国际空间站上运行!猫鼬使嵌入式网络编程快速、强大且简单。
* [arendst/Tasmota](https://github.com/arendst/Tasmota) 基于 ESP8266 和 ESP32 的设备的替代固件,使用 webUI 轻松配置、OTA 更新、使用计时器或规则实现自动化、可扩展性以及对 MQTT、HTTP、串行或 KNX 的完全本地控制。
* [tinygo-org/tinygo](https://github.com/tinygo-org/tinygo) 通过创建一个基于 LLVM 的新编译器,将 Go 编程语言引入嵌入式系统和现代 Web。可以在超过 94 个不同的微控制器板上编译和运行 TinyGo 程序,例如 BBC micro:bit 和 Arduino Uno。还可以生成大小非常紧凑的 WebAssembly (WASM) 代码。您可以为 Web 浏览器以及支持 WebAssembly 系统接口 (WASI) 系列接口的服务器和边缘计算环境编译程序。
* [seemoo-lab/openhaystack](https://github.com/seemoo-lab/openhaystack) 一个框架,用于通过Apple庞大的“查找我的”网络跟踪个人蓝牙设备。使用它来创建您自己的跟踪标签,您可以将其附加到物理对象(钥匙圈、背包等)或将其集成到其他支持蓝牙的设备(如笔记本电脑)中。是苹果的Find My网络(或离线查找)的逆向工程和安全分析工作的结果。
* [OctoPrint/OctoPrint](https://github.com/OctoPrint/OctoPrint) 3D打印机的活泼Web界面
* [sipeed/MaixPy](https://github.com/sipeed/MaixPy) MicroPython for K210 RISC-V,让我们更轻松地玩边缘AI
* [tzapu/WiFiManager](https://github.com/tzapu/WiFiManager) ESP8266具有网络强制门户的WiFi连接管理器,带回退的Web 配置门户
* [chipsalliance/chisel](https://github.com/chipsalliance/chisel) 现代硬件设计语言,Constructing Hardware in a Scala Embedded Language 是一种开源硬件描述语言 (HDL),用于在寄存器传输级别描述数字电子和电路,促进 ASIC 和 FPGA 的高级电路生成和设计重用。
* [logisim-evolution/logisim-evolution](https://github.com/logisim-evolution/logisim-evolution) 用于设计和仿真数字逻辑电路的教育软件。 Logisim-evolution是免费、开源和跨平台的。
* [openscopeproject/InteractiveHtmlBom](https://github.com/openscopeproject/InteractiveHtmlBom) 交互式HTML BOM生成插件,适用于KiCad,EasyEDA,Eagle,Fusion360和Allegro PCB设计器
* [travisgoodspeed/gbrom-tutorial](https://github.com/travisgoodspeed/gbrom-tutorial) 关于掩模ROM恢复的快速小教程,我们将从任天堂GameBoy的掩模ROM照片开始,最后得到一个可以拆卸或模拟的ROM文件。
* [benhoyt/inih](https://github.com/benhoyt/inih) 简单。C 语言的 INI 文件解析器,适用于嵌入式系统
* [beeper/beepy](https://github.com/beeper/beepy) Pi Zero的显示器键盘外设。超低功耗、高对比度、高分辨率、夏普存储液晶显示器。带背光和触摸板的点击式键盘,便于输入和导航。可自定义的键盘映射以满足您的需求。由Pi Zero W(可选)或任何其他兼容的SBC(如Radxa Zero、MQ-Pro)供电,具有薄型无焊接头。
* [copy/v86](https://github.com/copy/v86) v86 模拟兼容 x86 的 CPU 和硬件。机器代码在运行时被转换为 WebAssembly 模块,以实现良好的性能。
* [RetroPie/RetroPie-Setup](https://github.com/RetroPie/RetroPie-Setup) Shell脚本,用于设置带有RetroArch模拟器和各种内核的Raspberry Pi / Odroid / PC
* [microsoft/devicescript](https://github.com/microsoft/devicescript) 用于微型物联网设备的 TypeScript(ESP32、RP2040 等)
* [ClemensElflein/OpenMower](https://github.com/ClemensElflein/OpenMower) 让我们将廉价的现成机器人割草机升级为基于 RTK GPS 的现代智能割草机器人
* [emqx/emqx](https://github.com/emqx/emqx) 适用于物联网、工业物联网和互联汽车的最具可扩展性的开源 MQTT 代理
* [thingsboard/thingsboard](https://github.com/thingsboard/thingsboard) 开源物联网平台,包括设备管理、数据收集、处理和可视化。
* [blakeblackshear/frigate](https://github.com/blakeblackshear/frigate) NVR具有实时本地物体检测功能,适用于IP摄像机
* [mqttjs/MQTT.js](https://github.com/mqttjs/MQTT.js) Node.js 和浏览器的 MQTT 客户端
* [eclipse/mosquitto](https://github.com/eclipse/mosquitto) MQTT 协议版本 5.0、3.1.1 和 3.1 的服务器的开源实现。它还包括一个 C 和 C++ 客户端库,以及用于发布和订阅的 `mosquitto_pub` 和 `mosquitto_sub` 实用程序。
* [esphome/esphome](https://github.com/esphome/esphome) 通过简单而强大的配置文件来控制您的 ESP8266/ESP32 并通过家庭自动化系统远程控制它们的系统。
* [MichMich/MagicMirror](https://github.com/MichMich/MagicMirror) 开源的模块化智能镜子平台。随着可安装模块的不断增加,MagicMirror² 允许您将走廊或浴室镜子转换为您的私人助理。
* [chrislgarry/Apollo-11](https://github.com/chrislgarry/Apollo-11) 阿波罗11号制导计算机(AGC)指令舱(Comanche055)和登月舱(Luminary099)的原始源代码。由虚拟AGC和麻省理工学院博物馆的人们数字化。目标是成为原始阿波罗 11 号源代码的存储库。
* [peng-zhihui/Dummy-Robot](https://github.com/peng-zhihui/Dummy-Robot) 超迷你机械臂机器人项目。
* [PX4/PX4-Autopilot](https://github.com/PX4/PX4-Autopilot) 用于无人机的 PX4 飞行控制解决方案,主要应用程序位于 src/modules 目录中。它还包含 PX4 无人机中间件平台,该平台提供运行无人机的驱动程序和中间件。PX4 具有高度的便携性,独立于操作系统,并支持开箱即用的 Linux、NuttX 和 MacOS。
* [Ly0n/awesome-robotic-tooling](https://github.com/Ly0n/awesome-robotic-tooling) 用于 C++ 和 Python 专业机器人开发的工具,带有 ROS、自动驾驶和航空航天功能。
* [cyberbotics/webots](https://github.com/cyberbotics/webots) 完整的开发环境,用于对机器人、车辆和机械系统进行建模、编程和仿真。
* [jart/blink](https://github.com/jart/blink) 最小的 x86-64-Linux 模拟器,blink 是在不同的操作系统和硬件体系结构上运行 x86-64-linux 程序的虚拟机。它被设计为执行与 qemu-x86_64 命令相同的操作,除了:Blink 的大小为 221kb(禁用可选功能时为 115kb),而 qemu-x86_64 是 4mb 的二进制文件。Blink 可以在任何 POSIX 系统上运行您的 Linux 二进制文件,而 qemu-x86_64 仅支持 Linux。在某些基准测试中,Blink 的速度比 qemu-x86_64 快 2 倍,例如 SSE 整数/浮点数学。Blink 在运行编译器等临时程序时也快得多。blinkenlights 是一个终端用户界面,可用于跨平台调试 x86_64-Linux 或 i8086 程序。与 GDB 不同,Blinkenlights 专注于可视化程序执行。它使用 UNICODE IBM Code Page 437 字符来显示二进制内存面板,这些面板会随着您单步执行程序的汇编代码而变化。可以使用鼠标滚轮滚动和缩放这些内存面板。Blinkenlights 还允许反向调试,其中在汇编显示上滚动允许倒带执行历史记录。
* [awesome-robotic-tooling](https://github.com/Ly0n/awesome-robotic-tooling) 用于 C++ 和 Python 专业机器人开发的工具,带有 ROS、自动驾驶和航空航天的触感。
* [MichaIng/DietPi](https://github.com/MichaIng/DietPi) 非常轻量级的基于 Debian 的操作系统。它针对最小的 CPU 和 RAM 资源使用进行了高度优化,确保您的 SBC 始终发挥其最大潜力。
* [FreeCAD/FreeCAD](https://github.com/FreeCAD/FreeCAD) FreeCAD的官方源代码,FreeCAD是一个免费的开源多平台3D参数化建模器。
* [thibmaek/awesome-raspberry-pi](https://github.com/thibmaek/awesome-raspberry-pi) 精选的RaspberryPi工具、项目、图像和资源列表
* [DarkFlippers/unleashed-firmware](https://github.com/DarkFlippers/unleashed-firmware) Flipper Zero Unleashed 固件存储库,最稳定的自定义固件专注于原始固件组件的新功能和改进,几乎没有 UI 更改
* [RT-Thread/rt-thread](https://github.com/RT-Thread/rt-thread) 开源的物联网实时操作系统 (RTOS)
* [qmk/qmk_firmware](https://github.com/qmk/qmk_firmware) 适用于 Atmel AVR 和 Arm USB 系列的开源键盘固件
* [zephyrproject-rtos/zephyr](https://github.com/zephyrproject-rtos/zephyr) 一个可扩展的实时操作系统 (RTOS),支持多种硬件架构,针对资源受限的设备进行了优化,并在构建时考虑到了安全性。Zephyr OS 基于小尺寸内核,专为资源受限系统而设计:从简单的嵌入式环境传感器和 LED 可穿戴设备到复杂的智能手表和物联网无线网关。Zephyr 内核支持多种架构,包括 ARM(Cortex-A、Cortex-R、Cortex-M)、Intel x86、ARC、Nios II、Tensilica Xtensa 和 RISC-V、SPARC、MIPS 以及大量支持的主板。
* [Arduino-IRremote/Arduino-IRremote](https://github.com/Arduino-IRremote/Arduino-IRremote) Arduino红外远程库:使用多种协议发送和接收红外信号
* [arduino/arduino-cli](https://github.com/arduino/arduino-cli) Arduino CLI 是一个多合一的解决方案,它提供板/库管理器、草图构建器、板检测、上传器以及从命令行或机器界面使用任何 Arduino 兼容板和平台所需的许多其他工具。
* [blynkkk/blynk-library](https://github.com/blynkkk/blynk-library) 用于物联网板的 Blynk 库。适用于 Arduino、ESP32、ESP8266、Raspberry Pi、Particle、ARM Mbed 等。Blynk 是一个独特的物联网平台,用于将任何硬件连接到云、设计应用程序来控制它们,以及大规模管理已部署的产品。使用 Blynk Library,您可以将 400 多种硬件型号(包括 ESP8266、ESP32、NodeMCU、所有 Arduinos、Raspberry Pi、Particle、Texas Instruments 等)连接到 Blynk Cloud。使用适用于 iOS 和 Android 应用程序的 Blynk 应用程序,您可以轻松地拖放任何 DIY 或商业项目的图形界面。这是一种纯粹的 WYSIWG 体验:无需在 iOS 或 Android 上编码。硬件可以使用主板上可用的硬件连接(如 ESP32)或使用各种扩展板(以太网、WiFi、GSM、LTE 等)通过 Internet 连接到 Blynk Cloud。Blynk Cloud 可供 Blynk 的每个用户免费使用。
* [SpenceKonde/ATTinyCore](https://github.com/SpenceKonde/ATTinyCore) 适用于 ATtiny 1634、828、x313、x4、x41、x5、x61、x7 和 x8 的 Arduino 内核。支持通过 ISP、串行 (Optiboot) 或 VUSB (Micronucleus) 进行编程。
* [MCUdude/MiniCore](https://github.com/MCUdude/MiniCore) 适用于 ATmega8、ATmega48、ATmega88、ATmega168、ATmega328 和 ATmega328PB 的 Arduino 硬件包。从 MiniCore 版本 3 及更高版本开始,Optiboot 引导加载程序已被高级 Urboot 引导加载程序所取代。它更小、更快,并具有自动波特率检测功能,并且可以读取和写入 EEPROM。引导加载程序提供但MiniCore未使用的其他很酷的功能是存储在闪存中的用户程序元数据(可以通过Avrdude -xshowall轻松查看)和芯片擦除功能。如果您已经安装了 Optiboot 并且不想将其替换为 Urboot,您仍然可以上传程序而不会出现任何兼容性问题。但是,如果您要将引导加载程序刻录到新芯片上,Urboot 是您的不二之选。
* [MCUdude/MightyCore](https://github.com/MCUdude/MightyCore) 用于 ATmega8535、ATmega16、ATmega32、ATmega164、ATmega324、ATmega644 和 ATmega1284 的 Arduino 内核,均运行 Urboot 引导加载程序。大多数Arduino UNO兼容库都可以使用此内核。如果没有,移植库是相当简单的。此内核至少需要 Arduino IDE v1.6,其中建议使用 v1.8.9 或更高版本。IDE 2.x 也应该可以工作。
* [feilipu/Arduino_FreeRTOS_Library](https://github.com/feilipu/Arduino_FreeRTOS_Library) 适用于所有 Arduino ATmega 设备(Uno R3、Leonardo、Mega 等)的 FreeRTOS 库。FreeRTOS 具有多种配置选项,可以从 FreeRTOSConfig.h 文件中指定这些选项。为了保持与所有Arduino硬件选项的通用性,选择了一些合理的默认值。当您获得使用 FreeRTOS 的经验时,请随意更改这些默认值。通常,ATmega 看门狗定时器用于生成 15ms 时间片(Ticks)。对于需要高精度定时的应用,滴答声可来自硬件定时器或外部时钟。在分配的时间片完成之前暂停或延迟的任务将执行还原回计划程序。
* [lexus2k/ssd1306](https://github.com/lexus2k/ssd1306) 适用于在 Arduino/ESP32/Linux (Rasperry) 平台上运行的 SSD1306、SSD1331、SSD1351、IL9163、ILI9341、ST7735、PCD8544、诺基亚 5110 显示器的驱动程序。
* [Bodmer/TFT_eSPI](https://github.com/Bodmer/TFT_eSPI) Arduino 和 PlatformIO IDE 兼容 TFT 库,针对支持不同驱动芯片的 Raspberry Pi Pico (RP2040)、STM32、ESP8266 和 ESP32 进行了优化。功能丰富的Arduino IDE兼容图形和字体库,适用于32位处理器。该库面向 32 位处理器,已针对 RP2040、STM32、ESP8266 和 ESP32 类型进行了性能优化,可以使用其他 32 位处理器,但将使用较慢的通用 Arduino 接口调用。可以使用Arduino IDE的库管理器加载库。直接内存访问 (DMA) 可与带有 SPI 接口显示器的 ESP32、RP2040 和 STM32 处理器一起使用,以提高渲染性能。具有并行接口(8 位和 16 位)的 DMA 仅支持 RP2040。
* [espressif/arduino-esp32](https://github.com/espressif/arduino-esp32) ESP32、ESP32-S2、ESP32-S3、ESP32-C3、ESP32-C6 和 ESP32-H2 的 Arduino 核心。ESP32 是由乐鑫设计的单 2.4 GHz Wi-Fi 和蓝牙 SoC(片上系统)。ESP32 专为移动、可穿戴电子产品和物联网 (IoT) 应用而设计。它具有低功耗芯片的所有先进特性,包括细粒度时钟门控、多种功耗模式和动态功耗调节。例如,在低功耗物联网传感器中枢应用场景中,ESP32 会定期唤醒,并且仅在检测到指定条件时才会唤醒。低占空比用于最大限度地减少芯片消耗的能量。功率放大器的输出也是可调的,因此有助于在通信范围、数据速率和功耗之间实现最佳平衡。ESP32 系列可作为芯片或模块提供。
* [neu-rah/ArduinoMenu](https://github.com/neu-rah/ArduinoMenu) arduino 框架的通用菜单/交互系统,全自动或用户代码驱动的导航系统。使用此系统,您可以定义处理所有输入/输出的菜单、子菜单、输入字段和其他迭代对象,并可以作为用户迭代的结果调用用户定义的处理程序。用户函数可以作为单击/进入时调用的单个操作进行操作,也可以作为事件驱动函数响应焦点输入/输出或输入/Esc 事件。该系统被设计为一个非阻塞轮询系统,允许并发任务运行。或者,系统可以在半自动模式下运行,从用户代码发出导航命令。
* [moononournation/Arduino_GFX](https://github.com/moononournation/Arduino_GFX) Arduino_GFX是一个Arduino图形库,支持具有各种数据总线接口的各种显示器。这个库从 Adafruit_GFX、LovyanGFX、TFT_eSPI、Ucglib 等开始重写
* [SpacehuhnTech/esp8266_deauther](https://github.com/SpacehuhnTech/esp8266_deauther) 经济实惠的WiFi黑客平台,用于测试和学习。扫描WiFi设备,阻止选定的连接,创建数十个网络并混淆WiFi扫描仪。此固件允许您轻松执行各种操作以使用ESP8266测试 802.11 网络。这也是一个学习WiFi、微控制器、Arduino、黑客和电子/编程的好项目。取消身份验证攻击是主要功能,可用于断开设备与其WiFi网络的连接。尽管这种拒绝服务攻击并不是什么新鲜事,但许多设备仍然容易受到攻击。幸运的是,随着更多支持WiFi 6的设备的使用,这种情况正在慢慢改变。但是许多过时的WiFi设备仍然存在,例如在廉价的物联网硬件中。使用ESP8266 Deauther,您可以轻松地在2.4GHz WiFi网络/设备上测试这种攻击,看看它是否成功。如果是这样,您就知道应该升级您的网络。
* [cyberman54/ESP32-Paxcounter](https://github.com/cyberman54/ESP32-Paxcounter) Wifi 和 BLE 驱动的客流计量,使用廉价的 ESP32 板。Paxcounter 是一款基于 ESP32 MCU 的设备,用于实时计量客流和多传感器数据。它计算周围有多少移动设备。这可以估计周围有多少人。Paxcounter 检测空中的 Wifi 和蓝牙信号,通过评估移动设备的 MAC 地址来关注移动设备。同时,它读取和存储来自多个连接的环境传感器的数据。这个项目的目的是在不侵犯隐私的情况下做到这一点:如果你只是想计算它们,你不需要跟踪人们拥有的设备。因此,Paxcounter不会持久存储MAC地址,也不会对扫描的设备进行指纹识别。数据可以存储在本地SD卡上,使用LoRaWAN网络(例如TheThingsNetwork或Helium)或基于TCP/IP的MQTT传输到云端,也可以使用串行(SPI)接口传输到本地主机。您可以使用 ESP32 深度睡眠模式构建此项目电池供电,并使用单个 18650 锂离子电池实现较长的正常运行时间。
* [nodemcu/nodemcu-firmware](https://github.com/nodemcu/nodemcu-firmware) NodeMCU 是乐鑫基于 Lua 的开源固件,用于 ESP8266 WiFi SOC,并使用基于闪存的模块 SPIFFS 文件系统。NodeMCU 是用 C 语言实现的,并分层在乐鑫 NON-OS SDK 上。该固件最初是作为流行的基于ESP8266的 NodeMCU 开发模块的配套项目开发的,但该项目现在得到了社区的支持,并且固件现在可以在任何 ESP 模块上运行。总结:易于编程的无线节点和/或接入点;基于 Lua 5.1.4 或 Lua 5.3,但没有 debug 、 io os 和 (大多数) math 模块;异步事件驱动编程模型;超过 70 个内置 C 模块和近 20 个 Lua 模块;提供带或不带浮点支持的固件(仅整数使用较少的内存)。
* [stlink-org/stlink](https://github.com/stlink-org/stlink) stlink 是一个开源工具集,用于对 STMicroelectronics 制造的 STM32 器件和电路板进行编程和调试。它支持几个所谓的STLINK编程器板(及其克隆),这些板使用微控制器芯片将命令从USB转换为JTAG/SWD。
* [adam-maj/tiny-gpu](https://github.com/adam-maj/tiny-gpu) Verilog 中的最小 GPU 设计,可从头开始了解 GPU 的工作原理。内置<15个完整记录的Verilog文件,有关架构和ISA的完整文档,工作矩阵加法/乘法内核,以及对内核模拟和执行跟踪的完全支持。由于 GPU 市场竞争如此激烈,所有现代架构的低级技术细节仍然是专有的。最好的选择是通过 Miaow 和 VeriGPU 等开源 GPU 实现,并尝试弄清楚发生了什么。这是具有挑战性的,因为这些项目旨在实现功能完整和功能,因此它们非常复杂。tiny-gpu 是一个最小的 GPU 实现,针对从头开始了解 GPU 的工作原理进行了优化。具体来说,随着通用 GPU (GPGPU) 和 ML 加速器(如 Google 的 TPU)的趋势,tiny-gpu 专注于突出所有这些架构的一般原则,而不是图形特定硬件的细节。该项目主要侧重于探索:架构 - GPU 的架构是什么样的?最重要的元素是什么?并行化 - SIMD progamming 模型是如何在硬件中实现的?内存 - GPU 如何解决内存带宽有限的限制?
* [jbush001/NyuziProcessor](https://github.com/jbush001/NyuziProcessor) Nyuzi 是一款实验性 GPGPU 处理器,专注于计算密集型任务。它包括用System Verilog编写的可综合硬件设计,指令集仿真器,基于LLVM 的C / C++编译器,软件库和测试。它可用于试验微架构和指令集设计权衡。
* [enjoy-digital/litex](https://github.com/enjoy-digital/litex) LiteX 框架提供了一个方便高效的基础设施来创建 FPGA 内核/SoC,探索各种数字设计架构并创建完整的基于 FPGA 的系统。
* [open-sdr/openwifi](https://github.com/open-sdr/openwifi) openwifi:Linux mac80211 兼容全栈 IEEE802.11/Wi-Fi 设计,基于 SDR(软件定义无线电)。此存储库包括 Linux 驱动程序和软件。openwifi-hw 存储库具有 FPGA 设计。您有责任遵守您的本地频谱法规或使用电缆来避免潜在的空中干扰。
* [FPGAwars/icestudio](https://github.com/FPGAwars/icestudio) 简化开源 FPGA 的数字设计:icestudio.io。专注于 FPGA 领域新人的设计工具:第 1 步:绘制电路。第 2 步:将其上传到您喜欢的开源 FPGA 板。第 3 步:完成!
* [LeiWang1999/FPGA](https://github.com/LeiWang1999/FPGA) 本项目旨在帮助大家进行FPGA的入门,分享FPGA相关的优秀文章,优秀项目。
* [hughperkins/VeriGPU](https://github.com/hughperkins/VeriGPU) 开源 GPU,在 Verilog 中,松散地基于 RISC-V ISA,构建面向 ASIC 流片的开源 GPU,用于机器学习 (“ML”)。希望可以让它与 PyTorch 深度学习框架一起使用。
* [fulldecent/system-bus-radio](https://github.com/fulldecent/system-bus-radio) 在没有无线电发射硬件的计算机上利用 system bus 传输AM无线电信号。有些计算机故意与世界其他地方断开连接。这包括删除他们的互联网、无线、蓝牙、USB、外部文件存储和音频功能。这称为“气隙”。即使在这种情况下,该程序也可以传输无线电。公开可用的文件已经讨论了使用各种电磁辐射从安全系统中渗透的问题。美国国家安全局和美国国防部发布的 TEMPEST 指南中对此进行了记录。这个项目只是增加了这个讨论。
* [hlorenzi/customasm](https://github.com/hlorenzi/customasm) 汇编程序,允许您提供自己的自定义指令集来汇编您的源文件!例如,如果您正在尝试测试新虚拟机的字节码,或者您渴望为刚刚在 FPGA 芯片中实现的新微处理器架构编写程序,它可能很有用!
* [HQarroum/awesome-iot](https://github.com/HQarroum/awesome-iot) 精选的物联网项目和资源列表。目录:硬件、软件、操作系统、编程语言、框架、中间件、库和工具、杂项、协议和网络、技术、标准和联盟、资源、书、文章、文件
* [gfx-rs/gfx](https://github.com/gfx-rs/gfx) gfx-rs 是 Rust 中的一个低级、跨平台的图形和计算抽象库。从 v0.9 版本开始,gfx-hal 现在处于维护模式。GFX-HAL 的开发主要由 WGPU 驱动,WGPU 现在已经切换到自己的 GPU 抽象,称为 WGPU-HAL。
* [embassy-rs/embassy](https://github.com/embassy-rs/embassy) 现代嵌入式框架,使用 Rust 和 async。Embassy 是嵌入式应用程序的下一代框架。使用 Rust 编程语言、其异步工具和 Embassy 库,更快地编写安全、正确和节能的嵌入式代码。Rust 编程语言速度极快且内存效率高,没有运行时、垃圾回收器或操作系统。它在编译时捕获各种错误,这要归功于其完整的内存和线程安全性以及富有表现力的类型系统。Rust 的 async/await 允许在嵌入式系统中实现前所未有的简单和高效的多任务处理。任务在编译时转换为协作运行的状态机。它不需要动态内存分配,而是在单个堆栈上运行,因此不需要对每个任务的堆栈大小进行调整。它摒弃了对具有内核上下文切换的传统 RTOS 的需求,并且比 RTOS 更快、更小!
* [MetaWu2077/Esp32_VoiceChat_LLMs](https://github.com/MetaWu2077/Esp32_VoiceChat_LLMs) 基于 ESP32 的设备,主要用于与大型语言模型的语音聊天
* [issus/altium-library](https://github.com/issus/altium-library) 开源Altium数据库库,拥有超过200,000个高质量组件和完整的3D模型。Celestial Altium库是由Altium行业专家Mark Harris创建的用于Altium Designer的大型免费开源数据库库。该数据库托管在为图书馆构建的专用云平台上,以确保您始终拥有最新的组件。Celestial Altium图书馆从概念上就被设计为包含高质量的数据,具有准确的足迹和出色的3D模型。它是免费使用的,并且是开源的。Celestial Altium图书馆已经包含大量组件,并且正在积极开发中以扩大组件覆盖范围。使用Celestial Altium库更快地构建您的下一个项目,创建精美的原理图和令人惊叹的3D PCB。
* [LibreHardwareMonitor/LibreHardwareMonitor](https://github.com/LibreHardwareMonitor/LibreHardwareMonitor) Open Hardware Monitor 的一个分支,是一款免费软件,可以监控计算机的温度传感器、风扇速度、电压、负载和时钟速度。
# 其他项目
## Python 程序
* [python/cpython](https://github.com/python/cpython) Python编程语言
* [jobbole/awesome-python-cn](https://github.com/jobbole/awesome-python-cn) Python资源大全中文版,包括:Web框架、网络爬虫、模板引擎、数据库、数据可视化、图片处理等
* [mouredev/Hello-Python](https://github.com/mouredev/Hello-Python) 从头开始学习Python编程语言的课程,适合初学者。超过30节课,25小时视频,代码和群聊。从基础知识到创建有数据库的后端 API 等等......
* [jackfrued/Python-100-Days](https://github.com/jackfrued/Python-100-Days) Python 100天从新手到大师
* [Asabeneh/30-Days-Of-Python](https://github.com/Asabeneh/30-Days-Of-Python) 30天的Python编程挑战是在30天内学习Python编程语言的分步指南。这个挑战可能需要100多天
* [satwikkansal/wtfpython](https://github.com/satwikkansal/wtfpython) 通过令人惊讶的片段探索和理解Python。
* [rasbt/python_reference](https://github.com/rasbt/python_reference/) 有用的函数、教程和其他 Python 相关的东西
* [Python-programming-exercises](https://github.com/zhiwehu/Python-programming-exercises) 100 多个具有挑战性的 Python 编程练习
* [yidao620c/python3-cookbook](https://github.com/yidao620c/python3-cookbook) 《Python Cookbook》第三版翻译
* [vinta/awesome-python](https://github.com/vinta/awesome-python) 很棒的 Python 框架、库、软件和资源的精选列表
* [joaoventura/full-speed-python](https://github.com/joaoventura/full-speed-python) 全速 Python:一本面向自学者的书
* [trekhleb/learn-python](https://github.com/trekhleb/learn-python) 用于学习 Python 的游乐场和备忘单。Python 脚本的集合,按主题拆分并包含带有解释的代码示例
* [jerry-git/learn-python3](https://github.com/jerry-git/learn-python3) 用于教学/学习 Python 3 的 Jupyter 笔记本
* [microsoft/playwright-python](https://github.com/microsoft/playwright-python) 针对 Python 语言的纯自动化工具,它可以通过单个API自动执行 Chromium,Firefox 和 WebKit 浏览器,连代码都不用写,就能实现自动化功能。
* [leisurelicht/wtfpython-cn](https://github.com/leisurelicht/wtfpython-cn) 收集 Python 中那些难以理解和反人类直觉的例子以及鲜为人知的功能特性, 并尝试讨论这些现象背后真正的原理
* [hoffstadt/DearPyGui](https://github.com/hoffstadt/DearPyGui) 针对Py的快速强大的图形用户界面工具包,具有最小的依赖性
* [sympy/sympy](https://github.com/sympy/sympy) 用纯 Python 编写的计算机代数系统。符号计算系统(顺便说一下,通常也称为计算机代数系统,或简称为 CAS),能够计算带有变量的符号表达式。
* [geekcomputers/Python](https://github.com/geekcomputers/Python) 创建这些小程序作为实验来玩Python,或者为自己解决问题。我很乐意接受其他人的指示,以改进、简化或提高代码效率。
* [emeryberger/scalene](https://github.com/emeryberger/scalene) 适用于Python的高性能,高精度CPU和内存分析器.用于Python脚本的CPU和内存分析器,能够正确处理多线程代码,还能区分Python代码和本机代码的运行时间。
* [pyenv/pyenv](https://github.com/pyenv/pyenv) 简单的 Python 版本管理,轻松地在多个 Python 版本之间切换。它简单、不显眼,并遵循 UNIX 的单一用途工具的传统,可以很好地完成一件事。
* [bloomberg/memray](https://github.com/bloomberg/memray) Memray 是 Python 的内存分析器。它可以跟踪 Python 代码、本机扩展模块和 Python 解释器本身中的内存分配。它可以生成几种不同类型的报告来帮助您分析捕获的内存使用数据。虽然通常用作 CLI 工具,但它也可以用作库来执行更细粒度的分析任务。
* [joerick/pyinstrument](https://github.com/joerick/pyinstrument) Python的调用堆栈分析器。向您展示为什么您的代码很慢!
* [psf/black](https://github.com/psf/black) 毫不妥协的 Python 代码格式化程序
* [chriskiehl/Gooey](https://github.com/chriskiehl/Gooey) 只需一行即可将(几乎)任何 Python 命令行程序转换为完整的 GUI 应用程序
* [Yixiaohan/codeparkshare](https://github.com/Yixiaohan/codeparkshare) Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐
* [spotify/chartify](https://github.com/spotify/chartify) Python 库,使数据科学家可以轻松创建图表。
* [matplotlib/matplotlib](https://github.com/matplotlib/matplotlib) 全面的在Python中创建静态,动画和交互式可视化。
* [matplotlib/cheatsheets](https://github.com/matplotlib/cheatsheets) Matplotlib 用户的备忘单
* [nvbn/thefuck](https://github.com/nvbn/thefuck) 一款出色的应用程序,灵感来自一条@liamosaur推文,可更正以前控制台命令中的错误。
* [jupyter/notebook](https://github.com/jupyter/notebook) 基于 Web 的交互式计算笔记本环境。Project Jupyter 的与语言无关的 HTML 笔记本应用程序。2015 年,Jupyter notebook 作为 IPython 代码库 The Big Split™ 的一部分发布。IPython 3 是最后一个主要的单体版本,包含与语言无关的代码(如 IPython 笔记本)和特定语言的代码(如 Python 的 IPython 内核)。由于计算跨越多种语言,Project Jupyter 将继续在此存储库中开发与语言无关的 Jupyter 笔记本,并在社区的帮助下开发特定于语言的内核,这些内核可以在他们自己的离散存储库中找到。
* [benfred/py-spy](https://github.com/benfred/py-spy) Python程序的采样分析器。它使您可以可视化Python程序花费的时间,而无需重新启动程序或以任何方式修改代码。py-spy的开销非常低:它是用 Rust 编写的,以提高速度,并且不会在与分析的 Python 程序相同的进程中运行。这意味着py-spy可以安全地用于生产Python代码。
* [ManimCommunity/manim](https://github.com/ManimCommunity/manim) 社区维护的Python框架,用于创建数学动画。
* [dabeaz-course/practical-python](https://github.com/dabeaz-course/practical-python) 实用的Python编程(@dabeaz课程)
* [jackfrued/Python-Core-50-Courses](https://github.com/jackfrued/Python-Core-50-Courses) Python语言基础50课
* [pandas-dev/pandas](https://github.com/pandas-dev/pandas) 灵活而强大的 Python 数据分析/操作库,提供类似于 R data.frame 对象的标记数据结构、统计函数等等
* [pymupdf/PyMuPDF](https://github.com/pymupdf/PyMuPDF) MuPDF的增强型Python绑定, 轻量级PDF,XPS和电子书查看器,渲染器和工具包。
* [postmanlabs/httpbin](https://github.com/postmanlabs/httpbin) HTTP Request & Response Service,用Py + Flask编写。
* [modularml/mojo](https://github.com/modularml/mojo) Mojo是一种新的编程语言,通过将Python语法和生态系统与系统编程和元编程功能相结合,弥合了研究和生产之间的差距。Mojo还很年轻,但它旨在随着时间的推移成为Python的超集。
* [pybind/pybind11](https://github.com/pybind/pybind11) C++11 和 Python 之间的无缝可操作性
* [kitao/pyxel](https://github.com/kitao/pyxel) Pyxel是Python的复古游戏引擎。由于其受复古游戏机启发的简单规格,例如只能显示 16 种颜色,只能同时播放 4 种声音,您可以随意享受制作像素艺术风格游戏的乐趣。
* [pytest-dev/pytest](https://github.com/pytest-dev/pytest) 使编写小型测试变得容易,但可扩展以支持复杂的功能测试
* [x-hw/amazing-qr](https://github.com/x-hw/amazing-qr) Python中惊人的QRCode生成器(支持动画gif) - Python amazing QR 生成器(支持 gif 动态图片二维码)
* [Nuitka/Nuitka](https://github.com/Nuitka/Nuitka) 用Python编写的Python编译器。它与Python 2.6,2.7,3.4,3.5,3.6,3.7,3.8,3.9,3.10和3.11完全兼容。你给它提供你的Python应用程序,它做了很多聪明的事情,并吐出一个可执行文件或扩展模块。
* [jackzhenguo/python-small-examples](https://github.com/jackzhenguo/python-small-examples) 告别枯燥,致力于打造 Python 实用小例子
* [faif/python-patterns](https://github.com/faif/python-patterns) Python 中的设计模式和习语的集合。
* [Jack-Cherish/PythonPark](https://github.com/Jack-Cherish/PythonPark) Python 开源项目之「自学编程之路」,保姆级教程:AI实验室、宝藏视频、数据结构、学习指南、机器学习实战、深度学习实战、网络爬虫、大厂面经、程序人生、资源分享。
* [astral-sh/ruff](https://github.com/astral-sh/ruff) 一个非常快的 Python linter 和代码格式化程序,用 Rust 编写。
* [python-poetry/poetry](https://github.com/python-poetry/poetry) 帮助您声明、管理和安装 Python 项目的依赖项,确保您在任何地方都有正确的堆栈。
* [google/python-fire](https://github.com/google/python-fire) 用于从任何 Python 对象自动生成命令行界面 (CLI) 的库。
* [pypa/pip](https://github.com/pypa/pip) Python 的包安装程序。可使用 pip 从 Python 包索引和其他索引安装包。
* [jazzband/pip-tools](https://github.com/jazzband/pip-tools) 一组工具,用于使固定的 Python 依赖项保持最新。
* [mitsuhiko/rye](https://github.com/mitsuhiko/rye) Python 的实验性包管理解决方案,Armin 个人一站式商店,可以满足他所有的 Python 需求。它安装和管理 Python 安装、管理文件、安装和卸载依赖项、在后台管理 pyproject.toml virtualenv。它支持 monorepos 和全局工具安装。
* [pypa/pipenv](https://github.com/pypa/pipenv) Python virtualenv 管理工具,它支持多种系统,并很好地弥合了 pip、python(使用系统 python、pyenv 或 asdf)和 virtualenv 之间的差距。
* [kivy/python-for-android](https://github.com/kivy/python-for-android) 将您的 Python 应用程序变成 Android APK
* [navdeep-G/setup.py](https://github.com/navdeep-G/setup.py) 提供一个示例 setup.py 文件,该文件可用于引导下一个 Py 项目。它包括一些高级模式和最佳实践 setup.py ,以及一些注释掉的好东西。
* [pypa/hatch](https://github.com/pypa/hatch) 现代、可扩展的 Python 项目管理,标准化的构建系统,默认具有可重现的构建、强大的环境管理,支持自定义脚本、可配置的 Python 分发管理、使用合理的默认值进行静态分析、轻松发布到 PyPI 或其他索引、版本管理、最佳实践项目生成、响应式 CLI,比同等工具快 ~2-3 倍
* [pdm-project/pdm](https://github.com/pdm-project/pdm) 支持最新 PEP 标准的现代 Python 包和依赖项管理器
* [cookiecutter/cookiecutter](https://github.com/cookiecutter/cookiecutter) 一个跨平台的命令行实用程序,用于从千篇一律的(项目模板)创建项目,例如 Python 包项目、C 项目。
* [kivy/kivy](https://github.com/kivy/kivy) 用 Python 编写的开源 UI 框架,可在 Windows、Linux、macOS、Android 和 iOS 上运行
* [theskumar/python-dotenv](https://github.com/theskumar/python-dotenv) 从 .env 文件中读取键值对,并将其设置为环境变量。它有助于按照 12 因素原则开发应用程序。
* [tqdm/tqdm](https://github.com/tqdm/tqdm) 适用于 Python 和 CLI 的快速、可扩展的进度条
* [microsoft/pyright](https://github.com/microsoft/pyright) 功能齐全、基于标准的 Python 静态类型检查器。它专为高性能而设计,可与大型 Python 源代码库一起使用。
* [PySimpleGUI/PySimpleGUI](https://github.com/PySimpleGUI/PySimpleGUI) 轻松创建复杂的窗口。支持tkinter,Qt,WxPython,Remi(在浏览器中)。使用全套小部件轻松创建 GUI 应用程序。多窗口应用程序也很简单。支持 3.4 至 3.11。325+ 演示程序和食谱,用于快速入门。广泛的文档
* [cool-RR/PySnooper](https://github.com/cool-RR/PySnooper) 一个穷人的调试器。如果你使用过 Bash,它就像 Python 一样 set -x ,只是它更高级。
* [pyscript/pyscript](https://github.com/pyscript/pyscript) 一个框架,允许用户使用 HTML 的界面和 Pyodide、MicroPython 和 WASM 以及现代 Web 技术的强大功能在浏览器中创建丰富的 Python 应用程序。
* [xianhu/LearnPython](https://github.com/xianhu/LearnPython) 以撸代码的形式学习Python
* [psf/requests](https://github.com/psf/requests) 一个简单而优雅的 HTTP 库。
* [huangsam/ultimate-python](https://github.com/huangsam/ultimate-python) 适合新手和专业人士的终极 Python 学习指南。
* [pamoroso/free-python-books](https://github.com/pamoroso/free-python-books) Python 书籍可免费在线阅读或下载.
* [junnplus/awesome-python-books](https://github.com/junnplus/awesome-python-books) Python 书籍目录
* [xxg1413/python](https://github.com/xxg1413/python) Python 书籍和课程
* [thonny/thonny](https://github.com/thonny/thonny) 面向初学者的 Python IDE
* [pola-rs/polars](https://github.com/pola-rs/polars) 由多线程、矢量化查询引擎提供支持的数据帧 Dataframe,Rust编写
* [plotly/plotly.py](https://github.com/plotly/plotly.py) Py的交互式图形库 这个项目现在包括 Plotly Express
* [pyecharts/pyecharts](https://github.com/pyecharts/pyecharts) Py的数据可视化库。Apache ECharts 是由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多的认可。
* [mwaskom/seaborn](https://github.com/mwaskom/seaborn) 基于 matplotlib 的 Python 可视化库。它提供了一个高级界面,用于绘制有吸引力的统计图形。
* [bokeh/bokeh](https://github.com/bokeh/bokeh) 用于现代 Web 浏览器的交互式可视化库。它提供了优雅、简洁的多功能图形结构,并在大型或流式数据集中提供了高性能的交互性。散景可以帮助任何想要快速轻松地创建交互式绘图、仪表板和数据应用程序的人。
* [google/yapf](https://github.com/google/yapf) 基于clang-format(由 Daniel Jasper 开发)的 Py 格式化程序。该算法获取代码并计算符合配置样式的最佳格式。它消除了维护代码的很多苦差事。
* [getpelican/pelican](https://github.com/getpelican/pelican) 支持 Markdown 和 reST 语法的静态站点生成器。
* [pyinstaller/pyinstaller](https://github.com/pyinstaller/pyinstaller) 将 Python 应用程序及其所有依赖项捆绑到一个包中。用户可以在不安装 Python 解释器或任何模块的情况下运行打包的应用。
* [marceloprates/prettymaps](https://github.com/marceloprates/prettymaps) 一小组Python函数,用于从OpenStreetMap数据中绘制漂亮的地图。基于 osmnx、matplotlib 和 shapely 库。
* [dabeaz-course/python-mastery](https://github.com/dabeaz-course/python-mastery) 以练习为导向的高级 Python 编程课程,十多年来在企业培训巡回赛中经过了数百次的实战测试。作者:David Beazley,他是 Python Cookbook, 3rd Edition (O'Reilly) 和 Python Distilled (Addison-Wesley) 的作者。在知识共享许可下发布。
* [gto76/python-cheatsheet](https://github.com/gto76/python-cheatsheet) 全面的python备忘单
* [norvig/pytudes](https://github.com/norvig/pytudes) Python程序,通常很短,难度相当大,以完善特定的技能。
* [walter201230/Python](https://github.com/walter201230/Python) 最良心的 Python 教程
* [python/mypy](https://github.com/python/mypy) Python 的静态类型检查器。类型检查器有助于确保在代码中正确使用变量和函数。使用 mypy,将类型提示 (PEP 484) 添加到您的 Python 程序中,当您错误地使用这些类型时,mypy 会警告您。Python 是一种动态语言,因此通常只有在尝试运行它时才会在代码中看到错误。Mypy 是一个静态检查器,因此它甚至可以在不运行程序的情况下发现程序中的错误!
* [pydantic/pydantic](https://github.com/pydantic/pydantic) 使用 Python 类型提示进行数据验证。Pydantic 快速且可扩展,可以很好地与您的 linters/IDE/大脑配合使用。定义数据在纯规范 Python 3.8+ 中应该如何存在;使用 Pydantic 验证它。
* [ipython/ipython](https://github.com/ipython/ipython) IPython 本身的官方存储库。IPython 组织中的其他存储库包含网站、文档构建等内容。IPython (Interactive Python) 是一个用于多种编程语言的交互式计算的命令 shell,最初是为 Python 编程语言开发的,它提供内省、富媒体、shell 语法、Tab 自动补全和历史记录。
* [mahmoud/awesome-python-applications](https://github.com/mahmoud/awesome-python-applications) 运行良好的免费软件,也恰好是开源 Python。
* [psf/black](https://github.com/psf/black) 毫不妥协的Python代码格式化程序。通过使用它,您同意放弃对手动格式化细节的控制。作为回报,Black 为您提供速度、确定性和免于 pycodestyle 唠叨格式的自由。您将为更重要的事情节省时间和精力。
* [psf/pyperf](https://github.com/psf/pyperf) 用于编写、运行和分析基准测试的工具包。用于运行可靠基准测试的简单 API、自动校准时间预算的基准、生成多个工作进程、计算平均值和标准差、检测基准测试结果是否不稳定、用于存储基准测试结果的 JSON 格式、支持多种单位:秒、字节和整数。
* [joke2k/faker](https://github.com/joke2k/faker) Python 包,可以为您生成虚假数据。
* [Delgan/loguru](https://github.com/Delgan/loguru) 旨在为 Python 带来愉快日志记录的库。特征:开箱即用,无需样板
;没有处理程序,没有格式化程序,没有过滤器;通过旋转/保留/压缩更轻松地记录文件;使用大括号样式的现代字符串格式;在线程或 main 中捕获异常;漂亮的彩色日志记录;异步、线程安全、多进程安全;完全描述性的异常;根据需要进行结构化日志记录;对昂贵函数的延迟评估;可定制的级别;更好的日期时间处理;适用于脚本和库;与标准日志记录完全兼容;通过环境变量实现个性化默认值;方便的解析器;详尽的通知程序;比内置日志记录快 10 倍。* [fabric/fabric](https://github.com/fabric/fabric) 通过 SSH 远程执行 shell 命令,从而产生有用的 Python 对象作为返回。它建立在Invoke(子流程命令执行和命令行功能)和Paramiko(SSH协议实现)之上,扩展了它们的API以相互补充并提供额外的功能。
* [pallets/click](https://github.com/pallets/click) Python 包,用于以可组合的方式创建漂亮的命令行界面,并根据需要使用尽可能少的代码。它是“命令行界面创建工具包”。它是高度可配置的,但具有开箱即用的合理默认值。
* [avinashkranjan/Amazing-Python-Scripts](https://github.com/avinashkranjan/Amazing-Python-Scripts) 精选的惊人 Python 脚本集合,从基础到高级,带有自动化任务脚本。
* [facebook/pyre-check: Performant type-checking for python.](https://github.com/facebook/pyre-check) 符合 PEP 484 的 Python 高性能类型检查器。Pyre 可以逐步分析包含数百万行代码的代码库,从而在开发人员编写代码时为他们提供即时反馈。可在 Pyre Playground 中中试用它。
* [arrow-py/arrow](https://github.com/arrow-py/arrow) Python 库,提供了明智且人性化的方法来创建、操作、格式化和转换日期、时间和时间戳。可以帮助您以更少的导入和更少的代码处理日期和时间。
* [exaloop/codon](https://github.com/exaloop/codon) 高性能的 Python 实现,可编译为本机机器代码,而不会产生任何运行时开销。在单个线程上,与普通 Python 相比,典型的加速约为 10-100 倍或更多。密码子的性能通常与 C/C++ 相当(有时甚至更好)。与 Python 不同,Codon 支持原生多线程,这可以使速度提高许多倍。
* [mahmoud/boltons](https://github.com/mahmoud/boltons) 超过230个BSD许可的纯Python实用程序
* [gruns/icecream](https://github.com/gruns/icecream) 永远不要再使用 print() 进行调试。ic() 就像 print() ,但更好:它打印表达式/变量名称及其值。打字速度提高 60%。数据结构打印。输出以语法突出显示。它可以选择包括程序上下文:文件名、行号和父函数。
* [realpython/python-guide](https://github.com/realpython/python-guide) 旨在为新手和专家 Python 开发人员提供一本关于日常安装、配置和使用 Python 的最佳实践手册。
* [gaogaotiantian/viztracer](https://github.com/gaogaotiantian/viztracer) 低开销的日志记录/调试/分析工具,可以跟踪和可视化 python 代码执行。
* [bee-san/pyWhat](https://github.com/bee-san/pyWhat) 识别任何东西。pyWhat 可让您轻松识别电子邮件、IP 地址等。给它一个 .pcap 文件或一些文本,它会告诉你它是什么
* [taizilongxu/interview_python](https://github.com/taizilongxu/interview_python) 关于Python的面试题
* [reloadware/reloadium](https://github.com/reloadware/reloadium) Python 的热重载、分析和 AI 调试
* [TomSchimansky/CustomTkinter](https://github.com/TomSchimansky/CustomTkinter) 基于 Tkinter 的 python UI 库,它提供了新的、现代的和完全可定制的小部件。它们的创建和使用方式与普通的 Tkinter 小部件类似,也可以与普通的 Tkinter 元素结合使用。小部件和窗口颜色要么适应系统外观,要么适应手动设置的模式(“浅色”、“深色”),并且所有小部件和窗口都支持 HighDPI 缩放。在所有桌面平台上获得一致且现代的外观。
* [tiangolo/typer](https://github.com/tiangolo/typer) 用于构建 CLI 应用程序的库,用户会喜欢使用,开发人员会喜欢创建。基于 Python 3.6+ 类型提示。
* [borgbackup/borg](https://github.com/borgbackup/borg) 重复数据删除备份程序。它支持压缩和经过身份验证的加密。
* [MagicStack/uvloop](https://github.com/MagicStack/uvloop) 内置 Asyncio 事件循环的快速直接替代品。uvloop 是在 Cython 中实现的,并在后台使用 libuv。
* [mwouts/jupytext](https://github.com/mwouts/jupytext) Jupyter Notebooks Markdown文档、Julia、Python或R脚本
* [giampaolo/psutil](https://github.com/giampaolo/psutil) 用于 Python 中进程和系统监控的跨平台库
* [Textualize/textual](https://github.com/Textualize/textual) 受现代Web开发启发的 Python 的 TUI(文本用户界面)框架。
* [ijl/orjson](https://github.com/ijl/orjson) 支持数据类、日期时间和 numpy 的高速、准确的 Python JSON 库
* [Davy-Zhou/zip2pdf](https://github.com/Davy-Zhou/zip2pdf) 基于Python自动化解压压缩包成PDG,PDG合成PDF
* [jupyterlab/jupyterlab-git](https://github.com/jupyterlab/jupyterlab-git) 使用 Git 进行版本控制的 JupyterLab 扩展
* [damianavila/RISE](https://github.com/damianavila/RISE) 允许您立即将 Jupyter 笔记本变成幻灯片。
* [jupyter/nbdime](https://github.com/jupyter/nbdime) 用于区分和合并 Jupyter 笔记本的工具。
* [voila-dashboards/voila](https://github.com/voila-dashboards/voila) 将 Jupyter 笔记本变成独立的网络应用程序
* [jazzband/tablib](https://github.com/jazzband/tablib) 用于 XLS、CSV、JSON、YAML 和 c 表格数据集的 Python 模块。
* [robotframework/robotframework](https://github.com/robotframework/robotframework) 用于验收测试和 RPA 的通用自动化框架
* [tebelorg/RPA-Python](https://github.com/tebelorg/RPA-Python) 用于 RPA(机器人流程自动化)的 Python 包
* [python-visualization/folium](https://github.com/python-visualization/folium) folium 建立在 Python 生态系统的数据整理优势和 Leaflet.js 库的映射优势之上。在 Python 中操作您的数据,然后通过 folium 将其可视化在 Leaflet 地图中。
* [davidhalter/jedi](https://github.com/davidhalter/jedi) 很棒的 Python 自动完成、静态分析和重构库,Jedi 专注于自动完成和转到功能。其他功能包括重构、代码搜索和查找引用。有一个简单的 API 可供使用。有一个参考实现作为 VIM-Plugin。REPL中的自动完成也是可能的,IPython本机使用它,对于CPython REPL,您可以安装它。绝地武士经过了很好的测试,错误应该很少见。
* [ActivityWatch/activitywatch](https://github.com/ActivityWatch/activitywatch) 最好的免费和开源自动时间跟踪器。跨平台、可扩展、注重隐私。在不损害用户隐私的情况下收集尽可能多的有价值的生活数据。
## C/C++ 程序设计
* [skyline-emu/skyline](https://github.com/skyline-emu/skyline) 实验性模拟器,可在 ARMv8 Android™ 设备上运行并模拟 Nintendo Switch™ 游戏机系统的功能
* [huihut/interview](https://github.com/huihut/interview) C/C++ 技术面试基础知识总结
* [wuye9036/CppTemplateTutorial](https://github.com/wuye9036/CppTemplateTutorial) 中文的C++ Template的教学指南。与知名书籍C++ Templates不同,该系列教程将C++ Templates作为一门图灵完备的语言来讲授,以求帮助读者对Meta-Programming融会贯通。
* [Qihoo360/safe-rules](https://github.com/Qihoo360/safe-rules) 详细的C/C++编程规范指南,由360质量工程部编著,适用于桌面、服务端及嵌入式软件系统。
* [isocpp/CppCoreGuidelines](https://github.com/isocpp/CppCoreGuidelines) C++ 核心指南是一组关于使用 C++ 编码的久经考验的指南、规则和最佳实践
* [TheAlgorithms/C-Plus-Plus](https://github.com/TheAlgorithms/C-Plus-Plus) 以 C++ 实现的数学、机器学习、计算机科学和物理学中的各种算法的集合,用于教育目的。
* [chengxumiaodaren/cpp-learning](https://github.com/chengxumiaodaren/cpp-learning) C++学习
* [jobbole/awesome-cpp-cn](https://github.com/jobbole/awesome-cpp-cn) C++ 资源大全中文版,标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。
* [AnthonyCalandra/modern-cpp-features](https://github.com/AnthonyCalandra/modern-cpp-features) 现代C++语言和库功能的备忘单。
* [llvm/llvm-project](https://github.com/llvm/llvm-project) LLVM 项目是模块化和可重用的编译器和工具链技术的集合。用于构建高度优化的编译器、优化器和运行时环境的工具包。LLVM 项目有多个组件。该项目的核心本身称为“LLVM”。它包含处理中间表示并将其转换为目标文件所需的所有工具、库和头文件。工具包括汇编程序、反汇编程序、位码分析器和位码优化器。类 C 语言使用 Clang 前端。此组件使用 LLVM 将 C、C++、Objective-C 和 Objective-C++ 代码编译为 LLVM 位码,然后从那里编译为目标文件。其他组件包括:libc++ C++ 标准库、LLD 链接器等。
* [Tencent/libco](https://github.com/Tencent/libco) 广泛应用于微信后台服务的协程库。 已经在数万台机器上运行。
* [cloudwu/coroutine](https://github.com/cloudwu/Coroutine) C 的非对称协程库。
* [attractivechaos/klib](https://github.com/attractivechaos/klib) 独立轻量级 C 库,MIT/X11许可。 多数组件都独立于外部库,除了标准 C 库,并且彼此独立。Klib 致力于提高效率和减少内存占用。 就速度和内存使用而言,某些组件(如 khash.h、kbtree.h、ksort.h 和 kvec.h)是所有编程语言中类似算法或数据结构的最有效实现之一。
* [nothings/stb](https://github.com/nothings/stb) 用于 C/C++ 的单文件公共域(或 MIT 许可)库
* [miloyip/json-tutorial](https://github.com/miloyip/json-tutorial) 从零开始的 JSON 库教程 C/C++ 编程
* [liu-jianhao/Cpp-Design-Patterns](https://github.com/liu-jianhao/Cpp-Design-Patterns) C++设计模式
* [facebook/folly](https://github.com/facebook/folly) Facebook开发和使用的开源C++库。
* [fffaraz/awesome-cpp](https://github.com/fffaraz/awesome-cpp) A curated list of awesome C++ (or C) frameworks, libraries, resources, and shiny things. Inspired by awesome-... stuff.
* [tangtangcoding/C-C-](https://github.com/tangtangcoding/C-C-) C语言电子书与视频资料分享
* [linyacool/WebServer](https://github.com/linyacool/WebServer) C++11编写的Web服务器
* [jupyter-xeus/xeus-cling](https://github.com/jupyter-xeus/xeus-cling) 用于 C++ 编程语言的 Jupyter 内核
* [gozfree/gear-lib](https://github.com/gozfree/gear-lib) 一组通用的C基础库,用POSIX C实现,目标是为了跨平台兼容。适用于物联网,嵌入式,以及网络服务开发等场景。
* [google/googletest](https://github.com/google/googletest) Google 测试和模拟框架 C++ 测试框架
* [ocornut/imgui](https://github.com/ocornut/imgui) 具有最小依赖性的 C++ 无膨胀图形用户界面
* [SFML/SFML](https://github.com/SFML/SFML) 简单、快速、跨平台和面向对象的多媒体 API。它提供对窗口、图形、音频和网络的访问。它是用 C++ 编写的,并具有各种语言的绑定,例如 C、.Net、Ruby、Python。
* [citra-emu/citra](https://github.com/citra-emu/citra) 用 C++ 编写的实验性开源 Nintendo 3DS 模拟器/调试器。
* [microsoft/vcpkg](https://github.com/microsoft/vcpkg) 帮助您管理 Win、Linux 和 MacOS 上的 C 和 C++ 库。
* [libcpr/cpr](https://github.com/libcpr/cpr) libcurl的简单包装器,灵感来自优秀的Python Requests项目。
* [open-source-parsers/jsoncpp](https://github.com/open-source-parsers/jsoncpp) 用于与 JSON 交互的C++库。C++库,允许操作 JSON 值,包括字符串的序列化和反序列化。它还可以在反序列化/序列化步骤中保留现有注释,使其成为存储用户输入文件的方便格式。
* [cameron314/concurrentqueue](https://github.com/cameron314/concurrentqueue) 适用于 C++ 的工业级无锁队列。特征:超快的性能。单头文件实现,只需将其放入您的项目中即可。完全线程安全的无锁队列,从任意数量的线程并发使用。C++11 实现 -- 在可能的情况下移动(而不是复制)元素。模板化,避免了专门处理指针的需要 -- 内存是为您管理的。对元素类型或最大数量没有人为限制。内存可以预先分配一次,也可以根据需要动态分配。完全可移植(无需汇编;所有操作均通过标准 C++ 11 原语完成)。支持超快速批量操作,包括低开销阻塞版本 (BlockingConcurrentQueue)。异常安全。
* [electronicarts/EASTL](https://github.com/electronicarts/EASTL) EASTL 代表 Electronic Arts 标准模板库。它是一个广泛而强大的实现,强调高性能。它是容器、算法和迭代器的 C++ 模板库,可用于跨多个平台的运行时和工具开发。它是此类库的相当广泛和健壮的实现,并且强调高性能高于所有其他考虑因素。
* [progschj/ThreadPool](https://github.com/progschj/ThreadPool) 一个简单的 C++11 线程池实现
* [libevent/libevent](https://github.com/libevent/libevent) 事件通知库。libevent API 提供了一种机制,用于在文件描述符上发生特定事件或达到超时后执行回调函数。此外,libevent 还支持由于信号或定期超时而产生的回调。libevent 旨在替换事件驱动网络服务器中的事件循环。应用程序只需要调用 event_dispatch,然后动态添加或删除事件,而无需更改事件循环。目前 libevent 支持 /dev/poll、kqueue、event ports、POSIX select、Windows select、poll和 epoll。内部事件机制完全独立于公开的事件 API,对 libevent 的简单更新可以提供新功能,而无需重新设计应用程序。因此,Libevent 允许可移植应用程序开发,并提供操作系统上可用的最具可扩展性的事件通知机制。Libevent 还可用于多线程应用程序,方法是隔离每个event_base,以便只有一个线程访问它,或者通过锁定对单个共享event_base的访问。Libevent 应该在 Linux、*BSD、Mac OS X、Solaris、Windows 等平台上编译。Libevent 还为缓冲网络 IO 提供了一个复杂的框架,支持套接字、过滤器、速率限制、SSL、零拷贝文件传输和 IOCP。Libevent 支持多种有用的协议,包括 DNS、HTTP 和最小的 RPC 框架。使用 libevent 的程序:Chromium – Google 的开源网络浏览器(使用 Libevent);Memcached – 高性能分布式内存对象缓存系统;Transmission 一个快速、简单且免费的 BitTorrent 客户端;NTP – 使时钟正确的网络时间协议(在 SNTP 中使用 Libevent);tmux – 一个干净、现代、BSD 许可的终端多路复用器,类似于 GNU 屏幕;Tor – 一个匿名的互联网通信系统。libevhtp – libevent 的 http 客户端/服务器 API 的快速灵活替代品
* [idealvin/coost](https://github.com/idealvin/coost) 一个优雅高效的跨平台C++基础库。它的目标是创建一把C++之剑,使C++编程变得简单愉快。
* [C 程序设计 · 语雀](https://www.yuque.com/qyuhen/c11)
* [koshox/pythonvm](https://github.com/koshox/pythonvm) 《自己动手写python虚拟机》C++实现
* [federico-busato/Modern-CPP-Programming](https://github.com/federico-busato/Modern-CPP-Programming) 现代 C++ 编程课程 (C++ 11/14/17/20/23),这门开放获取课程面向那些已经熟悉 C 和面向对象编程的人,以达到 C++ 编程的熟练程度。该课程涵盖 C++ 编程的基础知识,并转向高级 C++ 语义和概念。
* [carbon-language/carbon-lang](https://github.com/carbon-language/carbon-lang) Carbon Language的主要存储库:文档,设计,实现和相关工具。Carbon是一种后继语言方法,而不是试图逐步发展C++。它围绕与C++的互操作性以及现有C++代码库和开发人员的大规模采用和迁移而设计。C++仍然是性能关键型软件的主要编程语言,拥有大量且不断增长的代码库和投资。然而,如上所述,它正在努力改善和满足开发人员的需求,这在很大程度上是由于积累了数十年的技术债务。逐步改进C++非常困难,这既是由于技术债务本身,也是由于其演变过程的挑战。解决这些问题的最佳方法是避免直接继承 C 或 C++ 的遗产,而是从坚实的语言基础开始,如现代泛型系统、模块化代码组织和一致、简单的语法。
* [abseil/abseil-cpp](https://github.com/abseil/abseil-cpp) C++ 库代码的开源集合,旨在增强 C++ 标准库。Abseil 库代码是从 Google 自己的 C++ 代码库中收集的,经过广泛的测试并在生产中使用,与我们日常编码生活中依赖的代码相同。
* [akheron/jansson](https://github.com/akheron/jansson) 用于编码、解码和操作 JSON 数据的 C 库
* [simdjson/simdjson](https://github.com/simdjson/simdjson) 每秒解析千兆字节的JSON:由Facebook / Meta Velox,WestmelonDB,Apache Doris,StarRocks使用。simdjson 库使用常用的 SIMD 指令和微并行算法来解析 JSON 的速度比 RapidJSON 快 4 倍,比 JSON 快 25 倍,适用于现代C++。
* [Tencent/rapidjson](https://github.com/Tencent/rapidjson) 快速JSON解析/生成器,同时使用C++ SAX/DOM 样式 API
* [bblanchon/ArduinoJson](https://github.com/bblanchon/ArduinoJson) 用于Arduino和嵌入式C++的JSON库。简单高效。
* [rui314/chibicc](https://github.com/rui314/chibicc) 实现大多数 C11 功能的小型 C 编译器。尽管它仍然可能像其他小型编译器一样属于“玩具编译器”类别,但 chibicc 可以编译几个真实世界的程序,包括 Git、SQLite、libpng 和 chibicc 本身,而无需对编译的程序进行修改。这些程序生成的可执行文件通过其相应的测试套件。因此,chibicc 实际上支持多种 C11 功能,并且能够正确编译数十万行真实世界的 C 代码。chibicc 是作为我目前正在写的一本关于 C 编译器和低级编程的书的参考实现而开发的。这本书以循序渐进的方法涵盖了这个广泛的主题;在第一章中,读者将实现一个“编译器”,该编译器只接受一个数字作为“语言”,然后它将在本书的每个部分一次获得一个特性,直到编译器接受的语言与C11规范指定的语言匹配。我从阿卜杜勒阿齐兹·古鲁姆(Abdulaziz Ghuloum)的论文中采用了这种渐进的方法。此项目的每次提交都对应于本书的一个部分。为此,不仅项目的最终状态,而且每个提交都经过精心编写,并考虑到了可读性。读者应该能够通过阅读这个项目的一个或几个提交来了解如何实现 C 语言功能。例如,while、[]、?: 和 thread-local 变量是这样实现的。如果您有足够的空闲时间,从第一次提交开始阅读它可能会很有趣。如果您喜欢这个项目,请考虑在这本书可用时购买一份!我把chibicc发音为chee bee cee cee。“chibi”在日语中是“小”或“小”的意思。“cc”代表 C 编译器。
* [miloyip/nativejson-benchmark](https://github.com/miloyip/nativejson-benchmark) C/C++ JSON 解析器/生成器基准测试
* [miloyip/json-tutorial](https://github.com/miloyip/json-tutorial) 从零开始的 JSON 库教程
* [nlohmann/json](https://github.com/nlohmann/json) 适用于现代C++的 JSON
* [DaveGamble/cJSON](https://github.com/DaveGamble/cJSON) ANSI C 中的超轻量级 JSON 解析器
* [Mooophy/Cpp-Primer](https://github.com/Mooophy/Cpp-Primer) C++ 入门5答案
* [facebook/infer](https://github.com/facebook/infer) 适用于 Java、C、C++ 和 Objective-C 的静态分析器
* [Tencent/MMKV](https://github.com/Tencent/MMKV) 微信开发的高效、小型移动键值存储框架。
* [openframeworks/openFrameworks](https://github.com/openframeworks/openFrameworks) 社区开发的跨平台工具包,用于C++中的创造性编码。
* [gabime/spdlog](https://github.com/gabime/spdlog) 非常快速,仅标头/编译的 C++ 日志记录库。
* [catchorg/Catch2](https://github.com/catchorg/Catch2) 用于单元测试、TDD 和 BDD 的现代 C++ 原生测试框架 - 使用 C++14、C++17 及更高版本
* [fmtlib/fmt](https://github.com/fmtlib/fmt) 开源格式库,为 C stdio 和 C++ iostreams 提供了快速安全的替代方案。
* [rigtorp/awesome-modern-cpp](https://github.com/rigtorp/awesome-modern-cpp) 有关现代 C++ 的资源集合。目标是收集资源列表,以帮助人们了解和利用现代 C++11 及更高版本。
* [sumatrapdfreader/sumatrapdf](https://github.com/sumatrapdfreader/sumatrapdf) C/C++ Windows 的多格式(PDF、EPUB、MOBI、CBZ、CBR、FB2、CHM、XPS、DjVu)阅读器,采用 (A)GPLv3 许可,部分代码采用 BSD 许可。
* [CnTransGroup/EffectiveModernCppChinese](https://github.com/CnTransGroup/EffectiveModernCppChinese) 《Effective Modern C++ 》翻译
* [ttroy50/cmake-examples](https://github.com/ttroy50/cmake-examples) CMake 是一个跨平台的开源元构建系统,可以构建、测试和打包软件。这个存储库包括一些现代 CMake 配置示例,我在探索它在各种项目中的用法时已经拿起了这些配置。这些示例以类似教程的格式进行布局。第一个示例非常基础,并且利用前面的示例来展示更复杂的用例,复杂性会慢慢增加。
* [facebook/zstd](https://github.com/facebook/zstd) 快速无损压缩算法,针对 zlib 级的实时压缩场景和更好的压缩比。它由 Huff0 和 FSE 库提供的非常快的熵级支持。Zstandard 的格式是稳定的,并记录在RFC8878中。已经有多个独立的实现可用。此存储库表示参考实现,作为开源双 BSD 或 GPLv2 许可的 C 库提供,以及生成和解码 .zst 、 .gz .xz 和 .lz4 文件的命令行实用程序。
* [xmake-io/xmake](https://github.com/xmake-io/xmake) 基于 Lua 的跨平台构建实用程序
* [upx/upx](https://github.com/upx/upx) eXecutables 的终极打包器c++
* [jart/cosmopolitan](https://github.com/jart/cosmopolitan) Cosmopolitan Libc 使 C 语言成为一种随处运行一次的语言,就像 Java 一样,但它不需要解释器或虚拟机。取而代之的是,它重新配置了库存 GCC 和 Clang,以输出 POSIX 批准的多语言格式,该格式在 Linux + Mac + Windows + FreeBSD + OpenBSD + NetBSD + BIOS 上本地运行,具有最佳性能和可以想象到的最小的占用空间。
* [bkaradzic/bgfx](https://github.com/bkaradzic/bgfx) 跨平台、与图形 API 无关的“自带引擎/框架”风格的渲染库。
* [TheCherno/Hazel](https://github.com/TheCherno/Hazel) Windows 的早期交互式应用程序和渲染引擎。
* [zhongyang219/TrafficMonitor](https://github.com/zhongyang219/TrafficMonitor) 用于Windows平台的网速监控悬浮窗软件,可以显示当前网速、CPU及内存利用率,支持嵌入到任务栏显示,支持更换皮肤、历史流量统计等功能。
* [unikraft/unikraft](https://github.com/unikraft/unikraft) 下一代云原生内核,旨在解锁一流的性能、安全原语和效率节约。Unikraft 使您能够从根本上定制和构建自定义操作系统/内核,从而为下一代云原生、无容器应用程序提供支持;解锁一流的性能、安全原语和效率节约。特征:虽然基于 Linux 的系统可能需要数十秒才能启动,但 Unikraft 将在几毫秒内启动。Unikraft 拥有模块化设计方法,允许开发人员仅包含必要的组件,从而实现更精简、更高效的操作系统配置。Unikraft专为性能而构建,可最大限度地减少开销并利用特定于平台的优化,确保应用程序达到最佳性能水平。Unikraft支持多种硬件架构,包括x86、ARM(以及即将推出的RISC-V),在各种硬件平台上提供了部署的灵活性。Unikraft 为多种编程语言和硬件架构提供广泛的支持,使开发人员能够灵活地选择最适合您需求的工具和平台。Unikraft专为云和边缘计算环境而设计,可跨分布式计算基础设施无缝部署应用程序。通过有选择地仅包含必要的组件,Unikraft 减少了攻击面,增强了部署场景中的安全性。Unikraft还包括许多其他现代安全功能。Unikraft直观的工具链和用户友好的界面简化了开发过程,使开发人员能够专注于构建创新的解决方案。Unikraft 优化了资源利用率,从而减少了占用空间(意味着更高的服务器饱和度)并提高了资源受限环境中的效率。Unikraft 是一个开源项目,由 100 多名开发人员组成的充满活力的社区推动,促进了工业界和学术界的合作和创新。
## Rust 程序设计
* [rust-lang/rust](https://github.com/rust-lang/rust) rust使每个人都能构建可靠、高效的软件。Rust 的主要源代码存储库。它包含编译器、标准库和文档。
* [servo/servo](https://github.com/servo/servo) 用 Rust 语言编写的原型 Web 浏览器引擎。
* [rust-unofficial/awesome-rust](https://github.com/rust-unofficial/awesome-rust) Rust 代码和资源的精选列表。
* [TheAlgorithms/Rust](https://github.com/TheAlgorithms/Rust) 所有算法都在 Rust 中实现
* [sger/RustBooks](https://github.com/sger/RustBooks) Rust 书籍列表
* [rust-lang/book](https://github.com/rust-lang/book) Rust 编程语言,您也可以在线免费阅读这本书。请参阅本书随最新的稳定版、测试版或每晚 Rust 版本一起提供。
* [dani-garcia/vaultwarden](https://github.com/dani-garcia/vaultwarden) Rust 编写并与上游 Bitwarden 客户端兼容的 服务器 API 的替代实现,非常适合运行官方资源密集型服务可能不理想的自托管部署。Bitwarden是自由且开源的密码管理服务,用户可在加密的保管库中存储敏感信息。
* [sunface/rust-course](https://github.com/sunface/rust-course) “连续六年成为全世界最受喜爱的语言,无GC也无需手动内存管理、极高的性能和安全性、过程/OO/函数式编程、优秀的包管理、JS未来基石" 。Rust语言圣经拥有全面且深入的讲解、生动贴切的示例、德芙般丝滑的内。这可能是目前最用心的Rust中文学习教程/书籍
* [rust-lang/cargo](https://github.com/rust-lang/cargo) Rust包管理器,Cargo下载你的Rust项目的依赖项并编译你的项目。
* [rust-lang/mdBook](https://github.com/rust-lang/mdBook) 从markdown文件创建书籍。像Gitbook 一样,但在 Rust 中实现。它非常适合创建产品或 API 文档、教程、课程材料或任何需要干净、易于导航和可定制的演示文稿的内容。轻量级 Markdown 语法可帮助您更专注于您的内容;集成搜索支持;许多不同语言的代码块的颜色语法突出显示;主题文件允许自定义输出的格式;预处理器可以为自定义语法和修改内容提供扩展;后端可以将输出呈现为多种格式;用 Rust 编写,速度、安全性和简单性;Rust 代码示例的自动化测试。
* [iced-rs/iced](https://github.com/iced-rs/iced) 一个跨平台的 Rust GUI 库,灵感来自 Elm
* [phil-opp/blog_os](https://github.com/phil-opp/blog_os) 在 Rust 中编写操作系统系列的源代码 os.phil-opp.com。
* [hyperium/hyper](https://github.com/hyperium/hyper) 一个 Rust 的 HTTP 库。Hyper 是一个相对低级的库,旨在成为库和应用程序的构建块。如果您正在寻找一个方便的HTTP客户端,那么您可能希望考虑reqwest。如果您不确定选择哪种HTTP服务器,那么您可能需要考虑axum或warp,后者采用更实用的方法。两者都建在这个库之上。
* [seanmonstar/reqwest](https://github.com/seanmonstar/reqwest) 一个简单而强大的 Rust HTTP 客户端
* [seanmonstar/warp](https://github.com/seanmonstar/warp) 一个超级简单,可组合的Web服务器框架。
* [Rust 程序设计 · 语雀](https://www.yuque.com/qyuhen/rust)
* [veloren/veloren](https://github.com/veloren/veloren) 用 Rust 编写的多人体素 RPG。从 Cube World、Minecraft 和 Dwarf Fortress 等游戏中汲取灵感。该游戏目前正在大力开发中,但可以玩。
* [emilk/egui](https://github.com/emilk/egui) 简单、快速且高度可移植的 Rust 即时模式 GUI 库。
* [bevyengine/bevy](https://github.com/bevyengine/bevy) 用 Rust 构建的令人耳目一新的简单数据驱动游戏引擎
* [rust-lang/rustlings](https://github.com/rust-lang/rustlings) 小练习,让你习惯阅读和编写 Rust 代码
* [yewstack/yew](https://github.com/yewstack/yew) 用于构建客户端 Web 应用程序的 Rust / Wasm 框架
* [swc-project/swc](https://github.com/swc-project/swc) 用 Rust 编写的超快 TypeScript / JavaScript 编译器。它同时是 Rust 和 JavaScript 的库。
* [tokio-rs/tokio](https://github.com/tokio-rs/tokio) 使用 Rust 编写可靠异步应用程序的运行时。提供 I/O、网络、调度、定时器等
* [redox-os/redox](https://github.com/redox-os/redox) 用 Rust 编写的操作系统,Rust 是一种专注于安全和高性能的语言。Redox 遵循微内核设计,旨在安全、可用和免费。Redox 的灵感来自以前的内核和操作系统,例如 SeL4、MINIX、Plan 9 和 BSD。不仅仅是一个内核,它还是一个功能齐全的操作系统,提供软件包(内存分配器、文件系统、显示管理器、核心实用程序等),它们共同构成了一个功能强大且方便的操作系统。你可以粗略地把它看作是GNU或BSD生态系统,但采用的是内存安全的语言和现代技术。
* [hyperium/tonic](https://github.com/hyperium/tonic) 具有异步/等待支持的本机 gRPC 客户端和服务器实现。
* [clap-rs/clap](https://github.com/clap-rs/clap) 一个功能齐全、快速的 Rust 命令行参数解析器
* [neovide/neovide](https://github.com/neovide/neovide) 在 Rust 中没有废话的 neovim 客户端
* [slint-ui/slint](https://github.com/slint-ui/slint) Slint 是一个声明性 GUI 工具包,用于为 Rust、C++ 或 JavaScript 编写的应用程序构建本机用户界面。
* [rust-embedded/awesome-embedded-rust](https://github.com/rust-embedded/awesome-embedded-rust) Rust 编程语言嵌入式和低级开发的精选资源列表
* [actix/actix](https://github.com/actix/actix) Rust 的 Actor 框架。特征:异步和同步执行组件;本地/线程上下文中的执行组件通信;使用 futures 进行异步消息处理;Actor 监督;有类型的消息体(无 Any 类型);在稳定的 Rust 1.68+ 上运行
* [rust-embedded/rust-raspberrypi-OS-tutorials](https://github.com/rust-embedded/rust-raspberrypi-OS-tutorials) 树莓派上的 Rust 操作系统开发教程。面向刚接触 ARM 64 位 ARMv8-A 架构的业余操作系统开发人员。这些教程将提供有关如何 embedded system 从头开始编写整体式操作系统 kernel 的指导性分步教程。它们涵盖了常见操作系统任务的实现,例如写入串行控制台、设置虚拟内存和处理硬件异常。同时利用 Rust 的独特功能来提供安全性和速度。
* [chyyuu/os_kernel_lab](https://github.com/chyyuu/os_kernel_lab) 基于 Rust/C & RISC-V 64/X86-32 的操作系统内核实验室
* [rust-lang/rust-analyzer](https://github.com/rust-lang/rust-analyzer) 用于 IDE 的 Rust 编译器前端
* [RustPython/RustPython](https://github.com/RustPython/RustPython) 用 Rust 编写的 Python 解释器
* [google/comprehensive-rust](https://github.com/google/comprehensive-rust) 这是 Google Android 团队使用的 Rust 课程。它为您提供了快速教授 Rust 的材料。
* [PyO3/pyo3](https://github.com/PyO3/pyo3) Python 解释器的 Rust 绑定,包括用于创建原生 Python 扩展模块的工具。还支持从 Rust 二进制文件运行和交互 Python 代码。
* [sunface/rust-by-practice](https://github.com/sunface/rust-by-practice) 通过实践学习 Rust,通过具有挑战性的示例、练习和项目缩小初学者和熟练开发人员之间的差距。
* [serde-rs/serde](https://github.com/serde-rs/serde) 用于高效和通用地序列化和反序列化 Rust 数据结构的框架。
* [rust-unofficial/patterns](https://github.com/rust-unofficial/patterns) 关于 Rust 编程语言设计模式和习语的开源书籍
* [ruffle-rs/ruffle](https://github.com/ruffle-rs/ruffle) 用 Rust 编写的 Flash Player 模拟器
* [rust-bakery/nom](https://github.com/rust-bakery/nom) 用 Rust 编写的解析器组合器库。它的目标是提供工具来构建安全的解析器,而不会影响速度或内存消耗。为此,它广泛使用了 Rust 强大的类型和内存安全性来生成快速和正确的解析器,并提供函数、宏和特征来抽象大多数容易出错的管道。
* [gfx-rs/wgpu](https://github.com/gfx-rs/wgpu) 跨平台、安全、纯生rust的图形 API。它在 Vulkan、Metal、D3D12 和 OpenGL 上原生运行;以及 wasm 上的 WebGL2 和 WebGPU。该 API 基于 WebGPU 标准。它是 Firefox 和 Deno 中 WebGPU 集成的核心。
* [ctjhoa/rust-learning](https://github.com/ctjhoa/rust-learning) 一堆用于学习 Rust 的博客文章、文章、视频等的链接
* [linebender/druid](https://github.com/linebender/druid) 数据优先的 Rust 原生 UI 设计工具包。
* [rcore-os/zCore](https://github.com/rcore-os/zCore) 在 Rust 中重新实现 Zircon 微内核。
* [rcore-os/rCore-Tutorial-Book-v3](https://github.com/rcore-os/rCore-Tutorial-Book-v3) 关于如何在 Rust 中轻松编写操作系统内核的书。
* [uutils/coreutils](https://github.com/uutils/coreutils) Rust 重写跨平台的GNU coreutils
* [ratatui-org/ratatui](https://github.com/ratatui-org/ratatui) Rust 库,就是关于构建终端用户界面 (TUI)
* [ogham/exa](https://github.com/ogham/exa) rust编写的“ls”的现代替代品。提供更多功能和更好的默认值。它使用颜色来区分文件类型和元数据。它知道符号链接、扩展属性和 Git。它体积小,速度快,只有一个二进制文件。
* [Canop/broot](https://github.com/Canop/broot) 查看和导航目录树的新方法
* [XAMPPRocky/tokei](https://github.com/XAMPPRocky/tokei) 显示有关代码统计信息的程序。Tokei 将显示文件数、这些文件中的总行数以及按语言分组的代码、注释和空白。
* [analysis-tools-dev/static-analysis](https://github.com/analysis-tools-dev/static-analysis) 适用于所有编程语言、配置文件、构建工具等的静态分析 (SAST) 工具和 linter 的精选列表。重点是提高代码质量的工具。
* [tree-sitter/tree-sitter](https://github.com/tree-sitter/tree-sitter) 一个解析器生成器工具和一个增量解析库。它可以为源文件构建具体的语法树,并在编辑源文件时有效地更新语法树。目标是:通用到足以解析任何编程语言;速度足够快,可以在文本编辑器中解析每个击键;足够强大,即使在存在语法错误的情况下也能提供有用的结果;无依赖性,因此运行时库(用纯 C 语言编写)可以嵌入到任何应用程序中
* [sharkdp/hyperfine](https://github.com/sharkdp/hyperfine) 命令行基准测试工具。特征:跨多个运行的统计分析。支持任意 shell 命令。关于基准进度和当前估计的持续反馈。预热运行可以在实际基准测试之前执行。可以在每次计时运行之前设置缓存清除命令。统计异常值检测,用于检测来自其他程序的干扰和缓存效果。将结果导出为各种格式:CSV、JSON、Markdown、AsciiDoc。参数化基准(例如,改变线程数)。跨平台。
* [lsd-rs/lsd](https://github.com/lsd-rs/lsd) 对GNU `ls` 的重写,增加了许多功能,如颜色、图标、树视图、更多的格式化选项等。该项目深受超级colorls项目的启发。
* [sxyazi/yazi](https://github.com/sxyazi/yazi) 用 Rust 编写的基于异步 I/O 的超快终端文件管理器。基于非阻塞异步 I/O。它旨在提供高效、用户友好和可定制的文件管理体验。完全异步支持:所有 I/O 操作都是异步的,CPU 任务分布在多个线程上,从而充分利用可用资源。强大的异步任务调度和管理:提供实时进度更新、任务取消和内部任务优先级分配。内置支持多种图像协议:还集成了 Überzug++,几乎覆盖了所有终端。内置代码高亮和图片解码:结合预加载机制,大大加快图片和正常文件加载速度。并发插件系统:UI插件(重写大部分UI)、功能插件、自定义预览器/预加载器/提取器;只是一些 Lua 的碎片。 数据分发服务:基于客户端-服务器架构(无需额外的服务器进程),集成基于 Lua 的发布-订阅模型,实现跨实例通信和状态持久化。包管理器:使用一个命令安装插件和主题,使它们始终保持最新状态,或将它们固定到特定版本。与 fd、rg、fzf、zoxide 集成。类似 Vim 的 input/select/which/notify 组件,CD 路径自动完成。多标签支持、跨目录选择、可滚动预览(用于视频、PDF、存档、目录、代码等)。批量重命名、可视化模式、文件选择器。主题系统、鼠标支持、垃圾桶、自定义布局、CSI u。
* [pretzelhammer/rust-blog](https://github.com/pretzelhammer/rust-blog) 为 Rust 初学者和 Rust 高级初学者编写教育内容。
* [dtolnay/proc-macro-workshop](https://github.com/dtolnay/proc-macro-workshop) 此存储库包含一系列旨在学习编写 Rust 过程宏的项目 — 生成 Rust 代码的 Rust 代码。这些项目中的每一个都来自一个引人注目的真实用例。在这里的 5 个项目中,有 3 个是我亲自在工业代码库中实现的宏,另外 2 个作为其他作者在 crates.io 上的库存在。
* [rcore-os/rCore](https://github.com/rcore-os/rCore) THU uCore OS 的 Rust 版本,兼容 Linux。将成为下一代教学操作系统。支持的架构和主板:x86_64(第 1 层):QEMU、PC (i5/i7),RISCV32/64(Tier 2):QEMU、HiFive Unleashed,AArch64(第 2 层):QEMU、Raspberry Pi 3B+,MIPS32(第 3 层):QEMU、TrivialMIPS.
* [arceos-org/arceos](https://github.com/arceos-org/arceos) 一个用 Rust 编写的实验性模块化操作系统。ArceOS 的灵感很大程度上来自 Unikraft。
* [o8vm/octox](https://github.com/o8vm/octox) 受 xv6-riscv 启发的 Rust 类 Unix 操作系统。octox 松散地遵循 xv6 的结构和风格,但在纯 Rust 中实现。从内核、用户空间、mkfs 到构建系统,一切都尽可能用安全的 Rust 编写。对外部没有依赖性。用户空间有一个类似于 Rust 的带有 K&R malloc 的 std 的库。多核支持、作为内核侧内存分配器的伙伴分配器、支持日志记录的文件系统等。
* [rustls/rustls](https://github.com/rustls/rustls) Rust 中的现代 TLS 库,Rustls 在许多组织和项目的生产中使用。我们的目标是保持合理的 API 表面稳定性,但随着我们进行更改以适应新功能或性能改进,API 可能会发生变化。Rustls 是一个 TLS 库,旨在提供良好的加密安全性,无需配置即可实现该安全性,并且默认情况下不提供不安全的功能或过时的加密。Rustls 为客户端和服务器实现了 TLS1.2 和 TLS1.3。请参阅协议功能的完整列表。
* [rust-lang/rust-clippy](https://github.com/rust-lang/rust-clippy) 一堆 lints 来捕捉常见错误并改进您的 Rust 代码。
* [BurntSushi/xsv](https://github.com/BurntSushi/xsv) 用 Rust 编写的快速 CSV 命令行工具包。xsv 是一个命令行程序,用于索引、切片、分析、拆分和连接 CSV 文件。命令应该简单、快速且可组合:简单的任务应该很容易。性能权衡应在 CLI 界面中公开。构图不应以牺牲性能为代价。
* [microsoft/windows-rs](https://github.com/microsoft/windows-rs) windows 和 windows-sys crate 允许您使用直接从描述 API 的元数据中动态生成的代码来调用任何 Windows API 过去、现在和将来,并直接进入您的 Rust 包中,在那里您可以调用它们,就好像它们只是另一个 Rust 模块一样。Rust 语言投影遵循 C++/WinRT 建立的传统,即使用标准语言和编译器为 Windows 构建语言投影,为 Rust 开发人员调用 Windows API 提供了一种自然而惯用的方式。
* [oxc-project/oxc](https://github.com/oxc-project/oxc) 用 Rust 编写的 JavaScript 工具的集合。Oxidation Compiler 正在为 JavaScript 和 TypeScript 创建一系列高性能工具。Oxc 正在构建解析器、linter、格式化程序、转译器、压缩器、解析器......都是用 Rust 编写的。
* [johnthagen/min-sized-rust](https://github.com/johnthagen/min-sized-rust) 最小化 Rust 二进制文件大小,默认情况下,Rust 会针对执行速度、编译速度和调试难易性进行优化,而不是二进制大小,因为对于绝大多数应用程序来说,这是理想的。但是对于开发人员想要优化二进制大小的情况,Rust 提供了实现此目的的机制。
* [rust-lang/rustfmt](https://github.com/rust-lang/rustfmt) 根据样式指南格式化 Rust 代码的工具。Rustfmt 尝试处理尽可能多的 Rust 代码。有时,代码甚至不需要编译!
* [rust-lang/rustup](https://github.com/rust-lang/rustup) Rust 工具链安装程序,Rustup 从官方发布渠道安装了 Rust 编程语言,使您能够轻松地在稳定版、测试版和夜间编译器之间切换并保持更新。它通过通用平台的标准库的二进制构建使交叉编译更加简单。它可以在 Rust 支持的所有平台上运行,包括 Windows。
* [rerun-io/rerun](https://github.com/rerun-io/rerun) 可视化多模态数据流。快速、易于使用且易于集成。使用 egui 内置于 Rust 中。使用rerun SDK(适用于 C++、Python 和 Rust)记录图像、张量、点云和文本等数据。日志将流式传输到重新运行查看器以进行实时可视化或归档以供以后使用。
* [ast-grep/ast-grep](https://github.com/ast-grep/ast-grep) 用于代码结构搜索、lint 和重写的 CLI 工具。用 Rust 编写。ast-grep 是一个基于 AST 的工具,用于按模式代码搜索代码。将其视为您的老朋友, grep 但它匹配 AST 节点而不是文本。您可以像编写普通代码一样编写模式。它将匹配具有相同语法结构的所有代码。您可以使用 $ 符号 + 大写字母作为通配符,例如 $MATCH ,以匹配任何单个 AST 节点。将其视为 正则表达式点 . ,但它不是文本的。
* [pemistahl/grex](https://github.com/pemistahl/grex) 带有 Python 绑定的命令行工具和 Rust 库,用于从用户提供的测试用例生成正则表达式。旨在简化创建正则表达式的复杂繁琐的任务。它通过从用户提供的测试用例自动生成单个正则表达式来实现。结果表达式保证与生成表达式的测试用例匹配。
* [serde-rs/json](https://github.com/serde-rs/json) 用于高效、通用地序列化和反序列化 Rust 数据结构的框架。JSON 是一种无处不在的开放标准格式,它使用人类可读的文本来传输由键值对组成的数据对象。您可能会发现自己需要在 Rust 中使用 JSON 数据的三种常见方法:作为文本数据,在 HTTP 终结点上接收、从文件中读取或准备发送到远程服务器的未处理的 JSON 数据字符串;作为非类型化或松散类型的表示形式,也许你想在传递一些JSON数据之前检查它是否有效,但不知道它所包含的内容的结构,或者您想进行非常基本的操作,例如在特定位置插入键;作为强类型的 Rust 数据结构,当您希望所有或大部分数据符合特定结构,并希望完成实际工作时,JSON 的松散性质不会绊倒您。Serde JSON 提供了高效、灵活、安全的方式来转换这些表示之间的数据。
* [crossbeam-rs/crossbeam](https://github.com/crossbeam-rs/crossbeam) Rust 中并发编程的工具。原子:AtomicCell ,线程安全的可变内存位置;AtomicConsume ,用于从具有“消耗”排序的原始原子类型中读取。 数据结构:deque ,用于构建任务调度程序的工作窃取 deques;ArrayQueue ,一个有界的 MPMC 队列,用于在构造时分配固定容量的缓冲区;SegQueue ,一个无界 MPMC 队列,可按需分配小型缓冲区和段。内存管理:epoch ,一个垃圾回收器。 线程同步:channel ,用于消息传递的多生产者多消费者通道;Parker ,一个线程停放原语;ShardedLock ,具有快速并发读取的分片读写器锁;WaitGroup ,用于同步某些计算的开始或结束。工具:Backoff ,用于自旋循环中的指数退避。CachePadded ,用于填充值并将其与缓存行的长度对齐;scope ,用于生成从堆栈中借用局部变量的线程。
* [tokio-rs/mio](https://github.com/tokio-rs/mio) 快速、低级的 Rust I/O 库,专注于非阻塞 API 和事件通知,用于构建高性能 I/O 应用程序,与操作系统抽象相比,开销尽可能小。
* [cross-rs/cross](https://github.com/cross-rs/cross) Rust crate 的“零设置”交叉编译和“交叉测试”。cross 将提供交叉编译所需的所有成分,而无需触及您的系统安装。cross 提供了一个跨工具链和跨编译库的环境,可生成最可移植的二进制文件。“交叉测试”, cross 可以测试 i686 和 x86_64 以外的架构的板条箱。支持稳定版、测试版和夜间频道。
* [mre/idiomatic-rust](https://github.com/mre/idiomatic-rust) 经过同行评审的文章/演讲/存储库集合,教授简明扼要的 Rust。这个存储库收集了用于编写干净、惯用的 Rust 代码的资源。您可以在此处找到此列表的可排序/可搜索版本。
* [nicoburns/blessed-rs](https://github.com/nicoburns/blessed-rs) Rust 生态系统的社区指南。例如,Rust 中的标准库比 Python 或 Go 中的标准库小得多。这些语言对 HTTP(S)、JSON、时区、随机数和异步 IO 等内容提供了“包括电池”支持。另一方面,Rust 从 crates.io 生态系统和 Cargo 包管理器中获得了类似的东西。但是有将近 10 万个板条箱可供选择,新 Rust 开发人员的一个共同抱怨是他们不知道从哪里开始,他们应该使用哪些板条箱,以及他们应该信任哪些板条箱。此列表试图回答这些问题。
* [ralfbiedert/cheats.rs](https://github.com/ralfbiedert/cheats.rs) Rust 语言备忘单,为喜欢高信息密度的人提供的单页 Rust 资源。
* [ferrous-systems/elements-of-rust](https://github.com/ferrous-systems/elements-of-rust) Rust 风格和理念,使用 Rust 有效表达意图的软件工程技术集合。
* [brson/rust-anthology](https://github.com/brson/rust-anthology) 向最优秀的人学习 Rust,收集 Rust 的最佳短篇文章。Rust 需要更多的文档,对吧?嗯,是的,确实如此,但实际上现在有很多很棒的 Rust 文档,还有很多很棒的 Rust 作家!这个项目旨在将他们的作品收集成一本书。
* [rust-lang/rust-by-example](https://github.com/rust-lang/rust-by-example) 通过示例学习 Rust(包括实时代码编辑器)。Rust 是一种现代系统编程语言,专注于安全性、速度和并发性。它通过在不使用垃圾回收的情况下实现内存安全来实现这些目标。Rust by Example (RBE) 是一组可运行的示例,用于说明各种 Rust 概念和标准库。要从这些示例中获得更多收益,请不要忘记在本地安装 Rust 并查看官方文档。
* [rust-lang/rfcs](https://github.com/rust-lang/rfcs) Rust RFC - RFC 手册 - 活动 RFC 列表,“RFC”(征求意见)流程旨在为 Rust 的更改(例如新功能)提供一致且可控的路径,以便所有利益相关者都能对项目的方向充满信心。
* [yoav-lavi/melody](https://github.com/yoav-lavi/melody) Melody 是一种编译为正则表达式的语言,旨在提高可读性和可维护性。
## Flutter 程序
* [flutter/flutter](https://github.com/flutter/flutter) Flutter 可以轻松快速地为移动设备及其他领域构建漂亮的应用程序
* [crazycodeboy/awesome-flutter-cn](https://github.com/crazycodeboy/awesome-flutter-cn) 一个很棒的Flutter学习资源,官方教程,插件,工具,文章,App,视频教程等的资源列表
* [osoutpost/awesome-flutter-cn](https://github.com/osoutpost/awesome-flutter-cn) Flutter 资源大全中文版。包括:组件、导航、模板、插件、框架和引擎等
* [CarGuo/gsy_github_app_flutter](https://github.com/CarGuo/gsy_github_app_flutter) Flutter 超完整的开源项目,功能丰富,适合学习和日常使用。
* [alibaba/flutter-go](https://github.com/alibaba/flutter-go) flutter 开发者帮助 APP,包含 flutter 常用 140+ 组件的demo 演示与中文文档
* [mitesh77/Best-Flutter-UI-Templates](https://github.com/mitesh77/Best-Flutter-UI-Templates) 最佳 Flutter-UI 模板
* [CarGuo/gsy_github_app_flutter](https://github.com/CarGuo/gsy_github_app_flutter) Flutter 超完整的开源项目,功能丰富,适合学习和日常使用。GSYGithubApp系列的优势:我们目前已经拥有Flutter、Weex、ReactNative、kotlin 四个版本。 功能齐全,项目框架内技术涉及面广,完成度高,持续维护,配套文章,适合全面学习,对比参考。跨平台的开源Github客户端App,更好的体验,更丰富的功能,旨在更好的日常管理和维护个人Github
* [iampawan/FlutterExampleApps](https://github.com/iampawan/FlutterExampleApps) 基本的 Flutter 应用程序,适用于开发人员。
* [cfug/dio](https://github.com/cfug/dio) 一个强大的 HTTP 客户端,用于 Dart 和 Flutter,支持全局设置、拦截器、FormData、中止和取消请求、文件上传和下载、请求超时、自定义适配器等。
* [balena-io/etcher](https://github.com/balena-io/etcher) 安全、轻松地将操作系统映像闪存到 SD 卡和 USB 驱动器。
* [xujiyou/zhihu-flutter](https://github.com/xujiyou/zhihu-flutter) Flutter 高仿知乎 UI,非常漂亮,也非常流畅。
* [Solido/awesome-flutter](https://github.com/Solido/awesome-flutter) 包含了最好的 Flutter 库、工具、教程、文章等。
* [running-libo/Tiktok](https://github.com/running-libo/Tiktok) 高仿抖音APP
* [wenmingvs/WeiBo](https://github.com/wenmingvs/WeiBo) 第三方新浪微博客户端
* [sanfengliao/vue-juejin](https://github.com/sanfengliao/vue-juejin) vue仿掘金app客户端开发web版掘金app
* [chaychan/TouTiao](https://github.com/chaychan/TouTiao) 精仿今日头条
* [tbl00c/TLChat](https://github.com/tbl00c/TLChat) 高仿微信,iOS代码重构。此版本TLChat基于TLKit、 ZZFLEX实现
* [zwStar/vue-meituan](https://github.com/zwStar/vue-meituan) vue+node+mongodb仿美团外卖点餐系统带支付功能
* [yukilzw/dy_flutter](https://github.com/yukilzw/dy_flutter) 斗鱼直播APP 多元化Flutter开源项目。涵盖礼物特效、手势动画、弹幕池、抽奖、鱼吧等(另提供服务端Mock接口)
* [boyan01/flutter-netease-music](https://github.com/boyan01/flutter-netease-music) 仿网易云音乐
* [xujiyou/zhihu-flutter](https://github.com/xujiyou/zhihu-flutter) Flutter 高仿知乎 UI,非常漂亮,也非常流畅。
* [nisrulz/flutter-examples](https://github.com/nisrulz/flutter-examples) 给初露头角的flutter开发者的简单基本的应用程序示例。
* [fluttercandies/wechat_flutter](https://github.com/fluttercandies/wechat_flutter) Flutter版本微信,一个优秀的Flutter即时通讯IM开源库
* [simplezhli/flutter_deer](https://github.com/simplezhli/flutter_deer) Flutter 练习项目(包括集成测试、可访问性测试)。内含完整UI设计图,更贴近真实项目的练习。
* [Sangwan5688/BlackHole](https://github.com/Sangwan5688/BlackHole) 满足您所有需求的开源音乐播放器应用程序!Flutter
* [AweiLoveAndroid/Flutter-learning](https://github.com/AweiLoveAndroid/Flutter-learning) Flutter安装和配置,Flutter开发遇到的难题,Flutter示例代码和模板,Flutter项目实战,Dart语言学习示例代码。
* [CoderMikeHe/flutter_wechat](https://github.com/CoderMikeHe/flutter_wechat) 利用 Flutter 来高仿微信(WeChat) 7.0.0+ App
* [youxinLu/flutter_mall](https://github.com/youxinLu/flutter_mall) 一款Flutter开源在线商城应用程序
* [ducafecat/flutter_learn_news](https://github.com/ducafecat/flutter_learn_news) flutter实战学习-新闻客户端
* [freestyletime/FlutterNews](https://github.com/freestyletime/FlutterNews) 用Flutter写的新闻类小项目
* [imaNNeoFighT/fl_chart](https://github.com/imaNNeoFighT/fl_chart) FL Chart 是高度可定制的 Flutter 图表库,支持折线图、条形图、饼图、散点图和雷达图。
* [TheAlphamerc/flutter_twitter_clone](https://github.com/TheAlphamerc/flutter_twitter_clone) 使用 Firebase 实时数据库和存储在 flutter 框架中构建的全功能 Twitter 克隆
* [LianjiaTech/bruno](https://github.com/LianjiaTech/bruno) 基于一整套设计体系的 Flutter 组件库。
* [LianjiaTech/bruno](https://github.com/LianjiaTech/bruno) Bruno 是基于一整套设计体系的 Flutter 组件库。一套企业级移动端 Flutter 组件库.
* [felangel/bloc](https://github.com/felangel/bloc) 有助于实现 BLoC 设计模式的可预测状态管理库。BLoC是Business Logic Component的英文缩写,译为业务逻辑组件,是一种使用响应式编程来构建应用的方式。
* [dart-lang/sdk](https://github.com/dart-lang/sdk) Dart SDK,包括 VM、dart2js、核心库等。
* [jonataslaw/getx](https://github.com/jonataslaw/getx) 在没有上下文的情况下打开屏幕/小吃栏/对话框/底部工作表,使用 Get 轻松管理状态并注入依赖项。
* [kaina404/FlutterDouBan](https://github.com/kaina404/FlutterDouBan) Flutter豆瓣客户端,Awesome Flutter Project,全网最100%还原豆瓣客户端。首页、书影音、小组、市集及个人中心,一个不拉。
* [toly1994328/FlutterUnit](https://github.com/toly1994328/FlutterUnit) Flutter 集录指南 App,Flutter源码中的可用的组件一共350个左右,纷繁复杂,也没有明确的分类标准 FlutterUnit 对大大小小,常用不常用的组件能收的尽量收录。
* [alibaba/flutter_boost](https://github.com/alibaba/flutter_boost) FlutterBoost 是一个 Flutter 插件,它能够以最少的努力为您现有的本机应用程序实现 Flutter 的混合集成。
* [firebase/flutterfire](https://github.com/firebase/flutterfire) 用于 Flutter 应用的 Firebase 插件集合。组 Flutter 插件,使 Flutter 应用能够使用 Firebase 服务。
* [simplezhli/flutter_deer](https://github.com/simplezhli/flutter_deer) Flutter 练习项目(包括集成测试、可访问性测试)。内含完整UI设计图,更贴近真实项目的练习。颤振实践项目(包括集成测试和可访问性测试)。包含完整的 UI 设计图纸,用于更真实的实践项目。
* [brianegan/flutter_architecture_samples](https://github.com/brianegan/flutter_architecture_samples) 项目演示了解决或避免构建Flutter应用中常见的问题。
* [lollipopkit/flutter_server_box](https://github.com/lollipopkit/flutter_server_box) 使用 Flutter 的服务器状态和工具箱应用程序
* [flutter/packages](https://github.com/flutter/packages) 由 Flutter 团队维护的有用软件包的集合
* [flutter/plugins](https://github.com/flutter/plugins) 这个 repo 是 main flutter repo 的配套 repo。它包含 Flutter 第一方插件(即由 Flutter 核心团队开发的插件)的源代码。READ ONLY
## Go 程序设计
* [golang/go](https://github.com/golang/go) Go 是一种开源编程语言,可以轻松构建简单、可靠且高效的软件。
* [Go 程序设计 · 语雀](https://www.yuque.com/qyuhen/go) Go 程序设计 · 语雀
* [dariubs/GoBooks](https://github.com/dariubs/GoBooks) Go书籍列表
* [hoanhan101/ultimate-go](https://github.com/hoanhan101/ultimate-go) 终极Go学习指南
* [qax-os/excelize](https://github.com/qax-os/excelize) 用于读写Microsoft Excel™ (XLAM / XLSM / XLSX / XLTM / XLTX)电子表格的Go语言库
* [a8m/golang-cheat-sheet](https://github.com/a8m/golang-cheat-sheet) Go 语法和功能概述。
* [gonum/gonum](https://github.com/gonum/gonum) 用于 Go 编程语言的数字库。它包含矩阵、统计、优化等库
* [uber-go/zap](https://github.com/uber-go/zap) 在 Go 中实现超快、结构化、分级的日志记录。
* [moovweb/gvm](https://github.com/moovweb/gvm) Go 版本管理器
* [golang-standards/project-layout](https://github.com/golang-standards/project-layout) 标准 Go 项目布局
* [unknwon/go-fundamental-programming](https://github.com/unknwon/go-fundamental-programming) 《Go 编程基础》是一套针对 Google 出品的 Go 语言的视频语音教程,主要面向新手级别的学习者。
* [ahmedash95/build-redis-from-scratch](https://github.com/ahmedash95/build-redis-from-scratch) 如何在 Go 中实现内存中数据库(如 Redis )的文章系列。
* [restic/restic](https://github.com/restic/restic) Golang 编写的快速、高效和安全的备份程序。它支持三种主要操作系统(Linux、macOS、Windows)和一些较小的操作系统(FreeBSD、OpenBSD)。
* [jroimartin/gocui](https://github.com/jroimartin/gocui) 极简主义的 Go 包,旨在创建控制台用户界面。
* [chai2010/advanced-go-programming-book](https://github.com/chai2010/advanced-go-programming-book) 《Go语言高级编程》图书,涵盖CGO、Go汇编、RPC、Protobuf插件实现、Web框架实现、分布式系统等高阶主题
* [gopherjs/gopherjs](https://github.com/gopherjs/gopherjs) 从 Go 到 JavaScript 的编译器,用于在浏览器中运行 Go 代码
* [gogf/gf](https://github.com/gogf/gf) GoFrame 是 Go 的一个模块化、功能强大、高性能的企业级应用开发框架。
* [alist-org/alist](https://github.com/alist-org/alist) 一个文件列表/ WebDAV程序,支持多个存储,由Gin和Solidjs提供支持。/ 一个支持多存储的文件列表/WebDAV程序,使用 Gin 和 Solidjs。
* [cosmtrek/air](https://github.com/cosmtrek/air) Go 应用的实时重新加载
* [avelino/awesome-go](https://github.com/avelino/awesome-go) 精选的 Go 框架、库和软件的精选列表
* [unknwon/go-study-index](https://github.com/unknwon/go-study-index) Go 语言学习资料与社区索引
* [go-shiori/shiori](https://github.com/go-shiori/shiori) 使用 Go 构建的简单书签管理器
* [json-iterator/go](https://github.com/json-iterator/go) 高性能 100% 兼容Go的“encoding/json”直接替代品
* [go-delve/delve](https://github.com/go-delve/delve) Go 编程语言的调试器。
* [talkgo/night](https://github.com/talkgo/night) Go 夜读|通过 bilibili 在线直播的方式分享 Go 相关的技术话题,每天大家在微信/telegram/Slack 上及时沟通交流编程技术话题。
* [senghoo/golang-design-pattern](https://github.com/senghoo/golang-design-pattern) 设计模式 Go实现-《研磨设计模式》读书笔记
* [unknwon/the-way-to-go_ZH_CN](https://github.com/unknwon/the-way-to-go_ZH_CN) 《The Way to Go》中文译本,中文正式名《Go 入门指南》
* [inancgumus/learngo](https://github.com/inancgumus/learngo) 1000+ 手工制作的go示例、练习和测验。 通过修复 1000+ 个小程序来学习 Go。
* [halfrost/LeetCode-Go](https://github.com/halfrost/LeetCode-Go) LeetCode by Go 的解决方案,100% 测试覆盖率,运行时击败 100% / LeetCode 题解
* [traefik/yaegi](https://github.com/traefik/yaegi) 另一位优雅的Go解释器。它为 Go 运行时之上的嵌入式解释器或交互式 shell 中的可执行 Go 脚本和插件提供支持。
* [influxdata/telegraf](https://github.com/influxdata/telegraf) 使用 Go 构建的插件驱动的服务器代理,用于收集和报告指标。
* [johnkerl/miller](https://github.com/johnkerl/miller) Miller 就像 awk、sed、剪切、连接和排序的名称索引数据,如 CSV、TSV 和表格 JSON。
* [expr-lang/expr](https://github.com/expr-lang/expr) Expr 是一种以 Go 为中心的表达式语言,旨在以无与伦比的准确性、安全性和速度提供动态配置。Expr 将简单的语法与强大的功能相结合,易于使用。
* [antonmedv/fx](https://github.com/antonmedv/fx) Go的终端 JSON 查看器和处理器
* [fatih/vim-go](https://github.com/fatih/vim-go) 该插件增加了对 Vim 的 Go 语言支持
* [sirupsen/logrus](https://github.com/sirupsen/logrus) 用于 Go 的结构化、可插拔日志记录。
* [go-vgo/robotgo](https://github.com/go-vgo/robotgo) RobotGo、Go Native 跨平台 RPA 和 GUI 自动化@vcaesar
* [therecipe/qt](https://github.com/therecipe/qt) Go(Golang)的Qt绑定,支持Windows / macOS / Linux / FreeBSD / Android / iOS / Sailfish OS / Raspberry Pi / AsteroidOS / Ubuntu Touch / JavaScript / WebAssembly
* [xxjwxc/uber_go_guide_cn](https://github.com/xxjwxc/uber_go_guide_cn) Uber 是一家美国硅谷的科技公司,也是 Go 语言的早期 adopter。其开源了很多 golang 项目,诸如被 Gopher 圈熟知的 zap、jaeger 等。2018 年年末 Uber 将内部的 Go 风格规范 开源到 GitHub,经过一年的积累和更新,该规范已经初具规模,并受到广大 Gopher 的关注。本文是该规范的中文版本。本版本会根据原版实时更新。
## Java 程序设计
* [akullpp/awesome-java](https://github.com/akullpp/awesome-java) Java 编程语言的优秀框架、库和软件的精选列表。
* [jobbole/awesome-java-cn](https://github.com/jobbole/awesome-java-cn) Java资源大全中文版,包括开发库、开发工具、网站、博客、微信、微博等,由伯乐在线持续更新。
* [itwanger/toBeBetterJavaer](https://github.com/itwanger/toBeBetterJavaer) Java学习指南,内容涵盖Java基础、并发编程、虚拟机、企业级开发、面试等核心知识点。
* [alibaba/p3c](https://github.com/alibaba/p3c) 阿里巴巴Java编码指南,该指南整合了阿里巴巴集团技术团队多年来的最佳编程实践。大量的 Java 编程团队对跨项目的代码质量提出了苛刻的要求,因为我们鼓励重用和更好地理解彼此的程序。我们过去见过很多编程问题。例如,有缺陷的数据库表结构和索引设计可能会导致软件架构缺陷和性能风险。另一个例子是令人困惑的代码结构难以维护。此外,未经身份验证的易受攻击的代码容易受到黑客攻击。为了解决这类问题,我们为阿里巴巴的Java开发人员编写了本文档。
* [Snailclimb/JavaGuide](https://github.com/Snailclimb/JavaGuide) 「Java学习+面试指南」一份涵盖大部分 Java 程序员所需要掌握的核心知识。准备 Java 面试,首选 JavaGuide!
* [doocs/advanced-java](https://github.com/doocs/advanced-java) 互联网 Java 工程师进阶知识完全扫盲:涵盖高并发、分布式、高可用、微服务、海量数据处理等领域知识
* [ZhongFuCheng3y/athena](https://github.com/ZhongFuCheng3y/athena) Java后端知识图谱 帮助Java初学者成长
* [google/guava](https://github.com/google/guava) Google Java 核心库
* [apache/dubbo](https://github.com/apache/dubbo) Apache Dubbo 的 Java 实现。RPC 和微服务框架。
* [winterbe/java8-tutorial](https://github.com/winterbe/java8-tutorial) 现代 Java - Java 8 指南
* [AobingJava/JavaFamily](https://github.com/AobingJava/JavaFamily) 【Java面试+Java学习指南】 一份涵盖大部分Java程序员所需要掌握的核心知识。
* [ReactiveX/RxJava](https://github.com/ReactiveX/RxJava) JVM 的反应式扩展 – 一个库,用于使用 Java VM 的可观察序列编写异步和基于事件的程序。
* [DuGuQiuBai/Java](https://github.com/DuGuQiuBai/Java) 27天成为Java大神
* [openjdk/jdk](https://github.com/openjdk/jdk) JDK主线开发
* [CodingDocs/awesome-java](https://github.com/CodingDocs/awesome-java) Github上令人敬畏的Java项目集合(非常棒的 Java 开源项目集合)。
* [aalansehaiyang/technology-talk](https://github.com/aalansehaiyang/technology-talk) 【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!
* [fuzhengwei/CodeGuide](https://github.com/fuzhengwei/CodeGuide) 多年从事一线互联网 Java 开发的学习历程技术汇总,旨在为大家提供一个清晰详细的学习教程,侧重点更倾向编写Java核心内容。
* [dromara/Sa-Token](https://github.com/dromara/Sa-Token) 史上功能最全的Java权限认证框架!目前已集成——登录认证、权限认证、分布式Session会话、微服务网关鉴权、单点登录、OAuth2.0、踢人下线、Redis集成、前后台分离、记住我模式、模拟他人账号、临时身份切换、账号封禁、多账号认证体系、注解式鉴权、路由拦截式鉴权、花式token生成、自动续签、同端互斥登录、会话治理、密码加密、jwt集成、Spring集成、WebFlux集成...
* [hollischuang/toBeTopJavaer](https://github.com/hollischuang/toBeTopJavaer) Java工程师成神之路
* [dromara/hutool](https://github.com/dromara/hutool) 功能丰富且易用的Java工具库,通过诸多实用工具类的使用,旨在帮助开发者快速、便捷地完成各类开发任务。 这些封装的工具涵盖了字符串、数字、集合、编码、日期、文件、IO、加密、数据库JDBC、JSON、HTTP客户端等一系列操作, 可以满足各种不同的开发需求。
* [crossoverJie/JCSprout](https://github.com/crossoverJie/JCSprout) Java Core Sprout:基本、并发、算法
* [alibaba/easyexcel](https://github.com/alibaba/easyexcel) 快速、简洁、解决大文件内存溢出的java处理Excel工具
* [mybatis/mybatis-3](https://github.com/mybatis/mybatis-3) MyBatis SQL 映射器框架使关系数据库与面向对象的应用程序更容易使用。MyBatis 使用 XML 描述符或注解将对象与存储过程或 SQL 语句耦合。简单性是 MyBatis 数据映射器相对于对象关系映射工具的最大优势。
* [brettwooldridge/HikariCP](https://github.com/brettwooldridge/HikariCP) “零开销”生产就绪型 JDBC 连接池。该库大约为 130Kb,非常轻巧。
* [dianping/cat](https://github.com/dianping/cat) CAT 作为服务端项目基础组件,提供了 Java, C/C++, Node.js, Python, Go 等多语言客户端,已经在美团点评的基础架构中间件框架(MVC框架,RPC框架,数据库框架,缓存框架等,消息队列,配置系统等)深度集成,为美团点评各业务线提供系统丰富的性能指标、健康状况、实时告警等。
* [GoogleContainerTools/jib](https://github.com/GoogleContainerTools/jib) 无需 Docker 守护程序即可为您的 Java 应用构建优化的 Docker 和 OCI 映像,而无需深入了解 Docker 最佳实践。
* [plantuml/plantuml](https://github.com/plantuml/plantuml) 从文本描述生成 UML 图。PlantUML 是一个java组件,允许您通过简单的文本描述创建各种 UML 图。从序列图到部署图等,PlantUML 提供了一种创建复杂系统的可视化表示的简单方法。支持的图表类型:时序图、用例图、类图、对象图、活动图、旧语法、组件图、部署图、状态图、时序图、JSON 数据、YAML 数据、EBNF(扩展的 Backus-Naur 形式)、正则表达式、网络图 (nwdiag)、Salt(线框图形界面或UI模型)、Archimate 图、SDL(规范和描述语言)、Ditaa 图、甘特图、年表图、思维导图、WBS(工作分解结构)、数学符号(AsciiMath、JLaTeXMath)、信息工程(IE)图、实体关系(ER)图
* [zxing/zxing](https://github.com/zxing/zxing) ZXing (“Zebra Crossing”) 适用于 Java、Android 的条码扫描库
* [yangchong211/YCBlogs](https://github.com/yangchong211/YCBlogs) 技术博客笔记大汇总,包括Java基础,线程,并发,数据结构;Android技术博客等等;常用设计模式;常见的算法;网络协议知识点;部分flutter笔记;还包括平时开发中遇到的bug汇总,收集了大量的面试题
* [Col-E/Recaf](https://github.com/Col-E/Recaf) 易于使用的现代 Java 字节码编辑器,它抽象出了 Java 程序的复杂性
* [qunarcorp/bistoury](https://github.com/qunarcorp/bistoury) 去哪儿网的java应用生产问题诊断工具,提供一站式诊断方案
* [iluwatar/java-design-patterns](https://github.com/iluwatar/java-design-patterns) 用 Java 实现的设计模式
* [lingcoder/OnJava8](https://github.com/lingcoder/OnJava8) 《On Java 8》中文版
* [alibaba/arthas](https://github.com/alibaba/arthas) 阿里巴巴开源的 Java 诊断工具。允许开发人员解决Java应用程序的生产问题,而无需修改代码或重新启动服务器。
* [ LinShunKang/MyPerf4J](https://github.com/LinShunKang/MyPerf4J) 高性能 Java APM。由 ASM 提供支持。试试吧。
* [andreabergia/rjvm](https://github.com/andreabergia/rjvm) 一个用 Rust 编写的小型 JVM。学习项目
* [alibaba/fastjson](https://github.com/alibaba/fastjson) Java 库,可用于将 Java 对象转换为其 JSON 表示形式。它还可用于将 JSON 字符串转换为等效的 Java 对象。Fastjson 可以处理任意 Java 对象,包括您没有源代码的预先存在的对象。
* [alibaba/fastjson2](https://github.com/alibaba/fastjson2) 性能出色的 Java JSON 库。和FASTJSON 1相比,性能有非常大的提升,解决了autoType功能因为兼容和白名单的安全性问题。
* [gradle/gradle](https://github.com/gradle/gradle) 一款构建工具,专注于构建自动化和对多语言开发的支持。如果您在任何平台上构建、测试、发布和部署软件,Gradle 提供了一个灵活的模型,可以支持从编译和打包代码到发布网站的整个开发生命周期。Gradle 旨在支持跨多种语言和平台(包括 Java、Scala、Android、Kotlin、C/C++ 和 Groovy)的构建自动化,并与开发工具和持续集成服务器(包括 Eclipse、IntelliJ 和 Jenkins)紧密集成。
* [eclipse-vertx/vert.x](https://github.com/eclipse-vertx/vert.x) 用于在 JVM 上构建响应式应用程序的工具包
* [quarkusio/quarkus](https://github.com/quarkusio/quarkus) 云原生 (Linux) 容器优先框架,用于编写 Java 应用程序。容器优先:占用空间最小的 Java 应用程序,最适合在容器中运行。云原生:在 Kubernetes 等环境中采用 12 因素架构。统一命令式和响应式:将非阻塞式和命令式开发风格引入一个编程模型。基于标准:基于您喜欢和使用的标准和框架(RESTEasy 和 JAX-RS、Hibernate ORM 和 JPA、Netty、Eclipse Vert.x、Eclipse MicroProfile、Apache Camel......微服务优先:为 Java 应用程序带来闪电般的快速启动时间和代码周转。Developer Joy:以开发为中心的体验,毫不妥协,让您的出色应用立即栩栩如生。
* [kunal-kushwaha/DSA-Bootcamp-Java](https://github.com/kunal-kushwaha/DSA-Bootcamp-Java) 包括 WeMakeDevs 的 Java 数据结构和算法 + 面试准备训练营的代码示例、作业和注释。
* [mockito/mockito](https://github.com/mockito/mockito) 最流行的模拟框架,用于用 Java 编写的单元测试
* [jwtk/jjwt](https://github.com/jwtk/jjwt) 用于在 JVM 和 Android 上创建和验证 JSON Web 令牌 (JWT) 和 JSON Web 密钥 (JWK)。
* [apache/shenyu](https://github.com/apache/shenyu) Apache ShenYu 是一个用于服务代理、协议转换和 API 治理的 Java 原生 API 网关。适用于所有微服务的可扩展、高性能、响应式 API 网关解决方案。
## Android 应用
* [android/architecture-samples](https://github.com/android/architecture-samples) 展示了开发 Android 应用的不同体系结构方法。在它的不同分支中,你会发现相同的应用(一个 TODO 应用程序)的实现略有不同。
* [KotlinBy/awesome-kotlin](https://github.com/KotlinBy/awesome-kotlin) 精选的 Kotlin 相关内容列表 灵感来自 awesome-java。
* [Genymobile/scrcpy](https://github.com/Genymobile/scrcpy) 通过USB(或通过TCP / IP)连接的Android设备的显示和控制
* [futurice/android-best-practices](https://github.com/futurice/android-best-practices) 遵循这些准则,避免重新发明轮子。在 Futurice 中从 Android 开发人员那里学到的经验教训。如果你对 iOS 或 Windows Phone 开发感兴趣,请务必同时查看我们的 iOS 良好做法和 Windows 应用开发最佳做法文档。
* [gkd-kit/gkd](https://github.com/gkd-kit/gkd) 基于无障碍+高级选择器+订阅规则的自定义屏幕点击 Android APP
* [amitshekhariitbhu/android-interview-questions](https://github.com/amitshekhariitbhu/android-interview-questions) 您的 Android 面试备忘单 - Android 面试问题和答案
* [ashishb/android-security-awesome](https://github.com/ashishb/android-security-awesome) 与 Android 安全相关的资源集合。工具、学术/研究/出版物/书籍、漏洞利用/漏洞/缺陷
* [barry-ran/QtScrcpy](https://github.com/barry-ran/QtScrcpy) Android实时显示控制软件
* [openstf/minitouch](https://github.com/openstf/minitouch) 最小的Android多点触控事件生成器。
* [android/architecture-components-samples](https://github.com/android/architecture-components-samples) Android 体系结构组件示例。
* [android/compose-samples](https://github.com/android/compose-samples) 包含一组单独的 Android Studio 项目,可帮助您了解 Android 中的 Compose。每个示例都演示了不同的用例、复杂程度和 API。
* [android/sunflower](https://github.com/android/sunflower) 一款园艺应用,演示了将基于视图的应用迁移到 Jetpack Compose 的 Android 开发最佳实践。
* [mzlogin/awesome-adb](https://github.com/mzlogin/awesome-adb) ADB 用法大全。ADB,即 Android Debug Bridge,它是 Android 开发/测试人员不可替代的强大工具,也是 Android 设备玩家的好玩具。
* [android/nowinandroid](https://github.com/android/nowinandroid) 完全使用 Kotlin 和 Jetpack Compose 构建的全功能 Android 应用
* [coil-kt/coil](https://github.com/coil-kt/coil) 适用于 Android 和 Compose Multiplatform 的图像加载。由 Kotlin 协程支持的 Android 图像加载库。快速:Coil 执行许多优化,包括内存和磁盘缓存、对内存中的图像进行下采样、自动暂停/取消请求等。轻量级:Coil 将 ~2000 个方法添加到您的 APK(适用于已使用 OkHttp 和 Coroutines 的应用),这与 Picasso 相当,但明显少于 Glide 和 Fresco。易于使用:Coil 的 API 利用了 Kotlin 的语言功能,实现了简单和最小的样板。现代:Coil 是 Kotlin 优先的,使用现代库,包括 Coroutines、OkHttp、Okio 和 AndroidX 生命周期。
* [android/uamp](https://github.com/android/uamp) 实现跨多种外形规格运行的音频媒体应用,并在 Android 手机、平板电脑、Android Auto、Android Wear、Android TV、Google Cast 设备和 Google Assistant 上提供一致的用户体验。
* [mikepenz/MaterialDrawer](https://github.com/mikepenz/MaterialDrawer) 灵活、易于使用、多合一的抽屉库,适用于您的 Android 项目。现在采用材料 2 设计的全新设计。
* [AppIntro/AppIntro](https://github.com/AppIntro/AppIntro) 为您的 Android 应用程序制作一个很酷的介绍。可帮助您为应用构建酷炫的轮播介绍。 AppIntro 支持请求权限,并帮助您在短短几分钟内创建出色的入门体验。
* [material-components/material-components-android](https://github.com/material-components/material-components-android) 适用于 Android 的模块化和可自定义的 Material Design UI 组件
* [bumptech/glide](https://github.com/bumptech/glide) 适用于 Android 的图像加载和缓存库,专注于平滑滚动
* [Yalantis/uCrop](https://github.com/Yalantis/uCrop) 适用于 Android 的图像裁剪库
* [LuckSiege/PictureSelector](https://github.com/LuckSiege/PictureSelector) Android平台的PictureSelector,支持从相册中获取图片、视频、音频和照片、剪切(单张图片或多张图片剪切)、压缩、主题自定义配置等功能,并支持动态访问和适用于Android 5.0+系统的开源图片选择框架
* [microg/GmsCore](https://github.com/microg/GmsCore) 一个 FLOSS(免费/自由开源软件)框架,允许为 Google Play 服务设计的应用程序在 Play 服务不可用的系统上运行。
* [Blankj/AndroidUtilCode](https://github.com/Blankj/AndroidUtilCode) 功能强大且易于使用的Android库。该库封装了 Android 开发中常用的函数,这些函数具有完整的演示和单元测试。通过使用其封装的 API,可以大大提高开发效率。
* [yuliskov/SmartTube](https://github.com/yuliskov/SmartTube) 适用于运行 Android 操作系统的机顶盒和电视的高级播放器
* [waydroid/waydroid](https://github.com/waydroid/waydroid) 基于容器在GNU/Linux 系统上启动完整的 Android 系统。
* [pppscn/SmsForwarder](https://github.com/pppscn/SmsForwarder) 短信转发器——监控Android手机短信、来电、APP通知,并根据指定规则转发到其他手机。包括主动控制服务端与客户端,让你轻松远程发短信、查短信、查通话、查话簿、查电量等。
* [wasabeef/awesome-android-ui](https://github.com/wasabeef/awesome-android-ui) 一个很棒的Android UI / UX库的精选列表。
* [JStumpp/awesome-android](https://github.com/JStumpp/awesome-android) 一个精选的 Android 软件包和资源列表。
* [amitshekhariitbhu/Android-Debug-Database](https://github.com/amitshekhariitbhu/Android-Debug-Database) 用于调试 android 数据库和共享首选项的库 - 让调试再次变得伟大
* [Trinea/android-open-project](https://github.com/Trinea/android-open-project) Android 开源项目分类汇总
* [Freelander/Android_Data](https://github.com/Freelander/Android_Data) 一些安卓学习资料,希望能帮你学习安卓开发。
* [Tencent/tinker](https://github.com/Tencent/tinker) Android 的热修复解决方案库,支持 dex、库和资源更新,无需重新安装 apk。
* [Tamsiree/RxTool](https://github.com/Tamsiree/RxTool) Android开发人员不得不收集的工具类集合 | 支付宝支付 | 微信支付(统一下单) | 微信分享 | Zip4j压缩 | 一键集成UCrop选择圆形头像 | 一键集成二维码和条形码的扫描与生成 | 常用Dialog | WebView的封装可播放视频 | 仿斗鱼滑动验证码 | Toast封装 | 震动 | GPS | Location定位 | 图片缩放 | Exif 图片添加地理位置信息(经纬度) | 蛛网等级 | 颜色选择器 | ArcGis | VTPK
* [gyf-dev/ImmersionBar](https://github.com/gyf-dev/ImmersionBar) android 4.4以上沉浸式状态栏和沉浸式导航栏管理,适配横竖屏切换、刘海屏、软键盘弹出等问题,可以修改状态栏字体颜色和导航栏图标颜色,以及不可修改字体颜色手机的适配,适用于Activity、Fragment、DialogFragment、Dialog,PopupWindow
* [Tencent/QMUI_Android](https://github.com/Tencent/QMUI_Android) 用于辅助快速搭建一个具备基本设计还原效果的 Android 项目,同时利用自身提供的丰富控件及兼容处理,让开发者能专注于业务需求而无需耗费精力在基础代码的设计上。不管是新项目的创建,或是已有项目的维护,均可使开发效率和项目质量得到大幅度提升。
* [open-android/Android](https://github.com/open-android/Android) GitHub上最火的Android开源项目,所有开源项目都有详细资料和配套视频
* [ReVanced/revanced-manager](https://github.com/ReVanced/revanced-manager) Android 应用程序,它使用 ReVanced Patcher 来添加、删除和修改 Android 应用程序中的现有功能。
* [orhanobut/logger](https://github.com/orhanobut/logger) 简单、漂亮、功能强大的 android 记录器
* [JessYanCoding/AndroidAutoSize](https://github.com/JessYanCoding/AndroidAutoSize) 今日头条屏幕适配方案终极版,一个极低成本的 Android 屏幕适配方案
* [bilibili/ijkplayer](https://github.com/bilibili/ijkplayer) 基于 FFmpeg n3.4 的 Android/iOS 视频播放器,支持 MediaCodec、VideoToolbox。
* [square/leakcanary](https://github.com/square/leakcanary) 适用于 Android 的内存泄漏检测库。
* [codepath/android_guides](https://github.com/codepath/android_guides) 面向 Android 开发人员的广泛开源指南
* [gedoor/legado](https://github.com/gedoor/legado) 一款适用于 Android 的免费开源小说阅读器。
* [tachiyomiorg/tachiyomi](https://github.com/tachiyomiorg/tachiyomi) 适用于 Android 的免费开源漫画阅读器。
* [scwang90/SmartRefreshLayout](https://github.com/scwang90/SmartRefreshLayout) 下拉刷新、上拉加载、二级刷新、淘宝二楼、RefreshLayout、OverScroll,Android智能下拉刷新框架,支持越界回弹、越界拖动,具有极强的扩展性,集成了几十种炫酷的Header和 Footer。
* [CymChad/BaseRecyclerViewAdapterHelper](https://github.com/CymChad/BaseRecyclerViewAdapterHelper) 功能强大且灵活的 RecyclerAdapter。RecyclerView是Android中用于显示大量数据的控件,它比传统的ListView更加灵活和高效。
* [google/ExoPlayer](https://github.com/google/ExoPlayer) 适用于 Android 的可扩展媒体播放器
* [clearw5/Auto.js](https://github.com/clearw5/Auto.js) Android上基于JS的面向编程学习与效率提升的代码开发平台。
* [tbruyelle/RxPermissions](https://github.com/tbruyelle/RxPermissions) 由 RxJava2 提供支持的 Android 运行时权限
* [jfeinstein10/SlidingMenu](https://github.com/jfeinstein10/SlidingMenu) 可让您轻松创建带有滑入式菜单的应用。可以在您的 Android 应用程序中使用它,前提是您引用此项目并将许可证包含在您的应用中。
* [asLody/VirtualApp](https://github.com/asLody/VirtualApp) 运行于Android系统的沙盒产品,可以理解为轻量级的“Android虚拟机”。其产品形态为高可扩展,可定制的集成SDK,您可以基于VA或者使用VA定制开发各种看似不可能完成的项目。VA目前被广泛应用于APP多开、小游戏合集、手游加速器、手游租号、手游手柄免激活、VR程序移植、区块链、移动办公安全、军队政府数据隔离、手机模拟信息、脚本自动化、插件化开发、无感知热更新、云控等技术领域。Github上代码已在2017年12月份停止更新,商业版代码在持续更新中
* [android/ndk-samples](https://github.com/android/ndk-samples) 包含集成了 Android Studio C++ 的 Android NDK 示例。
* [google/flexbox-layout](https://github.com/google/flexbox-layout) 将 CSS Flexible Box Layout Module 的类似功能带到了 Android。
* [Kotlin/anko](https://github.com/Kotlin/anko) Kotlin 库,它使 Android 应用程序开发更快、更容易。它使您的代码简洁易读,并让您忘记适用于 Java 的 Android SDK 的粗糙边缘。read-only.
* [afollestad/material-dialogs](https://github.com/afollestad/material-dialogs) 美观、流畅且可扩展的 Kotlin 和 Android 对话框 API。
* [android10/Android-CleanArchitecture](https://github.com/android10/Android-CleanArchitecture) 示例应用程序,是我写的一系列博客文章的一部分,介绍了如何使用 Uncle Bob 的干净架构方法构建 android 应用程序。
* [android-hacker/VirtualXposed](https://github.com/android-hacker/VirtualXposed) 一个简单的应用程序,无需root即可使用Xposed,解锁引导加载程序或修改系统映像等。
* [hdodenhof/CircleImageView](https://github.com/hdodenhof/CircleImageView) 快速循环的 ImageView 非常适合个人资料图像。
* [alibaba/ARouter](https://github.com/alibaba/ARouter) 帮助 Android App 进行组件化改造的路由框架
* [openstf/stf](https://github.com/openstf/stf) 从浏览器控制和管理 Android 设备。
* [0x192/universal-android-debloater](https://github.com/0x192/universal-android-debloater) 用 Rust 编写的跨平台 GUI 使用 ADB 对非 root 的 Android 设备进行消胀。改善您的隐私、安全性和设备电池寿命。
* [androidannotations/androidannotations.](https://github.com/androidannotations/androidannotations) 快速的Android开发。易于维护。已弃用。不会再进行任何开发。
* [zhihu/Matisse](https://github.com/zhihu/Matisse) 为 Android 精心设计的本地图像和视频选择器
* [googlesamples/easypermissions](https://github.com/googlesamples/easypermissions) 一个包装库,用于在面向 Android M 或更高版本时简化基本系统权限逻辑。
* [wasabeef/glide-transformations](https://github.com/wasabeef/glide-transformations) Android 转换库,为 Glide 提供各种图像转换。
* [daimajia/AndroidViewAnimations](https://github.com/daimajia/AndroidViewAnimations) 可爱的视图动画集合。
* [wasabeef/recyclerview-animators](https://github.com/wasabeef/recyclerview-animators) 一个 Android 动画库,可轻松将 itemanimator 添加到 RecyclerView 项目。
* [android-async-http/android-async-http](https://github.com/android-async-http/android-async-http) 基于 Apache 的 HttpClient 库构建的基于回调的异步 Android Http 客户端。
* [permissions-dispatcher/PermissionsDispatcher](https://github.com/permissions-dispatcher/PermissionsDispatcher) 用于处理 Android 运行时权限的声明性 API。
* [xiaojieonly/Ehviewer_CN_SXJ](https://github.com/xiaojieonly/Ehviewer_CN_SXJ) ehviewer,用爱发电,快乐前行
* [alibaba/vlayout](https://github.com/alibaba/vlayout) RecyclerView 的强大 LayoutManager 扩展,它为 RecyclerView 提供了一组布局。使其能够处理同一 recyclerview 中的网格、列表和其他布局时的复杂情况。
* [ktorio/ktor](https://github.com/ktorio/ktor) 在 Kotlin 中以最小的工作量快速创建连接应用程序的框架
* [JetBrains/Exposed](https://github.com/JetBrains/Exposed) 轻量级 SQL 库,位于 Kotlin 语言的 JDBC 驱动程序之上。Exposed 有两种类型的数据库访问:类型安全的 SQL 包装 DSL 和轻量级数据访问对象 (DAO)。
* [InsertKoinIO/koin](https://github.com/InsertKoinIO/koin) 用于 Kotlin 和 Kotlin 多平台的实用轻量级依赖注入框架
* [Kotlin/kotlinx.coroutines](https://github.com/Kotlin/kotlinx.coroutines) 对具有多平台支持的 Kotlin 协程的库支持。
* [Kotlin/kotlinx.serialization](https://github.com/Kotlin/kotlinx.serialization) Kotlin 序列化由编译器插件组成,该插件为可序列化类生成访问者代码、具有核心序列化 API 的运行时库以及具有各种序列化格式的支持库。
* [youlookwhat/CloudReader](https://github.com/youlookwhat/CloudReader) 云阅:一款基于网易云音乐UI,使用玩Android Api,Retrofit2 + RxJava2 + Room + MVVM-databinding架构开发的Android客户端
## 编辑器
* [vim/vim](https://github.com/vim/vim) 老式UNIX编辑器Vi的大幅改进版本。添加了许多新功能:多级撤消、语法突出显示、命令行历史记录、在线帮助、拼写检查、文件名完成、块操作、脚本语言等。还有一个GUI可用。Vi 兼容性仍然保持不变。
* [coder/code-server](https://github.com/coder/code-server) 浏览器中的 VS 代码编辑器
* [microsoft/vscode](https://github.com/microsoft/vscode) 微软开源的程序开发工具和编辑器
* [material-theme/vsc-material-theme](https://github.com/material-theme/vsc-material-theme) Material Theme,Visual Studio Code 最史诗般的主题
* [neoclide/coc.nvim](https://github.com/neoclide/coc.nvim) 让您的 Vim/Neovim 像 VS Code 一样智能
* [amix/vimrc](https://github.com/amix/vimrc) 在过去的 10 年里,我一直在使用和调整 Vim。这个配置是最终的 vimrc(或者至少是我的版本)。有两个版本:基本:如果你想要一些小的东西,只需将 basic.vim 复制到你的 ~/.vimrc 中,你就会有一个很好的基本设置。The Awesome:包括大量有用的插件、配色方案和配置
* [ajaxorg/ace](https://github.com/ajaxorg/ace) 用JS编写的独立代码编辑器。我们的目标是创建一个基于浏览器的编辑器,以匹配和扩展现有本机编辑器(如TextMate,Vim或Eclipse)的功能,可用性和性能。它可以很容易地嵌入到任何网页或JavaScript应用程序中。Ace是作为Cloud9 IDE的主要编辑器和Mozilla Skywriter(Bespin)项目的继任者开发的。
* [VSCodium/vscodium](https://github.com/VSCodium/vscodium) 没有微软品牌/遥测/许可的vscode代码二进制版本
* [quilljs/quill](https://github.com/quilljs/quill) 为兼容性和可扩展性而构建的现代所见即所得编辑器。
* [microsoft/monaco-editor](https://github.com/microsoft/monaco-editor) 基于浏览器的代码编辑器。VSCode功能齐全编辑器。
* [ianstormtaylor/slate](https://github.com/ianstormtaylor/slate) 一个完全可定制的框架,用于构建富文本编辑器。
* [helix-editor/helix](https://github.com/helix-editor/helix) 受 Kakoune / Neovim 启发的编辑器,用 Rust 编写。编辑模型很大程度上基于 Kakoune;在开发过程中,同意Kakoune的大部分设计决策。
* [codex-team/editor.js](https://github.com/codex-team/editor.js) 具有干净 JSON 输出的块式编辑器
* [notable/notable](https://github.com/notable/notable) 基于 Markdown 的笔记应用程序,并不糟糕。特征:笔记是用 GitHub Flavored Markdown 编写的,您还可以编写 KaTeX 表达式、美人鱼图等等,请查看我们完整的 Markdown 备忘单。Notable 还为您提供了一个非常强大的 Markdown 编辑器,它实际上与 VS Code 使用的编辑器相同,因此内置了多光标、小地图和一流的语法突出显示等功能。笔记和附件只是存储在您的磁盘上,这非常便携且功能强大:您可以使用自己喜欢的编辑器编辑笔记,通过Dropbox同步它们,在它们上运行Git,运行基于正则表达式的搜索并替换它们等。还提供深色主题。将来还将添加对自定义主题的支持。禅宗模式提供简约的编辑和阅读体验,隐藏所有不必要的内容。
* [laurent22/joplin](https://github.com/laurent22/joplin) 安全的笔记和待办事项应用程序,具有适用于 Windows、macOS、Linux、Android 和 iOS 的同步功能。免费的开源笔记和待办事项应用程序,可以处理大量组织到笔记本中的笔记。笔记是可搜索的,可以直接从应用程序或您自己的文本编辑器中复制、标记和修改。注释采用 Markdown 格式。
* [zyedidia/micro](https://github.com/zyedidia/micro) 现代且直观的基于终端的文本编辑器。旨在通过易于安装和使用成为 nano 编辑器的继承者。
* [wangeditor-team/wangEditor](https://github.com/wangeditor-team/wangEditor) 开源 Web 富文本编辑器,开箱即用,配置简单。支持 JS Vue React 。
* [CodeEditApp/CodeEdit](https://github.com/CodeEditApp/CodeEdit) 适用于 macOS 的 CodeEdit 应用程序 – 提升您的代码编辑体验。开源,永久免费。
* [fastai/nbdev](https://github.com/fastai/nbdev) 编写、测试、记录和分发软件包和技术文章 — 所有这些都在一个地方,您的笔记本上。
* [benweet/stackedit](https://github.com/benweet/stackedit) 基于 PageDown 的全功能开源 Markdown 编辑器,Stack Overflow 和其他 Stack Exchange 站点使用的 Markdown 库。
* [purocean/yn](https://github.com/purocean/yn) 高度可扩展的 Markdown 编辑器。版本控制、AI Copilot、思维导图、文档加密、代码片段运行、集成终端、图表嵌入、HTML小程序、Reveal.js、插件和宏替换。
* [nhn/tui.editor](https://github.com/nhn/tui.editor) Markdown 所见即所得编辑器。 GFM 标准 + 图表和 UML 可扩展。
* [SpaceVim/SpaceVim](https://github.com/SpaceVim/SpaceVim) 社区驱动的模块化 vim/neovim 发行版
* [NvChad/NvChad](https://github.com/NvChad/NvChad) 超快的 Neovim 框架提供可靠的默认设置和漂亮的 UI,增强您的 neovim 体验。
* [notepad-plus-plus/notepad-plus-plus](https://github.com/notepad-plus-plus/notepad-plus-plus) Notepad++ 文本编辑器官方仓库
* [ueberdosis/tiptap](https://github.com/ueberdosis/tiptap) 为web开发人员准备的无头编辑器框架
* [syl20bnr/spacemacs](https://github.com/syl20bnr/spacemacs) 社区驱动的Emacs发行版 - 最好的编辑器既不是Emacs也不是Vim,而是Emacs *和* Vim!
* [eclipse-theia/theia](https://github.com/eclipse-theia/theia) 一个用 TypeScript 实现的云和桌面 IDE 框架。
* [yabwe/medium-editor](https://github.com/yabwe/medium-editor) Medium.com 所见即所得编辑器克隆。使用 contenteditable API 实现富文本解决方案。
* [lapce/lapce](https://github.com/lapce/lapce) 用 Rust 编写的闪电般快速且功能强大的代码编辑器
* [xi-editor/xi-editor](https://github.com/xi-editor/xi-editor) 一个现代编辑器,后端用 Rust 编写。
* [dvorka/mindforger](https://github.com/dvorka/mindforger) 带有LLM的思考笔记本和 Markdown 编辑器。MindForger 是开放、免费、性能良好的 Markdown 编辑器/IDE,尊重您的隐私。MindForger 功能概述:开放、免费、集成 OpenAI GPT、知识管理器、Markdown 编辑器(数学、图表、图像、目录生成器)、大纲、拼写检查、Markdown IDE(多文档工作区、部分重构、克隆、范围和模板)、组织者(艾森豪威尔矩阵、看板)、知识图谱导航器、知识自动链接、边浏览边思考、边写边想、按名称/标签/文本/正则表达式查找、查找相似部分(关联)、标记、表情符号、清单、最近部分、外部部分编辑器、主题、国际化、导出(用于机器学习的 OHE 的 CSV、HTML)和导入 (TWiki)。
* [judasn/IntelliJ-IDEA-Tutorial](https://github.com/judasn/IntelliJ-IDEA-Tutorial) IntelliJ IDEA 简体中文专题教程,对于语言开发学习者我是非常建议你使用 IntelliJ IDEA,因为一些代码格式、命名规范在 IntelliJ IDEA 下都是有良好的提示,对于我们所处的输入法下的中文全角符号也可以得到快速发现。
* [atom/atom](https://github.com/atom/atom) 21 世纪的可破解文本编辑器,基于 Electron 构建,并基于我们喜欢的编辑器的一切。我们将其设计为可深度定制,但使用默认配置仍然可以使用。
* [DaveJarvis/keenwrite](https://github.com/DaveJarvis/keenwrite) Java的Markdown编辑器,具有实时预览,字符串插值和公式
* [marktext/marktext](https://github.com/marktext/marktext) 简单优雅的markdown编辑器,适用于 Linux、mac 和 Win。
* [facebook/lexical](https://github.com/facebook/lexical) 可扩展的 JS Web 文本编辑器框架,强调可靠、可访问性和性能。
* [ranger/ranger](https://github.com/ranger/ranger) 受 VIM 启发的控制台文件管理器
* [antirez/kilo](https://github.com/antirez/kilo/) 小于 1000 LOC 的文本编辑器,具有语法突出显示和搜索功能。
* [LunarVim/LunarVim](https://github.com/LunarVim/LunarVim) Neovim 的 IDE,具有合理的默认值。完全免费,由社区驱动。
* [microsoft/language-server-protocol](https://github.com/microsoft/language-server-protocol) 语言服务器协议 (LSP) 定义了编辑器或 IDE 与提供语言功能(如自动完成、转到定义、查找所有引用等)的语言服务器之间使用的协议。语言服务器索引格式(LSIF,发音类似于“else if”)的目标是在开发工具或 Web UI 中支持丰富的代码导航,而无需源代码的本地副本。
* [nvim-telescope/telescope.nvim](https://github.com/nvim-telescope/telescope.nvim) 查找、筛选、预览、拾取。所有 lua,无时无刻不在。高度可扩展的列表模糊查找器。建立在核心的最新 neovim 强大功能之上。望远镜以模块化为中心,允许轻松定制。
* [AstroNvim/AstroNvim](https://github.com/AstroNvim/AstroNvim) 美观且功能丰富的 neovim 配置,可扩展且易于使用,并带有一组很棒的插件
* [iggredible/Learn-Vim](https://github.com/iggredible/Learn-Vim) 学习 Vim 和 Vimscript 并不难。这是您正在寻找的指南
* [rockerBOO/awesome-neovim](https://github.com/rockerBOO/awesome-neovim) eovim 插件的集合
* [VundleVim/Vundle.vim](https://github.com/VundleVim/Vundle.vim) Vim bundle 的缩写,是一个 Vim 插件管理器。
* [powerline/powerline](https://github.com/powerline/powerline) Powerline是vim的状态线插件,并为其他几个应用程序提供状态线和提示,包括zsh,bash,tmux,IPython,Awesome和Qtile。
* [mhinz/vim-galore](https://github.com/mhinz/vim-galore) Vim 从入门到精通 [Eric Wong / Vim 从入门到精通 · GitLab](https://gitlab.com/wsdjeg/vim-galore-zh_cn)
* [doomemacs/doomemacs](https://github.com/doomemacs/doomemacs) GNU Emacs 的配置框架,专为 Emacs 破产老手量身定制,他们希望框架中的框架更少,包管理器有一点稳定性(和可重复性),以及手动配置的性能(或更好)。它可以成为您自己配置的基础,也可以成为 Emacs 爱好者了解更多关于我们最喜欢的操作系统的资源。
* [viatsko/awesome-vscode](https://github.com/viatsko/awesome-vscode) 精选的令人愉快的 VS Code 包和资源列表。
* [Laverna/laverna](https://github.com/Laverna/laverna) JavaScript 笔记应用程序,具有 Markdown 编辑器和加密支持。把它看作是Evernote的开源替代品。
* [textmate/textmate](https://github.com/textmate/textmate) 适用于 macOS 10.12 或更高版本的图形文本编辑器
* [xournalpp/xournalpp](https://github.com/xournalpp/xournalpp) 支持 PDF 注释的手写笔记软件。用 C++ 和 GTK3 编写,支持 Linux、macOS 和 Windows 10。支持来自 Wacom 数位板等设备的笔输入。
* [JetBrains/intellij-community](https://github.com/JetBrains/intellij-community) 帮助您从源代码构建 IntelliJ IDEA 社区版,这是 IntelliJ 平台开发的基础。
* [espanso/espanso](https://github.com/espanso/espanso) 用 Rust 编写的跨平台文本扩展器,文本扩展器是一种程序,可以检测您何时键入特定关键字并将其替换为其他内容。这在许多方面都很有用:省去大量的打字,扩展常用句子。创建系统范围的代码片段。执行自定义脚本。像专业人士一样使用表情符号。
* [emacs-lsp/lsp-mode](https://github.com/emacs-lsp/lsp-mode) 用于语言服务器协议的 Emacs 客户端/库,语言服务器协议客户端 (v3.14)。lsp-mode 旨在通过提供与最流行的 Emacs 包(如 company、flycheck 和 projectile)的可选集成来提供类似 IDE 的体验。
## 终端
* [awesome-lists/awesome-bash](https://github.com/awesome-lists/awesome-bash) 精选的令人愉快的 Bash 脚本和资源列表。
* [alebcay/awesome-shell](https://github.com/alebcay/awesome-shell) 很棒的命令行框架、工具包、指南和小玩意的精选列表。
* [vinayak-mehta/present](https://github.com/vinayak-mehta/present) 基于终端的演示工具,具有颜色和效果。
* [willmcgugan/rich](https://github.com/willmcgugan/rich) 一个终端内富文本和美化的python库。
* [davidbrochart/nbterm](https://github.com/davidbrochart/nbterm) 在终端中查看、编辑、执行Jupyter笔记。
* [kovidgoyal/kitty](https://github.com/kovidgoyal/kitty) 跨平台、快速、功能丰富、基于 GPU 的终端
* [Eugeny/tabby](https://github.com/Eugeny/tabby) 一个更现代的终端
* [nushell/nushell](https://github.com/nushell/nushell) 一种新型终端。从 PowerShell、函数式编程语言和现代 CLI 工具等项目中汲取灵感。 Nu 不是将文件和数据视为原始文本流,而是将每个输入视为具有结构的东西。
* [dylanaraps/pure-bash-bible](https://github.com/dylanaraps/pure-bash-bible) 记录仅使用内置 bash 功能执行各种任务的常见和鲜为人知的方法。使用这本圣经中的片段可以帮助从脚本中删除不需要的依赖项,并且在大多数情况下使它们更快。我在开发 neofetch、pxltrm 和其他小型项目时遇到了这些技巧,并发现了一些技巧。
* [yudai/gotty](https://github.com/yudai/gotty) 将您的终端共享为 Web 应用程序
* [alacritty/alacritty](https://github.com/alacritty/alacritty) 一个跨平台的 OpenGL 终端模拟器。
* [mvdan/sh](https://github.com/mvdan/sh) Go写的具有 bash 支持的 shell 解析器、格式化程序和解释器;包括 SHFMT。SHELL分析器、格式化程序和解释器。支持 POSIX Shell、Bash 和 mksh。需要 Go 1.19 或更高版本。
* [mbadolato/iTerm2-Color-Schemes](https://github.com/mbadolato/iTerm2-Color-Schemes) 超过 250 种 iTerm/iTerm2 的终端配色方案/主题。包括终端,Konsole,PuTTY,Xresources,XRDB,Remmina,Termite,XFCE,Tilda,FreeBSD VT,Terminator,Kitty,MobaXterm,LXTerminal,Microsoft的Windows终端,Visual Studio,Alacritty的端口
* [zsh-users/zsh-syntax-highlighting](https://github.com/zsh-users/zsh-syntax-highlighting) shell zsh 提供语法高亮显示。它允许在 zsh 提示符下将命令键入到交互式终端中时突出显示命令。这有助于在运行命令之前查看命令,尤其是在捕获语法错误时。
* [casey/just](https://github.com/casey/just) 一个命令运行器,保存和运行特定于项目的命令的便捷方法。
* [asciinema/asciinema](https://github.com/asciinema/asciinema) 轻松记录终端会话,并在终端和 Web 浏览器中重播它们。
* [faressoft/terminalizer](https://github.com/faressoft/terminalizer) 录制您的终端并生成动画 gif 图像或共享网络播放器
* [microsoft/terminal](https://github.com/microsoft/terminal) 新的Windows终端和原始Windows控制台主机
* [vercel/hyper](https://github.com/vercel/hyper) 基于网络技术的终端,目标是为命令行界面用户创建基于开放 Web 标准构建的美观且可扩展的体验。一开始,我们的重点将主要放在速度、稳定性和为扩展作者开发正确的 API 上。
* [xtermjs/xterm.js](https://github.com/xtermjs/xterm.js) 用 TypeScript 编写的前端组件,它允许应用程序在浏览器中为其用户提供功能齐全的终端。它被 VS Code、Hyper 和 Theia 等流行项目使用。
* [enquirer/enquirer](https://github.com/enquirer/enquirer) 时尚的 CLI 提示,用户友好、直观且易于创建。
* [wez/wezterm](https://github.com/wez/wezterm) @wez 编写Rust 实现的 GPU 加速跨平台终端仿真器和多路复用器
* [unixorn/awesome-zsh-plugins](https://github.com/unixorn/awesome-zsh-plugins) ZSH 框架、插件、主题和教程的集合。
* [warpdotdev/Warp](https://github.com/warpdotdev/Warp) 基于 Rust 的现代终端,内置了 AI,因此您和您的团队可以更快地构建出色的软件。速度极快的现代基于 Rust 的 GPU 加速终端,旨在提高您和您的团队的工作效率。
* [zellij-org/zellij](https://github.com/zellij-org/zellij) 面向开发人员、面向运营人员和任何喜欢终端的人的工作空间。类似的程序有时被称为“终端多路复用器”。
* [termux/termux-app](https://github.com/termux/termux-app) 适用于 Android 操作系统的终端模拟器应用程序,可通过各种软件包进行扩展。适用于 Android 的终端模拟器,其环境类似于 Linux 环境。 无需Root或设置即可使用。 Termux 会自动进行最小安装 - 使用 APT 包管理器即可获得其他软件包。
* [termux/termux-packages](https://github.com/termux/termux-packages) 为 Termux Android 应用程序构建包的脚本和补丁。
* [gnachman/iTerm2](https://github.com/gnachman/iTerm2) Mac OS X 的终端模拟器,可以做一些令人惊奇的事情。
* [kingToolbox/WindTerm](https://github.com/kingToolbox/WindTerm) 专业的跨平台SSH/Sftp/Shell/Telnet/串口终端。
* [tmuxinator/tmuxinator](https://github.com/tmuxinator/tmuxinator) 轻松管理复杂的 tmux 会话
* [ScoopInstaller/Scoop](https://github.com/ScoopInstaller/Scoop) 适用于 Windows 的命令行安装程序。消除用户帐户控制 (UAC) 提示通知。隐藏向导样式安装程序的图形用户界面 (GUI)。防止污染 PATH 环境变量。通常,当设备上安装了不同的应用程序时,此变量会变得杂乱无章。避免安装和卸载应用程序时产生的意外副作用。自动解析并安装依赖项。执行所有必要的步骤,使应用进入工作状态。Scoop 对脚本非常友好。通过使用可重复的设置,您的环境可以变成您喜欢的样子。如果您构建了希望其他人使用的软件,Scoop 是构建安装程序(如 MSI 或 InnoSetup)的替代方法。您只需将应用压缩为.zip文件,并提供描述如何安装它的 JSON 清单。
* [junegunn/fzf](https://github.com/junegunn/fzf) 通用的命令行模糊查找器。用于命令行的交互式 Unix 过滤器,可以与任何列表一起使用;文件、命令历史记录、进程、主机名、书签、git 提交等。
* [charmbracelet/vhs](https://github.com/charmbracelet/vhs) CLI 录像机
* [ibraheemdev/modern-unix](https://github.com/ibraheemdev/modern-unix) 常见 unix 命令的现代/更快/更健全的替代方案的集合。
* [withfig/autocomplete](https://github.com/withfig/autocomplete) 当您键入时,Fig 会在您现有的终端中弹出子命令、选项和上下文相关参数。
* [PowerShell/PowerShell](https://github.com/PowerShell/PowerShell) 一个跨平台(Windows、Linux 和 macOS)自动化和配置工具/框架,可与现有工具配合使用,并针对处理结构化数据(例如 JSON、CSV、XML 等)、REST API 和对象模型进行了优化。它包括命令行 shell、关联的脚本语言和用于处理 cmdlet 的框架。
* [zsh-users/zsh-autosuggestions](https://github.com/zsh-users/zsh-autosuggestions) 像Fish一样快速/不显眼的 zsh 自动建议。
* [cmderdev/cmder](https://github.com/cmderdev/cmder) 出于对 Windows 上缺乏可用的控制台模拟器的挫败感而创建的。它基于 ConEmu,对配置进行了重大改革,带有 Monokai 配色方案、惊人的叮当声(通过叮当声完成进一步增强)和自定义提示布局。
* [jarun/nnn](https://github.com/jarun/nnn) 功能齐全的终端文件管理器。它很小,几乎是 0 配置,而且速度快得令人难以置信。nnn 可以分析磁盘使用情况、批量重命名、启动应用程序和选择文件。插件存储库有大量的插件来进一步扩展功能,例如实时预览、(取消)挂载磁盘、查找和列表、文件/目录差异、上传文件。
* [charmbracelet/gum](https://github.com/charmbracelet/gum) 一款令人着迷的 shell 脚本工具,无需编写任何代码就能利用 Bubbles 和 Lip Gloss 的功能在脚本和别名中发挥作用。
* [xonsh/xonsh](https://github.com/xonsh/xonsh) Python驱动的跨平台Unix shell
* [starship/starship](https://github.com/starship/starship) 适用于任何 shell 的最小、极快且可无限自定义的提示符
* [shelljs/shelljs](https://github.com/shelljs/shelljs) Node.js 的可移植 Unix shell 命令
* [sqshq/sampler](https://github.com/sqshq/sampler) 用于 shell 命令执行、可视化和警报的工具。使用简单的 YAML 文件进行配置。
* [GitSquared/edex-ui](https://github.com/GitSquared/edex-ui) 跨平台、可定制的科幻终端模拟器,有高级监控和触摸支持。
* [herrbischoff/awesome-macos-command-line](https://github.com/herrbischoff/awesome-macos-command-line) 使用 macOS 终端 shell 做很棒的事情。
* [Bash-it/bash-it](https://github.com/Bash-it/bash-it) Bash 3.2+ 的社区 Bash 命令和脚本的集合。(还有 oh-my-zsh)包括自动完成、主题、别名、自定义函数等等。Bash-it 提供了一个坚实的框架,用于在日常工作中使用、开发和维护 shell 脚本和自定义命令。如果您经常使用 Bourne Again Shell (Bash),并且一直在寻找一种简单的方法来控制所有这些漂亮的小脚本和别名,那么 Bash-it 适合您!
* [sorin-ionescu/prezto](https://github.com/sorin-ionescu/prezto) Zsh 的配置框架;它通过合理的默认值、别名、函数、自动完成和提示主题丰富了命令行界面环境。
* [ClementTsang/bottom](https://github.com/ClementTsang/bottom) 用于终端的可定制的跨平台图形化进程/系统监视器。支持 Linux、macOS 和 Windows。灵感来自 gtop、gotop 和 htop。特征:图形可视化小部件,CPU 使用率随时间推移,处于平均和每核水平,RAM 和交换使用情况随时间推移,网络 I/O 使用情况随时间的变化,支持放大/缩小显示的当前时间间隔。用于显示以下信息的小部件:磁盘容量/使用情况,温度传感器,电池使用情况,一个进程小部件,用于显示、排序和搜索有关进程的信息,以及支持:Kill信号,树模式,对 Linux、macOS 和 Windows 的跨平台支持,未来计划推出更多支持。可自定义的行为,可通过命令行选项或配置文件进行控制,例如:自定义和内置颜色主题、自定义小组件行为、更改小部件的布局、过滤掉某些小部件中的条目。其他一些好东西,比如:受 htop 启发的基本模式、扩展,只关注一个小部件
* [fish-shell/fish-shell](https://github.com/fish-shell/fish-shell) 用户友好的命令行 shell。包括语法高亮显示、键入时自动建议和花哨的选项卡补全等功能,无需配置即可工作。
* [spaceship-prompt/spaceship-prompt](https://github.com/spaceship-prompt/spaceship-prompt) 简约、强大且高度可定制的 Zsh 提示符
* [atuinsh/atuin](https://github.com/atuinsh/atuin) 将现有的 shell 历史记录替换为 SQLite 数据库,并记录命令的其他上下文。此外,它还通过 Atuin 服务器提供机器之间历史记录的可选和完全加密同步。
* [ajeetdsouza/zoxide](https://github.com/ajeetdsouza/zoxide) 更智能的 cd 命令。灵感来自 Z 和 AutoJump。
* [sindresorhus/pure](https://github.com/sindresorhus/pure) 漂亮、最小、快速的 ZSH 提示符
* [direnv/direnv](https://github.com/direnv/direnv) 整理您的 .profile。它使用一项新功能来增强现有 shell,该功能可以根据当前目录加载和卸载环境变量。
* [ish-app/ish](https://github.com/ish-app/ish) 适用于 iOS 的 Linux shell
* [oh-my-fish/oh-my-fish](https://github.com/oh-my-fish/oh-my-fish) Oh My Fish 提供了核心基础设施,允许您安装扩展或修改 shell 外观的软件包。它快速、可扩展且易于使用。
* [dylanaraps/neofetch](https://github.com/dylanaraps/neofetch) 用 bash 3.2+ 编写的命令行系统信息工具
* [JanDeDobbeleer/oh-my-posh](https://github.com/JanDeDobbeleer/oh-my-posh) 最可定制和低延迟的跨平台/shell 提示渲染器
* [Powerlevel9k/powerlevel9k](https://github.com/Powerlevel9k/powerlevel9k) 用于构建美观且功能强大的 CLI 的工具,专为您定制。P9k 对 CLI UX 产生了重大影响,P10k 现在延续了它的传统。
* [liquidprompt/liquidprompt](https://github.com/liquidprompt/liquidprompt) 功能齐全且精心设计的 Bash & Zsh 自适应提示
* [dunwu/linux-tutorial](https://github.com/dunwu/linux-tutorial) Linux教程,主要内容:Linux 命令、Linux 系统运维、软件运维、精选常用Shell脚本
* [brenns10/lsh](https://github.com/brenns10/lsh) C 语言中 shell 的简单实现,它是我网站上教程的主题。它演示了 shell 工作原理的基础知识。即:读取、解析、分叉、执行和等待。由于其目的是演示(不是功能完整性,甚至不适合随意使用),因此它有许多局限性
* [wtfutil/wtf](https://github.com/wtfutil/wtf) 您终端的个人信息仪表板,可让您一目了然地访问您非常重要但不经常需要的统计信息和数据。
* [NixOS/nix](https://github.com/NixOS/nix) 强大的包管理器,适用于 Linux 和其他 Unix 系统,它使包管理可靠且可重现。
* [claudiodangelis/qrcp](https://github.com/claudiodangelis/qrcp) 通过扫描二维码,通过 wifi 将文件从您的计算机传输到您的移动设备,而无需离开终端
* [imsnif/bandwhich](https://github.com/imsnif/bandwhich) CLI 实用程序,用于按进程、连接和远程 IP/主机名显示当前网络利用率
* [NixOS/nixpkgs](https://github.com/NixOS/nixpkgs) Nixpkgs 是超过 100,000 个软件包的集合,可以与 Nix 包管理器一起安装。它还实现了 NixOS,一个纯功能的 Linux 发行版。
* [so-fancy/diff-so-fancy](https://github.com/so-fancy/diff-so-fancy) diff-so-fancy 努力使您的差异具有人类可读性,而不是机器可读性。这有助于提高代码质量,并帮助您更快地发现缺陷。
* [dalance/procs](https://github.com/dalance/procs) 用 Rust 编写的 ps 的现代替代品
* [lotabout/skim](https://github.com/lotabout/skim) 我们一生中的一半时间都花在导航上:文件、行、命令......它是一个通用的模糊查找器,可以节省您的时间。
* [svenstaro/genact](https://github.com/svenstaro/genact) 无意义的活动生成器,假装忙碌或等待你的电脑,而你实际上应该在做真正的工作!用你疯狂的多任务处理技能给人们留下深刻印象。只需打开几个 genact 实例并观看节目。Genact 有多个场景,假装正在做一些令人兴奋或有用的事情,而实际上根本没有发生任何事情。
* [marticliment/UniGetUI](https://github.com/marticliment/UniGetUI) UniGetUI:包管理器的图形界面。可以被可怕地描述为包管理器管理器来管理您的包管理器。该项目的主要目标是为 Windows 10 和 11 最常见的 CLI 包管理器创建一个直观的 GUI,例如 WinGet、Scoop、Chocolatey、Pip、Npm、.NET Tool 和 PowerShell Gallery。 使用此应用程序,您可以轻松下载、安装、更新和卸载在受支持的包管理器上发布的任何软件 - 以及更多!
## 知识管理 wiki知识库
* [logseq/logseq](https://github.com/logseq/logseq) 一个知识管理和协作平台。它侧重于隐私、寿命和用户控制。Logseq 提供了一系列用于知识管理、协作、PDF 注释和任务管理的强大工具,支持多种文件格式,包括 Markdown 和组织模式,以及用于组织和构建笔记的各种功能。
* [AppFlowy-IO/AppFlowy](https://github.com/AppFlowy-IO/AppFlowy) Notion 的开源替代品。您负责您的数据和定制。使用 Flutter 和 Rust 构建。
* [toeverything/AFFiNE](https://github.com/toeverything/AFFiNE) 可以不止有 Notion 和 Miro。 AFFiNE 是下一代知识库,它将规划、分类和创建结合在一起。隐私至上、开源、可定制且随时可用。
* [Reamd7/notion-zh_CN](https://github.com/Reamd7/notion-zh_CN) notion知识库的汉化脚本
* [siyuan-note/siyuan](https://github.com/siyuan-note/siyuan) 思源是本地首创的个人知识管理系统,支持细粒度块级引用和Markdown所见即所得。
* [mattermost/focalboard](https://github.com/mattermost/focalboard) Trello、Notion 和 Asana 的开源、自托管替代品。
* [haiwen/seafile](https://github.com/haiwen/seafile) 高性能文件同步和共享,还具有 Markdown 所见即所得编辑、Wiki、文件标签等知识管理功能。
* [requarks/wiki](https://github.com/requarks/wiki) 维基.js |一个基于 Node.js 构建的现代且强大的 wiki 应用程序
* [BookStackApp/BookStack](https://github.com/BookStackApp/BookStack) 使用 PHP 和 Laravel 构建的创建文档/wiki 内容的平台
* [facebook/docusaurus](https://github.com/facebook/docusaurus) 易于维护的开源文档网站。
* [foambubble/foam](https://github.com/foambubble/foam) VSCode的个人知识管理和共享系统
* [gollum/gollum](https://github.com/gollum/gollum) 一个简单的、基于 Git 的 wiki,带有一个漂亮的 API 和本地前端。
* [outline/outline](https://github.com/outline/outline) 成长团队最快的知识库。美观、实时协作、功能丰富且兼容降价。
* [zadam/trilium](https://github.com/zadam/trilium) 使用 Trilium Notes 建立您的个人知识库
* [siyuan-note/siyuan](https://github.com/siyuan-note/siyuan) 国内个人知识管理系统,支持细粒度块级引用和Markdown。
## 计算机编程 数据结构与算法
* [HackerNews/API](https://github.com/HackerNews/API) Hacker News API 黑客新闻 API。通过与 Firebase 合作,我们以近乎实时的方式提供公开的 Hacker News 数据。借助 Firebase,您可以从 Android、iOS 和 Web 轻松访问。服务器不会被排除在外。如果您可以使用众多 Firebase 客户端库之一,那么您真的应该这样做。这些库可以有效地处理网络,并且可以在情况发生变化时引发事件。
* [EbookFoundation/free-programming-books](https://github.com/EbookFoundation/free-programming-books) 免费提供的编程书籍
* [ossu/computer-science](https://github.com/ossu/computer-science) 计算机科学免费自学教育之路!
* [practical-tutorials/project-based-learning](https://github.com/practical-tutorials/project-based-learning) 编程教程列表,有抱负的软件开发人员可以在其中学习如何从头开始构建应用程序。这些教程分为不同的主要编程语言。教程可能涉及多种技术和语言。
* [kdeldycke/awesome-falsehood](https://github.com/kdeldycke/awesome-falsehood) 程序员相信的谎言 Awesome 的精选清单。谬误是你最初认为是真的想法,但实际上,它被证明是错误的。
* [wangzheng0822/algo](https://github.com/wangzheng0822/algo) 数据结构和算法必知必会的50个代码实现
* [justjavac/free-programming-books-zh_CN](https://github.com/justjavac/free-programming-books-zh_CN) 免费的计算机编程类中文书籍
* [wolverinn/Waking-Up](https://github.com/wolverinn/Waking-Up) 计算机基础(计算机网络/操作系统/数据库/Git...)面试问题全面总结,包含详细的follow-up question以及答案;全部采用【问题+追问+答案】的形式,即拿即用,直击互联网大厂面试;可用于模拟面试、面试前复习、短期内快速备战面试
* [ZachGoldberg/Startup-CTO-Handbook](https://github.com/ZachGoldberg/Startup-CTO-Handbook) 涵盖领导力、管理和技术主题的书,面向软件工程团队的领导者
* [washam/coding-interview-university](https://github.com/jwasham/coding-interview-university) 成为软件工程师的完整计算机学习计划。
* [DeathKing/Learning-SICP](https://github.com/DeathKing/Learning-SICP) MIT视频公开课《计算机程序的构造和解释》中文化项目及课程学习资料搜集。
* [weartist/computer_book_list](https://github.com/weartist/computer_book_list) 综合了豆瓣,goodreads综合评分的计算机书籍书单
* [csseky/cskaoyan](https://github.com/csseky/cskaoyan) 提供计算机考研和软件工程考研专业的各个学校 考研真题
* [1c7/Crash-Course-Computer-Science-Chinese](https://github.com/1c7/Crash-Course-Computer-Science-Chinese) 计算机速成课 | Crash Course 字幕组 (全40集 2018-5-1 精校完成)
* [jeffgerickson/algorithms](https://github.com/jeffgerickson/algorithms) 杰夫·埃里克森的算法书、笔记等。杰夫·埃里克森(Jeff Erickson)是伊利诺伊大学厄巴纳-香槟分校的计算机科学教授;这本书基于他自 1998 年以来在那里教授的算法课程。
* [chubin/cheat.sh](https://github.com/chubin/cheat.sh) 统一访问世界上最好的社区驱动的备忘单存储库。涵盖 56 种编程语言、多种 DBMS 和 1000 多个最重要的 UNIX/Linux 命令。提供对世界上最好的社区驱动的备忘单存储库的访问,与 StackOverflow 相当。随处可用,无需安装,但可以安装以供离线使用。
* [FreeCodeCampChina/freecodecamp.cn](https://github.com/FreeCodeCampChina/freecodecamp.cn) FCC中国开源代码库和课程。学习编码并帮助非营利组织。
* [izackwu/TeachYourselfCS-CN](https://github.com/izackwu/TeachYourselfCS-CN) TeachYourselfCS 的中文翻译
* [freeCodeCamp/freeCodeCamp](https://github.com/freeCodeCamp/freeCodeCamp) 开源代码库和课程。免费学习编码。
* [forthespada/CS-Books](https://github.com/forthespada/CS-Books) 超过1000本的计算机经典书籍、个人笔记资料以及本人在各平台发表文章中所涉及的资源等。书籍资源包括C/C++、Java、Python、Go语言、数据结构与算法、操作系统、后端架构、计算机系统知识、数据库、计算机网络、设计模式、前端、汇编以及校招社招各种面经
* [arthurspk/guiadevbrasil](https://github.com/arthurspk/guiadevbrasil) 一个广泛的信息指南,其中包含来自各个领域的大量内容,以帮助、添加知识和回答问题,在本指南中,您将找到任何与技术相关的职业所需的一切。
* [youngyangyang04/leetcode-master](https://github.com/youngyangyang04/leetcode-master) 《代码随想录》LeetCode 刷题攻略:200道经典题目刷题顺序,共60w字的详细图解,视频难点剖析,50余张思维导图,支持C++,Java,Python,Go,JavaScript等多语言版本,从此算法学习不再迷茫
* [MisterBooo/LeetCodeAnimation](https://github.com/MisterBooo/LeetCodeAnimation) 用动画的形式呈现解LeetCode题目的思路
* [OpenGenus/cosmos](https://github.com/OpenGenus/cosmos) Cosmos 是您一生中会遇到和使用的每个算法和数据结构的个人离线集合。这提供了各种语言的解决方案,包括 C 、C++ 、Java 、JavaScript、Swift、Python、Go等。这项工作由一个由数百人组成的社区维护,是一项大规模的协作努力,旨在将现成的编码知识带到离线状态。cosmos 的高级结构:人工智能、回溯、位操作、元胞自动机、压缩算法 、计算几何、密码学、数据结构、设计模式、分而治之、动态规划、图形算法、贪婪算法、数学算法、联网、数值分析、在线挑战、操作系统、量子算法、随机算法、搜索、选择、排序、平方根分解、字符串算法、未分类。每种类型都有数百个问题,解决方案以多种语言进行,包括 C 、 C++ 、 Java Python Go 等。
* [krahets/hello-algo](https://github.com/krahets/hello-algo) 《Hello 算法》:动画图解、一键运行的数据结构与算法教程,支持 Java, C++, Python, Go, JS, TS, C#, Swift, Rust, Dart, Zig 等语言。
* [geekxh/hello-algorithm](https://github.com/geekxh/hello-algorithm) 针对小白的算法训练 | 包括四部分:①.大厂面经 ②.力扣图解 ③.千本开源电子书 ④.百张技术思维导图
* [liuxinyu95/AlgoXY](https://github.com/liuxinyu95/AlgoXY) 介绍了基本函数算法和数据结构,并提供了 120 个练习和答案。
* [youngyangyang04/leetcode-master](https://github.com/youngyangyang04/leetcode-master) 《代码随想录》LeetCode 刷题攻略:200道经典题目刷题顺序,共60w字的详细图解,视频难点剖析,50余张思维导图,支持C++,Java,Python,Go,JavaScript等多语言版本,从此算法学习不再迷茫
* [doocs/leetcode](https://github.com/doocs/leetcode) 本项目包含 LeetCode、《剑指 Offer(第 2 版)》、《剑指 Offer(专项突击版)》、《程序员面试金典(第 6 版)》等题目的相关题解。所有题解均由多种编程语言实现,包括但不限于:Java、Python、C++、Go、TypeScript、Rust
* [Developer-Y/cs-video-courses](https://github.com/Developer-Y/cs-video-courses) 带有视频讲座的计算机科学课程列表。
* [ForrestKnight/open-source-cs](https://github.com/ForrestKnight/open-source-cs) 来自麻省理工学院、斯坦福和普林斯顿等知名大学的精选免费课程列表,与本科计算机科学学位相同的要求,减去通识教育。
* [lnishan/awesome-competitive-programming](https://github.com/lnishan/awesome-competitive-programming) 竞争性编程、算法和数据结构资源的精选列表
* [lk-geimfari/awesomo](https://github.com/lk-geimfari/awesomo) 用各种语言编写的很酷的开源项目。
* [leachim6/hello-world](https://github.com/leachim6/hello-world) 在每种计算机语言中的Hello world。
* [QSCTech/zju-icicles](https://github.com/QSCTech/zju-icicles) 浙江大学课程攻略共享计划
* [williamfiset/Algorithms](https://github.com/williamfiset/Algorithms) 算法和数据结构是高效代码和良好软件设计的基础。创建和设计优秀的算法是成为模范程序员的必要条件。此存储库的目标是演示如何以最简单、最优雅的方式正确实现常见的数据结构和算法。
* [AkashSingh3031/The-Complete-FAANG-Preparation](https://github.com/AkashSingh3031/The-Complete-FAANG-Preparation) 包含所有 DSA(数据结构、算法、Love Babbar Bhaiya 的 450 个 DSA、FAANG 问题)、技术主题(OS + DBMS + SQL + CN + OOP)理论+问题、FAANG 面试问题和其他内容(编程 MCQ、谜题、能力、推理)。用于演示的编程语言是C++,Python
* [xitu/gold-miner](https://github.com/xitu/gold-miner) 翻译优质互联网技术文章的社区,文章来源为 掘金 上的英文分享文章。内容覆盖区块链、人工智能、Android、iOS、前端、后端、设计、产品、算法和其他等领域,以及各大型优质 官方文档及手册,读者为热爱新技术的新锐开发者。
* [7-sevens/Developer-Books](https://github.com/7-sevens/Developer-Books) 存储库:开发人员书籍列表
* [yangshun/tech-interview-handbook](https://github.com/yangshun/tech-interview-handbook) 为繁忙的软件工程师精心策划的编码面试材料
* [girliemac/a-picture-is-worth-a-1000-words](https://github.com/girliemac/a-picture-is-worth-a-1000-words) 用简单的涂鸦来描述复杂的事情!包括:算法、web、机器学习、Git、HTTP 状态等
* [algorithm-visualizer](https://github.com/algorithm-visualizer/algorithm-visualizer) 代码算法的可视化交互式在线平台。
* [NotFound9/interviewGuide](https://github.com/NotFound9/interviewGuide) 《大厂面试指北》—包括Java、JVM、数据库、mysql、网络、算法、数据结构、操作系统、设计模式、系统设计、框架原理。
* [kdn251/interviews](https://github.com/kdn251/interviews) 获得这份工作需要知道的一切,包括面试、数据结构、算法、计算机书籍等
* [chefyuan/algorithm-base](https://github.com/chefyuan/algorithm-base) 一位酷爱做饭的程序员,立志用动画将算法说的通俗易懂。
* [imarvinle/awesome-cs-books](https://github.com/imarvinle/awesome-cs-books) 经典编程书籍大全,涵盖:计算机系统与网络、系统架构、算法与数据结构、前端开发、后端开发、移动开发、数据库、测试、项目与团队、程序员职业修炼、求职面试等
* [xiaolincoder/CS-Base](https://github.com/xiaolincoder/CS-Base) 图解计算机网络、操作系统、计算机组成、数据库,共 1000 张图 + 50 万字,破除晦涩难懂的计算机基础知识
* [InterviewMap/CS-Interview-Knowledge-Map](https://github.com/InterviewMap/CS-Interview-Knowledge-Map) 建立最佳面试地图。目前的内容包括JS、网络、浏览器相关、性能优化、安全性、框架、Git、数据结构、算法等。
* [DopplerHQ/awesome-interview-questions](https://github.com/DopplerHQ/awesome-interview-questions) 精心策划的令人敬畏的计算机编程面试问题列表列表。
* [Kristories/awesome-guidelines](https://github.com/Kristories/awesome-guidelines) 精选的高质量编码风格约定和标准列表。
* [azl397985856/leetcode](https://github.com/azl397985856/leetcode) leetcode题解,记录自己的leetcode解题之路。
* [CyC2018/CS-Notes](https://github.com/CyC2018/CS-Notes) 技术面试必备基础知识、Leetcode、计算机操作系统、计算机网络、系统设计
* [kamranahmedse/developer-roadmap](https://github.com/kamranahmedse/developer-roadmap) 交互式路线图、指南和其他教育内容,以帮助开发人员在他们的职业生涯中成长。包括:前端、后端、开发运营、计算机科学、质量检查、软件架构师、软件设计和架构路、JavaScript、TypeScript、React、Vue 、Angular、Node.js、GraphQL、安卓、Flutter、Python、Go、Java、Spring Boot、设计系统、DBA、区块链、ASP.NET、系统设计、Kubernetes
* [LeCoupa/awesome-cheatsheets](https://github.com/LeCoupa/awesome-cheatsheets) 流行编程语言、框架和开发工具的精彩备忘单。它们在一个文件中包含您应该知道的所有内容。
* [mtdvio/every-programmer-should-know](https://github.com/mtdvio/every-programmer-should-know) 每个软件开发人员都应该知道的(主要是)技术知识的集合
* [resumejob/interview-questions](https://github.com/resumejob/interview-questions) Interview Questions for Google, Amazon, Apple, etc. 根据超过 2000 篇真实面经整理的腾讯,阿里,字节跳动,Shopee,美团,滴滴高频面试题
* [charlax/professional-programming](https://github.com/charlax/professional-programming) 程序员的全栈资源集合。
* [papers-we-love/papers-we-love](https://github.com/papers-we-love/papers-we-love) 来自计算机科学界的论文可供阅读和讨论。
* [labuladong/fucking-algorithm](https://github.com/labuladong/fucking-algorithm) 共 60 多篇原创文章,都是基于 LeetCode 的题目,涵盖了所有题型和技巧,而且一定要做到举一反三,通俗易懂,绝不是简单的代码堆砌,后面有目录。
* [prakhar1989/awesome-courses](https://github.com/prakhar1989/awesome-courses) 令人敬畏的 CS 课程,这些课程提供高质量的材料,即免费在线提供作业、讲座、笔记、阅读材料和考试。
* [XiangLinPro/IT_book](https://github.com/XiangLinPro/IT_book) 收藏这些年来看过或者听过的一些不错的常用的上千本书籍,没准你想找的书就在这里呢,包含了互联网行业大多数书籍和面试经验题目等等。有人工智能系列(常用深度学习框架TensorFlow、pytorch、keras。NLP、机器学习,深度学习等等),大数据系列(Spark,Hadoop,Scala,kafka等),程序员必修系列(C、C++、java、数据结构、linux,设计模式、数据库等等)
* [JaeYeopHan/Interview_Question_for_Beginner](https://github.com/JaeYeopHan/Interview_Question_for_Beginner) 为那些开始学习编程的人编写的技术面试指南。祝你一切顺利。
* [dipakkr/A-to-Z-Resources-for-Students](https://github.com/dipakkr/A-to-Z-Resources-for-Students) 当我在大学时,由于缺乏意识,我错过了很多机会,如黑客马拉松、会议、实习、研讨会和许多全球活动。我不希望新兴开发者和我一样受苦。因此,我和周围的其他一些开发人员为学生收集了一份资源清单。如果你在上大学,大学毕业生,或者刚开始做开发人员,你一定要去看看!
* [TheAlgorithms/JavaScript](https://github.com/TheAlgorithms/JavaScript) 在 JavaScript 中为初学者实现的算法和数据结构,遵循最佳实践。
* [xtaci/algorithms](https://github.com/xtaci/algorithms) C++中的算法和数据结构。
* [TheAlgorithms/Go](https://github.com/TheAlgorithms/Go) 在 Go 中为初学者实现的算法和数据结构,遵循最佳实践。
* [trekhleb/javascript-algorithms](https://github.com/trekhleb/javascript-algorithms) 用 JavaScript 实现的算法和数据结构,带有解释和进一步阅读的链接
* [MTrajK/coding-problems](https://github.com/MTrajK/coding-problems/) 各种编码/算法问题的解决方案以及许多用于学习算法和数据结构的python资源
* [donnemartin/interactive-coding-challenges](https://github.com/donnemartin/interactive-coding-challenges) 120+ 交互式 Python 编码面试挑战(算法和数据结构)。包括 Anki 抽认卡。
* [compiler-explorer/compiler-explorer](https://github.com/compiler-explorer/compiler-explorer) 一个交互式编译器探索网站。在
C、C++、C#、F#、Rust、Go、D、Haskell、Swift、Pascal、ispc、Python、Java 或其他 30 多种支持的语言中编辑代码,并查看代码在实际编译后的样子时间。每种语言都支持多个编译器,可以使用许多不同的工具和可视化,并且 UI 布局是可配置* [3b1b/manim](https://github.com/3b1b/manim) 用于精确编程动画的引擎,专为创建解释性数学视频而设计。
* [apple/swift](https://github.com/apple/swift) Swift 是一种高性能的系统编程语言。它具有简洁现代的语法,提供对现有 C 和 Objective-C 代码和框架的无缝访问,并且默认情况下是内存安全的。
* [ruby/ruby](https://github.com/ruby/ruby) 一种解释型面向对象的编程语言,通常用于 Web 开发。它还提供了许多脚本功能来处理纯文本和序列化文件,或管理系统任务。它简单、直接且可扩展。
* [nim-lang/Nim](https://github.com/nim-lang/Nim) 静态类型的编译系统编程语言。它结合了来自Python,Ada和Modula等成熟语言的成功概念。它的设计侧重于效率、表现力和优雅(按优先级顺序)。
* [bbatsov/clojure-style-guide](https://github.com/bbatsov/clojure-style-guide) Clojure编程语言的社区编码风格指南
* [unisonweb/unison](https://github.com/unisonweb/unison) 现代静态纯函数式语言,使用单个程序描述整个分布式系统。
* [typelead/eta](https://github.com/typelead/eta) Eta编程语言,JVM上Haskell的一种方言
* [koka-lang/koka](https://github.com/koka-lang/koka) Koka 语言编译器和解释器
* [gleam-lang/gleam](https://github.com/gleam-lang/gleam) 用于构建类型安全、可扩展系统的友好语言。它可以编译为Erlang(或JS),并与其他BEAM语言(如Erlang,Elixir和LFE)具有直接的互操作。
* [NASM 程序设计 · 语雀]([NASM 程序设计 · 语雀](https://www.yuque.com/qyuhen/asm))
* [ziglang/zig](https://github.com/ziglang/zig) 通用编程语言和工具链,用于维护健壮、最佳和可重用的软件。
* [enso-org/enso](https://github.com/enso-org/enso) 一种屡获殊荣的交互式编程语言,具有双重视觉和文本表示。它是一个跨越整个堆栈的工具,从高级可视化和通信到后端服务的细节,所有这些都使用一种语言。
* [wren-lang/wren](https://github.com/wren-lang/wren) Wren编程语言。Wren 是一种小型、快速、基于类的并发脚本语言。想想 Smalltalk 在一个 Lua 大小的包中,带有一点 Erlang,并用熟悉的现代语法包裹起来。
* [red/red](https://github.com/red/red) 受 Rebol 强烈启发的下一代编程语言,但由于其本机代码编译器,从系统编程到高级脚本和跨平台反应式 GUI,具有更广泛的使用领域,同时提供对并发的现代支持,所有这些都在一个零安装、配置、 ~1MB 文件中
* [JetBrains/kotlin](https://github.com/JetBrains/kotlin) 开源的静态类型编程语言,由 JetBrains 和开源贡献者支持和开发。
* [halide/Halide](https://github.com/halide/Halide) 一种用于快速、可移植数据并行计算的语言。Halide不是一种独立的编程语言,而是嵌入在C++中。这意味着您编写C++代码,使用 Halide 的 C++ API 构建 Halide 管道的内存中表示形式。然后,可以将此表示形式编译为对象文件,或者对其进行 JIT 编译并在同一进程中运行它。Halide 还提供了一个 Python 绑定,该绑定完全支持在没有C++的情况下编写嵌入在 Python 中的 Halide。
* [GitHubDaily/GitHubDaily](https://github.com/GitHubDaily/GitHubDaily) 坚持分享 GitHub 上高质量、有趣实用的开源技术教程、开发者工具、编程网站、技术资讯。
* [HaxeFoundation/haxe](https://github.com/HaxeFoundation/haxe) 可让您轻松构建面向许多主流平台的跨平台工具和应用程序。Haxe 工具包包括:Haxe 编程语言,一种现代、高级、严格类型的编程语言、Haxe 交叉编译器,适用于许多目标的最先进的闪电般的编译器、Haxe 标准库,一个完整的跨平台通用功能库
* [crystal-lang/crystal](https://github.com/crystal-lang/crystal) 一种编程语言,具有以下目标:具有类似于 Ruby 的语法(但与它的兼容性不是目标)。静态类型检查,但不必指定变量或方法参数的类型。能够通过在 Crystal 中编写绑定来调用 C 代码。具有编译时评估和代码生成,以避免样板代码。编译为高效的本机代码。
* [greyireland/algorithm-pattern](https://github.com/greyireland/algorithm-pattern) 算法模板,最科学的刷题方式,最快速的刷题路径,你值得拥有~
* [Sairyss/domain-driven-hexagon](https://github.com/Sairyss/domain-driven-hexagon) 了解领域驱动设计、软件架构、设计模式和最佳实践。包含代码示例
* [iamshuaidi/CS-Book](https://github.com/iamshuaidi/CS-Book) 计算机类常用电子书整理,并且附带下载链接,包括Java,Python,Linux,Go,C,C++,数据结构与算法,人工智能,计算机基础,面试,设计模式,数据库,前端等书籍
* [Ebazhanov/linkedin-skill-assessments-quizzes](https://github.com/Ebazhanov/linkedin-skill-assessments-quizzes) LinkedIn 答案 2023 技能评估的完整参考(aws-lambda、rest-api、javascript、react、git、html、jquery、mongodb、java、Go、python、机器学习、power-point) LinkedIn excel 测试 lösungen, LinkedIn 机器学习测试 LinkedIn 测试问题和答案
* [hackjutsu/Lepton](https://github.com/hackjutsu/Lepton) 由 GitHub Gist 提供支持的精益代码片段管理器
* [gyoogle/tech-interview-for-developer](https://github.com/gyoogle/tech-interview-for-developer) 新开发者专业知识与技术访谈百科全书
* [afatcoder/LeetcodeTop](https://github.com/afatcoder/LeetcodeTop) 汇总各大互联网公司容易考察的高频leetcode题
* [haoel/leetcode](https://github.com/haoel/leetcode) LeetCode 问题的解决方案
* [gluon-lang/gluon](https://github.com/gluon-lang/gluon) 一种用 Rust 编写的静态、类型推断和可嵌入语言。专为应用程序嵌入而设计。
* [Universidade-Livre/ciencia-da-computacao](https://github.com/Universidade-Livre/ciencia-da-computacao) 计算机科学自学成才的途径,巴西自由大学提供的计算机科学课程是使用来自巴西的在线和葡萄牙语材料进行的完整计算机科学教育。本课程不是为特定技术的培训而设计的,也不是针对针对市场的专业技能而设计的,而是为那些希望自己的教育、高质量的、基于计算机基本概念的人设计的,专为具有纪律、承诺和(最重要的是)良好学习习惯的学生而设计,这些学生大多是独立的,但寻求巴西其他学生社区的支持。
* [witheve/Eve](https://github.com/witheve/Eve) Eve 是一种编程语言,基于多年构建以人为本的编程平台的研究。
* [ocaml-community/awesome-ocaml](https://github.com/ocaml-community/awesome-ocaml) 精选的 OCaml 工具、框架、库和文章的参考资料列表。此外,还有一系列免费提供的书籍、论文和演示文稿。
* [qinwf/awesome-R](https://github.com/qinwf/awesome-R) 精选的 R 包和工具列表。灵感来自令人敬畏的机器学习。包括:集成开发环境、语法、数据操作、图形显示、Html 小部件、可重复的研究、网络技术和服务、并行计算、高性能、语言 API、数据库管理、机器学习、自然语言处理、贝 叶 斯、优化、金融、生物信息学和生物统计学、网络分析、空间、R 开发、日志、数据包、其他工具、其他引擎、R学习、资源、网站链接、书、播客、参考卡、慕课、列表、其他精彩列表、贡献
* [aalhour/awesome-compilers](https://github.com/aalhour/awesome-compilers) 编译器、解释器和运行时领域的精彩资源、学习材料、工具、框架、平台、技术和源代码项目的精选列表。这份名单偏向于教育。
* [mezod/awesome-indie](https://github.com/mezod/awesome-indie) 帮助独立开发者赚钱的资源。从自己的代码中赚钱从未如此简单,但仍然很难。在这里,我尝试整理一份资源列表,以帮助每个有兴趣从他们的数字产品中赚钱的人获得灵感并尝试一下。无论是将副业货币化、引导商业理念等。项目不需要很大,实际上,如果它们不需要,那就更好了,它们只需要有利可图。他们可能会在最初的大部分工作后提供被动收入,谁知道呢,甚至可能帮助您实现财务独立。独立游戏确实有很多生活方式的好处:)所有这些资源可能有助于激励你,让你走上正确的轨道,但最终重要的是制作和尝试东西。因此,请负责任地吞噬这些内容:)
* [awesome-developer-streams](https://github.com/bnb/awesome-developer-streams) 灵感来自令人敬畏的列表,专注于开发人员 + 流媒体。精选优秀开发人员直播列表的网站。这个列表由社区维护,旨在为那些对编程和技术感兴趣的人提供丰富多样的内容。网站上的内容分为多个部分,包括:A 到 Z 的字母顺序排列的开发人员列表。数字列表,展示了一些特定的开发人员及其专长。流媒体平台 Twitch 的目录列表,方便用户快速找到感兴趣的内容。在列表中,你可以找到开发人员们的名字、他们的直播主题、使用的编程语言和框架、以及他们开发的流媒体平台。这些开发人员来自不同的背景,有的是独立开发者,有的是企业工程师,他们通过直播分享自己的知识、项目开发过程、以及编码技巧等。
* [roc-lang/roc](https://github.com/roc-lang/roc) 一种快速、友好、实用的语言。Roc 代码旨在快速构建和快速运行。它可以编译为机器代码或 WebAssembly。Roc 的语法、语义和包含的工具集都优先考虑用户友好性。Roc 有少量的简单语言原语。它是一种单一范式的函数式语言。您可以使用此 read-eval-print 循环 (REPL) 来尝试 Roc,该循环在 WebAssembly 的浏览器中运行。您可以使用 Roc 创建脚本和命令行界面 (CLI)。编译器生成二进制可执行文件,因此 Roc 程序可以在未安装 Roc 本身的设备上运行。
* [mouredev/retos-programacion-2023](https://github.com/mouredev/retos-programacion-2023) 2023 年每周一次的代码练习,来自 MoureDev 社区,以练习任何编程语言的逻辑。
* [winglang/wing](https://github.com/winglang/wing) 面向云的编程语言 统一的编程模型,将基础结构和运行时代码组合成一种语言。
* [ritz078/transform](https://github.com/ritz078/transform) 在线的多语言转换工具。
## 游戏
* [raysan5/raylib](https://github.com/raysan5/raylib) 一个简单易用的视频游戏编程库
* [ValveSoftware/Proton](https://github.com/ValveSoftware/Proton) 用于 Steam 客户端的工具,它允许 Windows 独有的游戏在 Linux 操作系统上运行。它使用 Wine 来促进这一点。
* [rwv/chinese-dos-games](https://github.com/rwv/chinese-dos-games) 中文 DOS 游戏
* [wesnoth/wesnoth](https://github.com/wesnoth/wesnoth) 一款高度奇幻题材的开源回合制策略游戏。
* [lxgr-linux/pokete](https://github.com/lxgr-linux/pokete) 基于终端的口袋妖怪类游戏
* [pygame/pygame](https://github.com/pygame/pygame) 免费的开源 python 编程语言库,用于制作基于优秀 SDL 库构建的游戏等多媒体应用程序。C、Python、原生、OpenGL。
* [PlayCover/PlayCover](https://github.com/PlayCover/PlayCover) 在支持鼠标、键盘和控制器的 Apple Silicon Mac 上运行 iOS 应用和游戏。旨在让您在运行 macOS 12.0 或更高版本的 Apple Silicon 设备上运行 iOS 应用程序和游戏。PlayCover 的工作原理是将应用程序放入模仿 iPad 的包装器中。这使应用程序能够在本地运行并表现得非常好。PlayCover 还允许您将自定义触摸控件映射到键盘,这在 Sideloadly 等其他侧载方法中是不可能的。这些控件包括所有必需品,包括 WASD、相机移动、左键和右键点击以及单独的键盘映射,类似于流行的 Android 模拟器的键盘映射系统,称为 Bluestacks。该软件最初设计用于在您的 Apple Silicon 设备上运行 Genshin Impact,但它现在可以运行各种应用程序。不幸的是,并非所有游戏都受支持,有些游戏可能有错误。
* [Grimmys/rpg_tactical_fantasy_game](https://github.com/Grimmys/rpg_tactical_fantasy_game) pygame中的战术回合制游戏项目,开放支持
* [GDQuest/godot-open-rpg](https://github.com/GDQuest/godot-open-rpg/tree/main) 通过这个开源 RPG 演示学习创建回合制战斗游戏
* [deepmind/mujoco](https://github.com/deepmind/mujoco) 多关节动力学与接触。通用物理模拟器。
* [Grasscutters/Grasscutter](https://github.com/Grasscutters/Grasscutter) 原神服务端。当前功能:登录、战斗、好友、传送、祈愿、多人游戏 部分 可用、从控制台生成魔物、背包功能(接收或升级物品、角色等)。
* [keenon/nimblephysics](https://github.com/keenon/nimblephysics) Nimble:深度学习的物理引擎
* [TastSong/CrazyCar](https://github.com/TastSong/CrazyCar) 网络联机游戏解决方案---Unity制作的联机赛车游戏,服务端为SpringBoot + Mybatis;后台为Vue + Element;游戏端采用QFramework框架,支持KCP和WebSocket网络(商用级)
* [clear-code-projects/Zelda](https://github.com/clear-code-projects/Zelda) 用 Python 构建一个塞尔达风格的游戏
* [pmgl/microstudio](https://github.com/pmgl/microstudio) 免费、开源的在线游戏引擎 nodejs
* [OpenRCT2/OpenRCT2](https://github.com/OpenRCT2/OpenRCT2) 《过山车大亨 2 🎢》的C++开源重新实现
* [flareteam/flare-game](https://github.com/flareteam/flare-game) 使用 FLARE 引擎的奇幻动作角色扮演游戏
* [jynew/jynew](https://github.com/jynew/jynew) 开源武侠RPG游戏开发框架 使用Unity引擎重制并致敬经典游戏《金庸群侠传》DOS版
* [XorTroll/Goldleaf](https://github.com/XorTroll/Goldleaf) Nintendo Switch 游戏机的多用途自制工具。
* [Ryujinx/Ryujinx](https://github.com/Ryujinx/Ryujinx) 用 C# 编写的实验性 Nintendo Switch 游戏机 模拟器
* [godotengine/godot](https://github.com/godotengine/godot) 一个功能丰富的跨平台游戏引擎,用于从统一界面创建 2D 和 3D 游戏。它提供了一套完善的常用工具,让用户可以专注于制作游戏,而无需重新发明轮子。游戏可以一键导出到多个平台,包括主要的桌面平台(Linux、macOS、Windows)、移动平台(Android、iOS),以及基于 Web 的平台和控制台。
* [ellisonleao/magictools](https://github.com/ellisonleao/magictools) 游戏开发资源列表。
* [libgdx/libgdx](https://github.com/libgdx/libgdx) 桌面/安卓/HTML5/iOS Java游戏开发框架
* [screeps/screeps](https://github.com/screeps/screeps) 用于编写游戏 Screeps 的独立服务器。Screeps 是一款面向程序员的 MMO RTS 沙盒游戏,其中核心机制是为您的单位 AI 编程。你通过编写 JavaScript 来控制你的殖民地,这些 JavaScript 在由与你同等的其他玩家填充的单一持久世界中 24/7 全天候运行。
* [BabylonJS/Babylon.js](https://github.com/BabylonJS/Babylon.js) 功能强大、美观、简单且开放的游戏和渲染引擎,包含在一个友好的 JavaScript 框架中。
* [FyroxEngine/Fyrox](https://github.com/FyroxEngine/Fyrox) 一个功能丰富、可用于生产的通用 2D/3D 游戏引擎,用 Rust 编写,带有场景编辑器。以前称为 rg3d。
* [EmbarkStudios/rust-gpu](https://github.com/EmbarkStudios/rust-gpu) GPU 图形和计算着色器的一流语言和生态系统。编译和运行简单的着色器是有效的,核心库的很大一部分也可以编译。但是,许多事情尚未实现。这意味着,虽然在技术上可用,但该项目远未准备好投入生产。GitHub 上跟踪了对 Rust 和 SPIR-V 中特定功能的支持。从历史上看,在游戏中,GPU编程是通过编写HLSL或在较小程度上GLSL完成的。这些是简单的编程语言,多年来随着渲染 API 的发展而发展。然而,随着游戏引擎的发展,这些语言未能提供处理大型代码库的机制,并且与其他编程语言相比,它们通常落后于曲线。我们希望通过这个项目,通过将现有的、低级的、安全的、高性能的语言引入GPU来推动行业向前发展;即 Rust。随之而来的是一些不容忽视的额外好处:业界最好的封装/模块系统之一,内置安全对抗竞争条件或越界内存访问,各种工具和实用程序来改进程序员工作流程,以及许多其他工具和实用程序!
* [leereilly/games](https://github.com/leereilly/games) 在 GitHub 上找到的开源游戏和游戏相关项目列表 - 老式文本冒险、教育游戏、8 位平台游戏、基于浏览器的游戏、独立游戏、GameJam 项目、商业游戏的附加组件/地图/黑客/插件、库、框架、引擎,应有尽有。
* [cocos2d/cocos2d-x](https://github.com/cocos2d/cocos2d-x) 开源、跨平台的游戏开发工具,被全球数百万开发者使用。它的核心已经发展成为 Cocos Creator 1.x 和 2.x 的基础。用于构建 2D 游戏、交互式书籍、演示和其他图形应用程序。它基于 cocos2d-iphone,但它没有使用 Objective-C,而是使用 C++。它适用于 iOS、Android、macOS、Windows 和 Linux。
* [OpenRA/OpenRA](https://github.com/OpenRA/OpenRA) 早期Westwood游戏的开源实时战略游戏引擎,例如使用SDL和OpenGL用C#编写的《命令与征服:红色警戒》。
* [AbyssEngine/AbyssEngine](https://github.com/AbyssEngine/AbyssEngine) 游戏引擎,旨在运行类似于 2000 年风格的 ARPG 游戏,例如暗黑破坏神 II。该存储库提供了核心引擎以及 OpenDiablo2,这是使用该引擎对暗黑破坏神 II 的开源重新实现。
* [MonoGame/MonoGame](https://github.com/MonoGame/MonoGame) 简单而强大的 .NET 框架,用于使用 C# 编程语言为台式电脑、视频游戏机和移动设备创建游戏。它已成功用于创建《愤怒的街道 4》、《Carrion》、《Celeste》、《星露谷物语》等游戏。
* [boardgameio/boardgame.io](https://github.com/boardgameio/boardgame.io) 使用 JavaScript 创建回合制游戏的引擎。编写简单的函数来描述在进行特定移动时游戏状态如何变化。这会自动转换为具有在线多人游戏功能的可玩游戏,而无需您编写任何网络或存储代码。
* [minetest/minetest](https://github.com/minetest/minetest) 开源体素游戏引擎,易于修改和游戏创建。
* [Anuken/Mindustry](https://github.com/Anuken/Mindustry) 自动化塔防RTS,用Java编写。
* [hrydgard/ppsspp](https://github.com/hrydgard/ppsspp) Android、Win、Mac 和 Linux 的 PSP 模拟器,用 C++ 编写。
* [aseprite/aseprite](https://github.com/aseprite/aseprite) 动画精灵编辑器和像素艺术工具(Windows、macOS、Linux),主要特点是:精灵由层和帧组成,作为独立的概念。支持颜色配置文件和不同的颜色模式:RGBA、索引(最多 256 种颜色的调色板)、灰度。动画设施,实时预览和洋葱皮。将动画导出/导入到/从精灵表、GIF 文件或 PNG 文件序列(以及 FLC、FLI、JPG、BMP、PCX、TGA)中导出/导入动画。支持多个编辑器。用于组织工作的图层组,以及用于转描的参考图层。像素艺术特定工具,如像素完美手绘模式、着色墨水、自定义画笔、轮廓、宽像素等。其他特殊绘图工具,如压力敏感度、对称工具、描边和填充选择、渐变。平铺模式可用于绘制图案和纹理。同时转换多个帧/图层。Lua 脚本功能。CLI - 用于自动执行任务的命令行界面。快速参考/备忘单键盘快捷键(可自定义的按键和鼠标滚轮)。重新打开关闭的文件并在崩溃时恢复数据。每个操作的撤消/重做,并支持非线性撤消。
* [hajimehoshi/ebiten](https://github.com/hajimehoshi/ebiten) Go 编程语言的开源游戏引擎。Ebitengine 的简单 API 允许您快速轻松地开发可跨多个平台部署的 2D 游戏。
* [skypjack/entt](https://github.com/skypjack/entt) 游戏与现代 C++ 的结合 - 快速可靠的实体组件系统 (ECS) 等等。仅标头,小巧且易于使用的游戏编程库,以及更多用现代 C++ 编写的库。
* [playcanvas/engine](https://github.com/playcanvas/engine) 基于 WebGL 和 glTF 构建的快速轻量级 JavaScript 游戏引擎
* [google/filament](https://github.com/google/filament) 基于物理的实时渲染引擎,适用于 Android、iOS、Windows、Linux、macOS 和 WebGL2
* [HabitRPG/habitica](https://github.com/HabitRPG/habitica) 一个免费的习惯养成及生产力应用,让你“游戏人生”。游戏里的奖惩措施能激励你完成任务,还有一个强大的互动社区给你完成任务的好建议。Habitica能够帮助你达成目标,变得健康,勤奋,快乐。
* [mapeditor/tiled](https://github.com/mapeditor/tiled) 通用的图块地图编辑器,适用于所有基于图块的游戏,例如 RPG、平台游戏或 Breakout 克隆游戏
* [ppy/osu](https://github.com/ppy/osu) 一款免费获胜的节奏游戏。节奏只需点击一下即可!
* [PavelDoGreat/WebGL-Fluid-Simulation](https://github.com/PavelDoGreat/WebGL-Fluid-Simulation) 在浏览器中玩液体(即使在移动设备上也有效)
* [ange-yaghi/engine-sim](https://github.com/ange-yaghi/engine-sim) 内燃机模拟器,可生成逼真的音频。
* [lucoiso/UEHttpGPT](https://github.com/lucoiso/UEHttpGPT) 虚幻引擎插件,通过异步 REST 请求促进与 OpenAI 基于 GPT 的服务(ChatGPT 和 DALL-E),使开发人员可以轻松地与这些服务进行通信。
* [miloyip/game-programmer](https://github.com/miloyip/game-programmer) 游戏程序员的学习路径
* [BeyondDimension/SteamTools](https://github.com/BeyondDimension/SteamTools) 开源跨平台的多功能 Steam 工具箱。此工具的大部分功能都是需要您下载安装 Steam 才能使用。功能:网络加速、账号切换、库存游戏、游戏工具。
* [liyucheng09/ChatGPT_Agent](https://github.com/liyucheng09/ChatGPT_Agent) 由 ChatGPT 代理提供支持的游戏演示
* [fogleman/Craft](https://github.com/fogleman/Craft) 使用现代 OpenGL(着色器)用 C 语言编写的简单 Minecraft 克隆。
* [rapiz1/DungeonRush](https://github.com/rapiz1/DungeonRush) 受 Snake 启发的开源游戏,用纯 C 语言编写,带有 SDL
* [tobspr-games/shapez.io](https://github.com/tobspr-games/shapez.io) Steam 上的一款开源基地建设游戏,灵感来自异星工厂
* [hiloteam/Hilo](https://github.com/hiloteam/Hilo) 阿里巴巴集团开发的跨端 HTML5 游戏开发解决方案。它可以帮助开发人员在几分钟内方便地构建 HTML5 游戏。
* [4ian/GDevelop](https://github.com/4ian/GDevelop) 功能齐全的无代码开源游戏开发软件。您可以为移动设备、桌面设备和 Web 构建游戏。GDevelop 快速且易于使用:游戏逻辑是使用直观且强大的基于事件的系统构建的。
* [azerothcore/azerothcore-wotlk](https://github.com/azerothcore/azerothcore-wotlk) 开源游戏服务器应用程序和框架,专为托管大型多人在线角色扮演游戏 (MMORPG) 而设计。它基于流行的 MMORPG 魔兽世界 (WoW),旨在重现 3.3.5a 补丁中原始游戏的游戏体验。原始代码基于 MaNGOS、TrinityCore 和 SunwellCore,此后进行了广泛的开发,以提高游戏的稳定性、游戏机制和模块化。AC 也已经成长为一个社区驱动的项目,拥有大量的贡献者和开发人员。它是用 C++ 编写的,为创建模仿官方魔兽世界服务器的机制和行为的私人服务器提供了坚实的基础。
* [diasurgical/devilutionX](https://github.com/diasurgical/devilutionX) 适用于现代操作系统的暗黑破坏神构建,DevilutionX 是暗黑破坏神和地狱火的一个端口,它致力于使游戏运行变得简单,同时提供引擎改进、错误修复和一些可选的生活质量功能。
* [diasurgical/devilution](https://github.com/diasurgical/devilution) 暗黑破坏神下放 - 1996 年电脑游戏背后的魔法
* [egametang/ET](https://github.com/egametang/ET) Unity3D 客户端和 C# 服务器框架
* [yairm210/Unciv](https://github.com/yairm210/Unciv) 使用 LibGDX 制作的 《 文明V 》Civ V 的开源、以可修改性为重点的 Android 和桌面重制版
* [colyseus/colyseus](https://github.com/colyseus/colyseus) 权威的 Node.js 多人游戏框架,其 SDK 可用于 Web、Unity、Defold、Haxe、Cocos 和 Construct3。该项目的重点是为实时和回合制游戏提供可同步的数据结构、匹配以及服务器端和客户端的易用性。
* [stevenjoezhang/live2d-widget](https://github.com/stevenjoezhang/live2d-widget) 在网页中添加 Live2D 看板娘。兼容 PJAX,支持无刷新加载。
* [PojavLauncherTeam/PojavLauncher](https://github.com/PojavLauncherTeam/PojavLauncher) 基于 Boardwalk 的 Minecraft: Java Edition Launcher for Android 和 iOS。此存储库包含 Android 平台的源代码。PojavLauncher 是一个启动器,可让您在 Android 设备上玩 Minecraft: Java Edition!它几乎可以运行Minecraft的所有版本,仅允许您使用.jar安装程序来安装Forge和Fabric等modloaders,OptiFine和LabyMod之类的mods,以及Wurst之类的黑客客户端等等!
## 其他
* [torvalds/linux](https://github.com/torvalds/linux) Linux内核源码树
* [ruanyf/weekly](https://github.com/ruanyf/weekly) 科技爱好者周刊,每周五发布
* [public-apis/public-apis](https://github.com/public-apis/public-apis) 一个免费API的集合列表,可用于软件和Web开发
* [donnemartin/system-design-primer](https://github.com/donnemartin/system-design-primer) 了解如何设计大型系统。准备系统设计面试。包括 Anki 抽认卡。
* [Anduin2017/HowToCook](https://github.com/Anduin2017/HowToCook) 程序员在家做饭方法指南。
* [kuchin/awesome-cto](https://github.com/kuchin/awesome-cto) 为初创公司首席技术官精心策划的、有主见的资源清单
* [bregman-arie/devops-exercises](https://github.com/bregman-arie/devops-exercises) 包含有关各种技术主题的问题和练习,有时与 DevOps 和 SRE 相关
* [luong-komorebi/Awesome-Linux-Software ](https://github.com/luong-komorebi/Awesome-Linux-Software/blob/master/README_zh-CN.md) 收集了对任何用户/开发者都觉得超赞的 Linux 应用软件。
* [easychen/howto-make-more-money](https://github.com/easychen/howto-make-more-money) 程序员如何优雅的挣零花钱
* [resumejob/awesome-resume](https://github.com/resumejob/awesome-resume) 程序员简历例句,简历模版
* [kamranahmedse/design-patterns-for-humans](https://github.com/kamranahmedse/design-patterns-for-humans) 对设计模式的超简化解释
* [google/styleguide](https://github.com/google/styleguide) 谷歌风格指南 每个主要的开源项目都有自己的风格指南:一组关于如何为该项目编写代码的约定(有时是任意的)。当其中的所有代码都采用一致的风格时,理解大型代码库会容易得多。
* [gotenberg/gotenberg](https://github.com/gotenberg/gotenberg) 提供了一个开发人员友好的API,可以与Chromium和LibreOffice等强大的工具进行交互,以将多种文档格式(HTML,Markdown,Word,Excel等)转换为PDF文件等等!
* [Wechat-ggGitHub/Awesome-GitHub-Repo](https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo) 收集GitHub高质量、有趣的开源项目。
* [jnv/lists](https://github.com/jnv/lists) 在 GitHub 和其他地方策划的列表(列表)的最终列表
* [jaywcjlove/awesome-mac](https://github.com/jaywcjlove/awesome-mac) 收集了各种类别的出色 macOS 软件。
* [florinpop17/app-ideas](https://github.com/florinpop17/app-ideas) 一系列应用创意,可用于提高您的编码技能。
* [jaywcjlove/linux-command](https://github.com/jaywcjlove/linux-command) Linux命令大全搜索,包含手册、详解、学习、搜集。
* [NickeManarin/ScreenToGif](https://github.com/NickeManarin/ScreenToGif) 允许您记录屏幕的选定区域,编辑并将其保存为 gif 或视频。需要 .NET 6 桌面运行时(或更高版本)。
* [mifi/lossless-cut](https://github.com/mifi/lossless-cut) 无损视频/音频编辑的瑞士军刀。跨平台 FFmpeg GUI,用于对视频、音频、字幕和其他相关媒体文件进行极其快速和无损的操作。
* [MunGell/awesome-for-beginners](https://github.com/MunGell/awesome-for-beginners) 很棒的初学者友好项目列表。
* [ixinzhi/loving-books](https://github.com/ixinzhi/loving-books) 恋爱指南
* [lTbgykio/Books-Free-Books](https://github.com/lTbgykio/Books-Free-Books) 免费书籍汇总。目录:Web 开发、系统管理、编程语言、数据库、软件开发、人工智能、数学理论、其他
* [sindresorhus/awesome](https://github.com/sindresorhus/awesome) 关于各种有趣主题的精彩列表
* [coder2gwy/coder2gwy](https://github.com/coder2gwy/coder2gwy) 互联网首份程序员考公指南,由3位已经进入体制内的前大厂程序员联合献上。
* [modichirag/flowpm](https://github.com/modichirag/flowpm) TensorFlow中的粒子网格模拟N体宇宙学模拟
* [bennettfeely/bennett](https://github.com/bennettfeely/bennett) ztext 易于实现的3D网页排版。适用于每种字体。
* [jlevy/the-art-of-command-line](https://github.com/jlevy/the-art-of-command-line) 熟练使用命令行是一项经常被忽视或被认为是晦涩难懂的技能,但它以明显和微妙的方式提高了您作为工程师的灵活性和生产力。这是一些关于使用命令行的笔记和技巧,我们发现在 Linux 上工作时很有用。有些技巧是基本的,有些则相当具体、复杂或晦涩难懂。这个页面不长,但如果你能使用和回忆这里的所有项目,你就会知道很多。
* [dxx/react-bilibili](https://github.com/dxx/react-bilibili) 高仿B站web移动端
* [alyssaxuu/flowy](https://github.com/alyssaxuu/flowy) 创建具有流程图功能的 WebApps 成为一项极其简单的任务。 通过将库实施到您的项目中,几分钟内构建自动化软件、思维导图或简单的编程平台。
* [nondanee/UnblockNeteaseMusic](https://github.com/nondanee/UnblockNeteaseMusic) 解锁网易云音乐客户端变灰歌曲
* [opensumi/core](https://github.com/opensumi/core) 帮助您快速构建云或桌面 IDE 产品。
* [xiangyuecn/Recorder](https://github.com/xiangyuecn/Recorder) html5 js 录音 mp3 wav ogg webm amr 格式,支持pc和Android、iOS部分浏览器、Hybrid App(提供Android iOS App源码)、微信
* [SocialSisterYi/bilibili-API-collect](https://github.com/SocialSisterYi/bilibili-API-collect) 哔哩哔哩-API收集整理
* [dblalock/bolt](https://github.com/dblalock/bolt) 矩阵和向量运算速度提高 10 倍
* [TheZoraiz/ascii-image-converter](https://github.com/TheZoraiz/ascii-image-converter) 将图像转换为 ascii 艺术并在控制台上打印它们。
* [jina-ai/jina](https://github.com/jina-ai/jina) 一个神经搜索框架,它使任何人都可以在几分钟内构建 SOTA 和可扩展的深度学习搜索应用程序。可扩展的索引、查询、理解任何数据:视频、图像、长/短文本、音乐、源代码、PDF 等。
* [dedupeio/dedupe](https://github.com/dedupeio/dedupe) 机器学习对结构化数据快速执行模糊匹配、去重和实体解析。
* [Alinshans/MyTinySTL](https://github.com/Alinshans/MyTinySTL) 实现了大部分STL中的容器与函数,但仍存在许多bug。
* [rspivak/lsbasi](https://github.com/rspivak/lsbasi) 让我们构建一个简单的解释器
* [pi-hole/pi-hole](https://github.com/pi-hole/pi-hole) 通过您自己的 Linux 硬件进行全网广告拦截,Pi-hole® 是一个[DNS 漏洞](https://en.wikipedia.org/wiki/DNS_Sinkhole),无需安装任何客户端软件即可保护您的设备免受不需要的内容的侵害。
* [antlr/antlr4](https://github.com/antlr/antlr4) ANTLR(另一种语言识别工具)是一个强大的解析器生成器,用于读取、处理、执行或翻译结构化文本或二进制文件。
* [ptitSeb/box86](https://github.com/ptitSeb/box86/) Box86 - Linux 用户空间 x86 仿真器,针对 ARM Linux 设备
* [ptitSeb/box64](https://github.com/ptitSeb/box64/) Box64 Linux 用户空间 x86_64 仿真器,针对 ARM64 Linux 设备
* [lxgw/LxgwWenKai](https://github.com/lxgw/LxgwWenKai) 基于 FONTWORKS 出品字体 Klee One 改造的开源中文字体。
* [EastWorld/wechat-app-mall](https://github.com/EastWorld/wechat-app-mall) 微信小程序商城,微信小程序微店
* [jgraph/drawio-desktop](https://github.com/jgraph/drawio-desktop) 基于Electron图表和白板桌面,包装了核心draw.io编辑器。
* [microapp-store/flash-waimai](https://github.com/microapp-store/flash-waimai) 仿饿了么外卖平台,包括手机端,后台管理, api服务
* [PureDarwin/PureDarwin](https://github.com/PureDarwin/PureDarwin) Darwin 是 macOS 的开源核心,PureDarwin 是一个社区项目,旨在将 Darwin 扩展为一个完整的、可用的操作系统。
* [sunym1993/flash-linux0.11-talk](https://github.com/sunym1993/flash-linux0.11-talk) 像小说一样品读 Linux 0.11 核心代码
* [clouddreamteam_admin/cloud-dream](https://gitee.com/clouddreamteam_admin/cloud-dream) 微信小程序—餐饮点餐商城,是针对餐饮行业推出的一套完整的餐饮解决方案,实现了用户在线点餐下单、外卖、叫号排队、支付、配送等功能,完美的使餐饮行业更高效便捷!
* [HC小区业主版: hc智慧家园小程序 ](https://gitee.com/java110/WechatOwnerService) HC小区开源项目的一个分支项目,主要给业主使用,其中包括缴物业费,缴停车费,投诉建议,家庭成员维护,房屋保修 房屋出租,公告查看,小区圈等功能。
* [modood/Administrative-divisions-of-China](https://github.com/modood/Administrative-divisions-of-China) 中华人民共和国行政区划:省级(省份)、 地级(城市)、 县级(区县)、 乡级(乡镇街道)、 村级(村委会居委会) ,中国省市区镇村二级三级四级五级联动地址数据。
* [H5-Dooring/dooringx](https://github.com/H5-Dooring/dooringx) 快速高效搭建可视化拖拽平台
* [polybar/polybar](https://github.com/polybar/polybar) 快速且易于使用的状态栏
* [videolan/vlc](https://github.com/videolan/vlc) 自由和开源的媒体播放器和多媒体引擎,专注于播放所有内容,并在任何地方运行。VLC 可以播放大多数多媒体文件、光盘、流、设备,还能够将流转换、编码、流式传输和操作为多种格式。
* [easychen/lean-side-bussiness](https://github.com/easychen/lean-side-bussiness) 精益副业:程序员如何优雅地做副业
* [fanmingming/live](https://github.com/fanmingming/live) 一个国内可直连的直播源分享项目 永久免费 直连访问 完整开源 不含广告 完善的台标 直播源支持IPv4/IPv6双栈访问
* [penpot/penpot](https://github.com/penpot/penpot) 开源设计和原型平台
* [binwiederhier/ntfy](https://github.com/binwiederhier/ntfy) 使用 PUT/POST 将推送通知发送到您的手机或桌面
* [charmbracelet/vhs](https://github.com/charmbracelet/vhs) 集测试和演示 CLI 于一身的视频记录仪,它会根据你的指令生成相关的操作视频。
* [microsoft/fluentui-emoji](https://github.com/microsoft/fluentui-emoji) 来自 Microsoft 的一组熟悉、友好和现代的表情符号
* [Wox-launcher/Wox](https://github.com/Wox-launcher/Wox) Windows 启动器,Alfred 和 Launchy 的替代品。
* [excalidraw/excalidraw](https://github.com/excalidraw/excalidraw) 用于素描手绘图的虚拟白板 [->立即使用](https://excalidraw.com)
* [Splode/pomotroid](https://github.com/Splode/pomotroid) 简单且视觉上令人愉悦的番茄钟计时器。
* [jigish/slate](https://github.com/jigish/slate) MacOS上类似 Divvy 和 SizeUp 的窗口管理应用程序。
* [deiv/driftnet](https://github.com/deiv/driftnet) 监视网络流量,并选择和显示 JPEG 和 GIF 图像显示
* [immersive-translate/immersive-translate](https://github.com/immersive-translate/immersive-translate) 沉浸式双语网页翻译扩展
* [yetone/openai-translator](https://github.com/yetone/openai-translator) 基于 ChatGPT API 的划词翻译插件和跨平台桌面端应用
* [jserv/shecc](https://github.com/jserv/shecc) 从头开始构建,针对 32 位 Arm 和 RISC-V 架构,作为 C 语言子集的自编译编译器。
* [nocodb/nocodb](https://github.com/nocodb/nocodb) 开源 Airtable 替代方案 将任何 MySQL、PostgreSQL、SQL Server、SQLite 和 MariaDB 变成智能电子表格。
* [freembook.com](https://freembook.com/) 书籍查询网页,可查询:书号 书名 SS号 DX号
* [sharkdp/bat](https://github.com/sharkdp/bat) 一只长着翅膀的 cat(1) 命令的克隆体。功能:语法高亮、显示不可打印的字符、文件串联。
* [BurntSushi/ripgrep](https://github.com/BurntSushi/ripgrep) 在尊重您的 gitignore 的同时递归地搜索目录以查找正则表达式模式,优势速度快。
* [meilisearch/meilisearch](https://github.com/meilisearch/meilisearch) 闪电般快速的搜索引擎,可以毫不费力地融入您的应用程序、网站和工作流程。
* [sharkdp/fd](https://github.com/sharkdp/fd) “find”查找的简单、快速和用户友好的替代方法
* [mermaid-js/mermaid](https://github.com/mermaid-js/mermaid) 从文本生成流程图或序列图等图表
* [ansible/ansible](https://github.com/ansible/ansible) 一个极其简单的 IT 自动化平台,可让您的应用程序和系统更易于部署和维护。自动化从代码部署到网络配置再到云管理的一切,使用接近简单英语的语言,使用 SSH,无需在远程系统上安装代理。
* [ansible/awx](https://github.com/ansible/awx) AWX 提供基于 Web 的用户界面、REST API 和基于 Ansible 构建的任务引擎。它是红帽 Ansible 自动化平台的上游项目之一。
* [home-assistant/core](https://github.com/home-assistant/core) 将本地控制和隐私放在首位的开源家庭自动化。
* [ventoy/Ventoy](https://github.com/ventoy/Ventoy) 用于为 ISO/WIM/IMG/VHD(x)/EFI 文件创建可启动 USB 驱动器
* [microsoft/PowerToys](https://github.com/microsoft/PowerToys) Microsoft PowerToys 是一组实用程序,供高级用户调整和简化 Windows 体验以提高工作效率。
* [airbnb/lottie-android](https://github.com/airbnb/lottie-android) 在 Android 和 iOS、Web 和 React Native 上原生渲染 After Effects 动画
* [pomber/git-history](https://github.com/pomber/git-history) 从任何 git 存储库快速浏览文件的历史记录
* [RelaxedJS/ReLaXed](https://github.com/RelaxedJS/ReLaXed) 使用 Web 技术创建 PDF 文档
* [tianshiyeben/wgcloud](https://github.com/tianshiyeben/wgcloud) Linux运维监控工具,支持系统硬件信息,内存,cpu,温度,磁盘空间及IO,硬盘smart,系统负载,网络流量等监控,服务接口,大屏展示,拓扑图,进程监控,端口监控,docker监控,文件防篡改,日志监控,数据可视化,web ssh,堡垒机,指令下发批量执行,Linux面板(探针),SNMP,故障告警
* [AdnanHodzic/auto-cpufreq](https://github.com/AdnanHodzic/auto-cpufreq) 适用于 Linux 的自动 CPU 速度和功耗优化器
* [AppImage/AppImageKit](https://github.com/AppImage/AppImageKit) 将桌面应用程序打包为在常见的基于 Linux 的操作系统上运行的 AppImages,例如 RHEL、CentOS、openSUSE、SLED、Ubuntu、Fedora、debian 及其衍生产品。
* [CopyTranslator/CopyTranslator](https://github.com/CopyTranslator/CopyTranslator) 基于复制和翻译的外语阅读和翻译助手。
* [geekcompany/ResumeSample](https://github.com/geekcompany/ResumeSample) 程序员简历模板系列
* [wenyan-lang/wenyan](https://github.com/wenyan-lang/wenyan) 文言文編程語言
* [yourtion/30dayMakeOS](https://github.com/yourtion/30dayMakeOS) 《30天自制操作系统》源码中文版。自己制作一个操作系统(OSASK)的过程
* [typst/typst](https://github.com/typst/typst) 一个新的基于标记的排版系统,功能强大且易于学习。
* [LemmyNet/lemmy](https://github.com/LemmyNet/lemmy) 一个联邦宇宙的链接聚合器。 类似于 Reddit、Lobste.rs 或 Hacker News 等网站:您订阅您所感兴趣的社群,发布链接和讨论,然后对它们进行投票和评论。 Lemmy 不仅仅是 reddit 的替代品;它是一个由不同人和组织运营的相互关联的社群网络,所有这些社群结合起来创建一个充满您最喜欢的新闻、文章和迷因的独立且个性化的首页。
* [bnb/awesome-hyper](https://github.com/bnb/awesome-hyper) 令人愉快的*CLI*超级插件、主题和资源
* [hackerkid/Mind-Expanding-Books](https://github.com/hackerkid/Mind-Expanding-Books) 思维扩展书籍 每个人都应该读的书!
* [heynickc/awesome-ddd](https://github.com/heynickc/awesome-ddd) 域驱动设计 (DDD)、命令查询责任分离 (CQRS)、事件溯源和事件风暴资源的精选列表
* [rShetty/awesome-podcasts](https://github.com/rShetty/awesome-podcasts) 软件工程师的重要播客列表
* [terkelg/awesome-creative-coding](https://github.com/terkelg/awesome-creative-coding) 创意编码:生成艺术,数据可视化,交互设计,资源。
* [immich-app/immich](https://github.com/immich-app/immich) 直接从您的手机进行自托管照片和视频备份解决方案。
* [SwifterSwift/SwifterSwift](https://github.com/SwifterSwift/SwifterSwift) 包含 500 多个原生 Swift 扩展的便捷集合,可提高您的工作效率。
* [agarrharr/awesome-cli-apps](https://github.com/agarrharr/awesome-cli-apps) 命令行应用的精选列表
* [asdf-vm/asdf](https://github.com/asdf-vm/asdf) 可扩展的版本管理器,支持Ruby,Node.js,Elixir,Erlang等
* [lunatic-solutions/lunatic](https://github.com/lunatic-solutions/lunatic) 用于快速、健壮和可扩展的服务器端应用程序的通用运行时。它的灵感来自 Erlang,可以从任何编译到 WebAssembly 的语言中使用。
* [rusterlium/rustler](https://github.com/rusterlium/rustler) 用于创建 Erlang NIF 函数的安全rust桥
* [ergo-services/ergo](https://github.com/ergo-services/ergo) 一个基于参与者的框架,具有网络透明度,用于使用 Golang 中的 Erlang/OTP 技术和设计模式创建事件驱动的架构。零依赖关系。
* [vlang/v](https://github.com/vlang/v) 简单、快速、安全、编译的语言,用于开发可维护的软件。在 <1 秒内编译自身,零库依赖性。支持自动 C => V 转换。
* [FFmpeg/FFmpeg](https://github.com/FFmpeg/FFmpeg) 用于处理多媒体内容(如音频、视频、字幕和相关元数据)的库和工具的集合。
* [mpv-player/mpv](https://github.com/mpv-player/mpv) 命令行的免费(如自由)媒体播放器。它支持多种媒体文件格式、音频和视频编解码器以及字幕类型。
* [google/flatbuffers](https://github.com/google/flatbuffers) 跨平台序列化库,旨在实现最大的内存效率。它允许您直接访问序列化数据,而无需先解析/解压缩它,同时仍然具有很好的向前/向后兼容性。
* [ggreer/the_silver_searcher](https://github.com/ggreer/the_silver_searcher) 类似于 ack 的代码搜索工具,但速度更快。
* [hluk/CopyQ](https://github.com/hluk/CopyQ) 一款高级剪贴板管理器,具有强大的编辑和脚本功能。特征:支持 Linux、Windows 和 OS X 10.15+;存储文本、HTML、图像和任何其他自定义格式;快速浏览和筛选剪贴板历史记录中的项目;在选项卡中对项目进行排序、创建、编辑、删除、复制/粘贴、拖放项目;为项目添加注释和标签;具有可自定义命令的系统范围的键盘快捷键;使用键盘快捷键、从托盘或从主窗口粘贴项目;完全可定制的外观;高级命令行界面和脚本;忽略从指定窗口复制或包含指定文本的剪贴板;支持带有键盘快捷键的简单类似 Vim 的编辑器
* [koekeishiya/yabai](https://github.com/koekeishiya/yabai) 基于二进制空间分区的macOS平铺窗口管理器
* [the1812/Bilibili-Evolved](https://github.com/the1812/Bilibili-Evolved) 强大的哔哩哔哩增强脚本
* [lyswhut/lx-music-desktop](https://github.com/lyswhut/lx-music-desktop) 一个基于 electron 的音乐软件
* [iina/iina](https://github.com/iina/iina) 适用于 macOS 的现代视频播放器。
* [sparanoid/chinese-copywriting-guidelines](https://github.com/sparanoid/chinese-copywriting-guidelines) 統一中文文案、排版的相關用法,降低團隊成員之間的溝通成本,增強網站氣質。
* [awesomedata/awesome-public-datasets](https://github.com/awesomedata/awesome-public-datasets) 以主题为中心的总部开放数据集列表。
* [geekan/HowToLiveLonger](https://github.com/geekan/HowToLiveLonger) 程序员延寿指南
* [koreader/koreader](https://github.com/koreader/koreader) 支持PDF,DjVu,EPUB,FB2和更多格式的电子书阅读器应用程序,可在Cervantes,Kindle,Kobo,PocketBook和Android设备上运行
* [typst/typst](https://github.com/typst/typst) 一个新的基于标记的排版系统,功能强大且易于学习。
* [phodal/github](https://github.com/phodal/github) GitHub 漫游指南——一本关于如何在 Github 上构建一个好项目的中文电子书。探索用户的行为。找到一些感兴趣的东西。
* [lowlighter/metrics](https://github.com/lowlighter/metrics) 信息图表生成器,具有30+插件和300+选项,可显示您的GitHub帐户的统计信息并将其呈现为SVG,Markdown,PDF或JSON
* [anuraghazra/github-readme-stats](https://github.com/anuraghazra/github-readme-stats) 动态生成的 github 自述文件的统计信息
* [liu673cn/box](https://github.com/liu673cn/box) TVbox开源版(空壳-自行配置)。通过导入特点资源接口,解析各类爬虫源、XP源、采集源等。完全无任何限制,也无任何广告。
* [521xueweihan/GitHub520](https://github.com/521xueweihan/GitHub520) 让你“爱”上 GitHub,解决访问时图裂、加载慢的问题。(无需安装)
* [zijie0/HumanSystemOptimization](https://github.com/zijie0/HumanSystemOptimization) 健康学习到150岁 - 人体系统调优不完全指南
* [wmjordan/PDFPatcher](https://github.com/wmjordan/PDFPatcher) PDF工具箱,可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档,探查文档结构,提取图片、转成图片等等
* [QuestPDF/QuestPDF](https://github.com/QuestPDF/QuestPDF) 用于PDF文档生成的现代开源.NET库。提供全面的布局引擎,由简洁且可发现的 C# Fluent API 提供支持。轻松生成 PDF 报告、发票、导出等。
* [PHPOffice/PHPWord](https://github.com/PHPOffice/PHPWord) 用于读写文字处理文档的纯 PHP 库
* [wuxingsanren/wildcat-vip-account](https://github.com/wuxingsanren/wildcat-vip-account) 每天分享最新的百度网盘SVIP、迅雷超级会员、手机话费折扣充值、霸王餐免费吃VIP(美团、饿了么、大众点评、肯德基、麦当劳、星巴克)、饿了么超级会员、美团外卖会员&红包券、爱奇艺VIP会员、腾讯视频VIP、优酷VIP会员、哔哩哔哩大会员、百度文库VIP、QQ音乐VIP、网易云黑胶VIP、喜马拉雅VIP、樊登读书会VIP、千图网VIP、包图网VIP、摄图网VIP、CSDN下载VIP、天眼查VIP、苹果ID等等各类VIP帐号,随取随用,完全免费,绝无套路,同时提供:百度文库VIP下载、图库素材VIP下载、学术文献VIP下载(知网维普万方读秀龙源超星、英文数据库、法律数据库、医学数据库、金融数据库)、全网视频VIP解析、全网音乐MP3免费听及下载、微信域名拦截检测API
* [houshanren/hangzhou_house_knowledge](https://github.com/houshanren/hangzhou_house_knowledge) 2017年买房经历总结出来的买房购房知识分享给大家,希望对大家有所帮助。买房不易,且买且珍惜。
* [The-Run-Philosophy-Organization/run](https://github.com/The-Run-Philosophy-Organization/run) 润学全球官方指定GITHUB,整理润学宗旨、纲领、理论和各类润之实例;解决为什么润,润去哪里,怎么润三大问题; 并成为新中国人的核心宗教,核心信念。
* [google/zx](https://github.com/google/zx) Bash 很棒,但是当涉及到编写更复杂的脚本时,许多人更喜欢更方便的编程语言。JavaScript 是一个完美的选择,但 Node.js 标准库在使用之前需要额外的麻烦。该 zx 包提供了有用的包装器 child_process ,转义参数并给出合理的默认值。
* [LibreOffice/core](https://github.com/LibreOffice/core) 只读 LibreOffice 核心存储库
* [romkatv/powerlevel10k](https://github.com/romkatv/powerlevel10k) Zsh的主题。强调速度、灵活性和开箱即用的体验。
* [dwmkerr/hacker-laws](https://github.com/dwmkerr/hacker-laws) 开发人员会发现有用的定律,理论,原则和模式。
* [drduh/macOS-Security-and-Privacy-Guide](https://github.com/drduh/macOS-Security-and-Privacy-Guide) macOS 上保护和改善隐私的指南
* [mxgmn/WaveFunctionCollapse](https://github.com/mxgmn/WaveFunctionCollapse) 在量子力学思想的帮助下,从单个示例生成位图和瓦片图
* [bazelbuild/bazel](https://github.com/bazelbuild/bazel) 快速、可扩展、多语言和可扩展的构建系统。构建和测试Java,C++,Android,iOS,Go和各种其他语言平台。
* [Fechin/reference](https://github.com/Fechin/reference) 为开发人员共享快速参考备忘单。
* [MichaelMure/git-bug](https://github.com/MichaelMure/git-bug) 嵌入在 git 中的分布式、离线优先错误跟踪器,带有桥接器
* [SnapKit/SnapKit](https://github.com/SnapKit/SnapKit) 一款DSL,可在iOS和OS X上轻松实现自动布局。
* [Ftindy/IPTV-URL](https://github.com/Ftindy/IPTV-URL) 本项目直播源均搜集自互联网,完全免费公开分享
* [imDazui/Tvlist-awesome-m3u-m3u8](https://github.com/imDazui/Tvlist-awesome-m3u-m3u8) 直播源相关资源汇总 IPTV、M3U
* [asdf-vm/asdf](https://github.com/asdf-vm/asdf) 可扩展的版本管理器,支持Ruby,Node.js,Elixir,Erlang等
* [SwiftGGTeam/the-swift-programming-language-in-chinese](https://github.com/SwiftGGTeam/the-swift-programming-language-in-chinese) 中文版 Apple 官方 Swift 教程《The Swift Programming Language》
* [AlDanial/cloc](https://github.com/AlDanial/cloc) 对许多编程语言中源代码的空白行、注释行和物理行进行计数
* [brndnmtthws/conky](https://github.com/brndnmtthws/conky) 适用于X,Wayland和其他东西的轻量级系统监视器
* [formulahendry/955.WLB](https://github.com/formulahendry/955.WLB) 955 不加班的公司名单 - 工作 955,work–life balance (工作与生活的平衡)
* [pjialin/py12306](https://github.com/pjialin/py12306) 12306购票助手,支持集群,多账号,多任务以及 Web 页面管理
* [Morganamilo/paru](https://github.com/Morganamilo/paru) 功能丰富的 AUR 助手,Arch 用户仓库(Arch User Repository)。它是针对基于 Arch 的 Linux 发行版用户的社区驱动的仓库
* [Homebrew/homebrew-core](https://github.com/Homebrew/homebrew-core) MacOS(或 Linux)的软件包管理器。 通过它,我们可以方便的对Mac上的各种软件进行管理,如:安装、更新、查看、搜索、卸载等。
* [Homebrew/brew](https://github.com/Homebrew/brew) macOS(或 Linux)缺少的包管理器
* [microsoft/winget-cli](https://github.com/microsoft/winget-cli) WinGet 是 Windows Package Manager。该项目包括一个CLI(命令行界面),PowerShell模块和一个COM(组件对象模型)API。
* [CocoaPods/CocoaPods](https://github.com/CocoaPods/CocoaPods) CocoaPods 管理 Xcode 项目的依赖项。
* [renovatebot/renovate](https://github.com/renovatebot/renovate) 自动依赖项更新。多平台和多语言。适合您工作流程的通用依赖项更新工具。
* [webpro/awesome-dotfiles](https://github.com/webpro/awesome-dotfiles) dotfiles 资源的精选列表。有些文章或工具可能看起来很旧或过时,但这通常意味着它们经过了实战考验并且已经成熟。随时提出新的文章、项目或工具!
* [shimohq/chinese-programmer-wrong-pronunciation](https://github.com/shimohq/chinese-programmer-wrong-pronunciation) 中国程序员易发音错误单词
* [vsouza/awesome-ios](https://github.com/vsouza/awesome-ios) 令人敬畏的iOS生态系统的精选列表,包括Objective-C和Swift项目。
* [iCHAIT/awesome-macOS](https://github.com/iCHAIT/awesome-macOS) 适用于 macOS 的精彩应用程序、软件、工具和闪亮事物的精选列表。
* [nikitavoloboev/my-mac](https://github.com/nikitavoloboev/my-mac) 我在 macOS 上使用的应用/工具
* [serhii-londar/open-source-mac-os-apps](https://github.com/serhii-londar/open-source-mac-os-apps) 适用于 macOS 的开源应用程序列表很棒。此列表包含许多本机和跨平台应用程序。
* [mikefarah/yq](https://github.com/mikefarah/yq) 可移植的命令行 YAML、JSON、XML、CSV、TOML 和属性处理器
* [symless/synergy-core](https://github.com/symless/synergy-core) Synergy的开源核心,跨平台键盘和鼠标共享工具(Windows,macOS,Linux)
* [posquit0/Awesome-CV](https://github.com/posquit0/Awesome-CV) LaTeX 模板,适用于您出色的工作申请
* [billryan/resume](https://github.com/billryan/resume) 优雅的 \LaTeX\ 简历模板,用 \XeLaTeX 编译。
* [abhisheknaiidu/awesome-github-profile-readme](https://github.com/abhisheknaiidu/awesome-github-profile-readme) 很棒的GitHub个人自述文件
* [matiassingers/awesome-readme](https://github.com/matiassingers/awesome-readme) 精选的精彩自述文件列表,精美的自述文件中的元素包括但不限于:图像、屏幕截图、GIF、文本格式等。
* [thangchung/awesome-dotnet-core](https://github.com/thangchung/awesome-dotnet-core) 很棒的 .NET Core、工具、框架软件的集合
* [quozd/awesome-dotnet](https://github.com/quozd/awesome-dotnet) 很棒的 .NET 库、工具、框架和软件的集合。
* [desktop/desktop](https://github.com/desktop/desktop) 开源的基于Electron的GitHub应用程序。它是用TypeScript编写的,并使用React。
* [gztchan/awesome-design](https://github.com/gztchan/awesome-design) 专注于收集高质量的资源和工具,可供UI / UX设计师在日常工作中使用。
* [markets/awesome-ruby](https://github.com/markets/awesome-ruby) 由社区驱动的分类集合,包含令人敬畏的 Ruby 库、工具、框架和软件。构建现代应用程序和 Web 应用程序的基本 Ruby。
* [jesseduffield/lazygit](https://github.com/jesseduffield/lazygit) 用于 git 命令的简单终端 UI
* [acmesh-official/acme.sh](https://github.com/acmesh-official/acme.sh) 实现 ACME 客户端协议(使用 ACME 协议来验证您对给定域名的控制权并向您颁发证书。)的纯 Unix shell 脚本
* [zh-google-styleguide/zh-google-styleguide](https://github.com/zh-google-styleguide/zh-google-styleguide) Google 开源项目风格指南 (中文版)
* [ByteByteGoHq/system-design-101](https://github.com/ByteByteGoHq/system-design-101) 使用视觉效果和简单术语解释复杂的系统(通信协议、CI/CD、数据库、缓存、微服务架构、支付系统、DevOps、云服务等)。帮助您准备系统设计面试。
* [protocolbuffers/protobuf](https://github.com/protocolbuffers/protobuf) Protocol Buffers(又名 protobuf)是 Google 用于序列化结构化数据的中立语言、平台中立、可扩展的机制。您可以在 protobuf 的文档中了解更多信息。
* [WeNeedHome/SummaryOfLoanSuspension](https://github.com/WeNeedHome/SummaryOfLoanSuspension) 全国各省市停贷通知汇总
* [gotgit/gotgithub](https://github.com/gotgit/gotgithub) 一本关于 GitHub 的开源电子书(中文版)
* [hmemcpy/milewski-ctfp-pdf](https://github.com/hmemcpy/milewski-ctfp-pdf) Bartosz Milewski的“程序员范畴理论”非官方PDF和LaTeX来源。主要讲解了各种各样的范畴概念在编程中的体现和应用,对理解范畴论在计算机领域的应用有非常好的学习价值。
* [ty4z2008/Qix](https://github.com/ty4z2008/Qix) 机器学习、深度学习、PostgreSQL、分布式系统、Node.js、Golang
* [lukasz-madon/awesome-remote-job](https://github.com/lukasz-madon/awesome-remote-job) 精彩的远程作业和资源的精选列表。
* [reactos/reactos](https://github.com/reactos/reactos) 一个免费的Windows兼容操作系统,旨在开发一个高质量的操作系统,该操作系统与为Microsoft® Windows™ NT系列操作系统(NT4,2000,XP,2003,Vista,7)编写的应用程序和驱动程序兼容。
* [0xAX/linux-insides](https://github.com/0xAX/linux-insides) 关于 linux 内核的一点点,目标很简单 - 分享我对 linux 内核内部的适度知识,并帮助对 linux 内核内部和其他低级主题感兴趣的人。
* [icopy-site/awesome-cn](https://github.com/icopy-site/awesome-cn) 从github 各类 awesome list 通过爬虫聚合而来
* [Xfennec/progress](https://github.com/Xfennec/progress) Linux 工具显示 cp、mv、dd 等的进度。(以前称为 CV)
* [grafana/pyroscope](https://github.com/grafana/pyroscope) 连续分析平台。调试性能问题,细化到一行代码。开源的连续分析平台。它将帮助您:查找代码中的性能问题和瓶颈、使用高基数标记/标签来分析应用程序、解决 CPU 使用率过高的问题、追踪内存泄漏、了解应用程序的调用树、自动检测代码以将分析数据链接到跟踪。
* [lichess-org/lila](https://github.com/lichess-org/lila) 永远免费、无广告和开源的国际象棋服务器
* [microsoft/wslg](https://github.com/microsoft/wslg) 使适用于 Linux 的 Windows 子系统能够包括对 Wayland 和 X 服务器相关方案的支持
* [vygr/ChrysaLisp](https://github.com/vygr/ChrysaLisp) 64 位、MIMD、多 CPU、多线程、多核、多用户并行操作系统,具有 GUI、终端、OO 汇编器、类库、C 脚本编译器、Lisp 解释器、调试器、分析器、矢量字体引擎等功能。它支持 x64、Riscv64 和 Arm64 的 MacOS、Windows 和 Linux,并最终将转向裸机。它还允许对各种网络拓扑进行建模,并使用ChrysaLib hub_nodes加入异构主机网络。它有一个虚拟的CPU指令集和一个强大的对象和类系统,用于汇编程序和高级语言。它具有功能级动态绑定和加载功能,以及一个命令终端,该终端具有熟悉的管道式命令行应用程序界面。还提供了一个类似 Common Lisp 的解释器。
* [babashka/babashka](https://github.com/babashka/babashka) 用于脚本编写的原生、快速启动的 Clojure 解释器
* [tonsky/FiraCode](https://github.com/tonsky/FiraCode) 带有编程连字的免费等宽字体。程序员使用大量符号,通常使用多个字符进行编码。对于人脑来说,像 或 <= := 这样的 -> 序列是单个逻辑标记,即使它们在屏幕上包含两个或三个字符。您的眼睛花费非零的能量来扫描、解析多个字符并将其连接成一个逻辑字符。Fira Code 是一种免费的等宽字体,包含用于常见编程多字符组合的连字。这只是一个字体呈现功能:底层代码保持 ASCII 兼容。这有助于更快地阅读和理解代码。一些频繁的序列,如 .. 或 // ,连字允许我们校正间距。
* [github/gitignore](https://github.com/github/gitignore) 有用的 .gitignore 模板的集合
* [996icu/996.ICU](https://github.com/996icu/996.ICU) 996.ICU 指的是“996工作,在ICU生病”,这是中国开发人员中具有讽刺意味的说法,这意味着遵循“996”工作时间表,你就有可能进入ICU(重症监护室)。由 IT 从业者发起的一项计划。我们欢迎来自其他领域和其他国家的人加入讨论。我们坚决维护劳动法,要求用人单位尊重劳动者的合法权益。
* [bayandin/awesome-awesomeness](https://github.com/bayandin/awesome-awesomeness) 一个精心策划的令人敬畏的令人敬畏的清单。
* [languagetool-org/languagetool](https://github.com/languagetool-org/languagetool) 开源校对软件,适用于英语、西班牙语、法语、德语、葡萄牙语、波兰语、荷兰语和其他 20 多种语言。它发现了许多简单的拼写检查器无法检测到的错误。
* [ldqk/Masuit.Tools](https://github.com/ldqk/Masuit.Tools) C#万能工具库,码数吐司库,包含一些常用的操作类,大都是静态类,加密解密,反射操作,权重随机筛选算法,分布式短id,表达式树,linq扩展,文件压缩,多线程下载,硬件信息,字符串扩展方法,日期时间扩展操作,中国农历,大文件拷贝,图像裁剪,验证码,断点续传,集合扩展、Excel导出。
* [ovity/octotree](https://github.com/ovity/octotree) 浏览器扩展,可增强 GitHub 代码审查和探索。
* [kelseyhightower/nocode](https://github.com/kelseyhightower/nocode) 编写安全可靠的应用的最佳方式。什么都不写;不部署。
* [SFTtech/openage](https://github.com/SFTtech/openage) 一个志愿者项目,旨在创建《帝国时代》、《帝国时代 II》(高清版)和《星球大战:银河战场》中使用的精灵引擎的免费引擎克隆,可与 OpenMW、OpenRA、OpenSAGE、OpenTTD 和 OpenRCT2 等项目相媲美。
* [assimp/assimp](https://github.com/assimp/assimp) 用于将各种 3D 文件格式加载为共享的内存格式。它支持 40 多种文件格式进行导入,并支持越来越多的文件格式进行导出。
* [firstcontributions/first-contributions](https://github.com/firstcontributions/first-contributions) 旨在简化和指导初学者做出首次贡献的方式。
* [ShareX/ShareX](https://github.com/ShareX/ShareX) 免费的开源程序,可让您捕获或记录屏幕的任何区域,只需按一下键即可共享。它还允许将图像、文本或其他类型的文件上传到您可以选择的许多受支持的目的地。
* [dkhamsing/open-source-ios-apps](https://github.com/dkhamsing/open-source-ios-apps) 开源 iOS 、 iPadOS watchOS 和 tvOS 应用程序的协作列表
* [openfarmcc/OpenFarm](https://github.com/openfarmcc/OpenFarm) 免费和开放的农业和园艺知识数据库。你可以种植任何东西
* [github/opensource.guide](https://github.com/github/opensource.guide) 为想要学习如何运行开源项目和为开源项目做出贡献的个人、社区和公司提供的资源集合。由 GitHub 创建和策划,以及来自外部社区审阅者的意见,但它们并非 GitHub 产品所独有。
* [MaaAssistantArknights/MaaAssistantArknights](https://github.com/MaaAssistantArknights/MaaAssistantArknights) 《明日方舟》小助手,全日常一键长草!|Arknights日常任务的一键式工具,支持所有客户。
* [tldr-pages/tldr](https://github.com/tldr-pages/tldr) 社区维护的命令行工具帮助页面的集合,旨在成为传统手册页的更简单、更易上手的补充。
* [DovAmir/awesome-design-patterns](https://github.com/DovAmir/awesome-design-patterns) 与软件和体系结构相关的设计模式的精选列表。软件设计模式 - 在软件设计中给定上下文中,针对常见问题的通用、可重用的解决方案。它是有关如何解决可在许多不同情况下使用的问题的描述或模板。
* [byoungd/English-level-up-tips](https://github.com/byoungd/English-level-up-tips) 学习英语的高级指南,可能会使您受益匪浅。离谱的英语学习指南。
* [SerenityOS/serenity](https://github.com/SerenityOS/serenity) 用于 x86-64 计算机的图形类 Unix 操作系统。一封写给 90 年代用户界面的情书,具有自定义的类 Unix 核心。它通过从其他各种系统中窃取美丽的想法来真诚地奉承。目标是将 1990 年代后期生产力软件的美学与 2000 年代后期 *nix 的高级用户可访问性结合起来。
* [jaywcjlove/linux-command](https://github.com/jaywcjlove/linux-command) Linux命令大全搜索工具,内容包含Linux命令手册、详解、学习、搜集。
* [ryanhanwu/How-To-Ask-Questions-The-Smart-Way](https://github.com/ryanhanwu/How-To-Ask-Questions-The-Smart-Way) 本文原文由知名 Hacker Eric S. Raymond 所撰寫,教你如何正確的提出技術問題並獲得你滿意的答案。
* [remoteintech/remote-jobs](https://github.com/remoteintech/remote-jobs) 科技行业远程工作友好型公司(工作)列表。
* [timqian/chinese-independent-blogs](https://github.com/timqian/chinese-independent-blogs) 中文独立博客列表
* [hehonghui/awesome-english-ebooks](https://github.com/hehonghui/awesome-english-ebooks) 经济学人(含音频)、纽约客、卫报、连线、大西洋月刊等英语杂志免费下载,支持epub、mobi、pdf格式, 每周更新
* [gleitz/howdoi](https://github.com/gleitz/howdoi) 通过命令行立即得到编码答案
* [brendangregg/FlameGraph](https://github.com/brendangregg/FlameGraph) 堆栈跟踪可视化工具,单击一个框以仅将火焰图缩放到此堆栈帧。要搜索并突出显示与正则表达式匹配的所有堆栈帧,请单击右上角的搜索按钮或按 Ctrl-F。默认情况下,搜索区分大小写,但可以通过按 Ctrl-I 或单击右上角的 ic 按钮来切换。
* [Homebrew/homebrew-cask](https://github.com/Homebrew/homebrew-cask) 用于管理以二进制文件形式分发的 macOS 应用程序的 CLI 工作流
* [jellyfin/jellyfin](https://github.com/jellyfin/jellyfin) 自由软件媒体系统。Jellyfin 使您能够收集、管理和流式传输您的媒体。在您的系统上运行 Jellyfin 服务器,并访问领先的免费软件娱乐系统,包括花里胡哨的功能。
* [chubin/wttr.in](https://github.com/chubin/wttr.in) 查看天气的正确方法
* [muesli/duf](https://github.com/muesli/duf) 磁盘使用/免费实用程序 - 更好的“df”替代品
* [dotnet/roslyn](https://github.com/dotnet/roslyn) .NET 编译器为 C# 和 Visual Basic 语言提供丰富的代码分析 API。
* [koel/koel](https://github.com/koel/koel) 有效的个人音乐流媒体服务器。在客户端用 Vue 编写,在服务器端用 Laravel 编写。针对 Web 开发人员,采用一些更现代的 Web 技术来完成其工作。
* [SimplifyJobs/Summer2024-Internships](https://github.com/SimplifyJobs/Summer2024-Internships) Pitt CSC和Simplify的 2024 年夏季技术实习
* [kanaka/mal](https://github.com/kanaka/mal) 受 Clojure 启发的 Lisp 解释器
* [rubocop/ruby-style-guide](https://github.com/rubocop/ruby-style-guide) 社区驱动的 Ruby 编码风格指南
* [rbenv/rbenv](https://github.com/rbenv/rbenv) 类 Unix 系统上 Ruby 编程语言的版本管理器工具。它对于在同一台机器上的多个 Ruby 版本之间切换以及确保您正在处理的每个项目始终在正确的 Ruby 版本上运行非常有用。
* [frank-lam/fullstack-tutorial](https://github.com/frank-lam/fullstack-tutorial) fullstack tutorial 2022,后台技术栈/架构师之路/全栈开发社区,春招/秋招/校招/面试
* [kovidgoyal/calibre](https://github.com/kovidgoyal/calibre) 电子书管理器。它可以查看、转换、编辑和编目所有主要电子书格式的电子书。它还可以与电子书阅读器设备通信。它可以上网并获取您书籍的元数据。它可以下载报纸并将其转换为电子书,以方便阅读。它是跨平台的
* [cloudcommunity/Free-Certifications](https://github.com/cloudcommunity/Free-Certifications) 精选的免费课程和认证列表。
* [nusr/hacker-laws-zh](https://github.com/nusr/hacker-laws-zh) 对开发人员有用的定律、理论、原则和模式。
* [flameshot-org/flameshot](https://github.com/flameshot-org/flameshot) 功能强大且易于使用的屏幕截图软件。
* [dandavison/delta](https://github.com/dandavison/delta) 用于 git、diff 和 grep 输出的语法突出显示
* [qarmin/czkawka](https://github.com/qarmin/czkawka) 多功能应用程序,用于查找重复项、空文件夹、类似图像等。
* [lib-pku/libpku](https://github.com/lib-pku/libpku) 贵校大学课程各种资料民间整理
* [tuteng/Best-websites-a-programmer-should-visit-zh](https://github.com/tuteng/Best-websites-a-programmer-should-visit-zh) 程序员应该访问的最佳网站
* [denisidoro/navi](https://github.com/denisidoro/navi) 用于命令行的交互式备查表工具
* [RealKai42/qwerty-learner](https://github.com/RealKai42/qwerty-learner) 为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件
* [zbezj/HEU_KMS_Activator](https://github.com/zbezj/HEU_KMS_Activator) 基于MDL论坛的KMS 服务端模拟环境“KMS Server Emulator”而制作的一款简洁高效的 KMS 激活工具。
* [TGSAN/CMWTAT_Digital_Edition](https://github.com/TGSAN/CMWTAT_Digital_Edition) CloudMoe Windows 10/11 激活工具包获得数字许可证,这是 GitHub 中最好的开源 Win 10/11 激活器。GitHub 上最棒的开源 Win10/Win11 数字权利(数字许可证)激活工具!
* [Hammerspoon/hammerspoon](https://github.com/Hammerspoon/hammerspoon) 使用 Lua 实现功能惊人的强大 macOS 桌面自动化
* [scala/scala](https://github.com/scala/scala) Scala 2 编译器和标准库。
* [lampepfl/dotty](https://github.com/lampepfl/dotty) Scala 3 编译器,也称为 Dotty。
* [dortania/OpenCore-Legacy-Patcher](https://github.com/dortania/OpenCore-Legacy-Patcher) 围绕 Acidanthera 的 OpenCorePkg 和 Lilu 展开,用于在受支持和不支持的 Mac 上运行和解锁 macOS 中的功能。
* [rxhanson/Rectangle](https://github.com/rxhanson/Rectangle) macOS 上使用键盘快捷键和贴靠区域移动窗口和调整窗口大小
* [NVIDIA/open-gpu-kernel-modules](https://github.com/NVIDIA/open-gpu-kernel-modules) NVIDIA Linux 开放 GPU 内核模块源
* [1c7/chinese-independent-developer](https://github.com/1c7/chinese-independent-developer) 中国独立开发者项目表,分享大家都在做什么
* [k88hudson/git-flight-rules](https://github.com/k88hudson/git-flight-rules) git 的飞行规则,Git 程序员指南
* [gulpjs/gulp](https://github.com/gulpjs/gulp) 一个工具包,可帮助您在开发工作流程中自动执行痛苦或耗时的任务。与平台无关 - 集成内置于所有主要 IDE 中,人们正在将 gulp 与 PHP、.NET、Node.js、Java 和其他平台一起使用。强大的生态系统 - 使用 npm 模块做任何你想做的事情 + 超过 3000 个精选插件用于流式文件转换.
* [BoostIO/BoostNote-App](https://github.com/BoostIO/BoostNote-App) 一种文档驱动的项目管理工具,可最大限度地提高远程 DevOps 团队的速度。
* [Sitoi/dailycheckin](https://github.com/Sitoi/dailycheckin) 基于Docker/青龙面板/群晖的每日签到脚本(支持多账号使用)签到列表: |爱奇艺|全民K歌|有道云笔记|百度贴吧|Bilibili|V2EX|AcFun|什么值得买|阿里云盘|i茅台申购|小米运动|百度搜索资源平台|恩山论坛|奥拉星
* [xiaolai/everyone-can-use-english](https://github.com/xiaolai/everyone-can-use-english) 不要再 “学” 英语,你就该 “用” 英语
* [files-community/Files](https://github.com/files-community/Files) 构建适用于 Windows 的最佳文件管理器
* [hellzerg/optimizer](https://github.com/hellzerg/optimizer) 高级配置实用程序,旨在增强您在 Windows 上的隐私和安全性。强烈建议在全新安装 Windows 后使用此工具,以实现最大的隐私和安全优势。根据您的 Windows 版本,Optimizer 还可以帮助您应用特定的系统调整。
* [microsoft/calculator](https://github.com/microsoft/calculator) Windows 计算器:Windows 附带的简单而强大的计算器
* [joelparkerhenderson/architecture-decision-record](https://github.com/joelparkerhenderson/architecture-decision-record) 用于软件规划、IT 领导和模板文档的架构决策记录 (ADR) 示例
* [github-linguist/linguist](https://github.com/github-linguist/linguist) 用于检测 blob 语言、忽略二进制文件或供应商文件、禁止显示差异中生成的文件以及生成语言细分图。
* [auris/awesome-scala](https://github.com/lauris/awesome-scala) 社区驱动的有用 Scala 库、框架和软件列表。
* [Awesome-HarmonyOS/HarmonyOS](https://github.com/Awesome-HarmonyOS/HarmonyOS) 华为鸿蒙操作系统。
* [MaterialDesignInXAML/MaterialDesignInXamlToolkit](https://github.com/MaterialDesignInXAML/MaterialDesignInXamlToolkit) Google 的 Material Design in XAML & WPF, for C# & VB.Net.
* [ardalis/CleanArchitecture](https://github.com/ardalis/CleanArchitecture) Clean Architecture 解决方案模板:具有 ASP.NET Core 的 Clean Architecture 的起点
* [kgrzybek/modular-monolith-with-ddd](https://github.com/kgrzybek/modular-monolith-with-ddd) 采用领域驱动设计方法的全模块化整体式应用程序。
* [Igglybuff/awesome-piracy](https://github.com/Igglybuff/awesome-piracy) 精选的令人敬畏的warez和盗版链接列表
* [Tencent/xLua](https://github.com/Tencent/xLua) C#(Unity、.Net、Mono)的 lua 编程解决方案,它支持 android、ios、windows、linux、osx 等。
* [jordansissel/fpm](https://github.com/jordansissel/fpm) Effing 包管理!为多个平台(deb、rpm 等)构建软件包非常轻松和合理。
* [alexandresanlim/Badges4-README.md-Profile](https://github.com/alexandresanlim/Badges4-README.md-Profile) 使用这些惊人的徽章改善您的 README.md 个人资料。
* [StylishThemes/GitHub-Dark](https://github.com/StylishThemes/GitHub-Dark) 深色 GitHub 风格
* [trimstray/test-your-sysadmin-skills](https://github.com/trimstray/test-your-sysadmin-skills) Linux 系统管理员测试问题和答案的集合。通过这些 Q/A 测试您在不同领域的知识和技能。
* [matheusfelipeog/beautiful-docs](https://github.com/matheusfelipeog/beautiful-docs) 我喜欢文档。如果您使用/正在编写供多个人使用和使用的代码,那么您也应该喜欢它。文档和其他资源将决定项目的成功与否。你希望开发越开放和协作,文档就越重要。
* [docmirror/dev-sidecar](https://github.com/docmirror/dev-sidecar) 开发者边车,github打不开,github加速,git clone加速,git release下载加速,stackoverflow加速
* [conwnet/github1s](https://github.com/conwnet/github1s) 一秒钟使用 VS Code 读取 GitHub 代码。
* [libgit2/libgit2](https://github.com/libgit2/libgit2) 可在应用程序中使用的 Git 的跨平台、可链接库实现。Git 核心方法的可移植、纯 C 实现,作为具有可靠 API 的可链接库提供,允许将 Git 功能构建到您的应用程序中。Rugged (Ruby)、LibGit2Sharp (.NET)、pygit2 (Python) 和 NodeGit (Node) 等语言绑定允许您使用自己喜欢的语言构建 Git 工具。
* [DevToys-app/DevToys](https://github.com/DevToys-app/DevToys) 开发人员的瑞士军刀。DevToys 帮助完成日常开发任务,例如格式化 JSON、比较文本和测试正则表达式。
* [tipsy/profile-summary-for-github](https://github.com/tipsy/profile-summary-for-github) 用于可视化 GitHub 状态的工具。
* [mono/mono](https://github.com/mono/mono) 软件平台,旨在让开发人员轻松创建跨平台应用程序。它是 Microsoft 的 .NET Framework 的开源实现,基于 C# 和公共语言运行库的 ECMA 标准。
* [digitalarchive.wilsoncenter.org](https://digitalarchive.wilsoncenter.org/) 威尔逊中心数字档案馆是一个资源,学生、研究人员和专家可以在这里访问来自世界各地政府和组织的曾经的秘密文件。数字档案馆由威尔逊中心的历史和公共政策项目建造和维护,包含来自世界各地档案馆的解密历史资料,包括外交电报、高层通信、会议记录、情报估计等。由于其中大部分信息都有英文翻译,这些历史文献丰富了国际学术、历史教育和关于重要全球问题和挑战的公共政策辩论。历史与公共政策计划致力于从世界各地的存储库中公开 20 世纪和 21 世纪国际历史的主要来源记录,促进基于这些记录的学术研究,并使用这些材料为课堂、公共和政策辩论提供背景关于全球事务。
* [H-M-H/Weylus](https://github.com/H-M-H/Weylus) 将平板电脑用作计算机上的图形输入板/触摸屏。
* [rubocop/rubocop](https://github.com/rubocop/rubocop) 一个 Ruby 静态代码分析器和格式化程序,基于社区 Ruby 风格指南。
* [chocolatey/choco](https://github.com/chocolatey/choco) 像 yum 或 apt-get,但适用于 Windows 的包管理器
* [jbogard/MediatR](https://github.com/jbogard/MediatR) .NET 中的简单调解器实现,没有依赖关系的进程内消息传递。支持请求/响应、命令、查询、通知和事件,同步和异步,并通过 C# 泛型差异进行智能调度。
* [Ileriayo/markdown-badges](https://github.com/Ileriayo/markdown-badges) Markdown 徽章,将徽章添加到您的个人资料和项目。个人开发人员品牌、个人资料和项目的徽章。
* [rossant/awesome-math](https://github.com/rossant/awesome-math) 精选的精彩数学资源列表。内容:一般资源、学习平台、学会学习、Youtube系列、工具、问题和答案、百科全书、书、杂志、博客、杂项、数学分支、数学基础、过渡到纯粹的严谨数学、集合论、逻辑、范畴理论、类型理论、同伦类型理论、超现实数字、数论、代数数论、解析数论、代数、抽象代数、群论、线性代数、环理论、伽罗瓦理论、代数、组合数学、图论、几何和拓扑、微分几何、代数几何、代数统计、拓扑学、代数拓扑、分析、实分析、谐波分析、复杂分析、泛函分析、测量理论、常微分方程、偏微分方程、概率与统计、概率论、统计学、统计学习、随机过程、数值分析、信号处理、计算机科学数学、数学生物学、数学物理、学生讲义、相关精彩列表、许可证。
* [sshuair/awesome-gis](https://github.com/sshuair/awesome-gis) 地理空间相关资源的集合,包括制图工具、地理分析工具、开发人员工具、数据、会议和社区、新闻、大规模开放在线课程、一些令人惊叹的地图站点等。
* [sacridini/Awesome-Geospatial](https://github.com/sacridini/Awesome-Geospatial) 一长串地理空间分析工具。地理空间分析,或简称空间分析,是一种将统计分析和其他分析技术应用于具有地理或空间方面的数据的方法。
* [daliansky/Hackintosh](https://github.com/daliansky/Hackintosh) 黑苹果操作系统 Hackintosh 长期维护模型 EFI 和安装教程
* [nayuki/QR-Code-generator](https://github.com/nayuki/QR-Code-generator) Java,TypeScript / JavaScript,Python,Rust,C++,C中的高质量QR码生成器库。
* [LGUG2Z/komorebi](https://github.com/LGUG2Z/komorebi) komorebi 是一个平铺窗口管理器,可作为 Microsoft 桌面窗口管理器在 Windows 10 及更高版本中的扩展。komorebi 允许您使用 CLI 控制应用程序窗口、虚拟工作区和显示监视器,CLI 可以与 whkd 和 AutoHotKey 等第三方软件一起使用,以设置用户定义的键盘快捷键。默认情况下,Komorebi 的目标是对操作系统和桌面环境进行尽可能少的修改。用户可以自由地在他们自己的 komorebi 配置文件中进行此类修改,但在可预见的未来,这些修改将保持选择加入和默认关闭状态。
* [SubtitleEdit/subtitleedit](https://github.com/SubtitleEdit/subtitleedit) 字幕编辑器
* [aoaostar/legado](https://github.com/aoaostar/legado) 「阅读」APP 源,一些「阅读」小说书源、订阅源、主题、排版配置
* [piotrkulpinski/openalternative](https://github.com/piotrkulpinski/openalternative) 一个由社区驱动的专有软件和应用程序的开源替代品列表。我们的目标是成为您研究新的开源服务的第一站,以帮助您发展业务。我们将帮助您找到您已经使用的产品的替代品和评论。
* [alienator88/Pearcleaner](https://github.com/alienator88/Pearcleaner) 一个免费的、源代码可用和公平代码许可的 Mac 应用程序清理器
* [EvanLi/Github-Ranking](https://github.com/EvanLi/Github-Ranking) Github⭐排名 Github 星号和分叉排名列表。Github Top100 不同语言的明星列表。每天自动更新。|Github仓库排名,每日自动更新
# end