Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
StarryDivineSky
精选了6K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 6000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!
https://github.com/wuwenjie1992/StarryDivineSky
Last synced: 6 days ago
JSON representation
-
特征工程
-
异常检测
- yzhao062/pyod
- hoya012/awesome-anomaly-detection
- kLabUM/rrcf
- mangushev/mtad-gat
- d-ailin/GDN
- DHI/tsod
- manigalati/usad
- awslabs/realtime-fraud-detection-with-gnn-on-dgl - CIS 数据集中的欺诈交易。
- safe-graph/UGFraud
- squareRoot3/Rethinking-Anomaly-Detection
- yzhao062/anomaly-detection-resources
- leibinghe/GAAL-based-outlier-detection
-
参数优化
- hyperopt/hyperopt
- optuna/optuna
- WillKoehrsen/hyperparameter-optimization
- HDI-Project/BTB - tuning系统的一个简单、可扩展的后端系统。
- scikit-optimize/scikit-optimize
- automl/SMAC3
- CMA-ES/pycma - ES 协方差矩阵的自适应策略的Py实现和一些相关的数值优化工具。
- SheffieldML/GPyOpt
- pytorch/botorch
- JasperSnoek/spearmint
- facebookresearch/nevergrad
- Yelp/MOE
- dragonfly/dragonfly
- ray-project/ray
- keras-team/keras-tuner
- PKU-DAIR/open-box
- jina-ai/finetuner
- huawei-noah/HEBO
- thunlp/OpenDelta
- HunterMcGushion/hyperparameter_hunter
- fmfn/BayesianOptimization
- noah-research/BO/HEBO/CompBO
-
梯度提升和树模型
- dmlc/xgboost
- microsoft/LightGBM
- catboost/catboost
- Xtra-Computing/thundergbm
- GBDT-PL/GBDT-PL
- mesalock-linux/gbdt-rs - RS:一个快速且安全的 GBDT 库,支持 Intel SGX 和 ARM TrustZone 等 TEE
- tensorflow/decision-forests
- kingfengji/gcForest
- LAMDA-NJU/Deep-Forest
- hlamotte/decision-tree
- augboost-anon/augboost
- DataCanvasIO/HyperGBM
- Microstrong0305/WeChat-zhihu-csdnblog-code
- antmachineintelligence/mtgbmcode - GBM),这是一种基于 GBDT 的多任务学习方法。MT-GBM 可以根据多任务损失找到共享树结构和拆分分支。
- parrt/dtreeviz - learn、XGBoost、Spark MLlib、LightGBM 和 Tensorflow。作者:特伦斯·帕尔 (Terence Parr) 是谷歌的技术主管,直到 2022 年,他是旧金山大学的数据科学/计算机科学教授,并于 2012 年担任旧金山大学数据科学硕士课程的创始主任。Tudor Lapusan ;Prince Grover。主要代码和可视化清理由 Matthew Epland (@mepland) 完成。
- motefly/DeepGBM
-
神经网络结构搜索 Neural Architecture Search
-
神经网络结构搜索_Neural_Architecture_Search
-
分布式机器学习
- horovod/horovod
- dask/dask
- hpcaitech/ColossalAI
- microsoft/DeepSpeed
- microsoft/SynapseML
- Oneflow-Inc/libai
- sql-machine-learning/elasticdl
- kubeflow/kubeflow - 管道、训练和部署。
- alibaba/euler
- Angel-ML/angel
- alibaba/Alink
- kakaobrain/torchgpipe
- tensorflow/mesh
- uber/fiber
- petuum/adaptdl
- learning-at-home/hivemind
- huggingface/accelerate
- BaguaSys/bagua
- facebookresearch/fairscale
- PKU-DAIR/Hetu
- alibaba/FederatedScope
- FederatedAI/FATE
- Xtra-Computing/FedTree
- microsoft/PersonalizedFL
- microsoft/DeepSpeedExamples
- Qihoo360/XLearning
- kubeflow/katib
- NousResearch/DisTrO
-
其他_机器学习与深度学习
- ml-explore/mlx
- JuliaLang/julia
- vikasverma1077/manifold_mixup
- pytorch/serve
- PaddlePaddle/PaddleHub
- streamlit/streamlit
- huggingface/optimum
- mosaicml/composer
- China-UK-ZSL/Resources_for_KZSL - IMGC)、零**样本**关系提取 ( ZS-RE) 和零**样本**知识图 (KG) 完成 ( ZS-KGC )
- alibaba/Elastic-Federated-Learning-Solution
- wuba/dl_inference
- gradio-app/gradio
- PKU-DAIR/mindware
- DataCanvasIO/Hypernets
- KindXiaoming/pykan - Arnold 网络 (KAN) 是多层感知器 (MLP) 的有前途的替代品。KAN 与 MLP 一样具有强大的数学基础:MLP 基于通用近似定理,而 KAN 基于 Kolmogorov-Arnold 表示定理。KAN 和 MLP 是双重的:KAN 在边缘具有激活函数,而 MLP 在节点上具有激活函数。这个简单的变化使KAN在模型准确性和可解释性方面都比MLP更好。KAN 比 MLP 具有更快的扩展速度,KAN 比参数较少的 MLP 具有更好的准确性。KAN可以直观地可视化。KAN 提供 MLP 无法提供的可解释性和交互性。我们可以使用KAN来潜在地发现新的科学定律。
- PaddlePaddle/Paddle-Lite
- nvdla/hw
- lowRISC/opentitan
- alibaba/Curvature-Learning-Framework
- facebookresearch/bitsandbytes
- baifanxxx/awesome-active-learning
- 4paradigm/OpenMLDB
- scikit-learn-contrib/MAPIE - learn 兼容模块。
- 4paradigm/AutoX
- dair-ai/ml-visuals
- mindsdb/mindsdb
- kaidic/LDAM-DRW
- Jianf-Wang/RSG
- ZhiningLiu1998/mesa
- YyzHarry/imbalanced-regression
- dataease/dataease
- google/tensorstore
- ahkarami/Deep-Learning-in-Production
- bentoml/BentoML
- iterative/dvc
- bokeh/bokeh
- nterpretml/interpret
- Guang000/Awesome-Dataset-Distillation
- ydataai/ydata-profiling
- fbdesignpro/sweetviz
- AutoViML/AutoViz
- facebookincubator/AITemplate
- salesforce/OmniXAI
- MegEngine/MegCC
- microsoft/Semi-supervised-learning
- polyaxon/traceml
- dabl/dabl
- Speedml/speedml
- yassouali/awesome-semi-supervised-learning
- vespa-engine/vespa - 在服务时存储、搜索、组织和对大数据进行机器学习推理。
- ctgk/PRML
- Baiyuetribe/paper2gui
- zjhellofss/KuiperInfer
- huggingface/datasets
- NVIDIA/DeepLearningExamples - 易于训练和部署,在企业级基础架构上具有可重现的准确性和性能。最新 NVIDIA 示例。
- xorbitsai/xorbits - 从数据预处理到调优、训练和模型服务。Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或者横向扩展到数千台机器,以支持处理数 TB 的数据以及训练或为大型模型提供服务。
- plotly/dash
- trekhleb/homemade-machine-learning
- MorvanZhou/tutorials
- rougier/numpy-100
- fastai/numerical-linear-algebra
- numba/numba
- lanpa/tensorboardX
- swyxio/ai-notes
- tensorflow/tfjs
- tensorflow/rust
- aws/sagemaker-python-sdk
- ggerganov/ggml - BFGS优化器、针对苹果芯片进行了优化、在x86架构上利用AVX / AVX2内部函数、在 ppc64 架构上利用 VSX 内部函数、无第三方依赖关系、运行时内存分配为零
- probml/pyprobml
- rasbt/python-machine-learning-book
- huggingface/candle
- ashleve/lightning-hydra-template
- mljar/mljar-supervised
- kserve/kserve
- Kanaries/pygwalker
- mars-project/mars - learn和Python函数。
- CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers
- tracel-ai/burn
- rayon-rs/rayon
- flyteorg/flyte
- davisking/dlib
- HumanSignal/label-studio
- metabase/metabase
- chenzomi12/DeepLearningSystem
- datastacktv/data-engineer-roadmap
- lexfridman/mit-deep-learning
- google-deepmind/sonnet
- Hvass-Labs/TensorFlow-Tutorials
- aamini/introtodeeplearning
- dusty-nv/jetson-inference
- tencentmusic/cube-studio
- bleedline/aimoneyhunter
- cleanlab/cleanlab
- aws/amazon-sagemaker-examples
- Netflix/metaflow
- chenyuntc/pytorch-book
- NVIDIA-AI-IOT/torch2trt
- PaddlePaddle/models
- dair-ai/ML-Papers-Explained
- automl/auto-sklearn - learn 进行自动化机器学习
- probml/pml-book
- paperswithcode/ai-deadlines
- openvinotoolkit/openvino
- Unstructured-IO/unstructured
- NVIDIA/nvidia-container-toolkit
- microsoft/CNTK
- guipsamora/pandas_exercises
- kedro-org/kedro - Viz 自动解析纯 Python 函数和数据管道可视化之间的依赖关系。部署策略,包括单机或分布式计算机部署,以及对在 Argo、Prefect、Kubeflow、AWS Batch 和 Databricks 上部署的额外支持。
- great-expectations/great_expectations
- lancedb/lance
- allegroai/clearml - 自动神奇的 CI/CD,可简化您的 AI 工作负载。实验管理、数据管理、管道、编排、调度和服务在一个 MLOps/LLMOps 解决方案中
- personqianduixue/Math_Model
- BrainJS/brain.js
- OpenRefine/OpenRefine
- saulpw/visidata
- finos/perspective
- HigherOrderCO/HVM
- tensorflow/serving
- feast-dev/feast
- pytorch/tutorials
- SeldonIO/seldon-core
- kubeflow/pipelines
- hibayesian/awesome-automl-papers
- lazyprogrammer/machine_learning_examples
- PAIR-code/facets
- lmcinnes/umap - SNE 的可视化,但也可用于一般的非线性降维。该算法建立在关于数据的三个假设之上:数据均匀分布在黎曼流形上;黎曼度量是局部常数(或可以近似);流形是本地连接的。根据这些假设,可以对具有模糊拓扑结构的流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。
- D-X-Y/Awesome-AutoDL
- merrymercy/awesome-tensor-compilers
- vosen/ZLUDA
- amusi/AI-Job-Notes
- poloclub/cnn-explainer
- modelscope/modelscope - Hub 和 Dataset-Hub 的交互。这种交互有助于在后台无缝执行各种实体(模型和数据集)的管理,包括实体查找、版本控制、缓存管理等。
- zenml-io/zenml
- deepchecks/deepchecks
- instill-ai/instill-core - core 存储库进行自托管。
- whylabs/whylogs
- zetane/viewer
- ujjwalkarn/Machine-Learning-Tutorials
- slundberg/shap - learn和pyspark tree模型支持快速C++实现。
- pola-rs/polars
- activeloopai/Hub
- nebuly-ai/nebullvm
- determined-ai/determined
- replicate/cog
- polyaxon/polyaxon
- openxla/xla
- Thinklab-SJTU/awesome-ml4co
- HIPS/autograd
- facebookexperimental/Robyn
- mirage-project/mirage
- heheda12345/MagPy
- openai/triton
- unifyai/ivy
- IDSIA/sacred
- adap/flower - learn 、 JAX 、 TFLite 、 MONAI 、 fastai 、 MLX 、 XGBoost 、 Pandas进行联合分析,甚至原始NumPy进行联合分析喜欢手动计算梯度的用户。可以理解:Flower 的编写考虑到了可维护性。鼓励社区阅读代码库并为代码库做出贡献。
- MegEngine/MegEngine
- spring-projects/spring-ai
- srush/GPU-Puzzles
- selfteaching/the-craft-of-selfteaching - craft-of-selfteaching" 的 GitHub 项目,旨在帮助人们掌握自学技巧。项目作者认为自学能力是未来成功的关键,并通过一系列 Jupyter Notebook 文件,提供了一套完整的自学方法论。该项目以编程学习为切入点,强调阅读、练习和实践的重要性,并提供 JupyterLab 安装和使用指南,方便读者学习和实践。项目还包含了如何使用 Pull Request 贡献内容的说明,鼓励读者参与其中。
- karpathy/nn-zero-to-hero
- yinsn/ParaDance
- conda/conda
- udlbook/udlbook
- tensorflow/tensorboard
- RadeonOpenCompute/ROCm - 用于 HPC 和超大规模 GPU 计算的开源平台
- scikit-hep/awkward-1.0
- TimDettmers/bitsandbytes
- owainlewis/awesome-artificial-intelligence
-
Transformer库与优化
- huggingface/transformers
- jadore801120/attention-is-all-you-need-pytorch
- adapter-hub/adapter-transformers
- microsoft/DeBERTa
- ml-jku/hopfield-layers
- laiguokun/Funnel-Transformer
- mit-han-lab/hardware-aware-transformers
- mit-han-lab/lite-transformer
- allenai/longformer
- Tencent/TurboTransformers
- idiap/fast-transformers
- bytedance/lightseq
- google-research/bigbird
- lucidrains/performer-pytorch - attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的softmax运算。此外,还可以和可逆层等其他技术进行互操作。
- microsoft/fastformers
- ThilinaRajapakse/simpletransformers
- cloneofsimo/RealFormer-pytorch
- openai/sparse_attention
- sacmehta/delight
- BSlience/transformer-all-in-one
- mlpen/Nystromformer
- xuanqing94/FLOATER
- ELS-RD/transformer-deploy
- lucidrains/x-transformers - only (GPT-like) 、Encoder-only (BERT-like) 、Image -> caption 。
- lucidrains/FLASH-pytorch
- NVIDIA/FasterTransformer
- NetEase-FuXi/EET - based大模型和长序列场景的高性能pytorch推理插件。高性能:设计高度优化的CUDA内核。灵活:提供包括op api、model api和pipelines应对不同需求。 使用: 几行代码即可完成。适配主流ai框架,包括fairseq和transformers。bert模型整体性能加速1.2x到7.x倍,gpt模型整体性能加速2.x到7.x倍。
- NVIDIA/transformer-ls
- thuml/Flowformer
- alipay/Pyraformer
- NVIDIA/Megatron-LM
- facebookresearch/bit
- Tongjilibo/bert4torch
- cmhungsteve/Awesome-Transformer-Attention
- FlagOpen/FlagAttention - 2 可以节省内存占用和流量以提高内存效率,但要修改它们并添加更多选项和功能需要熟练掌握 cuda 编程。因此,Flag Attention 是用 Triton 语言实现的,它更容易用于编写自定义 GPU 内核。
- microsoft/torchscale
- NielsRogge/Transformers-Tutorials
- lucidrains/recurrent-memory-transformer-pytorch - XL - 更新:递归内存决策转换器
- lhao499/RingAttention
- lucidrains/MEGABYTE-pytorch
- HazyResearch/flash-attention
- lucidrains/ring-attention-pytorch - 1000 万tokens。至少是某种形式的;另一种可能性是在 RMT 之上未发布的改进。此外,该存储库还包含 Striped Attention 的逻辑,这是一篇后续论文,用于排列序列以更好地平衡自回归转换器的工作负荷。它还包含对分组查询注意力的支持,由 Llama 系列注意力模型推广。这将进一步节省 Ring Reduce 期间的通信成本。
- dingo-actual/infini-transformer - Transformer (https://arxiv.org/abs/2404.07143) 是一个功能强大且用途广泛的 transformer 模型,专为各种自然语言处理任务而设计。它利用最先进的技术和架构来实现卓越的性能和无限上下文长度的可扩展性。
- lhao499/RingAttention
-
BERT优化
- google-research/bert
- google-research/ALBERT
- bojone/bert-of-theseus
- brightmart/albert_zh
- bojone/bert4keras
- codertimo/BERT-pytorch
- huawei-noah/Pretrained-Language-Model
- ymcui/MacBERT - gram 进行掩码,我们将单独找到相似的单词。在极少数情况下,当没有相似词时,我们会降级为使用随机词替换。
- Lisennlp/TinyBert
- epfml/collaborative-attention
- ZhuiyiTechnology/WoBERT - based BERT)
- autoliuweijie/FastBERT
- alexa/bort - large相比,它的平均性能提高了0.3%至31%。
- valuesimplex/FinBERT
- yitu-opensource/ConvBert
- Sleepychord/CogLTX
- ShannonAI/service-streamer
- thunlp/ERNIE
- ShannonAI/ChineseBert
- Langboat/Mengzi
- microsoft/LoRA
- guillaume-be/rust-bert - native 最先进的自然语言处理模型和管道。 Hugging Face 的 Transformers 库的端口,使用 tch-rs crate 和 rust-tokenizers 预处理。 支持多线程标记化和GPU推理。 公开了模型基础架构、特定于任务的头和随时可用的管道。
- volcengine/veGiantModel
- extreme-bert/extreme-bert
- allenai/scibert
- alibaba/AliceMind/LatticeBERT - Granularity Representations in Chinese Pre-trained Language Models 利用多粒度的词格信息(word lattice),相对字级别的模型取得了性能提升。
- bojone/BERT-whitening - flow的效果。
- wtma/CharBERT
- huawei-noah/DynaBERT
-
预训练模型
- THUDM/GLM
- facebookresearch/metaseq - 175B,Open Pre-trained Transformers,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3。从完整模型到训练代码、部署代码全部开放。
- dbiir/UER-py - 2预训练模型(通用、古诗词、对联、歌词、文言文)、中文T5预训练模型、中文RoBERTa下游任务微调模型(JD full 情感分类 、JD binary 情感分类 、Dianping 情感分类、Ifeng 新闻主题分类、Chinanews 新闻主题分类 、CLUENER2020 NER 、抽取式问答)等。
- OpenBMB/BMInf
- microsoft/unilm - NLP及更高版本的统一语言模型预训练
- CyberZHG/keras-xlnet
- IDEA-CCNL/Fengshenbang-LM - LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。包括了自然语言理解(NLU),自然语言生成(NLG)和自然语言转换(NLT)任务。CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录。
- ymcui/Chinese-XLNet
- YunwenTechnology/Unilm
- ymcui/Chinese-ELECTRA - small模型可与BERT-base甚至其他同等规模的模型相媲美,而参数量仅为BERT-base的1/10
- alibaba/EasyTransfer
- google-research/byt5 - R、T5、GPT-3)那样使用子词词汇表,而是直接在 UTF-8 字节上运行,无需任何文本预处理。 除了降低系统复杂性之外,我们发现参数匹配的 ByT5 模型在一系列任务中与 mT5 具有竞争力,并且在涉及嘈杂文本或对拼写和发音敏感的任务上优于 mT5。 此 repo 可用于重现 ByT5 论文中的实验。
- sunyilgdx/NSP-BERT - level)** 的预训练任务 **NSP (下一句预测,Next Sentence Prediction)** 来实现不同的NLP下游任务, 例如 *单句分类(single sentence classification)*, *双句分类(sentence pair classification)*, *指代消解(coreference resolution)*, *完形填空(cloze-style task)*, *实体链接(entity linking)*, *实体类型识别(entity typing)*.
- thunlp/OpenPrompt - learning 是将预训练语言模型应用于下游NLP任务的最新范式,它使用文本模板修改输入文本并直接使用 PLM 执行预训练任务。 该库提供了一个标准、灵活和可扩展的框架来部署即时学习管道。 OpenPrompt支持直接从Huggingface Transformer加载PLM。将来,我们还将支持其他库实现的 PLM。
- google-research/flan
- PaddlePaddle/ERNIE
- airaria/TextPruner
- Tencent/PatrickStar
- ymcui/PERT
- THUDM/P-tuning-v2 - tuning v2 对预训练变压器的每一层输入应用连续提示。深度提示调整增加了连续提示的容量,并缩小了跨各种设置微调的差距,特别是对于小型模型和艰巨的任务。将文本生成的prefix-tuning技术适配到NLU任务。Prompting技术火爆NLP社区,其将预训练模型从Fine-tuning范式带入Prompt-Engineering时代。Promp最初由人工设计,自然语言提示本身十分脆弱,而且从优化角度无法达到最优。为了解决问题发展出了可学习的Prompt,而P-tuning v2在实际上就是Prefix-tuning,在Prefix部分,每一层transformer的embedding输入需要被tuned。在不同规模大小的LM模型上,P-tuning v2能与精调(Fine-tuning)方法的表现比肩,有时甚至更好。
- OpenBMB/BMTrain
- microsoft/CodeBERT - PL 对上进行预训练的多编程语言模型。
- clue-ai/PromptCLUE
- BlinkDL/RWKV-LM
- FlagOpen/FlagEmbedding
- XiaoMi/MiLM-6B - Eval 和 CMMLU 上均取得同尺寸最好的效果。
- yuzhimanhua/Awesome-Scientific-Language-Models
- CLUEbenchmark/CLUEPretrainedModels
- [3
-
文本分类
- kk7nc/Text_Classification
- cnn_multilabel_classification
- ilivans/tf-rnn-attention
- skdjfla/toutiao-text-classfication-dataset
- xiaoqian19940510/text-classification-surveys - DNN、BERT、TextGCN、MGAN、TextCapsule、SGNN、SGM、LEAM、ULMFiT、DGCNN、ELMo、RAM、DeepMoji、IAN、DPCNN、TopicRNN、LSTMN 、Multi-Task、HAN、CharCNN、Tree-LSTM、DAN、TextRCNN、Paragraph-Vec、TextCNN、DCNN、RNTN、MV-RNN、RAE等,浅层学习模型,如LightGBM 、SVM、XGboost、Random Forest、C4.5、CART、KNN、NB、HMM等。介绍文本分类数据集,如MR、SST、MPQA、IMDB、Ye…
- 649453932/Chinese-Text-Classification-Pytorch
- 649453932/Bert-Chinese-Text-Classification-Pytorch
- SanghunYun/UDA_pytorch
- beyondguo/label_confusion_learning
- AIRobotZhang/STCKA
- ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification
- xmu-xiaoma666/External-Attention-pytorch
- DunZhang/LM-MLC
- bojone/r-drop - drop机制实验了中文文本分类、文本生成任务,有提升。
- BUPT-GAMMA/CompareNet_FakeNewsDetection
- pangwong/pytorch-multi-label-classifier
- xuyige/BERT4doc-Classification
- timoschick/pet - 3,尽管需要的参数减少 99.9%。PET 的迭代变体 (iPET) 训练多代模型,甚至可以在没有任何训练数据的情况下使用。
- YerevaNN/warp - level Adversarial ReProgramming 的代码。 在 SuperGLUE 少样本文本分类上优于“GPT-3”。提出了一种基于对抗性重编程的替代方法,它是自动扩展提示模板生成的早期工作。而且参数量少了好多个数量级。
- whatissimondoing/CoG-BART
- hiyouga/Dual-Contrastive-Learning
- thunlp/KnowledgeablePromptTuning
- zhouj8553/FlipDA
- TextCNN与ALBERT分类效果的实践 - 对比TextCNN与ALBERT分类效果的实践(附Pytorch代码)
-
文本摘要
- xcfcode/Summarization-Papers
- ritun16/llm-text-summarizations - 3.5 和 GPT-4 LLMs 等的力量。
- abisee/pointer-generator
- steph1793/Pointer_Transformer_Generator
- magic282/NeuSum
- dmmiller612/bert-extractive-summarizer
- nju-websoft/NEST
- bojone/SPACES
- yym6472/ms_pointer_network
- FeiSun/ProductTitleSummarizationCorpus - Source Pointer Network for Product Title Summarization" 用于产品标题摘要的多源指针网络
- jiacheng-ye/kg_one2set
- MaartenGr/keyBERT
- xcfcode/PLM_annotator
- RowitZou/topic-dialog-summ - C9vTYfk43T5NIEvRsdRIJkN1RuG7b/view?usp=sharing)或[百度盘](https://pan.baidu.com/s/1AvkGnerKpQHUNbwkz9kO7A)(提取码:t6nx)上获得。
- maszhongming/MatchSum - summary, 即虽然句子得分较低,但其实是较好的摘要,作者称为沧海遗珠。
- nlpyang/PreSumm
- nlpyang/BertSum
- OpenSUM/CPSUM
- krystalan/ClidSum
- AIKevin/Pointer_Generator_Summarizer
- kjc6723/seq2seq_Pointer_Generator_Summarizer
- MaartenGr/BERTopic - TF-IDF 来创建密集的集群,允许轻松解释主题,同时在主题描述中保留重要的单词。BERTopic 支持各种主题建模技术:Guided 引导,Supervised 监督,Semi-supervised 半监督,Manual 手动,Multi-topic distributions多主题发行版,Hierarchical 层次,Class-based 基于类,Dynamic 动态,Online/Incremental 联机/增量,Multimodal 模 态,Multi-aspect 多方位,Text Generation/LLM 文本生成/LLM,Zero-shot,Merge Models 合并模型 ,Seed Words 种子词
- mahnazkoupaee/WikiHow-Dataset
-
文本生成、文本对话
-
大语言对话模型及数据
- karpathy/LLM101n
- meta-llama/llama3
- THUDM/GLM-4 - 4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
- THUDM/ChatGLM3 - 6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
- THUDM/ChatGLM2-6B - 6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了如下新特性:`更强大的性能`:全面升级了基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。`更长的上下文`:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明,在等量级的开源模型中,32K 有着较为明显的竞争优势。`更高效的推理`:基于 Multi-Query Attention 技术,有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。`更开放的协议`:权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
- THUDM/ChatGLM-6B - 6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
- QwenLM/Qwen - Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。在此基础上,我们针对LLM对接外部系统等方面针对性地做了优化,当前具备较强的工具调用能力,以及最近备受关注的Code Interpreter的能力和扮演Agent的能力。
- QwenLM/Qwen1.5
- baichuan-inc/Baichuan2
- baichuan-inc/Baichuan-13B - 7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。开源免费可商用:B对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,可免费商用。
- 01-ai/Yi - 34B-Chat 模型在 AlpacaEval 排行榜上排名第二(仅次于 GPT-4 Turbo),表现优于其他LLMs模型(如 GPT-4、Mixtral、Claude)(基于截至 2024 年 1 月的数据)。Yi-34B模型在各种基准测试中,包括Hugging Face Open LLM Leaderboard(预训练)和C-Eval(基于截至2023年11月的数据)中,在所有现有的开源模型(如Falcon-180B、Llama-70B、Claude)中排名第一。感谢 Transformer 和 Llama 开源社区,因为它们减少了从头开始构建所需的工作量,并能够在 AI 生态系统中使用相同的工具。
- naklecha/llama3-from-scratch
- CrazyBoyM/llama3-Chinese-chat
- mlabonne/llm-course
- rasbt/LLMs-from-scratch
- imoneoi/openchat
- lonePatient/awesome-pretrained-chinese-nlp-models
- Vision-CAIR/MiniGPT-4 - 4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。
- ggerganov/llama.cpp - 13B在大部分基准测评上超过了GPT3-175B,LLaMA可能是目前公开模型权重中效果最好的语言模型。
- juncongmoo/pyllama - 在单个 4GB GPU 中运行 LLM
- tatsu-lab/stanford_alpaca
- LC1332/Chinese-alpaca-lora - Alpaca-LoRA的基础上,调试了一个中国LLaMA模型。同时使用ChatGPT API将alpaca_data. json翻译为中文,再进行微调。
- tloen/alpaca-lora - davinci-003质量相似的Instruct模型,可以在Raspberry Pi上运行(用于研究),并且代码很容易扩展到 13b , 30b 和 65b模型。
- mymusise/ChatGLM-Tuning - 6B + LoRA
- baichuan-inc/baichuan-7B - Eval/MMLU)上均取得同尺寸最好的效果。
- InternLM/InternLM - 20B选择了更深的架构,深度设置为60层。这超过了使用32或40层的传统7B和13B型号。当参数有限时,增加层数可以增强模型的整体功能。此外,与InternLM-7B相比,InternLM-20B使用的预训练数据经过了更高质量的清理,并补充了丰富的知识数据,旨在增强理解和推理能力。因此,它在理解、推理、数学和编程能力方面表现出显着的改进——所有这些都测试了语言模型的技术熟练程度。
- InternLM/InternLM-techreport - LLM的训练系统,用于高效的大型语言模型训练。对多项基准的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面都取得了最先进的表现。凭借如此全面的能力,InternLM在综合考试中取得了出色的表现,包括MMLU,AGIEval,C-Eval和高考-Bench,而无需借助外部工具。在这些基准测试中,InternLM 不仅明显优于开源模型,而且与 ChatGPT 相比,还获得了卓越的性能。此外,InternLM在理解中文和中国文化方面表现出出色的能力,这使其成为支持面向中文的语言应用的合适基础模型,并提供了跨各种知识领域和任务的基准和示例。
- clue-ai/ChatYuan - large结合数亿条功能对话多轮对话数据进一步训练得到。
- Xwin-LM/Xwin-LM - 1。值得注意的是,它是第一个在此基准测试上超过 GPT-4 。
- CStanKonrad/long_llama
- lm-sys/FastChat - 4 开放式聊天机器人 Vicuna:一个以 90% ChatGPT 质量的开源聊天机器人。
- project-baize/baize-chatbot
- wenge-research/YaYi
- AI4Finance-Foundation/FinGPT
- microsoft/graphrag
- google/gemma_pytorch
- visual-openllm/visual-openllm
- michael-wzhu/Chinese-LlaMA2
- ymcui/Chinese-LLaMA-Alpaca
- Facico/Chinese-Vicuna
- lucidrains/PaLM-rlhf-pytorch
- liltom-eth/llama2-webui - wrapper”作为生成代理/应用程序的本地llama2后端。
- togethercomputer/OpenChatKit
- LianjiaTech/BELLE
- carbonz0/alpaca-chinese-dataset
- TigerResearch/TigerBot - 7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。[中文开源预训练集 - 55G,包含中文书籍、中文互联网、中文百科](https://huggingface.co/datasets/TigerResearch/pretrain_zh)、 [英文开源预训练集 - 51G,包含英文书籍、英文互联网、英文百科](https://huggingface.co/datasets/TigerResearch/pretrain_en) 、[中文-微调指令集-合集 - 53W 条](https://huggingface.co/datasets/TigerResearch/sft_zh)、[英文-微调指令集-合集 - 67W 条 - 下载](https://huggingface.co/datasets/TigerResearch/sft_en)
- masa3141/japanese-alpaca-lora
- nlpxucan/WizardLM - Instruct提供支持的遵循指令的LLM系列:WizardLM,WizardCoder和WizardMath。基于GPT-4的自动评估框架来评估聊天机器人模型的性能。WizardLM-30B取得了比Guanaco-65B更好的结果。
- luban-agi/Awesome-Domain-LLM
- 22-hours/cabrita
- zilliztech/GPTCache
- Stability-AI/StableLM - AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。
- LC1332/Luotuo-Chinese-LLM - Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。
- FreedomIntelligence/LLMZoo - inst-chat-7b 达到85.2% 的ChatGPT效果。
- openai/evals
- pengxiao-song/LaWGPT
- MediaBrain-SJTU/MedicalGPT-zh
- dandelionsllm/pandallm - 7B, -13B, -33B, -65B 进行中文领域上的持续预训练。
- OptimalScale/LMFlow
- yangjianxin1/Firefly - train-1.1M),包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得如下中文模型:firefly-1b4 、firefly-2b6 、firefly-2b6-v2。开源QLoRA训练流程和模型权重
- PlexPt/awesome-chatgpt-prompts-zh
- dalinvip/Awesome-ChatGPT
- rockbenben/ChatGPT-Shortcut
- PhoebusSi/Alpaca-CoT - tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。[Alpaca-CoT · Datasets](https://huggingface.co/datasets/QingyiSi/Alpaca-CoT)
- unit-mesh/unit-minions
- microsoft/JARVIS
- mlc-ai/mlc-llm
- mlc-ai/web-llm
- vllm-project/vllm
- yizhongw/self-instruct
- adams549659584/go-proxy-bingai
- f/awesome-chatgpt-prompts - chatgpt-prompts](https://huggingface.co/datasets/fka/awesome-chatgpt-prompts) 这是一个很棒的 ChatGPT 提示的数据集存储库。
- humanloop/awesome-chatgpt - 3的惊人工具、演示和文档
- encx/ChatGPT
- xtekky/chatgpt-clone
- wong2/chatgpt-google-extension
- acheong08/ChatGPT
- LAION-AI/Open-Assistant
- acheong08/EdgeGPT
- yoheinakajima/babyagi
- TransformerOptimus/SuperAGI - 开发优先的开源自主 AI 代理框架。使开发人员能够快速可靠地构建、管理和运行有用的自主代理。
- zhayujie/chatgpt-on-wechat
- openai/openai-python
- chenking2020/FindTheChatGPTer
- madawei2699/myGPTReader
- thunlp/UltraChat
- gururise/AlpacaDataCleaned
- abetlen/llama-cpp-python
- BlinkDL/ChatRWKV
- rawandahmad698/PyChatGPT
- liady/ChatGPT-pdf
- xtekky/gpt4free - ts)
- saharmor/awesome-chatgpt
- JushBJJ/Mr.-Ranedeer-AI-Tutor - 4 AI 导师提示,用于可定制的个性化学习体验。
- AetherCortex/Llama-X
- WangRongsheng/ChatGenTitle
- nishiwen1214/ChatReviewer
- bhaskatripathi/pdfGPT
- kaixindelele/ChatPaper
- eimenhmdt/autoresearcher
- gragland/chatgpt-chrome-extension
- vincelwt/chatgpt-mac
- huggingface/chat-ui
- GaiZhenbiao/ChuanhuChatGPT
- sonnylazuardi/chat-ai-desktop
- xx025/carrot
- LiLittleCat/awesome-free-chatgpt
- terry3041/pyChatGPT
- platelminto/chatgpt-conversation
- 202252197/ChatGPT_JCM
- memochou1993/gpt-ai-assistant
- ai-boost/awesome-prompts
- yanqiangmiffy/Chinese-LangChain - 6b+langchain实现本地化知识库检索与智能答案生成
- cesarhuret/docGPT
- terror/chatgpt.nvim
- clmnin/summarize.site
- Zero6992/chatGPT-discord-bot
- m1guelpf/chatgpt-telegram
- transitive-bullshit/chatgpt-twitter-bot
- kxxt/chatgpt-action
- RomanHotsiy/commitgpt
- oceanlvr/ChatGPT-ProBot
- kazuki-sf/ChatGPT_Extension
- abielzulio/chatgpt-raycast
- bupticybee/ChineseAiDungeonChatGPT
- domeccleston/sharegpt
- Chanzhaoyu/chatgpt-web
- elyase/awesome-gpt3 - 3 API 的演示和文章的集合。
- dair-ai/Prompt-Engineering-Guide
- reworkd/AgentGPT
- openai/chatgpt-retrieval-plugin
- kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference
- Bin-Huang/chatbox
- openai/openai-cookbook
- smol-ai/developer
- e2b-dev/e2b
- csunny/DB-GPT - 6b(int4, int8)
- acheong08/Bard
- jtsang4/claude-to-chatgpt
- databrickslabs/dolly - v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布
- openlm-research/open_llama
- mbzuai-nlp/LaMini-LM - 3.5-turbo 生成总共 2.58M 对指令和响应。
- huggingface/peft - Tuning、Prompt Tuning、AdaLoRA。参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。最近最先进的PEFT技术实现了与完全微调相当的性能。
- artidoro/qlora
- hiyouga/ChatGLM-Efficient-Tuning
- ZrrSkywalker/LLaMA-Adapter
- h2oai/h2o-llmstudio
- stochasticai/xTuring - J,Galactica等。通过提供一个易于使用的界面来微调LLM到您自己的数据和应用程序,xTuring使构建,自定义和控制LLM变得简单。整个过程可以在您的计算机内部或私有云中完成,确保数据隐私和安全。
- punica-ai/punica
- lxe/simple-llm-finetuner
- Jittor/JittorLLMs - 6B)、鹏程[盘古大模型](https://openi.org.cn/pangu/)、BlinkDL的[ChatRWKV](https://github.com/BlinkDL/ChatRWKV)、国外Meta的[LLaMA大模型](https://github.com/facebookresearch/llama)等;可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch);速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。
- RUCAIBox/LLMSurvey
- amazon-science/mm-cot
- LC1332/Luotuo-Silk-Road - Chinese-Alpaca 骆驼-中国-羊驼、Chinese-Dolly 中国多莉、Chinese-WizardLM 中国巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding
- liaokongVFX/LangChain-Chinese-Getting-Started-Guide
- togethercomputer/RedPajama-Data
- Voine/ChatWaifu_Mobile - ncnn\图形渲染基于 Native Live2D\语音输入识别为客户端本地 Sherpa - ncnn
- Timothyxxx/Chain-of-ThoughtsPapers
- pashpashpash/vault-ai
- YiVal/YiVal - Ops 工具,用于使用可自定义的数据集、评估方法和改进策略来调整和评估提示、配置和模型参数。
- jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
- THUDM/WebGLM
- FlowiseAI/Flowise
- xcanwin/KeepChatGPT
- ShishirPatil/gorilla
- fuergaosi233/wechat-chatgpt
- steven-tey/novel
- h2oai/h2ogpt
- akoksal/LongForm
- XueFuzhao/InstructionWild
- PlexPt/chatgpt-corpus
- CLUEbenchmark/pCLUE
- X-PLUG/CValues
- DA-southampton/RedGPT - Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。
- X-PLUG/ChatPLUG - paly instructions 来自定义对话和字符的样式很容易。它通过多轮对话展示了其在开放领域对话方面的熟练程度,同时也在广泛的 NLP 任务上表现出色 multi-task abilities 。
- chathub-dev/chathub
- lencx/nofwl - 3 的聊天机器人进行有趣的对话。
- songquanpeng/one-api
- labring/FastGPT
- getumbrel/llama-gpt
- li-plus/chatglm.cpp - 6B和ChatGLM2-6B,以便在MacBook上进行实时聊天。
- ztxz16/fastllm - 6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
- gventuri/pandas-ai
- howl-anderson/unlocking-the-power-of-llms
- eugeneyan/open-llms
- Mooler0410/LLMsPracticalGuide
- EwingYangs/awesome-open-gpt
- botpress/botpress
- dice2o/BingGPT
- josStorer/chatGPTBox
- lss233/chatgpt-mirai-qq-bot
- promptslab/Promptify
- enricoros/big-agi - 4 及更高版本提供支持的个人 AI 应用程序,具有 AI 角色、AGI 功能、文本到图像、语音、响应流、代码突出显示和执行、PDF 导入、开发人员预设等等。使用Next.js,React,Joy。
- jaymody/picoGPT - 2。40 行代码。
- bentoml/OpenLLM
- karpathy/llama2.c
- geekan/MetaGPT
- ModelTC/lightllm
- PanQiWei/AutoGPTQ
- princeton-nlp/tree-of-thought-llm
- thomas-yanxin/LangChain-ChatGLM-Webui - 6B等系列LLM的针对本地知识库的自动问答
- ssbuild/chatglm_finetuning
- liucongg/ChatGLM-Finetuning - 6B、ChatGLM2-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等
- HqWu-HITCS/Awesome-Chinese-LLM
- OpenGVLab/Ask-Anything
- OpenMotionLab/MotionGPT
- Hannibal046/Awesome-LLM
- DSXiangLi/DecryptPrompt
- GoogleCloudPlatform/generative-ai
- catqaq/ChatPiXiu
- DAMO-NLP-SG/LLM-Zoo
- wgwang/LLMs-In-China
- OpenBMB/BMList
- nichtdax/awesome-totally-open-chatgpt
- ikaijua/Awesome-AITools
- datawhalechina/prompt-engineering-for-developers
- datawhalechina/hugging-llm
- phodal/aigc
- brexhq/prompt-engineering - 4)的提示和技巧。
- mshumer/gpt-prompt-engineer
- km1994/LLMsNineStoryDemonTower - LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。
- iguodongiot/llm-action
- mikegu721/xiezhibenchmark
- haonan-li/CMMLU
- CLUEbenchmark/SuperCLUElyb
- Felixgithub2017/MMCU
- Felixgithub2017/CG-Eval
- GAIR-NLP/factool
- jeinlee1991/chinese-llm-benchmark
- CLUEbenchmark/CLUE
- CLUEbenchmark/SuperCLUE
- hkust-nlp/ceval
- LaVi-Lab/CLEVA
- EleutherAI/lm-evaluation-harness
- declare-lab/instruct-eval - T5和Alpaca等指令调整模型代表了一个令人兴奋的方向,以更低的成本接近ChatGPT等大型语言模型(LLM)的性能。但是,定性比较不同模型的性能具有挑战性。为了评估模型在各种看不见和具有挑战性的任务中的泛化程度,我们可以使用MMLU和BBH等学术基准。与评估工具和 HELM 等现有库相比,此存储库可以简单方便地评估多个模型。支持HuggingFace Transformers 的大多数模型。
- tjunlp-lab/M3KE
- thu-coai/Safety-Prompts
- linexjlin/GPTs
- RUCAIBox/HaluEval
- Azure-Samples/azure-search-openai-demo
- sindresorhus/awesome-chatgpt
- smol-ai/GodMode
- llm-workflow-engine/llm-workflow-engine
- Yue-Yang/ChatGPT-Siri - 3.5-turbo和gpt-4模型,支持连续对话,配置API密钥并保存聊天记录。由 ChatGPT API gpt-3.5-turbo & gpt-4 模型驱动的智能 Siri,支持连续对话,配置API key,配置系统prompt,保存聊天记录。
- skydoves/chatgpt-android
- JimmyLv/BibiGPT-v1
- 0xk1h0/ChatGPT_DAN
- waylaidwanderer/node-chatgpt-api
- khoj-ai/khoj
- yihong0618/xiaogpt
- openai/plugins-quickstart
- futantan/OpenGpt
- wzpan/wukong-robot
- openai-translator/bob-plugin-openai-translator
- xiangsx/gpt4free-ts - 4 API!这是 xtekky/gpt4free 版本的复制项目
- sashabaranov/go-openai
- ztjhz/BetterChatGPT
- vercel/ai
- reorx/awesome-chatgpt-api
- shibing624/textgen
- shawwn/llama-dl
- mit-han-lab/streaming-llm - --但我们表明,当文本长度超过缓存大小时,它会失败。我们观察到一个有趣的现象,即注意力下沉,即保留初始词元的 KV 将在很大程度上恢复窗口注意力的性能。在本文中,我们首先证明了注意力下沉的出现是由于对初始令牌作为“接收器”的强烈注意力得分,即使它们在语义上并不重要。基于上述分析,我们引入了StreamingLLM,这是一个高效的框架,使使用有限长度注意力窗口训练的LLM能够推广到无限序列长度,而无需任何微调。StreamingLLM可以使Llama-2,MPT,Falcon和Pythia使用多达400万个词元或更多词元执行稳定高效的语言建模。此外,发现在预训练期间添加占位符令牌作为专用的注意力接收器可以进一步改进流式处理部署。在流设置中,StreamingLLM 的性能优于滑动窗口重新计算基线高达 22.2 倍的加速。
- OpenBMB/AgentVerse
- hahnyuan/PB-LLM - LLM)的方法,可以实现极端低比特量化,同时保持量化LLM的语言推理能力。 具体来说,我们的探索首先揭示了现有二值化算法朴素应用的无效性,并强调了显著权重在实现低比特量化中的重要作用。因此,PB-LLM在二值化过程中过滤了一小部分突出权重,将它们分配给更高位的存储,即部分二值化。PB-LLM通过从训练后量化(PTQ)和量化感知训练(QAT)的角度进行分析,扩展以恢复量化LMM的能力。在PTQ下,结合GPTQ的概念,我们重构了以Hessian矩阵为指导的二值化权重矩阵,并成功恢复了PB-LLM在低位的推理能力。在QAT下,我们在训练过程中冻结了显著权重,探索了对最小化量化误差至关重要的最优比例因子的推导,并提出了一种基于该派生的残差二值化权重缩放策略的缩放机制。这些探索和开发的方法大大有助于恢复低比特量化LLM的性能,并在LLM的网络二值化领域取得实质性进展。
- Lightning-AI/lit-llama
- NVIDIA/TensorRT-LLM - LLM 为用户提供了一个易于使用的 Python API,用于定义大型语言模型 (LLM) 并构建包含最先进优化的 TensorRT 引擎,以便在 NVIDIA GPU 上高效执行推理。TensorRT-LLM还包含用于创建Python的组件,以及执行这些TensorRT引擎的C++运行时。
- HuiMi24/chatppt
- cpacker/MemGPT - GPT是一个系统,它智能地管理LLM中的不同内存层,以便在LLM的有限上下文窗口中有效地提供扩展上下文。例如,MemGPT 知道何时将关键信息推送到矢量数据库,以及何时在聊天中检索它,从而实现永久对话。
- mleoking/PromptAppGPT
- EmbraceAGI/LifeReloaded - 4的“高级数据分析”功能提供支持的生活模拟游戏,为您提供第二次生活机会。由GPT4的Advanced Data Analysis功能驱动的人生重来模拟器,给您人生第二春。
- srush/llama2.rs
- OpenLMLab/LOMO - Memory **O**ptimization,它将梯度计算和参数更新融合在一步中,以减少内存使用。 我们的方法使得在单张 RTX 3090 上可以进行 7B 模型的全参数微调,或者在单个 8×RTX 3090 的机器上可以进行 65B 模型的全参数微调(RTX 3090 的内存为 24GB)。
- spcl/graph-of-thoughts
- TheoKanning/openai-java - 3、ChatGPT 和 GPT-4。
- langgenius/dify
- mckaywrigley/chatbot-ui
- oobabooga/text-generation-webui
- pytorch-labs/gpt-fast - native transformer 文本。
- rustformers/llm - 它建立在用于机器学习的快速、高效的 GGML 库之上。
- AprilNEA/ChatGPT-Admin-Web
- ParisNeo/lollms-webui
- mit-han-lab/llm-awq
- vectorch-ai/ScaleLLM
- tjunlp-lab/Awesome-LLMs-Evaluation-Papers
- microsoft/promptflow - 从原型设计、测试到生产部署和监控。旨在简化基于 LLM 的 AI 应用程序的端到端开发周期,从构思、原型设计、测试、评估到生产部署和监控。它使快速工程变得更加容易,并使您能够构建具有生产质量的 LLM 应用程序。
- WooooDyy/LLM-Agent-Paper-List
- SillyTavern/SillyTavern
- BerriAI/litellm
- mosaicml/llm-foundry
- Mintplex-Labs/anything-llm
- dataelement/bisheng
- kyrolabs/awesome-langchain
- danny-avila/LibreChat - 4 Vision、Bing、Anthropic、OpenRouter、Google Gemini、AI 模型切换、消息搜索、langchain、DALL-E-3、ChatGPT 插件、OpenAI 功能、安全多用户系统、预设、完全开源的自托管。更多功能正在开发中
- run-llama/rags
- stas00/ml-engineering
- iryna-kondr/scikit-llm - learn 中。将 ChatGPT 等强大的语言模型无缝集成到 scikit-learn 中,以增强文本分析任务。
- argilla-io/argilla
- taranjeet/awesome-gpts
- ai-boost/Awesome-GPTs
- all-in-aigc/gpts-works
- Anil-matcha/Awesome-GPT-Store
- snwfdhmp/awesome-gpt-prompt-engineering
- SamurAIGPT/EmbedAI
- pandora-next/deploy - shared3.zhile.io的共享站(目前2622个普号、22个Plus)。
- LouisShark/chatgpt_system_prompt
- taishi-i/awesome-ChatGPT-repositories
- DefTruth/Awesome-LLM-Inference - LLM、vLLM、streaming-llm、AWQ、SmoothQuant、WINT8/4、Continuous Batching、FlashAttention、PagedAttention 等。
- gmpetrov/databerry
- beyondguo/LLM-Tuning
- chatpire/chatgpt-web-share
- dirk1983/chatgpt
- Grt1228/chatgpt-java - 3.5-Turb GPT-4 Api Client for Java
- x-dr/chatgptProxyAPI
- Hello-SimpleAI/chatgpt-comparison-detection - English \HC3-Chinese
- LC1332/Chat-Haruhi-Suzumiya
- eon01/awesome-chatgpt
- awesome-assistants/awesome-assistants
- voidful/awesome-chatgpt-dataset
- yaodongC/awesome-instruction-dataset
- ntunlplab/traditional-chinese-alpaca
- Tongji-KGLLM/RAG-Survey - 增强生成:一项调查
- allenai/RL4LMs - 批评策略的实现。
- hyperonym/basaran
- microsoft/generative-ai-for-beginners
- bleedline/Awesome-gptlike-shellsite
- nat/openplayground
- GAIR-NLP/auto-j - J 基于来自真实世界用户查询的数据和来自各种LLMs响应的数据进行训练,涵盖 58 个真实世界场景。灵活性:Auto-J 支持成对响应比较和单响应评估,只需切换到相应的提示即可。可解释性:Auto-J 提供详细的自然语言评论,可提高其评估结果的可靠性,并促进人类参与评估循环。
- kwai/KwaiYii - Base)、对话模型(KwaiYii-Chat)。
- deepseek-ai/DeepSeek-MoE
- Mozilla-Ocho/llamafile
- flexflow/FlexFlow - 2.0 倍,在多节点、多 GPU 推理方面比现有系统高出 1.4-2.4 倍。
- OpenBMB/UltraFeedback - Instruct、TruthfulQA、FalseQA 和 FLAN,数据集统计信息见此处)收集了大约 64k 个提示。然后,使用这些提示来查询多个 LLM,并为每个提示生成 4 个不同的响应,从而产生总共 256k 个样本。为了收集高质量的偏好和文本反馈,设计了一个细粒度的注释指令,其中包含 4 个不同的方面,即指令遵循、真实性、诚实性和帮助性。然后,我们要求 GPT-4 根据指令对收集到的样本进行注释。
- xiaogang00/white-paper-for-large-model-security-and-privacy
- guardrails-ai/guardrails
- OpenMOSS/HalluQA - 130B 生成答案并收集对抗性问题。第3步,为每个对抗性问题编写多个正确和错误的答案,并添加支持证据。第4步,检查所有带注释的问答对并删除低质样本。
- liziniu/ReMax - 4 判断时,ReMax 的胜率分别比 SFT、DPO 和 PPO 高出 84.22%、75.28% 和 63.60%。
- tatsu-lab/alpaca_farm
- anthropics/hh-rlhf
- alan-ai/alan-sdk-web
- archiki/ADaPT
- ai-collection/ai-collection
- SJTU-IPADS/PowerInfer
- danswer-ai/danswer
- xlang-ai/OpenAgents
- langchain4j/langchain4j
- weaigc/bingo
- e2b-dev/awesome-ai-agents
- hao-ai-lab/LookaheadDecoding
- TaskingAI/TaskingAI
- salesforce/DialogStudio
- YuchuanTian/AIGC_text_detector - 未标记检测”(ICLR'24 Spotlight)
- open-webui/open-webui
- CopilotKit/CopilotKit
- n4ze3m/dialoqbase
- paulpierre/RasaGPT
- xusenlinzy/api-for-open-llm - 2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口
- refuel-ai/autolabel - 4 这样的先进技术能够以高精度自动标记数据,而且与手动标记相比,成本和时间只是其中的一小部分。
- mckaywrigley/chatbot-ui-lite
- jxnl/instructor
- lmstudio-ai/model-catalog
- adamcohenhillel/ADeus - 一个真正个性化的个人 AI。
- FasterDecoding/Medusa
- promptfoo/promptfoo
- tmc/langchaingo
- AnswerDotAI/fsdp_qlora - QLoRA 结合了数据并行性(Fully Sharded Data Parallelism(FSDP) 支持跨 GPU 分片模型参数、优化器状态和梯度)、4 位量化和 LoRA(QLoRA Quantized LoRA),可在双 24GB GPU 系统上训练 LLMs 多达 70B 参数。该技术由 Answer.AI 与 BitsandBytes 合作发布,旨在使训练 LLMs 更加高效,并且对每个人来说都更容易使用。[bitsandbytes/fsdp_qlora](https://huggingface.co/docs/bitsandbytes/main/en/fsdp_qlora)
- getzep/zep
- XueFuzhao/OpenMoE
- tensorchord/Awesome-LLMOps
- deep-diver/LLM-As-Chatbot
- Arize-ai/phoenix
- Giskard-AI/giskard
- huggingface/trl
- unslothai/unsloth - 5 倍,内存减少 70%,QLoRA 和 LoRA 微调。所有内核均用 OpenAI 的 Triton 语言编写。精度损失为 0% - 无近似方法 - 全部准确无误。无需更换硬件。自 2018+ 起支持 NVIDIA GPU。最低 CUDA 功能 7.0。支持 4 位和 16 位 QLoRA / LoRA 通过bitsandbytes进行微调。开源训练速度提高 5 倍。
- ray-project/ray-llm
- pathwaycom/llm-app
- jackmpcollins/magentic
- pezzolabs/pezzo
- msoedov/langcorn
- OpenBMB/ProAgent
- daveebbelaar/langchain-experiments - 3.5 Turbo 、GPT-4等最先进的语言模型,该项目展示了如何从 YouTube 视频成绩单创建可搜索的数据库,使用 FAISS 库执行相似性搜索查询,并用相关和准确的信息回答用户问题。
- BradyFU/Woodpecker - 4/mPLUG-Owl 的准确率提高了 30.66%/24.33%。
- locuslab/wanda
- VILA-Lab/ATLAS - 1/2、GPT-3.5 和 GPT-4。
- postgresml/postgresml
- llmware-ai/llmware
- google/BIG-bench - bench 中包含的 200 多个任务。
- bigscience-workshop/promptsource
- FranxYao/chain-of-thought-hub
- langchain-ai/langserve
- BCG-X-Official/agentkit
- stitionai/devika - 4、GPT-3.5 和 LocalLLMs。为获得最佳性能:使用 Claude 3 系列型号。
- missuo/FreeGPT35 - 3.5-Turbo API 服务。
- nilsherzig/LLocalSearch
- DachengLi1/LongChat
- katanaml/sparrow - 可插拔架构。您可以使用 LlamaIndex、Haystack 或 Unstructured 等工具和框架轻松集成和运行数据提取管道。Sparrow 通过 Ollama 或 Apple MLX 启用本地LLM数据提取管道。使用 Sparrow 解决方案,您可以获得 API,这有助于处理数据并将其转换为结构化输出,随时可以与自定义工作流程集成。
- GPT-Fathom/GPT-Fathom
- RUCAIBox/StructGPT
- FranxYao/Long-Context-Data-Engineering
- OpenBMB/InfiniteBench
- jzhang38/TinyLlama
- openai/openai-node
- openai-php/client
- InternLM/xtuner
- hiyouga/FastEdit - One Model Editing (ROME)
- SkyworkAI/Skywork
- microsoft/promptbench - shot Chain-of-Thought、Emotion Prompt、Expert Prompting等。评估对抗性提示:promptbench 集成了提示攻击 ,使研究人员能够模拟模型上的黑盒对抗性提示攻击并评估其鲁棒性。动态评估以减轻潜在的测试数据污染:我们集成了动态评估框架DyVal,该框架以可控的复杂性即时生成评估样本。
- HowieHwong/TrustGPT
- llmeval/llmeval-1
- llmeval/llmeval-2
- llmeval/llmeval-3
- xingyaoww/mint-bench
- HITsz-TMG/awesome-llm-attributions
- stanford-oval/storm
- stanfordnlp/dspy - 3.5 or GPT-4 )和本地模型(如 T5-base or Llama2-13b )在任务中更加可靠,即具有更高的质量和/或避免特定的故障模式。DSPy 优化器会将同一程序“编译”为不同的指令、小样本提示和/或每个 LM 的权重更新(微调)。这是一种新的范式,在这种范式中,LM 及其提示逐渐淡出背景,作为可以从数据中学习的更大系统的可优化部分。顶级域名;更少的提示,更高的分数,以及更系统地解决 LM 的艰巨任务的方法。
- TheDuckAI/arb
- sambanova/toolbench
- karpathy/llm.c - 2 (CPU, fp32) 在单个文件 train_gpt2.c 中是 ~1,000 行干净代码,在 GPU 上训练它是 ~2,000 行(添加 CUDA 内核)在 train_gpt2.cu 中。代码立即编译并运行,它与 PyTorch 参考实现完全匹配,并且它 ~匹配(编译)PyTorch 的速度(fp32,无闪存注意)。我选择 GPT-2 作为第一个工作示例,因为它是 LLMs的祖父,第一次将现代堆栈放在一起。
- HowieHwong/TrustLLM
- thunlp/InfLLM
- LuckyyySTA/Awesome-LLM-hallucination
- ninehills/llm-inference-benchmark - 推理基准测试
- turboderp/exllamav2
- OpenNMT/CTranslate2
- InternLM/lmdeploy
- freshllms/freshqa
- LC1332/Luotuo-QA
- CLUEbenchmark/SuperCLUE-safety
- CrazyBoyM/phi3-Chinese
- vahe1994/AQLM
- xfactlab/orpo
- Shenzhi-Wang/Llama3-Chinese-Chat - Llama-3-8B-Instruct模型的ORPO专门针对中文进行微调的中文聊天模型。
- chtmp223/topicGPT
- pjlab-sys4nlp/llama-moe - MoE:将 LLaMA 的 FFN 划分为稀疏专家,并为每一层专家插入 top-K 门。使用来自 Sheared LLaMA 的优化数据采样权重和来自 SlimPajama 的过滤数据集,持续预训练初始化的 MoE 模型。
- PandaBearLab/prompt-tutorial
- stanfordnlp/pyreft
- xlang-ai/UnifiedSKG - 3 和 Codex 都在其中苦苦挣扎。UnifiedSKG 还支持对 SKG 任务中的结构化知识编码变体进行一系列对照实验。我们发现 T5 对结构化知识编码变化的敏感性因任务而异。
- google-research/xtreme
- princeton-nlp/LLM-Shearing - 2-7B 模型(使用 2T 令牌预训练)的存在,修剪它会产生一个与 OpenLLaMA 模型一样强大的模型,其预训练成本仅为 3%。
- agi-templar/Stable-Alignment
- lm-sys/llm-decontaminator - rephraser:13B 模型在主要基准测试 (MMLU/GSK-8K/HumanEval) 中达到 GPT-4 性能!为了确保结果的有效性,我们遵循了 OpenAI 的去污方法,没有发现数据污染的证据。本文提出了一种基于更强LLM的去污器,并将其应用于现实世界的训练数据集(例如, the Stack、RedPajama),揭示了训练数据集与广泛使用的基准测试的显着重叠。现有的检测方法(例如,n-gram重叠,嵌入相似性)无法检测到这种污染。嵌入相似性方法很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。而本文提出可以使用“LLM去污器”来量化数据集相对于基准的重新表述的样本。根据检测结果,您可以估计数据集中改写样本的污染情况,并将其从训练集中移除。该LLM净化器包括两个步骤:对于每个测试用例,“LLM去污器”使用嵌入相似性搜索识别相似度最高的前 k 个训练项。从这些项目中,“LLM去污器”生成 k 个潜在的改写对,每对都使用高级 LLM,例如 GPT-4 进行改写评估。结果表明,我们提出LLM的方法在去除改写样本方面明显优于现有方法。
- thu-coai/SafetyBench
- OpenLMLab/LEval - Eval 的数据和代码,一个全面的长上下文语言模型评估基准,全面的长上下文语言模型(LCLM)评估套件,具有20个子任务,508个长文档和2,000多个人工标记的查询-响应对,包括不同的问题风格,域和输入长度(3k~200k标记)。L-Eval 有 2 组:封闭式任务和开放式任务。封闭式组主要测试对较长上下文的推理和理解能力,开放式组由需要聚合长文档信息(下载数据)的更多总结任务组成。
- bigai-nlco/LooGLE
- dwzhu-pku/PoSE
- IAAR-Shanghai/UHGEval
- bigscience-workshop/xmtf
- tangqiaoyu/ToolAlpaca
- aurora-develop/aurora
- McGill-NLP/webllama
- FMInference/H2O - NeoX 在各种任务中验证了算法的准确性。在 OPT-6.7B 和 OPT-30B 上,我们实施了 20% 重击器的 H2O,将吞吐量提高了 29×、29× 和 3× 三个领先的推理系统 DeepSpeed Zero-Inference、Hugging Face Accelerate 和 FlexGen。在相同的批量大小下,H2O 最多可以减少 1.9× 的延迟。
- OpenMOSS/CoLLiE
- aurorax-neo/free-gpt3.5-2api
- open-compass/T-Eval
- ymcui/Chinese-LLaMA-Alpaca-3 - 3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。
- zjukg/KnowPAT
- usyd-fsalab/fp6_llm - LLM 的官方实现,在 fp16/int8 基线上实现了线性层的显著加速和 GPU 内存的缩减。高效的 CUDA 实现,用于启用 Tensor Core 的线性层(FP6 中的权重和 FP16 格式的激活)的混合输入矩阵乘法。
- Abbey4799/CELLO
- tmlr-group/DeepInception - 2 和 GPT-3.5/4/4V 等开源/闭源LLMs自输的关键弱点。我们的调查呼吁人们应该更加关注安全方面,LLMs并加强对滥用风险的防御。
- Datayoo/HuggingFists
- datawhalechina/self-llm
- developersdigest/llm-answer-engine
- Zjh-819/LLMDataHub
- dvlab-research/LongLoRA - Attention兼容,并且在推理过程中不需要。我们发布了所有模型,包括 7B 到 70B 的模型,上下文长度从 8k 到 100k。我们建立了一个长上下文指令跟踪数据集 LongAlpaca-12k。我们发布了相应的 LongAlpaca-7B、LongAlpaca-13B 和 LongAlpaca-70B 型号。
- modelscope/agentscope
- young-geng/EasyLM
- ianarawjo/ChainForge
- intel/neural-compressor
- billmei/every-chatgpt-gui
- stanford-crfm/levanter
- horizon-ui/chatgpt-ai-template - 最时尚的开源 ChatGPT UI AI 模板和入门套件,适用于 React、NextJS 和 Chakra UI
- Niek/chatgpt-web
- cogentapps/chat-with-gpt
- patrikzudel/PatrikZeros-ChatGPT-API-UI
- ShipBit/slickgpt - 4 集成、无用户共享功能和其他超能力。
- ysymyth/ReAct
- NVIDIA/GenerativeAIExamples
- swirlai/swirl-search - Pilot 等强大工具,通过 AI 增强企业的决策能力。
- modelscope/data-juicer - in-the-loop & Sandbox:支持一站式数据模型协同开发,通过沙盒实验室实现快速迭代,提供基于数据和模型的反馈循环、可视化、多维度自动评估等功能,让您更好地理解和改进您的数据和模型。提高效率:提供高效并行的数据处理流水线(Aliyun-PAI\Ray\Slurm\CUDA\OP Fusion),需要更少的内存和CPU使用率,并针对最大生产力进行优化。全面的数据处理配方:提供数十种预建的数据处理配方,用于预训练、微调、en、zh 等场景。在参考 LLaMA 和 LLaVA 模型上进行了验证。灵活和可扩展:适应大多数类型的数据格式(例如,jsonl、parquet、csv等),并允许灵活组合OP。随意实现您自己的 OP 以进行可自定义的数据处理。用户友好体验:为简单而设计,具有全面的文档、简单的入门指南和演示配置,以及通过在现有配置中简单添加/删除 OP 的直观配置。
- google/maxtext
- KnowledgeCanvas/knowledge
- zjunlp/LLMAgentPapers
- eli64s/readme-ai
- MLGroupJLU/LLM-eval-survey
- SciPhi-AI/R2R
- Farama-Foundation/chatarena
- amazon-science/auto-cot - CoT 使用更多的cheers和多样性来节省思维链提示设计中的巨大手动工作,匹配甚至超过 GPT-3 上的手动设计性能。
- RUCAIBox/LLMBox
- jackaduma/awesome_LLMs_interview_notes
- hyp1231/awesome-llm-powered-agent
- ItzCrazyKns/Perplexica
- reorproject/reor
- yihong0618/bilingual_book_maker
- infiniflow/ragflow
- evilsocket/cake
- EricLBuehler/mistral.rs - AI API 的 HTTP 服务器和 Python 绑定。
- 1Panel-dev/MaxKB
- LLM-Red-Team/kimi-free-api
- kvcache-ai/Mooncake
- lm-sys/RouteLLM - 在不影响质量的情况下节省LLM成本!我们的核心功能包括:直接替代 OpenAI 的客户端(或启动兼容 OpenAI 的服务器),将更简单的查询路由到更便宜的模型。训练有素的路由器开箱即用,我们已经证明,在 MT Bench 等广泛使用的基准测试中,它可以将成本降低多达 85%,同时保持 95% 的 GPT-4 性能。基准测试还表明,这些路由器实现了与商业产品相同的性能,同时便宜>40%。轻松扩展框架以包含新路由器,并比较路由器在多个基准测试中的性能。
- truera/trulens - Eval 评估LLMs和LLM基于应用程序的工具,以及使用 TruLens-Explain 的深度学习可解释性。TruLens-Eval 和 TruLens-Explain 装在单独的封装中,可以独立使用。更快地创建可靠且功能强大的LLM应用程序。TruLens 是一种软件工具,可帮助您使用反馈功能客观地衡量基于应用程序LLM的质量和有效性。反馈函数有助于以编程方式评估输入、输出和中间结果的质量,以便您可以加快和扩大实验评估。将其用于各种用例,包括问答、摘要、检索增强生成和基于代理的应用程序。
- b4rtaz/distributed-llama - 它负责加载模型和权重并将它们转发给工作线程。此外,它还同步神经网络的状态。根节点也是一个工作节点,它处理神经网络的自己的切片。工作节点 - 它处理神经网络的自己的切片。它不需要与模型相关的任何配置。您始终需要根节点,您可以添加 2^n - 1 个工作节点来加快推理速度。神经网络的 RAM 使用量在所有节点上分配。根节点需要的 RAM 比工作节点多一点。
- thu-bpm/markllm - SIR,EXP,EXP-Edit,ITS-Edit。可视化解决方案:该工具包包括自定义可视化工具,可以清晰而深入地了解不同水印算法在各种场景下的运行方式。这些可视化有助于揭开算法机制的神秘面纱,使用户更容易理解它们。评估模块:MarkLLM 拥有 12 种评估工具,涵盖可检测性、鲁棒性和对文本质量的影响,在其评估水印技术的综合方法中脱颖而出。它还具有可定制的自动化评估管道,可满足不同的需求和场景,从而增强了工具包的实际实用性。
- bricks-cloud/BricksLLM
- varunshenoy/super-json-mode
- QmiAI/Qmedia
- AUGMXNT/deccp
- Psycoy/MixEval - Hard 与 Arena Elo 和 Arena Elo (En) 的相关性最高。在估计在Chatbot Arena上评估单个模型的成本(约合2,936美元)时,我们参考了Amazon Mechanical Turk的众包价格(每票0.05美元)。Chatbot Arena 的价格高得令人望而却步,而 MixEval 和 MixEval-Hard 是便宜且具有成本效益的替代品。基于基准事实值的动态基准测试,源自现成的基准测试混合物,它LLMs以高性能的模型排名(即,与 Chatbot Arena 的 0.96 相关性)进行评估,同时在本地快速运行(运行 MMLU 的时间和成本的 6%),其查询每月稳定且轻松地更新以避免污染。
- phidatahq/phidata
- leptonai/search_with_lepton
- langchain-ai/langchainjs - 18.x、19.x、20.x、22.x;Cloudflare Workers;Vercel / Next.js(浏览器、Serverless 和 Edge 功能);Supabase Edge 函数;浏览器;Deno。LangChain是一个用于开发由语言模型驱动的应用程序的框架。它使应用程序能够:具有上下文感知能力:将语言模型连接到上下文源(提示指令、少量镜头示例、内容以使其响应为基础等);原因:依靠语言模型进行推理(关于如何根据提供的上下文回答、采取什么行动等)。该框架由几个部分组成:开源库:使用 LangChain 的开源构建块、组件和第三方集成来构建您的应用程序,使用 LangGraph.js 构建具有一流和人机交互支持的状态代理。生产化:使用LangSmith来检查、监控和评估您的链,以便您可以放心地持续优化和部署。部署:使用 LangGraph Cloud(目前仅限 Python)将您的 LangGraph 应用程序转换为生产就绪的 API 和助手。
- microsoft/lida
- PawanOsman/ChatGPT - 3.5-turbo ) 的免费自托管 API 访问,因此无需更改代码。
- microsoft/vidur
- decodingml/llm-twin-course - 从数据收集到部署。您还将学习利用 MLOps 最佳实践,例如实验跟踪器、模型注册表、提示监视和版本控制。
- cohere-ai/cohere-toolkit
- truefoundry/cognita
- microsoft/UFO
- baptisteArno/typebot.io
- logancyang/obsidian-copilot
- TransformerLensOrg/TransformerLens
- OSU-NLP-Group/HippoRAG
- langchain-ai/langgraph - in-the-Loop:中断图形执行以批准或编辑代理计划的下一个操作。流式处理支持:流式传输每个节点产生的输出(包括令牌流式处理)。与LangChain集成:LangGraph与LangChain和LangSmith无缝集成(但不需要它们)。
- SciSharp/LLamaSharp
- AugustDev/enchanted
- ConnectAI-E/AutoGPT-Next-Web
- predibase/lorax - attention、paged attention、SGMV)、量化、令牌流。准备好用于生产的预构建 Docker 镜像、Kubernetes 的 Helm 图表、Prometheus 指标以及使用 Open Telemetry 的分布式跟踪。兼容 OpenAI 的 API,支持多轮聊天对话。通过每个请求租户隔离的专用适配器。结构化输出(JSON模式)。免费用于商业用途:Apache 2.0 许可证。
- gpustack/gpustack
- BASI-LABS/parseltongue
- ibeatai/beat-ai
- openai/openai-quickstart-node
- exo-explore/exo - worker 架构,exo 设备连接 p2p,只要设备连接到网络中的某个位置,它就可以用于运行模型,Exo支持不同的分区策略,可以在设备之间分割模型,默认的分区策略是环形内存加权分区,这将在一个环中运行推理,其中每个设备运行与设备内存成正比的多个模型层。
- multimodal-art-projection/MAP-NEO - NEO 是一个完全开源的大型语言模型,包括预训练数据、数据处理管道 (Matrix)、预训练脚本和对齐代码。它在 4.5T 中英文词元上从头开始训练,表现出与 LLaMA2 7B 相当的性能。MAP-Neo 模型在推理、数学和编码等具有挑战性的任务中提供类似专有模型的性能,优于同等规模的同类产品。出于研究目的,我们的目标是在LLM培训过程中实现完全透明。为此,我们全面发布了 MAP-Neo,包括最终和中间检查点、自训练标记器、预训练语料库,以及高效、稳定优化的预训练代码库。
- miurla/morphic
- higgsfield-ai/higgsfield - 3 deepspeed API 和 PyTorch 的全分片数据并行 API,实现万亿参数模型的高效分片。提供一个框架,用于在分配的节点上启动、执行和监控大型神经网络的训练。通过维护用于运行试验的队列来管理资源争用。通过与 GitHub 和 GitHub Actions 的无缝集成,促进机器学习开发的持续集成,Higgsfield 简化了训练大型模型的过程,并为开发人员提供了多功能且强大的工具集。
- rashadphz/farfalle - o)
- betalgo/openai
- ridgerchu/matmulfreellm - Free LM 是一种语言模型架构,无需矩阵乘法 (MatMul) 运算。此存储库提供了与 🤗 Transformers 库兼容的 MatMul-Free LM 实现。我们评估了缩放定律如何拟合 Transformer++ 和我们的模型中的 370M、1.3B 和 2.7B 参数模型。为了公平比较,每个操作的处理方式相同,尽管我们的模型在某些层中使用了更有效的三元权重。有趣的是,与 Transformer++ 相比,我们模型的缩放投影表现出更陡峭的下降,这表明我们的架构在利用额外计算来提高性能方面更有效。
- Nutlope/turboseek - 3 用于LLMs;用于搜索 API 的 Bing;适用于网站分析。运作方式:回答用户的问题;向必应搜索 API 发出请求,以查找前 6 个结果并显示它们;从 bing 发回的 6 个链接中抓取文本,并将其存储为上下文;向 Mixtral-8x7B 发出请求,其中包含用户的问题 + 上下文,并将其流回给用户;再次向 Llama-3-8B 提出 3 个相关问题,用户可以跟进。
- CarperAI/trlx - 6.7b、EleutherAI/gpt-neox-20b 和 google/flan-t5-xxl。对于超过 20B 参数的模型, trlX 提供 NVIDIA NeMo 支持的训练器,这些训练器利用高效的并行技术来有效地扩展。
- stanford-crfm/helm
- THUDM/CodeGeeX2 - 15B 近10%)
- THUDM/CodeGeeX
- fauxpilot/fauxpilot
- bigcode-project/starcoder
- microsoft/TypeChat
- codota/TabNine
- salesforce/CodeGen - v4 训练。与 OpenAI Codex 竞争。
- Pythagora-io/gpt-pilot
- deepseek-ai/DeepSeek-Coder-V2 - Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 从 DeepSeek-V2 的中间检查点进一步预训练,并增加了 6 万亿个令牌。通过这种持续的预训练,DeepSeek-Coder-V2 大大增强了 DeepSeek-V2 的编码和数学推理能力,同时在一般语言任务中保持了相当的性能。与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在与代码相关的任务的各个方面以及推理和通用功能方面都取得了重大进步。此外,DeepSeek-Coder-V2 将其对编程语言的支持从 86 扩展到 338,同时将上下文长度从 16K 扩展到 128K。
- codefuse-ai/MFTCoder - LLM(代码任务的大型语言模型),其中包括模型、数据集、训练代码库和推理指南。
- salesforce/CodeT5
- getcursor/cursor
- mckaywrigley/ai-code-translator
- joshpxyne/gpt-migrate - Migrate 旨在编写(并可能重写)整个代码库,因此成本可能会迅速增加。
- microsoft/semantic-kernel
- gencay/vscode-chatgpt - OpenAI ChatGPT集成,在编程集成环境中使用GPT-4、3.5、3 或 Codex 模型加速编程开发。
- shobrook/stackexplain
- eth-sri/lmql
- BloopAI/bloop - sitter 构建的 10+ 种最流行语言的精确代码导航(转到参考和转到定义);以隐私为中心的设备嵌入,用于语义搜索。
- ricklamers/gpt-code-ui
- leetcode-mafia/cheetah
- continuedev/continue
- TheR1D/shell_gpt - 3 和 GPT-4 提供支持的命令行生产力工具将帮助您更快、更高效地完成任务。作为开发人员,我们可以利用 AI 功能来生成 shell 命令、代码片段、注释和文档等。忘记备忘单和笔记,使用此工具,您可以在终端中获得准确的答案,您可能会发现自己减少了日常Google搜索,从而节省了宝贵的时间和精力。
- paul-gauthier/aider - 3.5/GPT-4 配对,以编辑存储在本地 git 存储库中的代码。可以启动新项目或使用现有存储库。您可以在帮助者聊天(要求 GPT 编辑代码)和您自己的编辑器自己进行更改之间流畅地来回切换。
- di-sukharev/opencommit
- zurawiki/gptcommit - commit-msg 钩子,用于使用 GPT-3 创作提交消息。使用此工具,您可以轻松生成清晰、全面和描述性的提交消息,让您专注于编写代码。
- intitni/CopilotForXcode
- mpociot/chatgpt-vscode
- sahil280114/codealpaca - following LLaMA Model。包括用于微调模型的 20K 数据。
- ddzipp/AutoAudit - Instruct,该方法结合了人工标注和自我生成的数据。数据集主要来自于Github、Kaggle、安全网站、公开的安全漏洞数据集组成,随后经过清洗、数据增强等来构造对话数据。数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分,我们规定在output输出中应当包含对具体内容的分析(analysis),安全评级(label),安全风险(risk),以及对应的解决方案(solution)。
- shroominic/codeinterpreter-api
- gofireflyio/aiac
- anc95/ChatGPT-CodeReview
- sqlchat/sqlchat
- CodedotAl/gpt-code-clippy - 3的语言模型,称为GPT-Codex,根据GitHub公开可用的代码进行微调。
- kuafuai/DevOpsGPT
- OpenBMB/ChatDev
- pleisto/flappy
- TabbyML/tabby
- WisdomShell/codeshell - KCL开发的一系列代码大型语言模型。北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评估Benchmark(HumanEval与MBPP)上,CodeShell取得同等规模最好的性能。
- sweepai/sweep
- SkalskiP/awesome-chatgpt-code-interpreter-experiments
- huybery/Awesome-Code-LLM - LLM 用于研究。
- unit-mesh/build-your-ai-coding-assistant
- codefuse-ai/Awesome-Code-LLM
- OpenCodeInterpreter/OpenCodeInterpreter - 4 Code Interpreter 等复杂专有系统之间的差距。它通过集成执行和迭代优化功能,显著增强了代码生成功能。
- whoiskatrin/sql-translator
- ingyamilmolinar/doctorgpt
- openai/human-eval
- liutiedong/goat
- HC-Guo/Owl
- bigcode-project/octopack - 16B 模型,在 CommitPackFT + OASST 上优化的 CodeGeeX2-6B 指令。[bigcode/humanevalpack](https://huggingface.co/datasets/bigcode/humanevalpack) 扩展 OpenAI 的 HumanEval 以涵盖 6 种语言的 3 个场景
- OFA-Sys/gsm8k-ScRel
- albertan017/LLM4Decompile
- ise-uiuc/magicoder - Intit 提供支持的模型系列,这是一种新颖的方法LLMs,通过开源代码片段为代码生成低偏差和高质量的指令数据。OSS-Instruct 通过赋予LLM它们丰富的开源引用来产生更多样化、更真实和可控的数据,从而减轻了合成指令数据的固有偏见。
- SqueezeAILab/LLMCompiler
- princeton-nlp/SWE-agent - agent 处理 GitHub 问题并尝试使用 GPT-4 或您选择的 LM 自动修复它。它解决了 SWE-bench 评估集中 12.47% 的错误,运行时间仅为 1 分钟。
- langroid/langroid
- shobrook/adrenaline
- Ironclad/rivet
- FreedomIntelligence/HuatuoGPT-II - 4。开源7B、13B、34B版本。HuatuoGPT2 数据:发布部分预训练和微调指令。中医LLM评价:综合自动评价方法,对医学反应能力LLM和新鲜专业药师考试考核进行评价。
- FreedomIntelligence/HuatuoGPT
- SCIR-HI/Huatuo-Llama-Med-Chinese
- microsoft/LLaVA-Med - 4 级功能而构建。
- michael-wzhu/PromptCBLUE
- UCSD-AI4H/Medical-Dialogue-System
- lemuria-wchen/imcs21 - 21 的新语料库基准,用于自动医疗咨询系统
- shibing624/MedicalGPT
- SupritYoung/Zhongjing
- PharMolix/OpenBioMed
- FreedomIntelligence/CMB
- WangRongsheng/XrayGLM
- michael-wzhu/ChatMed
- X-jun-0130/LLM-Pretrain-FineTune
- michael-wzhu/ShenNong-TCM-LLM
- CMKRG/QiZhenGPT - base.com/)构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
- scutcyr/BianQue - CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,训练数据当中混合了大量target文本为医生问询的内容而非直接的建议,这将有助于提升AI模型的问询能力。基于扁鹊健康大数据BianQueCorpus,我们选择了 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue2.0。扩充了药品说明书指令、医学百科知识指令以及ChatGPT蒸馏指令等数据,强化了模型的建议与知识查询能力。[BianQue](https://huggingface.co/spaces/scutcyr/BianQue)
- thomas-yanxin/Sunsimiao
- scutcyr/SoulChat
- kbressem/medAlpaca
- itsharex/CareLlama
- FudanDISC/DISC-MedLLM - Med-SFT](https://huggingface.co/datasets/Flmc/DISC-Med-SFT),包含超过47万个衍生于现有的医疗数据集重新构建得到的样本。采用了目标导向的策略,通过对于精心选择的几个数据源进行重构来得到SFT数据集。帮助模型学习医疗领域知识,将行为模式与人类偏好对齐,并对齐真实世界在线医疗对话的分布情况。
- HIT-SCIR-SC/QiaoBan
- qiuhuachuan/smile - 6B LoRA 16-bit 指令微调得到。数据集通过扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
- camel-ai/camel
- pariskang/CMLM-ZhongJing - 中京”。受中国古代医学大师张仲景深邃智慧的启发,是专为中医领域设计的预训练大语言模型。
- Zlasejd/HuangDI - LLaMA-13B-V1的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的语言模型(pre-trained ),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。以《中华医典》数据库为语料来源,约338MB,由两部分组成:①非结构化的“古籍文本”:涵盖了886本标点符号及内容完整的中医古籍。②结构化的“古籍辞典”:包含“名医”、“名言”、“名词”、“名著”等六大类,由中医学界诸多知名学者对中医古籍内容知识进一步系统提炼整理,是中医古籍内容精华最为直接的集中体现。
- 2020MEAI/TCMLLM
- Kent0n-Li/ChatDoctor - 10K 的患者医生之间的 10k 真实对话。 5k从ChatGPT [GenMedGPT-5k](https://drive.google.com/file/d/1ZKbqgYqWc7DJHs3N9TQYQVPdDQmZaClA/view?usp=sharing)和[疾病数据库](https://drive.google.com/file/d/1nDTKZ3wZbZWTkFMBkxlamrzbNz0frugg/view?usp=sharing) 生成了患者和医生之间的[对话](https://github.com/Kent0n-Li/ChatDoctor/blob/main/format_dataset.csv)。
- chaoyi-wu/PMC-LLaMA
- X-D-Lab/MindChat
- hejunqing/webMedQA
- pubmedqa/pubmedqa
- WENGSYX/CMCQA
- FreedomIntelligence/Huatuo-26M
- SCIR-HI/Med-ChatGLM
- xionghonglin/DoctorGLM - 6B的中文问诊模型
- WangRongsheng/MedQA-ChatGLM - Tuning V2、Freeze、RLHF等微调
- Toyhom/Chinese-medical-dialogue-data
- WangRongsheng/IvyGPT
- 189569400/MedicalGPT-zh
- DUTIR-BioNLP/Taiyi-LLM
- bigscience-workshop/biomedica
- openmedlab/PULSE: PULSE: Pretrained and Unified Language Service Engine
- openmedlab/XrayPULSE - former(BLIP2)作为适配器,通过简单的线性变换将图像注入PULSE。为了通过适配器对齐冷冻视觉编码器和LLM,我们借助chatGPT从两个数据集(MIMIC-CXR和OpenI)的自由文本放射学报告中生成中文版Xray-Report配对数据。为了促进生物医学多模态学习的研究,我们将向公众发布数据。
- stanford-crfm/BioMedLM
- kyegomez/Med-PaLM - PaLM 2 的力量,彻底改变医学知识,回答复杂的问题,并通过准确、安全和公平的做法增强医疗保健体验。
- PKU-YuanGroup/ChatLaw - 13B、Anima-33B,我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。
- AndrewZhe/lawyer-llama
- CSHaitao/LexiLaw - 6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。
- LiuHC0428/LAW-GPT - 6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。
- siat-nlp/HanFei - 1.0 韩非
- davidpig/lychee_law - GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调.
- coastalcph/lex-glue
- JoelNiklaus/LEXTREME
- zhihaiLLM/wisdomInterrogatory
- seudl/JurisLMs
- lvwzhen/law-cn-ai
- LawRefBook/Laws
- FudanDISC/DISC-LawLLM - Law-SFT 数据集](https://huggingface.co/datasets/ShengbinYue/DISC-Law-SFT)
- open-compass/LawBench
- gmftbyGMFTBY/science-llm
- IMOSR/MediaGPT
- wenge-research/YAYI2 - 30B 是基于 Transformer 的大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景,我们采用了百万级指令进行微调,同时借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐。[YAYI2 预训练数据](https://huggingface.co/datasets/wenge-research/yayi2_pretrain_data) ,选了约100B数据,数据大小约为500GB。在预训练阶段,我们不仅使用了互联网数据来训练模型的语言能力,还添加了通用精选数据和领域数据,以增强模型的专业技能。通用精选数据包含人工收集和整理的高质量数据。涵盖了报纸类数据、文献类数据、APP类数据、代码类数据、书籍类数据、百科类数据。其中,报纸类数据包括广泛的新闻报道和专栏文章,这类数据通常结构化程度高,信息量丰富。文献类数据包括学术论文和研究报告,为我们的数据集注入了专业和深度。代码类数据包括各种编程语言的源码,有助于构建和优化技术类数据的处理模型。书籍类数据涵盖了小说、诗歌、古文、教材等内容,提供丰富的语境和词汇,增强语言模型的理解能力。构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。我们共收集了 240TB 原始数据,预处理后仅剩 10.6TB 高质量数据。
- ymcui/Chinese-LLaMA-Alpaca-2 - 2 & Alpaca-2 大模型二期项目 + 本地CPU/GPU训练部署 (Chinese LLaMA-2 & Alpaca-2 LLMs)
- CVI-SZU/Linly - ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据。中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow。此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer。
- OpenBMB/CPM-Bee - Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
- zjunlp/KnowLM
- ictnlp/BayLing
- AtomEcho/AtomGPT
- BuilderIO/gpt-crawler
- bigscience-workshop/petals - 你加载模型的一小部分,然后加入为其他部分提供服务的人来运行推理或微调。
- janhq/jan
- RUC-GSAI/YuLan-Chat - 2开发的,具有高质量的中英文数据。
- OpenBMB/MiniCPM - 2B 仅有 24亿的非词嵌入参数量, 总计2.7B参数量。经过 SFT 后,在公开综合性评测集上,与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。经过 DPO 后,在当前最接近用户体感的评测集 MTBench上,也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。以 MiniCPM-2B 为基础构建端侧多模态大模型 MiniCPM-V,整体性能在同规模模型中实现最佳,超越基于 Phi-2 构建的现有多模态大模型,在部分评测集上达到与 9.6B Qwen-VL-Chat 相当甚至更好的性能。经过 Int4 量化后,可在手机上进行部署推理,流式输出速度略高于人类说话速度。也直接跑通了多模态大模型在手机上的部署。一张1080/2080可高效参数微调,一张3090/4090可全参数微调,一台机器可持续训练 MiniCPM,二次开发成本较低。
- cocktailpeanut/dalai
- Neutralzz/BiLLa
- DUOMO/TransGPT
- Duxiaoman-DI/XuanYuan - 176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
- MetaGLM/FinGLM
- SUFE-AIFLM-Lab/FinEval
- SALT-NLP/FLANG
- FudanDISC/DISC-FinLLM - DISC) 开发并开源。开源如下资源:DISC-FinLLM-SFT 训练数据样例、DISC-FinLLM 模型参数、DISC-Fin-Eval Benchmark DISC-Fin-Eval 测试、DISC-FinLLM-SFT 完整训练数据
- blcuicall/taoli
- yongzhuo/chatglm-maths - 6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu
- MineDojo/Voyager - 4交互,这绕过了模型参数微调。从经验上讲,Voyager表现出强大的上下文终身学习能力,并在玩Minecraft方面表现出非凡的熟练程度。它获得的独特物品增加了 3.3×,旅行距离延长了 2.3×,解锁关键科技树里程碑的速度比之前的 SOTA 快了 15.3×。Voyager能够利用在新的Minecraft中学到的技能库从头开始解决新任务,而其他技术则难以概括。
- DAMO-NLP-SG/Video-LLaMA - LLaMA建立在BLIP-2和MiniGPT-4之上。它由两个核心组件组成:(1)视觉语言(VL)分支和(2)音频语言(AL)分支。`VL 分支`(可视编码器:ViT-G/14 + BLIP-2 Q 前置器),引入两层视频Q-Forform和帧嵌入层(应用于每帧的嵌入)来计算视频表示。使用视频到文本生成任务在 Webvid-2M 视频字幕数据集上训练 VL Branch。我们还将图像文本对(来自LLaVA的~595K图像标题)添加到预训练数据集中,以增强对静态视觉概念的理解。在预训练之后,我们使用来自MiniGPT-4,LLaVA和VideoChat的指令调整数据进一步微调我们的VL Branch。`AL 分支`(音频编码器:ImageBind-Huge): 引入两层音频Q-Forform和音频段嵌入层(应用于每个音频段的嵌入)来计算音频表示。由于使用的音频编码器(即 ImageBind)已经跨多个模态对齐,因此我们仅根据视频/图像指令数据训练 AL Branch,只是为了将 ImageBind 的输出连接到语言解码器。在跨模态训练期间,只有视频/音频、位置嵌入层和线性层可训练。
- kyegomez/tree-of-thoughts
- promptslab/Awesome-Prompt-Engineering
- GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese
- timqian/openprompt.co
- thinkingjimmy/Learning-Prompt
- trigaten/Learn_Prompting
- L1Xu4n/Awesome-ChatGPT-prompts-ZH_CN
- prompt-engineering/click-prompt
- mattnigh/ChatGPT3-Free-Prompt-List
- OpenMindClub/awesome-chatgpt
- EgoAlpha/prompt-in-context-learning - 3 和 FlanT5 等 LLM,并提供最新和前沿的更新。
- hegelai/prompttools
- uptrain-ai/uptrain
- ypwhs/CreativeChatGLM
- KevinWang676/ChatGLM2-Voice-Cloning
- melih-unsal/DemoGPT - AI 应用程序生成器。
- soulteary/docker-llama2-chat
- DAMO-NLP-MT/PolyLM
- lyogavin/Anima
- Alibaba-NLP/EcomGPT
- davendw49/k2
- neukg/TechGPT
- arc53/DocsGPT
- guangzhengli/ChatFiles
- huggingface/text-generation-inference
- mylxsw/aidea
- serge-chat/serge
- zetavg/LLaMA-LoRA-Tuner - J 等.一键运行在谷歌Colab上。+ 一个类似 Gradio ChatGPT 的聊天用户界面,用于演示您的语言模型。
- RockChinQ/QChatGPT
- zhayujie/bot-on-anything
- askrella/whatsapp-chatgpt - E 2来响应用户输入。
- AutumnWhj/ChatGPT-wechat-bot
- wangrongding/wechat-bot
- OpenGVLab/InternGPT - 4,SAM,交互式图像编辑等
- TBXark/ChatGPT-Telegram-Workers
- leon-ai/leon
- minimaxir/simpleaichat - 4等聊天应用程序接口,具有强大的功能和最小的代码复杂性。
- josStorer/RWKV-Runner
- hahahumble/speechgpt
- jackMort/ChatGPT.nvim
- 869413421/chatgpt-web
- ourongxing/chatgpt-vercel
- PlexPt/chatgpt-java
- Chainlit/chainlit
- gd3kr/BlenderGPT - 4控制Blender。
- varunshenoy/GraphGPT - 3 从非结构化文本推断知识图谱
- zhaoyingjun/chatbot
- Significant-Gravitas/Auto-GPT-Plugins
- chatanywhere/GPT_API_free
- PromtEngineer/localGPT
- shreyashankar/gpt3-sandbox - 3 API创建很酷的Web演示,只需几行Python。
- mayooear/gpt4-pdf-chatbot-langchain
- whoiskatrin/chart-gpt
- nomic-ai/gpt4all
- langchain-ai/chat-langchain
- PrefectHQ/marvin
- microsoft/autogen
- assafelovic/gpt-researcher
- GAIR-NLP/abel
- ray-project/llm-numbers
- THUDM/MathGLM
- thunlp/WebCPM
- huggingface/transformers-bloom-inference
- OpenLemur/Lemur
- llm-attacks/llm-attacks
- OpenNLPLab/TransnormerLLM
- CogStack/OpenGPT
- huchenxucs/ChatDB
- WangHuiNEU/llm
- Magnetic2014/llm-alignment-survey
- zjunlp/EasyEdit
- OpenBMB/XAgent
- THUDM/AgentTuning
- QwenLM/Qwen-VL - VL(通义千问-VL)聊天和预训练大视觉语言模型的官方回购。
- OpenBMB/BMTools
- THUDM/AgentBench
- InternLM/InternLM-XComposer
- THUDM/CogVLM - 17B具有100亿个视觉参数和70亿个语言参数。在10个经典的跨模态基准测试上实现了最先进的性能,包括NoCaps,Flicker30k字幕,RefCOCO,RefCOCO+,RefCOCOg,Visual7W,GQA,ScienceQA,VizWiz VQA和TDIUC,并在VQAv2,OKVQA,TextVQA,COCO字幕等方面排名第二,超过或匹配PaLI-X 55B。CogVLM还可以与您讨论图像。CogVLM 是一个强大的开源视觉语言模型,利用视觉专家模块深度整合语言编码和视觉编码,在 10 项权威跨模态基准上取得了SOTA性能。目前仅支持英文,后续会提供中英双语版本支持。CogVLM模型包括四个基本组件:视觉转换器(ViT)编码器,MLP适配器,预训练大语言模型(GPT)和视觉专家模块。
- Shaunwei/RealChar
- LinkSoul-AI/Chinese-Llama-2-7b - 2-chat 格式,兼容适配所有针对原版 llama-2-chat 模型的优化。
- EleutherAI/math-lm
- aiwaves-cn/RecurrentGPT
- eric-ai-lab/MiniGPT-5 - 5:通过生成式Vokens交错视觉和语言生成”的正式实现
- eureka-research/Eureka - 4)的卓越零镜头生成、代码编写和上下文改进功能,对奖励代码执行上下文进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。Eureka 生成的奖励函数优于专家人工设计的奖励,无需任何特定于任务的提示或预定义的奖励模板。在包含 10 种不同机器人形态的 29 种开源强化学习环境中,Eureka 在 83% 的任务中表现优于人类专家,平均标准化改进了 52%。尤里卡的通用性还提供了一种新的无梯度方法来从人类反馈(RLHF)进行强化学习,很容易结合人类监督来提高上下文中生成的奖励的质量和安全性。最后,在课程学习环境中使用尤里卡奖励,我们首次演示了一个模拟的五指影手,能够执行钢笔旋转技巧,熟练地以人类的速度操纵笔。
- meta-math/MetaMath
- OpenBMB/ToolBench - 3.5-turbo-16k)自动构建的,该ChatGPT通过增强的函数调用功能进行了升级。我们提供数据集,相应的训练和评估脚本,以及在ToolBench上微调的功能强大的模型ToolLLaMA。
- billxbf/ReWOO
- MasterAI-EAM/Darwin
- aiwaves-cn/agents
- hitz-zentroa/GoLLIE
- neulab/prompt2model
- web-arena-x/webarena
- opendilab/awesome-RLHF
- PKU-Alignment/safe-rlhf - Alignment 团队开发的高度模块化开源 RLHF 框架。它旨在为比对研究提供训练数据和可重复的代码管道,特别是通过安全 RLHF 方法进行的约束比对LLM研究。特点是:支持SFT、RLHF和Safe RLHF训练,适用于流行的预训练模型:LLaMA、OPT、百川等。提供大型人工标记数据集(最多 1M 对),包括有用和无害的偏好,以支持可重复的 RLHF 研究。支持奖励模型和成本模型的训练,并提供预先训练的检查点。支持 SFT 和 RLHF 的自定义参数和数据集。为安全约束验证提供多尺度指标,例如 BIG-bench、GPT-4 评估。
- tatsu-lab/alpaca_eval
- aaamoon/copilot-gpt4-service
- KudoAI/chatgpt.js
- xorbitsai/inference
- modelscope/modelscope-agent
- mnotgod96/AppAgent
- Portkey-AI/gateway
- InternLM/HuixiangDou
- OrionStarAI/Orion - 14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。
- QwenLM/Qwen-Audio - Audio接受各种音频(人类语音、自然声音、音乐和歌曲)和文本作为输入,输出文本。贡献包括:`基础音频模型`:基础的多任务音频语言模型,支持各种任务、语言和音频类型,作为通用音频理解模型。在Qwen-Audio的基础上,我们通过指令微调开发Qwen-Audio-Chat,实现多轮对话,支持多样化的音频场景。`适用于所有类型音频的多任务学习框架`:为了扩大音频语言预训练的规模,我们通过提出一个多任务训练框架,实现知识共享和避免一对多干扰,解决了与不同数据集相关的文本标签变化的挑战。我们的模型包含 30 多个任务,大量实验表明该模型具有强大的性能。`强大的性能`:在各种基准测试任务中都取得了令人印象深刻的性能,而无需任何特定任务的微调,超过了同类产品。在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 的测试集上取得先进的结果。`从音频和文本输入灵活多运行聊天`:支持多音频分析、声音理解和推理、音乐欣赏和工具使用。
- microsoft/ToRA
- intel/intel-extension-for-transformers
- microsoft/LLMLingua - Cache,以最小的性能损失实现高达 20 倍的压缩。利用紧凑、训练有素的语言模型(如 GPT2-small、LLaMA-7B)来识别和删除提示中的非必要标记。这种方法支持使用大型语言模型进行高效推理。
- langfuse/langfuse - 适用于 Typescript、Python、OpenAI、Langchain、Litellm、Flowise、Superagent 和 Langflow 的稳定 SDK + 集成
- vanna-ai/vanna
- bigemon/ChatGPT-ToolBox - Mobile
- sparticleinc/chatgpt-google-summary-extension
- stanford-oval/WikiChat
- casibase/casibase - Augmented Generation)知识数据库,具有 Web UI 和企业 SSO,支持 OpenAI、Azure、LLaMA、Google Gemini、HuggingFace、Claude、Grok 等
- QwenLM/Qwen-Agent
- weijunext/smart-excel-ai
- bclswl0827/ChatGemini - Pro-Vision 模型进行识图。
- yuchenlin/LLM-Blender
- zhoudaquan/ChatAnything
- zhangliwei7758/unity-AI-Chat-Toolkit
- AINativeLab/gptstore-data-backup
- JimLiu/gpt-games
- tiingweii-shii/Awesome-Resource-Efficient-LLM-Papers
- lafmdp/Awesome-Papers-Autonomous-Agent
- Aaronhuang-778/BiLLM - 70B上的8.41困惑),在各种LLMs系列和评估指标中仅具有1.08位权重,远远优于SOTA量化方法LLM。此外,BiLLM 可在单个 GPU 上在 0.5 小时内实现 70 亿个权重的二值化过程LLM,表现出令人满意的时间效率。
- Meituan-AutoML/MobileVLM
- FlagAI-Open/FlagAI
- Nutlope/notesGPT
- LLaVA-VL/LLaVA-Plus-Codebase
- OrionStarAI/OrionStar-Yi-34B-Chat - 34B开源模型、使用15W+高质量语料微调而成。
- lightyear-turing/TuringMM-34B-Chat - 34B开源模型、基于14w的精标教育数据进行sft微调以及15W对齐数据进行DPO偏好学习得到的一个微调模型。
- Tele-AI/Telechat - 7B与TeleChat-12B。TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。[数据下载](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD)
- Clouditera/SecGPT
- iusztinpaul/hands-on-llms
- openai/prm800k
- CrazyBoyM/llama2-Chinese-chat - 本项目是一个教程记录整理的repo,旨在提供给新手的参照价值和开箱即用的中文LLaMa2对话体验。包含训练过程记录,各种主要量化方式,部署后端api的推荐方案,以及在一个具体的前端网页上实现开箱即用的流畅对话体验。
- HIT-SCIR/huozi - Bench](https://github.com/HIT-SCIR/huozi/blob/main/data/mt-bench-zh): 本数据集是英文MT-Bench对话能力评测数据集的中文版。它包含了一系列多轮对话问题,每一组问题都经过了精心的人工校对,并为适应中文语境进行了必要的调整。
- thu-coai/CharacterGLM-6B
- IEIT-Yuan/Yuan-2.0 - 102B、源2.0-51B、源2.0-2B。提供预训练、微调、推理服务的相关脚本,以供研发人员做进一步开发。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。
- Alibaba-NLP/SeqGPT
- Kipok/NeMo-Skills
- xverse-ai/XVERSE-65B - 65B。
- jina-ai/reader - friendly 输入。免费为您的代理和 RAG 系统提供改进的输出。搜索:它使用 https://s.jina.ai/your+query .这使您可以LLMs从网络上访问最新的世界知识。
- ai4finance-foundation/finrobot
- microsoft/TaskWeaver - 例如 DataFrames,而不是处理字符串。自定义算法 - 允许您将自己的算法封装到插件中并编排它们。整合特定领域的知识 - 旨在轻松整合特定领域的知识,以提高可靠性。有状态执行 - 旨在支持生成的代码的有状态执行,以确保一致且流畅的用户体验。代码验证 - 旨在在执行之前验证生成的代码。它可以检测生成的代码中的潜在问题,并提供修复建议。易于使用 - 包含示例插件、示例和教程,可帮助您入门。 提供开箱即用的体验,允许用户在安装后立即运行它。易于调试 - 具有详细和透明的日志,可帮助您了解整个过程,包括LLM提示、代码生成和执行过程。安全注意事项 - 支持基本的会话管理,以将不同用户的数据分开。代码执行被分成不同的进程,以避免相互干扰。易于扩展 - 以使用多个代理作为插件完成更复杂的任务。
- lavague-ai/LaVague
- explodinggradients/ragas - 根据问题衡量答案与上下文的事实一致性。Context_precision - 衡量检索到的上下文与问题的相关性,传达检索管道的质量。Answer_relevancy - 衡量答案与问题的相关性。Context_recall - 衡量检索器检索回答问题所需的所有必要信息的能力。
- Dataherald/dataherald
- OpenGVLab/InternVL - 4o 的开创性开源替代品。接近GPT-4o表现的可商用开源多模态对话模型。InternVL 1.5,这是一种开源多模态大型语言模型 (MLLM),旨在弥合开源和专有商业模型在多模态理解方面的能力差距。我们介绍三种简单的设计:强视觉编码器:我们探索了一种针对大规模视觉基础模型的持续学习策略——InternViT-6B,提升其视觉理解能力,使其可以在不同的LLMs环境中转移和复用。动态高分辨率:我们根据输入图像的纵横比和分辨率,将图像划分为 1 到 40 的 448 × 448 像素的瓦片,最高支持 4K 分辨率输入。高质量的双语数据集:我们精心收集了一个高质量的双语数据集,涵盖了常见场景、文档图像,并用中英文问答对进行标注,显著提高了OCR和中文相关任务的性能。
- liou666/polyglot
- facebookresearch/llama-recipes
- FlagAlpha/Llama2-Chinese
- steven2358/awesome-generative-ai
- lobehub/lobe-chat
- friuns2/BlackFriday-GPTs-Prompts
- gptshunter.com
- microsoft/TaskMatrix
- fanqiwan/FuseAI - 7B-VaRM,它融合了三个LLMs具有不同架构和规模的著名聊天,即 NH2-Mixtral-8x7B、NH2-Solar-10.7B 和 OpenChat-3.5-7B。FuseChat-7B-VaRM 在 MT-Bench 上的平均性能为 8.22,优于 Starling-7B、Yi-34B-Chat 和 Tulu-2-DPO-70B 等各种强大的聊天,LLMs甚至超过了 GPT-3.5(March)、Claude-2.1,并接近 Mixtral-8x7B-Instruct。FuseChat采用融合后合并的策略,有两个主要阶段。首先,对源LLMs进行成对知识融合,通过轻量级微调推导出多个结构和大小相同的目标LLMs;然后,将这些目标LLMs合并到参数空间中,提出了一种基于参数矩阵微调前后变化比确定合并权重的新方法VaRM。
- openai/summarize_from_feedback
- openai/webgpt_comparisons
- LLMBook-zh/LLMBook-zh.github.io
- plandex-ai/plandex
- shibing624/medical
- 中文医疗信息处理评测基准CBLUE_数据集-阿里云天池
- datasets/medical_dialog
- FreedomIntelligence/huatuo_encyclopedia_qa
- BillGPT/Chinese-medical-dialogue-data
- FreedomIntelligence/huatuo_knowledge_graph_qa
- wangrongsheng/HealthCareMagic-100k-en - 患者对话。通过手动和自动方式过滤这些数据,删除医生和患者的身份信息,并使用语言工具纠正语法错误。
- wangrongsheng/icliniq-10k-en
- liyucheng/zhihu_rlhf_3k
- wangrui6/Zhihu-KOL
- datasets/BAAI/COIG - Zlab/COIG](https://github.com/BAAI-Zlab/COIG)
- BelleGroup/train_3.5M_CN
- BelleGroup/train_2M_CN
- BelleGroup/train_1M_CN
- BelleGroup/train_0.5M_CN
- BelleGroup/generated_chat_0.4M
- BelleGroup/school_math_0.25M
- juletxara/mgsm
- sunzeyeah/chinese_chatgpt_corpus
- zxbsmk/webnovel_cn
- QingyiSi/Alpaca-CoT
- promptingguide.ai/zh
- dikw/hh_rlhf_cn - rlhf中文翻译版本。基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。hh_rlhf_train 合并中英文训练集数据清洗过后17万条,hh_rlhf_test 合并中英文测试集数据 清洗过后9千条,harmless_base_cn_train 42394条,harmless_base_cn_test 2304条,helpful_base_cn_train 43722条,helpful_base_cn_test. 2346条。
- beyond/rlhf-reward-single-round-trans_chinese - reward-datasets](https://huggingface.co/datasets/yitingxie/rlhf-reward-datasets) [beyond/rlhf-reward-single-round](https://huggingface.co/datasets/beyond/rlhf-reward-single-round)
- zhiweihu1103/AgriMa - 首个开源中文农业大模型。由山西大学、山西农业大学、The Fin AI联合研发,以Baichuan为底座,基于海量有监督农业领域相关数据微调,具备广泛的农业知识和智能分析能力,该模型旨在为农业领域提供全面而高效的信息处理和决策支持。
- SUSTech/SUS-Chat-34B - CCNL联合发布的34B中英双语对话模型。该模型基于 `01-ai/Yi-34B` 数百万个高质量的多语言教学数据,并对其进行了微调。在保持基础模型强大的语言能力的同时,通过高质量的指令微调改善了模型对人类指令的响应,并擅长通过思维链模仿人类的思维过程。它在长文本中引入了指令间注意力共享,将窗口大小从 4K 扩展到 8K,显着增强了多回合对话的可用性。采用14亿令牌的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等各类指令数据
- THUDM/GLM-130B - 130B是一个开放的双语(英汉)双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 上具有 130B 参数的推理任务。通过 INT4 量化,硬件可以进一步降低到具有 4 * RTX3090 24G 的单个服务器,几乎没有性能下降。
- EleutherAI/gpt-neox
- Significant-Gravitas/Auto-GPT - 4 语言模型的功能。该程序由 GPT-4 驱动,将 LLM 的“思想”链接在一起,以自主实现您设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。
- OpenLMLab/MOSS - moon系列模型具有160亿参数。开源数据: moss-002-sft-data: 多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。moss-003-sft-data: 多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。moss-003-sft-plugin-data: 插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。moss-003-pm-data: 偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据。
- hikariming/alpaca_chinese_dataset
- wangzhaode/ChatGLM-MNN - 6B。
- StanGirard/quivr
- transitive-bullshit/chatgpt-api
- qunash/chatgpt-advanced
- yzfly/awesome-chatgpt-zh
- logspace-ai/langflow
- embedchain/embedchain - 加载、索引、检索和同步任何非结构化数据,可以在任何数据集上轻松创建LLM驱动的机器人。支持的数据类型:视频、PDF、网页、网站地图、文档等
- arcee-ai/mergekit - 一个简单的加权平均值。) 、SLERP、Task Arithmetic、TIES 、DARE TIES、DARE Task Arithmetic 、Passthrough、Model Stock
- AntonOsika/gpt-engineer
- KillianLucas/open-interpreter
- homanp/superagent - 构建、部署和管理 LLM 支持的代理。一个强大的工具,可简化 LLM(大型语言模型)代理到生产的配置和部署。它提供了一系列特性和功能,使开发人员能够更轻松地构建、管理和将 AI 代理部署到生产环境,包括通过矢量数据库、强大的工具、Webhook、cron 作业等构建内存和文档检索等功能。
- ddiu8081/chatgpt-demo - 3.5 Turbo API 的 demo。
- towhee-io/towhee
- InternLM/MindSearch - 7b-chat)。它具有以下特点:询问您想知道的一切: 旨在解决您生活中的任何问题并使用网络知识。 深入的知识发现: 浏览数百个网页来回答您的问题,提供更深入、更广泛的知识库答案。 详细的解决方案路径: 公开所有详细信息,允许用户检查他们想要的一切。这大大提高了其最终响应的可信度和可用性。优化UI外观:为用户提供各种界面,包括React、Gradio、Streamlit和Terminal,根据您的需要选择任何类型。动态图谱构建过程:将用户查询分解为原子子问题,作为图中的节点,并根据WebSearcher的搜索结果逐步扩展图。
- sakanaai/evolutionary-model-merge
- mlfoundations/dclm - LM (DCLM) 是一个综合框架,旨在构建和训练具有不同数据集的大型语言模型 (LLMs)。它提供了来自 CommonCrawl 的 300 多个未经过滤的令牌的标准化语料库、基于 open_lm 框架的有效预训练配方,以及一套包含 50 多个评估的广泛套件。此存储库提供了用于处理原始数据、标记化、洗牌、训练模型以及评估其性能的工具和指南。DCLM 使研究人员能够在不同的计算规模(从 411M 到 7B 参数模型)上试验各种数据集构建策略。我们的基线实验表明,通过优化数据集设计,模型性能有了显著提高。DCLM 已经能够创建多个高质量的数据集,这些数据集在各个尺度上都表现良好,并且优于所有开放数据集。
- nashsu/FreeAskInternet
- netease-youdao/QAnything
- Lightning-AI/lit-gpt
- Instruction-Tuning-with-GPT-4/GPT-4-LLM - 4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。
- prompt-engineering/understand-prompt
- deepseek-ai/DeepSeek-V2 - V2:强大、经济且高效的专家混合语言模型,一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它包含 236B 个总参数,其中 21B 为每个词元激活。与DeepSeek 67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提升了5.76倍。我们在由 8.1 万亿个词元组成的多样化、高质量的语料库上预训练了 DeepSeek-V2。在这种全面的预训练之后,是监督微调 (SFT) 和强化学习 (RL) 的过程,以充分释放模型的能力。评估结果验证了我们方法的有效性,因为DeepSeek-V2在标准基准测试和开放式生成评估中都取得了卓越的性能。大海捞针 (NIAH) 测试的评估结果。DeepSeek-V2 在高达 128K 的所有上下文窗口长度上都表现良好。我们在 AlpacaEval 2.0 和 MTBench 上评估了我们的模型,显示了 DeepSeek-V2-Chat-RL 在英语会话生成方面的竞争性能。我们在 LiveCodeBench (0901-0401) 上评估我们的模型,这是一个为实时编码挑战而设计的基准测试。如图所示,DeepSeek-V2 在 LiveCodeBench 方面表现出相当的熟练程度,取得了超过其他几个复杂模型的Pass@1分数。这一性能突出了该模型在处理实时编码任务方面的有效性。DeepSeek-V2 采用创新架构,保证训练经济高效:在注意力方面,我们设计了MLA(Multi-head Latent Attention),它利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,从而支持高效的推理。对于前馈网络 (FFN),我们采用 DeepSeekMoE 架构,这是一种高性能的 MoE 架构,能够以更低的成本训练更强大的模型。
- facebookresearch/codellama - Python)和指令遵循模型(Code Llama - Instruct),每个模型都有 7、13 和 34B 参数。所有模型都在16k 个令牌的序列上进行训练,并显示对最多 100k 个令牌的输入的改进。7B 和 13B 代码骆驼和代码骆驼 - 指示变体支持基于周围内容的填充。通过使用更高的代码采样微调 Llama 2 开发的。
- aixcoder-plugin/aiXcoder-7B
- vercel-labs/ai-chatbot
- ConnectAI-E/Feishu-OpenAI - 4 + DALL·E + Whisper)= 飞一般的工作体验,语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出
- crewAIInc/crewAI - 就像一个运转良好的船员一样。无论您是在构建智能助手平台、自动化客户服务集成还是多代理研究团队,CrewAI 都可以为复杂的多代理交互提供支柱。主要特点:基于角色的代理设计:使用特定角色、目标和工具自定义代理。自主代理间委派:代理可以自主委派任务并相互查询,从而提高解决问题的效率。灵活的任务管理:使用可自定义的工具定义任务并将其动态分配给代理。流程驱动:目前仅支持顺序任务执行和分层流程,但更复杂的流程(如共识和自主)。将输出另存为文件:将单个任务的输出另存为文件,以便以后使用。将输出解析为 Pydantic 或 Json:如果需要,可以将单个任务的输出解析为 Pydantic 模型或 Json。使用开源模型:使用 Open AI 或开源模型运行 crewAI
- sgl-project/sglang - mistral),易于扩展以集成新模型。活跃的社区:SGLang 是开源的,并由一个活跃的社区提供支持,并得到行业采用。与 TensorRT LLM 和 vLLM 相比,SGLang Runtime 在在线和离线场景中始终如一地提供卓越或有竞争力的性能,使用 FP8 和 FP16 处理从 Llama-8B 到 Llama-405B 的模型,以及在 A100 和 H100 GPU 上。SGLang 的性能始终优于 vLLM,在 Llama-70B 上的通量提高了 3.1 倍。它也经常匹配或有时优于 TensorRT LLM 。更重要的是,SGLang 是完全开源的,用纯 Python 编写,核心调度器在不到 4K 行的代码中实现。
- HandsOnLLM/Hands-On-Large-Language-Models - “Hands-On Large Language Models” 通过本书的视觉教育性质和 250 多个定制图表,学习您今天使用大型语言模型所需的实用工具和概念!第 1 章:语言模型简介。第 2 章:标记和嵌入。第 3 章:深入了解 Transformer LLMs。第 4 章:文本分类。第 5 章:文本聚类和主题建模。第 6 章:提示工程。第 7 章:高级文本生成技术和工具。第 8 章:语义搜索和检索 - 增强生成。第 9 章:多模态大型语言模型。第 10 章:创建文本嵌入模型。第 11 章:微调分类的表示模型。第 12 章:微调生成模型。
- linkedin/Liger-Kernel - Attn 相同的精神,但适用于 RMSNorm、RoPE、SwiGLU 和 CrossEntropy!通过内核融合、就地替换和分块技术,将多 GPU 训练吞吐量提高 20%,并将内存使用量降低 60%。确切:计算是精确的 - 没有近似值!前向和后向传递均通过严格的单元测试实现,并针对没有 Liger 内核的训练运行进行收敛测试,以确保准确性。轻:Liger Kernel 的依赖项最少,只需要 Torch 和 Triton,不需要额外的库!告别依赖性头痛!支持多 GPU:与多 GPU 设置(PyTorch FSDP、DeepSpeed、DDP 等)兼容。Trainer 框架集成:Axolotl、LLaMa-Factory、SFTTrainer、Hugging Face Trainer、SWIFT
- 0xeb/TheBigPromptLibrary
- jingyaogong/minimind - V2、Llama3结构,项目包含整个数据处理、pretrain、sft、dpo的全部阶段,包含混合专家(MoE)模型。这是一个既是开源项目,又是入门LLM教程,同时也是一个初具雏形的开源模型,希望能起到抛砖引玉的作用。因此,本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。项目包含:公开MiniMind模型代码(包含Dense和MoE模型)、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源。兼容transformers、accelerate、trl、peft等流行框架。训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练,使用wandb可视化训练流程。支持在任意位置停止,及在任意位置继续训练。在Ceval数据集上进行模型测试的代码。实现Openai-Api基本的chat接口,便于集成到第三方ChatUI使用(FastGPT、Open-WebUI等)。
- pytorch/torchtitan
- OpenBuddy/OpenBuddy
- sail-sg/sailor-llm
- lmstudio-ai/lms
- DaveBben/esp32-llm - S3FH4R2因为它有 2MB 的嵌入式 PSRAM。通过对 llama2.c 进行以下更改,我能够达到 19.13 tok/s:在数学运算中利用 ESP32 的两个内核。利用 ESP-DSP 库中专为 ESP32-S3 设计的一些特殊点积函数,这些功能利用了 ESP32-S3 为数不多的 SIMD 指令。将 CPU 速度提高到 240 MHz,将 PSRAM 速度提高到 80MHZ,并增加指令缓存大小。
- openai/swarm
- langchain-ai/opengpts - 一个用于创建代理运行时的框架。它还建立在LangChain、LangServe和LangSmith之上。OpenGPT 为您提供更多控制权,允许您配置:您使用的(LLM在LangChain提供的60+之间选择);您使用的提示(使用 LangSmith 调试这些提示);您给它的工具(从LangChain的100+工具中选择,或轻松编写自己的工具);您使用的向量数据库(从LangChain的60+向量数据库集成中选择);您使用的检索算法;您使用的聊天记录数据库。最重要的是,它使您可以完全控制应用程序的认知架构。目前,已实现三种不同的架构:助理、RAG、聊天机器人。
- binary-husky/chatgpt_academic - 3.5/gpt-4/chatglm
- OpenAccess-AI-Collective/axolotl
- pytorch/torchchat
- goldfishh/chatgpt-tool-hub
- jiaweizzhao/GaLore
- karpathy/nano-llama31 - 2。也就是说,它是 Llama 3.1 架构的最小、无依赖的实现,它可以非常简单地训练、微调和推理。这与 Meta 的官方代码发布和 huggingface 实现相比,后者都具有更重的依赖性和更多的代码。代码目前主要针对 Llama 3.1 的 8B 基础模型。
- Langboat/Mengzi3
- dvmazur/mixtral-offloading - 8x7B 模型,通过多种技术的组合实现了对Mixtral-8x7B模型的高效推理:使用 HQQ 进行混合量化,我们为注意力层和专家应用单独的量化方案,以将模型拟合到组合的 GPU 和 CPU 内存中。MoE 卸载策略,每层的每个专家都单独卸载,仅在需要时将背包带到 GPU,我们将活跃的 EA 存储在 LRU 缓存中,以减少在计算相邻令牌的激活时 GPU-RAM 通信。
- databricks/dbrx
- evalplus/evalplus - NeurIPS 2023。EvalPlus 是 LLM4Code 的严格评估框架,具有:HumanEval+:测试次数比原来的 HumanEval 多 80 倍!MBPP+:测试次数是原始 MBPP 的 35 倍!评估框架:我们的 packages/images/tools 可以在上述基准测试中轻松安全地评估 LLMs。为什么选择EvalPlus?精确的评估和排名:查看我们的排行榜以获取严格的评估前后的最新LLM排名。编码严谨性:看看分数差异!尤其是在使用 EvalPlus 测试之前和之后!丢弃越少越好,因为它意味着代码生成更加严格和不那么松懈;而大幅下降意味着生成的代码往往很脆弱。预生成样本:EvalPlus 通过开源 LLM——无需重新运行昂贵的基准测试!
- prompt-engineering/prompt-patterns
- yzfly/LangGPT
- mshumer/gpt-author - 4、Stable Diffusion 和 Anthropic API 调用链来生成原创奇幻小说。用户可以提供一个初始提示并输入他们想要的章节数,然后人工智能会生成一整本小说,输出一个与电子书阅读器兼容的 EPUB 文件。一本 15 章的小说的制作成本低至 4 美元,而且只需几分钟即可写完。
- filip-michalsky/SalesGPT
- magpie-align/magpie
- RUC-NLPIR/FlashRAG
- dottxt-ai/outlines
- thudm/longwriter - 6k,这是一个包含 6,000 个 SFT 数据的数据集,输出长度从 2k 到 32k 单词不等。通过将此数据集纳入模型训练,现有模型的输出长度扩展到 10,000 字以上,同时保持了输出质量。此外,LongWriter 还开发了 LongBench-Write,这是一个用于评估超长生成能力的综合基准。用户可以通过运行 CUDA_VISIBLE_DEVICES=0 python trans_web_demo.py 来部署自己的 LongWriter 聊天机器人,或者使用 vllm 部署模型,从而在一分钟内生成超过 10,000 个单词。
- facebookresearch/llm-transparency-tool
- SqueezeAILab/LLM2LLM
- KwaiKEG/CogGPT
- LudwigStumpp/llm-leaderboard
- lm-sys/arena-hard-auto - Hard-Auto-v0.1 是一个用于指令调整的 LLMs。它包含 500 个具有挑战性的用户查询。我们提示 GPT-4-Turbo 作为裁判将模型的反应与基线模型(默认:GPT-4-0314)进行比较。如果您想了解您的模型在 Chatbot Arena 上的表现如何,我们建议您尝试 Arena-Hard-Auto。
- LazyAGI/LazyLLM - > 数据反馈 -> 迭代优化工作流程。这意味着您可以使用 LazyLLM 快速构建原型应用程序,然后使用特定于任务的数据分析不良情况,然后在应用程序的关键阶段迭代算法和微调模型,以逐步提高整体性能。
- yangling0818/buffer-of-thought-llm - manager 来动态更新 meta-buffer,从而随着更多任务的解决而增强其容量。我们对 10 项具有挑战性的推理密集型任务进行了广泛的实验,与以前的最先进的 (SOTA) 方法相比,性能有了显著提高:Game of 24 的性能提高了 11%,几何形状的性能提高了 20%,Checkmate-in-One 的性能提高了 51%。进一步的分析表明,我们的 BoT 具有卓越的泛化能力和稳健性,而平均只需要多查询提示方法(例如,树/思想图)成本的 12%。值得注意的是,我们发现我们的 Llama3-8B + BoT 有可能超越 Llama3-70B 模型。
- codefuse-ai/codefuse-devops-eval - Eval是专为DevOps领域的基础模型设计的综合评估套件。我们希望DevOps-Eval可以帮助开发者,特别是DevOps领域的开发者,跟踪进度并分析他们模型的重要优点/缺点。目前有 7486 道多项选择题,涵盖 8 个不同的一般类别,如下所示。AIOps 子类别共有 2840 个样本,涵盖日志解析、时间序列异常检测、时间序列分类、时间序列预测和根本原因分析等场景。ToolLearning 子类别中共有 1509 个样本,涵盖 59 个领域的 239 个工具场景。
- Pints-AI/1.5-Pints
- LLM-Red-Team/metaso-free-api
- openchatai/OpenCopilot
- hymie122/RAG-Survey - Baesd、基于模型)、迭代 RAG。
- IntelligenzaArtificiale/Free-Auto-GPT
- AnswerDotAI/RAGatouille
- IAAR-Shanghai/CRUD_RAG - RAG:大型语言模型检索增强生成的综合中文基准。本项目全面支持中文 RAG 系统评价,包括中文原生数据集、评价任务和基线模型;它涵盖了 CRUD(创建、读取、更新、删除)操作,这些操作用于评估 RAG 系统添加、减少、更正信息以及根据检索信息回答问题的能力;它包含 36166 个测试样本,这是可用的中国 RAG 测试数量最多的;支持 ROUGE、BLEU、bertScore、RAGQuestEval 等多种评价指标,并提供一键式评价功能;
- stanford-futuredata/ARES
- sigoden/aichat - REPL、Shell Assistant、RAG、AI工具和代理功能,可以访问OpenAI、Claude、Gemini、Ollama、Groq等。
- thinkany-ai/rag-search
- wasiahmad/Awesome-LLM-Synthetic-Data
- andysingal/llm-course
- LightChen233/Awesome-Multilingual-LLM - 多语言LLM。实际上,世界上有 7000 多种语言。随着全球化进程的加快,大型语言模型的成功应该考虑服务于不同的国家和语言。为此,多语言大型语言模型(MLLM)在处理多种语言时具有优势,越来越受到关注。
- supermemoryai/opensearch-ai
- orhanerday/open-ai - 3 和 DALL-E 的 PHP(Laravel 、Symfony、Yii、Cake PHP 或任何 PHP 框架)SDK。它还支持类似 chatGPT 的流媒体。(支持 ChatGPT AI)
- father-bot/chatgpt_telegram_bot - 5 秒);无请求限制;消息流(观看演示);GPT-4 和 GPT-4 Turbo 支持;GPT-4 Vision 支持;群聊支持(/help_group_chat获取说明);DALLE 2(选择艺术家模式以生成图像);语音消息识别;代码突出显示;15 种特殊聊天模式:助理、代码助理、艺术家、心理学家、埃隆马斯克等。您可以通过编辑配置/chat_modes.yml轻松创建自己的聊天模式;支持 ChatGPT API;允许的 Telegram 用户列表;跟踪在 OpenAI API 上花费的 $ 余额
- n3d1117/chatgpt-telegram-bot
- langgptai/wonderful-prompts
- zjunlp/EasyInstruct - 4、LLaMA、ChatGLM。EasyInstruct 将指令生成、选择和提示模块化,同时还考虑了它们的组合和交互。
- THUDM/LongAlign - 10k 数据集,其中包含 10,000 个长度为 8k-64k 的长指令数据。我们研究了训练策略,即打包(带有损失加权)和排序批处理,它们都在我们的代码中实现。对于实际的长上下文评估,我们引入了 LongBench-Chat,它评估了 10k-100k 长度的查询的指令跟踪功能。
- PygmalionAI/aphrodite-engine
- tairov/llama2.mojo - llama 推理上的性能比 llama.cpp 高 20%。这展示了通过 Mojo 的高级功能进行硬件级优化的潜力。
- neuralmagic/deepsparse - 7B 修剪到 60% 的稀疏度,而不会降低准确性。凭借我们对 LLMs,DeepSparse 将稀疏量化模型的速度从密集基线加速了 7 倍。
- Infini-AI-Lab/Sequoia
- Infini-AI-Lab/TriForce - 7B-128K、LWM-Text-Chat-128K、Llama2-13B-128K 等)提供服务,在消费类 GPU 上以 0.1 秒的延迟无损(16 位精度,保留原始输出分布)进行长序列生成。我们证明 TriForce 可以在两个 RTX 4090 上有效地为 128K 上下文的 Llama2-13B 提供服务,达到平均令牌间隔时间 (TBT) 低至 0.22 秒,这比高度优化的卸载系统快 7.8 倍。此外,借助 TriForce,Llama2-7B-128K 可以在两台 RTX 4090 上提供服务,TBT 为 0.11 秒,仅比一台 A100 慢 0.5 倍。此外,TriForce 在单个 RTX 4090 GPU 上执行的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。除了卸载之外,TriForce 还为 A100 等数据中心 GPU 提供了片上解决方案。TriForce 有效地解决了这一挑战,同时通过集成基于检索的绘图和分层推测来证明地保持了模型质量。这种方法利用原始模型权重和检索中的一小部分 KV 缓存作为草稿模型,这可以通过具有 StreamingLLM 缓存的轻量级模型进一步推测,以减少草稿延迟。通过缓解与 KV 缓存和模型权重相关的双重瓶颈,它显著加快了长上下文 LLM 的卸载服务。
- THUDM/LongBench - E,这是一个通过均匀采样构建的具有更均匀长度分布的测试集,在 0-4k、4k-8k 和 8k+ 长度区间内具有可比的数据量,以提供模型在不同输入长度下的性能变化分析。
- THUDM/LongCite - glm4-9b 和 LongCite-llama3.1-8b,它们分别基于 GLM-4-9B 和 Meta-Llama-3.1-8B 进行训练,并支持高达 128K 的上下文。这两个模型指向了我们论文中的“LongCite-9B”和“LongCite-8B”模型。给定基于长上下文的查询,这些模型可以生成准确的响应和精确的句子级引用,使用户可以轻松验证输出信息。
- allenai/WildBench
- RockyHHH/Safety-Evaluating
- yangjianxin1/LongQLoRA - 7B-8K。
- ashishpatel26/LLM-Finetuning - 评估微调)项目存储库!该项目的重点是使用 LoRA 和 Hugging Face 的 transformers 库有效地微调大型语言模型。
- ComposioHQ/composio
- cheshire-cat-ai/core
- yomorun/yomo
- Calcium-Ion/new-api
- rohan-paul/LLM-FineTuning-Large-Language-Models
- PickleBoxer/dev-chatgpt-prompts
- idootop/mi-gpt
- akl7777777/ShellGPT
- OkGoDoIt/OpenAI-API-dotnet - 3 API 的非官方 C#/.NET SDK
- langgptai/awesome-claude-prompts
- jank/curiosity
- Daiyimo/Access-chatGPT-in-Siri
- MustangYM/OSXChatGpt
- kevinamiri/Instructgpt-prompts - 3.5 指令的提示,用于生成和分类文本。该项目包括 ChatGPT 和 GPT-3.5 模型的提示,旨在协助完成写作、分析和理解任务。下面有许多提示,您可以使用这些提示为您的项目生成内容、调试代码、查找问题的解决方案,或者只是了解有关这些模型可以做什么的更多信息。通过使用适当的指令动词,您可以指导模型解决任何与语言相关的任务。
- flyun/chatAir
- bincooo/chatgpt-adapter - api、bing、gemini、coze、claude、绘画 多款AI的聊天接口适配到 OpenAI API 标准接口服务端。
- kangfenmao/cherry-studio
- wikieden/Awesome-ChatGPT-Prompts-CN - 咒语指南-聊天提示词指南
- alfianlosari/ChatGPTSwift
- GPTGenius/chatgpt-vercel - - 通过 Vercel 一键免费创建私有的 ChatGPT 站点
- pacholoamit/chatgpt-prompts
- THUDM/AlignBench - as-Judge),并且结合思维链(Chain-of-Thought)生成对模型回复的多维度分析和最终的综合评分,增强了评测的高可靠性和可解释性。
- protectai/rebuff
- seanzhang-zhichen/llama3-chinese - Chinese是以Meta-Llama-3-8B为底座,使用 DORA + LORA+ 的训练方法,在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。
- click33/chatgpt---mirror-station-summary
- cosin2077/chaty
- yokoffing/ChatGPT-Prompts - Greg Brockman。欢迎来到 “ChatGPT Prompts” 仓库!这是与 ChatGPT 模型一起使用的提示示例集合。
- limaoyi1/Auto-PPT - 3.5, Free to use online / 通过gpt-3.5生成PPT,免费在线使用
- bionic-gpt/bionic-gpt
- traceloop/openllmetry
- whylabs/langkit - 与用户定义的正则表达式模式组匹配的字符串计数、越狱 - 已知越狱尝试的相似性分数、提示注入 - 已知提示注入攻击的相似性分数、幻觉 - 反应之间的一致性检查、拒绝 - 与已知 LLM 拒绝服务响应的相似度得分);情绪和毒性(情感分析、毒性分析)
- poloclub/transformer-explainer - 2 模型,允许您试验自己的文本并实时观察 Transformer 的内部组件和操作如何协同工作以预测下一个令牌。在 http://poloclub.github.io/transformer-explainer 上试用 Transformer Explainer,并在 YouTube https://youtu.be/ECR4oAwocjs 上观看演示视频。
- CyberAlbSecOP/Awesome_GPT_Super_Prompting
- successfulstudy/promptoftheyear
- NeoVertex1/SuperPrompt
- protectai/llm-guard
- Josh-XT/AGiXT
- OpenCSGs/csghub
- abilzerian/LLM-Prompt-Library - 4o、Claude 3 Opus、Llama3、Gemini 等。这些提示涵盖了广泛的应用,从文本操作到医疗援助和代码生成。
- MadcowD/ell - 4o-mini自动生成的提交消息,将提示的自动版本控制和序列化直接发送到本地存储。此过程类似于机器学习训练循环中的检查点,但它不需要任何特殊的 IDE 或编辑器 - 全部使用常规 Python 代码完成。3. 用于监控、版本控制和可视化的工具。使用正确的工具,Prompt 工程从一门黑暗的艺术变成了一门科学。Ell Studio 是一个本地开源工具,用于提示版本控制、监控、可视化。使用 Ell Studio,您可以随着时间的推移经验化您的提示优化过程,并在为时已晚之前捕获回归。4. 多模态应该是一流的。LLMs 可以处理和生成各种类型的内容,包括文本、图片、音频和视频。使用这些数据类型进行提示工程应该像使用文本一样简单。
- utkusen/promptmap
- microsoft/aici
- hijkzzz/Awesome-LLM-Strawberry
- zou-group/textgrad
- shmsw25/FActScore
- voideditor/void
- bin123apple/autocoder - 4 Turbo(2024 年 4 月)和 GPT-4o。
- NoDataFound/hackGPT
- gersteinlab/ML-bench - Bench 的官方存储库:在存储库级代码上评估用于机器学习任务的大型语言模型和代理 (https://arxiv.org/abs/2311.09835)
- Teddy-XiongGZ/MedRAG
- HICAI-ZJU/Scientific-LLM-Survey
- thu-coai/PsyQA
- awesome-chatgpt/awesome-chatgpt
- assafelovic/gpt-newspaper
- onuratakan/gpt-computer-assistant - 4O\ChatGPT 应用程序的替代工作。这样一来,这是一项新鲜而稳定的作品。此时,您可以轻松地安装为 Python 库,但我们将准备一个管道来提供本机安装脚本 (.exe)。
- open-chinese/alpaca-chinese-dataset - - 中文指令微调数据集【人工+GPT4o持续更新】
- ahmetbersoz/chatgpt-prompts-for-academic-writing
- GAIR-NLP/MathPile
- allenai/dolma - - 此存储库包含 Dolma Toolkit 的源代码。
- Open LLM Leaderboard
- hiyouga/LLaMA-Efficient-Tuning - MoE、Qwen、Qwen2-VL、Yi、Gemma、Baichuan、ChatGLM、Phi 等。集成方法:(连续)预训练、(多模态)监督微调、奖励建模、PPO、DPO、KTO、ORPO 等。可扩展资源:16 位全调优、冻结调优、LoRA 和 2/3/4/5/6/8 位 QLoRA,通过 AQLM/AWQ/GPTQ/LLM/HQQ/EETQ。高级算法:GaLore、BAdam、Adam-mini、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA 和 Agent tuning。实用技巧:FlashAttention-2、Unsloth、Liger Kernel、RoPE 缩放、NEFTune 和 rsLoRA。实验监视器:LlamaBoard、TensorBoard、Wandb、MLflow 等。更快的推理:OpenAI 风格的 API、Gradio UI 和 CLI,以及 vLLM 工作程序。
- thu-coai/BPO - 3.5-turbo 和 claude-2。性能也优于PPO和DPO,并呈现出正交的改进。通过优化用户指令,从输入角度对模型进行对齐。过程分三步:1、`反馈数据收集`:为了建模人类偏好,首先搜集了一系列带有反馈信号的开源指令微调数据集,并对这些数据经过精心筛选和过滤。2、`构造提示优化对`:使用这些反馈数据来引导大型模型识别出用户偏好的特征。首先让模型分析用户喜欢的回复和不喜欢的回复,找出其中蕴含的人类偏好特征。接着,基于这些特征,再利用模型优化原始的用户输入,以期得到更符合用户喜好的模型输出。3、`训练提示优化器`:经过步骤一和步骤二,我们得到了大量隐含人类偏好的提示对。利用这些提示对,我们训练一个相对较小的模型,从而构建提示偏好优化器。最终,我们可以利用该提示优化器对用户指令进行优化,并应用在广泛的LLM上。[BPO 数据集](https://huggingface.co/datasets/THUDM/BPO)
- lobehub/lobe-chat
- alibaba/ChatLearn - LM、DeepSpeed、vLLM 等。例如,我们可以使用 Megatron-LM 进行训练,使用 vLLM 来加快推理速度。灵活的并行策略和资源分配:ChatLearn 支持针对各种模型配置的不同并行策略,从而能够根据每个模型的计算、内存和通信特性制定不同的并行方法,此外,ChatLearn 还具有灵活的资源调度机制,可适应跨模型对资源的独占或共享使用,通过其系统调度策略,它促进了高效的串行/并行执行和优化的 GPU 内存共享,从而提高了整体性能和效率。高性能:与目前最先进的 SOTA(系统)相比,在 7B+7B(策略 + 奖励)规模下实现了 52% 的性能提升,在 70B+70B 规模上实现了 137% 的提升,同时, 支持更大规模的对齐训练,例如 300B+300B。
- arielnlee/Platypus - 2 变压器架构的一系列微调和合并变体。鸭嘴兽利用 LoRA 和 PEFT。
- PCL-Platform.Intelligence/PanGu-Alpha
- PCL-Platform.Intelligence/PanGu-Dialog - Dialog。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用了大规模预训练语言模型的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。
- cryscan/multilingual-share - 90k 项目,希望借助大家的力量推进数据清洗与对齐工作。可能与各位想象的有所不同,GPT模型主要通过预训练数据集赋能,语料的质量对模型最终性能至关重要。然而,百度知道、CSDN、知乎等平台软文过多;小木虫等高质量平台语料过少;个人博客内容质量参差不齐。OpenAI完成数据集的收集花费了巨大成本,以至于需要从微软集资。我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定外语基础的网友们献上自己的力量。[RWKV-Wiki/MultilingualShareGPT](https://github.com/RWKV-Wiki/MultilingualShareGPT)
- JosephusCheung/GuanacoDataset
- ziliwangnlp/RefGPT - dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型。称作Reference-to-Dialogue GPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。需要关注2个要点。Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或网站。调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。
- pengzhile/pandora
- YeungNLP/firefly-train-1.1M
- zhile-io/pandora
- FreedomIntelligence/HuatuoGPT-sft-data-v1
- michaelwzhu/ShenNong_TCM_Dataset
- michaelwzhu/ChatMed_Consult_Dataset - 3.5引擎回答的。后续会对互联网上的医生回答与患者回答进行筛选甄别,择优选择,构建质量更优的数据集。
- Anthropic/hh-rlhf
-
其他_文本生成、文本对话
- Awesome-TOD-NLG-Survey
- openai/gpt-3 - 3,一种具有 1750 亿个参数的自回归语言模型,比之前任何非稀疏语言模型多 10 倍,并在少数镜头设置中测试其性能。对于所有任务,GPT-3 在没有任何梯度更新或微调的情况下应用,任务和少数镜头演示纯粹通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解密单词、在句子中使用新单词或执行 3 位数算术。同时,我们还确定了 GPT-3 的少数镜头学习仍在挣扎的一些数据集,以及 GPT-3 面临与大型网络语料库训练相关的方法问题的一些数据集。最后,我们发现 GPT-3 可以生成人类评估人员难以区分的新闻文章样本与人类撰写的文章。我们讨论了这一发现和一般 GPT-3 更广泛的社会影响。
- openai/gpt-2
- karpathy/minGPT
- karpathy/nanoGPT - 2) 的最简单、最快的存储库。
- minimaxir/gpt-2-simple - 2 文本生成模型
- XiangLi1999/PrefixTuning
- RUCAIBox/TextBox - 2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)
- fastnlp/CPT - 解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.
- songhaoyu/BoB
- YunwenTechnology/QueryGeneration
- beyondguo/genius
- imcaspar/gpt2-ml
- EleutherAI/gpt-neo - tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。
- rikdz/GraphWriter
- liucongg/GPT2-NewsTitle
- ZhuiyiTechnology/t5-pegasus
- google-research/text-to-text-transfer-transformer - Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。
- google-research/multilingual-t5
- Morizeyao/GPT2-Chinese
- bojone/t5_in_bert4keras
- PENS-Personalized-News-Headline-Generation
- Aristotle609/Medium-Title-Generator
- yangjianxin1/GPT2-chitchat
- RUCAIBox/MVP - 解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。
- RUCAIBox/Context-Tuning
- samueldobbie/markup - 3 提供支持
- deeppavlov/DeepPavlov
- bentrevett/pytorch-seq2seq
- RasaHQ/rasa - 创建聊天机器人和语音助手
- gunthercox/ChatterBot
- howdyai/botkit
- 0hq/WebGPT
- huggingface/alignment-handbook - tuning监督微调,教语言模型遵循有关如何收集和策划自己的训练数据集的说明和提示。Reward modeling奖励建模:教授语言模型根据人类或AI偏好区分模型响应。Rejection sampling剔除采样:一种简单但功能强大的技术,可提高SFT模型的性能。直接偏好优化(DPO):PPO的强大而有前途的替代方案。
- OSU-NLP-Group/Mind2Web
- dsdanielpark/Bard-API
- thu-coai/CDial-GPT
- MuiseDestiny/zotero-gpt - 3.5-turbo 和 gpt-4。询问有关当前 PDF 文件(全文或所选文本)的问题。对所选论文(摘要)提出问题。 将所选论文总结成几个高度浓缩的句子。根据所选文本搜索库中的项目。
- microsoft/LMOps
- google/sentencepiece
- aishwaryanr/awesome-generative-ai-guide
- SUSYUSTC/MathTranslate
- user1342/Tomato - 在自然语言中隐藏加密消息。如何运作:LLM 生成的封面文本:LLM 像往常一样,根据提示生成连贯的文本。使用 MEC 嵌入:MEC 用于将隐藏消息(密文)的概率分布与LLM,这种耦合最小化了联合熵,确保隐写文本(带有嵌入消息的封面文本)保留了自然语言的统计属性,使隐藏的消息实际上无法被检测到。解码过程:在解码过程中,LLM 通过提供隐写文本的上下文感知解释来提供帮助,然后反向使用 MEC 将隐藏的消息与隐藏文本分离,该过程利用嵌入过程中使用的相同概率分布,确保在不影响隐藏文本完整性的情况下准确提取消息。此方法可确保隐藏的消息无缝集成到文本中,并且可以在以后安全、精确地检索,同时将检测风险降至最低。
- KellerJordan/modded-nanogpt - Momentum Orthogonalized by Newton-schulz)。要执行训练,请在 8xA100 或 8xH100 节点上运行以下三个命令。他们在 8xH100 上以 <20 分钟完成,互联网连接良好。这将在 Fineweb [1] 的 2.67B 令牌上训练一个 124M 参数的 transformer 进行 5100 个步骤,实现 ~3.277 的验证损失。相比之下,默认的 llm PyTorch trainer 在训练 10B 令牌后会产生 >3.28 验证损失。
- EssayKillerBrain/WriteGPT
- AdityaNG/kan-gpt - Arnold 网络 (KAN) 进行语言建模的生成式预训练转换器 (GPT) 的 PyTorch 实现
- BART - Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型
- Aristotle609/Medium-Title-Generator
- Ceelog/DictionaryByGPT4
- BART - Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型
-
类ChatGPT大语言对话模型及数据
-
-
NLP语料和数据集
-
- Gaokao - shot` 测试。
- fighting41love/funNLP
- brightmart/nlp_chinese_corpus
- verazuo/jailbreak_llms
- thunlp/Few-NERD
- CLUEbenchmark/CLUECorpus2020
- esbatmop/MNBVC - ending BT Vast Chinese corpus超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
- doc2dial/sharedtask-dialdoc2021 - seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。
- IceFlameWorm/NLP_Datasets
- pkumod/CKBQA
- Marsan-Ma-zz/chat_corpus
- GuocaiL/nlp_corpus
- zejunwang1/CSTS: - X 数据集;北大中文文本复述数据集 PKU-Paraphrase-Bank;Chinese-STS-B 数据集;Chinese-MNLI 自然语言推理数据集;Chinese-SNLI 自然语言推理数据集;OCNLI 中文原版自然语言推理数据集;CINLID 中文成语语义推理数据集
- pluto-junzeng/CNSD - scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。
- benywon/ChiQA
- eecrazy/CausalBank
- InsaneLife/ChineseNLPCorpus
- CLUEbenchmark/CLUEDatasetSearch
- google-research-datasets/tydiqa
- unicamp-dl/mMARCO
- houbb/sensitive-word
- sheng-z.github.io/ReCoRD-explorer
- stanfordnlp.github.io/coqa
- skylion007/OpenWebTextCorpus - 2 的信息有限,我们承认数据集可能还有进一步改进的空间。因此,我们欢迎您的贡献和改进建议。我们希望这个数据集的可用性能够鼓励进一步复制 GPT-2 的工作,并被证明对其他项目有用。我们将很快在 master 分支上发布更多代码。
- nickrosh/evol-teacher
- RyokoAI/Fandom23K
- uonlp/CulturaX
- GAIR/lima
- ydli-ai/CSL
- CohereForAI/aya_collection
- OpenAssistant/oasst1
- ehovy/race
- rajpurkar/squad
- BAAI/CCI-Data
- bigcode/the-stack
- smashwords.com
- community-datasets/eu_regulatory_ir
- IWSLT/iwslt2017
- shareAI/ShareGPT-Chinese-English-90k
- microsoft/AGIEval
- qgyd2021/sentence_pair
- oscar-corpus/OSCAR-2201
- cimec/lambada - 47 代码为 en 。
- defunct-datasets/the_pile_stack_exchange
- defunct-datasets/the_pile_books3
- CausalLM/Refined-Anime-Text - 4/3.5 token的、全新合成的文本数据集的动漫主题子集。该数据集此前从未公开发布过。由于社区对动漫文化的浓厚兴趣,且考虑到通识数据集中此类题材的代表性不足,以及原始文本中网络俚语和无关内容的泛滥而导致的低质量、难以清理的问题,我们决定发布这份子集供进一步研究。这份数据集旨在用于研究大型语言模型中网络亚文化的数据治理,并探索具有挑战性的 LLM 持续预训练问题,例如特定主题的知识蒸馏以及对未见知识的持续学习。
- statmt/cc100 - R 的数据集。该语料库包括 100+ 种语言的单语数据,还包括罗马化语言的数据(用 *_rom 表示)。这是使用 CC-Net 存储库通过处理 2018 年 1 月至 12 月的 Commoncrawl 快照提供的 url 和段落索引构建的。CC-100 主要用于预训练语言模型和单词表示。语言:多语言。
- allenai/c4 - of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 列表中删除所有包含单词的文档。
- teleprint-me/phi-1 - 1 模型而创建的,基于论文“教科书是你所需要的一切”。它包含来自各种教科书的高质量数据,使用 OpenAI 的 GPT-3.5 和 GPT-4 模型进行转换和合成。
- laion/OIG - small-chip2)。OIG目前为44M。我们将继续发布更大的多样化指令数据集,目标是创建 1 万亿个不同指令的词元——足以从头开始预训练LLM。
- Open-Orca/OpenOrca - 4 完成,~3.2M GPT-3.5 完成。它与ORCA论文中提出的分布一致,以表格形式呈现,目前代表了完整预期数据集的部分完成,并且正在不断生成以扩大其范围。这些数据主要用于自然语言处理领域的训练和评估。该数据集支持多种任务,包括语言建模、文本生成和文本增强。
- CohereForAI/aya_dataset
- CohereForAI/xP3x
- tasksource/oasst1_pairwise_rlhf_reward
- hotpotqa/hotpot_qa
- ought/raft
- EleutherAI/proof-pile-2 - web-math (15B tokens):OpenWebMath 数据集,其中包含来自互联网的大量高质量数学文本;algebraic-stack (11B tokens):一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。
- EleutherAI/pile
- EleutherAI/lambada_openai
- katielink/healthsearchqa - PaLM论文(arXiv预印本)发布的消费者健康问题数据集。我们策划了自己的附加数据集,其中包含 3,173 个经常搜索的消费者问题,称为 HealthSearchQA。该数据集是使用种子医疗条件及其相关症状策划的。我们使用种子数据来检索由搜索引擎生成的公开可用的常用搜索问题,这些问题显示给所有输入种子词的用户。我们将数据集作为回答消费者医疗问题的开放基准发布,并希望这将成为社区的有用资源,作为反映现实世界消费者关注的数据集。
- BAAI/AquilaMoE-SFT - Data-V2、falcon-refinedweb、C4、Pile、WuDaoCorporaText、ChineseWebText 等。上述开源数据经过语言过滤以仅保留中英文文本,启发式细化以删除低质量内容,重复数据删除以保持唯一性,特定领域过滤以确保相关性,数据质量检查,去除有毒和露骨内容,最后以指定比例进行数据混合。
- allenai/qasc
- nyu-mll/glue - 段落对组成的问答数据集,其中段落中的一个句子(来自维基百科)包含相应问题的答案(由注释者编写)。基准测试的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠程度低的对,将任务转换为句对分类。任务是确定上下文句子是否包含问题的答案。原始任务的修改版本删除了模型选择确切答案的要求,但也删除了简化的假设,即答案始终存在于输入中,并且词汇重叠是可靠的提示。qqp:Quora Question Pairs2 数据集是来自社区问答网站 Quora 的问题对集合。任务是确定一对问题在语义上是否等价。rte:识别文本蕴涵 (RTE) 数据集来自一系列年度文本蕴涵挑战。基准测试的作者结合了来自RTE1(Dagan等人,2006),RTE2(Bar Haim等人,2006),RTE3(Giampiccolo等人,2007)和RTE5(Bentivogli等人,2009)的数据。示例是根据新闻和维基百科文本构建的。基准测试的作者将所有数据集转换为两类拆分,对于三类数据集,为了保持一致性,他们将中立和矛盾折叠为非蕴涵。sst2:斯坦福情感树库由电影评论中的句子和他们情感的人类注释组成。任务是预测给定句子的情绪。它使用双向(正/负)类拆分,仅带有句子级标签。stsb:语义文本相似性基准(Cer et al., 2017)是从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对的集合。每对都经过人工注释,相似度分数从 1 到 5。wnli:Winograd Schema Challenge (Levesque et al., 2011) 是一项阅读理解任务,其中系统必须阅读带有代词的句子,并从选项列表中选择该代词的指称。这些示例是手动构建的,以挫败简单的统计方法:每个示例都取决于句子中单个单词或短语提供的上下文信息。为了将问题转换为句子对分类,基准测试的作者通过将模棱两可的代词替换为每个可能的指称来构造句子对。任务是预测替换代词的句子是否由原始句子引起。他们使用一个小型评估集,该评估集由源自小说书籍的新示例组成,这些示例由原始语料库的作者私下共享。虽然包含的训练集在两个类之间是平衡的,但测试集在它们之间是不平衡的(65% 不是蕴涵)。此外,由于数据怪癖,开发集是对抗性的:假设有时在训练和开发示例之间共享,因此如果模型记住了训练示例,它们将预测相应开发集示例上的错误标签。与 QNLI 一样,每个示例都是单独评估的,因此模型在此任务上的分数与其在未转换的原始任务上的分数之间没有系统的对应关系。基准测试的作者调用转换数据集 WNLI (Winograd NLI)。GLUE中的语言数据为英语 (BCP-47 en )。
- ErnestSDavis/winograd_wsc
- EleutherAI/lichess-puzzles - 05-09)。《你能学会算法吗?从简单到困难的问题与循环网络的泛化“被包括在内,除了 26,079 个谜题,这些谜题不再出现在 Lichess 数据库中(假设它们可能出于充分的理由被删除)。对于每个谜题, ctx 都是一个实际的 Lichess 游戏的 SAN 成绩单(每个半步都有编号),直到谜题位置。请注意,这包括 Lichess 和 Easy-to-Hard 数据集中 Moves 列的第一次移动。target 是最好的下一步,在SAN中,具有领先的空间。此移动(列中 Moves 的第二步)通常与实际的 Lichess 游戏不同,后者可能包含错误。不包括拼图解决方案的其他动作。这种格式与“弱到强泛化”中使用的格式相匹配,并且这组谜题也旨在尽可能相似(除了 Lichess 删除的 26k)。
- abisee/cnn_dailymail
- allenai/quartz
- allenai/ropes
- allenai/math_qa - RAT 数据集进行注释来收集的。AQuA-RAT提供了问题、选项、理由和正确的选项。
- community-datasets/definite_pronoun_resolution
- math-ai/StackMathQA
- argilla/OpenHermesPreferences - 2.5。它将来自源数据集的响应与其他两个模型(Mixtral-8x7B-Instruct-v0.1 和 Nous-Hermes-2-Yi-34B)的响应相结合,并使用 PairRM 作为偏好模型来进行评分和排名。该数据集可用于训练偏好模型或通过直接偏好优化(DPO)等技术对齐语言模型。
- argilla/distilabel-capybara-dpo-7k-binarized
- argilla/dpo-mix-7k
- commoncrawl.org - 50 亿个新页面。
- databricks/databricks-dolly-15k - 相同方式共享 3.0 未本地化版本许可的条款,该数据集可用于任何目的,无论是学术目的还是商业目的。Databricks 员工被邀请在八个不同的指令类别中的每一个类别中创建提示/响应对,包括 InstructGPT 论文中概述的七个,以及一个开放式自由格式类别。贡献者被指示避免使用来自网络上除维基百科以外的任何来源的信息(针对指令类别的特定子集),并明确指示避免使用生成式人工智能来制定指令或响应。
- HuggingFaceFW/fineweb - By 1.0 许可下发布完整数据集。然而,通过仔细添加额外的过滤步骤,我们成功地将 FineWeb 的性能推高到远高于原始 RefinedWeb 的性能,并且在我们的数据集上训练的模型也优于在其他常用的高质量 Web 数据集(如 C4、Dolma-v1.6、The Pile、SlimPajama、RedPajam2)上训练的模型。也就是说,我们认为仍有进一步过滤和改进的空间,并打算继续探索如何在即将到来的 FineWeb 版本中提高数据集质量。
- Project Gutenberg
- data.baai.ac.cn/BAAI-MTP - transformers Data,wikipedia,cc-net,stackexchange,reddit,S2orc
- paracrawl.eu - Scale”。
- data.baai.ac.cn/ArabicText-2022
- dumps.wikimedia.org - l 以获取定期更新。所有维基百科wiki中所有页面的副本,以HTML形式呈现。
- text-machine.cs.uml.edu/quail
- PolyAI/banking77
- theatticusproject/cuad-qa
- allenai/sciq
- allenai/social_i_qa
- m-a-p/Matrix
- LooksJuicy/ruozhiba - CQIA启发,构建类似数据集,但答案风格相对更简洁。弱智吧精选问题数据来自github提供的疑问句,调用GPT-4获取答案,并过滤掉明显拒答的回复。
- m-a-p/CMMMU
- m-a-p/MusicPile
- LSDSem/story_cloze
- nyu-mll/multi_nli
- codefuse-ai/CodeExercise-Python-27k
- TIGER-Lab/MathInstruct
- microsoft/orca-math-word-problems-200k - Turbo 生成的。有关数据集构建的详细信息,请参阅 Orca-Math: Unlocking the potential of SLM in Elementary School Math。该数据集旨在增强语言模型的数学能力。它旨在为语言模型提供坚实的基础,使其在数学问题解决方面表现出色。
- ontonotes/conll2012_ontonotesv5
- open-web-math/open-web-math
- stanfordnlp/imdb
- Samsung/samsum - NC-ND 4.0)。
- wikimedia/wikipedia
- liwu/MNBVC
- togethercomputer/Long-Data-Collections - tune/ 目录中。这些专门的数据集包括源自自然问题的多段落问答和以 BookSum 数据集为例的长上下文摘要。预训练数据是用于训练 AI 模型的各种数据集的集合。这些数据集包括各种来源,提供广泛的信息,从书籍到科学论文和教学数据。
- allenai/dolma
- anon8231489123/ShareGPT_Vicuna_unfiltered
- legacy-datasets/wikipedia
- HuggingFaceH4/ultrachat_200k - 7B-β,这是一种最先进的 7b 聊天模型。原始数据集由 ChatGPT 生成的 1.4M 对话组成,涵盖广泛的主题。为了创建 UltraChat 200k ,我们应用了以下逻辑:选择数据子集,以便更快地进行监督微调。数据集的真大小写,正如我们观察到的那样,大约 5% 的数据包含语法错误。删除助手回复“我没有情绪”或“我没有意见”等短语的对话,即使是不涉及任何内容的基于事实的提示。数据集有四个拆分,适用于:监督微调 ( sft )。通过拒绝抽样或 PPO 等技术进行生成排名 ( gen )。
- garage-bAInd/Open-Platypus - solutions-python-testgen-gpt4、jondurbin/airoboros-gpt4-1.4.1、TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k、ARB、timdettmers/openassistant-guanaco
- HuggingFaceH4/no_robots - Bench:一个跨越 80 个对话和 10 个领域的多回合基准测试。AlpacaEval:一个单轮基准测试,用于评估聊天和指导 text-davinci-003 模型的性能。请注意,MT-Bench 和 AlpacaEval 依靠 LLMs GPT-4 来判断模型响应的质量,因此排名表现出各种偏差,包括对从 GPT 中提取的模型的偏好。因此,您可能会发现,从使用 No Robots 训练的模型中获得的分数低于其他合成数据集。因此,我们还建议在以下位置提交您的模型以供人工评估:Chatbot Arena:在头对头比较中对聊天模型进行实时、人工评估。No Robots 中的数据是英文的 (BCP-47 en)。
- timdettmers/openassistant-guanaco
- TigerResearch/tigerbot-kaggle-leetcodesolutions-en-2k - solutions数据集,加工生成的代码类sft数据集,原始来源:[/erichartford/leetcode-solutions](https://www.kaggle.com/datasets/erichartford/leetcode-solutions)
- TigerResearch/tigerbot-law-plugin
- TigerResearch/sft_zh - zh数据合集。本合集涵盖本组织下开源的其他中文sft-中文-数据集,不需要重复下载。alpaca 中文、百科问答、名著问答、猜谜语、阅读理解、问答、知乎问答。
- mandyyyyii/scibench
- csebuetnlp/xlsum - Sum 具有高度抽象性、简洁性和高质量,正如人类和内在评估所表明的那样。
- csebuetnlp/CrossSum - Sum 数据集,并使用与语言无关的表示模型通过跨语言检索来对齐用不同语言编写的相同文章。
- OpenAssistant/oasst2
- allenai/quac
- pleisto/wikipedia-cn-20230720-filtered
- BelleGroup/multiturn_chat_0.8M
- bigscience/xP3
- nvidia/ChatRAG-Bench
- Replete-AI/code_bagel
- fancyzhx/ag_news
- defunct-datasets/bookcorpusopen - Eye慷慨主持。The-Eye 是一个非营利性、社区驱动的平台,致力于存档和长期保存任何和所有数据,包括但不限于......网站、书籍、游戏、软件、视频、音频、其他数字暗箱和想法。
- defunct-datasets/the_pile_openwebtext2
- codemayq/chinese_chatbot_corpus
- THUIR/T2Ranking - 段落对提供 4 级相关性判断。与现有数据集相比,T 2 Ranking数据集具有以下特点和优势:该数据集聚焦于中文搜索场景,与现有的中文段落排名数据集相比,在数据尺度上具有优势,可以更好地支持深度学习算法的设计;该数据集具有大量的细粒度相关标注,有助于挖掘查询和段落之间的细粒度关系,构建更准确的排序算法;通过从多个商业搜索引擎中检索段落结果并提供完整的注释,在一定程度上缓解了假阴性问题,有利于提供更准确的评估;我们设计了多种策略来保证数据集的高质量,例如使用段落段模型和段落聚类模型来增强段落的语义完整性和多样性,并采用主动学习的注释方法来提高数据注释的效率和质量。
- defunct-datasets/amazon_us_reviews - reviews-pds S3 存储桶中的 TSV 文件形式提供。数据文件中的每一行对应于一个单独的审阅(制表符分隔,没有引号和转义字符)。每个数据集都包含以下列: marketplace - 撰写评论的商城的 2 个字母的国家/地区代码。customer_id - 随机标识符,可用于汇总单个作者撰写的评论。review_id - 审阅的唯一 ID。product_id - 与评价相关的唯一商品编号。在多语言数据集中,同一产品在不同国家/地区的评论可以按同一product_id分组。 product_parent - 可用于汇总同一产品评论的随机标识符。product_title - 产品的标题。 product_category - 可用于对评论进行分组的广泛产品类别(也用于将数据集分组为连贯的部分)。star_rating - 评论的 1-5 星评级。helpful_votes - 有用的票数。total_votes - 评论收到的总票数。vine - 评论是作为 Vine 程序的一部分编写的。verified_purchase - 评论是针对已验证的购买。review_headline - 评论的标题。review_body - 评论文本。review_date - 撰写评论的日期。
- BAAI/COIG-PC - PC数据集是一个精心策划和全面的中文任务和数据集合,旨在促进中文自然语言处理(NLP)语言模型的微调和优化。该数据集旨在为研究人员和开发人员提供一套丰富的资源,以提高语言模型处理中文文本的能力,可用于文本生成、信息提取、情感分析、机器翻译等各个领域。COIG-PC 数据集是自然语言处理 (NLP) 领域的宝贵资源,原因有很多:解决语言复杂性:汉语以其错综复杂、字符种类繁多和语法结构多样而闻名。像 COIG-PC 这样专为中文量身定制的专用数据集对于在模型训练期间充分解决这些复杂性至关重要。全面的数据聚合:COIG-PC数据集是整合市场上几乎所有可用的中文数据集的广泛努力的结果。这种全面的聚合使其成为中国 NLP 最详尽的集合之一。重复数据删除和规范化:COIG-PC 数据集经过严格的手动处理,以消除重复数据并执行规范化。这确保了数据集没有冗余,数据一致且结构良好,使其对模型训练更加用户友好和高效。微调和优化:数据集基于指令的措辞有助于更好地微调和优化语言模型。这种结构使模型能够更好地理解和执行任务,这对于提高看不见或新任务的性能特别有益。COIG-PC数据集具有全面的汇总、细致的选择、重复数据删除和规范化功能,是训练和优化针对中国语言和文化量身定制的语言模型的无与伦比的资源。它解决了中文语言处理的独特挑战,并成为中文NLP进步的催化剂。
- yahma/alpaca-cleaned - davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。以下问题已在原始版本中发现,并在此数据集中修复:幻觉:原始数据集中的许多指令都有引用互联网数据的指令,这只会导致 GPT3 产生幻觉答案。合并指令:由于某种原因,在原始数据集中有许多指令被合并在一起。空输出:原始数据集中的某些条目的输出为空。空代码示例:原始数据集中的某些描述缺少代码示例,因此难以理解代码的预期行为。生成图像的说明:原始数据集中的一些描述包括生成图像的说明,这显然是不可能的。N/A 输出:原始数据集中的某些代码片段具有 N/A 输出。输入字段不一致:原始数据集在输入字段本应为空时,其输入字段的使用不一致。错误答案:原始数据集中的某些说明/问题有不正确的答案。据估计,大约 80% 的数学问题都有不正确的答案。无意义/不清楚的指令:许多指令不清楚,如果指令不明确,我们会尝试澄清(或重写)指令。稍微不清楚但可以推断出含义的说明不会改变。无关的转义和控制字符:原始数据集具有多个具有无关转义和控制字符的条目。Alpaca 中的数据是英文的 (BCP-47 en)。
- lupantech/ScienceQA - 3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。
- togethercomputer/RedPajama-Data-1T - 03-20 的维基百科转储,包含 20 种不同语言的文本。数据集采用预处理格式,因此删除了超链接、注释和其他格式样板。ArXiv 数据从 arxiv 请求方付款存储桶中的 Amazon S3 下载。我们只保留源文件,并删除序言、注释、宏和参考书目。数据集的 Stack Exchange 拆分可从 Internet Archive 下载。在这里,我们只保留来自 28 个最大网站的帖子,删除 html 标签,将帖子分组为问答对,并按分数对答案排序。
- BAAI/Infinity-Instruct - 2.5、UltraInteract_sft、CodeBagel、CodeFeedback-Filtered-Instruction、self-oss-instruct-sc2-exec-filter-50k、CodeExercise-Python-27k、Evol-Instruct-Code-80k-v1、MathInstruct、orca-math-word-problems-200k、MetaMathQa。
- UNCorpus 联合国平行语料库
- cerebras/SlimPajama-627B - 1T。除了数据之外,我们还发布了我们为创建 SlimPajama 而构建的工具。将 MinHashLSH 重复数据删除应用于像 RedPajama 这样的万亿个令牌数据集是无法使用现成的开源代码实现的。我们对现有解决方案进行了多项改进,以生成一个基础架构,该基础架构可以以分布式、多线程和内存高效的方式对万亿个令牌数据集执行 MinHashLSH 重复数据删除。今天,我们正在开源这个基础设施,使社区能够在未来轻松创建更高质量、广泛去重的数据集。
- community-datasets/tapaco - 25万个句子。它涵盖了一系列语言,据我们所知,没有其他释义数据集存在。释义检测和生成已成为 NLP 中的热门任务,并越来越多地集成到各种常见的下游任务中,例如机器翻译、信息检索、问答和语义解析。大多数现有数据集仅涵盖一种语言(在大多数情况下为英语)或少数语言。此外,一些释义数据集侧重于词汇和短语,而不是句子释义,而其他释义数据集则使用机器翻译(半)自动创建。
- Skywork/SkyPile-150B - 150B数据集的可公开访问部分包含大约2.33亿个独特的网页,每个网页平均包含1000多个汉字。该数据集总共包括大约 1500 亿个令牌和 620 GB 的纯文本数据。SkyPile-150B数据集完全由中国数据组成。我们利用超过 200w 的规则和 BERT 基础模型来确定数据集中存在的敏感数据,并随后删除了我们检测到的任何有害条目。尽管我们尽了最大努力,但SkyPile-150B,鉴于其从公开可用的网页构建,可能包含敏感信息,例如电子邮件地址,电话号码或IP地址。我们已努力通过重复数据删除和低质量过滤来最大程度地减少这种情况,但 SkyPile-150B 的用户应保持警惕。互联网上充斥着潜在的有毒或有偏见的数据。我们已尝试使用特定的 URL 过滤方法来缓解此问题,但我们鼓励用户保持对这一潜在问题的意识。
- CLUEbenchmark/DataCLUE - centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。
- tatsu-lab/alpaca - davinci-003 引擎生成的 52,000 条指令和演示的数据集。此指令数据可用于对语言模型进行指令调整,并使语言模型更好地遵循指令。作者基于 Self-Instruct 框架的数据生成管道进行构建,并进行了以下修改:生成指令数据的 text-davinci-003 引擎,而不是 davinci .编写了一个新的提示,明确要求text-davinci-003生成指令。使用了更激进的批量解码,即一次生成 20 条指令,这大大降低了数据生成的成本。通过摒弃分类指令和非分类指令之间的差异,简化了数据生成管道。每条指令只生成一个实例,而不是像 Self-Instructed 那样生成 2 到 3 个实例。这生成了一个指令跟踪数据集,其中包含以低得多的成本(不到 500 美元)获得的 52K 示例。在一项初步研究中,作者还发现,52K生成的数据比Self-Instruct发布的数据要多样化得多。Alpaca 数据集专为指令训练预训练语言模型而设计。Alpaca 中的数据是英文的 (BCP-47 en)。
- HuggingFaceTB/cosmopedia - 8x7B-Instruct-v0.1 生成的合成教科书、博客文章、故事、帖子和 WikiHow 文章的数据集,该数据集包含超过 3000 万个文件和 250 亿个令牌,使其成为迄今为止最大的开放合成数据集。它涵盖了各种主题;我们试图映射 RefinedWeb 和 RedPajama 等 Web 数据集中存在的世界知识,并生成涵盖它们的合成内容。数据集由 8 个拆分组成,具体取决于拆分中使用的种子数据的来源。当我们要求不同的风格(例如学术教科书与博客文章)或受众(例如幼儿与大学生)时,一些种子样本可能会出现不止一次。例如,每个 stanford 示例都与 4 种不同的提示样式和受众一起使用,请查看 format 和 audience 列了解更多详细信息。我们观察到,相应地调整受众和提示风格可以显着增强多样性;通过MinHash消除重复的比例低于1%。
- CohereForAI/aya_evaluation_suite - human-annotated .将精心挑选的示例机器翻译成 101 种语言 → dolly-machine-translated .人工译后编辑成 6 种语言 ( hin, srp, rus, fra, arb, spa ) → dolly-human-edited .包括 Aya Evaluation Suite 以下子集:aya-human-annotated:250 个人类编写的原始提示,每个提示有 7 种语言。dolly-machine-translated:来自 databricks-dolly-15k 的 200 个人工选择的提示,使用 NLLB 模型自动将英语翻译成 101 种语言(总共 114 种方言)。dolly-human-edited:200 个 dolly-machine 翻译的提示,由流利的演讲者对 6 种语言进行后期编辑。
- annas-archive.org/datasets - Hub 和 LibGen。我们抓取和开源 Z-Lib、DuXiu 等。30,445,640 本书,100,357,126 篇论文——永久保存。我们所有的代码和数据都是完全开源的。我们的使命是存档世界上所有的书籍(以及报纸、杂志等),并使它们被广泛访问。我们认为,所有书籍都应该广泛镜像,以确保冗余和弹性。这就是为什么我们将来自各种来源的文件汇集在一起的原因。有些来源是完全开放的,可以批量镜像(例如Sci-Hub)。其他人是封闭的和保护性的,所以我们试图抓取它们以“解放”他们的书。还有一些则介于两者之间。我们所有的数据都可以下载,我们所有的元数据都可以生成或下载为 ElasticSearch 和 MariaDB 数据库。原始数据可以通过这样的 JSON 文件手动浏览。
- allenai/prosocial-dialog - 3 生成潜在的不安全话语,众包工作者为它们提供亲社会响应。这种方法使我们能够规避两个实质性的挑战:(1)人类之间没有可用的大规模亲社会对话语料库,以及(2)要求人类写出不道德、有毒或有问题的话语可能会导致心理伤害(Roberts,2017;Steiger 等人,2021 年)。
- nvidia/HelpSteer2 - BY-4.0),它支持对齐模型以变得更有帮助、更符合事实和连贯性,同时可以根据其响应的复杂性和冗长性进行调整。该数据集是与 Scale AI 合作创建的。HelpSteer 包含 21, 362 个样本,每个样本包含一个提示、一个响应以及响应的五个人工注释属性,每个属性的范围在 0 到 4 之间,其中越高意味着每个属性越好。连续样本(例如样本 1 与 2、3 与 4 ...)共享相同的提示,因此除了训练 SteerLM 回归 RM 之外,还可以将其用于基于有用性分数的偏好对(例如训练 DPO 或偏好 RM)。大约 29% 的提示是多回合的。在本例中,提示由所有用户轮次和除最后一个助手轮次之外的所有轮次组成,后者包含在响应字段中。这样做是因为属性值仅针对最后一个助手回合进行评估。
- ssymmetry/BBT-FinCUGE-Applications - FinCorpus,包含以下四种语料: 公司公告 在过去二十年中由中国所有上市公司发布的公司公告。原始数据为 PDF 格式,总大小约为 2TB。使用 PDF 解析器将 PDF 文件转换为文我们件,转换后的文件的总大小为 105GB。研究报告 由券商、投行等投资机构发布的针对宏观经济、板块、行业和个股的研究报告,分析研究对象的现状并展望其未来发展趋势。原始数据为PDF格式,总大小约为1TB。经转化后的文我们件总量约11GB。财经新闻 从新浪财经,腾讯财经,凤凰财经,36Kr 和虎嗅等网站爬取的过去五年内的财经新闻。经清洗后的文我们件总量约 20GB。社交媒体 股吧和雪球网过去二十年内的所有股民和博主发表的帖子。经清洗后的文本总量约 120GB。
- mlabonne/llm-datasets
- nvidia/Aegis-AI-Content-Safety-Dataset-1.0 - BY-4.0),遵循 Nvidia 的内容安全分类法,涵盖 13 个关键风险类别。Aegis AI 内容安全数据集由人类和LLMs人与人之间的近 11,000 似手动注释的交互组成,分为 10,798 训练样本和 1,199 测试样本。为了整理数据集,我们使用了来自Anthropic HH-RLHF的关于无害性的人类偏好数据的拥抱脸版本。我们只提取提示,并从 Mistral-7B-v0.1 中引出响应。Mistral 擅长遵循指令,并为内容审核类别生成高质量的响应。我们在系统提示中使用示例,通过指示 Mistral 不要生成类似的响应来确保多样性。我们的数据包括四种不同的格式:仅用户提示、带用户提示的系统提示、带 Mistral 响应的单轮用户提示和带 Mistral 响应的多轮用户提示。
- ibm/duorc - SelfRC 和 ParaphraseRC。SelfRC数据集完全建立在维基百科电影情节上。释义RC有从维基百科电影情节中写出的问题,答案是根据相应的IMDb电影情节给出的。abstractive-qa :该数据集可用于训练抽象问答模型。一个抽象的问答模型由一个段落和一个问题提出,并期望生成一个多词答案。extractive-qa :该数据集可用于训练抽取式问答模型。抽取式问答模型包含一段经文和一个问题,并有望预测段落中答案跨度的开始和结束。模型性能通过精确匹配和 F1 分数来衡量,。
- togethercomputer/RedPajama-Data-Instruct - Gram)的任务。如果返回的实例和验证示例对应于相同的任务,我们将删除整个任务(在此步骤中,如果返回的实例恰好使用与验证示例相同的维基百科文章,但提出不同的问题,我们将保留该任务);(2) 然后,我们删除所有与任何 HELM 验证示例有任何 10 Gram 重叠的实例。我们总共筛选掉了 137 个任务和 5.2M 个实例(在 1069 个任务和 93.3M 个实例中)。
- allenai/MADLAD-400 - 400 (Multilingual Audited Dataset: Low-resource And Document-level) 是一个基于 Common Crawl 的文档级多语言数据集,共涵盖 419 种语言。这将使用截至 2022 年 8 月 1 日可用的 CommonCrawl 的所有快照。与类似数据集相比,此数据集的主要优点是它更多语言(419 种语言),经过审核和过滤,并且是文档级的。主要缺点也是它的强度 - 由于过滤程度更高,它可能缺乏某些应用程序所需的召回率。发布了两个版本:嘈杂数据集,除了文档级 LangID 之外没有过滤,以及干净数据集,它应用了各种过滤器,尽管它本身自然有相当多的噪音。每个数据集都以已删除重复数据的文档级形式发布。
- data.baai.ac.cn/OL-CC - Chinese Conversations Dataset (OL-CC) 是首个以众包方式、人工生成的开源中文对话指令集,基于 openlabel.baai.ac.cn 开放平台进行数据收集,包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。截至目前,已有 276 位志愿者参与了数据集的建设。志愿者完成了以下任务:a) 扮演人类用户向AI助手发出指令,b) 扮演AI助手根据上文指令撰写回答。两个任务为异步任务,因此本数据集分为两个部分:a) 完整的“指令-回答”对,b) 尚没有被回答的指令。
- alisawuffles/WANLI - AI Collaboration for NLI) 是用于自然语言推理 (NLI) 任务的 108K 英语句子对的集合。每个示例都是通过首先在 MultiNLI (Williams et al., 2018) 中识别共享具有挑战性的推理模式的“口袋”示例来创建的,然后指示 GPT-3 编写具有相同模式的新示例。生成的示例集会自动过滤,以包含最有可能帮助模型训练的示例,最后由人工注释者进行标记和选择性修改。与现有的NLI数据集相比,万里具有独特的经验优势。值得注意的是,在 WANLI 而不是 MultiNLI(大 4 倍)上训练模型可以提高我们考虑的 7 个域外测试集的性能,包括 HANS 的 11% 和 Adversarial NLI 的 9%。
- m-a-p/CodeFeedback-Filtered-Instruction - OSS-Instruct、ShareGPT 的 Python 代码子集、Magicoder-Evol-Install 和 Evol-Instruct-Code。最初,从这些数据集中聚合了 287k 个查询。为了分离出最复杂和最翔实的指令,采用了严格的过滤过程。这涉及利用开源聊天模型 Qwen-72B-Chat 进行选择性过滤。代码查询及其在编译数据集中的相应响应由 LLM分配的复杂度分数(从 1 到 5)进行评估,并且仅保留评级为 4 或 5 的代码查询作为种子集。这种细致的过滤过程最终收集了 156k 条高质量的单轮代码指令。
- CLUEbenchmark/SimCLUE - Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集
- argilla/distilabel-intel-orca-dpo-pairs - turbo 始终是最佳响应。我们从UltraFeedback中了解到,情况并非总是如此。此外,DPO 微调受益于偏好对的多样性。
- oscar-corpus/OSCAR-2301 - large Crawled Aggregated coRpus)是一个开源项目,旨在为机器学习(ML)和人工智能(AI)应用提供基于Web的多语言资源和数据集。该项目特别专注于提供大量未注释的原始数据,这些数据通常用于大型深度学习模型的预训练。OSCAR 项目开发了高性能数据管道,专门用于对大量 Web 数据进行分类和过滤。该项目还特别关注提高基于网络的语料库的数据质量,以及为资源匮乏的语言提供数据,以便尽可能多的社区能够使用这些新的机器学习/人工智能技术。
- super.gluebenchmark.com
- EleutherAI/wikitext_document_level - 相同方式共享许可下使用。与Penn Treebank(PTB)的预处理版本相比,WikiText-2大2倍以上,WikiText-103大110倍以上。WikiText数据集还具有更大的词汇量,并保留了原始大小写,标点符号和数字 - 所有这些都在PTB中被删除。由于该数据集由完整的文章组成,因此非常适合可以利用长期依赖关系的模型。
- community-datasets/gnad10
- ceval/ceval-exam - Eval是一个全面的中文基础模型评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同的学科和四个难度级别。每个主题由三个部分组成:dev、val 和 test。每个主题的开发集由五个示例组成,并附有对少镜头评估的解释。val 集旨在用于超参数优化。测试集用于模型评估。测试拆分上的标签不发布,用户需要提交结果才能自动获得测试精度。
- RUCAIBox/TG-ReDial - ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。
- MBZUAI/Bactrian-X - X 数据集是 52 种语言的 3.4M 指令-响应对的集合,通过使用 Google 翻译 API 将 67K 英语指令 (alpaca-52k + dolly-15k) 翻译成 51 种语言获得。然后将翻译后的指令输入到 ChatGPT ( gpt-3.5-turbo ) 以获得其自然响应,从而产生 52 种语言的 3.4M 指令-响应对(52 种语言 x 67k 个实例 = 3.4M 个实例)。
- HuggingFaceH4/stack-exchange-preferences - exchange堆栈溢出数据转储的问题和答案,用于首选项模型训练。重要的是,这些问题已经过过滤,以符合以下偏好模型标准(紧随 Askell 等人,2021 年):有 >=2 个答案。这些数据还可用于教学微调和语言模型训练。仅英语,可能存在其他语言。
- liuhaotian/LLaVA-Instruct-150K - 4 视觉/语言能力的大型多模态。数据集日期:LLaVA Visual Instruct 150K 于 2023 年 4 月通过提示 GPT-4-0314 API 收集。
- allenai.org/data/drop
- m-a-p/COIG-CQIA - CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。
- FlagOpen/FlagInstruct
- deweizhu/bookget
- wangrui6/Zhihu-KOL - assistant.io/ )的数据集。
- BERT-CCPoem - Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。[THUNLP-AIPoet/BERT-CCPoem](https://github.com/THUNLP-AIPoet/BERT-CCPoem) 中国古典诗词预训练模型
- MMLU
- WuDaoCorpora Text文本预训练数据集 - 3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。
- beyond/chinese_clean_passages_80m
- tiiuae/falcon-refinedweb - By 1.0 许可下发布的海量英语网络数据集。通过对 CommonCrawl 进行严格的过滤和大规模重复数据删除而构建的;我们发现,在 RefinedWeb 上训练的模型在仅依赖于 Web 数据的情况下,可以达到在线性能或优于在精选数据集上训练的模型。RefinedWeb 也是“多模态友好”的:它包含处理过的样本中图像的链接和替代文本。
- lmsys/lmsys-chat-1m
- lmsys/chatbot_arena_conversations
- togethercomputer/RedPajama-Data-V2 - V2 是一个用于训练大型语言模型的开放数据集。该数据集包括来自 84 个 CommonCrawl 快照的 100B 多个文本文档,并使用 CCNet 管道进行处理。其中,语料库中有 30B 个文档还带有质量信号。此外,我们还提供了重复文档的 ID,可用于创建包含 20B 重复数据删除文档的数据集。
- stingning/ultrachat
- jondurbin/airoboros-gpt4-1.4.1 - 4 生成,因此受 OpenAI ToS 的约束。用于生成数据 airoboros 的工具是 apache-2。此训练数据的具体重点领域:琐事、数学、荒谬的数学、编码、封闭式上下文问答、封闭式语境问答,有多个语境可供选择作为混杂因素、写作、多选题等。
- b-mc2/sql-create-context
- cognitivecomputations/dolphin - 4 完成增强 (flan1m-alpaca-uncensored.jsonl),~350 万 FLANv2 增加了 GPT-3.5 完成 (flan5m-alpaca-uncensored.jsonl)。我们遵循了 Orca 论文中概述的子混音和系统提示分布。除了少数例外。我们将所有 75k 的 CoT 包含在 FLAN-1m 数据集中,而不是对其进行采样。此外,我们发现许多项目是重复的,因此我们删除了重复项,从而在 ChatGPT 数据集中产生了 3.5m 的指令。然后,我们过滤掉了对齐、拒绝、回避和偏见的实例,以生成一个未经审查的模型,可以在该模型上分层您的个性化对齐 LoRA。
- HuggingFaceFW/fineweb-edu - Edu-score-2)的教育网页组成。这是 1.3 万亿版本。为了提高 FineWeb 的质量,我们使用 LLama3-70B-Inform 生成的注释开发了一个教育质量分类器。然后,我们使用此分类器仅保留最具教育意义的网页。FineWeb-Edu 在流行的基准测试中优于 FineWeb,并显示了在合成数据上训练的分类器的强大功能。除了数据集(包括自 2013 年以来所有过滤的 CommonCrawl 转储)外,我们还发布了用于过滤的教育分类器以及用于训练和运行推理的代码,网址为:[huggingface/cosmopedia](https://github.com/huggingface/cosmopedia/tree/main/classification)
-
其他_文本生成、文本对话
- thu-coai/CrossWOZ
- lmmlzn/Awesome-LLMs-Datasets
- goto456/stopwords
- chatopera/Synonyms
- jkszw2014/bert-kbqa-NLPCC2017
- wavewangyue/NLPCC-MH
- liucongg/NLPDataSet - squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集。
- festvox/datasets-CMU_DoG
- chin-gyou/MovieChats
- krystalan/SGSum
- rkadlec/ubuntu-ranking-dataset-creator
- NiuTrans/Classical-Modern - 现代文平行语料
- sailxuOvO/CC-Riddle
- victorsungo/MMDialog
- qkaren/Counterfactual-StoryRW
- pengxiao-song/awesome-chinese-legal-resources
- ywjawmw/TCM_KG - neo4j 知识图谱
- openai/miniF2F
- liuhuanyong/DomainWordsDict
- castorini/mr.tydi
- dqwang122/MLROUGE
- esdurmus/Wikilingua
- PhilipMay/stsb-multi-mt
- cluebenchmark/OCNLI
- jgc128/mednli
- alipay/RJU_Ant_QA - QA(仁济医院泌尿外科和蚂蚁集团协作问答数据集)是一个创新的泌尿外科医学专业QA推理数据集。
- LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words
- 中文语言理解和生成评测基准-cuge - 词句级、语言理解能力-篇章级、信息获取及问答能力、语言生成能力、对话交互能力、多语言能力、数学推理能力。CUGE由北京智源人工智能研究院支持于2021年12月30日建成,委员单位由15个国内优势科研单位组成,旨在构建全面系统的中文机器语言能力评测体系,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。自2023年1月开始,CUGE的研发及建设由清华大学人工智能研究院、中文中文信息学会计算语言学专业委员会共同支持。
- Leymore/ruozhiba
- hendrycks/math
- RyokoAI/Honeyfeed3600
- www.natcorp.ox.ac.uk
- data.statmt.org/news-crawl
- community-datasets/setimes
- b3x0m/Chinese-H-Novels
- msra-nlc/ChineseKBQA - ICCPOL 2016 Shared Task: Open Domain Chinese Question Answering [开放域中文问答数据集](http://tcci.ccf.org.cn/conference/2016/pages/page05_evadata.html)
- C-Eval 数据集
- yhavinga/ccmatrix
- RyokoAI/ShareGPT52K
- RyokoAI/CNNovel125K
- RyokoAI/ScribbleHub17K
- legacy-datasets/mc4
- allenai/wiqa
- lil-lab/newsroom
- 中文成语语义推理数据集(CINLID)
- archive.org/stackexchange
- qgyd2021/lip_service_4chan
- microsoft/wiki_qa
- m-a-p/MusicPile-sft - sft 是 MusicPile 的一个子集。它包含 1.14M 个样本,音乐语言与乐谱(abc 符号)的比例为 2:1。
- meta-math/MetaMathQA
- stanfordnlp/sentiment140
- teknium/OpenHermes-2.5
- TigerResearch/tigerbot-zhihu-zh-10k
- TigerResearch/pretrain_zh - books 12G, 中文互联网zh-webtext 25G, 中文百科zh-wiki 19G。
- projects/personachat - Chat 数据集人物聊天对话数据
- sailxuOvO/CC-Riddle
- facebookresearch/anli
- projects/personachat - Chat 数据集人物聊天对话数据
- nlpcc2018
- xglue - X和XNLI)之外,XGLUE还从Bing场景中选择了6个新任务,包括新闻分类,查询广告匹配,网页排名,QA匹配,问题生成和新闻标题生成。语言、任务和任务来源的这种多样性为量化跨语言自然语言理解和生成的预训练模型的质量提供了全面的基准。
- roneneldan/TinyStories - 3.5 和 GPT-4)仅使用少量词汇的短篇小说的数据集。
-
-
文本匹配 文本检索 文本相似度
-
其他_文本生成、文本对话
- princeton-nlp/SimCSE
- UKPLab/sentence-transformers - RoBERTa&Co.和PyTorch的多语言句子嵌入。该框架提供了一种简单的方法来计算句子、段落和图像的密集矢量表示。这些模型基于BERT / RoBERTa / XLM-RoBERTa等变压器网络,并在各种任务中实现最先进的性能。文本嵌入在向量空间中,使得相似的文本更接近,并且可以使用余弦相似性有效地找到。
- bojone/CoSENT - BERT更有效的句向量方案.优化cos值的新方案**CoSENT**(Cosine Sentence)。[实验显示](https://kexue.fm/archives/8847),CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。
- shawroad/CoSENT - BERT更有效的句向量方案 Pytorch版
- shuxinyin/SimCSE-Pytorch
- wangyuxinwhy/uniem - ai/m3e-base) ,在中文文本分类和文本检索上均优于 openai text-embedding-ada-002。
- stanford-futuredata/ColBERT
- McGill-NLP/llm2vec
- thunlp/OpenMatch - K(K通常为100或1000)文档。二是文档重排序,即将各神经网络模型和非神经网络模型的排序特征整合,对Top-K文档重排序,进一步提升排序效果。OpenMatch提供了融合外部知识图谱信息的知识增强模型,和筛选大规模数据的数据增强模型。
- NTMC-Community/MatchZoo-py
- voidism/DiffCSE
- shibing624/text2vec - BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。
- terrifyzhao/text_matching
- Brokenwind/BertSimilarity
- bohanli/BERT-flow
- DataTerminatorX/Keyword-BERT
- huggingface/text-embeddings-inference
- netease-youdao/BCEmbedding
- autoliuweijie/BERT-whitening-pytorch - whitening
- nilboy/gaic_track3_pair_sim - 赛道三-冠军方案
- yym6472/ConSERT
- ZhuiyiTechnology/roformer-sim - Sim模型.应用于相似句生成、相似句扩增、语义相似度问题。
- allenai/macaw - angle c(q)uestion answering 多角度 c(q) 问题回答)是一种即用型模型,能够进行一般问题回答,在训练的领域之外表现出稳健性。 它以“多角度”方式进行了训练,这意味着它可以处理一组灵活的输入和输出“槽”(如问题、答案、解释)。Macaw 建立在 T5 之上,有不同的尺寸:macaw-11b、macaw-3b 和 macaw-large,以及各种排行榜上的以答案为重点的版本:macaw-answer-11b。
- Decem-Y/sohu_text_matching_Rank2
- wakafengfan/simcse-pytorch
- bojone/SimCSE
- yangjianxin1/SimCSE
- vdogmcgee/SimCSE-Chinese-Pytorch
- GeekDream-x/SemEval2022-Task8-TonyX - 2022 Task8 —— Multilingual News Article Similarity 中提供了我们获胜系统的实现。这是一项关于评估多语言和跨语言新闻文章相似性的竞赛,涵盖 18 个语言对。
- JohnGiorgi/DeCLUTR
- huggingface/setfit
- epidemic-sentence-pair
- KKenny0/sohu2021 - target pair的向量表示。任务:短短、短长和长长匹配。
- DMetaSoul/chinese-semantic-textual-similarity - BERT 预训练模型进行 fine-tune 调优和评测以得到更好的文本表征模,对业界开源的语义相似(STS)、自然语言推理(NLI)、问题匹配(QMC)以及相关性等数据集进行了搜集整理
- embeddings-benchmark/mteb
- amazon-research/sccl
-
-
机器阅读理解
-
其他_文本生成、文本对话
- GanymedeNil/document.ai
- wptoux/albert-chinese-large-webqa
- bojone/dgcnn_for_reading_comprehension
- cooelf/AwesomeMRC
- nlpdata/c3 - Choice Chinese machine reading Comprehension dataset.
- qiufengyuyi/event_extraction
- xv44586/ccf_2020_qa_match
- lgw863/LogiQA-dataset
- HIT-SCIR/Molweni
- danqi/acl2020-openqa-tutorial - 阅读器方法、密集检索器和端到端训练以及无检索器方法。最后,介绍使用文本和大型知识库的混合方法,并以重要的开放性问题结束本教程。
- zhoujx4/DuReader-Checklist-BASELINE
- google-research/tapas
- PaddlePaddle/RocketQA
- liuhuanyong/MiningZhiDaoQACorpus
- l15y/wenda - 6B、chatRWKV、chatYuan和chatGLM-6B模型下自建知识库查找。
- basketballandlearn/MRC_Competition_Dureader - wwm-large、macbert-large),可以使用[transformers库](https://huggingface.co/luhua/chinese_pretrain_mrc_roberta_wwm_ext_large)。
-
-
知识图谱问答KBQA、多跳推理
-
其他_文本生成、文本对话
- BinNong/meet-libai
- RUCAIBox/KBQAPapers
- shijx12/TransferNet - hop Question Answering over Relation Graph 多跳问题解答关系图的有效透明框架,通过每一跳都预测当前关系得分,并更新实体得分,直到最大跳数。预测该问题的跳数,按跳数的概率加权每一跳得分作为实体的最终得分。
- malllabiisc/EmbedKGQA
- BDBC-KG-NLP/QA-Survey
- LHRLAB/ChatKBQA
- xianghuisun/Chinese_KGQA
- cdjhz/multigen - hop Reasoning on Commonsense Knowledge Graph 基于常识知识图的多跳推理语言生成 本研究关注一类条件文本生成任务,即给定输入源文本X,目标是生成一段目标文本 Y。研究员们额外增加了一个知识图谱 G=(V,E) 的输入为模型在生成时提供常识知识的信息。
- INK-USC/MHGRN - hop relational reasoning module(多跳关系推理模型)叫做MHGRN多跳推理网络。该模型在额外的多跳知识图谱中抽取的子网络中进行推理。本文提出的方法将已有的基于路径的常识推理以及GCN融合在了一起,并在CommonsenseQA和OpenbookQA上取得了良好的效果。
- lanyunshi/Multi-hopComplexKBQA
- nju-websoft/SPARQA
- mori97/JKNet-dgl
- THUDM/CogQA
- michiyasunaga/qagnn - base GNN,能够可视化知识图谱中节点之间的注意力关系,有助于提高 QA 可解释性和结构化推理的能力。
- WenRichard/KBQA-BERT
- RichardHGL/WSDM2021_NSM
- UKPLab/coling2018-graph-neural-networks-question-answering
- THU-KEG/KoPL
- BshoterJ/awesome-kgqa
- RUCKBReasoning/SubgraphRetrievalKBQA
- google-research/smore
- PaddlePaddle/PGL/erniesage
- RUCAIBox/KBQAPapers
- cdjhz/multigen - hop Reasoning on Commonsense Knowledge Graph 基于常识知识图的多跳推理语言生成 本研究关注一类条件文本生成任务,即给定输入源文本X,目标是生成一段目标文本 Y。研究员们额外增加了一个知识图谱 G=(V,E) 的输入为模型在生成时提供常识知识的信息。
-
-
知识图谱
-
其他_文本生成、文本对话
- CLUEbenchmark/KgCLUE
- autoliuweijie/K-BERT
- npubird/KnowledgeGraphCourse
- AutoML-Research/AutoSF
- THU-KEG/KEPLER
- txsun1997/CoLAKE - gpu混合训练策略结合负采样机制减少训练时间;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。然后本文将该图转化为序列,使用Transformer进行预训练,并在训练时采用特殊的type embedding来表示实体、词语与其他子图信息
- neo4j-labs/llm-graph-builder
- JanKalo/KnowlyBERT
- yeliu918/KG-BART
- bernhard2202/intkb
- husthuke/awesome-knowledge-graph
- wangbo9719/StAR_KGC - Augmented Text Representation Learning for Efficient Knowledge Graph Completion 结构增强文本表示学习,实现高效知识图完成.知识图谱补全
- Everglow123/MAKG
- OpenKG-ORG/OpenEA
- seukgcode/MELBench. - MEL、Wikidata-MEL 和 Richpedia-MEL,分别包含来自社交媒体、百科全书和多模态知识图谱的 25,602、18,880 和 17,806 个样本。
- OpenKG-ORG/OpenRichpedia - OpenRichpedia工程文件
- HKUST-KnowComp/FKGE
- totogo/awesome-knowledge-graph
- BrambleXu/knowledge-graph-learning
- liuhuanyong/PersonGraphDataSet
- ownthink/KnowledgeGraph
- liuhuanyong/AbstractKnowledgeGraph
- songjiang0909/awesome-knowledge-graph-construction
- ZihengZZH/awesome-multimodal-knowledge-graph
- thunlp/KB2E
- powerycy/DeepKg: Knowledge Graph
- zjunlp/deepke
- iuhuanyong/TextGrapher
- liuhuanyong/ChainKnowledgeGraph
- zjukg/NeuralKG
- migalkin/NodePiece - 1500M)为模型提供动力。当前配置只需要 20K 个锚节点,而不是学习 2.5M 实体嵌入。关系预测\节点分类\样本外链路预测
- liuhuanyong/ChineseSemanticKB
- lemonhu/stock-knowledge-graph
- OpenBGBenchmark/OpenBG
- DeqingYang/CKBC
- JavaStudenttwo/ccks_kg
- 面向事件时序因果关系识别的17类开源标注数据集总结
- zjunlp/DeepKE
- yoheinakajima/instagraph - 在任何设备上使用它。超级用户友好!
- AutoML-Research/AutoSF
- openconcept - 概念三元组。数据包括了常见的人物、地点等通用实体。
- csdqa
-
-
关系抽取、信息抽取
-
其他_文本生成、文本对话
- roomylee/awesome-relation-extraction
- weizhepei/CasRel
- loujie0822/DeepIE
- OpenKG-ORG/OpenUE
- universal-ie/UIE
- thunlp/DocRED
- 131250208/TPlinker-joint-extraction
- bojone/GPLinker
- xhw205/GPLinker_torch
- TanyaZhao/MRC4ERE_plus
- cuhksz-nlp/RE-TaMM
- princeton-nlp/PURE
- xiaoqian19940510/Event-Extraction - GRU、JMEE、PLMEE等方法
- 231sm/Reasoning_In_EE
- zjunlp/openue
- thunlp/OpenNRE - level PCNN-ATT。
- thunlp/NREPapers
- zjunlp/DocED - Layer Bidirectional Network融合跨句语义和关联事件信息,从而增强内各事件提及的判别。
- cuhksz-nlp/RE-AGCN
- XueFuzhao/GDPNet
- dair-iitd/OpenIE-standalone
- zjunlp/KnowPrompt - tuning中,并提出了一种使用协同优化的Knowledge-aware Prompt-tuning方法。
- yao8839836/kg-bert
- dolphin-zs/Doc2EDAG
- liuhuanyong/EventTriplesExtraction
- percent4/knowledge_graph_demo
- lemonhu/open-entity-relation-extraction
- lancopku/Chinese-Literature-NER-RE-Dataset
- tonytan48/Re-DocRED
- PaddleNLP/DuIE
- thunlp/fewrel - shot 关系提取数据集,包含一百多个关系和数万个跨不同领域的带注释实例。
- dolphin-zs/Doc2EDAG
-
-
实体识别NER、意图识别、槽位填充
-
其他_文本生成、文本对话
- LeeSureman/Flat-Lattice-Transformer
- ljynlp/W2NER - 词关系分类,提出了一种新颖的替代方案。该架构通过有效地建模实体词与 Next-Neighboring-Word (NNW) 和 Tail-Head-Word-* (THW-*) 关系之间的相邻关系,解决了统一 NER 的内核瓶颈。在 14 个广泛使用的基准数据集上针对平坦、重叠和不连续的 NER(8 个英语和 6 个中文数据集)进行了广泛的实验,击败了所有当前表现最好的基线,推动了最先进的表现统一的NER。
- MiuLab/SlotGated-SLU - gated mechanism)来解决没有明确建立槽位和意图之间联系的缺陷,达到较好的效果。
- monologg/JointBERT
- z814081807/DeepNER - CRF & BERT-SPAN & BERT-MRC;Pytorch
- liuwei1206/LEBERT - BERT,它无需包含词汇类型信息的词典,只需要普通的词向量即可。
- kangbrilliant/DCA-Net
- yizhen20133868/Awesome-SLU-Survey
- wuba/qa_match
- qiufengyuyi/sequence_tagging - crf,bert等方法进行序列标记任务
- panchunguang/ccks_baidu_entity_link
- ShannonAI/mrc-for-flat-nested-ner
- jiesutd/LatticeLSTM
- Lynten/stanford-corenlp
- thunlp/PL-Marker
- v-mipeng/LexiconAugmentedNER
- lonePatient/BERT-NER-Pytorch
- gaohongkui/GlobalPointer_pytorch
- DFKI-NLP/tacrev
- stanfordnlp/sst2 - 2 或 SST 二进制。数据集中的文本为英文 ( en )。
- AdvPicker
- qgyd2021/chinese_ner_sft
- qgyd2021/few_shot_ner_sft - response 的形式. 基于语言模型的实体识别.该数据集可用于:指令语言模型训练.数据集创建. (特定领域有少量标注数据时, 可与此数据集一起训练模型, 然后生成样本用于数据标注).在 prompt 生成过程中会加入一些 示例, 我们尽量使各实体的标签满足 n_way, n_shot.
- qgyd2021/h_novel
- sentence-transformers/embedding-training-data
- stanfordnlp/snli - 47 代码是 en。
- oscar-corpus/oscar
- AndyChiang/cloth
- qgyd2021/rlhf_reward_dataset - reward-single-round-trans_chinese;dikw/hh_rlhf_cn;Anthropic/hh-rlhf;liyucheng/zhihu_rlhf_3k;stanfordnlp/SHP。
- stanfordnlp/SHP - RLHF 数据集有何不同?最值得注意的是,SHP 中的所有数据都是自然发生的和人工编写的,而 HH-RLHF 中的响应是机器编写的,这为我们提供了两种可以相互补充的截然不同的分布。SHP 与其他抓取 Reddit 的数据集(如 ELI5)有何不同?SHP 使用时间戳信息来推断偏好,而 ELI5 仅提供评论和分数——后者不足以推断偏好,因为之前发表的评论往往会从更高的可见性中获得更高的分数。
- openbmb/UltraInteract_sft
- Helsinki-NLP/opus-100 - 100 是一个以英语为中心的多语言语料库,涵盖 100 种语言。OPUS-100 以英语为中心,这意味着所有训练对在源端或目标端都包含英语。语料库涵盖100种语言(包括英语)。这些语言是根据OPUS中可用的并行数据量选择的。OPUS-100 包含大约 55M 个句子对。在 99 个语言对中,44 个有 1M 个训练数据的句子对,73 个至少有 100k,95 个至少有 10k。
- shibing624/nli_zh - B共5个任务。支持中文文本匹配任务,文本相似度计算等相关任务。数据集均是简体中文文本。
- eriktks/conll2003 - 2003 的共同任务涉及与语言无关的命名实体识别。我们将重点介绍四种类型的命名实体:不属于前三组的人员、地点、组织和杂项实体的名称。CoNLL-2003 共享任务数据文件包含四列,用一个空格分隔。每个单词都放在单独的行上,每个句子后面都有一个空行。每行的第一项是一个单词,第二项是词性 (POS) 标记,第三项是句法块标记,第四项是命名实体标记。块标记和命名实体标记的格式为 I-TYPE,这意味着该单词位于 TYPE 类型的短语中。只有当两个相同类型的短语紧跟在一起时,第二个短语的第一个单词才会带有标签 B-TYPE,以表明它开始了一个新短语。带有标签 O 的单词不是短语的一部分。请注意,数据集使用 IOB2 标记方案,而原始数据集使用 IOB1。
- defunct-datasets/amazon_reviews_multi
-
-
其他_NLP自然语言处理
-
其他_文本生成、文本对话
- nltk/nltk
- keon/awesome-nlp
- graykode/nlp-tutorial
- stanfordnlp/stanza
- piskvorky/gensim
- CLUEbenchmark/FewCLUE - shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。FewCLUE:中文小样本学习测评基准,基于CLUE的积累和经验,并结合少样本学习的特点和近期的发展趋势,精心设计了该测评,希望可以促进中文领域上少样本学习领域更多的研究、应用和发展。模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET\RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、使用RoBERTa或GPT做零样本学习。
- deepset-ai/haystack - 3等)与数据交互。Haystack提供了生产就绪的工具来快速构建类似ChatGPT的问题回答、语义搜索、文本生成等。
- sebastianruder/NLP-progress
- PKU-TANGENT/nlp-tutorial
- yuanzhoulvpi2017/zero_nlp
- crownpku/Awesome-Chinese-NLP
- fxsjy/jieba
- bojone/attention
- 425776024/nlpcda
- wac81/textda
- zhanlaoban/EDA_NLP_for_Chinese
- akkarimi/aeda_nlp
- rz-zhang/SeqMix
- clovaai/ssmix
- ShomyLiu/Neu-Review-Rec - Attn(RecSys'17)、ANR(CIKM'18)、NARRE(WWW'18)、MPCN(KDD'18)、TARMF(WWW'18)、CARL(TOIS'19)、CARP(SIGIR'19)、DAML(KDD'19)
- squareRoot3/Target-Guided-Conversation
- flairNLP/flair
- NVIDIA/NeMo
- lancopku/pkuseg-python
- JasonForJoy/MPC-BERT
- airaria/TextBrewer
- czhang99/SynonymNet
- salesforce/pytorch-qrnn - Recurrent Neural Network,基于使用实例可以比高度优化的 NVIDIA cuDNN LSTM 实现2到17倍快
- ChenghaoMou/pytorch-pQRNN - RNN编码器来进行快速并行处理。pQRNN模型表明这种新的体系结构几乎可以达到BERT级的性能,尽管只使用1/300的参数量和有监督的数据。
- RUCAIBox/TG_CRS_Code - ReDial相应的推荐、回复生成、主题预测功能实现。
- Qznan/QizNLP
- salesforce/WikiSQL
- toizzy/tilt-transfer
- explosion/spaCy
- RUCAIBox/CRSLab - ReDial、推荐模型 Popularity、GRU4Rec、SASRec、TextCNN、R-GCN、BERT、对话模型 HERD、Transformer、GPT-2 策略模型 PMI、MGCG、Conv-BERT、Topic-BERT、Profile-BERT
- RUCAIBox/CRSPapers
- nlp-uoregon/trankit
- cuhksz-nlp/DGSA
- FedML-AI/FedNLP
- graph4ai/graph4nlp
- PaddlePaddle/PaddleNLP
- huybery/r2sql - Domain Context-Dependent Semantic Parsing 跨域上下文相关语义分析的动态混合关系网络 应用于:多轮text-to-SQL 任务(通过多轮对话的方式生成最终的查询语句, Text-to-SQL 任务:给定一个自然语言查询和数据库的作为输入,产生一个SQL语句作为输出。)
- facebookresearch/GENRE
- sebastian-hofstaetter/intra-document-cascade
- jingtaozhan/DRhard
- yechens/NL2SQL - 语义分析(Semantic Parsing)领域中的子任务。
- destwang/CTCResources
- fushengwuyu/chinese_spelling_correction
- grammarly/gector
- destwang/CTC2021
- Jingjing-NLP/VOLT
- thunlp/OpenAttack
- thunlp/TAADpapers
- lupantech/InterGPS - GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。
- Helsinki-NLP/Tatoeba-Challenge
- princeton-nlp/LM-BFF - shot小样本微调语言模型.包括:1.基于提示(prompt)进行微调,关键是如何自动化生成提示模板;
- thunlp/PromptPapers
- linzehui/mRASP
- soft-prompt-tuning - Efficient Prompt Tuning 用于参数高效的即时调整的规模的力量
- facebookresearch/ParlAI
- CAMTL/CA-MTL
- thunlp/WantWords
- pcyin/tranX
- hooman650/SupCL-Seq
- openai/grade-school-math
- makcedward/nlpaug
- hankcs/pyhanlp
- shibing624/pycorrector
- HillZhang1999/MuCGEC
- PengheLiu/Cn_Speck_Checker
- taozhijiang/chinese_correct_wsd
- beyondacm/Autochecker4Chinese
- iqiyi/FASPell - SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker ( 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)
- hiyoung123/SoftMaskedBert
- ACL2020SpellGCN/SpellGCN
- liushulinle/CRASpell
- thunlp/OpenBackdoor
- xueyouluo/ccks2021-track2-code
- kpu/kenlm
- ryanzhumich/Contrastive-Learning-NLP-Papers
- textstat/textstat
- nonebot/nonebot2
- mit-han-lab/smoothquant
- causaltext/causal-text-papers
- zhijing-jin/Causality4NLP_Papers
- DaDaMrX/ReaLiSe
- dbohdan/structured-text-tools
- huggingface/tokenizers
- jessevig/bertviz
- lutzroeder/netron
- DengBoCong/nlp-paper
- ssut/py-googletrans
- jgm/pandoc
- sloria/TextBlob
- stanfordnlp/CoreNLP
- NLPchina/ansj_seg
- openai/tiktoken
- JohnSnowLabs/spark-nlp
- tisfeng/Easydict
- salesforce/decaNLP - SRL)、零样本关系提取 (QA-ZRE)、面向目标的对话 (WOZ)、语义解析 (WikiSQL) 和常识推理 (MWSC)。每个任务都转换为问答,这使得使用我们新的多任务问答网络 (MQAN) 成为可能。
- ripperhe/Bob
- opendatalab/PDF-Extract-Kit
- VikParuchuri/marker
- adithya-s-k/omniparse
- CosmosShadow/gptpdf - 4o)将 PDF 解析为 markdown。我们的方法非常简单(只有 293 行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。
- opendatalab/MinerU - PDF PDF 文档提取、网页和电子书提取。Magic-PDF 是一种旨在将 PDF 文档转换为 Markdown 格式的工具,能够处理存储在本地或支持 S3 协议的对象存储上的文件。
- getomni-ai/zerox
- XiaoMi/MiNLP/minlp-tokenizer
- MuCGEC/scorers/ChERRANT
- shibing624/bart4csc-base-chinese
- oxford-cs-deepnlp-2017/lectures
- alibaba/EasyNLP - DSW、用于云原生训练的 PAI-DLC、用于服务的 PAI-EAS 和用于零代码模型训练的 PAI-Designer。
- huseinzol05/NLP-Models-Tensorflow
- yizhen20133868/NLP-Conferences-Code
-
-
JavaScript框架
-
其他_文本生成、文本对话
- twbs/bootstrap
- nodejs/node
- denoland/deno
- microsoft/TypeScript
- sindresorhus/awesome-nodejs
- getify/You-Dont-Know-JS
- vercel/next.js
- vitejs/awesome-vite
- vuejs/core
- vuejs/vue
- cuixiaorui/mini-vue
- axios/axios
- xcatliu/typescript-tutorial
- oven-sh/bun - 合二为一
- nestjs/nest
- chartjs/Chart.js
- juliangarnier/anime
- mrdoob/three.js
- slidevjs/slidev
- parallax/jsPDF
- cheeriojs/cheerio
- videojs/video.js - 开源HTML5视频播放器
- showdownjs/showdown
- jestjs/jest
- xgrommx/awesome-redux
- wasp-lang/wasp
- Asabeneh/30-Days-Of-JavaScript
- purescript/purescript
- vercel/pkg
- v8/v8 - 262 中指定的 ECMAScript。V8 实现了 ECMA-262 中指定的 ECMAScript。V8是用C++编写的,用于谷歌的开源浏览器谷歌浏览器。V8 实现了 ECMA-262 中指定的 ECMAScript。
- AssemblyScript/assemblyscript
- chakra-core/ChakraCore
- jerryscript-project/jerryscript
- svaarala/duktape
- boa-dev/boa
- quickjs-zh/QuickJS
- GoogleChromeLabs/jsvu
- cesanta/elk - 这是让客户扩展/自定义设备功能的好方法。
- kaluma-project/kaluma
- Taritsyn/JavaScriptEngineSwitcher
- webpack/webpack
- ryanmcdermott/clean-code-javascript
- babel/babel
- goldbergyoni/nodebestpractices
- sahat/hackathon-starter
- leonardomso/33-js-concepts:
- saghul/txiki.js
- gpujs/gpu.js
- NativeScript/NativeScript
- MostlyAdequate/mostly-adequate-guide
- reasonml/reason
- rescript-lang/rescript-compiler
- mbasso/awesome-wasm
- javascript-obfuscator/javascript-obfuscator
- josdejong/mathjs
- bytecodealliance/wasmtime
- ds300/patch-package
- debug-js/debug
- type-challenges/type-challenges
- DefinitelyTyped/DefinitelyTyped
- jquery/jquery
- wangdoc/typescript-tutorial
- javascript-tutorial/zh.javascript.info
- mqyqingfeng/Blog
- tj/commander.js
- prettier/prettier
- emscripten-core/emscripten
- colinhacks/zod
- mbeaudru/modern-js-cheatsheet
- standard/standard
- pnpm/pnpm
- eslint/eslint
- ramda/ramda
- zloirock/core-js
- knex/knex
- jamiebuilds/babel-handbook
- nodejs/node-gyp
- lint-staged/lint-staged
- gvergnaud/ts-pattern
- Schniz/fnm
- glideapps/quicktype
- verdaccio/verdaccio
- fibjs/fibjs - switch、同步式和非阻塞IO模型来构建可扩展的系统。
- krausest/js-framework-benchmark
- rwaldron/idiomatic.js
- TypeStrong/ts-node
- gruntjs/grunt
- Unleash/unleash
- gibbok/typescript-book
- typescript-eslint/typescript-eslint - eslint 使 ESLint 能够在 TypeScript 代码上运行。它引入了这两种工具的优点,以帮助您编写最好的 JavaScript 或 TypeScript 代码。ESLint 和 TypeScript 在内部以不同的方式表示代码。ESLint 的默认 JavaScript 解析器无法以特定于 TypeScript 的语法进行本机读取,并且其规则本身无法访问 TypeScript 的类型信息。允许 ESLint 解析 TypeScript 语法。为 ESLint 规则创建一组工具,以便能够使用 TypeScript 的类型信息。提供了特定于 TypeScript 和/或使用该类型信息的大量 lint 规则列表。
- JacksonTian/fks
- web-infra-dev/rspack
- rustwasm/wasm-bindgen - bindgen 仅为您实际使用的 JavaScript 导入和导出的 Rust 功能生成绑定和粘合。例如,导入和使用该 document.querySelector 方法不会导致 Node.prototype.appendChild 或 window.alert 包含在绑定中。ECMAScript 模块。只需导入 WebAssembly 模块,就像导入 JavaScript 模块一样。未来兼容 WebAssembly 模块和 ECMAScript 模块集成。在设计时考虑了“Web IDL 绑定”建议。最终,Rust 生成的 wasm 函数和原生 DOM 方法之间不会有任何 JavaScript 填充码。因为 wasm 函数是静态类型检查的,所以其中一些原生方法的动态类型检查应该变得没有必要了,这有望解锁比 JavaScript DOM 访问更快的速度。
- rustwasm/wasm-pack - pack 帮助您构建 rust 生成的 WebAssembly 包,您可以将其发布到 npm 注册表,或者以其他方式与您已使用的工作流(例如 webpack)中的任何 javascript 包一起使用。
- napi-rs/napi-rs - API 在 Rust 中构建编译Node.js附加组件的框架
- sorrycc/awesome-javascript
- shadcn/taxonomy
- imba/imba
- nvm-sh/nvm - 符合 POSIX 标准的 bash 脚本,用于管理多个活动node.js版本
-
-
前端开发框架及项目
-
其他_文本生成、文本对话
- facebook/react
- facebook/create-react-app
- mantinedev/mantine
- mui/material-ui
- airbnb/javascript
- thedaviddias/Front-End-Checklist
- rails/rails - 视图-控制器 (MVC) 模式创建数据库支持的 Web 应用程序所需的一切。理解 MVC 模式是理解 Rails 的关键。MVC 将应用程序分为三层:模型层、视图层和控制器层,每层都有特定的职责。
- google/material-design-icons
- google/material-design-lite
- ant-design/ant-design
- youzan/vant
- nuxt/nuxt
- vuejs/pinia
- vuejs/vuex
- angular/angular
- ElemeFE/element
- gatsbyjs/gatsby
- vitejs/vite
- nestjs/awesome-nestjs
- layui/layui
- dcloudio/uni-app - app 框架将其编译到 小程序(微信/支付宝/百度/字节跳动/QQ/快手/钉钉/小红书)、App(iOS/Android)、H5等平台,保证正确并达到优秀体验。
- MrXujiang/h5-Dooring
- h5bp/html5-boilerplate
- haizlin/fe-interview
- qianguyihao/Web
- h5bp/Front-end-Developer-Interview-Questions
- hexojs/hexo
- statelyai/xstate
- TanStack/query
- preactjs/preact
- react-boilerplate/react-boilerplate
- cypress-io/cypress
- puppeteer/puppeteer
- ant-design/ant-design-pro
- alibaba/ice
- reduxjs/redux
- infinitered/reactotron
- vasanthk/react-bits
- adam-golab/react-developer-roadmap
- mrousavy/react-native-vision-camera
- jaredpalmer/tsdx
- basarat/typescript-book
- DataV-Team/DataV
- youzan/vant-weapp
- lsqy/taro-music - ui + redux + react-hooks + typescript 开发的网易云音乐小程序
- element-plus/element-plus
- newbee-ltd/newbee-mall-vue3-app
- woniudiancang/bee - 餐饮点餐外卖-开箱即用
- iamxjb/winxin-app-watch-life.net - WordPress版微信小程序
- nslogx/Gitter
- mark420524/question
- ecomfe/echarts-for-weixin
- TalkingData/iview-weapp
- mageslr/weapp-library
- kesixin/QuestionWechatApp
- Tencent/wepy
- iv-org/invidious
- pipipi-pikachu/PPTist
- vercel/swr - while-revalidate ,由HTTP RFC 5861推广的缓存失效策略。SWR先从缓存中返回数据(过时),然后发送请求(重新验证),最后再次附带最新数据。
- animate-css/animate.css
- vercel/vercel
- Templarian/MaterialDesign
- Cveinnt/LiveTerm
- woocommerce/woocommerce
- roots/bedrock
- timber/timber
- wp-cli/wp-cli
- postlight/headless-wp-starter
- WordPress/gutenberg
- Automattic/wp-calypso - 使用单页 Web 应用程序对 WordPress 仪表板进行了漂亮的重新设计,由 WordPress.com REST API 提供支持。Calypso 是为在一个地方阅读、写作和管理所有 WordPress 网站而构建的。
- roots/sage
- SmallRuralDog/vue3-music
- tauri-apps/tauri
- Tencent/weui
- bvaughn/react-virtualized
- fyne-io/fyne
- parcel-bundler/parcel
- zhaoolee/ChromeAppHeroes - Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类
- daybrush/moveable
- Blazity/next-enterprise
- jgraph/drawio
- ToolJet/ToolJet
- givanz/VvvebJs
- strapi/strapi
- payloadcms/payload
- getgrav/grav
- octobercms/october
- tinacms/tinacms
- decaporg/decap-cms
- keystonejs/keystone-classic
- django-cms/django-cms
- keystonejs/keystone
- midoks/mdserver-web
- janishar/nodejs-backend-architecture-typescript
- iview/iview
- sveltejs/svelte
- kriasoft/react-starter-kit
- cobiwave/simplefolio
- storybookjs/storybook
- Semantic-Org/Semantic-UI
- markedjs/marked
- recharts/recharts
- palantir/blueprint
- kusti8/proton-native
- revery-ui/revery - 使用 Reason,Revery 有点像超快的原生代码 Electron - 捆绑了类似 React/Redux 的库和快速构建系统,Revery 是用 reasonml 构建的,reasonml 是 OCaml 之上的类似 javascript 的语法,这意味着 JS 开发人员可以使用该语言。您的应用程序使用 Reason/OCaml 工具链编译为原生代码 - 具有与原生 C 代码相当的即时启动和性能。Revery 具有平台加速、GPU 加速的渲染功能。编译器本身也很快!
- react-native-elements/react-native-elements
- nodegui/nodegui - 并且易于升级)。因此可以访问所有与 Nodejs 兼容的 NPM 模块。;本机小部件事件侦听器支持。支持Qt / NodeJs提供的所有事件。;可用于商业应用;良好的 Devtools 支持;良好的文档和网站;为贡献者提供良好的文档;对暗模式的良好支持(感谢Qt)。;一流的 Typescript 支持。
- unoplatform/uno
- gui-cs/Terminal.Gui - Windows、Mac 和 Linux。Curses、Windows 控制台和 .NET 控制台的终端驱动程序意味着应用在彩色和单色终端上都能正常工作。键盘和鼠标输入 - 支持键盘和鼠标输入,包括对拖放的支持。灵活布局 - 支持绝对布局和创新的计算布局系统。计算布局使控件之间的相对布局变得容易,并启用动态终端 UI。剪贴板支持 - 剪切、复制和粘贴通过 Clipboard 类提供的文本。任意视图 - 所有可见的 UI 元素都是 View 类的子类,而这些子类又可以包含任意数量的子视图。高级应用功能 - Mainloop 支持处理事件、空闲处理程序、计时器和监控文件描述符。大多数类对于线程都是安全的。反应式扩展 - 使用反应式扩展,并受益于增强的代码可读性,以及应用 MVVM 模式和 ReactiveUI 数据绑定的能力。请参阅示例应用的源代码,了解如何实现此目的。
- SortableJS/Sortable
- doczjs/docz
- docsifyjs/docsify
- vuetifyjs/vuetify
- verekia/js-stack-from-scratch
- TanStack/table - React-Table、Vue-Table、Solid-Table、Svelte-Table
- shadcn-ui/ui
- t4t5/sweetalert
- typescript-cheatsheets/react
- brillout/awesome-react-components
- nextauthjs/next-auth
- ionic-team/ionic-framework
- chakra-ui/chakra-ui
- alexpate/awesome-design-systems
- saadeghi/daisyui
- Leaflet/Leaflet
- date-fns/date-fns
- amsul/pickadate.js
- iamkun/dayjs
- rebassjs/rebass
- enzymejs/enzyme
- ill-inc/biomes-game
- reagent-project/reagent
- meteor/meteor
- dexteryy/spellbook-of-modern-webdev
- elm/compiler
- mixmark-io/turndown
- pdf2htmlEX/pdf2htmlEX
- alibaba/weex
- gildas-lormeau/SingleFile
- DioxusLabs/dioxus
- Tencent/weui-wxss
- xiaolin3303/wx-charts
- uber/baseweb
- astaxie/build-web-application-with-golang
- reflex-dev/reflex
- wanglin2/mind-map
- AvaloniaUI/Avalonia
- microsoft/playwright
- GoogleChrome/lighthouse
- o2oa/o2oa - 码云GVP|Java开源oa|企业OA办公平台|企业OA|协同办公OA|流程平台OA|O2OA|OA,支持国产麒麟操作系统和国产数据库(达梦、人大金仓),政务OA,军工信息化OA
- librespeed/speedtest
- transloadit/uppy
- evanw/esbuild - 100 倍
- dotnet/aspnetcore
- ant-design/ant-design-mobile
- react-dates/react-dates
- microsoft/fluentui
- adamschwartz/magic-of-css
- vasanthv/talk
- woai3c/visual-drag-demo
- magento/magento2
- twbs/bootstrap-sass
- GoogleChrome/web-vitals
- gohugoio/hugo
- GorvGoyl/Clone-Wars
- AR-js-org/AR.js
- Tencent/vConsole
- atlassian/react-beautiful-dnd
- salomonelli/best-resume-ever
- airyland/vux
- lenve/vhr
- terser/terser
- postcss/postcss
- airbnb/lottie-web
- microsoft/Web-Dev-For-Beginners
- wallabag/wallabag
- wesbos/JavaScript30
- NervJS/taro
- SheetJS/sheetjs
- mobxjs/mobx
- AykutSarac/jsoncrack.com
- tailwindlabs/tailwindcss - 4` 等 `rotate-90` 类, `text-center` 可以直接在标记中组合以构建任何设计。
- sampotts/plyr
- joshbuchea/HEAD
- niklasvh/html2canvas
- rehooks/awesome-react-hooks
- antonioru/beautiful-react-hooks
- rsuite/rsuite
- Semantic-Org/Semantic-UI-React - UI-React 集成
- tremorlabs/tremor
- adobe/react-spectrum
- casesandberg/react-color
- fkhadra/react-toastify
- react-bootstrap/react-bootstrap
- xyflow/xyflow - 强大的开源库,用于使用 React或 Svelte构建基于节点的 UI.开箱即用,可无限定制。
- remix-run/react-router
- wechat-miniprogram/miniprogram-demo
- remaxjs/remax
- Meituan-Dianping/mpvue
- apptension/developer-handbook
- leptos-rs/leptos
- visgl/deck.gl
- ErickWendel/semana-javascript-expert08
- aws-amplify/amplify-js
- FortAwesome/Font-Awesome
- plotly/plotly.js
- apexcharts/apexcharts.js
- facebook/relay
- antvis/G6
- terrastruct/d2
- bhauman/lein-figwheel
- serverless-nextjs/serverless-next.js
- philss/floki
- xhtml2pdf/xhtml2pdf
- hakimel/reveal.js
- gothinkster/realworld
- Polymer/polymer
- vuejs/vue-cli
- pixijs/pixijs
- angular/angular-cli
- abi/screenshot-to-code - 4 Vision 生成代码,使用 DALL-E 3 生成外观相似的图像。您现在还可以输入 URL 来克隆实时网站
- SBoudrias/Inquirer.js
- umijs/qiankun
- jgthms/bulma
- aframevr/aframe - Frame 只需插入 a-scene 即可处理跨平台运行所需的 3D 和 WebXR 样板,包括移动设备、桌面和所有耳机(与支持 WebXR 的浏览器兼容)。`声明式 HTML`:HTML 易于阅读和复制粘贴。可以在 HTML 中使用,因此每个人都可以访问。`实体组件架构`:three.js 之上的强大框架,为 three.js 提供了一个声明性的、可组合的、可重用的实体组件结构。可以无限制地访问 JavaScript、DOM API、three.js、WebXR 和 WebGL。`性能`:是 three.js 之上的精简框架。性能是重中之重,在高度交互的 WebXR 体验上经过了实战考验。`跨平台`:为任何与支持 WebXR 的浏览器兼容的头戴式设备构建 VR 和 AR 应用程序。仍然可以在标准台式机和智能手机上运行。`可视化检查器`:内置可视化 3D 检查器,其工作流程类似于浏览器的开发人员工具,界面类似于 Unity。打开任何 A-Frame 场景并点击 ctrl+alt+i . `功能`:内置组件(如几何体、材质、灯光、动画、模型、光线投射器、阴影、位置音频、跟踪控制器)立即开始运行。使用粒子系统、物理、多用户、海洋、山脉、语音识别或传送等社区组件
- liriliri/eruda
- FallibleInc/security-guide-for-developers
- phoenixframework/phoenix
- sindresorhus/awesome-electron
- freeCodeCamp/devdocs
- apache/echarts
- ryanoasis/nerd-fonts
- ascoders/weekly
- getredash/redash
- facebook/react-native
- enaqx/awesome-react
- bolshchikov/js-must-watch
- electron/electron
- jondot/awesome-react-native
- aniftyco/awesome-tailwindcss
- fastlane/fastlane
- jhen0409/react-native-debugger
- davidsonfellipe/awesome-wpo
- troxler/awesome-css-frameworks
- PhilJay/MPAndroidChart
- ionic-team/capacitor
- pubkey/rxdb
- emotion-js/emotion - in-JS 库
- styled-components/styled-components
- invertase/react-native-firebase
- Instagram/IGListKit
- Nozbe/WatermelonDB
- callstack/react-native-paper
- badges/shields
- chalk/chalk
- validatorjs/validator.js
- t3-oss/create-t3-app
- spf13/cobra
- vadimdemedes/ink
- charmbracelet/bubbletea
- urfave/cli
- svg/svgo
- infinitered/ignite
- dotnet/maui
- responsively-org/responsively-app
- GeekyAnts/NativeBase
- select2/select2
- Modernizr/Modernizr
- backstage/backstage
- pmndrs/zustand
- floating-ui/floating-ui
- highlightjs/highlight.js
- emberjs/ember.js
- expo/expo
- electron-react-boilerplate/electron-react-boilerplate
- video-dev/hls.js - 2 传输流和 AAC/MP3 流转换为 ISO BMFF (MP4) 片段。
- kefranabg/readme-md-generator
- rahuldkjain/github-profile-readme-generator
- you-dont-need/You-Dont-Need-JavaScript
- you-dont-need/You-Dont-Need-Lodash-Underscore
- wailsapp/wails
- sudheerj/javascript-interview-questions
- jsdom/jsdom
- vuejs/vue-router
- jorgebucaran/hyperapp
- react-grid-layout/react-grid-layout
- solidjs/solid
- ReactiveX/rxjs - Extensions/RxJS 的重写,是 RxJS 的最新生产就绪版本。此重写旨在具有更好的性能、更好的模块化、更好的可调试调用堆栈,同时保持大部分向后兼容,并进行了一些减少 API 表面的重大更改。
- elsewhencode/project-guidelines
- quasarframework/quasar
- JakeChampion/fetch
- charmbracelet/glow
- alvarotrigo/fullPage.js
- sudheerj/reactjs-interview-questions
- zenorocha/clipboard.js
- goldfire/howler.js
- mochajs/mocha
- js-cookie/js-cookie
- carbon-app/carbon
- denysdovhan/wtfjs
- fingerprintjs/fingerprintjs - 60%,商业指纹识别的准确率为99.5%。该库的 V4 已获得 BSL 许可。
- caolan/async
- lovell/sharp
- usablica/intro.js
- goldbergyoni/javascript-testing-best-practices
- processing/p5.js
- hapijs/joi
- bigskysoftware/htmx
- FormidableLabs/webpack-dashboard
- feathericons/feather
- dimsemenov/PhotoSwipe
- heartcombo/devise
- SeleniumHQ/selenium
- mherrmann/helium - 50%。更重要的是,它们更易于阅读,并且在底层网页的变化方面更稳定。
- jekyll/jekyll
- airbnb/visx
- bgstaal/multipleWindow3dScene
- vega/vega
- antvis/G2
- motion-canvas/motion-canvas
- getzola/zola
- sweetalert2/sweetalert2 - ARIA) 的 JavaScript 弹出框替代品。零依赖性。
- twitter/typeahead.js
- twitter/twemoji
- JetBrains/compose-multiplatform
- webview/webview
- WebKit/WebKit
- browserless/browserless
- Tencent/VasSonic
- Justson/AgentWeb
- cookpete/react-player
- gnab/remark
- remarkjs/react-markdown
- ikatyang/emoji-cheat-sheet
- vnotex/vnote
- usememos/memos
- jxnblk/mdx-deck
- minimaxir/big-list-of-naughty-strings
- pmndrs/jotai
- electron-userland/electron-builder
- mozilla/pdf.js
- nativefier/nativefier
- bailicangdu/vue2-elm
- pmndrs/react-spring - Physics First 动画库。
- pmndrs/react-three-fiber
- redux-saga/redux-saga
- marmelab/react-admin
- tailwindlabs/headlessui
- reduxjs/react-redux
- alan2207/bulletproof-react
- react-dnd/react-dnd
- AmruthPillai/Reactive-Resume
- nfl/react-helmet
- redwoodjs/redwood
- segment-boneyard/nightmare
- ariya/phantomjs
- wulkano/Kap
- sql-js/sql.js
- Asabeneh/30-Days-Of-React
- pure-css/pure
- material-components/material-components-web
- material-components/material-web
- tabler/tabler-icons
- Tencent/omi - Web 组件框架,通过无功信号进行信号驱动的无功编程;100+ OMI模板和OMI模板源代码;OMI表单和OMI表单游乐场和Lucide Omi图标;OMIU预览正在进行中&OMIU源代码;体积小,性能快;您需要的一切:Web 组件、JSX、函数组件、路由器、悬念、指令、Tailwindcss......;支持面向对象编程(OOP)和面向数据编程(DOP);利用可构建的样式表轻松管理和共享样式
- wenzhixin/bootstrap-table
- jlmakes/scrollreveal
- WasmEdge/WasmEdge
- Stirling-Tools/Stirling-PDF
- ahmadbilaldev/langui
- ohmplatform/FreedomGPT
- dot-agent/nextpy
- Avaiga/taipy
- mdbootstrap/TW-Elements
- IanLunn/Hover
- Advanced-Frontend/Daily-Interview-Question
- shoelace-style/shoelace
- framework7io/framework7
- weilanwl/coloruicss
- twbs/ratchet
- picocss/pico
- google/iosched
- stylus/stylus
- less/less.js
- abpframework/abp
- aspnetboilerplate/aspnetboilerplate
- appium/appium
- Tonejs/Tone.js
- barbajs/barba
- theatre-js/theatre
- emilwallner/Screenshot-to-code
- ffmpegwasm/ffmpeg.wasm
- formkit/auto-animate
- AirtestProject/Airtest
- johannesjo/super-productivity
- academicpages/academicpages.github.io
- josdejong/jsoneditor
- callstack/linaria
- necolas/normalize.css
- Dogfalo/materialize
- postcss/autoprefixer
- nostalgic-css/NES.css
- chokcoco/iCSS
- primer/css
- ksky521/nodeppt - it、posthtml 重构,https://nodeppt.js.org
- stylelint/stylelint
- selectize/selectize.js
- mdx-js/mdx
- yangshun/front-end-interview-handbook
- mdbootstrap/mdb-ui-kit - 700+ 组件,纯 JavaScript,MIT 许可证,安装简单。
- Popmotion/popmotion
- vueComponent/ant-design-vue
- thedaviddias/Front-End-Performance-Checklist
- Chalarangelo/30-seconds-of-css
- grab/front-end-guide
- thomaspark/bootswatch
- jessepollak/card
- vueComponent/ant-design-vue-pro
- yygmind/blog
- tsayen/dom-to-image
- hakanyalcinkaya/kodluyoruz-frontend-101-egitimi
- lipis/flag-icons - 加上 CSS,以便于集成
- milligram/milligram
- alexfoxy/lax.js
- fullcalendar/fullcalendar
- jonasschmedtmann/complete-javascript-course
- expo/create-react-native-app
- Anarios/return-youtube-dislike
- atlas-engineer/nyxt
- darkreader/darkreader
- FormidableLabs/victory
- frappe/charts
- webpack-contrib/webpack-bundle-analyzer
- dream-num/univer
- drizzle-team/drizzle-orm
- plouc/nivo
- keen/dashboards
- dexie/Dexie.js - 浏览器中的标准数据库。
- aidenybai/million
- edent/SuperTinyIcons
- sveltejs/kit
- getgridea/gridea
- markdown-it/markdown-it
- socketio/socket.io-client
- chromium/chromium
- ungoogled-software/ungoogled-chromium - Chromium 功能进行了调整,以增强隐私、控制和透明度。但是,几乎所有这些功能都必须手动激活或启用。
- NorthwoodsSoftware/GoJS
- nightwatchjs/nightwatch
- febobo/web-interview
- tariqbuilds/linux-dash
- teamcapybara/capybara
- tsparticles/tsparticles
- arco-design/arco-design
- projectstorm/react-diagrams
- uber/react-vis
- cyclejs/cyclejs
- reactstrap/reactstrap
- styleguidist/react-styleguidist
- react-icons/react-icons
- reactioncommerce/reaction
- danilowoz/react-content-loader
- vuejs/vitepress
- vuematerial/vue-material
- c3js/c3
- shadcn-ui/taxonomy
- angular-ui/ui-router
- blitz-js/blitz
- katspaugh/wavesurfer.js
- troisjs/trois
- arkenfox/user.js
- markmead/hyperui
- mapbox/mapbox-gl-js
- visgl/react-map-gl
- you-dont-need/You-Dont-Need-Momentjs
- exceljs/exceljs
- jwilber/roughViz
- bpmn-io/bpmn-js
- HugoBlox/hugo-blox-builder - 无需代码。 一个应用程序,没有依赖项,没有 JS
- rawgraphs/rawgraphs-app
- bubkoo/html-to-image
- cure53/DOMPurify
- obsidiandynamics/kafdrop
- BrowserBox/BrowserBox
- Countly/countly-server
- maplibre/maplibre-gl-js
- aurelia/framework
- skonvajs/konva
- rough-stuff/rough
- mojs/mojs
- mde/ejs
- snabbdom/snabbdom
- logaretm/vee-validate
- catppuccin/catppuccin
- dotnet/runtime
- gristlabs/grist-core - core (此存储库)具有运行强大的电子表格托管服务器所需的一切。grist-electron 是一款 Linux/macOS/Windows 桌面应用程序,用于查看和编辑本地存储的电子表格。grist-static 是 Grist 的完全浏览器内构建,用于在没有后端支持的情况下在网站上显示电子表格。
- DustinBrett/daedalOS
- zyronon/douyin - vue 是一个模仿 抖音|TikTok 的移动端短视频项目。Vue 在移动端的"最佳实践",媲美原生 App 丝滑流畅的使用体验。使用了最新的 Vue 技术栈,基于 Vue3、Vite5 、Pinia实现。数据保存在项目本地,通过 axios-mock-adapter 库拦截Api 并返回本地json数据,模拟真实后端请求。
- zedeus/nitter
- parcel-bundler/lightningcss
- djc/askama
- mattboldt/typed.js
- wpscanteam/wpscan
- vuetifyjs/awesome-vuetify
- steven-tey/dub
- ultrafunkamsterdam/undetected-chromedriver
- ai/easings.net
- pacocoursey/cmdk
- primefaces/primeng
- timqian/chart.xkcd
- omnivore-app/omnivore
- timlrx/tailwind-nextjs-starter-blog
- jeecgboot/JimuReport
- tangly1024/NotionNext
- tw93/Pake
- savingrun/WeHalo
- markmap/markmap
- penrose/penrose - - Penrose 会自动创建一个满足您所有约束条件的新图表。
- palxiao/poster-design
- maxence-charriere/go-app - app 创建的应用程序可以开箱即用地在自己的窗口中运行,支持离线模式,并且对 SEO 友好。
- marko-js/marko
- necolas/react-native-web
- vuejs/awesome-vue
- PatrickJS/awesome-angular
- react-hook-form/react-hook-form
- dypsilon/frontend-dev-bookmarks
- AllThingsSmitty/css-protips
- jaredpalmer/formik
- realm/SwiftLint
- matteocrippa/awesome-swift
- react-navigation/react-navigation
- hwix/react-native-navigation - 只需将其安装在您的应用程序中,即可为您的用户提供他们应得的原生感觉。
- CosmicMind/Material
- Juanpe/SkeletonView
- xmartlabs/Eureka
- didi/DoKit
-
管理面板
- akveo/blur-admin
- ColorlibHQ/gentelella
- akveo/ngx-admin
- vbenjs/vue-vben-admin
- iview/iview-admin
- creativetimofficial/material-dashboard
- epicmaxco/vuestic-admin
- newbee-ltd/newbee-mall - Plus+Vue-Router 4+Pinia+Vant 4) 、秒杀版本、Go语言版本、微服务版本(Spring Cloud Alibaba+Nacos+Sentinel+Seata+Spring Cloud Gateway+OpenFeign+ELK)。 前台商城系统包含首页门户、商品分类、新品上线、首页轮播、商品推荐、商品搜索、商品展示、购物车、订单结算、订单流程、个人订单管理、会员中心、帮助中心等模块。 后台管理系统包含数据面板、轮播图管理、商品管理、订单管理、会员管理、分类管理、设置等模块。
- yezihaohao/react-admin
- 1Panel-dev/1Panel
- lin-xin/vue-manage-system
- tabler/tabler
- coreui/coreui-free-bootstrap-admin-template
- ColorlibHQ/AdminLTE
- lyt-Top/vue-next-admin - router-next + pinia 技术,适配手机、平板、pc 的后台开源免费模板,实现快速开发。
- PanJiaChen/vue-element-admin - ui](https://github.com/ElemeFE/element)。
- cool-team-official/cool-admin-vue - ui、vuex、vue-router、vue等构建
- PanJiaChen/vue-admin-template
- flipped-aurora/gin-vue-admin
- biubiubiu01/vue3-bigData
- RainManGO/vue3-composition-admin
- newpanjing/simpleui - ui的django admin现代化主题。全球20000+网站都在使用
- pure-admin/vue-pure-admin - Plus+TypeScript编写的一款后台管理系统(兼容移动端)
- YunaiV/ruoyi-vue-pro
- elunez/eladmin
- codecentric/spring-boot-admin
- elunez/eladmin-web
- macrozheng/mall-swarm - swarm在电商业务的基础集成了注册中心、配置中心、监控中心、网关等系统功能。文档齐全,附带全套Spring Cloud教程。
- YunaiV/yudao-cloud
- macrozheng/mall-learning
- jaywcjlove/icongo
- Lissy93/dashy
- talebook/talebook - webserver.
- chuzhixin/vue-admin-better
-
-
语音识别
-
网络服务_其他
- audier/DeepSpeechRecognition
- k2-fsa/sherpa-ncnn
- damo/speech_charctc_kws_phone-xiaoyun - 移动端-单麦-16k-小云小云,网络结构继承自论文《Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting》,其主体为4层cFSMN结构(如下图所示),参数量约750K,适用于移动端设备运行。模型输入采用Fbank特征,训练阶段使用CTC-loss计算损失并更新参数,输出为基于char建模的中文全集token预测,token数共2599个。测试工具根据每一帧的预测数据进行后处理得到输入音频的实时检测结果。模型训练采用"basetrain + finetune"的模式,basetrain过程使用大量内部移动端数据,在此基础上,使用1万条设备端录制安静场景“小云小云”数据进行微调,得到最终面向业务的模型。由于采用了中文char全量token建模,并使用充分数据进行basetrain,本模型支持基本的唤醒词/命令词自定义功能,但具体性能无法评估。
- modelscope/FunClip
- wenet-e2e/wenet
- k2-fsa/k2
- openai/whisper
- m-bain/whisperX
- shirayu/whispering
- m1guelpf/yt-whisper
- ggerganov/whisper.cpp
- sanchit-gandhi/whisper-jax
- mli/autocut
- yufan-aslp/AliMeeting
- ZhengkunTian/OpenTransformer
- alphacep/vosk-api
- tencent-ailab/pika
- speechbrain/speechbrain
- Snowdar/asv-subtools - Subtools。
- speechio/leaderboard
- cywang97/StreamingTransformer
- hirofumi0810/neural_sp
- thu-spmi/CAT
- zycv/awesome-keyword-spotting
- TalAter/annyang
- common-voice/common-voice
- wenet-e2e/wespeaker
- SevaSk/ecoute - 3.5 生成建议的响应,供用户根据对话的实时转录说出来。
- sooftware/conformer
- Uberi/speech_recognition
- SocialSisterYi/bcut-asr
- chidiwilliams/buzz
- guillaumekln/faster-whisper
- MahmoudAshraf97/whisper-diarization
- alibaba-damo-academy/FunASR
-
-
语音合成
-
网络服务_其他
- alibaba-damo-academy/KAN-TTS - TTS,您可以训练自己的 TTS 模型
- Plachtaa/VITS-fast-fine-tuning
- 2noise/ChatTTS
- myshell-ai/OpenVoice
- myshell-ai/MeloTTS
- huggingface/parler-tts - TTS 是一种轻量级文本转语音 (TTS) 模型,可以按照给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。它复制了 Dan Lyth 和 Simon King 分别来自 Stability AI 和爱丁堡大学的论文 Natural language guidance of high-fidelity text-to-speech with synthetic annotations 的工作。与其他 TTS 模型相反,Parler-TTS 是一个完全开源的版本。所有数据集、预处理、训练代码和权重都在宽松许可下公开发布,使社区能够在我们的工作基础上开发自己强大的 TTS 模型。
- w-okada/voice-changer - vits-svc 、RVC(Retrieval-based-Voice-Conversion 基于检索的语音转换)、DDSP-SVC、Beatrice JVS Corpus Edition
- RVC-Boss/GPT-SoVITS - shot TTS:仅使用 1 分钟的训练数据对模型进行微调,以提高语音相似度和真实感。跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,协助初学者创建训练数据集和GPT/SoVITS模型。
- babysor/MockingBird
- rany2/edge-tts
- coqui-ai/TTS - -model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --text "你好。"`
- jaywalnut310/vits
- rhasspy/piper
- MoonInTheRiver/DiffSinger
- svc-develop-team/so-vits-svc
- voicepaw/so-vits-svc-fork - vits-svc fork 歌唱语音转换 具有实时支持、改进的界面和更多功能。实时语音转换、更准确的音调估计、2x 更快的训练
- isletennos/MMVC_Trainer
- jianchang512/clone-voice
- yl4579/StyleTTS2
- RVC-Project/Retrieval-based-Voice-Conversion-WebUI
- JasonWei512/Tacotron-2-Chinese
- suno-ai/bark - 包括音乐,背景噪音和简单的音效。该模型还可以产生非语言交流,如笑、叹息和哭泣。为了支持研究社区,我们正在提供对预训练模型检查点的访问,这些检查点已准备好进行推理并可用于商业用途。完全生成的文本到音频模型,用于研究和演示目的。它遵循类似于AudioLM和Vall-E的GPT风格架构以及EnCodec的量化音频表示。它不是传统的 TTS 模型,而是一个完全生成的文本到音频模型,能够以意想不到的方式偏离任何给定的脚本。与以前的方法不同,输入文本提示直接转换为音频,而无需中间使用音素。因此,它可以推广到语音以外的任意指令,例如音乐歌词、音效或其他非语音声音。
- Plachtaa/VALL-E-X - E X零样本TTS模型的开源实现。`多语言TTS`:用英语,中文和日语进行自然而富有表现力的语音合成。`零样本语音克隆`:注册一个看不见的演讲者的短短 3~10 秒录音, VALL-E X 即可创建听起来像他们的个性化、高质量的语音!`言语情绪控制`:可以合成具有与提供的声学提示相同的情感的语音,为您的音频添加额外的表现力。`零样本跨语言TTS`:让单语使用者踏上语言之旅!VALL-E X可以用另一种语言生成个性化的语音,而不会影响流利度或口音。`口音控制`:利用口音发挥创意!允许您尝试不同的口音,例如说带有英语口音的中文,反之亦然。`声学环境维护`:无需完全干净的音频提示!可适应输入的声学环境,使语音生成感觉自然而身临其境。
- haoheliu/AudioLDM
- openai/jukebox
- OlaWod/FreeVC
- fishaudio/Bert-VITS2
- facebookresearch/audiocraft
- NATSpeech/NATSpeech - TTS) 框架,包括 PortaSpeech (NeurIPS 2021) 和 DiffSpeech (AAAI 2022) 的官方 PyTorch 实现。PortaSpeech:便携式和高质量的生成文本到语音转换(NeurIPS 2021)。DiffSinger:通过浅扩散机制合成歌唱声音(DiffSpeech)(AAAI 2022)。
- Rongjiehuang/ProDiff - MM 22) 的 PyTorch 实现,具有极快的扩散语音合成管道。条件扩散概率模型,能够有效地生成高保真语音。[demo page](https://prodiff.github.io/)
- TensorSpeech/TensorflowTTS
- kan-bayashi/ParallelWaveGAN - band MelGAN) implementation with Pytorch
- KuangDD/zhrtvc
- cnlinxi/book-text-to-speech
- lturing/tacotronv2_wavernn_chinese
- JasonWei512/wavenet_vocoder
- tulasiram58827/TTS_TFLite
- thuhcsi/VAENAR-TTS
- keonlee9420/VAENAR-TTS
- ben-hayes/neural-waveshaping-synthesis
- Jackiexiao/zhtts
- PlayVoice/vits_chinese
- YatingMusic/ddsp-singing-vocoders
- CjangCjengh/MoeGoe
- enhuiz/vall-e - E的非官方PyTorch实现。3 秒音频可模仿人说话的语音大模型。使用了 Meta 提出的 [Audio Codec](https://link.zhihu.com/?target=https%3A//github.com/facebookresearch/encodec%23extracting-discrete-representations) 提取离散的音频码本,作为训练标签,其包含8(音频码维数)个 Decoder Block,每个 Block 含有 12 层 TransformerDecoder 层,第一个 block 为自回归结构,其余 block 为非自回归结构。[lifeiteng/vall-e](https://github.com/lifeiteng/vall-e)
- espeak-ng/espeak-ng
- keithito/tacotron
- r9y9/deepvoice3_pytorch
- bytedance/SALMONN - 语音协同推理。
- ga642381/SpeechGen
- pndurette/gTTS
- Rongjiehuang/FastDiff
- archinetai/audio-diffusion-pytorch - Net(使用 a-unet )、 DiffusionModel 、扩散方法和扩散采样器构建,对于任何维度都是通用的,并且高度可定制以适用于其他格式。注意:(1)这里没有提供预训练的模型,(2)显示的配置是指示性的,未经测试,参见Moûsai了解论文中使用的配置。
- marytts/marytts
- KoljaB/RealtimeTTS
- PlayVoice/VI-SVS
- fatchord/WaveRNN
- p0p4k/pflowtts_pytorch
- netease-youdao/EmotiVoice
- Edresson/YourTTS
- neonbjb/tortoise-tts
- yxlllc/DDSP-SVC
- innnky/emotional-vits
- see2023/Bert-VITS2-ext - VITS2做的表情、动画测试,比如TTS同步产生脸部表情数据。
- riffusion/riffusion
- https://github.com/jianchang512/ChatTTS-ui
- fishaudio/fish-speech
- jasonppy/VoiceCraft
- collabora/WhisperSpeech - tts-pytorch。我们希望这个模型像 Stable Diffusion 一样,但适用于语音 - 既强大又易于定制。
- haoheliu/AudioLDM2
-
-
语音识别与合成_其他
-
网络服务_其他
- microsoft/unilm/wavlm
- WenetSpeech
- mozilla-foundation/common_voice_13_0
- TencentGameMate/chinese_speech_pretrain
- zzw922cn/awesome-speech-recognition-speech-synthesis-papers
- deezer/spleeter
- Anjok07/ultimatevocalremovergui
- google-research/sound-separation
- WenzheLiu-Speech/awesome-speech-enhancement
- stemrollerapp/stemroller
- Windstudent/Complex-MTASSNet
- facebookresearch/seamless_communication - to-speech translation 语音到语音翻译 (S2ST)、Speech-to-text translation语音到文本翻译 (S2TT)、Text-to-speech translation 文本到语音转换 (T2ST)、Text-to-text translation 文本到文本翻译 (T2TT)、Automatic speech recognition 自动语音识别 (ASR)
- Rudrabha/Wav2Lip
- facebookresearch/voxpopuli
- fighting41love/zhvoice
- tyiannak/pyAudioAnalysis
- microsoft/muzic
- MubertAI/Mubert-Text-to-Music
- facebookresearch/av_hubert
- lhotse-speech/lhotse
- microsoft/NeuralSpeech
- chrisdonahue/ddc
- google/lyra
- mixxxdj/mixxx
- noisetorch/NoiseTorch
- werman/noise-suppression-for-voice
- ggeop/Python-ai-assistant
- spotify/pedalboard - 5 倍,读取音频的速度比librosa.load快4倍(在许多情况下)。
- wenet-e2e/opencpop
- snakers4/silero-models
- LCAV/pyroomacoustics
- asteroid-team/asteroid
- boy1dr/SpleeterGui - AI音乐源分离
- krantiparida/awesome-audio-visual
- Rikorose/DeepFilterNet
- beetbox/beets
- resemble-ai/resemble-enhance
- kyleneideck/BackgroundMusic
- ExistentialAudio/BlackHole
- audacity/audacity
- AudioKit/AudioKit
- sonic-pi-net/sonic-pi
- MarshallOfSound/Google-Play-Music-Desktop-Player-UNOFFICIAL-
- wenet-e2e/WeTextProcessing
- FunAudioLLM/SenseVoice - Small 模型利用非自回归端到端框架,可实现极低的推理延迟。只需 70 毫秒即可处理 10 秒的音频,比 Whisper-Large 快 15 倍。方便的微调:提供便捷的微调脚本和策略,让用户根据自己的业务场景,轻松解决长尾样本问题。服务部署:提供服务部署管道,支持多并发请求,客户端语言包括 Python、C++、HTML、Java 和 C# 等。
- FunAudioLLM/CosyVoice
- QwenLM/Qwen2-Audio - Audio聊天和预训练大型音频语言模型的官方仓库。它能够接受各种音频信号输入,并对语音指令进行音频分析或直接文本响应。我们介绍了两种不同的音频交互模式:语音聊天:用户无需文字输入即可自由地与Qwen2-Audio进行语音交互;音频分析:用户可以在交互过程中提供音频和文本指令进行分析。
- lyswhut/lx-music-mobile
- PlayVoice/whisper-vits-svc - based-Voice-Conversion仓库中描述的方法,该方法包括在hubert和whisper特征上训练检索索引,然后使用默认设置进行训练。
- pyannote/pyannote-audio
- jianchang512/vocal-separate
- collabora/WhisperFusion
- jianchang512/pyvideotrans - whisper模型 openai-whisper模型 和 GoogleSpeech zh_recogn阿里中文语音识别模型.文字翻译支持 微软翻译|Google翻译|百度翻译|腾讯翻译|ChatGPT|AzureAI|Gemini|DeepL|DeepLX|字节火山|离线翻译OTT。文字合成语音支持 Microsoft Edge tts Google tts Azure AI TTS Openai TTS Elevenlabs TTS 自定义TTS服务器api GPT-SoVITS clone-voice ChatTTS-ui Fish TTS CosyVoice
- kadirnar/whisper-plus
- AIGC-Audio/AudioGPT
- modelscope/FunCodec
-
-
药物发现、药物设计
-
分子
-
网络服务_其他
- deepmind//ogb_lsc/pcq - LSC) 的PCQM4M-LSC(量子化学)轨道的条目 。通过汇集 20 个模型(10 倍 x 2 个种子)的集合来实现的。
- grogdrinker/pyuul
- LiteGEM/kddcup2021-PCQM4M-LSC - LSC解决方案. PCQM4M-LSC是量子化学数据集,任务是预测给定分子的重要分子特性,即HOMO-LUMO间隙(图形回归)。即一个分子图的量子特性回归数据集,它包含了3,803,453个图。它基于PubChemQC项目的归纳式图回归数据集。它包含约400万以SMILES串描述的小分子。目的是加速量子化学计算,尤其是预测每个分子的HOMO-LUMO轨道距离。HOMO-LUMO距离是量子化学中最重要的属性之一,因为他和分子的反应性、光激励、电荷输送有关。每个分子的真实标签是通过昂贵的DFT计算得到,每个分子需要计算几个小时。在足够的训练数据支持下,类似GNN的基于分子图网络的机器学习模型,可以以很小代价得到近似DFT的结果。这些分子根据他们的PubChem ID按照8:1:1划分作为训练、验证、测试数据集。
- futianfan/CORE
- zhang-xuan1314/Molecular-graph-BERT
- microsoft/Graphormer
- HIPS/neural-fingerprint
- binghong-ml/MolEvol
- MinkaiXu/GeoDiff
- MinkaiXu/ConfVAE-ICML21
- mohimanilab/molDiscovery
- binghong-ml/retro_star
- GraphPKU/3DLinker
- marcopodda/fragment-based-dgm
- torchmd/torchmd
- MolecularAI/GraphINVENT
- shenwanxiang/bidd-molmap
- DeepGraphLearning/GraphAF
- anny0316/Drug3D-Net - Net,用于预测分子性质。它是基于网格的三维卷积神经网络,具有时空门注意模块,可以提取卷积过程中分子预测任务的几何特征。
- deepmodeling/deepmd-kit
- lol88/Mol2Context-vec
- jcchan23/CoMPT
- zetayue/MXMNet
- ChenDdon/AGBTcode
- yvquanli/trimnet
- lmmpf/PyAutoFEP
- hannesstark/3dinfomax
- microsoft/FS-Mol - Mol 是一个 Few-Shot 分子学习数据集,包含具有针对各种蛋白质靶标的活性测量值的分子化合物。该数据集提供了一个模型评估基准,旨在推动分子和图形结构数据领域的小样本学习研究。
- zhichunguo/Meta-MGNN
- illidanlab/MoCL-DK
- smiles724/Molformer - Transformer)的存储库,它在许多分子表示学习问题中实现了最先进的技术。
- gasteigerjo/dimenet - W 2020)中提出
- PattanaikL/GeoMol
- IBM/QMO
- Saoge123/ccgnet - Crystal Graph Network是二元有机共晶虚拟筛选的深度学习框架,将先验知识融入分子图的特征学习中,实现共晶筛选性能的极大提升。
- ZJU-Fangyin/KCL
- nyu-dl/dl4chem-mgm - CN&hl=zh-CN&client=webapp&u=https://www.nature.com/articles/s41467-021-23415-2)中进行实验的模型、数据和脚本。
- ccsb-scripps/AutoDock-Vina
- devalab/molgpt
- tencent-ailab/grover
- rampasek/GraphGPS
- wenhao-gao/mol_opt
- THUDM/GraphMAE
- lucidrains/egnn-pytorch - 等变图网络, 可能最终用于Alphafold2 复制。 适用于简单的不变特征,最终在准确性和性能上击败了所有以前的方法(包括 SE3 Transformer 和 Lie Conv)。 动力系统模型、分子活动预测任务等中的 SOTA。
- OptiMaL-PSE-Lab/DeepDock
- hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarios
- xzenglab/KG-MTL - MTL在两个具有代表性的分子相互作用预测任务上优于最先进的方法:药物-靶点相互作用(DTI)预测和化合物-蛋白质相互作用(CPI)预测。
- divelab/MoleculeX - LSC是获胜者之一。当只有少量标记样本可用时,AdvProp包括用于分子特性预测的机器学习方法,因此需要自我监督学习来实现理想的性能。此外,AdvProp能够处理来自不同类别的样本高度不平衡的任务。在这些情况下,我们采用先进的损失函数来优化曲线下的各个区域 (AUC)。AdvProp已被用于参与COVID-19 的 AI 治愈公开挑战赛排名第一。此外,Molecule3D提供了一套软件工具来处理我们提出的 Molecule3D 数据集,这是一种专门为基态 3D 分子几何预测而设计的新型数据集。它还包括几种几何预测的基线方法,以及使用预测的 3D 几何作为输入的量子特性预测方法。目前,MoleculeX 的 pip 包只包含 Molecule3D 模块的代码。我们将在未来逐步包含其他模块。
-
-
其他_生物医药
-
网络服务_其他
- mauragarofalo/LICTOR
- AI4Chem/ChemLLM-7B-Chat-1.5-DPO - 2 构建
- www.serratus.io - seq、元基因组学、元转录组学和环境测序数据,以发现新病毒。即>600 万个生物样本或 >10 PB 的测序数据。
- 细菌和古细菌细胞结构图谱 - ET) 的发展,我们对细菌和古细菌细胞结构的理解有了爆炸式增长,但传统教科书并没有跟上所有新信息。为了解决这个问题,并与世界分享我们所见,我们创作了这本书。它遵循 1960 年代和 1970 年代细胞结构图谱的传统,显示了不同细胞和组织的显微照片以及扩展的图形图例,以帮助每个人了解他们在看什么。五十年后,我们有了一组新的图像——这次是 3D 冷冻断层照片——以及展示它们的新技术:我们的每个免费数字页面都包含一部 3D 断层照片的电影,而不是一本昂贵的书中的静态 2D 数字。一个单元格,带有注释和动画。
- KailiWang1/DeepDTAF
- cansyl/MDeePred
- microsoft/BioGPT - DTI(built *upon* *Drug*- *Bank* (*Wishart* *et* *al*. 2017) *and* *Therapeutic* *Target* *Database* (*briefly*, *TTD*) (*Wang* *et* *al*. 2020). DTI预测药物-靶点相互作用)关系提取任务、HoC 上的文档分类任务。
- CBLUEbenchmark/CBLUE
- dmis-lab/biobert
- mims-harvard/TDC
- alibaba-research/ChineseBLUE
- lrsoenksen/CL_RNA_SynthBio
- uci-cbcl/UFold
- lanagarmire/DeepImpute
- emreg00/toolbox
- ruoqi-liu/DeepIPW
- CutillasLab/DRUMLR
- kaist-amsg/Synthesizability-PU-CGCNN
- xiaoyeye/CCST
- WLYLab/PepFormer
- NYSCF/monoqlo_release
- deepmodeling/deepks-kit - Driven Approach toward Chemically Accurate Density Functional Theory 提出了构建准确且高效的密度泛函模型的通用机器学习框架,并且利用这一框架训练了具有化学精度的密度泛函模型,应用于电子结构性质的计算。
- juexinwang/scGNN
- liulizhi1996/HPOFiller
- zty2009/GCN-DNN
- WebyGit/CGINet
- ziyujia/SalientSleepNet
- ziyujia/Physiological-Signal-Classification-Papers
- ziyujia/Sleep-Stages-Classification-Papers
- ziyujia/Motor-Imagery-Papers
- BojarLab/SweetNet
- jaswindersingh2/SPOT-RNA2
- QSong-github/scGCN - cell Graph Convolutional Network)可以实现跨越不同数据集的知识转移(knowledge transfer)。通过在30个单细胞组学数据集上进行基准测试实验,结果表明scGCN在利用来自不同组织、平台和物种以及分子层的细胞方面展现了优于其他方法的准确性。
- JieZheng-ShanghaiTech/KG4SL
- immunogenomics/symphony
- calico/scnym
- schulter/EMOGI
- hui2000ji/scETM
- Google-Health/genomics-research
- CompbioLabUCF/omicsGAN
- BackofenLab/CRISPRloci - Cas 系统的自动化和全面的计算机表征。它是完整的 CRISPR 基因座表征套件,包括 CRISPR 阵列定向、保守前导检测、cas 基因注释和亚型分类。
- suhrig/arriba - Seq 数据中快速准确地检测基因融合
- haiyang1986/Subtype-GAN
- oxpig/dlab-public
- heislab/scarches - seq) 参考图集并共享经过训练的模型和数据(如果可能)。为您感兴趣的地图集下载预先训练的模型,使用新数据集对其进行更新并与您的合作者分享。在参考的顶部投影和集成查询数据集,并使用潜在表示进行下游任务,例如:差异测试、聚类、分类
- HantaoShu/DeepSEM - seq数据,并通过解释不同的模块来模拟真实的scRNA-seq数据。
- Tsedao/MultiRM
- hybrid-kg/clep
- d909b/drnet
- claudiashi57/dragonnet
- OATML-Markslab/EVE
- ZJUFanLab/scDeepSort - seq) 的最新进展已经实现了对多个复杂组织中数千个细胞的大规模转录表征,其中准确的细胞类型识别成为 scRNA-seq 研究的先决条件和重要步骤。开发了一种预训练的细胞类型标注方法,scDeepSort 是基于加权 GNN 框架构建的,然后在两个嵌入的高质量 scRNA-seq 图集中学习,该图集包含人类和小鼠 88 个组织中的 764,741 个细胞。
- jianhuupenn/SpaGCN
- kipoi/models
- LiuJJ0327/CCPE - seq 数据的细胞周期假体估计。细胞周期(cell cycle)是指细胞从一次分裂完成开始到下一次分裂结束所经历的全过程,分为间期与分裂期两个阶段。
- broadinstitute/Tangram
- franciscozorrilla/metaGEM
- scverse/scvi-tools
- BioDynaMo/biodynamo
- RasmussenLab/vamb
- XieResearchGroup/DeepREAL
- rankchen121212/RHSNet
- microsoft/InnerEye-DeepLearning
- TencentAILabHealthcare/MLA-GNN
- TencentAILabHealthcare/scBERT - seq数据细胞类型注释的大规模预训练深度语言模型。可靠的细胞类型注释是单细胞RNA测序数据下游分析的先决条件。受大规模预训练语言模型的启发,提出了基于预训练深度神经网络的模型scBERT。scBERT的第一阶段,它通过对大量未标记的scRNA-seq数据进行预训练,获得了对基因 - 基因相互作用的一般理解。然后,预先训练的scBERT可以通过监督微调用于看不见和用户特异性scRNA-seq数据的细胞注释任务。
- Graylab/IgFold
- Graylab/IgLM
- oxpig/AbLang
- luost26/diffab
- volkamerlab/kissim
- jerryji1993/DNABERT
- google/deepvariant
- sourmash-bio/sourmash - mer 分析多功能工具,为各种序列比较提供稳定、强大的编程和命令行 API。
- KamilSJaron/smudgeplot
- shenwei356/kmcp
- mcveanlab/mccortex
- HUANGLIZI/LViT
- allenai/scispacy
- openbabel/openbabel
- Tencent/plato
- apache/incubator-hugegraph - API和后端)
- vtraag/leidenalg
- erikbern/ann-benchmarks - NN 算法和参数。
- vesoft-inc/nebula
- dgraph-io/dgraph
- shobrook/communities
- jm199504/Financial-Knowledge-Graphs
- apache/incubator-s2graph
- TuGraph-family/tugraph-db
- FalkorDB/falkordb
-
-
图机器学习库
-
网络服务_其他
- GNNBook@2022
- dmlc/dgl/examples
- dmlc/dgl
- facebookresearch/PyTorch-BigGraph
- shenweichen/GraphNeuralNetwork
- imsheridan/CogDL-TensorFlow
- CrawlScript/tf_geometric
- alibaba/graph-learn
- BUPT-GAMMA/OpenHINE
- PaddlePaddle/PGL
- THUMNLab/AutoGL
- benedekrozemberczki/pytorch_geometric_temporal - temporal regression 方法。它还带有许多带有时间和动态图的基准数据集。离散递归图卷积 DCRNN GConvGRU GConvLSTM GC-LSTM LRGCN DyGrEncoder EvolveGCNH EvolveGCNO ;辅助图卷积 Temporal Graph Convolutions 时间图卷积 STGCN ;Auxiliary Graph Convolutions TemporalConv DConv
- divelab/DIG
- chaitjo/awesome-efficient-gnn
- EdisonLeeeee/GraphGallery
- Awesome-GNN-Research
- quiver-team/torch-quiver
- stellargraph/stellargraph
- JDGalileo/galileo
- networkx/networkx: Network Analysis in Python
- rusty1s/pytorch_geometric
- CurryTang/Graph-LLM
-
-
时空网络_交通预测_动态图
-
网络服务_其他
- guoshnBJTU/ASTGCN-r-pytorch
- LeiBAI/AGCRN - 自适应图卷积递归网络。AGCRN可以捕获流量序列中特定于节点的细粒度空间和时间相关性,并通过嵌入DAGG来统一修订GCN中的节点嵌入。这样,训练AGCRN可以针对每个交通系列源(例如,用于交通速度/流量的道路,用于乘客需求的车站/区域)产生有意义的节点表示向量。学习的节点表示包含有关道路/区域的有价值的信息,并且可以潜在地应用于其他任务。
- nnzhan/Graph-WaveNet - LA是洛杉矶公路探测器收集到的交通数据,有207个传感器搜集了四个月的数据(2012.3.1 2012.6.30);PEMS-BAY是加州交通部门Performance Measurement System搜集到的交通数据,有325个传感器搜集了六个月的数据(2017.1.1 2017.5.31)。
- Davidham3/STSGCN
- IBM/EvolveGCN
- twitter-research/tgn
- lehaifeng/T-GCN - GCN是时间图卷积网络的源代码。2 A3T-GCN是具有注意力结构的时间图卷积网络的源代码。3 AST-GCN是属性增强的时空图卷积网络的源代码。4 基准包括以下方法,例如历史平均模型(HA)、自回归综合移动平均模型(ARIMA)、支持向量回归模型(SVR)、图卷积网络模型(GCN)、门控循环单位模型(GRU)
- palash1992/DynamicGEM
- LZH-YS1998/STHSL
- rootlu/MMDNE
- skx300/DyHATR - level attention和edge-level attention以上两个层次的注意力机制实现异质信息的有效处理,并且通过循环神经网络结合self-attention研究节点embedding的演化特性,并且通过链接预测任务进行试验,验证模型的有效性。
- aravindsankar28/DySAT - ATTENTION机制,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。
- luckiezhou/DynamicTriad
- jwwthu/GNN4Traffic
- SpaceLearner/Awesome-DynamicGraphLearning
- liangzhehan/DMSTGCN
- LibCity/Bigscity-LibCity-PaperList
- LibCity/Bigscity-LibCity - 交通状态预测(交通流量预测、交通速度预测、交通需求预测、起点-终点(OD)矩阵预测、交通事故预测)轨迹下一跳预测、到达时间预测、路网匹配、路网表征学习。
- microsoft/FOST - TS、facebook的Prophet等)无法处理和建模结构图数据,尤其是在空间数据中
- drop-out/Tianchi-Wifi-Positioning
- Cantoria/dynamic-graph-papers
- BIRD-TAO/CLCRN
-
-
其他_图神经网络GNN
-
网络服务_其他
- peter14121/intentgc-models
- GRAND-Lab/SUBLIME
- animutomo/gcmc
- Ruiqi-Hu/ARGA - >VGAE->ARGA
- naganandy/graph-based-deep-learning-literature
- DGraphXinye/2022_finvcup_baseline - 欺诈用户风险识别的baseline。节点分类
- RobertAckleyKid/2022_finvcup_RobertAckley_8363
- pygod-team/pygod
- graphdeeplearning/benchmarking-gnns
- alibaba/GraphScope
- tkipf/gae
- shawnwang-tech/GeniePath-pytorch
- gated-graph-neural-network-samples
- safe-graph/DGFraud
- hwwang55/RippleNet - K推荐。[完整的逐行中文注释笔记](https://github.com/nakaizura/Source-Code-Notebook/tree/master/RippleNet)
- Variational-Graph-Auto-Encoders
- graph-fraud-detection-papers
- awesome-fraud-detection-papers
- snap-stanford/distance-encoding - 为结构表示学习设计更强大的GNN,提出了一类与结构相关的特征,称为距离编码(Distance Encoding,DE),以帮助 GNN 以比 1-WL test 更严格的表达能力来表示任意大小的节点集。
- megvii-research/DPGN - shot Learning 分布传播图网络的小样本学习
- CUAI/CorrectAndSmooth
- YimiAChack/GraphSTONE - topic Neural Network 图结构主题神经网络 本文类比自然语言处理中的相关概念,借助主题模型学习图的结构信息。
- YuGuangWang/PAN
- benedekrozemberczki/SimGNN
- Saro00/DGN
- liaopeiyuan/GAL - 237 和 WN18RR 数据集进行知识图链接预测。使用 Movielens-1M 数据集进行推荐系统链接预测任务。
- snap-stanford/GraphGym - aware Graph Neural Networks一种身份感知图神经网络对现有的消息传递 GNN 进行了扩展,将其性能提升到了高于 1-WL 测试的水平。实验结果表明,将现有的 GNN 转变为 ID-GNN 可以在难以分类的节点预测、边预测、图属性预测任务中获得平均 40% 的准确率提升;在节点和图分类对比基准任务获得 3%的准确率提升;链接预测任务获得 15% 的ROC提升。
- YuweiCao-UIC/KPGNN
- divelab/DeeperGNN
- BUPT-GAMMA/CPF
- WangXuhongCN/APAN - time Temporal Graph Embedding 实时时间图嵌入的异步传播注意网络
- flyingdoog/PGExplainer
- lsj2408/GraphNorm
- YuGuangWang/UFG
- maxiaoba/GRAPE
- PKU-DAIR/DGMLP - 模型退化与过平滑。
- snap-stanford/CAW
- BUPT-GAMMA/Graph-Structure-Estimation-Neural-Networks
- thunlp/GNNPapers
- google-research/graph-attribution - Abstract.html)代码库
- zwt233/GAMLP
- susheels/adgcl
- amazon-science/gnn-tail-generalization
- zhitao-wang/PLNLP
- yushundong/REFEREE - REFEREE为例来解释经过训练的GAT模型。评估它如何帮助GAT消除偏见。
- yongduosui/CAL
- PKU-DAIR/SGL
- Thinklab-SJTU/pygmtools
- HKUDS/GraphGPT - 文本对齐投影仪。该范式探索了自监督图结构信号和特定于任务的图指令,以指导LLMs理解复杂的图结构并提高其在不同下游任务中的适应性。我们的框架在监督和零样本图学习任务上进行了评估,展示了卓越的泛化性和优于最先进的基线。
- deepmind/graph_nets
-
-
数据库管理系统
-
网络服务_其他
- MySQL - server](https://github.com/mysql/mysql-server)
- MariaDB
- PostgreSQL
- realm/realm-java
- seata/seata
- donnemartin/awesome-aws
- dhamaniasad/awesome-postgres - mysql 启发的出色 PostgreSQL 软件、库、工具和资源的精选列表。PostgreSQL,通常简称为 Postgres,是一个对象关系数据库 (ORDBMS)。PostgreSQL 符合 ACID 标准且具有事务性。内容:高可用性、备份、图形用户界面、分布式、命令行界面、服务器、监测、扩展、优化、工具、语言绑定、PaaS(PostgreSQL 即服务)、Docker 镜像、资源、教程、博客、文章、文档、通讯、视频、社区、路线图。
- realm/realm-swift - C 的源代码。
- oceanbase/oceanbase
- apache/flink
- pingcap/tidb
- apache/doris
- apache/zookeeper
- binhnguyennus/awesome-scalability
- apache/hive
- heibaiying/BigData-Notes
- newTendermint/awesome-bigdata
- Tencent/wwsearch
- apache/druid
- apache/shardingsphere
- opencurve/curve
- ClickHouse/ClickHouse
- mongodb/mongo
- canonical/dqlite
- apache/iceberg
- apache/hudi
- greenplum-db/gpdb
- TurboWay/bigdata_analyse - 19 疫情、7 万条天猫订单数据
- juicedata/juicefs
- trinodb/trino
- facebook/rocksdb
- avinassh/fast-sqlite3-inserts
- baidu/BaikalDB
- ApsaraDB/PolarDB-for-PostgreSQL - X 是一款面向超高并发、海量存储、复杂查询场景设计的云原生分布式数据库系统。其采用 Shared-nothing 与存储计算分离架构,支持水平扩展、分布式事务、混合负载等能力,具备企业级、云原生、高可用、高度兼容 MySQL 系统及生态等特点。
- ApsaraDB/galaxyengine
- qiurunze123/miaosha
- timescale/tsbs
- byzer-org/byzer-lang
- xephonhq/awesome-time-series-database
- XiaoMi/soar
- Meituan-Dianping/SQLAdvisor
- cookieY/Yearning:
- hhyo/Archery
- MyCATApache/Mycat-Server
- Qihoo360/Quicksql
- Qihoo360/Atlas
- akopytov/sysbench
- github/gh-ost
- openark/orchestrator
- alchemystar/Freedom
- alibaba/otter
- m3o/m3o
- PrefectHQ/prefect
- facebookincubator/velox
- alibaba/havenask
- ctripcorp/x-pipe - Slave复制协议,实现低延时、高可用的Redis多中心、跨公网数据复制,并且提供一键机房切换,复制监控、异常报警等功能。
- ctripcorp/drc
- zhisheng17/flink-learning
- spotify/luigi
- cockroachdb/cockroach
- madd86/awesome-system-design
- wangzhiwubigdata/God-Of-BigData
- apache/spark
- google/leveldb
- apache/couchdb - zh/topics/rest-apis) 从任何地点访问数据库,并具有完全的 CRUD(创建、读取、更新、删除)操作灵活性。设计中考虑了脱机操作。高效的文档存储。提供多种兼容性优势,可轻松地与当前基础架构集成。优点:可扩展性。没有读取锁。
- surrealdb/surrealdb
- pingcap/talent-plan
- alibaba/druid
- questdb/questdb
- duckdb/duckdb
- dbeaver/dbeaver - 任何数据库)。商业版本还支持非JDBC数据源,如MongoDB、Cassandra、Couchbase、Redis、BigTable、DynamoDB等。可以找到商业版本中支持的所有数据库的列表。
- etcd-io/etcd
- typicode/lowdb
- pouchdb/pouchdb
- dolthub/dolt
- beekeeper-studio/beekeeper-studio
- go-sql-driver/mysql
- arangodb/arangodb
- golang-migrate/migrate
- dotnet/efcore
- dgraph-io/badger
- rqlite/rqlite
- edgedb/edgedb
- scylladb/scylladb
- cstack/db_tutorial
- coleifer/peewee - - 支持 PostgreSQL、MySQL、SQLite 和 CockroachDB,ORM是对象关系映射,用于把面向对象的概念和数据库中的表的概念对应起来,方便编程和操作。
- pingcap/awesome-database-learning
- orbitdb/orbitdb
- risingwavelabs/risingwave
- bigchaindb/bigchaindb
- oceanbase/miniob
- Wisser/Jailer
- mirage/irmin
- georgia-tech-db/evadb
- apple/foundationdb
- citusdata/citus
- mongodb/mongo-go-driver
- sosedoff/pgweb
- apache/arrow - copy)的方式进行共享和交换,从而提高数据处理的效率。Arrow 的核心数据结构是统一的列式内存格式,该格式采用了内存连续布局和零复制策略,以减少数据传输的开销。它支持对连续的列式数据使用现代处理器中包SIMD(单指令、多数据)进行向量化操作。此外,Arrow 还提供了一套丰富的数据操作接口,如过滤、转换、聚合等,以支持高效的数据分析和处理。随着时间的推移,Apache Arrow 在逐渐扩展和发展,到现在Apache Arrow已经发展成为一个用于构建处理和传输大型数据集的高性能应用程序软件开发平台,它不仅支持多种编程语言(如C++, Java, Python, R等),还与许多主流的数据处理框架集成,如 Apache Spark、Pandas、TensorFlow 等。
- pgadmin-org/pgadmin4
- FerretDB/FerretDB
- delta-io/delta - dataframe、vega 等。
- Sequel-Ace/Sequel-Ace
- tursodatabase/libsql
- apache/storm
- erikgrinaker/toydb
- readysettech/readyset
- tigerbeetle/tigerbeetle
-
-
向量数据库、向量搜索、最近邻搜索
-
网络服务_其他
- Tencent/wcdb - C。
- milvus-io/milvus
- vearch/vearch
- spotify/annoy
- qdrant/qdrant - 具有附加有效载荷的矢量 Qdrant 专为扩展过滤支持量身定制。它使其可用于各种神经网络或基于语义的匹配、分面搜索和其他应用程序。
- weaviate/weaviate
- pgvector/pgvector
- FALCONN-LIB/FALCONN
- yahoojapan/NGT
- hora-search/hora
- marqo-ai/marqo
- currentslab/awesome-vector-search
- vdaas/vald
- docarray/docarray
- neuml/txtai
- chroma-core/chroma
- milvus-io/milvus-lite
- milvus-io/bootcamp
- zilliztech/VectorDBBench
- lancedb/lancedb
- infiniflow/infinity
- tensorchord/pgvecto.rs
- pinecone-io/examples
- qdrant/fastembed - 002,我们还支持一组不断扩展的模型,包括一些多语言模型。
- asg017/sqlite-vec - vss 的继任者。在 vec0 虚拟表中存储和查询浮点数、int8 和二进制向量;用纯C语言编写,没有依赖项,可以在SQLite运行的任何地方运行(Linux / Mac OS / Windows,在带有WASM,Raspberry Pis等的浏览器中);使用 rowid IN (...) 子查询预过滤向量
-
-
其他__大数据
-
网络服务_其他
- groue/GRDB.swift
- veggiemonk/awesome-docker
- ramitsurana/awesome-kubernetes
- guangzhengli/k8s-tutorials
- redis/redis
- dragonflydb/dragonfly
- bilibili/overlord
- redis/redis-py
- redis/node-redis
- redis/ioredis
- redis/jedis
- redis/go-redis
- redisson/redisson
- sohutv/cachecloud
- qishibo/AnotherRedisDesktopManager
- luin/medis
- twitter/twemproxy
- Snapchat/KeyDB
- golang/groupcache
- DataTalksClub/data-engineering-zoomcamp
- apache/kafka
- yahoo/CMAK
- phpmyadmin/phpmyadmin
- prisma/prisma
- sequelize/sequelize
- mikro-orm/mikro-orm
- porsager/postgres - 适用于 Node.js、Deno、Bun 和 CloudFlare 的最快全功能 PostgreSQL 客户端
- seaweedfs/seaweedfs - 主动复制、Kubernetes、POSIX FUSE 挂载、S3 API、S3 Gateway、Hadoop、WebDAV、加密、纠删码。
- Database-like ops benchmark
- tonsky/datascript
- cube-js/cube
- bytebase/bytebase
- mingrammer/diagrams - Premise 节点、 SaaS 主要 Programming 框架和语言。
- alibaba/DataX
- PRQL/prql
- go-gorm/gorm
- ben-manes/caffeine
- ipfs/kubo - 用于内容寻址的 Web3 标准,可与 HTTP 互操作。因此,由IPLD的数据模型和用于网络通信的libp2p提供支持。
- tendermint/tendermint
- lni/dragonboat
- spandanb/learndb-py
- dbcli/pgcli
- diesel-rs/diesel
- launchbadge/sqlx
- codenotary/immudb
- timescale/timescaledb
- osquery/osquery
- PostgREST/postgrest
- minio/minio
- sqlitebrowser/sqlitebrowser
- xuxueli/xxl-job
- tikv/tikv
- airbytehq/airbyte
- apache/dolphinscheduler
- apache/rocketmq
- jaegertracing/jaeger
- alibaba/spring-cloud-alibaba
- elastic/logstash
- elastic/beats
- apache/pulsar - sub 消息传递平台,具有非常灵活的消息传递模型和直观的客户端 API。特点:水平可扩展(每秒发布数百万个独立主题和数百万条消息)、强大的排序和一致性保证、低延迟持久存储、主题和队列语义、负载均衡器、设计用于部署为托管服务:多租户 认证 授权 配额 支持混合非常不同的工作负载 可选硬件隔离、跟踪消费者光标位置、用于配置管理和统计的 REST API、异地复制、透明地处理分区主题、消息的透明批处理
- harelba/q
- theanalyst/awesome-distributed-systems
- apache/zeppelin
- dtm-labs/dtm
- k8sgpt-ai/k8sgpt
- mongodb/node-mongodb-native
- xo/usql
- yugabyte/yugabyte-db
- mbdavid/LiteDB
- manticoresoftware/manticoresearch
- digoal/blog
- flyway/flyway
- doctrine/dbal
- twpayne/chezmoi
- syndtr/goleveldb
- spacejam/sled - 1.25 亿个唯一 ID;zstd 压缩(使用 compression 构建功能,默认禁用);CPU 可扩展的无锁实现;闪存优化的日志结构化存储;使用现代 B 树技术(如前缀编码和后缀截断)来降低具有共享前缀的长键的存储成本。如果密钥的长度和顺序相同,那么在大多数情况下,系统可以避免存储 99%+ 的密钥数据,本质上就像一个学习索引
- StarRocks/starrocks - 10倍。标准 SQL:StarRocks 支持 ANSI SQL 语法(完全支持 TPC-H 和 TPC-DS)。它还与MySQL协议兼容。可以使用各种客户端和 BI 软件来访问 StarRocks。 智能查询优化:StarRocks 可以通过 CBO(Cost Based Optimizer,成本优化器)对复杂查询进行优化。有了更好的执行计划,数据分析效率就会大大提高。实时更新:StarRocks 更新后的模型可以根据主键进行更新/删除操作,在并发更新的同时实现高效查询。智能物化视图:StarRocks 的物化视图可在数据导入过程中自动更新,并在执行查询时自动选择。直接查询数据湖中的数据:StarRocks 支持直接访问来自 Apache Hive™、Apache Iceberg™ 和 Apache Hudi™ 的数据,无需导入。资源管理:支持 StarRocks 限制查询资源消耗,实现同一集群租户间资源的隔离和高效利用。易于维护:简单的架构使 StarRocks 易于部署、维护和扩展。StarRocks 敏捷地调整查询计划,在集群扩容或扩容时均衡资源,并在节点故障时自动恢复数据副本。
- volatiletech/sqlboiler
- vrana/adminer
- apache/seatunnel
- debezium/debezium
- kysely-org/kysely
- VictoriaMetrics/VictoriaMetrics - storageDataPath 命令行标志指定的单个目录中。可以使用 vmbackup/vmrestore 工具轻松快速地从即时快照进行备份。它实现了类似 PromQL 的查询语言 - MetricsQL,它在 PromQL 之上提供了改进的功能。它提供全局查询视图。多个 Prometheus 实例或任何其他数据源可能会将数据摄取到 VictoriaMetrics 中。稍后,可以通过单个查询查询此数据。它为数据引入和数据查询提供了高性能以及良好的垂直和水平可伸缩性。它的性能比 InfluxDB 和 TimescaleDB 高出 20 倍。在处理数百万个独特的时间序列(又名高基数)时,它使用的 RAM 比 InfluxDB 少 10 倍,比 Prometheus、Thanos 或 Cortex 少 7 倍。它针对具有高流失率的时间序列进行了优化。它提供了高数据压缩率:根据这些基准测试,与TimescaleDB相比,在有限的存储中可以存储多达70倍的数据点,与Prometheus、Thanos或Cortex相比,所需的存储空间减少了7倍。根据这个基准。它针对具有高延迟 IO 和低 IOPS 的存储(AWS、Google Cloud、Microsoft Azure 等中的 HDD 和网络存储)进行了优化。请参阅这些基准测试中的磁盘 IO 图。单节点 VictoriaMetrics 可以替代使用 Thanos、M3DB、Cortex、InfluxDB 或 TimescaleDB 等竞争解决方案构建的中等规模的集群。查看垂直可扩展性基准测试,将 Thanos 与 VictoriaMetrics 集群进行比较,以及 PromCon 2019 上的远程写入存储大战演讲。由于存储架构,它可以保护存储在不干净的关闭(即 OOM、硬件重置或 kill -9 )时免受数据损坏。它支持通过以下协议进行指标抓取、摄取和回填:从 Prometheus 导出器抓取的指标、Prometheus 远程写入 API、Prometheus展览形式、基于 HTTP TCP 和 UDP 的 InfluxDB 线路协议、带有标签的Graphite plaintext协议、Statsd 明文协议、OpenTSDB消息、HTTP OpenTSDB /api/put 请求、JSON 行格式、任意 CSV 数据、本机二进制格式、DataDog 代理或 DogStatsD、NewRelic 基础结构代理、OpenTelemetry 指标格式。它支持强大的流聚合,可以用作 statsd 的替代方案。它支持指标重新标记。它可以通过系列限制器处理高基数问题和高流失率问题。它非常适合处理来自 APM、Kubernetes、物联网传感器、联网汽车、工业遥测、财务数据和各种企业工作负载的大量时间序列数据。它有一个开源集群版本。它可以将数据存储在基于 NFS 的存储上,例如 Amazon EFS 和 Google Filestore。
- sabledb-io/sabledb
- ploomber/ploomber
- VertaAI/modeldb
- lux-org/lux
- tobymao/sqlglot
- JSQLParser/JSqlParser
- thanos-io/thanos
- SeaQL/sea-orm
- fenixsoft/awesome-fenix
- apache/beam
- istio/istio
- apolloconfig/apollo
- jesseduffield/lazydocker
- KubeOperator/KubeOperator
- rancher/k3s
- kubernetes/minikube
- rootsongjc/kubernetes-handbook
- kubernetes-sigs/kustomize
- silenceshell/docker_mirror
- AliyunContainerService/GPUshare-scheduler-extender
- yeasy/docker_practice
- kubescape/kubescape
- containerd/containerd
- harness/drone
- portainer/portainer
- kubesphere/kubesphere
- hashicorp/consul
- foxlet/macOS-Simple-KVM
- utmapp/UTM
- kholia/OSX-KVM
- ima-vm/lima
- sickcodes/Docker-OSX - KVM 附近!X11 转发!用于 OS X 安全研究的 CI/CD
- rancher/rancher
- opentofu/opentofu
- lensapp/lens
- argoproj/argo-cd
- kelseyhightower/kubernetes-the-hard-way
- kubeshark/kubeshark
- moby/moby
- containrrr/watchtower
- docker/awesome-compose
- wagoodman/dive
- louislam/dockge
- bcicen/ctop
- hadolint/hadolint
- docker/compose
- earthly/earthly
- bottlerocket-os/bottlerocket
- linuxkit/linuxkit
- argoproj/argo-workflows
- derailed/k9s
- eip-work/kuboard-press
- qemu/qemu
- kubernetes-sigs/kubespray
- spacedriveapp/spacedrive
- firecracker-microvm/firecracker
- fission/fission
- fnproject/fn
- labring/sealos
- cert-manager/cert-manager - manager 将证书和证书颁发者添加为 Kubernetes 集群中的资源类型,并简化了获取、续订和使用这些证书的过程。它支持从各种来源颁发证书,包括 Let's Encrypt (ACME)、HashiCorp Vault 和 Venafi TPP/TLS Protect Cloud,以及本地集群内颁发。cert-manager 还确保证书保持有效和最新,尝试在到期前的适当时间续订证书,以降低中断风险并消除工作。
- abiosoft/colima
- alibaba/Sentinel
- alibaba/nacos
- go-kit/kit
- dapr/dapr
- google/gvisor
- hashicorp/nomad
- aws/aws-cdk
- gitpod-io/gitpod
- infracost/infracost
- firebase/functions-samples
- google/go-cloud
- dotnet/orleans
- helm/helm
- apache/openwhisk
- conductor-oss/conductor - 2.0 许可证。自由部署、修改和回馈。通过完全抽象的后端,您可以选择自己的数据库持久层和排队服务。企业就绪的、基于Java Spring的平台,已经在Netflix和其他地方的生产系统中进行了实战测试。强大的流控制结构,包括决策、动态分叉连接和子工作流。支持变量和模板。多种语言的客户端库允许使用 Java、Node JS、Python 和 C# 实现 worker。适用于编排器和工作线程的分布式架构,可从单个工作流扩展到数百万个并发流程。Conductor 允许您使用简单而精细的任务来构建复杂的应用程序,这些任务不需要了解或跟踪应用程序执行流的状态。Conductor 跟踪状态,按正确的顺序(按顺序或并行,由您定义)调用任务,根据需要重试调用,优雅地处理故障场景,并输出最终结果。利用 Conductor 中的工作流,开发人员能够真正专注于他们的核心任务 - 使用他们选择的语言构建他们的应用程序代码。Conductor 承担了与确保其工作流程的高可靠性、事务一致性和长期耐用性相关的繁重工作。简单地说,无论您的应用程序组件位于何处,也无论它们使用哪种语言编写,您都可以在 Conductor 中构建一个工作流,以可靠且可扩展的方式编排它们的执行。
- akuity/awesome-argo - Green 等高级 Kubernetes 部署策略变得简单。Argo Events:Kubernetes 基于事件的依赖项管理。项目包括:生态系统项目、书、博客文章、视频认证、社区等。
- distribution/distribution
- uber/cadence
- amethyst/specs
- containers/youki
- lucavallin/barco - tme)(通过 cgroupfs 处理)。
- budtmo/docker-android - Android 是一个 docker 镜像,用于与 Android 相关的所有内容。它可用于应用程序开发和测试(本机、Web 和混合应用程序)。使用此项目的优势:具有不同设备配置文件和皮肤的模拟器,例如三星Galaxy S6,LG Nexus 4,HTC Nexus One等。支持 vnc 能够看到 docker 容器内部发生了什么。支持日志共享功能,所有日志都可以从web-UI访问。能够使用 adb connect 从容器外部控制模拟器。与其他云解决方案集成,例如Genymotion云。它可以用来构建Android项目。它可用于使用不同的测试框架运行单元和 UI-Test,例如 Appium、Espresso 等。
- tiangolo/full-stack-fastapi-postgresql
-
-
扫描器、资产收集、子域名
-
网络服务_其他
- meirwah/awesome-incident-response
- 0x727/ObserverWard
- wappalyzer/wappalyzer
- m4ll0k/takeover
- paralax/awesome-honeypots
- D3Ext/AORT
- nmap/nmap
- zyylhn/zscan
- rverton/webanalyze
- a1phaboy/FastjsonScan
- inbug-team/SweetBabyScan
- b0bac/ApolloScanner
- Adminisme/ServerScan
- i11us0ry/goon
- jwt1399/Sec-Tools - Django的多功能Web安全渗透测试工具,包含漏洞扫描,端口扫描,指纹识别,目录扫描,旁站扫描,域名扫描等功能。
- lcvvvv/kscan
- kelvinBen/AppInfoScanner
- airson/Yasso - 让Yasso像风一样 支持rdp,ssh,redis,postgres,mongodb,mssql,mysql,winrm等服务爆破,快速的端口扫描,强大的web指纹识别,各种内置服务的一键利用(包括ssh完全交互式登陆,mssql提权,redis一键利用,mysql数据库查询,winrm横向利用,多种服务利用支持socks5代理执行)
- fullhunt/log4j-scan - 2021-44228 的的扫描程序
- H4ckForJob/dirmap
- chaitin/xray
- wgpsec/DBJ - 边界资产梳理工具(红队、蓝队、企业组织架构、子域名、Web资产梳理、Web指纹识别、ICON_Hash资产匹配
- sullo/nikto
- Lissy93/web-check
- jivoi/awesome-osint
- projectdiscovery/nuclei
- foryujian/yjdirscan
- robertdavidgraham/masscan
- 78778443/QingScan
- test502git/awvs14-scan
- We5ter/Scanners-Box
- projectdiscovery/naabu
- AlphabugX/httpscan
- SiJiDo/H
- EdgeSecurityTeam/Ehole
- knownsec/Kunyu
- hakluke/hakrawler
- 0x727/ShuiZe_0x727 - 信息收集自动化工具 只需要输入根域名即可全方位收集相关资产,并检测漏洞。
- punk-security/dnsReaper
- zhzyker/dismap
- s7ckTeam/Glass
- urbanadventurer/WhatWeb
- yogeshojha/rengine
- l3m0n/whatweb - gowap基础上修改的golang版本
- riramar/Web-Attack-Cheat-Sheet
- TideSec/TideFinger
- hktalent/scan4all
- m3n0sd0n4ld/GooFuzz
- d3mondev/puredns
- guchangan1/All-Defense-Tool
- KingOfBugbounty/KingOfBugBountyTips
- devanshbatham/ParamSpider
- FeeiCN/ESD
- Threezh1/JSFinder
- shmilylty/OneForAll
- tomnomnom/assetfinder
- projectdiscovery/shuffledns
- projectdiscovery/subfinder
- knownsec/ksubdomain
- aboul3la/Sublist3r
- lijiejie/subDomainsBrute
- edoardottt/scilla - DNS / 子域 / 端口 / 目录枚举
- StarCrossPortal/scalpel
- dark-kingA/superSearchPlus - 聚合型信息收集插件,支持综合查询,资产测绘查询,信息收集 js敏感信息提取 注释资源扫描 目录扫描 整合了目前常见的资产测绘平台 同时支持数据导出
- lukebaggett/dnscat2-powershell
- blark/aiodnsbrute
- pablosnt/rekono
- Kento-Sec/AsamF
- liamg/scout
- Sma11New/webEye
- ghtwf01/excavator
- DedSecInside/TorBot - source intelligence)
- trufflesecurity/trufflehog
- RustScan/RustScan
- qeeqbox/social-analyzer
- hslatman/awesome-threat-intelligence
- fastfire/deepdarkCTI
- CISOfy/lynis
- future-architect/vuls
- prowler-cloud/prowler - DSS、GDPR、HIPAA、FFIEC、SOC2、GXP、Well-Architected Security、ENS 等。
- zaproxy/zaproxy
- iovisor/bcc
- zhzyker/vulmap
- Datalux/Osintgram
- sherlock-project/sherlock
- bettercap/bettercap
- samratashok/nishang
- aress31/burpgpt
- laramies/theHarvester
- soxoj/maigret
- epi052/feroxbuster
- maurosoria/dirsearch - Web 路径发现,高级网络路径暴力破解程序
- graynjo/Heimdallr
-
-
web shell、shellcode
-
网络服务_其他
- 1n7erface/RequestTemplate
- WangYihang/Platypus
- Idov31/FunctionStomping
- czz1233/GBByPass
- Tas9er/ByPassBehinder4J
- LandGrey/webshell-detect-bypass
- HZzz2/go-shellcode-loader
- epinna/weevely3
- asta-mouse/Sherlock
- FunnyWolf/pystinger
- icyguider/Nimcrypt2
- hosch3n/msmap
- tihanyin/PSSW100AVB
- bdamele/icmpsh
- JoelGMSec/PyShell
- WhaleFell/CameraHack
- LoRexxar/Kunlun-M
- wikiZ/ServerlessScan
- hannob/snallygaster
- michelin/ChopChop
- 1N3/Sn1per
- shadow1ng/fscan
- API-Security/APIKit
- zan8in/afrog
- achuna33/MYExploit
- ajinabraham/CMSScan
- dionach/CMSmap
- chroblert/WindowsVulnScan
- greenbone/openvas-scanner
- d3ckx1/Fvuln - Vulnerability是为了自己工作方便专门编写的一款自动化工具,主要适用于日常安全服务、渗透测试人员和RedTeam红队人员,它集合的功能包括:存活IP探测、开放端口探测、web服务探测、web漏洞扫描、smb爆破、ssh爆破、ftp爆破、mssql爆破等其他数据库爆破工作以及大量web漏洞检测模块。
- sting8k/BurpSuite_403Bypasser
- HatBoy/Struts2-Scan - 001, S2-003, S2-005, S2-007, S2-008, S2-009, S2-012, S2-013, S2-015, S2-016, S2-019, S2-029, S2-032, S2-033, S2-037, S2-045, S2-046, S2-048, S2-052, S2-053, S2-devMode, S2-057
- Tas9er/ByPassBehinder
- Axx8/ShellCode_Loader
- OWASP/wstg
- SpiderLabs/ModSecurity
- 0xInfection/Awesome-WAF
- EnableSecurity/wafw00f
- flamegraph-rs/flamegraph
- Hacker0x01/hacker101 - 免费的在线 Web 和移动安全课程。
- juice-shop/juice-shop
- digininja/DVWA
- koalaman/shellcheck
- tarunkant/Gopherus
-
-
杀毒免杀、逆向工程
-
网络服务_其他
- H4de5-7/Bundler-bypass
- rshipp/awesome-malware-analysis
- Arks7/Go_Bypass
- Gality369/CS-Loader
- TideSec/BypassAntiVirus
- mytechnotalent/Reverse-Engineering
- NationalSecurityAgency/ghidra
- awsaaaq/GoBP
- Yihsiwei/GoFileBinder
- midisec/BypassAnti-Virus
- Ed1s0nZ/cool - Gin框架写的免杀平台,内置分离、捆绑等BypassAV方式。
- TideSec/GoBypassAV
- 0x9ef/golang-uacbypasser
- safe6Sec/GolangBypassAV
- Tlaster/YourAV
- BC-SECURITY/Beginners-Guide-to-Obfuscation
- seventeenman/CallBackDump
- x64dbg/x64dbg
- capstone-engine/capstone - V(rv32G / rv64G),SH,Sparc,SystemZ,TMS320C64X,TriCore,Webassembly,XCore和X86的Capstone反汇编/反汇编器框架。
- cyrus-and/gdb-dashboard
- OWASP/owasp-mastg
- rizinorg/cutter
- cs01/gdbgui
- brannondorsey/wifi-cracking - ng 和 Aircrack-ng/Hashcat 破解 WPA/WPA2 Wi-Fi 路由器
- winsiderss/systeminformer
- icsharpcode/ILSpy
- semgrep/semgrep
- JusticeRage/Gepetto
- Ackites/KillWxapkg
-
-
漏洞库、漏洞靶场
-
网络服务_其他
- qazbnm456/awesome-web-security
- trickest/cve
- pwntester/0day
- ReAbout/web-sec
- cckuailong/vulbase
- helloexp/0day
- lxflxfcl/monitor
- binganao/vulns-2022 - 2021、CVE-2022 为关键词,包含但不限于漏洞资讯、漏洞复现、漏洞分析、漏洞验证、漏洞利用
- AonCyberLabs/Windows-Exploit-Suggester
- tangxiaofeng7/SecExample
- l4yn3/micro_service_seclab
- Threekiii/Vulnerability-Wiki
- wooyunwang/Fortify
- fofapro/vulfocus
- sqlsec/ssrf-vuls
- edoardottt/awesome-hacker-search-engines
- aquasecurity/trivy
- Mr-xn/Penetration_Testing_POC - --About penetration-testing python-script poc getshell csrf xss cms php-getshell domainmod-xss csrf-webshell cobub-razor cve rce sql sql-poc poc-exp bypass oa-getshell cve-cms
- Gallopsled/pwntools
- LandGrey/SpringBootVulExploit
-
-
其他_安全与渗透
-
网络服务_其他
- pen4uin/awesome-java-security
- pen4uin/pentest-note
- pen4uin/cloud-native-security
- Gapsdehal/awesome-ctf
- yichengchen/clashX
- carpedm20/awesome-hacking
- sbilly/awesome-security
- 4ra1n/SpringInspector
- 4ra1n/JavaSecInterview
- CoolerVoid/casper-fs
- NARKOZ/hacker-scripts - like 系统(如 Linux 和 macOS)上运行。在编程和黑客文化的世界中,效率是关键。GitHub 上的 Hacker Scripts 项目就是这样一个宝藏,它集合了一系列实用的 Bash 脚本,帮助开发者、系统管理员和爱好者自动化日常任务,提升工作效率。
- Lissy93/personal-security-checklist
- sqlmapproject/sqlmap
- rapid7/metasploit-framework
- trimstray/the-book-of-secret-knowledge
- vitalysim/Awesome-Hacking-Resources
- The-Art-of-Hacking/h4cker
- Hack-with-Github/Awesome-Hacking
- fr0gger/Awesome-GPT-Agents
- Z4nzu/hackingtool
- enaqx/awesome-pentest
- prometheus/prometheus
- djsime1/awesome-flipperzero
- pinecone-wifi/pinecone
- Trusted-AI/adversarial-robustness-toolbox - 规避、中毒、提取、推理 - 红蓝团队。Adversarial Robustness Toolbox (ART) 是用于机器学习安全性的 Python 库。ART由Linux基金会人工智能与数据基金会(LF AI & Data)主办。ART 提供的工具使开发人员和研究人员能够防御和评估机器学习模型和应用程序,以应对规避、中毒、提取和推理的对抗性威胁。ART 支持所有流行的机器学习框架(TensorFlow、Keras、PyTorch、MXNet、scikit-learn、XGBoost、LightGBM、CatBoost、GPy 等)、所有数据类型(图像、表格、音频、视频等)和机器学习任务(分类、对象检测、语音识别、生成、认证等)。
- occlum/occlum
- LandGrey/domainNamePredictor
- Al1ex/Pentest-tools
- 1N3/IntruderPayloads
- safe6Sec/PentestDB
- evilsocket/jscythe
- michaelweber/Macrome
- DonatoReis/arno
- olist213/Information_Security_Books
- xuanhusec/OscpStudyGroup
- DanMcInerney/xsscrapy - 检测到 66/66 wavsep XSS
- mitmproxy/mitmproxy - in-the-middle attack)。用于中间人攻击的代理首先会向正常的代理一样转发请求,保障服务端与客户端的通信,其次,会适时的查、记录其截获的数据,或篡改数据,引发服务端或客户端特定的行为。 mitmproxy 不仅可以截获请求帮助开发者查看、分析,更可以通过自定义脚本进行二次开发。
- teamssix/container-escape-check
- KeenSecurityLab/BinAbsInspector
- ybdt/post-hub
- maK-/parameth
- quasar/Quasar
- FreeRDP/FreeRDP
- Cool-Coding/remote-desktop-control
- ffuf/ffuf
- nelhage/reptyr
- michenriksen/aquatone
- ac0d3r/Hyuga - of-Band)流量的工具
- tomnomnom/httprobe
- xuedingmiaojun/wxappUnpacker
- neargle/my-re0-k8s-security
- wetools/wept
- ffffffff0x/1earn
- Power7089/PenetrationTest-Tips
- Lotus6/ThinkphpGUI
- frida/frida - > [rida.re](https://frida.re/)
- chaitin/veinmind-tools - sdk 打造的容器安全工具集
- lintstar/About-Attack
- RickGray/vscan-go
- projectdiscovery/uncover
- huiyadanli/RevokeMsgPatcher
- tombstoneghost/TIWAP
- qianxiao996/CTF-Tools
- AntSwordProject/antSword
- yzddmr6/As-Exploits
- ph4ntonn/Stowaway
- jweny/pocassist
- wh1t3p1g/ysomap
- whwlsfb/BurpCrypto
- jonaslejon/malicious-pdf - home 功能的恶意 pdf 文件。可以与 Burp Collaborator 或 Interact.sh 一起使用
- al0ne/LinuxCheck
- ffffffff0x/f8x
- SafeGroceryStore/Caesar
- timwhitez/Frog-checkCDN
- MountCloud/FireKylin - 网络安全应急响应工具(系统痕迹采集)
- helloSystem/hello
- hash3liZer/SillyRAT
- Cyber-Guy1/API-SecurityEmpire
- s0md3v/uro
- Idov31/Sandman
- knownsec/pocsuite3
- techgaun/github-dorks
- H4CK3RT3CH/github-dorks
- NyDubh3/Pentesting-Active-Directory-CN
- Maka8ka/NGLite
- 3xpl01tc0d3r/ProcessInjection
- Le0nsec/SecCrawler
- redcode-labs/Coldfire
- vxunderground/MalwareSourceCode
- hlldz/pickl3
- Tencent/secguide
- slowmist/cryptocurrency-security
- xmendez/wfuzz
- Ryze-T/Sylas
- lab52io/LeakedHandlesFinder
- weixinbao/ReverseTool
- p0dalirius/DumpSMBShare
- yhy0/github-cve-monitor
- whydee86/PlayWithDefender
- xiecat/fofax
- AntSwordProject/AntSword-Loader
- swisskyrepo/PayloadsAllTheThings
- payloadbox/sql-injection-payload-list
- projectdiscovery/interactsh
- devanshbatham/Awesome-Bugbounty-Writeups
- Impact-I/reFlutter
- m4ll0k/Atlas
- AntSwordProject/ant
- Lazenca/Kernel-exploit-tech
- mstxq17/VunHunterTips
- rabbitmask/WeblogicScan
- BeichenDream/Godzilla
- Chora10/Cknife
- b1ackc4t/MarsCTF
- xuanhun/PythonHackingBook1
- VMsec/iisScaner
- shimmeris/SCFProxy
- AnLoMinus/Bug-Bounty
- daffainfo/Oneliner-Bugbounty
- daffainfo/AllAboutBugBounty
- hfiref0x/UACME
- ezshine/wxapkg-convertor
- codeyso/CodeTest
- outflanknl/C2-Tool-Collection
- J0o1ey/BountyHunterInChina
- metaStor/SpringScan
- biggerduck/RedTeamNotes
- DawnFlame/POChouse
- vavkamil/awesome-bugbounty-tools
- cdk-team/CDK
- projectdiscovery/nuclei-templates
- Junehck/SQL-injection-bypass
- G4rb3n/IoT_Sec_Tutorial - 提取IoT固件 02-静态分析IoT固件 03-动态分析IoT固件 04-解密dlink固件 05-修复固件运行环境
- CTF-MissFeng/NmapBrutes
- YDHCUI/manjusaka
- reidmu/sec-note
- erev0s/VAmPI
- FirmWire/FirmWire
- BWASP/BWASP
- djadmin/awesome-bug-bounty
- Viralmaniar/BigBountyRecon
- j3ssie/osmedeus
- hahwul/dalfox
- streaak/keyhacks
- p1ngul1n0/blackbird
- NextronSystems/ransomware-simulator
- epsylon/xsser
- 0xJin/awesome-bugbounty-builder
- OTRF/ThreatHunter-Playbook
- EdOverflow/bugbounty-cheatsheet
- lanmaster53/recon-ng
- projectdiscovery/httpx
- s0md3v/Arjun
- ron190/jsql-injection
- defparam/smuggler - Length 和 Transfer-Encoding 标头。[协议层的攻击——HTTP请求走私](https://paper.seebug.org/1048/)
- smicallef/spiderfoot
- jaeles-project/jaeles
- FortyNorthSecurity/EyeWitness
- tomnomnom/meg - 不杀死主机
- lc/gau
- fuzzdb-project/fuzzdb
- jhaddix/tbhm
- HolyBugx/HolyTips
- nahamsec/Resources-for-Beginner-Bug-Bounty-Hunters
- ncabatoff/process-exporter
- lu2ker/PHP-Code
- UzJu/Cloud-Bucket-Leak-Detection-Tools
- JDArmy/DCSec
- Sakurasan/scf-proxy
- teamssix/twiki
- Getshell/LinuxTQ
- rootkit-io/awesome-malware-development
- Yyyyshen/HackTechLearning
- KathanP19/HowToHunt - >gitbook](https://kathan19.gitbook.io/howtohunt/)
- HummerRisk/HummerRisk
- wangyu-/udp2raw
- iagox86/dnscat2
- SECFORCE/Tunna
- sensepost/reGeorg
- XTLS/Xray-core
- vaxilu/x-ui - door、socks、http
- hq450/fancyss
- mack-a/v2ray-agent
- shadowsocks/shadowsocks-rust
- apernet/hysteria - 更不用说不断添加的其他功能。Hysteria 由自定义 QUIC 协议提供支持,即使在最不可靠和最有损的网络上也能提供无与伦比的性能。我们的协议旨在伪装成标准的HTTP / 3流量,因此很难在不造成广泛附带损害的情况下进行检测和阻止。我们有针对所有主要平台和架构的构建。随处部署,随处使用。凭借对自定义身份验证、流量统计和访问控制的内置支持,Hysteria 可以轻松集成到您的基础设施中。
- L-codes/Neo-reGeorg
- Endava/cats
- t3l3machus/toxssin
- FeeiCN/GSIL
- TophantTechnology/ARL
- banach-space/llvm-tutor - of-tree LLVM passes 的集合
- optiv/Mangle
- 0xrawsec/whids
- MatrixTM/MHDDoS
- D3Ext/WEF
- ainfosec/FISSURE
- RedTeamPentesting/pretender - NS 欺骗。
- r0uble-mAker/POC-bomber - attack进入攻击模式直接调用exp进行攻击(需要指定poc文件名),达到一键getshell
- mitre/caldera
- onekey-sec/unblob
- outflanknl/EvilClippy - Code)并混淆宏分析工具。
- decalage2/oletools
- hluwa/frida-dexdump
- 1ndianl33t/Bug-Bounty-Roadmaps
- stark0de/nginxpwner
- Ettercap/ettercap
- zhkl0228/unidbg
- qilingframework/qiling
- BeichenDream/PrintNotifyPotato
- redteamsocietegenerale/DLLirant
- wecooperate/iMonitor - 终端行为分析系统,提供了对进程、文件、注册表、网络等系统行为的监控。支持扩展和脚本,可以轻易定制和添加更多功能。可以用于病毒分析、软件逆向、入侵检测,EDR等。
- 7dog7/bottleneckOsmosis
- rootkiter/EarthWorm
- OWASP/crAPI
- DavidBuchanan314/dlinject
- DataDog/threatest
- Idov31/MrKaplan
- Chuyu-Team/Dism-Multi-language
- acidanthera/OpenCorePkg
- radareorg/radare2
- 2dust/v2rayN
- 233boy/v2ray
- FelisCatus/SwitchyOmega
- xtaci/kcptun
- amark/gun - 例如开源Firebase或Decentralized Dropbox。
- GreyDGL/PentestGPT
- Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning
- skylot/jadx
- Konloch/bytecode-viewer - 轻量级的用户友好型Java / Android字节码查看器,反编译器等。
- pluja/awesome-privacy - 尊重您的隐私的精选服务和替代方案列表,因为隐私很重要。
- k4m4/movies-for-hackers
- WerWolv/ImHex
- GTFOBins/GTFOBins.github.io
- sharkdp/hexyl
- LC044/WeChatMsg
- imthenachoman/How-To-Secure-A-Linux-Server
- v1s1t0r1sh3r3/airgeddon
- slackhq/nebula
- threat9/routersploit
- wifiphisher/wifiphisher - Fi 安全测试。使用 Wifiphisher,渗透测试人员可以通过执行有针对性的 Wi-Fi 关联攻击,轻松实现针对无线客户端的中间人位置。Wifiphisher 可以进一步用于对连接的客户端发起受害者定制的网络钓鱼攻击,以捕获凭据(例如来自第三方登录页面或 WPA/WPA2 预共享密钥)或用恶意软件感染受害者站。
- danluu/post-mortems
- Manisso/fsociety
- evilsocket/pwnagotchi
- vpncn/vpncn.github.io
- infosecn1nja/Red-Teaming-Toolkit
- trimstray/the-practical-linux-hardening-guide
- anderspitman/awesome-tunneling
- yaklang/yakit
- chaitin/safeline
- Safe3/uuWAF - 南墙。Web应用防火墙、WAF、WAAP
- Atlas-OS/Atlas
- wazuh/wazuh
- veeral-patel/how-to-secure-anything
- wikiZ/RedGuard
- carlospolop/PEASS-ng
-
-
人像\姿势\3D人脸
-
网络服务_其他
- lipku/metahuman-stream
- williamyang1991/Rerender_A_Video
- https://github.com/mayuelala/FollowYourPose - Your-Pose:此存储库是“Follow-Your-Pose:使用无姿势视频生成姿势引导的文本到视频”的官方实现
- 人脸识别常用开源数据集大全
- DirtyHarryLYL/Activity2Vec
- damo/cv_mobilenet_face-2d-keypoints_alignment
- deepinsight/insightface
- modelscope/facechain
- facefusion/facefusion
- yoyo-nb/Thin-Plate-Spline-Motion-Model
- AliaksandrSiarohin/first-order-model
- Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB - 快速-通用-人脸检测器-1MB,超轻量级人脸检测模型。模型大小方面,默认FP32精度(.pth)文件大小为1.04~1.1MB,推理框架int8量化大小约为300KB。就模型的计算量而言,320x240的输入分辨率约为90~109 MFlops。该模型有两个版本,version-slim(网络骨干简化,稍快)和version-RFB(带有修改后的RFB模块,精度更高)。提供320x240和640x480不同输入分辨率的Widerface训练预训练模型,以更好地在不同应用场景下工作。支持 onnx 导出,便于迁移和推理。提供 NCNN C++ 推理代码。提供MNN C++推理代码,MNN Python推理代码,FP32/INT8量化模型。提供 Caffe 型号和 onnx2caffe 转换代码。Caffe python 推理代码和 OpencvDNN 推理代码。
- minivision-ai/photo2cartoon
- ShiqiYu/libfacedetection
- iperov/DeepFaceLive
- davidsandberg/facenet
- serengil/deepface
- exadel-inc/CompreFace
- tencent-ailab/hifi3dface - D 的高保真3D 数字人类创建
- alievk/avatarify-python
- iPERDance/iPERCore
- anandpawara/Real_Time_Image_Animation
- GuyTevet/motion-diffusion-model
- FACEGOOD-Audio2Face
- facebookresearch/pifuhd
- open-mmlab/mmskeleton
- thepowerfuldeez/facemesh.pytorch
- anibali/margipose
- wmcnally/evopose2d
- hellojialee/OffsetGuided - up人体姿态估计最优网络,多人关键点坐标的编解码方法.
- ziwei-zh/CorrPM
- SangbumChoi/MobileHumanPose
- jby1993/SelfReconCode
- ibaiGorordo/ONNX-Mobile-Human-Pose-3D
- CMU-Perceptual-Computing-Lab/openpose
- wzmsltw/PaintTransformer
- cleardusk/3DDFA_V2
- PeterL1n/RobustVideoMatting
- changgyhub/deepsketch2face
- YadiraF/DECA
- sicxu/Deep3DFaceRecon_pytorch
- xierc/Semi_Human_Pose
- DrMahdiRezaei/DeepSOCIAL - 19 大流行中的社会人物距离监测和感染风险评估。
- shliang0603/Yolov4_DeepSocial - 19 大流行中的社会人物距离监测和感染风险评估。
- Mukosame/Anime2Sketch
- google/mediapipe
- MobileStyleGAN.pytorch
- TencentARC/GFPGAN
- sallymmx/ActionCLIP
- IGLICT/DeepFaceDrawing-Jittor
- RameenAbdal/StyleFlow
- kennymckormick/pyskl
- nenadmarkus/pico - Jones 方法的修改。基本思想是在所有合理的位置和尺度上用级联的二元分类器扫描图像。如果图像区域成功通过级联的所有成员,则将其分类为感兴趣对象。每个二元分类器由一组决策树组成,其中像素强度比较作为其内部节点中的二元测试。这使检测器能够以非常高的速度处理图像区域。
- YuliangXiu/ICON
- fengq1a0/FOF
- open-mmlab/mmpose
- justadudewhohacks/face-api.js
- switchablenorms/CelebAMask-HQ - HQ 是一个大规模的人脸图像数据集,其中包含从 CelebA 数据集中选择的 30,000 张高分辨率人脸图像,遵循 CelebA-HQ。每个图像都有与 CelebA 相对应的面部属性的分割蒙版。CelebAMask-HQ 的面具以 512 x 512 的大小和 19 个类别手动注释,包括所有面部组件和配件,例如皮肤、鼻子、眼睛、眉毛、耳朵、嘴巴、嘴唇、头发、帽子、眼镜、耳环、项链、脖子和布料。CelebAMask-HQ 可用于训练和评估人脸解析、人脸识别和人脸生成和编辑的 GAN 算法。
- 人脸识别常用开源数据集大全
- s0md3v/roop
- CelebA
-
-
硬件_其他
-
网络服务_其他
- thibmaek/awesome-raspberry-pi
- danjulio/lepton/ESP32
- HQarroum/awesome-iot
- nf9/police_light
- killerp/off_asr
- killerp/smart_control
- adam-maj/tiny-gpu - gpu 是一个最小的 GPU 实现,针对从头开始了解 GPU 的工作原理进行了优化。具体来说,随着通用 GPU (GPGPU) 和 ML 加速器(如 Google 的 TPU)的趋势,tiny-gpu 专注于突出所有这些架构的一般原则,而不是图形特定硬件的细节。该项目主要侧重于探索:架构 - GPU 的架构是什么样的?最重要的元素是什么?并行化 - SIMD progamming 模型是如何在硬件中实现的?内存 - GPU 如何解决内存带宽有限的限制?
- zhengnianli/EmbedSummary
- arduino/Arduino
- micropython/micropython
- adafruit/circuitpython
- micropython/micropython-lib - stdlib`:Python 标准库中模块的兼容版本。这些应该是相应 Python 模块的直接替代品。`python-ecosys`:来自更广泛的 Python 生态系统的兼容但功能缩减的包版本。例如,可以在 Python 包索引中找到的包。`micropython`:特定于 MicroPython 的包,在其他 Python 环境中没有等效包。这包括硬件(例如传感器、外围设备或显示器)的驱动程序、使用嵌入式功能(例如蓝牙)的库,或 CPython 中没有等效项的特定于 MicroPython 的包。`unix-ffi`:这些软件包专门用于 MicroPython Unix 移植,并通过 FFI 提供对操作系统和第三方库的访问,或者对非 Unix 移植没有用的功能。
- Lichee-Pi/Tang_FPGA_Examples
- larryli/u8g2_wqy
- edgeimpulse/example-esp32-cam
- lvgl/lvgl
- avakar/usbcorev
- Kevincoooool/ESP_MASTER - CAM 带 LVGL 语音/人脸识别红外控制
- FASTSHIFT/WatchX
- amaranth-lang/amaranth
- MegEngine/MegPeak
- espressif/esp-skainet
- Neutrino-1/Fitness_Watch
- alexforencich/verilog-ethernet
- corundum/corundum
- MiSTer-devel/Main_MiSTer
- revoxhere/duino-coin
- eloquentarduino/EloquentTinyML
- ultraembedded/cores: Various HDL (Verilog) IP Cores
- dawsonjon/fpu
- pebri86/esplay_micro_hardware
- WalkerLau/DetectHumanFaces - M3软核及FPGA构成了轻量级的实时人脸检测SOC,通过ov5640摄像头采集实时图像,经过检测系统的检测后,将已经框出人脸的实时图像通过HDMI输出到显示器,同时可以通过UART查看检测时间等信息,还能通过板载LED灯查看检测到的人脸数量。
- Qirun/ARM_Cortex-M3 - M3软核、图像协处理器,并通过OV5640摄像头采集车牌图像,实现对车牌的识别与结果显示。基于Altera DE1 FPGA搭载Cortex-M3软核,依据AHB-Lite总线协议,将LCD1602、RAM、图像协处理器等外设挂载至Cortex-M3。视频采集端,设计写FiFo模块、SDRAM存储与输出、读FiFo模块、灰度处理模块、二值化、VGA显示等模块。最终将400位宽的结果数据(对应20张车牌)存储在RAM中,输出至AHB总线,由Cortex-M3调用并显示识别结果。
- TimRudy/ice-chips-verilog
- awrie/fpga_pio
- abnoname/iceZ0mb1e
- brickbots/HandiPi
- mit-han-lab/tiny-training
- pbatard/rufus
- mainflux/mainflux
- ExpressLRS/ExpressLRS
- 1technophile/OpenMQTTGateway
- Aircoookie/WLED
- coolsnowwolf/lede
- mcxiaoke/mqtt
- vernemq/vernemq
- ZoneMinder/zoneminder
- qewer33/qpaperOS
- Rem0o/FanControl.Releases
- rwaldron/johnny-five - Five 程序可以编写为 Arduino(所有型号)、Electric Imp、Beagle Bone、Intel Galileo & Edison、Linino One、Pinoccio、pcDuino3、Raspberry Pi、Particle/Spark Core & Photon、Tessel 2、TI Launchpad 等
- justcallmekoko/ESP32Marauder
- MarlinFirmware/Marlin
- OpenMachine-ai/tinyfive - V仿真器和汇编器,Python编写,带有神经网络示例。
- hybridgroup/gobot
- mpaland/printf
- cesanta/mongoose - 它甚至在国际空间站上运行!猫鼬使嵌入式网络编程快速、强大且简单。
- arendst/Tasmota
- tinygo-org/tinygo
- seemoo-lab/openhaystack
- OctoPrint/OctoPrint
- sipeed/MaixPy - V,让我们更轻松地玩边缘AI
- tzapu/WiFiManager
- chipsalliance/chisel
- logisim-evolution/logisim-evolution - evolution是免费、开源和跨平台的。
- openscopeproject/InteractiveHtmlBom
- travisgoodspeed/gbrom-tutorial
- benhoyt/inih
- beeper/beepy - Pro)供电,具有薄型无焊接头。
- copy/v86
- RetroPie/RetroPie-Setup
- microsoft/devicescript
- ClemensElflein/OpenMower
- emqx/emqx
- thingsboard/thingsboard
- blakeblackshear/frigate
- mqttjs/MQTT.js
- eclipse/mosquitto
- esphome/esphome
- chrislgarry/Apollo-11
- peng-zhihui/Dummy-Robot
- PX4/PX4-Autopilot
- cyberbotics/webots
- jart/blink - 64-Linux 模拟器,blink 是在不同的操作系统和硬件体系结构上运行 x86-64-linux 程序的虚拟机。它被设计为执行与 qemu-x86_64 命令相同的操作,除了:Blink 的大小为 221kb(禁用可选功能时为 115kb),而 qemu-x86_64 是 4mb 的二进制文件。Blink 可以在任何 POSIX 系统上运行您的 Linux 二进制文件,而 qemu-x86_64 仅支持 Linux。在某些基准测试中,Blink 的速度比 qemu-x86_64 快 2 倍,例如 SSE 整数/浮点数学。Blink 在运行编译器等临时程序时也快得多。blinkenlights 是一个终端用户界面,可用于跨平台调试 x86_64-Linux 或 i8086 程序。与 GDB 不同,Blinkenlights 专注于可视化程序执行。它使用 UNICODE IBM Code Page 437 字符来显示二进制内存面板,这些面板会随着您单步执行程序的汇编代码而变化。可以使用鼠标滚轮滚动和缩放这些内存面板。Blinkenlights 还允许反向调试,其中在汇编显示上滚动允许倒带执行历史记录。
- MichaIng/DietPi
- FreeCAD/FreeCAD
- DarkFlippers/unleashed-firmware
- RT-Thread/rt-thread
- qmk/qmk_firmware
- zephyrproject-rtos/zephyr - A、Cortex-R、Cortex-M)、Intel x86、ARC、Nios II、Tensilica Xtensa 和 RISC-V、SPARC、MIPS 以及大量支持的主板。
- Arduino-IRremote/Arduino-IRremote
- arduino/arduino-cli
- blynkkk/blynk-library
- SpenceKonde/ATTinyCore
- MCUdude/MiniCore - xshowall轻松查看)和芯片擦除功能。如果您已经安装了 Optiboot 并且不想将其替换为 Urboot,您仍然可以上传程序而不会出现任何兼容性问题。但是,如果您要将引导加载程序刻录到新芯片上,Urboot 是您的不二之选。
- MCUdude/MightyCore
- feilipu/Arduino_FreeRTOS_Library
- lexus2k/ssd1306
- Bodmer/TFT_eSPI
- espressif/arduino-esp32 - S2、ESP32-S3、ESP32-C3、ESP32-C6 和 ESP32-H2 的 Arduino 核心。ESP32 是由乐鑫设计的单 2.4 GHz Wi-Fi 和蓝牙 SoC(片上系统)。ESP32 专为移动、可穿戴电子产品和物联网 (IoT) 应用而设计。它具有低功耗芯片的所有先进特性,包括细粒度时钟门控、多种功耗模式和动态功耗调节。例如,在低功耗物联网传感器中枢应用场景中,ESP32 会定期唤醒,并且仅在检测到指定条件时才会唤醒。低占空比用于最大限度地减少芯片消耗的能量。功率放大器的输出也是可调的,因此有助于在通信范围、数据速率和功耗之间实现最佳平衡。ESP32 系列可作为芯片或模块提供。
- neu-rah/ArduinoMenu
- moononournation/Arduino_GFX
- SpacehuhnTech/esp8266_deauther
- cyberman54/ESP32-Paxcounter
- nodemcu/nodemcu-firmware - OS SDK 上。该固件最初是作为流行的基于ESP8266的 NodeMCU 开发模块的配套项目开发的,但该项目现在得到了社区的支持,并且固件现在可以在任何 ESP 模块上运行。总结:易于编程的无线节点和/或接入点;基于 Lua 5.1.4 或 Lua 5.3,但没有 debug 、 io os 和 (大多数) math 模块;异步事件驱动编程模型;超过 70 个内置 C 模块和近 20 个 Lua 模块;提供带或不带浮点支持的固件(仅整数使用较少的内存)。
- stlink-org/stlink
- jbush001/NyuziProcessor
- enjoy-digital/litex
- open-sdr/openwifi - Fi 设计,基于 SDR(软件定义无线电)。此存储库包括 Linux 驱动程序和软件。openwifi-hw 存储库具有 FPGA 设计。您有责任遵守您的本地频谱法规或使用电缆来避免潜在的空中干扰。
- FPGAwars/icestudio
- LeiWang1999/FPGA
- hughperkins/VeriGPU - V ISA,构建面向 ASIC 流片的开源 GPU,用于机器学习 (“ML”)。希望可以让它与 PyTorch 深度学习框架一起使用。
- fulldecent/system-bus-radio
- hlorenzi/customasm
- gfx-rs/gfx - rs 是 Rust 中的一个低级、跨平台的图形和计算抽象库。从 v0.9 版本开始,gfx-hal 现在处于维护模式。GFX-HAL 的开发主要由 WGPU 驱动,WGPU 现在已经切换到自己的 GPU 抽象,称为 WGPU-HAL。
- embassy-rs/embassy
- MetaWu2077/Esp32_VoiceChat_LLMs
- issus/altium-library
- LibreHardwareMonitor/LibreHardwareMonitor
- basicmi/AI-Chip
- awesome-robotic-tooling
-
-
其他_机器视觉
-
网络服务_其他
- Acly/krita-ai-diffusion - 自定义检查点、LoRA、采样器等。
- https://github.com/jina-ai/dalle-flow - Mega、GLID-3 XL 和 Stable Diffusion 生成候选图像,然后调用 CLIP-as-service 对候选图像进行排名。首选候选材料被送入 GLID-3 XL 进行扩散,这通常可以丰富纹理和背景。最后,通过 SwinIR 将候选图像放大到 1024x1024。DALL·E Flow 是在客户端-服务器架构中使用 Jina 构建的,这赋予了它高可扩展性、无阻塞流和现代 Pythonic 接口。客户端可以通过 gRPC/Websocket/HTTP 和 TLS 与服务器交互。为什么选择 Human-in-the-loop?生成艺术是一个创造性的过程。虽然 DALL·E 释放人们的创造力,拥有单一提示单一输出的 UX/UI 将想象力锁定在单一的可能性上,无论这个单一的结果多么精细,这都是糟糕的。DALL·E Flow 是单行代码的替代方案,通过将生成艺术正式化为迭代过程。
- PixArt-alpha/PixArt-alpha - α:用于逼真文本到图像合成的 Diffusion Transformer 的快速训练。提出了三个核心设计:(1) 训练策略分解:我们设计了三个不同的训练步骤,分别优化像素依赖性、文本图像对齐和图像审美质量;(2) 高效的 T2I Transformer:我们将交叉注意力模块整合到 Diffusion Transformer (DiT) 中,以注入文本条件并简化计算密集型类条件分支;(3) 信息量大的数据:我们强调文本-图像对中概念密度的重要性,并利用大型视觉-语言模型自动标记密集的伪标题,以辅助文本-图像对齐学习。因此,PIXART-α 的训练速度明显超过现有的大规模 T2I 模型,例如,PIXART-α 仅占用 Stable Diffusion v1.5 训练时间的 10.8%(~675 对 ~6,250 个 A100 GPU 日),节省了近 300,000 美元(26,000 美元对 320,000 美元),并减少了 90% 的二氧化碳排放。此外,与更大的 SOTA 模型 RAPHAEL 相比,我们的训练成本仅为 1%。大量实验表明,PIXART-α 在图像质量、艺术性和语义控制方面表现出色。 我们希望 PIXART-α 能为 AIGC 社区和初创公司提供新的见解,以加速从头开始构建自己的高质量、低成本的生成模型。PixArt-alpha/PixArt-LCM-XL-2-1024-MS 检查点,
- PixArt-alpha/PixArt-LCM
- saharmor/dalle-playground - E Mini)
- rwightman/pytorch-image-models - V3/V2, RegNet, DPN, CSPNet
- NVIDIA/warp
- adobe-research/custom-diffusion - 20) 微调文本到图像的扩散模型,例如稳定扩散。我们的方法速度很快(在 2 个 A100 GPU 上需要 ~6 分钟),因为它只微调交叉注意力层中的模型参数子集,即键和值投影矩阵。这也将每个额外概念的额外存储空间减少到 75MB。我们的方法进一步允许您使用多个概念的组合,例如新对象 + 新艺术风格、多个新对象和新对象 + 新类别。
- ByteDance/Hyper-SD - SD是最先进的扩散模型加速技术之一。在这个存储库中,我们发布了从 SDXL Base 1.0 和 Stable-Diffusion v1-5 中提炼出来的模型。协同融合了 ODE 轨迹保留和重新制定的优点,同时在阶跃压缩期间保持近乎无损的性能。首先,我们引入了轨迹分段一致性蒸馏,在预定义的时间步长段内逐步进行一致蒸馏,这有助于从高阶角度保留原始常微分方程轨迹。其次,我们结合了人工反馈学习,以提高模型在低步长状态下的性能,并减轻蒸馏过程产生的性能损失。第三,我们集成了分数蒸馏,以进一步提高模型的低步长生成能力,并首次尝试利用统一的 LoRA 来支持所有步骤的推理过程。大量的实验和用户研究表明,Hyper-SD 在 SDXL 和 SD1.5 上都能实现 1 到 8 个推理步骤的 SOTA 性能。
- jbhuang0604/awesome-computer-vision
- LuChengTHU/dpm-solver - Solver 适用于离散时间和连续时间扩散模型,无需任何进一步训练。 实验结果表明,仅需对各种数据集进行 10 到 20 次函数评估即可生成高质量样本。
- fengpanhe/MT-ORL - ORL:多任务遮挡关系学习”(ICCV 2021)
- nikheelpandey/TAUP-PyTorch
- hustvl/QueryInst
- YifanXu74/Evo-ViT - ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer,能在保证分类准确率损失较小的情况下,大幅提升推理速度,如在ImageNet 1K数据集下,可提升DeiT-S 60%推理速度的同时仅损失0.4%的精度。
- researchmm/CKDN
- phecy/SSL-FEW-SHOT
- thuiar/Self-MM
- VALUE-Leaderboard/StarterCode
- starmemda/CAMoE
- zengyan-97/X-VLM
- airsplay/lxmert
- ERNIE/ernie-vil - ViL 构造了三个场景图预测任务,即对象预测、属性预测和关系预测任务。因此,可以学习更好的联合视觉语言表示,表征跨视觉和语言的详细语义的对齐。
- Research/NLP/UNIMO - MODal 预训练架构,即UNIMO,可以有效地适应单模态和多模态的理解和生成任务。利用大规模的自由文本语料库和图像集合来提高视觉和文本理解能力,并利用跨模态对比学习(CMCL)将文本和视觉信息对齐到图像语料库上的统一语义空间中。用相关图像和文本增强的文本对。在丰富的非配对单模态数据的帮助下,我们的模型能够通过允许文本知识和视觉知识在统一的语义空间中相互增强来学习更多的泛化表示。实验结果表明,大大提高了几个单模态和多模态下游任务的性能。
- fairseq/examples/MMPT - acl.370.pdf) (ACL Findings, 2021) 的实现。VideoCLIP 是一种对比学习模型,用于将零样本迁移到检索/分类/序列标记样式任务。VLM 是一种掩码语言模型样式预训练,仅使用一个带有掩码模态模型 (MMM) 的编码器来执行检索/生成/序列标签样式任务。
- ChasingStar95/AIAC2021_task1_rank6
- AIAC_qq_browser_2021_task1_rank11
- kjw0612/awesome-deep-vision
- segmind/SSD-1B - 1B) 是 Stable Diffusion XL (SDXL) 的精炼 50% 缩小版本,提供 60% 的加速,同时保持高质量的文本到图像生成功能。它已经在各种数据集上进行了训练,包括 Grit 和 Midjourney 抓取数据,以增强其基于文本提示创建各种视觉内容的能力。该模型采用知识蒸馏策略,先后利用多个专家模型(包括 SDXL、ZavyChromaXL 和 JuggernautXL)的教学,结合它们的优势并产生令人印象深刻的视觉输出。
- opencv/opencv
- taichi-dev/taichi
- blender/blender
- open-mmlab/mmcv
- ArduPilot/ardupilot
- Stability-AI/stablediffusion
- Stability-AI/generative-models - Turbo,这是一款闪电般快速的文本到图像模型。 Stable Video Diffusion,一种图像到视频的模型。SDXL-base-0.9 :在分辨率为 1024^2 的图像上,对基础模型进行了各种纵横比的训练。基本模型使用 OpenCLIP-ViT/G 和 CLIP-ViT/L 进行文本编码,而精简模型仅使用 OpenCLIP 模型。SDXL-refiner-0.9 :精简器已经过训练,可以对高质量数据的小噪声水平进行降噪,因此不应用作文本到图像模型;相反,它只能用作图像到图像模型。
- hua1995116/awesome-ai-painting
- YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
- comfyanonymous/ComfyUI - -lowvram 使其在 vram 小于 3GB 的 GPU 上运行(在 vram 较低的 GPU 上自动启用)。即使您没有具有以下功能的 GPU,也能正常工作: --cpu (慢速)。可以加载 ckpt、safetensor 和扩散器模型/检查点。独立的 VAE 和 CLIP 型号。嵌入/文本反转。Loras(常规、locon 和 loha)。超网络。从生成的 PNG 文件加载完整的工作流(带有种子)。将工作流保存/加载为 Json 文件。节点接口可用于创建复杂的工作流程,例如用于 Hires 修复或更高级的工作流程。区域构成。使用常规模型和修复模型进行修复。ControlNet 和 T2I 适配器。高档型号(ESRGAN、ESRGAN 变体、SwinIR、Swin2SR 等)。unCLIP 型号。GLIGEN。模型合并。LCM 模型和 Loras。SDXL 涡轮增压。使用 TAESD 进行潜在预览。启动速度非常快。完全离线工作:永远不会下载任何内容。配置文件来设置模型的搜索路径。
- 6174/comflowy - Gen 工具,并为开发者和用户培养一个充满活力的社区。这个社区可以提供什么:更全面、更系统的 Stable Diffusion & ComfyUI 教程;通过 Discord 社区进行互动讨论;工作流和模型内容的数据库:ComfyUI 的重要价值在于它能够共享或导入工作流。Better ComfyUI 的开源版本Comflowyspace。
- lllyasviel/Fooocus
- diff-usion/Awesome-Diffusion-Models
- cumulo-autumn/StreamDiffusion
- huggingface/diffusers
- Stability-AI/StableStudio
- borisdayma/dalle-mini - 从文本提示生成图像
- lucidrains/DALLE-pytorch - E,OpenAI的文本到图像转换器
- ashawkey/stable-dreamfusion
- camenduru/stable-diffusion-webui-colab
- facebookresearch/AnimatedDrawings
- tencent-ailab/IP-Adapter
- facebookresearch/DiT - Net主干网。我们通过Gflops测量的前向传递复杂性来分析扩散变压器(DiTs)的可扩展性。我们发现,具有较高 Gflops 的 DiT---通过增加转换器深度/宽度或增加输入令牌数量---始终具有较低的 FID。除了良好的可扩展性外,我们的 DiT-XL/2 模型在类条件 ImageNet 512×512 和 256×256 基准测试上优于所有先前的扩散模型,在后者上实现了 2.27 的先进 FID。
- KwaiVGI/LivePortrait
- willwulfken/MidJourney-Styles-and-Keywords-Reference
- HumanAIGC/AnimateAnyone
- magic-research/magic-animate
- lucidrains/DALLE2-pytorch - E 2,OpenAI 更新的文本到图像合成神经网络
- apple/ml-stable-diffusion
- 3DTopia/LGM
- geekyutao/Inpaint-Anything
- divamgupta/diffusionbee-stable-diffusion-ui
- luosiallen/latent-consistency-model
- modelscope/DiffSynth-Studio - DiT,RIFE,ESRGAN,Ip-Adapter,AnimateDiff,ControlNet,Stable Diffusion XL,Stable Diffusion
- cbh123/emoji
- ali-vilab/VGen - xl:通过级联扩散模型实现高质量图像到视频合成;VideoComposer:具有运动可控性的合成视频合成;面向文本转视频生成的分层时空解耦;使用无文本视频扩大文本到视频生成的秘诀;InstructVideo:使用人工反馈指导视频扩散模型;DreamVideo:使用自定义主题和动作组成您的梦想视频;VideoLCM:视频潜在一致性模型;Modelscope文字转视频技术报告。VGen 可以从输入文本、图像、所需的运动、所需的主题甚至提供的反馈信号中生成高质量的视频。它还提供了各种常用的视频生成工具,例如可视化、采样、训练、推理、使用图像和视频的联接训练、加速等。
- OpenAI/CLIP
- mlfoundations/open_clip - 图像预训练)的开源实现。在各种数据源和计算预算上训练了多个模型,从小规模实验到大型运行,包括在 LAION-400M、LAION-2B 和 DataComp-1B 等数据集上训练的模型。在论文中详细研究了我们的许多模型及其缩放特性,用于对比语言图像学习的可重复缩放定律。此存储库专注于训练 CLIP 模型。要在下游分类任务(如 ImageNet)上微调经过训练的零样本模型,请参阅我们的其他存储库:WiSE-FT。WiSE-FT 存储库包含我们关于零样本模型的鲁棒微调的论文的代码,其中我们介绍了一种微调零样本模型的技术,同时在分布偏移下保持鲁棒性。
- yangjianxin1/CLIP-Chinese
- jina-ai/clip-as-service
- lllyasviel/ControlNet
- Stability-AI/StableCascade
- Mikubill/sd-webui-controlnet
- jexom/sd-webui-depth-lib - diffusion-webui 的控制网扩展
- Nutlope/roomGPT
- princeton-vl/infinigen
- jbilcke-hf/ai-comic-factory
- SawyerHood/draw-a-ui - 4-vision api 根据您绘制的线框生成 html 的应用程序。
- XingangPan/DragGAN
- OFA-Sys/OFA
- openai/consistency_models
- CompVis/latent-diffusion
- FoundationVision/VAR
- open-mmlab/mmagic
- alicevision/meshroom
- google-research/magvit
- silverriver/MMChat
- tyxsspa/AnyText
- deepseek-ai/DeepSeek-VL - VL具备通用的多模态理解能力,能够在复杂场景下处理逻辑图、网页、公式识别、科学文献、自然图像和具身智能。
- PKU-YuanGroup/MoE-LLaVA - LLaVA-Qwen1.5,更好地支持汉语。在更高的图像分辨率下训练更强的模型(例如768×768)。
- TencentARC/InstantMesh
- OpenBMB/MiniCPM-V - V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。
- FreedomIntelligence/ALLaVA
- KaiyangZhou/CoOp
- j-min/VL-T5
- cloneofsimo/lora
- HuiGuanLab/ms-sl - 视频检索(Video-to-Text Retrieval, T2VR)任务,提出了部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。PRVR 旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。
- facebookresearch/AugLy
- aigc-apps/sd-webui-EasyPhoto
- alembics/disco-diffusion
- xxxnell/how-do-vits-work
- salesforce/LAVIS
- luban-agi/Awesome-AIGC-Tutorials
- willard-yuan/awesome-cbir-papers
- pliang279/awesome-multimodal-ml
- lucidrains/imagen-pytorch - E2。 它是文本到图像合成的新 SOTA。在架构上上比 DALL-E2 简单得多。 它由一个级联 DDPM 组成,该 DDPM 以来自大型预训练 T5 模型(注意网络)的文本嵌入为条件。 它还包含用于改进分类器自由引导、噪声级调节和内存高效 unet 设计的动态裁剪。
- divamgupta/stable-diffusion-tensorflow
- lllyasviel/style2paints
- realtime-semantic-segmentation
- LeonLok/Multi-Camera-Live-Object-Tracking
- kornia/kornia - based optimization),因此Kornia 便应运而生。
- facebookresearch/pytorch3d
- facebookresearch/pytorchvideo
- Thinklab-SJTU/ThinkMatch
- google-research/vision_transformer - 混合器架构,Transformer应用于视觉,纯多层感知机视觉架构。
- China-UK-ZSL/ZS-F-VQA - VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,缓解了误差传播对于模型性能的影响。
- luost26/diffusion-point-cloud
- PeterWang512/GANSketching
- shahroudy/NTURGB-D
- yuhuan-wu/P2T
- jantic/DeOldify
- junyanz/pytorch-CycleGAN-and-pix2pix
- joelibaceta/video-to-ascii
- bytedance/OMGD
- TorchSSL/TorchSSL
- google-research/mixmatch
- google-research/remixmatch
- NVlabs/stylegan3
- isl-org/DPT
- google-research/mint
- yihongXU/TransCenter
- cvat-ai/cvat
- ashkamath/mdetr
- erikalu/omnimatte
- microsoft/SimMIM
- microsoft/Oscar - Semantics Aligned Pre-training)。它利用在图像中检测到的对象标签作为锚点来显着简化图像-文本对齐的学习。在 650 万个文本图像对的公共语料库上对 Oscar 进行预训练,并在下游任务上对其进行微调,在六项成熟的视觉语言理解和生成任务上创造新的最新技术。
- xyzforever/BEVT
- snap-research/CAT
- HobbitLong/SupContrast
- isl-org/MiDaS - shot dataset)。
- google-research/deeplab2
- yangle15/RANet-pytorch
- microsoft/NUWA
- lucidrains/nuwa-pytorch
- yuxie11/R2D2
- google-research-datasets/conceptual-captions
- ShannonAI/OpenViDial
- Alibaba-MIIL/STAM
- openai/glide-text2im
- SysCV/pcan
- google-research/scenic
- CryhanFang/CLIP2Video - B/32)的视频文本检索模型,将图像语言预训练模型以端到端的方式转换为视频文本检索。模型包括一个时间差异块来捕捉精细时间视频帧的运动,以及时间对齐块来重新对齐视频剪辑和短语的标记并增强多模态相关性。在主要的文本到视频和视频到文本检索基准上取得了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。
- ArrowLuo/CLIP4Clip - B)的视频文本检索模型。在这项工作中,我们研究了三种相似度计算方法:无参数类型、顺序类型和紧密类型。该模型在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 上实现了 SOTA 结果。
- sail-sg/poolformer - like 模型的能力主要源于通用架构 MetaFormer,而不是配备的特定令牌混合器。作者独树一帜提出视觉Transformer及其变种的成功原因主要是架构的设计,并且将token mixer换为了简单的池化获得了相当好的效果。
- jonhare/DifferentiableSketching
- nuno-faria/tiler
- leandromoreira/ffmpeg-libav-tutorial - 了解媒体如何从基础到转换、转码等工作
- Tencent/libpag
- salesforce/BLIP
- facebookresearch/SLIP - 图像预训练
- OFA-Sys/Chinese-CLIP
- yuewang-cuhk/awesome-vision-language-pretraining-papers - PTM) 的最新进展
- facebookresearch/vilbert-multi-task
- uclanlp/visualbert
- jackroos/VL-BERT
- ChenRocks/UNITER - VE 、](https://github.com/necla-ml/SNLI-VE) [COCO](https://cocodataset.org/#home)和 [Flickr30k](http://shannon.cs.illinois.edu/DenotationGraph/)的图像文本检索以及 [引用表达式理解](https://github.com/lichengunc/refer)(RefCOCO、RefCOCO+ 和 RefCOCO-g)上微调 UNITER。UNITER-base 和 UNITER-large 的预训练检查点均已发布。还可以使用域内数据进行基于 UNITER 的预训练。
- mczhuge/Kaleido-BERT - BERT:时尚领域的视觉语言预训练。
- linjieli222/HERO - VTT Retrieval](http://ms-multimedia-challenge.com/2017/challenge)上微调 HERO 。发布了最好的预训练检查点(在[HowTo100M](https://www.di.ens.fr/willow/research/howto100m/)和[TV](http://tvqa.cs.unc.edu/)数据集上)。还提供了在 TV 数据集上进行 HERO 预训练的代码。
- gabeur/mmt
- Noah-Wukong Dataset
- lyakaap/ISC21-Descriptor-Track-1st
- sun-xl/ISC2021
- zr2021/2021_QQ_AIAC_Tack1_1st
- PKU-DAIR/2021_AIAC_Task2_1st
- kywen1119/Video_sim
- Tencent/Lichee
- NVlabs/instant-ngp
- WangWenhao0716/ISC-Track2-Submission
- facebookresearch/Motionformer - 400 和Something-Something V2)上实现最先进的结果。
- snap-research/NeROIC
- facebookresearch/ConvNeXt
- declare-lab/MELD
- studiomoniker/Quickdraw-appendix
- Jittor/JNeRF - ngp 并达到了与原始论文相同的性能。
- THUDM/CogVideo
- THUDM/CogView - to-Image Generation via Transformers”
- CompVis/stable-diffusion
- invoke-ai/InvokeAI
- AUTOMATIC1111/stable-diffusion-webui
- cmdr2/stable-diffusion-ui
- nateraw/stable-diffusion-videos
- kuprel/min-dalle - E是一个可以通过文本描述中生成图像的AI程序。 通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入并生成相应的图片。可生成现实、现实中不存在的对象。
- open-mmlab/mmgeneration
- rinongal/textual_inversion - 5 张图像,通过学习冻结文本到图像模型的嵌入空间中的新“词”来表示它。 这些“词”可以组合成自然语言句子,以直观的方式指导个性化创作。
- remotion-dev/remotion
- zhegan27/VILLA - VE 上的对抗微调。 使用域内数据的对抗性预训练将很快可用。 VILLA-base 和 VILLA-large 预训练检查点均已发布。
- Sally-SH/VSP-LLM - LLM)相结合,通过带来压倒性的LLMs功率来最大限度地提高上下文建模能力。具体来说,VSP-LLM旨在执行视觉语音识别和翻译的多任务,其中给定的指令控制任务的类型。通过采用自监督视觉语音模型,将输入视频映射到 LLM 的输入潜在空间。针对输入帧中存在冗余信息的事实,我们提出了一种新颖的重复数据删除方法,该方法通过采用视觉语音单元来减少嵌入的视觉特征。通过所提出的重复数据删除和低秩适配器 (LoRA),VSP-LLM 可以以计算高效的方式进行训练。
- piskelapp/piskel
- pencil2d/pencil
- OpenShot/libopenshot
- microsoft/GLIP - 重点区域对(word-region pair)。然后,对文字和图片分别进行编码,获得了文字与图片各自的特征。
- jina-ai/discoart
- olive-editor/olive
- NatronGitHub/Natron
- patriciogonzalezvivo/glslViewer
- google-research/jax3d
- MCG-NJU/VideoMAE - 95%) 和管掩蔽策略,为自监督视频预训练创建具有挑战性的任务。VideoMAE 可以作为未来自监督视频预训练研究的简单但强大的基线。适用于不同规模的视频数据集,在 Kinects-400 上可以达到 87.4%(Kinetics-400是一个大规模,高质量的YouTube视频网址数据集,其中包含各种以人为本的行动。该数据集包含 400 个人类动作类,每个动作至少有 400 个视频剪辑。每个剪辑持续大约 10 秒,并且取自不同的 YouTube 视频。这些动作以人类为中心,涵盖广泛的类别,包括演奏乐器等人与物体的交互,以及握手等人与人的交互。),在 Something-Something V2 (大型的带有标签的记录了人类与日常生活中的一些物体之间的动作数据集)上可以达到 75.4%,在 UCF101 上可以达到 91.3%(UCF-101(2012)包含13,320个视频(共27个小时),101个人类行为类别,如运动、乐器和人物交互等。),在 HMDB51(HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,。来自于YouTube,google视频等,共2G) 上可以达到 62.6%。
- POSTECH-CVLab/PeRFception
- opendilab/InterFuser
- Kuaipedia/Kuaipedia
- Moguri/awesome-panda3d
- photoprism/photoprism
- magicleap/SuperGluePretrainedNetwork
- aleju/imgaug
- libvips/libvips
- Charmve/computer-vision-in-action - vision-in-action/)
- raulmur/ORB_SLAM2 - D相机的实时SLAM,具有环路检测和重新定位功能
- dk-liang/Awesome-Visual-Transformer
- lukasHoel/text2room
- facebookresearch/ImageBind - 图像、文本、音频、深度、热量和 IMU 数据(惯性测量单元,是用来测量物体加速度、角速度、磁场,高度等)。它支持“开箱即用”的新型紧急应用,包括跨模态检索、使用算术组合模态、跨模态检测和生成。
- vdumoulin/conv_arithmetic
- eriklindernoren/PyTorch-GAN
- spmallick/learnopencv
- facebookresearch/dino
- facebookresearch/dinov2
- python-pillow/Pillow
- Zulko/moviepy
- abhiTronix/vidgear - mss 在其后端服务,使我们能够灵活地利用它们的内部参数和方法,同时静默地提供强大的错误处理和实时性能
- Breakthrough/PySceneDetect
- torch-points3d/torch-points3d
- alex000kim/nsfw_data_scraper
- tnfe/FFCreator
- HumanSignal/labelImg
- pytorch/vision
- Cadene/pretrained-models.pytorch
- camenduru/ShareGPT4V-colab - Vision 收集的精选 100K 高质量字幕,并已扩展到 120 万,并在这个子集上训练了出色的字幕模型。ShareGPT4V 首先证明了其在监督微调 (SFT) 阶段的有效性,方法是用我们的高质量字幕子集替换现有 SFT 数据集中等量的详细字幕,显着增强了 MME 和 MMBench 基准测试上的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMM,分别获得了 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据整合到预训练和 SFT 阶段,获得了 ShareGPT4V-7B,这是一款基于简单架构的卓越 LMM,在大多数多模态基准测试中具有卓越的性能。
- xbmc/xbmc
- obsproject/obs-studio
- OpenTalker/SadTalker
- glfw/glfw
- zalandoresearch/fashion-mnist - MNIST` 直接替代原始MNIST数据集,用于对机器学习算法进行基准测试。它与训练和测试拆分的图像大小和结构相同。
- albumentations-team/albumentations
- isl-org/Open3D
- microsoft/computervision-recipes
- esimov/caire - Aware Image Adjustment 的内容感知图像大小调整库。
- PointCloudLibrary/pcl
- timzhang642/3D-Machine-Learning
- doitsujin/dxvk
- EBazarov/nsfw_data_source_urls
- FujiwaraChoki/MoneyPrinter
- JoeyDeVries/LearnOpenGL
- 0voice/audio_video_streaming
- danielgatis/rembg
- Curzibn/Luban
- leandromoreira/digital_video_introduction
- mltframework/shotcut
- ssloy/tinyrenderer
- phillipi/pix2pix
- graphdeco-inria/gaussian-splatting
- NVlabs/stylegan2
- NVlabs/stylegan - 官方 TensorFlow 实现
- hindupuravinash/the-gan-zoo
- tonybeltramelli/pix2code
- alyssaxuu/screenity - 所有这些都是免费的。特征:对您的选项卡、特定区域、桌面、任何应用程序或相机进行无限制的记录;录制麦克风或内部音频,并使用一键通等功能;通过在屏幕上的任意位置绘图、添加文本、箭头、形状等进行注释;使用 AI 驱动的相机背景或模糊来增强您的录制效果;平滑放大录音以专注于特定区域;模糊任何页面的任何敏感内容以保持其私密性;使用全面的编辑器删除或添加音频、剪切、修剪或裁剪您的录音;突出显示您的点击和光标,然后进入聚光灯模式;设置闹钟以自动停止录制;导出为 mp4、gif 和 webm,或将视频直接保存到 Google 云端硬盘以共享链接;设置倒计时、隐藏 UI 的某些部分或将其移动到任何位置;只有您可以看到您的视频,我们不会收集您的任何数据。您甚至可以离线;没有限制,随心所欲地制作任意数量的视频;还有更多 - 全部免费,无需登录
- thumbor/thumbor
- ImageMagick/ImageMagick
- image-rs/image
- darktable-org/darktable - 摄影师的虚拟 LightTable 和暗室。它在数据库中管理您的数字底片,让您可以通过可缩放的光照表查看它们,并使您能够开发原始图像、增强它们并将它们导出到本地或远程存储。darktable 不是免费的 Adobe® Lightroom® 替代品。
- roboflow/inference - World 等基础模型。
- kovacsv/Online3DViewer
- FenTechSolutions/CausalDiscoveryToolbox
- uber/causalml
- erdogant/bnlearn
- rguo12/awesome-causality-algorithms
- huawei-noah/trustworthyAI
- wanyu-lin/ICML2021-Gem
- pgmpy/pgmpy
- quantumblacklabs/causalnex
- google/CausalImpact
- fulifeng/Causal_Reading_Group
- matheusfacure/python-causality-handbook
- ossrs/srs - FLV、SRT、MPEG-DASH和GB28181。
- black-forest-labs/flux - Ultra 等。这一新模型不仅继承了 Stable Diffusion 的优良基因,更在多个方面实现了重大突破。
- Stability-AI/StableSwarmUI
- Kwai-Kolors/Kolors - 图像对的训练,Kolors 在视觉质量、复杂语义准确性和中英文字符的文本渲染方面与开源和闭源模型相比都表现出显着优势。此外,Kolors支持中文和英文输入,在理解和生成中文特定内容方面表现出强大的表现。有关详细信息,请参阅此技术报告。
- PixArt-alpha/PixArt-sigma - Σ:用于 4K 文本到图像生成的 Diffusion Transformer 的弱到强训练。PixArt-Σ的一个关键特点是其训练效率。它利用PixArt-α的基础预训练,通过加入高质量数据,从较弱的基线模型进化到更强的模型。通过利用Transformer Latent Diffusion模型和高质量数据,实现了从较弱的基线模型到更强模型的进化,从而能够生成4K分辨率的高质量图像。
- ShineChen1024/MagicClothing
- AiuniAI/Unique3D
- Moonvy/OpenPromptStudio
- ChenyangSi/FreeU
- architras/Advanced_Lane_Lines
- microsoft/AutoML/iRPE - 1 Acc)和1.3%(mAP)的性能提升(无需任何调参)。
- Mengzi/Mengzi-Oscar - Oscar 模型 下游任务模型: 中文图像摘要. 中文图文互检.
- visualcommonsense
- imageclef.org
- neutraltone/awesome-stock-resources
- gcastle
- DataCanvasIO/YLearn
- econometric/CausalitySlides
-
-
时间序列
-
网络服务_其他
- KimMeen/Time-LLM - LLM: 通过重新编程大型语言模型进行时间序列预测。Time-LLM 是一种重编程框架,用于重新用于LLMs一般时间序列预测,同时保持骨干语言模型不变。值得注意的是,我们发现时间序列分析(例如,预测)可以被看作是另一个“语言任务”,可以由现成LLM的。时间-LLM包括两个关键组成部分:(1)将输入时间序列重新编程为对用户LLM来说更自然的文本原型表示,以及(2)通过声明性提示(例如,领域专家知识和任务指令)增强输入上下文以指导LLM推理。(2024 年 3 月):Time-LLM 已升级为通用框架,用于将各种语言模型重新用于时间序列预测。它现在默认支持 Llama-7B,并包括与另外两个较小的 PLM(GPT-2 和 BERT)的兼容性。只需调整 --llm_model 和 --llm_dim 即可切换主干。Time-LLM 已被包含在 NeuralForecast 中。时间LLM 已被 XiMou Optimization Technology Co., Ltd. (XMO) 用于太阳能、风能和天气预报。
- tensortrade-org/tensortrade
- deepmind/trfl
- deepmind/pysc2
- Zeying-Gong/PatchMixer - Mixing 架构。PatchMixer 主要由两个卷积层和两个预测头组成。它的显着特点是“补丁混合”设计,这意味着模型最初将输入时间序列分割成更小的时间补丁,然后集成来自这些补丁内部和之间的信息。从定量上看,与最先进的 Transformer (PatchTST) 相比,PatchMixer 在 MSE 上总体上相对减少了 3.9%,在 MAE 上相对减少了 3.0%。当根据性能最佳的基于 MLP 的模型 (DLinear) 进行评估时,我们的模型显示 MSE 上的 11.6% 和 MAE 上的 9.4% 总体下降。此外,与基于CNN的最佳模型(TimesNet)的可实现结果相比,我们证明了MSE上21.2%和MAE上12.5%的总体相对减少显着。
- HuggingFace 中的 PatchTSMixer - 入门 - Mixer架构的轻量级时间序列建模方法。PatchTSMixer 在预测方面优于最先进的 MLP 和 Transformer 模型,差距很大,为 8-60%。它还优于 Patch-Transformer 型号的最新强大基准测试(1-2%),内存和运行时间显着减少 (2-3 倍)。有关详细信息,请参阅[论文](https://arxiv.org/pdf/2306.09364.pdf)。概述:PatchTSMixer 将给定的输入多变量时间序列拆分为一系列补丁或窗口。随后,它将序列传递到嵌入层,该嵌入层生成多维张量。多维张量随后传递到 PatchTSMixer 主干网,主干网由一系列 MLP Mixer 层组成。每个 MLP 混频器层通过一系列排列和 MLP 操作来学习 patch 间、 patch 内和 channel 间的相关性。PatchTSMixer 还采用残余连接和门控注意力来优先考虑重要特征。因此,一系列 MLP 混频器层创建了以下 PatchTSMixer 主干。PatchTSMixer 采用模块化设计,可无缝支持掩码时间序列预训练以及直接时间序列预测。
- VachelHU/EvoNet - Series Event Prediction with Evolutionary State Graph 将时间序列转化为动态图进行表示的方法。该方法成功在阿里云 ·SLS 商业化,作为一项智能巡检服务,可以对大规模时间序列进行异常检测与分析。
- adarnn
- alasdairtran/radflow
- eBay/RANSynCoders
- thuml/Nonstationary_Transformers - stationarization)。针对非平稳时序预测问题,提出了Non-stationary Transformers,其包含一对相辅相成的序列平稳化(Series Stationarization)和去平稳化注意力(De-stationary Attention)模块,能够广泛应用于Transformer以及变体,一致提升其在非平稳时序数据上的预测效果。
- ngruver/llmtime
- xunger99/SAAC-StarCraft-Adversary-Agent-Challenge - 逃避游戏,这在航空航天应用中具有科学意义和实际意义。
- distributional-rl.org
- thuml/Autoformer - BEATS 等。通常,对于长期预测设置,Autoformer 实现了 SOTA,相对于之前的基线有38% 的相对改进。
- facebook/prophet
- qingsongedu/time-series-transformers-review
- Nixtla/statsforecast
- google-research/timesfm - 1.0-200M是第一个开放模型检查点:它使用可选的频率指示器,对多达 512 个时间点和任何地平线长度的上下文长度执行单变量时间序列预测;它侧重于点预测,不支持概率预测,我们通过实验提供了分位数头,但它们在预训练后尚未校准;它要求上下文是连续的(即没有“洞”),并且上下文和视界具有相同的频率。
- Nixtla/nixtla - 1:用于预测和异常检测的生产就绪预训练时间序列基础模型。用于在超过 100B 数据点上训练的时间序列的生成式预训练转换器。它只需几行代码即可准确预测零售、电力、金融和物联网等各个领域。
- arrigonialberto86/deepar
- fjxmlzn/DoppelGANger
- AIStream-Peelout/flow-forecast - Head Attention、Transformer w/a linear decoder、DA-RNN (CPU only for now)。
- tslearn-team/tslearn
- blue-yonder/tsfresh
- johannfaouzi/pyts
- PaddlePaddle/PaddleTS
- linkedin/greykite
- amazon-science/chronos-forecasting
- zhouhaoyi/Informer2020 - attention机制来高效的替换常规的self-attention并且获得了的O(LlogL)时间复杂度以及O(LlogL)的内存使用率,提出了self-attention distilling操作,它大幅降低了所需的总空间复杂度O((2-e)LlogL);我们提出了生成式的Decoder来获取长序列的输出,这只需要一步,避免了在inference阶段的累计误差传播;
- deeptime-ml/deeptime
- unit8co/darts
- bashtage/arch
- microsoft/StemGNN - series)相关性和时间依赖性(temporal dependencies)。它结合了图傅立叶变换 (GFT) 和离散傅立叶变换 (DFT),GFT对序列间(inter-series)相关性进行建模,而离散傅立叶变换 (DFT) 则对端到端框架中的时间依赖性(temporal dependencies)进行建模。通过 GFT 和 DFT 后,谱表示具有清晰的模式,可以通过卷积和序列学习模块进行有效预测。
- fulifeng/Temporal_Relational_Stock_Ranking
- emadeldeen24/TS-TCC
- facebookresearch/Kats
- slaypni/fastdtw
- ourownstory/neural_prophet - Net,建立在 PyTorch 之上。
- jsyoon0823/TimeGAN
- lucidrains/perceiver-pytorch
- gzerveas/mvts_transformer
- zhhlee/InterFusion
- winedarksea/AutoTS
- angus924/minirocket
- EvilPsyCHo/Deep-Time-Series-Prediction
- locuslab/TCN
- sktime/sktime-dl
- jiwidi/time-series-forecasting-with-python
- timeseriesAI/tsai
- Alro10/deep-learning-time-series
- ElementAI/N-BEATS
- firmai/atspy
- cesium-ml/cesium
- zhengqi98/Hefei_ECG_TOP1
- thuml/Anomaly-Transformer
- microprediction/timemachines
- rlabbe/Kalman-and-Bayesian-Filters-in-Python
- google/dopamine
- Farama-Foundation/PettingZoo
- Unity-Technologies/ml-agents - Agents) 是一个开源项目,它使游戏和模拟成为使用深度强化学习和模仿学习训练智能代理的环境。
- opendilab/DI-star
- DLR-RM/stable-baselines3
- Farama-Foundation/D4RL
- astooke/rlpyt
- dennybritz/reinforcement-learning
- keiohta/tf2rl
- ShangtongZhang/reinforcement-learning-an-introduction
- rlgraph/rlgraph
- bulletphysics/bullet3
- Ceruleanacg/Personae
- keras-rl/keras-rl
- openai/gym
- Farama-Foundation/Gymnasium
- brain-tokyo-workshop
- google-research/football
- Baekalfen/PyBoy
- tencent-ailab/hok_env
- google-research/batch_rl
- tensorflow/agents - Agents是TensorFlow中的强化学习库
- YingtongDou/Nash-Detect
- XinJingHao/TD3
- huawei-noah/xingtian
- thu-ml/tianshou
- Jingliang-Duan/Distributional-Soft-Actor-Critic
- minerllabs/minerl
- openai/retro
- TorchCraft/TorchCraftAI
- datamllab/rlcard - 大酒杯,勒杜克,德克萨斯州,窦滴竹,麻将,UNO。
- Microsoft/AirSim
- carla-simulator/carla
- aitorzip/DeepGTAV
- deepdrive/deepdrive
- robotology/gym-ignition
- stanfordnmbl/osim-rl
- lsw9021/MASS
- deepmind/lab
- minosworld/minos
- facebookresearch/habitat-sim
- facebookresearch/habitat-lab
- facebookresearch/house3d
- staghuntrpg/RPG - tune),进而找到最优策略。
- daochenzha/rapid
- datawhalechina/easy-rl
- kwai/DouZero
- opendilab/DI-engine
- kzl/decision-transformer
- instadeepai/Mava
- google/brax
- sjtu-marl/malib - MARL 的开源大规模并行训练框架。MALib 支持丰富的种群训练方式(例如,self-play, PSRO, league training),并且实现和优化了常见多智能体深度强化学习算法,为研究人员降低并行化工作量的同时,大幅提升了训练效率。此外,MALib 基于 Ray 的底层分布式框架,实现了全新的中心化任务分发模型,相较于常见的多智能体强化学习训练框架(RLlib,PyMARL,OpenSpiel),相同硬件条件下吞吐量和训练速度有着数倍的提升。现阶段,MALib 已对接常见多智能体环境(星际争霸、谷歌足球、棋牌类、多人 Atari 等),后续将提供对自动驾驶、智能电网等场景的支持。
- octavio-santiago/Super-Mario-Land-AI
- salesforce/warp-drive
- SunQingYun1996/Graph-Reinforcement-Learning-Papers
- sail-sg/envpool
- YeWR/EfficientZero
- kakaoenterprise/JORLDY
- jiupinjia/rocket-recycling
- p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch - 评论家 (SAC) ( Haarnoja et al. 2018 )、离散动作的软演员-评论家 (SAC-Discrete) ( Christodoulou 2019 )、Asynchronous Advantage Actor Critic (A3C) ( Mnih et al. 2016 )、同步优势演员评论家 (A2C)、近端策略优化 (PPO) ( Schulman et al. 2017 )、具有事后经验重放的 DQN (DQN-HER) ( Andrychowicz et al. 2018 )、具有事后经验重放的 DDPG (DDPG-HER) ( Andrychowicz et al. 2018 )、分层 DQN (h-DQN) ( Kulkarni et al. 2016 )、用于分层强化学习 (SNN-HRL) 的随机神经网络 ( Florensa et al. 2017 )、多样性就是你所需要的 (DIAYN) ( Eyensbach et al. 2018 )。所有实现都能够快速解决 Cart Pole(离散动作)、Mountain Car Continuous(连续动作)、Bit Flipping(具有动态目标的离散动作)或 Fetch Reach(具有动态目标的连续动作)。计划添加更多的分层 RL 算法。
- facebookresearch/diplomacy_cicero
- eloialonso/iris
- MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning
- ShangtongZhang/DeepRL
- seungeunrho/minimalRL
- andri27-ts/Reinforcement-Learning
- ApolloAuto/apollo
- autowarefoundation/autoware
- vwxyzjn/cleanrl
- wangshusen/DRL
- tensorlayer/TensorLayer - GPU、华为-昇腾等不同硬件上运行代码。
- yandexdataschool/Practical_RL
- openai/baselines
- espnet/espnet - to-End Speech Processing Toolkit 端到端的语音处理工具箱,主要特性:kaldi风格的处理模式、ASR、TTS、语音翻译、机器翻译、语音转换、DNN框架
- PaddlePaddle/PaddleSpeech
- athena-team/athena
- nnzhan/MTGNN
- deepmind/acme
- deepmind/alphatensor
- alan-turing-institute/sktime
- NSIBF/NSIBF
- facebookresearch/transformer-sequential - Span。用于使用类似 Transformer 的架构进行长序列建模。
- jambo6/neuralRDEs
- dgriff777/a3c_continuous
- tencent-ailab/TLeague
- XinJingHao/RL-Algorithms-by-Pytorch - learning,DQN,DDQN,PPO 离散,PPO 连续,TD3,SAC 连续。
-
-
C/C++ 程序设计
-
网络服务_其他
- fffaraz/awesome-cpp - ... stuff.
- facebook/infer - C 的静态分析器
- Tencent/MMKV
- C 程序设计 · 语雀
- skyline-emu/skyline
- huihut/interview
- wuye9036/CppTemplateTutorial - Programming融会贯通。
- Qihoo360/safe-rules
- isocpp/CppCoreGuidelines
- TheAlgorithms/C-Plus-Plus
- chengxumiaodaren/cpp-learning
- jobbole/awesome-cpp-cn
- AnthonyCalandra/modern-cpp-features
- llvm/llvm-project - C 和 Objective-C++ 代码编译为 LLVM 位码,然后从那里编译为目标文件。其他组件包括:libc++ C++ 标准库、LLD 链接器等。
- Tencent/libco
- cloudwu/coroutine
- attractivechaos/klib
- nothings/stb
- miloyip/json-tutorial
- liu-jianhao/Cpp-Design-Patterns
- facebook/folly
- tangtangcoding/C-C-
- linyacool/WebServer
- jupyter-xeus/xeus-cling
- gozfree/gear-lib
- google/googletest
- ocornut/imgui
- SFML/SFML
- citra-emu/citra
- microsoft/vcpkg
- libcpr/cpr
- open-source-parsers/jsoncpp
- cameron314/concurrentqueue - - 在可能的情况下移动(而不是复制)元素。模板化,避免了专门处理指针的需要 -- 内存是为您管理的。对元素类型或最大数量没有人为限制。内存可以预先分配一次,也可以根据需要动态分配。完全可移植(无需汇编;所有操作均通过标准 C++ 11 原语完成)。支持超快速批量操作,包括低开销阻塞版本 (BlockingConcurrentQueue)。异常安全。
- electronicarts/EASTL
- progschj/ThreadPool
- libevent/libevent
- idealvin/coost
- koshox/pythonvm
- federico-busato/Modern-CPP-Programming
- carbon-language/carbon-lang
- abseil/abseil-cpp
- akheron/jansson
- simdjson/simdjson
- Tencent/rapidjson
- bblanchon/ArduinoJson
- rui314/chibicc - local 变量是这样实现的。如果您有足够的空闲时间,从第一次提交开始阅读它可能会很有趣。如果您喜欢这个项目,请考虑在这本书可用时购买一份!我把chibicc发音为chee bee cee cee。“chibi”在日语中是“小”或“小”的意思。“cc”代表 C 编译器。
- miloyip/nativejson-benchmark
- nlohmann/json
- DaveGamble/cJSON
- Mooophy/Cpp-Primer
- openframeworks/openFrameworks
- gabime/spdlog
- catchorg/Catch2 - 使用 C++14、C++17 及更高版本
- fmtlib/fmt
- rigtorp/awesome-modern-cpp
- sumatrapdfreader/sumatrapdf
- CnTransGroup/EffectiveModernCppChinese
- ttroy50/cmake-examples
- facebook/zstd
- xmake-io/xmake
- upx/upx
- jart/cosmopolitan
- bkaradzic/bgfx
- TheCherno/Hazel
- zhongyang219/TrafficMonitor
- unikraft/unikraft - V),在各种硬件平台上提供了部署的灵活性。Unikraft 为多种编程语言和硬件架构提供广泛的支持,使开发人员能够灵活地选择最适合您需求的工具和平台。Unikraft专为云和边缘计算环境而设计,可跨分布式计算基础设施无缝部署应用程序。通过有选择地仅包含必要的组件,Unikraft 减少了攻击面,增强了部署场景中的安全性。Unikraft还包括许多其他现代安全功能。Unikraft直观的工具链和用户友好的界面简化了开发过程,使开发人员能够专注于构建创新的解决方案。Unikraft 优化了资源利用率,从而减少了占用空间(意味着更高的服务器饱和度)并提高了资源受限环境中的效率。Unikraft 是一个开源项目,由 100 多名开发人员组成的充满活力的社区推动,促进了工业界和学术界的合作和创新。
-
-
Rust 程序设计
-
网络服务_其他
- rust-unofficial/awesome-rust
- analysis-tools-dev/static-analysis
- Rust 程序设计 · 语雀
- rust-lang/cargo
- rust-lang/rust
- servo/servo
- TheAlgorithms/Rust
- sger/RustBooks
- rust-lang/mdBook
- rust-lang/book
- dani-garcia/vaultwarden
- sunface/rust-course
- iced-rs/iced
- phil-opp/blog_os - opp.com。
- hyperium/hyper
- seanmonstar/reqwest
- seanmonstar/warp
- veloren/veloren
- emilk/egui
- bevyengine/bevy
- rust-lang/rustlings
- yewstack/yew
- swc-project/swc
- tokio-rs/tokio
- redox-os/redox
- hyperium/tonic
- clap-rs/clap
- neovide/neovide
- slint-ui/slint
- rust-embedded/awesome-embedded-rust
- XAMPPRocky/tokei
- actix/actix
- rust-embedded/rust-raspberrypi-OS-tutorials - A 架构的业余操作系统开发人员。这些教程将提供有关如何 embedded system 从头开始编写整体式操作系统 kernel 的指导性分步教程。它们涵盖了常见操作系统任务的实现,例如写入串行控制台、设置虚拟内存和处理硬件异常。同时利用 Rust 的独特功能来提供安全性和速度。
- chyyuu/os_kernel_lab - V 64/X86-32 的操作系统内核实验室
- rust-lang/rust-analyzer
- RustPython/RustPython
- google/comprehensive-rust
- PyO3/pyo3
- sunface/rust-by-practice
- serde-rs/serde
- rust-unofficial/patterns
- ruffle-rs/ruffle
- rust-bakery/nom
- gfx-rs/wgpu
- ctjhoa/rust-learning
- linebender/druid
- rcore-os/zCore
- rcore-os/rCore-Tutorial-Book-v3
- uutils/coreutils
- ogham/exa
- Canop/broot
- tree-sitter/tree-sitter
- sharkdp/hyperfine
- lsd-rs/lsd
- sxyazi/yazi - 服务器架构(无需额外的服务器进程),集成基于 Lua 的发布-订阅模型,实现跨实例通信和状态持久化。包管理器:使用一个命令安装插件和主题,使它们始终保持最新状态,或将它们固定到特定版本。与 fd、rg、fzf、zoxide 集成。类似 Vim 的 input/select/which/notify 组件,CD 路径自动完成。多标签支持、跨目录选择、可滚动预览(用于视频、PDF、存档、目录、代码等)。批量重命名、可视化模式、文件选择器。主题系统、鼠标支持、垃圾桶、自定义布局、CSI u。
- pretzelhammer/rust-blog
- dtolnay/proc-macro-workshop
- rcore-os/rCore
- arceos-org/arceos
- o8vm/octox - riscv 启发的 Rust 类 Unix 操作系统。octox 松散地遵循 xv6 的结构和风格,但在纯 Rust 中实现。从内核、用户空间、mkfs 到构建系统,一切都尽可能用安全的 Rust 编写。对外部没有依赖性。用户空间有一个类似于 Rust 的带有 K&R malloc 的 std 的库。多核支持、作为内核侧内存分配器的伙伴分配器、支持日志记录的文件系统等。
- rustls/rustls
- rust-lang/rust-clippy
- BurntSushi/xsv
- microsoft/windows-rs - sys crate 允许您使用直接从描述 API 的元数据中动态生成的代码来调用任何 Windows API 过去、现在和将来,并直接进入您的 Rust 包中,在那里您可以调用它们,就好像它们只是另一个 Rust 模块一样。Rust 语言投影遵循 C++/WinRT 建立的传统,即使用标准语言和编译器为 Windows 构建语言投影,为 Rust 开发人员调用 Windows API 提供了一种自然而惯用的方式。
- oxc-project/oxc
- johnthagen/min-sized-rust
- rust-lang/rustfmt
- rust-lang/rustup
- rerun-io/rerun
- ast-grep/ast-grep - grep 是一个基于 AST 的工具,用于按模式代码搜索代码。将其视为您的老朋友, grep 但它匹配 AST 节点而不是文本。您可以像编写普通代码一样编写模式。它将匹配具有相同语法结构的所有代码。您可以使用 $ 符号 + 大写字母作为通配符,例如 $MATCH ,以匹配任何单个 AST 节点。将其视为 正则表达式点 . ,但它不是文本的。
- pemistahl/grex
- serde-rs/json
- crossbeam-rs/crossbeam
- tokio-rs/mio
- cross-rs/cross
- mre/idiomatic-rust
- nicoburns/blessed-rs
- ralfbiedert/cheats.rs
- ferrous-systems/elements-of-rust
- brson/rust-anthology
- rust-lang/rust-by-example
- rust-lang/rfcs - RFC 手册 - 活动 RFC 列表,“RFC”(征求意见)流程旨在为 Rust 的更改(例如新功能)提供一致且可控的路径,以便所有利益相关者都能对项目的方向充满信心。
- yoav-lavi/melody
- mainmatter/100-exercises-to-learn-rust
-
-
Flutter 程序
-
网络服务_其他
- Solido/awesome-flutter
- flutter/flutter
- crazycodeboy/awesome-flutter-cn
- osoutpost/awesome-flutter-cn
- CarGuo/gsy_github_app_flutter
- alibaba/flutter-go
- mitesh77/Best-Flutter-UI-Templates - UI 模板
- iampawan/FlutterExampleApps
- cfug/dio
- balena-io/etcher
- xujiyou/zhihu-flutter
- running-libo/Tiktok
- wenmingvs/WeiBo
- sanfengliao/vue-juejin
- chaychan/TouTiao
- tbl00c/TLChat
- zwStar/vue-meituan
- yukilzw/dy_flutter
- boyan01/flutter-netease-music
- nisrulz/flutter-examples
- fluttercandies/wechat_flutter
- simplezhli/flutter_deer
- Sangwan5688/BlackHole
- AweiLoveAndroid/Flutter-learning
- CoderMikeHe/flutter_wechat
- youxinLu/flutter_mall
- ducafecat/flutter_learn_news - 新闻客户端
- freestyletime/FlutterNews
- TheAlphamerc/flutter_twitter_clone
- LianjiaTech/bruno
- felangel/bloc
- dart-lang/sdk
- jonataslaw/getx
- kaina404/FlutterDouBan
- toly1994328/FlutterUnit
- alibaba/flutter_boost
- firebase/flutterfire
- brianegan/flutter_architecture_samples
- lollipopkit/flutter_server_box
- flutter/packages
- flutter/plugins
-
-
Go 程序设计
-
网络服务_其他
- Go 程序设计 · 语雀
- dariubs/GoBooks
- avelino/awesome-go
- golang/go
- hoanhan101/ultimate-go
- qax-os/excelize
- a8m/golang-cheat-sheet
- gonum/gonum
- uber-go/zap
- moovweb/gvm
- golang-standards/project-layout
- unknwon/go-fundamental-programming
- ahmedash95/build-redis-from-scratch
- restic/restic
- jroimartin/gocui
- chai2010/advanced-go-programming-book
- gopherjs/gopherjs
- gogf/gf
- alist-org/alist
- unknwon/go-study-index
- go-shiori/shiori
- json-iterator/go
- go-delve/delve
- talkgo/night
- senghoo/golang-design-pattern
- unknwon/the-way-to-go_ZH_CN
- inancgumus/learngo
- halfrost/LeetCode-Go
- traefik/yaegi
- influxdata/telegraf
- johnkerl/miller
- expr-lang/expr
- antonmedv/fx
- fatih/vim-go
- sirupsen/logrus
- go-vgo/robotgo
- therecipe/qt
- xxjwxc/uber_go_guide_cn
- cosmtrek/air
- sourcegraph/conc
- tidwall/tile38
-
-
Java 程序设计
-
网络服务_其他
- akullpp/awesome-java
- google/guava
- ReactiveX/RxJava
- zxing/zxing
- jobbole/awesome-java-cn
- itwanger/toBeBetterJavaer
- alibaba/p3c
- Snailclimb/JavaGuide
- ZhongFuCheng3y/athena
- apache/dubbo
- winterbe/java8-tutorial - Java 8 指南
- AobingJava/JavaFamily
- DuGuQiuBai/Java
- openjdk/jdk
- CodingDocs/awesome-java
- aalansehaiyang/technology-talk
- fuzhengwei/CodeGuide
- dromara/Sa-Token
- hollischuang/toBeTopJavaer
- dromara/hutool
- crossoverJie/JCSprout
- alibaba/easyexcel
- mybatis/mybatis-3
- brettwooldridge/HikariCP
- dianping/cat
- GoogleContainerTools/jib
- plantuml/plantuml - Naur 形式)、正则表达式、网络图 (nwdiag)、Salt(线框图形界面或UI模型)、Archimate 图、SDL(规范和描述语言)、Ditaa 图、甘特图、年表图、思维导图、WBS(工作分解结构)、数学符号(AsciiMath、JLaTeXMath)、信息工程(IE)图、实体关系(ER)图
- yangchong211/YCBlogs
- Col-E/Recaf
- qunarcorp/bistoury
- iluwatar/java-design-patterns
- lingcoder/OnJava8
- alibaba/arthas
- LinShunKang/MyPerf4J
- andreabergia/rjvm
- alibaba/fastjson
- alibaba/fastjson2
- gradle/gradle
- eclipse-vertx/vert.x
- quarkusio/quarkus - RS、Hibernate ORM 和 JPA、Netty、Eclipse Vert.x、Eclipse MicroProfile、Apache Camel......微服务优先:为 Java 应用程序带来闪电般的快速启动时间和代码周转。Developer Joy:以开发为中心的体验,毫不妥协,让您的出色应用立即栩栩如生。
- kunal-kushwaha/DSA-Bootcamp-Java
- mockito/mockito
- jwtk/jjwt
- apache/shenyu
-
-
Android 应用
-
网络服务_其他
- KotlinBy/awesome-kotlin - java。
- ashishb/android-security-awesome
- mikepenz/MaterialDrawer
- bumptech/glide
- wasabeef/awesome-android-ui
- tbruyelle/RxPermissions
- jfeinstein10/SlidingMenu
- Kotlin/anko - only.
- androidannotations/androidannotations.
- googlesamples/easypermissions
- daimajia/AndroidViewAnimations
- android/architecture-samples
- coil-kt/coil
- JStumpp/awesome-android
- amitshekhariitbhu/Android-Debug-Database - 让调试再次变得伟大
- orhanobut/logger
- square/leakcanary
- google/ExoPlayer
- google/flexbox-layout
- permissions-dispatcher/PermissionsDispatcher
- Genymobile/scrcpy
- futurice/android-best-practices
- gkd-kit/gkd
- amitshekhariitbhu/android-interview-questions - Android 面试问题和答案
- barry-ran/QtScrcpy
- openstf/minitouch
- android/architecture-components-samples
- android/compose-samples
- android/sunflower
- mzlogin/awesome-adb
- android/nowinandroid
- android/uamp
- AppIntro/AppIntro
- material-components/material-components-android
- Yalantis/uCrop
- LuckSiege/PictureSelector
- microg/GmsCore
- Blankj/AndroidUtilCode
- yuliskov/SmartTube
- waydroid/waydroid
- pppscn/SmsForwarder
- Trinea/android-open-project
- Freelander/Android_Data
- Tencent/tinker
- Tamsiree/RxTool
- gyf-dev/ImmersionBar
- Tencent/QMUI_Android
- open-android/Android
- ReVanced/revanced-manager
- JessYanCoding/AndroidAutoSize
- bilibili/ijkplayer
- codepath/android_guides
- gedoor/legado
- tachiyomiorg/tachiyomi
- scwang90/SmartRefreshLayout
- CymChad/BaseRecyclerViewAdapterHelper
- clearw5/Auto.js
- asLody/VirtualApp
- android/ndk-samples
- afollestad/material-dialogs
- android10/Android-CleanArchitecture
- android-hacker/VirtualXposed
- hdodenhof/CircleImageView
- alibaba/ARouter
- openstf/stf
- 0x192/universal-android-debloater
- zhihu/Matisse
- wasabeef/glide-transformations
- wasabeef/recyclerview-animators
- android-async-http/android-async-http
- xiaojieonly/Ehviewer_CN_SXJ
- alibaba/vlayout
- ktorio/ktor
- JetBrains/Exposed
- InsertKoinIO/koin
- Kotlin/kotlinx.coroutines
- Kotlin/kotlinx.serialization
- youlookwhat/CloudReader - databinding架构开发的Android客户端
- lecho/hellocharts-android
-
-
编辑器
-
网络服务_其他
- rockerBOO/awesome-neovim
- DaveJarvis/keenwrite
- mhinz/vim-galore - galore-zh_cn)
- viatsko/awesome-vscode
- vim/vim
- coder/code-server
- microsoft/vscode
- material-theme/vsc-material-theme
- neoclide/coc.nvim
- amix/vimrc
- ajaxorg/ace
- VSCodium/vscodium
- microsoft/monaco-editor
- ianstormtaylor/slate
- NvChad/NvChad
- helix-editor/helix
- codex-team/editor.js
- notable/notable
- laurent22/joplin
- zyedidia/micro
- wangeditor-team/wangEditor
- CodeEditApp/CodeEdit
- fastai/nbdev
- benweet/stackedit
- purocean/yn
- nhn/tui.editor
- SpaceVim/SpaceVim
- notepad-plus-plus/notepad-plus-plus
- ueberdosis/tiptap
- syl20bnr/spacemacs - 最好的编辑器既不是Emacs也不是Vim,而是Emacs *和* Vim!
- eclipse-theia/theia
- yabwe/medium-editor
- lapce/lapce
- xi-editor/xi-editor
- dvorka/mindforger
- judasn/IntelliJ-IDEA-Tutorial
- atom/atom
- marktext/marktext
- powerline/powerline
- doomemacs/doomemacs
- facebook/lexical
- ranger/ranger
- LunarVim/LunarVim
- microsoft/language-server-protocol
- nvim-telescope/telescope.nvim
- AstroNvim/AstroNvim
- iggredible/Learn-Vim
- VundleVim/Vundle.vim
- Laverna/laverna
- textmate/textmate
- xournalpp/xournalpp
- JetBrains/intellij-community
- espanso/espanso
- emacs-lsp/lsp-mode - mode 旨在通过提供与最流行的 Emacs 包(如 company、flycheck 和 projectile)的可选集成来提供类似 IDE 的体验。
- antirez/kilo
- ThePrimeagen/harpoon
- stevearc/oil.nvim - vinegar,让你可以像普通的 Neovim 缓冲区一样编辑你的文件系统。
- Textualize/frogmouth
-
-
终端
-
网络服务_其他
- alebcay/awesome-shell
- unixorn/awesome-zsh-plugins
- shelljs/shelljs
- awesome-lists/awesome-bash
- vinayak-mehta/present
- davidbrochart/nbterm
- kovidgoyal/kitty
- Eugeny/tabby
- microsoft/terminal
- nushell/nushell
- dylanaraps/pure-bash-bible
- yudai/gotty
- alacritty/alacritty
- mvdan/sh
- mbadolato/iTerm2-Color-Schemes
- zsh-users/zsh-syntax-highlighting
- casey/just
- asciinema/asciinema
- faressoft/terminalizer
- vercel/hyper
- xtermjs/xterm.js
- enquirer/enquirer
- wez/wezterm
- warpdotdev/Warp
- zellij-org/zellij
- termux/termux-app - 使用 APT 包管理器即可获得其他软件包。
- termux/termux-packages
- gnachman/iTerm2
- kingToolbox/WindTerm
- tmuxinator/tmuxinator
- ScoopInstaller/Scoop
- junegunn/fzf
- ibraheemdev/modern-unix
- withfig/autocomplete
- PowerShell/PowerShell
- zsh-users/zsh-autosuggestions
- cmderdev/cmder
- jarun/nnn
- charmbracelet/gum
- xonsh/xonsh
- starship/starship
- sqshq/sampler
- GitSquared/edex-ui
- herrbischoff/awesome-macos-command-line
- Bash-it/bash-it - my-zsh)包括自动完成、主题、别名、自定义函数等等。Bash-it 提供了一个坚实的框架,用于在日常工作中使用、开发和维护 shell 脚本和自定义命令。如果您经常使用 Bourne Again Shell (Bash),并且一直在寻找一种简单的方法来控制所有这些漂亮的小脚本和别名,那么 Bash-it 适合您!
- sorin-ionescu/prezto
- ClementTsang/bottom
- fish-shell/fish-shell
- spaceship-prompt/spaceship-prompt
- atuinsh/atuin
- ajeetdsouza/zoxide
- sindresorhus/pure
- direnv/direnv
- ish-app/ish
- oh-my-fish/oh-my-fish
- dylanaraps/neofetch
- JanDeDobbeleer/oh-my-posh
- Powerlevel9k/powerlevel9k
- liquidprompt/liquidprompt
- dunwu/linux-tutorial
- brenns10/lsh
- wtfutil/wtf
- NixOS/nix
- claudiodangelis/qrcp
- imsnif/bandwhich
- NixOS/nixpkgs
- so-fancy/diff-so-fancy - so-fancy 努力使您的差异具有人类可读性,而不是机器可读性。这有助于提高代码质量,并帮助您更快地发现缺陷。
- dalance/procs
- lotabout/skim
- willmcgugan/rich
- svenstaro/genact
- marticliment/UniGetUI - 以及更多!
- Raphire/Win11Debloat
-
-
计算机编程 数据结构与算法
-
网络服务_其他
- kdeldycke/awesome-falsehood
- papers-we-love/papers-we-love
- prakhar1989/awesome-courses
- XiangLinPro/IT_book
- EbookFoundation/free-programming-books
- ossu/computer-science
- lnishan/awesome-competitive-programming
- DopplerHQ/awesome-interview-questions
- ocaml-community/awesome-ocaml
- qinwf/awesome-R
- mezod/awesome-indie
- HackerNews/API
- practical-tutorials/project-based-learning
- wangzheng0822/algo
- justjavac/free-programming-books-zh_CN
- wolverinn/Waking-Up - up question以及答案;全部采用【问题+追问+答案】的形式,即拿即用,直击互联网大厂面试;可用于模拟面试、面试前复习、短期内快速备战面试
- ZachGoldberg/Startup-CTO-Handbook
- washam/coding-interview-university
- DeathKing/Learning-SICP
- csseky/cskaoyan
- 1c7/Crash-Course-Computer-Science-Chinese - 5-1 精校完成)
- jeffgerickson/algorithms - 香槟分校的计算机科学教授;这本书基于他自 1998 年以来在那里教授的算法课程。
- chubin/cheat.sh
- FreeCodeCampChina/freecodecamp.cn
- izackwu/TeachYourselfCS-CN
- freeCodeCamp/freeCodeCamp
- forthespada/CS-Books
- arthurspk/guiadevbrasil
- youngyangyang04/leetcode-master
- MisterBooo/LeetCodeAnimation
- OpenGenus/cosmos
- krahets/hello-algo
- geekxh/hello-algorithm
- liuxinyu95/AlgoXY
- doocs/leetcode
- Developer-Y/cs-video-courses
- ForrestKnight/open-source-cs
- lk-geimfari/awesomo
- leachim6/hello-world
- QSCTech/zju-icicles
- williamfiset/Algorithms
- AkashSingh3031/The-Complete-FAANG-Preparation
- xitu/gold-miner
- 7-sevens/Developer-Books
- yangshun/tech-interview-handbook
- girliemac/a-picture-is-worth-a-1000-words
- algorithm-visualizer
- NotFound9/interviewGuide
- kdn251/interviews
- chefyuan/algorithm-base
- imarvinle/awesome-cs-books
- xiaolincoder/CS-Base
- InterviewMap/CS-Interview-Knowledge-Map
- Kristories/awesome-guidelines
- azl397985856/leetcode
- CyC2018/CS-Notes
- kamranahmedse/developer-roadmap
- LeCoupa/awesome-cheatsheets
- mtdvio/every-programmer-should-know
- resumejob/interview-questions
- charlax/professional-programming
- labuladong/fucking-algorithm
- JaeYeopHan/Interview_Question_for_Beginner
- dipakkr/A-to-Z-Resources-for-Students
- TheAlgorithms/JavaScript
- xtaci/algorithms
- TheAlgorithms/Go
- trekhleb/javascript-algorithms
- donnemartin/interactive-coding-challenges
- compiler-explorer/compiler-explorer
- 3b1b/manim
- ruby/ruby
- nim-lang/Nim
- bbatsov/clojure-style-guide
- unisonweb/unison
- typelead/eta
- koka-lang/koka
- gleam-lang/gleam
- ziglang/zig
- enso-org/enso
- wren-lang/wren
- red/red
- JetBrains/kotlin
- halide/Halide
- GitHubDaily/GitHubDaily
- HaxeFoundation/haxe
- crystal-lang/crystal
- greyireland/algorithm-pattern
- Sairyss/domain-driven-hexagon
- iamshuaidi/CS-Book
- Ebazhanov/linkedin-skill-assessments-quizzes - lambda、rest-api、javascript、react、git、html、jquery、mongodb、java、Go、python、机器学习、power-point) LinkedIn excel 测试 lösungen, LinkedIn 机器学习测试 LinkedIn 测试问题和答案
- hackjutsu/Lepton
- gyoogle/tech-interview-for-developer
- afatcoder/LeetcodeTop
- haoel/leetcode
- gluon-lang/gluon
- Universidade-Livre/ciencia-da-computacao
- witheve/Eve
- aalhour/awesome-compilers
- awesome-developer-streams
- roc-lang/roc - eval-print 循环 (REPL) 来尝试 Roc,该循环在 WebAssembly 的浏览器中运行。您可以使用 Roc 创建脚本和命令行界面 (CLI)。编译器生成二进制可执行文件,因此 Roc 程序可以在未安装 Roc 本身的设备上运行。
- mouredev/retos-programacion-2023
- winglang/wing
- ritz078/transform
- weartist/computer_book_list
- MTrajK/coding-problems
- YSGStudyHards/DotNetGuide
- seanprashad/leetcode-patterns
-
-
游戏
-
网络服务_其他
- GDQuest/godot-open-rpg
- ellisonleao/magictools
- raysan5/raylib
- ValveSoftware/Proton
- rwv/chinese-dos-games
- wesnoth/wesnoth
- lxgr-linux/pokete
- pygame/pygame
- PlayCover/PlayCover
- Grimmys/rpg_tactical_fantasy_game
- deepmind/mujoco
- Grasscutters/Grasscutter
- keenon/nimblephysics
- TastSong/CrazyCar - --Unity制作的联机赛车游戏,服务端为SpringBoot + Mybatis;后台为Vue + Element;游戏端采用QFramework框架,支持KCP和WebSocket网络(商用级)
- clear-code-projects/Zelda
- pmgl/microstudio
- OpenRCT2/OpenRCT2
- flareteam/flare-game
- jynew/jynew
- XorTroll/Goldleaf
- Ryujinx/Ryujinx
- godotengine/godot
- libgdx/libgdx
- screeps/screeps
- BabylonJS/Babylon.js
- FyroxEngine/Fyrox
- EmbarkStudios/rust-gpu - V 中特定功能的支持。从历史上看,在游戏中,GPU编程是通过编写HLSL或在较小程度上GLSL完成的。这些是简单的编程语言,多年来随着渲染 API 的发展而发展。然而,随着游戏引擎的发展,这些语言未能提供处理大型代码库的机制,并且与其他编程语言相比,它们通常落后于曲线。我们希望通过这个项目,通过将现有的、低级的、安全的、高性能的语言引入GPU来推动行业向前发展;即 Rust。随之而来的是一些不容忽视的额外好处:业界最好的封装/模块系统之一,内置安全对抗竞争条件或越界内存访问,各种工具和实用程序来改进程序员工作流程,以及许多其他工具和实用程序!
- leereilly/games - 老式文本冒险、教育游戏、8 位平台游戏、基于浏览器的游戏、独立游戏、GameJam 项目、商业游戏的附加组件/地图/黑客/插件、库、框架、引擎,应有尽有。
- cocos2d/cocos2d-x - iphone,但它没有使用 Objective-C,而是使用 C++。它适用于 iOS、Android、macOS、Windows 和 Linux。
- OpenRA/OpenRA
- AbyssEngine/AbyssEngine
- MonoGame/MonoGame
- boardgameio/boardgame.io
- minetest/minetest
- Anuken/Mindustry
- hrydgard/ppsspp
- aseprite/aseprite - 用于自动执行任务的命令行界面。快速参考/备忘单键盘快捷键(可自定义的按键和鼠标滚轮)。重新打开关闭的文件并在崩溃时恢复数据。每个操作的撤消/重做,并支持非线性撤消。
- hajimehoshi/ebiten
- skypjack/entt - 快速可靠的实体组件系统 (ECS) 等等。仅标头,小巧且易于使用的游戏编程库,以及更多用现代 C++ 编写的库。
- playcanvas/engine
- google/filament
- HabitRPG/habitica
- mapeditor/tiled
- ppy/osu
- PavelDoGreat/WebGL-Fluid-Simulation
- ange-yaghi/engine-sim
- lucoiso/UEHttpGPT - E),使开发人员可以轻松地与这些服务进行通信。
- egametang/ET
- miloyip/game-programmer
- BeyondDimension/SteamTools
- liyucheng09/ChatGPT_Agent
- fogleman/Craft
- rapiz1/DungeonRush
- tobspr-games/shapez.io
- hiloteam/Hilo
- 4ian/GDevelop
- azerothcore/azerothcore-wotlk
- diasurgical/devilutionX
- diasurgical/devilution - 1996 年电脑游戏背后的魔法
- yairm210/Unciv
- colyseus/colyseus
- stevenjoezhang/live2d-widget
- PojavLauncherTeam/PojavLauncher
- GDQuest/godot-open-rpg
-
-
其他
-
网络服务_其他
- luong-komorebi/Awesome-Linux-Software
- ixinzhi/loving-books
- clouddreamteam_admin/cloud-dream
- HC小区业主版: hc智慧家园小程序
- hackerkid/Mind-Expanding-Books
- terkelg/awesome-creative-coding
- agarrharr/awesome-cli-apps
- awesomedata/awesome-public-datasets
- serhii-londar/open-source-mac-os-apps
- matiassingers/awesome-readme
- digitalarchive.wilsoncenter.org
- rossant/awesome-math
- jaywcjlove/awesome-mac
- MunGell/awesome-for-beginners
- freembook.com
- bnb/awesome-hyper
- heynickc/awesome-ddd
- SwifterSwift/SwifterSwift
- SnapKit/SnapKit
- webpro/awesome-dotfiles
- vsouza/awesome-ios - C和Swift项目。
- thangchung/awesome-dotnet-core
- quozd/awesome-dotnet
- markets/awesome-ruby
- lukasz-madon/awesome-remote-job
- bayandin/awesome-awesomeness
- dkhamsing/open-source-ios-apps
- auris/awesome-scala
- torvalds/linux
- ruanyf/weekly
- public-apis/public-apis
- donnemartin/system-design-primer
- Anduin2017/HowToCook
- kuchin/awesome-cto
- bregman-arie/devops-exercises
- easychen/howto-make-more-money
- resumejob/awesome-resume
- kamranahmedse/design-patterns-for-humans
- google/styleguide
- gotenberg/gotenberg
- Wechat-ggGitHub/Awesome-GitHub-Repo
- jnv/lists
- florinpop17/app-ideas
- jaywcjlove/linux-command
- NickeManarin/ScreenToGif
- mifi/lossless-cut
- alyssaxuu/flowy
- lTbgykio/Books-Free-Books
- sindresorhus/awesome
- coder2gwy/coder2gwy
- modichirag/flowpm
- bennettfeely/bennett
- jlevy/the-art-of-command-line
- dxx/react-bilibili
- nondanee/UnblockNeteaseMusic
- opensumi/core
- xiangyuecn/Recorder
- SocialSisterYi/bilibili-API-collect - API收集整理
- dblalock/bolt
- TheZoraiz/ascii-image-converter
- jina-ai/jina
- dedupeio/dedupe
- Alinshans/MyTinySTL
- antlr/antlr4
- rspivak/lsbasi
- pi-hole/pi-hole - hole® 是一个[DNS 漏洞](https://en.wikipedia.org/wiki/DNS_Sinkhole),无需安装任何客户端软件即可保护您的设备免受不需要的内容的侵害。
- lxgw/LxgwWenKai
- EastWorld/wechat-app-mall
- jgraph/drawio-desktop
- microapp-store/flash-waimai
- PureDarwin/PureDarwin
- modood/Administrative-divisions-of-China
- H5-Dooring/dooringx
- polybar/polybar
- videolan/vlc
- easychen/lean-side-bussiness
- fanmingming/live
- penpot/penpot
- binwiederhier/ntfy
- charmbracelet/vhs
- microsoft/fluentui-emoji
- Wox-launcher/Wox
- excalidraw/excalidraw - >立即使用](https://excalidraw.com)
- Splode/pomotroid
- jigish/slate
- deiv/driftnet
- immersive-translate/immersive-translate
- nocodb/nocodb
- sharkdp/bat
- BurntSushi/ripgrep
- meilisearch/meilisearch
- sharkdp/fd
- mermaid-js/mermaid
- ansible/ansible
- ansible/awx
- home-assistant/core
- ventoy/Ventoy
- microsoft/PowerToys
- airbnb/lottie-android
- pomber/git-history
- RelaxedJS/ReLaXed
- tianshiyeben/wgcloud
- AdnanHodzic/auto-cpufreq
- AppImage/AppImageKit
- CopyTranslator/CopyTranslator
- geekcompany/ResumeSample
- wenyan-lang/wenyan
- yourtion/30dayMakeOS
- typst/typst
- LemmyNet/lemmy
- rShetty/awesome-podcasts
- immich-app/immich
- asdf-vm/asdf
- lunatic-solutions/lunatic
- rusterlium/rustler
- ergo-services/ergo
- vlang/v
- FFmpeg/FFmpeg
- mpv-player/mpv
- google/flatbuffers
- ggreer/the_silver_searcher
- hluk/CopyQ
- koekeishiya/yabai
- the1812/Bilibili-Evolved
- lyswhut/lx-music-desktop
- iina/iina
- sparanoid/chinese-copywriting-guidelines
- geekan/HowToLiveLonger
- koreader/koreader
- phodal/github
- lowlighter/metrics
- anuraghazra/github-readme-stats
- liu673cn/box - 自行配置)。通过导入特点资源接口,解析各类爬虫源、XP源、采集源等。完全无任何限制,也无任何广告。
- 521xueweihan/GitHub520
- zijie0/HumanSystemOptimization - 人体系统调优不完全指南
- wmjordan/PDFPatcher
- QuestPDF/QuestPDF
- PHPOffice/PHPWord
- wuxingsanren/wildcat-vip-account
- houshanren/hangzhou_house_knowledge
- The-Run-Philosophy-Organization/run
- google/zx
- LibreOffice/core
- romkatv/powerlevel10k
- dwmkerr/hacker-laws
- drduh/macOS-Security-and-Privacy-Guide
- mxgmn/WaveFunctionCollapse
- bazelbuild/bazel
- Fechin/reference
- Ftindy/IPTV-URL
- imDazui/Tvlist-awesome-m3u-m3u8
- SwiftGGTeam/the-swift-programming-language-in-chinese
- AlDanial/cloc
- brndnmtthws/conky
- formulahendry/955.WLB - 工作 955,work–life balance (工作与生活的平衡)
- pjialin/py12306
- Morganamilo/paru
- Homebrew/homebrew-core
- Homebrew/brew
- microsoft/winget-cli
- CocoaPods/CocoaPods
- renovatebot/renovate
- shimohq/chinese-programmer-wrong-pronunciation
- iCHAIT/awesome-macOS
- nikitavoloboev/my-mac
- mikefarah/yq
- posquit0/Awesome-CV
- billryan/resume
- abhisheknaiidu/awesome-github-profile-readme
- desktop/desktop
- gztchan/awesome-design
- jesseduffield/lazygit
- acmesh-official/acme.sh
- zh-google-styleguide/zh-google-styleguide
- ByteByteGoHq/system-design-101
- protocolbuffers/protobuf
- WeNeedHome/SummaryOfLoanSuspension
- gotgit/gotgithub
- hmemcpy/milewski-ctfp-pdf
- ty4z2008/Qix
- reactos/reactos
- 0xAX/linux-insides - 分享我对 linux 内核内部的适度知识,并帮助对 linux 内核内部和其他低级主题感兴趣的人。
- icopy-site/awesome-cn
- Xfennec/progress
- grafana/pyroscope
- lichess-org/lila
- microsoft/wslg
- vygr/ChrysaLisp
- babashka/babashka
- tonsky/FiraCode - > 序列是单个逻辑标记,即使它们在屏幕上包含两个或三个字符。您的眼睛花费非零的能量来扫描、解析多个字符并将其连接成一个逻辑字符。Fira Code 是一种免费的等宽字体,包含用于常见编程多字符组合的连字。这只是一个字体呈现功能:底层代码保持 ASCII 兼容。这有助于更快地阅读和理解代码。一些频繁的序列,如 .. 或 // ,连字允许我们校正间距。
- github/gitignore
- 996icu/996.ICU
- languagetool-org/languagetool
- ldqk/Masuit.Tools
- ovity/octotree
- kelseyhightower/nocode
- SFTtech/openage
- assimp/assimp
- firstcontributions/first-contributions
- ShareX/ShareX
- openfarmcc/OpenFarm
- github/opensource.guide
- MaaAssistantArknights/MaaAssistantArknights
- tldr-pages/tldr
- DovAmir/awesome-design-patterns - 在软件设计中给定上下文中,针对常见问题的通用、可重用的解决方案。它是有关如何解决可在许多不同情况下使用的问题的描述或模板。
- byoungd/English-level-up-tips
- SerenityOS/serenity - 64 计算机的图形类 Unix 操作系统。一封写给 90 年代用户界面的情书,具有自定义的类 Unix 核心。它通过从其他各种系统中窃取美丽的想法来真诚地奉承。目标是将 1990 年代后期生产力软件的美学与 2000 年代后期 *nix 的高级用户可访问性结合起来。
- ryanhanwu/How-To-Ask-Questions-The-Smart-Way
- remoteintech/remote-jobs
- timqian/chinese-independent-blogs
- hehonghui/awesome-english-ebooks
- gleitz/howdoi
- brendangregg/FlameGraph - F。默认情况下,搜索区分大小写,但可以通过按 Ctrl-I 或单击右上角的 ic 按钮来切换。
- Homebrew/homebrew-cask
- jellyfin/jellyfin
- chubin/wttr.in
- muesli/duf - 更好的“df”替代品
- dotnet/roslyn
- koel/koel
- kanaka/mal
- rubocop/ruby-style-guide
- rbenv/rbenv
- frank-lam/fullstack-tutorial
- kovidgoyal/calibre
- cloudcommunity/Free-Certifications
- nusr/hacker-laws-zh
- flameshot-org/flameshot
- dandavison/delta
- qarmin/czkawka
- lib-pku/libpku
- tuteng/Best-websites-a-programmer-should-visit-zh
- denisidoro/navi
- RealKai42/qwerty-learner
- zbezj/HEU_KMS_Activator
- TGSAN/CMWTAT_Digital_Edition
- Hammerspoon/hammerspoon
- scala/scala
- lampepfl/dotty
- dortania/OpenCore-Legacy-Patcher
- rxhanson/Rectangle
- NVIDIA/open-gpu-kernel-modules
- 1c7/chinese-independent-developer
- k88hudson/git-flight-rules
- gulpjs/gulp - 集成内置于所有主要 IDE 中,人们正在将 gulp 与 PHP、.NET、Node.js、Java 和其他平台一起使用。强大的生态系统 - 使用 npm 模块做任何你想做的事情 + 超过 3000 个精选插件用于流式文件转换.
- BoostIO/BoostNote-App
- Sitoi/dailycheckin
- files-community/Files
- hellzerg/optimizer
- microsoft/calculator
- joelparkerhenderson/architecture-decision-record
- github-linguist/linguist
- Awesome-HarmonyOS/HarmonyOS
- MaterialDesignInXAML/MaterialDesignInXamlToolkit
- ardalis/CleanArchitecture
- kgrzybek/modular-monolith-with-ddd
- Igglybuff/awesome-piracy
- Tencent/xLua
- jordansissel/fpm
- alexandresanlim/Badges4-README.md-Profile
- StylishThemes/GitHub-Dark
- trimstray/test-your-sysadmin-skills
- matheusfelipeog/beautiful-docs
- docmirror/dev-sidecar
- conwnet/github1s
- libgit2/libgit2
- DevToys-app/DevToys
- tipsy/profile-summary-for-github
- mono/mono
- H-M-H/Weylus
- rubocop/rubocop
- chocolatey/choco - get,但适用于 Windows 的包管理器
- jbogard/MediatR
- Ileriayo/markdown-badges
- sshuair/awesome-gis
- sacridini/Awesome-Geospatial
- daliansky/Hackintosh
- nayuki/QR-Code-generator
- LGUG2Z/komorebi
- SubtitleEdit/subtitleedit
- aoaostar/legado
- piotrkulpinski/openalternative
- alienator88/Pearcleaner
- EvanLi/Github-Ranking
- ptitSeb/box86 - Linux 用户空间 x86 仿真器,针对 ARM Linux 设备
- ptitSeb/box64
- sunym1993/flash-linux0.11-talk
- jserv/shecc - V 架构,作为 C 语言子集的自编译编译器。
- SimplifyJobs/Summer2024-Internships
- xiaolai/everyone-can-use-english
- naxiaoduo/1000UserGuide
-
-
后端开发框架及项目
-
管理面板
- go-micro/go-micro
- sdras/awesome-actions
- tiimgreen/github-cheat-sheet
- django/django
- swoole/swoole-src
- celery/celery
- humiaozuzu/awesome-flask
- expressjs/express
- doocs/source-code-hunter
- toutiaoio/awesome-architecture
- wuyouzhuguli/SpringAll
- withastro/astro
- xingshaocheng/architect-awesome
- Tencent/mars
- fecshop/yii2_fecshop
- pocketbase/pocketbase
- oatpp/oatpp
- labstack/echo
- codegangsta/gin
- denoland/fresh
- remix-run/remix
- adonisjs/core
- digitallyinduced/ihp
- gofiber/fiber
- revel/revel
- kataras/iris
- sanic-org/sanic
- tokio-rs/axum
- gin-gonic/gin - 速度提高了40倍。
- arwes/arwes
- zhoutaoo/SpringCloud - security-oauth2、nacos、feign、sentinel、springcloud-gateway等。服务治理方面引入elasticsearch、skywalking、springboot-admin、zipkin等,让项目快速进入业务开发,而不需过多时间花费在架构搭建上。
- ninenines/cowboy
- emmett-framework/granian - tools 依赖组合,与现有替代品相比,提供稳定的性能。特征:支持 ASGI/3、RSGI 和 WSGI 接口应用,实现 HTTP/1 和 HTTP/2 协议,支持 HTTPS,支持 Websockets。
- openfaas/faas
- JeffLi1993/springboot-learning-example
- logto-io/logto
- ory/hydra - 为您的基础架构提供云原生、安全优先的™开源 API 安全性。适用于任何语言的 SDK。与硬件安全模块配合使用。与 MITREid 兼容。
- ory/kratos
- authelia/authelia
- pennersr/django-allauth
- jaredhanson/passport
- casbin/casbin
- supertokens/supertokens-core
- halo-dev/halo
- vercel/micro
- fuzhengwei/itstack-demo-design
- doocs/advanced-java
- SocketCluster/socketcluster
- moleculerjs/moleculer
- sfyc23/EverydayWechat
- tinode/chat
- 42wim/matterbridge - chat,zulip,WhatsApp,Keybase,matrix,Microsoft Teams,Nextcloud,Mumble,vk等与REST API之间的桥梁
- Tencent/APIJSON
- discordjs/discord.js
- pedroslopez/whatsapp-web.js
- yagop/node-telegram-bot-api
- telegraf/telegraf
- typeorm/typeorm
- Unitech/pm2
- facebook/hhvm
- beego/beego
- gaia-pipeline/gaia - plugin和gRPC,gaia是高效,快速,轻量级和开发人员友好的。
- davideuler/architecture.of.internet-product
- apidoc/apidoc
- miguelgrinberg/flasky
- matomo-org/matomo
- plausible/analytics
- hasura/graphql-engine
- graphql-rust/juniper
- supabase/realtime
- actix/actix-web
- meolu/walle-web
- jenkinsci/jenkins
- spring-projects/spring-boot - jar`。我们还提供了一个运行 Spring 脚本的命令行工具。
- swagger-api/swagger-ui
- django/channels
- wsvincent/awesome-django
- Kong/insomnia
- fastify/fastify
- whyour/qinglong
- matrix-org/synapse
- aws/chalice
- serverless/serverless
- sst/sst
- pulumi/pulumi
- zappa/Zappa - 而且成本只是您当前部署的一小部分
- encode/django-rest-framework - 如果您不需要更强大的功能,只需使用基于功能的常规视图。广泛的文档和强大的社区支持。
- aws/aws-cli
- webiny/webiny-js
- jhipster/generator-jhipster
- rabbitmq/rabbitmq-server
- localstack/localstack
- ring-clojure/ring
- neondatabase/neon
- serverless/examples
- aws/serverless-application-model
- wireapp/wire-server
- aws/aws-sam-cli
- aws-samples/aws-serverless-workshops
- hashicorp/terraform
- cli/cli
- pallets/quart
- gitlabhq/gitlabhq
- open-falcon/falcon-plus
- ccfos/nightingale
- grafana/grafana
- shieldfy/API-Security-Checklist
- gitbucket/gitbucket
- playframework/playframework
- apache/skywalking
- appwrite/appwrite
- louislam/uptime-kuma
- git/git
- xkcoding/spring-boot-demo
- traefik/traefik
- ityouknow/spring-boot-examples
- pcottle/learnGitBranching
- karanpratapsingh/system-design
- Vonng/ddia
- grafana/k6
- Redocly/redoc
- nrwl/nx
- avajs/ava
- parse-community/parse-server
- remy/nodemon - 非常适合开发。特征:自动重新启动应用程序。检测要监视的默认文件扩展名。默认支持节点,但易于运行任何可执行文件,例如 python、ruby、make 等。忽略特定文件或目录。监视特定目录。与服务器应用程序或一次性运行实用程序和 REPL 配合使用。可通过 node require 语句编写脚本。
- trpc/trpc - tRPC 具有零 deps 和极小的客户端占用空间。易于添加到您现有的项目中。React.js/Next.js/Express.js/Fastify 适配。订阅支持。请求批处理 - 同时发出的请求可以自动合并为一个。
- apollographql/apollo-client
- dbader/schedule
- teambit/bit
- OpenAPITools/openapi-generator
- nexe/nexe
- grafana/loki
- netty/netty
- saleor/saleor
- cookiecutter/cookiecutter-django
- apereo/cas
- pallets/jinja
- temporalio/temporal
- gorilla/mux
- seaswalker/spring-analysis
- helmetjs/helmet
- Ne0nd0g/merlin
- xyproto/algernon
- bxcodec/go-clean-arch
- feathersjs/feathers
- Tencent/matrix
- caronc/apprise
- akka/akka
- capnproto/capnproto - 核心工具和 C++ 库
- vectordotdev/vector
- LMAX-Exchange/disruptor
- ashishps1/awesome-system-design-resources
- saltstack/salt
- apache/apisix
- smallnest/rpcx
- TonnyL/Awesome_APIs
- eggjs/egg
- koajs/koa
- Activiti/Activiti
- bagisto/bagisto
- amplication/amplication
- nhost/nhost
- dotansimha/graphql-code-generator
- LukeMathWalker/zero-to-production
- tokio-rs/tracing - subscriber 的 fmt 模块提供了一个收集器,用于记录具有合理默认值的跟踪。此外, tracing-subscriber 还能够使用 log 检测库和模块发出的消息。
- flosse/rust-web-framework-comparison
- poem-web/poem
- salvo-rs/salvo
- apache/airflow
- casbin/casdoor
- lihengming/spring-boot-api-project-seed
- kekingcn/kkFileView
- yangzongzhuan/RuoYi-Vue3 - Vue 或 RuoYi-Vue-fast 版本。前端技术栈(Vue2 + Element + Vue CLI)
- brettstack/serverless-express
- AdrienTorris/awesome-blazor
- chiraggude/awesome-laravel
- chentsulin/awesome-graphql
-
PHP开发
- php/php-src - GTK 来编写这些程序。用这种方法,还可以编写跨平台的应用程序。PHP-GTK 是 PHP 的一个扩展,在通常发布的 PHP 包中并不包含它。如果对 PHP-GTK 感兴趣,请访问其» 网站以获取更多信息。
- slimphp/Slim
- walkor/workerman
- filp/whoops
- symfony/symfony
- spatie/laravel-permission
- composer/composer
- guzzle/guzzle
- DesignPatternsPHP/DesignPatternsPHP
- PHPMailer/PHPMailer
- sebastianbergmann/phpunit
- doctrine/orm
- bcit-ci/CodeIgniter - 一个工具包 - 适用于使用 PHP 构建网站的人。它的目标是通过为常用任务提供一组丰富的库,以及访问这些库的简单接口和逻辑结构,使你能够比从头开始编写代码更快地开发项目。
- nikic/PHP-Parser
- erusev/parsedown
- barryvdh/laravel-ide-helper
- roadrunner-server/roadrunner
- laradock/laradock
- egulias/EmailValidator
- phalcon/cphalcon
- typecho/typecho
- dompdf/dompdf
- squizlabs/PHP_CodeSniffer
- filamentphp/filament
- serbanghita/Mobile-Detect
- deployphp/deployer
- yiisoft/yii2
- Intervention/image
- Seldaek/monolog
- itsgoingd/clockwork
- phacility/phabricator
- vimeo/psalm
- barryvdh/laravel-debugbar
- YOURLS/YOURLS
- codeguy/php-the-right-way
-
-
多模态大模型
-
网络服务_其他
- MMInstruction/M3IT - 80 找到。
- mlfoundations/open_flamingo
- LargeWorldModel/LWM - Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。 这项工作为在长视频和语言的海量数据集上进行训练铺平了道路,以发展对人类知识和多模态世界的理解,以及更广泛的能力。
- https://github.com/SoraWebui/SoraWebui
- harry0703/MoneyPrinterTurbo - api、通义千问、Google Gemini、Ollama、 DeepSeek、 文心一言 等多种模型接入;中国用户建议使用 DeepSeek 或 Moonshot 作为大模型提供商。
- haotian-liu/LLaVA - 4 级别功能构建的大型语言和视觉助手。
- BradyFU/Awesome-Multimodal-Large-Language-Models
- THUDM/VisualGLM-6B
- DAMO-NLP-SG/M3Exam
- NExT-GPT/NExT-GPT - LLM,可感知输入并以文本,图像,视频和音频等的任意组合(任意对任意)生成输出。NExt-GPT建立在现有的预训练LLM,多模态编码器和SoTA扩散模型之上,具有足够的端到端指令调谐。`1. 多模态编码阶段。`利用已建立的编码器以各种模式对输入进行编码,其中这些表示通过投影层投影为LLM可理解的类似语言的表示。`2. LLM理解和推理阶段。`利用现有的开源LLM作为核心来处理语义理解和推理的输入信息。LLM不仅直接生成文本标记,而且还生成独特的“模态信号”标记,这些令牌作为指令来指示解码层是否以及相应地输出什么模态内容。`3. 多模式生成阶段。`基于变压器的输出投影层通过来自LLM(如果有)的特定指令接收多模态信号,将信号令牌表示映射到以下多模态解码器可以理解的表示中。
- OpenBMB/VisCPM - Bee(10B)作为语言基座模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段:`1.预训练`:我们使用约100M高质量英文图文对数据对VisCPM-Chat进行了预训练,数据包括CC3M、CC12M、COCO、Visual Genome、Laion等。在预训练阶段,语言模型参数保持固定,仅更新视觉编码器的参数,以支持大规模视觉-语言表示的高效对齐。`2.指令精调`:采用LLaVA-150K英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,更新全部模型参数,以提升指令精调数据的利用效率。有趣的是,发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。表明模型的多语言多模态能力已得到良好泛化。在指令精调阶段进一步加入少量中文翻译数据,可以将模型回复语言和用户问题语言对齐。
- X-PLUG/mPLUG-Owl
- airaria/Visual-Chinese-LLaMA-Alpaca
- alpha-vllm/lumina-t2x - T2X是一个统一的框架,用于文本到任何模态生成。一系列文本条件扩散转换器 (DiT),能够将文本描述转换为生动的图像、动态视频、详细的多视图 3D 图像和合成语音。Lumina-T2X的核心是基于流量的大扩散变压器(Flag-DiT)——一个强大的引擎,支持多达70亿个参数,并将序列长度扩展到128,000个令牌。Lumina-T2X从Sora中汲取灵感,将图像,视频,3D对象的多视图和语音频谱图集成在时空潜在标记空间中,并且可以生成任何分辨率,纵横比和持续时间的输出。
- Skyvern-AI/skyvern
- YangLing0818/RPG-DiffusionMaster - 4、Gemini-Pro)或开源的本地MLLM(如miniGPT-4)作为提示的字幕重配和区域规划器,通过我们的互补区域扩散来实现SOTA文本到图像的生成和编辑。我们的框架非常灵活,可以推广到任意MLLM架构和扩散主干网。RPG还能够生成超高分辨率的图像。高度准确的图像生成: RPG框架能够根据复杂的描述生成高度准确和详细的图像,尤其在处理包含多个对象、属性和关系的场景时表现出色,生成的图像与文本描述高度一致。超越现有技术: 与现有的文本到图像模型相比,RPG框架展现了更好的性能,尤其在处理多元素组合和文本-图像语义对齐方面。灵活性和广泛适用性: 实验表明,RPG框架能够与不同的多模态大型语言模型和扩散模型兼容,适用于多种图像生成场景。提升质量和细节: 生成的图像不仅在视觉上吸引人,而且细节丰富,对于艺术创作、设计和娱乐等领域至关重要。RPG框架还能够处理复杂的交互和环境,生成的图像在构图和细节方面表现出色。
- LinkSoul-AI/LLaSM - 文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。
- microsoft/i-Code
- VPGTrans/VPGTrans - 语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。现有的常用的VL-LLM基本采取的架构:VPG(比如1.2B)->Projector(4M)->LLM(比如11B),在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector)。在训练过程中,LLM参数一般不会被更新,或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调。(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。(2)第二阶段:直接正常训练VPG和projector。
- 0nutation/SpeechGPT
- luogen1996/LaVIN
- DLYuanGod/TinyGPT-V
- unum-cloud/uform
- yxuansu/PandaGPT
- RunpeiDong/DreamLLM
- OthersideAI/self-operating-computer - 4v、Gemini Pro Vision、Claude 3 和 LLaVa 集成。未来计划:支持其他型号。
- open-compass/VLMEvalKit
- opendilab/LMDrive
- OpenMOSS/AnyGPT
- SHI-Labs/CuMo - upcycled Top-K 稀疏门控专家混合模块整合到视觉编码器和 MLP 连接器中,从而增强了多模态的能力LLMs。我们进一步采用辅助损失的三阶段培训方法,以稳定培训过程并保持专家的平衡负载。CuMo 在开源数据集上进行了专门训练,LLMs并在多个 VQA 和可视化指令跟踪基准上实现了与其他最先进的多模态相当的性能。
- Luodian/Otter - IT 上进行了训练,并展示了改进的指令遵循和上下文学习能力。
- baaivision/Emu
- NVlabs/VILA - 一种具有训练、推理和评估配方的多图像视觉语言模型,可从云部署到边缘(Jetson Orin 和笔记本电脑)。VILA 是一种视觉语言模型 (VLM),使用大规模交错的图文数据进行预训练,可实现视频理解和多图像理解能力。VILA 可通过 AWQ 4bit 量化和 TinyChat 框架在边缘部署。我们发现:(1)图文对是不够的,交错的图文是必不可少的;(2)交错图文预训练中的解冻LLM使上下文学习成为可能;(3)重新混合纯文本指令数据对于提高VLM和纯文本性能至关重要;(4) 令牌压缩扩展 #video 帧。VILA展示了吸引人的功能,包括:视频推理、上下文学习、视觉思维链和更好的世界知识。
- lichao-sun/Mora
- invictus717/MetaTransformer - Transformer 框架与多模态大型语言模型相结合,该模型执行多模态联合训练,支持更多模态,包括 fMRI、深度图和法线图,并在 25 个基准测试中展示了非常令人印象深刻的性能。作为基础模型,Meta-Transformer 可以处理来自 12 种模态的数据,这决定了它可以支持广泛的应用程序。如图所示,Meta-Transformer可以为下游任务提供服务,包括股票分析📈、天气预报❄️ ⛄ ☁️ ☔ ☀️ ⚡、遥感📡、自动驾驶🚗、社交网络🌍、语音识别🔉等。表 1:Meta-Transformer 能够处理多达 12 种模态,包括自然语言 、RGB 图像 、点云 、音频 、视频 、表格数据 、图形 、时间序列数据 、高光谱图像 、IMU 、医学图像 和红外图像 。此存储库旨在探索 transformer 在多模态学习中的潜力和可扩展性。我们利用 Transformer 的优势来处理长度变化序列。然后,我们按照元方案提出数据到序列的标记化,然后将其应用于 12 种模态,包括文本、图像、点云、音频、视频、红外、超光谱、X 射线、表格、图形、时间序列和惯性测量单元 (IMU) 数据。在获得令牌序列后,我们采用模态共享编码器来提取不同模态的表示。借助特定于任务的磁头,Meta-Transformer 可以处理不同模态的各种任务,例如:分类、检测和分割。
- Yuliang-Liu/Monkey
- HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs - MoE是基于MoE的统一多模态模型,可以处理包括音频、语音、图像、文本和视频在内的多种模态。Uni-MoE的模型架构如下图所示。三个训练阶段包括:1)利用来自不同模态和语言的配对来构建连接器,将这些元素映射到统一的语言空间,为多模态理解奠定基础;2)使用跨模态数据培养特定模态专家,以确保深入理解,为有凝聚力的多专家模型做好准备;3) 将多名训练有素的专家纳入LLMs并使用 LoRA 技术对混合多模态数据进行统一的多模态模型进行改进。
- microsoft/unilm/layoutlm
- dvlab-research/MGM - Gemini,它采用双视觉编码器,分别提供低分辨率的视觉嵌入和高分辨率的候选区域;提出了一种区域信息挖掘方法,用于在高分辨率区 域与低分辨率视觉查询之间进行像素级挖掘;利用大规模语言模型(MLM) 同时实现文本与图像的理解和生成。该框架支持从2B到34B的一系列密集和MoE大型语言模型(LLMs),同时进行图像理解、推理和生成。我们基于 LLaVA 构建此存储库。
-
-
网络服务
-
网络爬虫
- flairNLP/fundus - NEWS数据集。支持:抓取一堆英语新闻文章;对特定新闻源进行爬取;抓取 100 万篇文章,为了抓取如此大量的数据,Fundus 依赖于 CommonCrawl Web 存档,尤其是 新闻抓取 CC-NEWS 。如果您不熟悉 CommonCrawl 或 CC-NEWS 查看他们的网站。评估基准中最高的F1分数。[dobbersc/fundus-evaluation](https://github.com/dobbersc/fundus-evaluation)
- apify/crawlee - 一个 Web 抓取和浏览器自动化库,供Node.js构建可靠的爬虫。在 JavaScript 和 TypeScript 中。提取 AI、LLMsRAG 或 GPT 的数据。 从网站下载 HTML、PDF、JPG、PNG 和其他文件。适用于 Puppeteer、Playwright、Cheerio、JSDOM 和原始 HTTP。有头和无头模式。使用代理轮换。Crawlee 端到端地覆盖您的爬行和抓取,并帮助您构建可靠的抓取工具。快。即使使用默认配置,您的爬虫也会看起来像人类一样,并在现代机器人保护的雷达下飞行。Crawlee 为您提供了抓取 Web 链接、抓取数据并将其存储到磁盘或云中的工具,同时保持可配置以满足您的项目需求。特征:用于 HTTP 和无头浏览器爬虫的单一界面、要抓取的 URL 的持久队列(广度和深度优先)、表格数据和文件的可插拔存储、
- shengqiangzhang/examples-of-web-crawlers
- Jack-Cherish/python-spider
- gocolly/colly
- elebumm/RedditVideoMakerBot
- facert/awesome-spider
- wistbean/learn_python3_spider
- dataabc/weiboSpider
- crawlab-team/crawlab
- NaiboWang/EasySpider
- binux/pyspider
- kangvcar/InfoSpider
- rapiz1/rathole
- fhamborg/news-please - Please 是一个开源、易于使用的新闻爬虫,几乎可以从任何新闻网站中提取结构化信息。它可以递归地跟踪内部超链接并读取 RSS 源,以获取最新和旧的存档文章。您只需要提供新闻网站的根 URL 即可完全抓取它。news-please 结合了多个最先进的库和工具的强大功能,例如 scrapy、报纸和可读性。
- miso-belica/jusText
- adbar/trafilatura
- mendableai/firecrawl - ready Markdown 或结构化数据。使用单个 API 进行抓取、抓取和提取。抓取任何网站并将其转换为LLM就绪的 Markdown 或结构化数据。由 Mendable.ai 和 Firecrawl 社区构建。包括强大的抓取、抓取和数据提取功能。Firecrawl 是一种 API 服务,它获取 URL、抓取它并将其转换为干净的 markdown 或结构化数据。我们会抓取所有可访问的子页面,并为每个子页面提供干净的数据。无需站点地图。
- unclecode/crawl4ai
- mishushakov/llm-scraper
- TeamWiseFlow/wiseflow
- DropsDevopsOrg/ECommerceCrawlers
- supermemoryai/markdowner
- AJay13/ECommerceCrawlers
-
网络服务_其他
- nwjs/nw.js
- phanan/htaccess
- mfornos/awesome-microservices
- dastergon/awesome-sre
- Dreamacro/clash
- square/okhttp
- daltoniam/Starscream
- Moya/Moya
- web1n/wechat-universal-flatpak
- gorhill/uBlock
- digitalocean/nginxconfig.io
- hoppscotch/hoppscotch
- yhirose/cpp-httplib
- simplex-chat/simplex-chat - 设计100%私有!iOS和安卓应用程序发布
- go-telegram-bot-api/telegram-bot-api
- Rapptz/discord.py
- LonamiWebs/Telethon
- papercups-io/papercups
- RocketChat/Rocket.Chat
- Wechat-Group/WxJava
- littlecodersh/ItChat
- MustangYM/WeChatExtension-ForMac
- wechaty/wechaty
- w7corp/easywechat
- JackJiang2011/MobileIMSDK
- cluic/wxauto
- OpenIMSDK/Open-IM-Server
- supabase/supabase
- rustdesk/rustdesk
- vasanthk/how-web-works
- signalwire/freeswitch
- sogou/workflow
- soimort/you-get
- XIU2/TrackersListCollection
- itgoyo/Aria2
- PanDownloadServer/Server
- liupan1890/aliyunpan
- yuesong-feng/30dayMakeCppServer
- mastodon/mastodon
- nostr-protocol/nostr
- aljazceru/awesome-nostr - 05身份服务、浏览器扩展、社区、教程
- irislib/iris-messenger
- damus-io/damus
- jeffthibault/python-nostr
- vooidzero/B23Downloader
- pavlobu/deskreen
- BiglySoftware/BiglyBT
- zonemeen/musicn
- foamzou/melody
- v2rayA/v2rayA
- curl/curl
- Privoce/vocechat-web
- Privoce/vocechat-server-rust
- snail007/goproxy
- mailpile/Mailpile
- makeplane/plane
- openedx/edx-platform
- lionsoul2014/ip2region
- localForage/localForage
- 521xueweihan/git-tips
- dotnetcore/FastGithub - clone、git-pull、git-push失败等问题
- freefq/free
- bannedbook/fanqiang - 科学上网、翻墙工具、翻墙教程项目库
- tsenart/vegeta
- Mrs4s/go-cqhttp - v11](https://github.com/botuniverse/onebot-11) 绝大多数内容,并在其基础上做了一些扩展,详情请看 go-cqhttp 的文档。
- zxlie/FeHelper
- node-red/node-red
- baidu/amis
- taowen/awesome-lowcode
- brick-design/brick-design
- appsmithorg/appsmith
- alibaba/lowcode-engine
- apitable/apitable
- refinedev/refine
- GrapesJS/grapesjs
- directus/directus
- YaoApp/yao
- illacloud/illa-builder
- lowdefy/lowdefy
- openblocks-dev/openblocks
- Budibase/budibase
- n8n-io/n8n
- BuilderIO/mitosis
- laravel/laravel
- laravel/framework
- top-think/think
- mockery/mockery
- tymondesigns/jwt-auth
- jasontaylordev/CleanArchitecture - 只需安装 .NET 模板。
- httpie/cli
- nswbmw/N-blog
- olistic/warriorjs
- apache/brpc
- typicode/json-server
- ruanyf/jstraining
- apache/thrift
- drogonframework/drogon
- hashicorp/vagrant
- mlandauer/cuttlefish
- nylas/nylas-mail
- gorilla/websocket
- allinurl/goaccess
- wasmerio/wasmer
- PHP-CS-Fixer/PHP-CS-Fixer - 1,PSR-2等中定义的PHP编码标准,还是其他社区驱动的标准,如Symfony。您还可以通过配置来定义(团队)的风格。
- phpstan/phpstan - 无需运行即可发现代码中的错误!
- ramsey/uuid
- PHPOffice/PhpSpreadsheet
- vlucas/phpdotenv
- thephpleague/flysystem
- KurtBestor/Hitomi-Downloader
- scrapy/scrapy
- caddyserver/caddy - 2-3 Web 服务器
- jhuangtw/xg2xg
- netdata/netdata
- nektos/act - 无需在每次要测试对 `.github/workflows/` 文件所做的更改(或对嵌入式 GitHub 操作的任何更改)时都提交/推送,而是可以在 `act` 本地运行操作。环境变量和文件系统都配置为与 GitHub 提供的内容相匹配。
- go-gitea/gitea
- Kong/kong
- getsentry/sentry
- dokku/dokku
- MichaelCade/90DaysOfDevOps
- antirez/smallchat
- zu1k/nali
- awesome-foss/awesome-sysadmin
- SoftEtherVPN/SoftEtherVPN
- vishnubob/wait-for-it
- Mailu/Mailu - 作为 Docker 映像的邮件服务器
- mailcow/mailcow-dockerized
- NginxProxyManager/nginx-proxy-manager
- jhy/jsoup
- PostHog/posthog
- XX-net/XX-Net
- txthinking/brook
- RunaCapital/awesome-oss-alternatives
- v2fly/v2ray-core
- cyfdecyf/cow
- buger/goreplay
- postalserver/postal
- gogs/gogs
- yarnpkg/berry
- DIYgod/RSSHub
- Netflix/conductor
- pytube/pytube
- Qv2ray/Qv2ray - Go / NaiveProxy / HTTP / HTTPS / SOCKS5 | 使用 C++ / Qt 开发 | 可拓展插件式设计
- astrada/google-drive-ocamlfuse
- umami-software/umami
- Alvin9999/new-pac - 科学上网、自由上网、免费科学上网、免费翻墙、油管youtube、fanqiang、VPN、一键翻墙浏览器,vps一键搭建翻墙服务器脚本/教程,免费shadowsocks/ss/ssr/v2ray/goflyway账号/节点,翻墙梯子,电脑、手机、iOS、安卓、windows、Mac、Linux、路由器翻墙、科学上网
- adam-p/markdown-here
- go-kratos/kratos
- zeromicro/go-zero
- goharbor/harbor
- locustio/locust
- iawia002/lux
- Molunerfinn/PicGo - cli-electron-builder构建的简单而漂亮的图片上传工具
- python-telegram-bot/python-telegram-bot
- DrKLO/Telegram
- telegramdesktop/tdesktop
- session-replay-tools/tcpcopy
- TooTallNate/Java-WebSocket
- linlinjava/litemall
- iamadamdev/bypass-paywalls-chrome
- InstaPy/InstaPy
- tiangolo/uwsgi-nginx-flask-docker
- psf/requests-html
- fortra/impacket - 3 和 MSRPC),协议实现本身。数据包可以从头开始构建,也可以从原始数据中解析,面向对象的 API 使使用协议的深层层次结构变得简单。该库提供了一组工具作为示例。
- encode/httpx
- tweepy/tweepy
- aio-libs/aiohttp
- eternnoir/pyTelegramBotAPI
- aiogram/aiogram
- FiloSottile/mkcert
- Rigellute/spotify-tui
- extrawurst/gitui
- zulip/zulip
- ArchiveBox/ArchiveBox
- TryGhost/Ghost
- hwdsl2/setup-ipsec-vpn
- nextcloud/server
- juanfont/headscale - 使用 NAT 遍历。
- nats-io/nats-server
- AdguardTeam/AdGuardHome
- EZLippi/Tinyhttpd
- haraka/Haraka
- foxcpp/maddy
- dovecot/core
- iredmail/iRedMail
- Foundry376/Mailspring
- navidrome/navidrome
- processone/ejabberd
- firezone/firezone
- Pawdroid/Free-servers
- vernesong/OpenClash
- artilleryio/artillery - 2-3 一样简单。开箱即用的无服务器和分布式。永不扩展
- novnc/noVNC
- LibVNC/libvncserver
- activepieces/activepieces
- huginn/huginn
- pinpoint-apm/pinpoint
- grpc/grpc
- TKkk-iOSer/WeChatPlugin-MacOS - alfred-workflow)、会话一键已读、一键清除空会话、支持国际化、新增一键更新、新增关于小助手、去除微信url转链、史上最强 alfred 扩展、新增移除会话(不删除聊天记录)、菜单栏(关于小助手)新增 alfred 开关、新增是否使用微信自带浏览器开关、新增LaunchBar 扩展、新增禁止微信检测更新开关(非App Store版本)、新增小助手.app安装方式、支持退群监控,撤回消息定位
- alexcasalboni/aws-lambda-power-tuning
- oldj/SwitchHosts
- rclone/rclone
- alex/what-happens-when
- syncthing/syncthing
- netbox-community/netbox - 网络、控制台和电源!`现代 IPAM`:您期望的所有标准 IPAM 功能,以及 VRF 导入/导出跟踪、VLAN 管理和覆盖网络支持。`数据电路`:自信地管理来自各种服务提供商的关键电路的交付,并与您自己的基础设施无缝建模。`功率跟踪`:将上游电源的功率分布映射到各个馈电和插座。`组织`:以本机方式管理租户和联系人分配。`强大的搜索功能`:使用单一的全局搜索功能轻松找到您需要的任何内容。`全面的日志记录`:利用自动更改日志记录和用户提交的日志条目来跟踪网络随时间推移的增长情况。`无尽的自定义`:自定义字段、自定义链接、标签、导出模板、自定义验证、报告、脚本等!`灵活的权限`:高级权限系统可实现非常灵活的权限委派。`集成`:通过其REST和GraphQL API轻松将NetBox连接到您的其他工具。`插件`:尝试众多社区插件之一 - 或构建自己的插件!
- discourse/discourse
- novuhq/novu
- frappe/erpnext
- odoo/odoo
- yt-dlp/yt-dlp - dl 分支,基于现在不活跃的 youtube-dlc。该项目的主要重点是添加新功能和补丁,同时与原始项目保持同步
- FreeTubeApp/FreeTube
- diaspora/diaspora
- wildfirechat/im-server
- IceWhaleTech/CasaOS
- filebrowser/filebrowser
- StevenBlack/hosts
- ytdl-org/youtube-dl
- iptv-org/iptv
- wg/wrk
- shadowsocks/ShadowsocksX-NG
- nsqio/nsq
- monicahq/monica
- agalwood/Motrix
- brave/brave-browser
- shuzheng/zheng
- square/retrofit
- XIU2/CloudflareSpeedTest
- heyxyz/hey
- calcom/cal.com
- medusajs/medusa
- grpc/grpc-go
- grpc/grpc-java
- grpc/grpc-web
- mattermost/mattermost
- pion/webrtc
- cachethq/cachet
- asciimoo/wuzz
- cilium/cilium
- wekan/wekan
- apache/incubator-answer
- forem/forem
- Binaryify/NeteaseCloudMusicApi
- cryptomator/cryptomator
- movie-web/movie-web
- aria2/aria2
- gfwlist/gfwlist
- valyala/fasthttp
- cloudreve/Cloudreve
- tailscale/tailscale
- trailofbits/algo
- ginuerzh/gost
- wagtail/wagtail
- skywind3000/kcp - 20% 的带宽的代价,换取平均延迟降低 30%-40%,且最大延迟降低三倍的传输效果。纯算法实现,并不负责底层协议(如UDP)的收发,需要使用者自己定义下层数据包的发送方式,以 callback的方式提供给 KCP。 连时钟都需要外部传递进来,内部不会有任何一次系统调用。CP是为流量设计的(每秒内可以传输多少KB的数据),讲究的是充分利用带宽。而 KCP是为流速设计的(单个数据包从一端发送到一端需要多少时间),以10%-20%带宽浪费的代价换取了比 TCP快30%-40%的传输速度。TCP信道是一条流速很慢,但每秒流量很大的大运河,而KCP是水流湍急的小激流。
- twitter/finagle
- TeamNewPipe/NewPipe
- mayswind/AriaNg
- Shabinder/SpotiFlyer
- ajayyy/SponsorBlock
- libre-tube/LibreTube
- cloudflare/quiche
- cloudflare/cfssl
- cloudflare/cloudflared - --您的源可以尽可能保持关闭状态。
- qbittorrent/qBittorrent - rasterbar)。它旨在成为所有其他 bittorrent 客户端的良好替代品。qBittorrent 快速、稳定,并提供 unicode 支持以及许多功能。
- c0re100/qBittorrent-Enhanced-Edition
- ZLMediaKit/ZLMediaKit - FLV/WebSocket-FLV/HTTP-TS/HTTP-fMP4/WebSocket-TS/WebSocket-fMP4/GB28181/SRT 服务器和客户端框架
- go-chi/chi
- go-resty/resty
- radishes-music/radishes
- BlueMatthew/WechatExporter
- chimurai/http-proxy-middleware
- knadh/listmonk
- KRTirtho/spotube
- msgbyte/tailchat
- koishijs/koishi
- Nyr/openvpn-install
- dgtlmoon/changedetection.io - 只需免费监控哪些网站有文本更改。免费开源网页变更检测、网站污损监控、价格变更通知
- haproxy/haproxy
- centrifugal/centrifugo - streaming、SSE/EventSource、GRPC、SockJS、WebTransport)连接的应用程序在线用户发送消息。具有频道订阅的概念——因此它是一个面向用户的 PUB/SUB 服务器。
- GopeedLab/gopeed
- ekzhang/sshx
- adnanh/webhook
- openresty/openresty
- janeczku/calibre-web
- messense/aliyundrive-webdav
- webtorrent/webtorrent-desktop
- koodo-reader/koodo-reader
- rrweb-io/rrweb
- apernet/OpenGFW
- cdnjs/cdnjs
- cloudflare/pingora
- docker-mailserver/docker-mailserver
- localsend/localsend
- schollz/croc
- mickael-kerjean/filestash
- szimek/sharedrop - 灵感来自 Apple AirDrop
- nukeop/nuclear
- spotDL/spotify-downloader
- caprover/caprover
- mikeroyal/Self-Hosting-Guide
- leiurayer/downkyi
- zerotier/ZeroTierOne
- chatwoot/chatwoot
- dutchcoders/transfer.sh
- microsoft/IoT-For-Beginners
- mamoe/mirai
- hubotio/hubot
- tgbot-collection/YYeTsBot
- element-hq/element-web
- gotify/server
- sockjs/sockjs-client - Javascript 客户端
- Jackett/Jackett - 消除了其他应用程序的负担。
- lingochamp/FileDownloader - 恢复、高并发、简单易用、单/非单进程
- lingochamp/okdownload
- versatica/mediasoup
- public-api-lists/public-api-lists
- sergiotapia/magnetissimo
- Sonarr/Sonarr
- Radarr/Radarr
- webtorrent/instant.io
- transmission-remote-gui/transgui
- roundcube/roundcubemail
- pallets/werkzeug
- hiddify/hiddify-next - box、X-ray、TUIC、Hysteria、Reality、Trojan、SSH等。它是开源的、安全的、无广告的。
- pallets/itsdangerous
- berty/berty
- Evil0ctal/Douyin_TikTok_Download_API
- secdev/scapy - sk arping tcpdump wireshark p0f 的 、它在大多数其他工具无法处理的许多其他特定任务中也表现得很好,例如发送无效帧、注入您自己的 802.11 帧、组合技术(VLAN 跳跃 + ARP 缓存中毒、WEP 受保护信道上的 VoIP 解码等)等。Scapy 支持 Python 3.7+。它旨在跨平台运行,并在许多不同的平台(Linux、OSX、*BSD 和 Windows)上运行。
- uNetworking/uWebSockets - 与WebSockets的高效发布/订阅功能配对。μWebSockets 应该是任何具有高要求的实时 Web 项目的明显、完整的起点。μWebSockets 建立在 μSockets 之上,μSockets 是一个在三个不同层中实现事件、网络和加密的基础库。每一层都有多个实现,您可以使用标志控制编译后的组合。目前有五个事件循环集成;libuv、ASIO、GCD 和原始 epoll/kqueue。
- google/go-github
- http-party/http-server
- coredns/coredns
- tdlib/td
- JeffreySu/WeiXinMPSDK
- grpc-ecosystem/awesome-grpc
- jeessy2/ddns-go
- zfile-dev/zfile
- xykt/IPQuality - IP / SCAMALYTICS / IPWHOIS 多数据库整合;流媒体及AI多个服务商 TikTok / Disney+ / Netflix / Youtube / AmazonPrimeVideo / Spotify / ChatGPT 解锁及解锁类型检测;多邮局服务商 Gmail / Outlook / Yahoo / Apple / QQ / Mail.ru / AOL / GMX / Mail.com / 163 / Sohu / Sina 连通性检测;多邮局服务商 Gmail / Outlook / Yahoo / Apple / QQ / Mail.ru / AOL / GMX / Mail.com / 163 / 搜狐 / Sina 连通性检测;IP地址黑名单400+数据库检测
- caorushizi/mediago - downloader] 视频在线提取工具 流媒体下载 、视频下载 、 m3u8下载 、 B站视频下载 桌面客户端 windows mac
- cloudflare/boringtun - cli ,用于 Linux 和 macOS 的用户空间 WireGuard 实现。该库 boringtun 可用于在各种平台(包括 iOS 和 Android)上实现快速高效的 WireGuard 客户端应用程序。它实现了底层的 WireGuard 协议,没有网络或隧道堆栈,这些协议可以以平台惯用的方式实现。WireGuard ® 是一款极其简单但快速且现代的 VPN,它利用了最先进的加密技术。它旨在比 IPsec 更快、更简单、更精简、更有用,同时避免了令人头疼的问题。它打算比OpenVPN性能高得多。WireGuard 被设计为通用 VPN,可在嵌入式接口和超级计算机上运行,适用于许多不同的情况。它最初是为 Linux 内核发布的,现在是跨平台(Windows、macOS、BSD、iOS、Android)并可广泛部署的。它目前正在大量开发中,但它已经被认为是业内最安全、最容易使用和最简单的 VPN 解决方案。
- git-ecosystem/git-credential-manager - keyring/libsecret)相比,它们仅为用户名/密码提供单因素身份验证支持。GCM 取代了基于 .NET Framework 的 Git Credential Manager(适用于 Windows)和基于 Java 的 Git Credential Manager(适用于 Mac 和 Linux)。
- livekit/livekit
- hoochanlon/NeiJuan
- SagerNet/sing-box - box 还可以创建网络代理服务器、客户端和透明代理,并允许用户管理和使用本地、iCloud 和远程配置文件。
- VinciGit00/Scrapegraph-ai
- actions/starter-workflows
- cooderl/wewe-rss
- imputnet/cobalt
- vastsa/FileCodeBox - 匿名口令分享文本,文件,像拿快递一样取文件。主要特色: 轻量简洁: 项目基于Fastapi + Sqlite3 + Vue3 + ElementUI。轻松上传: 支持复制粘贴和拖拽选择。多种类型: 支持文本和文件。防止爆破: 错误次数限制。防止滥用: IP限制上传次数。口令分享: 随机口令,存取文件,自定义次数及有效期。国际化: 支持中文简体、繁体以及英文等。匿名分享: 无需注册,无需登录。管理面板: 查看和删除文件。一键部署: 支持Docker一键部署。自由拓展: 支持S3协议和本地文件流,可根据需求在storage文件中新增存储引擎。简单明了: 适合新手练手项目。 终端下载: 终端命令wget https://share.lanol.cn/share/select?code=83432
- drakkan/sftpgo - S3、Google Cloud Storage、Azure Blob
- PyGithub/PyGithub
- https://github.com/qhjqhj00/memorag
- 2471023025/RALM_Survey
- yixuantt/MultiHop-RAG - RAG:用于评估跨文档检索增强生成的数据集”(COLM 2024) 的存储库。MultiHop-RAG:一个 QA 数据集,用于评估 RAG 管道中元数据跨文档的检索和推理。它包含 2556 个查询,每个查询的证据分布在 2 到 4 个文档中。查询还涉及文档元数据,反映了实际 RAG 应用程序中常见的复杂场景。
- orhun/git-cliff - cliff 可以通过利用常规提交以及正则表达式驱动的自定义解析器从 Git 历史记录生成更改日志文件。可以使用配置文件自定义 changelog 模板以匹配所需的格式。
- pre-commit/pre-commit - commit hook 的框架。Git 钩子脚本可用于在提交代码审查之前识别简单问题。我们在每次提交时都运行钩子,以自动指出代码中的问题,例如缺少分号、尾随空格和 debug 语句。通过在代码审查之前指出这些问题,这允许代码审查者专注于更改的架构,而不会浪费时间在琐碎的风格吹毛求疵上。随着我们创建更多的库和项目,我们认识到在项目之间共享我们的 pre-commit 钩子是很痛苦的。我们从一个项目复制并粘贴了笨拙的 bash 脚本,并且必须手动更改钩子以适用于不同的项目结构。我们认为您应该始终使用最好的行业标准 Linter。一些最好的 Linter 是用您在项目中未使用的语言编写的,或者您计算机上没有安装的语言。例如,scss-lint 是用 Ruby 编写的 SCSS 的 Linter。如果您在 Node 中编写项目,您应该能够将 scss-lint 用作预提交钩子,而无需将 Gemfile 添加到您的项目或了解如何安装 scss-lint。我们构建了 pre-commit 来解决我们的 hook 问题。它是一个用于 pre-commit 钩子的多语言包管理器。你指定一个你想要的钩子列表,pre-commit 在每次提交之前管理用任何语言编写的任何钩子的安装和执行。pre-commit 经过专门设计,不需要 root 访问权限。如果你的某个开发人员没有安装 node,但修改了 JavaScript 文件,pre-commit 会自动处理下载和构建 node 以在没有 root 的情况下运行 eslint。
- ziadoz/awesome-php
- ripienaar/free-for-dev
- coreybutler/nvm-windows
-
-
其他_推荐系统
-
网络服务_其他
- vze92/DMR - Through Rate Prediction DMR:Matching和Ranking相结合的点击率预估模型
- QYQ-bot/CLEA
- rener1199/deep_memory
- ystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution
- hydantess/TianChi_zhilianzhaopin:
- kupuSs/CIKM-CUP-2019-track2-rank10 - Commerce AI Challenge - 超大规模推荐之用户兴趣高效检索
- SAI990323/TALLRec
- imsheridan/DeepRec
- laekov/fastmoe
- oywtece/dstn
- shenweichen/DSIN
- facebookresearch/dlrm
- kang205/SASRec
- microsoft/RecAI - emb 发挥作用的地方。RecLM-emb 与文本嵌入模型(如 text-embedding-ada-002)保持一致,但它专门针对项目检索进行了优化。目标是嵌入用于项目检索的所有内容。目前仅支持文本模式,例如搜索查询、项目描述和用户说明。`生成式 RecLM`:需要注意的是,不同域的数据模式差异很大,这意味着通用LLM型可能无法在特定域内提供优化的性能。为了适应特定的领域数据模式,为领域项目目录奠定基础,并增强指令跟踪能力,本项目讨论了为推荐者微调生成语言模型的过程,称为 RecLM-gen。技术包括监督微调 (SFT) 和强化学习 (RL)。这种方法的潜在应用包括排名器、对话推荐器和用户模拟器。`模型解释器`:基于深度学习的推荐系统因其在有效性和效率方面的优势而广泛应用于各种在线服务中。然而,这些模型通常缺乏可解释性,使它们对用户和开发人员来说都不太可靠和透明。在这项工作中,我们提出了一种新的推荐系统模型解释方法,称为 RecExplainer,通过用作LLMs代理模型并学习模仿和理解目标推荐模型。`RecLM 评估器`:评估对于评估模型的真实能力和确定需要进一步改进的薄弱环节至关重要。在以类似人类的方式使用语言模型作为推荐器的时代,评估方法已经明显偏离了传统风格。该项目旨在为基于LM的推荐系统的评估提供全面的服务。无论是提供经过训练的 LM 还是 API(例如 Azure OpenAI API),它都会从各个角度评估模型的性能,包括检索、排名、解释功能和常规 AI 能力。
- shichence/AutoInt - Head self-Attention进行自动的特征提取
- xiangwang1223/neural_graph_collaborative_filtering
- UIC-Paper/MIMN
- LeeeeoLiu/ESRM-KG
- zhuchenxv/AutoFIS
- pangolulu/exact-k-recommendation - K优化问题
- Scagin/NeuralLogicReasoning
- allenjack/HGN - level以及instance-level的,通过Hierarchical Gating来处理group-level的信息,item-item的乘积来捕捉商品之间的关系。
- RUCAIBox/CIKM2020-S3Rec
- chenchongthu/SAMN
- Lancelot39/KGSF
- DeepGraphLearning/RecommenderSystems
- FeiSun/BERT4Rec
- ChuanyuXue/CIKM-2019-AnalytiCup - CIKM挑战赛,超大规模推荐之用户兴趣高效检索赛道 冠军解决方案 ,召回阶段基于 Item CF 相似性做召回( item-item 相似性),排序阶段,最终使用了 Catboost 和 Lightgbm 建模。
- zyli93/InterHAt
- triton-inference-server/server
- lqfarmer/GraphTR
- guyulongcs/CIKM2020_DMT
- hwwang55/DKN
- yusanshi/NewsRecommendation - Fi Ark TANR
- johnny12150/GCE-GNN - context enhanced)的GNN网络,称为GCE-GNN。能够从两种层次来学习物品的表征,包括global-level:从所有session构成的图上进行全局的表征;以及session-level:从单个session局部item转移图上进行局部的表征;最后融合二者,并通过注意力机制形成最终的序列表征,用于序列推荐任务。
- twchen/lessr
- NLPWM-WHU/AGNN
- CRIPAC-DIG/SR-GNN
- uctoronto/SHAN
- chenghuige/mind
- WayneDW/DeepLight_Deep-Lightweight-Feature-Interactions
- JiachengLi1995/TiSASRec - Attention for Sequential Recommendation 时间间隔自注意力模型用于序列推荐。 基于序列模型框架对行为的时间戳进行建模,在下一个商品预测中探索不同时间间隔的影响。
- wuch15/IJCAI2019-NAML - View Learning 可以通过利用不同种类的新闻信息来学习用户和新闻的特征表示。
- guoday/Tencent2020_Rank1st
- weiyinwei/MMGCN
- wujcan/SGL - 物品二分图推荐系统」的「图自监督学习」框架。
- johnnyjana730/MVIN - view item network (MVIN) ,从user和item来学习多个视角下的商品表示,进而进行商品推荐。在实体视图中,项目表示由KG中连接到它的实体来定义的。
- weberrr/CKAN - aware Attentive Network for Recommender Systems 协作知识感知的注意力网络推荐系统
- danyang-liu/KRED
- CRIPAC-DIG/DGCF
- huangtinglin/MixGCF
- DyGRec/ASReP - start)问题。为了解决该问题,我们提出需要对冷启动对应的短序列(short sequence)进行增广(Augmentation),从而能够补全信息而避免冷启动的问题。
- NLPWM-WHU/EDUA
- gluver/KG4Rec_Paperlist
- xidongbo/AITM - CCP阿里巴巴点击和转化预测数据集](https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408)。[pytorch实现](https://github.com/adtalos/AITM-torch)
- newlei/LR-GCCF - GCCF用于基于CF的推荐系统,在模型表型上和时间效率上有了一定的提高。
- wangzhegeek/EGES
- YushanZhu/K3M
- tsinghua-fib-lab/GNN-Recommender-Systems
- oywtece/deepmcp - CTR 关系进行建模,并且存在数据稀疏问题。相比之下,DeepMCP 对其他类型的关系进行建模,以学习更多信息和统计上可靠的特征表示,从而提高 CTR 预测的性能。DeepMCP 包含三部分:匹配子网、关联子网和预测子网。这些子网分别为用户-广告、广告-广告和功能-点击率关系建模。当这些子网在目标标签的监督下联合优化时,学习到的特征表示既具有良好的预测能力,又具有良好的表示能力。
- xiaxin1998/DHCN
- maenzhier/GRecX
- RUCAIBox/Awesome-Privacy-Preserving-RS-Paper
- github.com/THUDM/ComiRec - Interest Framework for Recommendation》的源代码和数据集 可控的多兴趣推荐框架
- microsoft/tutel
- Jhy1993/Awesome-GNN-Recommendation - 推荐相关资源
- sisinflab/elliot
- sumitsidana/recsys_challenge_2020
- DiligentPanda/Tencent_Ads_Algo_2018
- ttvand/Santander-Product-Recommendation - Santander 产品推荐
- Travisgogogo/BAAI-ZHIHU-2019
- LogicJake/tuling-video-click-top3
- PPshrimpGo/BDCI2018-ChinauUicom-1st-solution
- RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge - 安泰杯跨境电商智能算法大赛 冠军。 通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。
- fuxiAIlab/RL4RS
- NVIDIA-Merlin/competitions
- rosetta-ai/rosetta_recsys2019
- miziha-zp/KDD2020_mutilmodalities - Commerce Platform: Multimodalities Recall
- steven95421/KDD_WinnieTheBest - modalities Recall 第一名。数据来自移动电商平台的真实场景多模态数据。数据集由搜索查询和产品图像特征组成,是一个基于查询的多模式检索任务。实现了根据候选产品的图像特征对它们的集合进行排名。这些查询中的大多数是搜索具有特定特征的产品的名词短语。候选商品图片由卖家提供的照片,通过黑盒功能转化为2048维特征。与查询最相关的候选产品被视为查询的基本事实。
- aister2020/KDDCUP_2020_Debiasing_1st_Place
- RUCAIBox/FMLP-Rec
- RUCAIBox/NCL
- CAN-Paper/Co-Action-Network
- tsinghua-fib-lab/CLSR
- easezyc/Multitask-Recommendation-Library
- awarebayes/RecNN
- Tencent/embedx
- bytedance/LargeBatchCTR
- xiangwang1223/disentangled_graph_collaborative_filtering - 项目交互的强度,(2) 图的嵌入传播机制神经网络,从高阶连通性中提取相关信息,以及(3)独立建模的距离相关性,以确保意图之间的独立性。因此,我们明确地解开了用户在表示学习中的隐藏意图。
- gusye1234/LightGCN-PyTorch
- muhanzhang/IGMC
- jennyzhang0215/STAR-GCN
- wenqifan03/GraphRec-WWW19
- PeiJieSun/diffnet
- hwwang55/KGCN
- huangtinglin/Knowledge_Graph_based_Intent_Network
- amzn/pecos
- summmeer/session-based-news-recommendation
- ahmedrashed-ml/CARCA
- Coder-Yu/SELFRec
- caserec/Datasets-for-Recommender-Systems
- zygmuntz/goodbooks-10k
- twitter/the-algorithm-ml
- pangolulu/exact-k-recommendation - K优化问题
- SSE-PT/SSE-PT - PT),该方法相较于之前的方案提升了5%。
- yusanshi/NewsRecommendation - Fi Ark TANR
- yuduo93/THIGE
- wujcan/SGL - 物品二分图推荐系统」的「图自监督学习」框架。
- BinbinJin/SD-GAR
- wangjiachun0426/StackRec
-
-
金融股票
-
网络服务_其他
- midas-research/sthan-sr-aaai
- microsoft/qlib
- QUANTAXIS/QUANTAXIS
- ricequant/rqalpha
- cedricporter/funcat
- wangshub/RL-Stock
- juspay/hyperswitch
- wilsonfreitas/awesome-quant
- OpenBB-finance/OpenBBTerminal
- bsolomon1124/pyfinance - datareader等。pyfinance包含六个模块,它们分别是:datasets.py :金融数据下载,基于request进行数据爬虫;general.py:通用财务计算,例如主动份额计算,收益分配近似值和跟踪误差优化;ols.py:回归分析,支持pandas滚动窗口回归;options.py:期权衍生品计算和策略分析;returns.py:通过CAPM框架对财务时间序列进行统计分析,旨在模拟FactSet Research Systems和Zephyr等软件的功能,并提高了速度和灵活性;utils.py:基础架构。
- quantopian/alphalens
- quantopian/pyfolio
- quantopian/zipline - driven)的回测框架,有完整的文档和社区,如果你是对国外美股交易感兴趣,那么zipline将比较合适;但是对于国内像A股的数据则无法支持,只能通过本地化的数据进行回测。
- UFund-Me/Qbot
- gbeced/pyalgotrade
- mementum/backtrader
- vnpy/vnpy
- waditu/tushare
- jindaxiang/akshare
- Heerozh/spectre
- stefan-jansen/machine-learning-for-trading
- yumoxu/stocknet-dataset
- goiter/CoCPC - CPC)。通过考虑与宏观经济指标的耦合来发布股票走势预测的代码和数据。
- hkgsas/LOB
- jrothschild33/learn_backtrader
- AI4Finance-Foundation/FinRL-Meta
- AI4Finance-Foundation/FinRL_Podracer
- tkfy920/qstock
- je-suis-tm/quant-trading - Ashi、配对交易、RSI、布林带、抛物线 SAR、双推力、真棒、MACD
- AlgoTraders/stock-analysis-engine - compose 上运行。
- amor71/LiuAlgoTrader
- bbfamily/abu
- QuantConnect/Lean
- StockSharp/StockSharp
- cantaro86/Financial-Models-Numerical-Methods - Scholes 布莱克-斯科尔斯数值方法(对数正态分布、测度变化、蒙特卡罗、二项式方法)。1.2) SDE仿真与统计(路径生成、置信区间、假设检验、几何布朗运动、Cox-Ingersoll-Ross过程、Euler Maruyama法、参数估计)1.3) 傅里叶反演方法(反演公式、数值反演、期权定价、FFT、刘易斯公式)1.4) SDE、Heston 模型(相关布朗运动、Heston 路径、Heston 分布、特征函数、期权定价)1.5) SDE,莱维过程(默顿,方差伽玛,NIG,路径生成,参数估计)2.1)布莱克-斯科尔斯偏微分方程(偏微分方程离散化,隐式方法,稀疏矩阵教程)2.2) 奇异期权(二元期权、障碍期权、亚洲期权)2.3) 美式期权(偏微分方程、早期行权、二项式法、Longstaff-Schwartz、永续看跌期权)3.1) Merton Jump-Diffusion PIDE(隐式-显式离散化、离散卷积、模型限制、蒙特卡罗、傅里叶反演、半闭式)3.2) Gamma Variance PIDE(近似跳跃扩散PIDE、蒙特卡洛、傅里叶反演、与Black-Scholes的比较)3.3) 正态逆高斯PIDE(近似跳跃扩散PIDE、蒙特卡罗、傅里叶反演、Lévy测度的性质)4.1) 交易成本定价(Davis-Panas-Zariphopoulou 模型、奇异控制问题、HJB 变分不等式、无差异定价、二项式树、性能)4.2) 波动率微笑和模型校准(波动率微笑、寻根方法、校准方法)5.1) 线性回归和卡尔曼滤波(市场数据清洗、线性回归方法、卡尔曼滤波设计、参数选择)5.2) 卡尔曼自相关跟踪 - AR(1) 过程(自回归过程、估计方法、卡尔曼滤波、卡尔曼平滑、变量自相关跟踪)5.3) 波动率跟踪(赫斯顿模拟、假设检验、分布拟合、估计方法、GARCH(1,1)、卡尔曼滤波、卡尔曼平滑)6.1) Ornstein-Uhlenbeck过程及应用(参数估计、命中时间、Vasicek PDE、卡尔曼滤波、交易策略)7.1) 经典 MVO(均值方差优化、二次规划、仅多头和长空、闭合公式)
- ranaroussi/yfinance
- firefly-iii/firefly-iii
- https://github.com/kungfu-origin/kungfu - 量化交易者对系统内响应速度有极高要求,功夫提供微秒级别的系统响应,支持带纳秒级时间戳的交易数据实时存储和盘后分析。开放的策略编写方式 - 功夫支持 Python 3 及 C++ 形式的策略编写,策略师可以不受限的自由使用第三方计算库,放飞创意。友好的使用方式 - 告别 Linux shell 小黑屋,功夫提供图形化操作界面,简化策略运维流程。而进阶用户仍然具备通过底层 API 以无界面形式使用系统的能力。跨平台运行 - 三大主流平台(Windows、MacOSX、Linux)皆可编译运行。功夫系统架构如下:后台核心(C++)长拳(longfist) - 金融交易相关的数据格式定义,提供涵盖 c++/python/js/sqlite 的序列化支持。易筋经(yijinjing) - 专为金融交易设计的超低延迟时间序列内存数据库,提供纳秒级时间精度,可落地交易相关的全部数据。咏春(wingchun) - 策略执行引擎,提供策略开发接口,实时维护策略账目及持仓情况。策略接口(C++/Python)RxCpp - 响应式事件处理框架,可对丰富数据类型的金融交易数据进行灵活处理。numpy/pandas - 自带的 Python 运行环境原生提供 numpy/pandas 等工具供策略使用。前端UI(Node.js)Electron - 跨平台的桌面应用开发框架Vue.js - UI开发框架功夫在系统设计上支持任意柜台的对接(涵盖中国所有股票、期货市场),功夫开源版提供 XTP 柜台对接的参考实现。
- AI4Finance-Foundation/DQN-DDPG_Stock_Trading
-
-
蛋白质结构
-
网络服务_其他
- nferruz/ProtGPT2
- deepmind/alphafold
- RosettaCommons/RoseTTAFold - ray晶体学和冷冻电镜结构建模问题,并提供对当前未知结构蛋白质功能的见解。还能够仅从序列信息中快速生成准确的蛋白质-蛋白质复合物模型。
- aqlaboratory/openfold
- dauparas/ProteinMPNN
- HeliXonProtein/OmegaFold
- sokrypton/ColabFold
- salesforce/provis
- ElwynWang/DeepFragLib
- bowman-lab/diffnets
- nadavbra/protein_bert
- pengxingang/Pocket2Mol
- jertubiana/ScanNet
- strauchlab/scaffold_design
- flatironinstitute/DeepFRI
- j3xugit/RaptorX-3DModeling
- FreyrS/dMaSIF
- Superzchen/iLearnPlus
- baldassarreFe/graphqa
- phermosilla/IEConv_proteins - 外在卷积和池化
- sameerkhurana10/DSOL_rv0.2
- luoyunan/ECNet
- deepmodeling/Uni-Fold - Fold:训练您自己的深度蛋白质折叠模型。
- bigbio/py-pgatk
- zjunlp/OntoProtein - class and 8-class protein secondary structure 3类和8类蛋白质二级结构), contact, remote_homology, fluorescence 荧光, stability 稳定等下游任务。
- ProteinDesignLab/protein_seq_des
- gjoni/trRosetta
- gjoni/trDesign
- RosettaCommons/RFDesign
- facebookresearch/esm
- uw-ipd/RoseTTAFold2NA
- pylelab/USalign
- agemagician/ProtTrans
-
-
药物-靶标 药物-药物 化合物-蛋白质 相互作用
-
网络服务_其他
- ddinter.scbdd.com - 药物相互作用的综合、专业和开放存取的数据库。它为每个 DDI 关联提供了丰富的注释,包括机制描述、风险级别、管理策略、替代药物等,以改善临床决策和患者安全。
- lvguofeng/GNN_PPI - PPI),以更好地预测新蛋白质之间的相互作用。在不同规模的真实世界数据集上的实验结果表明,GNN-PPI 显着优于最先进的 PPI 预测方法,特别是对于小说间的蛋白质相互作用预测。
- PaddleHelix/drug_target_interaction/sign - 配体结合亲和力的结构感知交互式图神经网络
- kexinhuang12345/DeepPurpose - 靶标相互作用(Drug-Target Interaction)预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码,就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用:虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)。
- ETHmodlab/molgrad - 靶标相互作用的见解。
- thinng/GraphDTA - 靶标的结合亲和力
- isjakewong/MIRACLE
- FangpingWan/DeepCPI
- yueyu1030/SumGNN - typed drug interaction prediction via efficientknowledge graph summarization 基于高效知识图谱汇总的多类型药物关联预测。 整合了DDI信息(药物-药物相互作用)以及生物医学KG数据,并提出了有效的聚合机制以进行DDI预测。实验结果表明,该模型具有良好的预测性能。
- kanz76/SSI-DDI
- jacklin18/KGNN - Drug Interaction Prediction" 基于知识图谱的图神经网络(KGNN),以解决DDI预测问题。该框架可通过在KG中挖掘相关联的关系,来有效地捕获药物及其潜在的邻域实体信息。
- twopin/CAMP - 蛋白质相互作用预测的基于卷积注意力的神经网络
- Liuxg16/GeoPPI - 蛋白质结合亲和力的影响的深度几何表示
- biomed-AI/GraphPPIS - 蛋白质相互作用位点预测的新框架,它能够从高阶空间相邻氨基酸中捕获信息。
- aqlaboratory/hsm - 肽相互作用和信号网络进行生物物理预测
- THinnerichs/DTI-VOODOO
- ohuelab/QEPPI - 蛋白质相互作用的化合物早期筛选的定量估计指数
- DeepRank/deeprank - 蛋白质相互作用的深度学习框架
- violet-sto/TGSA - 蛋白质关联的双图神经网络用于相似性增强的药物反应预测
- biomed-AI/GraphSite - DNA 结合位点预测。
- pharmai/plip - 配体相互作用
- Layne-Huang/EGFI - 药物相互作用提取和生成
- Ieremie/TransformerGO - 蛋白质相互作用
- YifanDengWHU/DDIMDL - 药物相互作用(DDI)事件。
- CSUBioGroup/BACPI - 蛋白质相互作用和结合亲和力预测的双向注意力神经网络
- biomed-AI/CoSMIG - 基因相互作用预测的交际子图表示学习
- IsXudongZhang/Molormer
-
-
抗菌肽
-
CPU RISC-V
-
网络服务_其他
- liangkangnan/tinyriscv - V处理器核。
- OpenXiangShan/XiangShan - V 处理器
- unicorn-engine/unicorn
- SI-RISCV/e200_opensource
- Lichee-Pi/Tang_E203_Mini
- riscv-mcu/e203_hbirdv2 - V 处理器内核和 SoC 项目,它由中国大陆领先的 RISC-V IP 和解决方案公司Nuclei System Technology开发和开源。
- mit-pdos/xv6-riscv - V 多处理器实施。
- plctlab/writing-your-first-riscv-simulator - V模拟器开发》配套的PPT和教学资料
- cccriscv/mini-riscv-os - V 构建最小的多任务操作系统内核
- plctlab/riscv-operating-system-mooc - V OS》课程配套的资源
- darklife/darkriscv - V cpu
- ultraembedded/riscv - V CPU 核心 (RV32IM)
- ultraembedded/biriscv - V Cpu
- liuqidev/8-bits-RISC-CPU-Verilog
- litex-hub/linux-on-litex-vexriscv - V CPU。
- riscv2os/riscv2os - V 到可以自製 RISC-V 處理器上的作業系統的電子書。
- sgmarz/osblog - V 操作系统
- SpinalHDL/VexRiscv - V CPU 实现
- chipsalliance/rocket-chip - V Rocket Core 所需的 Rocket 芯片生成器。
- riscv-boom/riscv-boom - V 处理器.一个可合成和可参数化的开源 RV64GC RISC-V 内核,用[Chisel](https://chisel.eecs.berkeley.edu/)硬件构造语言编写。其重点是为研究创建一个高性能、可综合和可参数化的核心。当前版本的 BOOM 微架构([SonicBOOM,或 BOOMv3](https://carrv.github.io/2020/papers/CARRV2020_paper_15_Zhao.pdf))与商用高性能无序内核具有竞争力,达到 6.2 CoreMarks/MHz。
- ucb-bar/chipyard - V SoC 设计框架
- ucb-bar/riscv-sodor - v isa 的教育微架构
- pulp-platform/pulpino - V内核。PULPino可以配置为使用RISCY或零RISCY内核。具有4个流水线级,其IPC接近1,完全支持基本整数指令集(RV32I),压缩指令(RV32C)和乘法指令集扩展(RV32M)。它可以配置为具有单精度浮点指令集扩展(RV32F)。它实现了多个 ISA 扩展,例如:硬件环路、后递增加载和存储指令、位操作指令、MAC 操作、支持定点运算、打包 SIMD 指令和点积。它旨在提高超低功耗信号处理应用的能效。RISCY实现了1.9特权规范的子集。
- riscv-software-src/riscv-tools - V 工具(ISA 模拟器和测试)
- YosysHQ/picorv32 - V CPU.实现[RISC-V RV32IMC 指令集](http://riscv.org/)的 CPU 内核。它可以配置为 RV32E、RV32I、RV32IC、RV32IM 或 RV32IMC 内核,并可选择包含内置中断控制器。
- ucb-bar/riscv-mini - V
- openhwgroup/cva6 - V指令集。它完全实现了第I卷中指定的I、M、A 和C扩展:用户级ISA V2.3以及草案权限扩展 1.10。它实现了三个特权级别 M、S、U 以完全支持类 Unix 操作系统。此外,它还符合外部调试规范草案 0.13。
- plctlab/PLCT-Open-Reports
- lowRISC/ibex - V CPU 内核,以前称为 zero-riscy。用 System Verilog 编写的生产级开源 32 位 RISC-V CPU 内核。CPU 内核高度可参数化,非常适合嵌入式控制应用。Ibex 正在接受广泛的验证,并且已经看到多个流片。Ibex 支持整数 (I) 或嵌入式 (E)、整数乘除法 (M)、压缩 (C) 和B(位操作)扩展。
- shawn110285/Cookabarra
- risclite/ARM9-compatible-soft-CPU-core
- ZipCPU/openarty
- chsasank/ARM7
- nxbyte/ARM-LEGv8
- risclite/R8051 - 2001 内核。
- freecores/8051
- jmahler/mips-cpu
- lvyufeng/step_into_mips
- ljlin/MIPS48PipelineCPU
- olgirard/openmsp430
- qing-2/CPU
- fallen/tinycpu
- riscv-collab/riscv-gnu-toolchain - V的GNU工具链,包括GCC
- OSCPU/NutShell - V SoC。目前它支持 riscv64/32。
- microdynamics-cpu/tree-core-ide
- microdynamics-cpu/tree-core-cpu - V软核处理器。现在,我们使用所有开源工具链(凿子,铣削,验证器,NEMU,AM和difftest框架等)进行设计和验证。
- LekKit/RVVM - V CPU和系统软件
- TheThirdOne/rars - V汇编器,模拟器和运行时,将组装和模拟RISC-V汇编语言程序的执行。主要目标是为开始使用RISC-V的人们提供一个有效的开发环境。
- mortbopet/Ripes - V ISA 的图形处理器模拟器和装配编辑器
- rustsbi/rustsbi - V Supervisor 二进制接口 (RISC-V SBI) 库;在 M 或 HS 模式下运行;对嵌入式 Rust 生态系统的良好支持。
- rcore-os/rCore-Tutorial-v3 - V 上运行的操作系统!
- stnolting/neorv32 - V 软核 CPU 和类似微控制器的 SoC,采用独立于平台的 VHDL 编写。
- openhwgroup/cv32e40p - V RV32IMFCXpulp CPU。一款小巧高效的32位有序RISC-V内核,具有4级流水线,可实现RV32IM[F|Zfinx]C 指令集架构和 PULP 自定义扩展,可实现更高的代码密度、性能和能效。它最初是基于OpenRISC ISA的OR10N CPU内核的一个分支。然后,以RI5CY的名义,它成为RISC-V核心(2016年),并由PULP平台团队维护,直到2020年2月,它被贡献给OpenHW集团。
- olofk/serv - V 内核的CPU。 SERV 是世界上最小的 RISC-V CPU。每当您需要一些计算并且硅空间非常宝贵时,它都是完美的伴侣。
- d0iasm/rvemu - V仿真器,用于CLI和Web,用Rust和WebAssembly编写。它支持 xv6 和 Linux(正在进行中)。
- probe-rs/probe-rs - V 目标的调试工具集和库
- syntacore/scr1 - V兼容MCU级内核,由Syntacore设计和维护。它是工业级和硅验证(包括全晶圆生产),在所有主要的EDA流程和Verilator中开箱即用,并带有广泛的宣传资料和文档。
- jasonlin316/RISC-V-CPU - V 5 级流水线 CPU。使用 U18 技术流片。这是一个 32 位 5 级流水线 RISC-V CPU,支持基本指令和一些向量运算。为了流片,还要进行栅极级合成和APR。仿真由NC-verilog完成,并由Desgin Compiler合成。该芯片已于2019年12月2日进行了测试,所有功能均正常工作。
- larsbrinkhoff/awesome-cpus
-
-
Python 程序
-
网络服务_其他
- Davy-Zhou/zip2pdf
- Python-programming-exercises
- python/cpython
- jobbole/awesome-python-cn
- mouredev/Hello-Python
- jackfrued/Python-100-Days
- Asabeneh/30-Days-Of-Python
- satwikkansal/wtfpython
- yidao620c/python3-cookbook
- joaoventura/full-speed-python
- trekhleb/learn-python
- jerry-git/learn-python3
- microsoft/playwright-python
- leisurelicht/wtfpython-cn
- hoffstadt/DearPyGui
- sympy/sympy
- geekcomputers/Python
- emeryberger/scalene
- pyenv/pyenv
- bloomberg/memray
- joerick/pyinstrument
- psf/black
- chriskiehl/Gooey
- Yixiaohan/codeparkshare
- spotify/chartify
- matplotlib/matplotlib
- matplotlib/cheatsheets
- nvbn/thefuck
- jupyter/notebook
- benfred/py-spy - spy的开销非常低:它是用 Rust 编写的,以提高速度,并且不会在与分析的 Python 程序相同的进程中运行。这意味着py-spy可以安全地用于生产Python代码。
- ManimCommunity/manim
- dabeaz-course/practical-python
- jackfrued/Python-Core-50-Courses
- pandas-dev/pandas
- pymupdf/PyMuPDF
- postmanlabs/httpbin
- modularml/mojo
- pybind/pybind11
- kitao/pyxel
- pytest-dev/pytest
- x-hw/amazing-qr - Python amazing QR 生成器(支持 gif 动态图片二维码)
- Nuitka/Nuitka
- jackzhenguo/python-small-examples
- faif/python-patterns
- Jack-Cherish/PythonPark
- astral-sh/ruff
- python-poetry/poetry
- google/python-fire
- pypa/pip
- jazzband/pip-tools
- mitsuhiko/rye
- pypa/pipenv
- kivy/python-for-android
- navdeep-G/setup.py
- pypa/hatch - 3 倍
- pdm-project/pdm
- cookiecutter/cookiecutter
- kivy/kivy
- theskumar/python-dotenv
- tqdm/tqdm
- microsoft/pyright
- PySimpleGUI/PySimpleGUI
- cool-RR/PySnooper - x ,只是它更高级。
- pyscript/pyscript
- xianhu/LearnPython
- psf/requests
- huangsam/ultimate-python
- pamoroso/free-python-books
- junnplus/awesome-python-books
- xxg1413/python
- thonny/thonny
- plotly/plotly.py
- pyecharts/pyecharts
- mwaskom/seaborn
- google/yapf - format(由 Daniel Jasper 开发)的 Py 格式化程序。该算法获取代码并计算符合配置样式的最佳格式。它消除了维护代码的很多苦差事。
- getpelican/pelican
- pyinstaller/pyinstaller
- marceloprates/prettymaps
- dabeaz-course/python-mastery - Wesley) 的作者。在知识共享许可下发布。
- gto76/python-cheatsheet
- norvig/pytudes
- walter201230/Python
- python/mypy
- pydantic/pydantic
- ipython/ipython
- mahmoud/awesome-python-applications
- psf/pyperf
- joke2k/faker
- Delgan/loguru
- fabric/fabric
- pallets/click
- avinashkranjan/Amazing-Python-Scripts
- facebook/pyre-check: Performant type-checking for python.
- arrow-py/arrow
- exaloop/codon - 100 倍或更多。密码子的性能通常与 C/C++ 相当(有时甚至更好)。与 Python 不同,Codon 支持原生多线程,这可以使速度提高许多倍。
- mahmoud/boltons
- gruns/icecream
- realpython/python-guide
- gaogaotiantian/viztracer
- bee-san/pyWhat
- taizilongxu/interview_python
- reloadware/reloadium
- TomSchimansky/CustomTkinter
- borgbackup/borg
- MagicStack/uvloop
- mwouts/jupytext
- giampaolo/psutil
- Textualize/textual
- ijl/orjson
- jupyterlab/jupyterlab-git
- damianavila/RISE
- jupyter/nbdime
- voila-dashboards/voila
- jazzband/tablib
- robotframework/robotframework
- tebelorg/RPA-Python
- python-visualization/folium
- davidhalter/jedi - Plugin。REPL中的自动完成也是可能的,IPython本机使用它,对于CPython REPL,您可以安装它。绝地武士经过了很好的测试,错误应该很少见。
- ActivityWatch/activitywatch
- xxg1413/python
- vinta/awesome-python
-
-
区块链、智能合约
-
网络服务_其他
- chaozh/awesome-blockchain-cn
- bitcoin/bitcoin
- ethereum/go-ethereum
- ethereum/solidity
- imfly/bitcoin-on-nodejs
- OpensourceBooks/blockchain
- yeasy/blockchain_guide
- dvf/blockchain
- anders94/blockchain-demo
- Jeiwan/blockchain_go
- liuchengxu/blockchain-tutorial
- The-Hitchhiker-s-Guide-to-the-Blockchain-Sec
- Rivaill/CryptoVulhub
- bunturx/Awesome-Blockchain-Security
- FuelLabs/sway
- ccxt/ccxt
- diem/diem
- monero-project/monero
- bitcoinbook/bitcoinbook - 对开放区块链进行编程
- kroma-network/tachyon
- xmrig/xmrig - hard)哈希函数,内存难解主要是指运算过程中需要大量的暂存器,一般的 GPU 或 ASIC 很难做到有这么大的内存空间(因为成本太高),设计架构上对 GPU, FPGA 和 ASIC 不友好,其运算步骤大概分为四步,第一步:初始化大量伪随机数(存放在暂存器),伪随机指的是结果看起来像的随机产生,但每次输入相同的参数,结果都是一样的,(大概需要 2M 内存)第二步:对这些伪随机数进行大量读写操作,运算过程及中间需要保存的数据对于 GPU 或 ADIC 来说也是不友好的,(大概需要 524,288 次)第三步:源数据替换,第四步:选择合适的哈希算法,并对所有的数据进行哈希运算以得到最终结果(这里的哈希运行能确保最终生成的数据长度是相同的)。GhostRider是专门为Raptoreum创建的算法。它的构建旨在阻止专用硬件(例如ASIC和FPGA)的出现,从而使任何人都可以竞争性地挖掘它并增加总体分散性。
- HelloZeroNet/ZeroNet
- freqtrade/freqtrade
- status-im/status-mobile - ethereum 直接在您的设备上运行。
- OpenZeppelin/openzeppelin-contracts
- OffcierCia/DeFi-Developer-Road-Map
- MetaMask/metamask-extension
- FuelLabs/fuel-core
- FuelLabs/fuels-rs
- FuelLabs/fuels-ts
- Consensys/smart-contract-best-practices
- ethers-io/ethers.js
- smartcontractkit/full-blockchain-solidity-course-py - 从初学者到专家的完整课程 |Python 版本
- smartcontractkit/full-blockchain-solidity-course-js
- ethereumbook/ethereumbook
- trufflesuite/truffle
- solana-labs/solana
- AmazingAng/WTF-Solidity - 3讲。
- sismo-core/sismo-badges
- bkrem/awesome-solidity
- scaffold-eth/scaffold-eth-2
- foundry-rs/foundry
- Uniswap/web3-react
- web3/web3.js
- fltenwall/web3-awesome
- iptv-org/awesome-iptv
- zhuima/awesome-cloudflare
- slowmist/Blockchain-dark-forest-selfguard-handbook
- krzyzanowskim/CryptoSwift
-
-
推荐系统算法库与列表
-
网络服务_其他
- shenweichen/DeepCTR
- hongleizhang/RSPapers
- YuyangZhangFTD/awesome-RecSys-papers
- ChenglongChen/tensorflow-DeepFM
- twitter/the-algorithm
- cheungdaven/DeepRec
- lyst/lightfm
- tensorflow/recommenders
- RUCAIBox/RecBole - 物品的交互可以补全KG,增强KG中缺少的事实,最终使两个部分都得到加强。MKR(Multi-task Learning for KG enhanced Recommendation 融合KG和RC) 左边是推荐任务,用户和物品的特征表示作为输入,预测点击率y 右边是知识图谱任务。三元组的头结点h和关系r表示作为输入,预测的尾节点t 两者的交互由一个cross-feature-sharing units完成,由于物品向量和实体向量实际上是对同一个对象的两种描述,他们之间的信息交叉共享可以让两者都获得来自对方的额外信息,从而弥补了自身的信息稀疏性的不足。ippleNet,BERT4Rec,Caser,DIN,FDSA,FPMC,GCSAN,GRU4Rec,GRU4RecF,GRU4RecKG,KSR,NARM,NextItNet,S3Rec,SASRec,SASRecF,SRGNN,STAMP,TransRec。
- pytorch/torchrec
- Coder-Yu/QRec
- datawhalechina/torch-rechub - learn风格易用的API。模型训练与模型定义解耦,易拓展,可针对不同类型的模型设置不同的训练机制。接受pandas的DataFrame、Dict数据输入,上手成本低。高度模块化,容易调用组装成新模型 LR、MLP、FM、FFM、CIN、target-attention、self-attention、transformer。支持常见排序模型 WideDeep、DeepFM、DIN、DCN、xDeepFM等。支持常见召回模型 DSSM、YoutubeDNN、YoutubeDSSM、FacebookEBR、MIND等。多任务学习支持SharedBottom、ESMM、MMOE、PLE、AITM等模型。 GradNorm、UWL、MetaBanlance等动态loss加权机制。
- shenweichen/DeepMatch
- PaddlePaddle/PaddleRec
- openbenchmark/BARS
- PersiaML/PERSIA
- wangshusen/RecommenderSystem
- CHIANGEL/Awesome-LLM-for-RecSys
- WLiK/LLM4Rec-Awesome-Papers
- HKUDS/LLMRec - i 交互边缘,ii) 增强项目节点属性,以及 iii) 从自然语言的角度直观地进行用户节点分析来增强交互图。
- HKUDS/RLMRec
- THUwangcy/ReChorus - K推荐的通用PyTorch框架,具有隐式反馈,尤其是用于研究目的。BPR NCF Tensor GRU4Rec NARM SASRec TiSASRec CFKG SLRC Chorus
- NVIDIA/HugeCTR - Through-Rate (CTR) estimating training ,在Embedding lookup上做了很多优化,可以轻易的通过数据和模型并行的方式将模型扩展到TB级别,在大规模参数的背景下,这给挖掘模型能力提供了更多的想象力。同时更快的训练速度也让算法工程师能够尝试更多的网络结构,挖掘最适合所研究问题的模型。
- microsoft/recommenders - Rec SUM Standard VAE SVD TF-IDF Vowpal Wabbit (VW)* Wide and Deep FM&FFM
- AmazingDD/daisyRec
- wubinzzu/NeuRec
- guoguibing/librec
- alibaba/EasyRec
- PKU-DAIR/GNN-in-RS
- NicolasHug/Surprise
- caserec/CaseRecommender
- grahamjenson/list_of_recommender_systems
- mengfeizhang820/Paperlist-for-Recommender-Systems
- alibaba/DeepRec
- Transformers4Rec
- ZiyaoGeng/Recommender-System-with-TF2.0
- NVIDIA/NVTabular
- NVIDIA/HugeCTR - Through-Rate (CTR) estimating training ,在Embedding lookup上做了很多优化,可以轻易的通过数据和模型并行的方式将模型扩展到TB级别,在大规模参数的背景下,这给挖掘模型能力提供了更多的想象力。同时更快的训练速度也让算法工程师能够尝试更多的网络结构,挖掘最适合所研究问题的模型。
- facebookresearch/torchrec
- openbenchmark/BARS
- huawei-noah/FuxiCTR
-
-
图像恢复
-
网络服务_其他
- microsoft/Bringing-Old-Photos-Back-to-Life
- TaoWangzj/Awesome-Face-Restoration
- sczhou/CodeFormer
- upscayl/upscayl
- xinntao/Real-ESRGAN
- zhangmozhe/Deep-Exemplar-based-Video-Colorization
- JingyunLiang/SwinIR
- yangxy/GPEN
- bilibili/ailab
- nagadomi/waifu2x
- andreas128/RePaint
- AaronFeng753/Waifu2x-Extension-GUI - ESRGAN、Real-CUGAN、RTX Video Super Resolution VSR、SRMD、RealSR、Anime4K、RIFE、IFRNet、CAIN、DAIN 和 ACNet 实现。
-
-
光学字符识别OCR
-
网络服务_其他
- ouyanghuiyu/chineseocr_lite
- JiaquanYe/TableMASTER-mmocr
- breezedeus/cnocr
- alibabaresearch/advancedliteratemachinery - 4和GPT-4V。
- naptha/tesseract.js
- JiaquanYe/MASTER-mmocr - Aspect Non-local Network for Scene Text Recognition (场景文本识别)的重新实现。
- PaddlePaddle/PaddleOCR
- hiroi-sora/Umi-OCR
- FudanVI/benchmarking-chinese-text-recognition - 34 作为编码器,使用自注意力模块作为解码器,与基于 RNN 的解码器不同,自注意力模块更有效地捕获给定文本图像的语义特征。
- adeline-cs/GTR
- lukas-blecher/LaTeX-OCR
- Layout-Parser/layout-parser
- phamquiluan/PubLayNet
- JaidedAI/EasyOCR
- ocrmypdf/OCRmyPDF
- RapidAI/RapidOCR
- breezedeus/Pix2Text
-
-
视频生成、补帧、摘要
-
网络服务_其他
- hpcaitech/Open-Sora - Sora 不仅使对高级视频生成技术的访问民主化,而且还提供了一个简化且用户友好的平台,简化了视频制作的复杂性。通过Open-Sora,我们的目标是在内容创作领域激发创新、创造力和包容性。Open-Sora 1.1,它支持 2s~15s、144p 到 720p、任意宽高比的文本到图像、文本到视频、图像到视频、视频到视频、无限时间生成。此外,还发布了完整的视频处理流水线。
- PKU-YuanGroup/Open-Sora-Plan - Sora-Plan v1.1.0,它显着增强了视频生成质量和文本控制功能。该项目旨在创建一个简单且可扩展的存储库,以重现 Sora(OpenAI,但我们更愿意将其称为“ClosedAI”)。我们希望开源社区能够为这个项目做出贡献。欢迎拉取请求!!本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前版本离目标差距仍然较大,仍需持续完善和快速迭代。项目阶段:设置代码库并在landscape景观数据集上训练无条件模型。训练可提高分辨率和持续时间的模型。在landscape景观数据集上进行text2video实验。在 video2text 数据集上训练 1080p 模型。具有更多条件的控制模型。
- Justin62628/Squirrel-RIFE
- baowenbo/DAIN
- nihui/dain-ncnn-vulkan - ncnn-vulkan 使用 ncnn 项目作为通用神经网络推理框架。
- HumanAIGC/EMO
- nihui/rife-ncnn-vulkan
- myungsub/CAIN
- nihui/cain-ncnn-vulkan
- RayVentura/ShortGPT
- TMElyralab/MusePose - AnimateAnyone 实现的 AnimateAnyone。
- TMElyralab/MuseTalk
- TMElyralab/MuseV
- MooreThreads/Moore-AnimateAnyone
- damo/cv_googlenet_pgl-video-summarization
-
-
对象检测、分割
-
网络服务_其他
- facebookresearch/segment-anything
- ultralytics/ultralytics
- ultralytics/yolov3
- CVHub520/X-AnyLabeling - AnyLabeling 是一款基于AI推理引擎和丰富功能特性于一体的强大辅助标注工具,其专注于实际应用,致力于为图像数据工程师提供工业级的一站式解决方案,可自动快速进行各种复杂任务的标定。关键功能:支持GPU推理加速;支持图像和视频处理;支持单帧和批量预测所有任务;支持自定义模型和二次开发设计;支持一键导入和导出主流的标签格式,如COCO\VOC\YOLO\DOTA\MOT\MASK;支持多种图像标注样式,包括 :多边形、矩形、旋转框、圆形、线条、点,以及 文本检测、识别 和 KIE 标注;支持各类视觉任务,如图像分类、目标检测、实例分割、姿态估计、旋转检测、多目标跟踪、光学字符识别、图像文本描述、车道线检测、分割一切系列等。
- mikel-brostrom/boxmot - NAS 和 YOLOX)一起使用的示例。
- open-mmlab/mmdetection
- microsoft/Swin-Transformer - attention 计算限制在不重叠的本地窗口上,同时还允许跨窗口连接,从而带来更高的效率。将 CLIP 预训练的 ViT-L 提高了 +1.6%,以达到ImageNet-1K 图像分类,这是最准确的 ViT-L 模型。在 COCO 对象检测(58.7 box AP和51.1 mask APtest-dev)和 ADE20K 语义分割(53.5 mIoU在 val)上实现了强大的性能,大大超过了以前的模型。
- IDEA-Research/Grounded-Segment-Anything - DINO与Segment Anything & Stable Diffusion相结合,识别任何内容-自动检测、分割和生成任何内容
- facebookresearch/detr - CNN 与 ResNet-50 匹配,使用一半的计算能力 (FLOP) 和相同数量的参数在 COCO 上获得 42 个 AP。在 50 行 PyTorch 中进行推理。
- vietanhdev/anylabeling
- caoyunkang/GPT4V-for-Generic-Anomaly-Detection - 4V(ision),一种强大的视觉语言模型,以通用方式处理异常检测任务。我们研究了GPT-4V在多模态、多域异常检测任务中的应用,包括图像、视频、点云和时间序列数据,涉及工业、医疗、逻辑、视频、3D异常检测和定位等多个应用领域。为了提高 GPT-4V 的性能,我们加入了不同类型的附加提示,例如班级信息、人类专业知识和参考图像作为提示。根据我们的实验,GPT-4V 被证明在检测和解释零/单次异常检测中的全局和细粒度语义模式方面非常有效。这样可以准确区分正常和异常实例。总体而言,GPT-4V在通用异常检测和理解方面表现出良好的性能,从而为异常检测开辟了一条新的途径。
- PeterL1n/BackgroundMattingV2 - Time High-Resolution Background Matting 的官方存储库。我们的模型需要捕获额外的背景图像,并在 Nvidia RTX 2080 TI GPU 上以 4K 30fps 和 HD 60fps 的速度产生最先进的抠图效果。
- PaddlePaddle/PaddleSeg
- mrgloom/awesome-semantic-segmentation
- open-mmlab/mmsegmentation
- PaddlePaddle/PaddleDetection
- google-research/kubric
- megvii-model/YOLOF
- JosephKJ/OWOD
- RangiLyu/nanodet
- jizhishutong/YOLOU
- ultralytics/yolov5
- meituan/YOLOv6
- xuebinqin/U-2-Net - Net:使用嵌套 U 结构进行突出对象检测的深入发展”。
- iscyy/yoloair
- PaddlePaddle/PaddleClas - HGNet、PP-LCNetv2、PP-LCNet和SSLD 半监督干式网络知识模型等模型,在此基础上打造PULC 超轻量级分类分类方案和PP-ShiTu图像识别系统。
- Hawkeye-FineGrained/Hawkeye - Parts (CVPR 2020) ProtoTree (CVPR 2021)。基于注意力机制:OSME+MAMC (ECCV 2018) MGE-CNN (ICCV 2019) APCNN (IEEE TIP 2021) 。基于高阶特征交互: BCNN (ICCV 2015) CBCNN (CVPR 2016) Fast MPN-COV (CVPR 2018) 。基于特殊损失函数: Pairwise Confusion (ECCV 2018) API-Net (AAAI 2020) CIN (AAAI 2020) 。基于网络数据: Peer-Learning (ICCV 2021) 其他方法 NTS-Net (ECCV 2018) CrossX (ICCV 2019) DCL (CVPR 2019)。
- lucidrains/vit-pytorch
- alibaba/EasyCV
- ibm-aur-nlp/PubLayNet
- zongdai/AutoShape
- facebookresearch/detectron2
- cfzd/Ultra-Fast-Lane-Detection
- Megvii-BaseDetection/YOLOX - free的方式,并结合其他先进的检测技术,如decouple head和标签分配策略SimOTA,实现了当前目标检测最优性能。
- hoya012/deep_learning_object_detection
- yuantn/MI-AOD - AOD,通过观察示例级的不确定性来选择信息量最大的图像用于检测器的训练。
- microsoft/SoftTeacher
- raoyongming/DenseCLIP
- dddzg/up-detr
- Megvii-BaseDetection/DeFCN
- HRNet/HRFormer
- Sense-X/UniFormer
- bytedance/ibot
- hkchengrex/XMem - Shiffrin 进行长期视频对象分割
- ytongbai/ViTs-vs-CNNs
- open-mmlab/mmrotate
- MediaBrain-SJTU/RegAD
- NVlabs/MinVIS
- AlexeyAB/darknet - YOLOv4 / YOLO
- ttengwang/Caption-Anything
- WZMIAOMIAO/deep-learning-for-image-processing
- satellite-image-deep-learning/techniques
- wkentaro/labelme
- facebookresearch/Detectron - CNN和RetinaNet等流行算法。
- jolibrain/deepdetect
- jacobgil/pytorch-grad-cam
- roboflow/supervision
- lucasjinreal/yolov7_d2
- nadermx/backgroundremover
- qubvel/segmentation_models.pytorch
- NVlabs/FoundationPose
-
-
图像风格
-
网络服务_其他
- mchong6/GANsNRoses
- williamyang1991/VToonify
- mchong6/JoJoGAN
- orpatashnik/StyleCLIP
- syz825211943/Multi-Style-Photo-Cartoonization
- bryandlee/animegan2-pytorch
- TachibanaYoshino/AnimeGANv2
- SHI-Labs/Versatile-Diffusion - 文本双引导生成、潜在图像到文本到图像编辑等。
- FrozenBurning/Text2Light
- junyanz/CycleGAN
- NVIDIA/FastPhotoStyle
- lengstrom/fast-style-transfer
- fogleman/primitive
-
-
异构图、 异质图
-
网络服务_其他
- THUDM/cogdl
- BUPT-GAMMA/OpenHGNN - AC[WWW 2021]、HeCo[KDD 2021]、HPN[TKDE 2021]、RHGNN[arxiv]
- Jhy1993/HAN
- brxx122/HeterSumGraph
- chuxuzhang/KDD2019_HetGNN
- acbull/pyHGT
- Googlebaba/KDD2019-MEIRec
- Andy-Border/HGSL
- yuduo93/THIGE
- iqiyi/HMGNN
- kepsail/ie-HGCN
- AutoML-Research/DiffMG
- jindi-tju/HGNN-AC - 通过属性完成的异构图神经网络”的源代码
- safe-graph/GNN-FakeNews
- liun-online/HeCo
- NSSSJSS/MHGCN
-
-
图注意力机制
-
网络服务_其他
- PetarV-/GAT
- inyeoplee77/SAGPool - Attention Graph Pooling torch 自我注意力图池化
- dongkwan-kim/SuperGAT
- graphdeeplearning/graphtransformer
- Graph-COM/GSAT - MolHiv榜单上达到SOTA(在不使用手工设计的专家特征的模型中)。
- Diego999/pyGAT
-
-
图嵌入、网络表征学习
-
网络服务_其他
- thunlp/OpenKE
- DeepGraphLearning/graphvite
- shenweichen/GraphEmbedding
- thunlp/Fast-TransX - TransX这是TransE及其扩展模型用于知识表示学习的高效轻量级实现,包括 TransH、TransR、TransD、TranSparse 和 PTransE。[TensorFlow版](https://github.com/thunlp/TensorFlow-TransX)
- thunlp/NRLPapers
- Wentao-Xu/SEEK
- woojeongjin/dynamic-KG
- awslabs/dgl-ke
- leoribeiro/struc2vec
- HLTCHKUST/ke-dialogue
- aditya-grover/node2vec
- thunlp/OpenNE
- Shubhranshu-Shekhar/ctdne
- TUM-DAML/pprgo_pytorch
- Malllabiisc/CompGCN - GCN提出的Encoder-Decoder框架,在编码阶段将Entity Embedding和Realtion Embedding进行组合Aggregation,然后在解码阶段再采用类似TransE/H或者ConvE等方式对(h,r,t)三元组进行解码。因为它在编码阶段就引入了Realtion,使用同一套Realtion Embedding,使得表征学习更加精准。
- TimDettmers/ConvE
- daiquocnguyen/ConvKB
- kavehhassani/mvgrl
- phanein/deepwalk
- KDDCUP_2020_AutoGraph_1st_Place
- JinheonBaek/GMT
- jwzhanggy/Graph-Bert
-
-
图预训练 Pre-Training of Graph
-
网络服务_其他
- THUDM/GCC - Training 用于图形神经网络预训练的图形对比编码,下游任务:节点分类、图分类、相似性搜索。
- acbull/GPT-GNN - Training of Graph Neural Networks 图神经网络的生成式预训练。在预处理阶段,算法会首先随机地遮盖掉图中的一些边和点,利用生成模型来生成(预测)这些边的存在和节点的属性。模型的损失函数会使得预测的结果尽量接近真实的网络结构。这样的话,在GPT-GNN训练完成后,其内部的图神经网络层就可以被拿出来进行调优。
- rootlu/L2P-GNN
- Shen-Lab/GraphCL - hop的Subgraph,通过最大化两个Subgraph之间的相似度来进行自监督学习。
-
-
图对抗攻击
-
网络服务_其他
- EdisonLeeeee/Graph-Adversarial-Learning
- danielzuegner/robust-gcn - based Graph Convolution Layer) 、采用attention机制为聚合的邻居特征分配权重。
- ChandlerBang/Pro-GNN
- DSE-MSU/DeepRobust
- ChandlerBang/awesome-graph-attack-papers
- MengmeiZ/LafAK
- snap-stanford/gib - Cat 和 GIB-Bern,二者在抵御对抗攻击时取得了优异的性能。 图信息Bottleneck打造图最优表示->避免过拟合,并具备稳健性
- mims-harvard/GNNGuard
-
-
图聚合_节点聚合
-
图卷积网络
-
网络服务_其他
- benedekrozemberczki/ClusterGCN
- tkipf/relational-gcn
- MichSchli/RelationPrediction
- JD-AI-Research-Silicon-Valley/SACN - TransE的卷积网络的解码器组成。WGCN利用知识图节点结构,节点属性和边缘关系类型。解码器Conv-TransE使最新的ConvE能够在实体和关系之间转换,同时保持与ConvE相同的链路预测性能。
- zhiyongc/Graph_Convolutional_LSTM
- Jiakui/awesome-gcn
- tkipf/gcn - gcn)
- karenlatong/AGC-master
- TAMU-VITA/L2-GCN
- mdeff/cnn_graph
- tkipf/pygcn
-
-
图监督_半监督_对比学习
-
网络服务_其他
- THUDM/GRAND - entropy loss 之外,还会优化模型在无标签节点的多次数据增强的预测一致性。节点预测 state of the Art.
- LirongWu/awesome-graph-self-supervised-learning - supervised Learning)最新综述+Github代码汇总
- RingBDStack/SUGAR
- lxiaorui/ElasticGNN
- SXKDZ/awesome-self-supervised-learning-for-graphs
- GraphCL/PyGCL
-
-
数据搜索引擎
-
网络服务_其他
- searx/searx
- benbusby/whoogle-search
- elastic/elasticsearch
- typesense/typesense
- openobserve/openobserve - Elasticsearch/Splunk/Datadog 替代(日志、指标、跟踪)。OpenObserve(简称 O2)是一个云原生可观测性平台,专为日志、指标、跟踪、分析、RUM(真实用户监控 - 性能、错误、会话回放)而构建,旨在以 PB 级规模工作。它简单易用,与需要理解和调整大量设置的 Elasticsearch 形成鲜明对比。在 2 分钟内启动并运行 OpenObserve。OpenObserve 是 Elasticsearch 的无缝替代品,适用于使用 API 采集数据并执行搜索的用户。OpenObserve 自带用户界面,无需单独安装。与 Elasticsearch 相比,使用 OpenObserve,您可以将日志存储成本降低 ~140 倍。下面,我们将介绍使用 Fluent Bit 将日志从生产 Kubernetes 集群推送到 Elasticsearch 和 OpenObserve 的结果。
- zincsearch/zincsearch
- apache/lucene-solr
- valeriansaliou/sonic
- opensearch-project/OpenSearch
- quickwit-oss/tantivy
- deviantony/docker-elk
- chrismattmann/tika-python - Python 是与 Apache Tika REST 服务的 Python 绑定,允许在 Python 社区中本地调用 Tika™。Apache Tika 是一个内容分析工具包,可以检测上千种文件类型,并提取它们的元数据和文本。tika在设计上十分精巧,单一的接口使它易于使用,在搜索引擎索引,内容分析,翻译等诸多方面得到了广泛使用。
- appbaseio/dejavu
- oramasearch/orama
- nextapps-de/flexsearch
- RediSearch/RediSearch
- GerevAI/gerev
- amazon-science/esci-data
- searxng/searxng
-
-
安卓Android
-
加密、密码破解、字典
-
网络服务_其他
- openssl/openssl
- 0xHJK/TotalPass
- certbot/certbot
- bitsadmin/fakelogonscreen
- gentilkiwi/mimikatz - the-hash、pass-the-ticket 或构建*Golden Tickets*。
- hashcat/hashcat
- JDArmy/SharpXDecrypt
- L-codes/pwcrack-framework
- Leon406/ToolsFx
- sry309/PwdBUD
- 914525753/Sh4d0w-BlastingDictionary
- whiteknight7/wordlist
- t43Wiu6/blackJack-Dicts
- Karanxa/Bug-Bounty-Wordlists
- insightglacier/Dictionary-Of-Pentesting
- liamg/dismember
- zapstiko/wordlists
- drduh/YubiKey-Guide
- getsops/sops
- massgravel/Microsoft-Activation-Scripts
- pyca/cryptography
- keepassxreboot/keepassxc
- gravitational/teleport
- Infisical/infisical
- jedisct1/libsodium
- moonD4rk/HackBrowserData
- keeweb/keeweb
- fail2ban/fail2ban
- Ciphey/Ciphey
- Cyan4973/xxHash
-
-
知识管理 wiki知识库
Programming Languages
Categories
文本生成、文本对话
1,107
前端开发框架及项目
568
网络服务
382
其他_机器视觉
298
其他
290
其他_安全与渗透
255
NLP语料和数据集
244
后端开发框架及项目
212
其他_机器学习与深度学习
168
其他__大数据
167
时间序列
144
Python 程序
121
硬件_其他
120
其他_NLP自然语言处理
114
其他_推荐系统
110
数据库管理系统
108
计算机编程 数据结构与算法
108
JavaScript框架
99
扫描器、资产收集、子域名
93
其他_生物医药
90
Rust 程序设计
84
Android 应用
79
终端
73
语音合成
70
C/C++ 程序设计
66
游戏
64
人像\姿势\3D人脸
61
对象检测、分割
61
CPU RISC-V
59
编辑器
58
语音识别与合成_其他
56
其他_图神经网络GNN
50
区块链、智能合约
49
分子
48
Java 程序设计
44
Transformer库与优化
44
web shell、shellcode
44
知识图谱
42
推荐系统算法库与列表
41
Go 程序设计
41
Flutter 程序
41
金融股票
39
多模态大模型
39
文本匹配 文本检索 文本相似度
36
实体识别NER、意图识别、槽位填充
35
语音识别
35
蛋白质结构
33
关系抽取、信息抽取
32
加密、密码破解、字典
30
杀毒免杀、逆向工程
29
BERT优化
29
预训练模型
29
分布式机器学习
28
药物-靶标 药物-药物 化合物-蛋白质 相互作用
27
向量数据库、向量搜索、最近邻搜索
25
文本分类
24
知识图谱问答KBQA、多跳推理
24
文本摘要
23
图机器学习库
22
参数优化
22
时空网络_交通预测_动态图
22
图嵌入、网络表征学习
22
漏洞库、漏洞靶场
20
数据搜索引擎
19
光学字符识别OCR
17
梯度提升和树模型
16
机器阅读理解
16
异构图、 异质图
16
视频生成、补帧、摘要
15
图像风格
13
知识管理 wiki知识库
13
图像恢复
12
异常检测
12
图卷积网络
11
药物发现、药物设计
10
图对抗攻击
8
特征工程
7
安卓Android
7
神经网络结构搜索_Neural_Architecture_Search
6
图监督_半监督_对比学习
6
图注意力机制
6
图预训练 Pre-Training of Graph
4
图聚合_节点聚合
4
抗菌肽
3
神经网络结构搜索 Neural Architecture Search
2
Sub Categories
Keywords
python
537
javascript
398
deep-learning
389
machine-learning
357
llm
308
pytorch
306
chatgpt
284
ai
216
react
215
rust
211
typescript
193
awesome
189
nlp
186
openai
171
golang
169
android
168
large-language-models
166
java
164
awesome-list
155
go
152
gpt
145
linux
142
security
139
nodejs
137
database
131
docker
114
artificial-intelligence
109
natural-language-processing
103
windows
102
gpt-4
100
macos
95
cli
92
tensorflow
92
css
90
kubernetes
90
framework
90
llama
89
data-science
89
chatbot
89
transformers
87
computer-vision
86
vue
86
web
81
php
79
transformer
78
ios
77
bert
77
mysql
76
html
76
cpp
76