Projects in Awesome Lists tagged with quantization-aware-training

https://intel.github.io/neural-compressor/

SOTA low-bit LLM quantization (INT8/FP8/MXFP8/INT4/MXFP4/NVFP4) & sparsity; leading model compression techniques on PyTorch, TensorFlow, and ONNX Runtime

auto-tuning awq fp4 gptq int4 int8 knowledge-distillation large-language-models low-precision mxformat post-training-quantization pruning quantization quantization-aware-training smoothquant sparsegpt sparsity

Last synced: 09 Dec 2025

https://github.com/intel/neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

auto-tuning awq fp4 gptq int4 int8 knowledge-distillation large-language-models low-precision mxformat post-training-quantization pruning quantization quantization-aware-training smoothquant sparsegpt sparsity

Last synced: 12 May 2025

https://github.com/666DZY666/micronet

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、regular and group convolutional channel pruning; 3、 group convolution structure; 4、batch-normalization fuse for quantization. deploy: tensorrt, fp32/fp16/int8(ptq-calibration)、op-adapt(upsample)、dynamic_shape

batch-normalization-fuse bnn convolutional-networks dorefa group-convolution integer-arithmetic-only model-compression network-in-network network-slimming neuromorphic-computing onnx post-training-quantization pruning pytorch quantization quantization-aware-training tensorrt tensorrt-int8-python twn xnor-net

Last synced: 20 Mar 2025

https://github.com/openvinotoolkit/nncf

Neural Network Compression Framework for enhanced OpenVINO™ inference

bert classification compression deep-learning genai llm mixed-precision-training nlp object-detection onnx openvino pruning pytorch quantization quantization-aware-training semantic-segmentation sparsity tensorflow transformers

Last synced: 08 Apr 2026

https://github.com/alibaba/tinyneuralnetwork

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-learning deep-neural-networks model-compression model-converter post-training-quantization pruning pytorch quantization-aware-training

Last synced: 14 Oct 2025

https://github.com/SpursLipu/YOLOv3v4-ModelCompression-MultidatasetTraining-Multibackbone

YOLO ModelCompression MultidatasetTraining

mobilenetv3 modelcompression multidataset object-detection pruning quantization-aware-training yolo

Last synced: 20 Apr 2025

https://github.com/fastmachinelearning/hls4ml-tutorial

Tutorial notebooks for hls4ml

fpga hls4ml machine-learning pruning quantization-aware-training tutorial

Last synced: 16 May 2025

https://github.com/megvii-research/Sparsebit

A model compression and acceleration toolbox based on pytorch.

deep-learning post-training-quantization pruning quantization quantization-aware-training sparse tensorrt

Last synced: 12 May 2025

https://github.com/beomi/bitnet-transformers

0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture

llm quantization quantization-aware-training transformers

Last synced: 07 May 2025

https://github.com/sayakpaul/adventures-in-tensorflow-lite

This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.

inference model-optimization model-quantization on-device-ml post-training-quantization pruning quantization-aware-training tensorflow-2 tensorflow-lite tf-hub tf-lite-model

Last synced: 20 Sep 2025

https://github.com/sayakpaul/Adventures-in-TensorFlow-Lite

This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.

inference model-optimization model-quantization on-device-ml post-training-quantization pruning quantization-aware-training tensorflow-2 tensorflow-lite tf-hub tf-lite-model

Last synced: 09 Jul 2025

https://github.com/clovaai/frostnet

FrostNet: Towards Quantization-Aware Network Architecture Search

classification computer-vision deep-learning int8-quantization network-architecture object-detection optimizers post-quantization pytorch quantization quantization-aware-training quantization-efficient-network semantic-segmentation style-transfer

Last synced: 06 Oct 2025

https://github.com/hkproj/quantization-notes

Notes on quantization in neural networks

deep-learning neural-networks post-training-quantization pytorch quantization quantization-aware-training

Last synced: 06 May 2025

https://github.com/jahongir7174/yolov8-qat

Quantization Aware Training

int8-inference int8-quantization object-detection python pytorch quantization-aware-training yolov8

Last synced: 10 Apr 2025

https://github.com/jeshraghian/qsnns

Quantization-aware training with spiking neural networks

backpropagation deep-learning networks neural neuroscience quantization quantization-aware-training snn spiking spiking-neural-networks

Last synced: 14 Apr 2025

https://github.com/bharathsudharsan/cnn_on_mcu

Code for paper 'Multi-Component Optimization and Efficient Deployment of Neural-Networks on Resource-Constrained IoT Hardware'

c-code-generator cmsis-nn edge-computing efficient-inference graph-optimization neuralnetworks optimization quantization quantization-aware-training tflite tflite-conversion tinyml

Last synced: 20 Sep 2025

https://github.com/gulabpatel/knowledge_distillation

keras-neural-networks quantization quantization-aware-training teacher-student-learning tf-quantization tflite

Last synced: 20 Jun 2025

https://github.com/codelion/ellora

Enhancing LLMs with LoRA

accuracy-analysis chain-of-thought chain-of-thought-reasoning data-generation distillation fine-tune fine-tuning fine-tuning-llm finetuning finetuning-llms lora qlora quantization quantization-aware-training reasoning reinforcement-learning self-correction self-distillation supervised-finetuning training

Last synced: 23 Jul 2025

https://github.com/balditommaso/pylandscape

This project propose the loss landscape analysis as effective methodology to understand the robustness against natural perturbation of QNN.

loss-functions quantization-aware-training regularization-methods robustness

Last synced: 03 Apr 2026

https://github.com/tanyachutani/quantization_tensorflow

Quantization for Object Detection in Tensorflow 2.x

model-optimization object-detection post-training-quantization quantization quantization-aware-training tensorflow2

Last synced: 15 Oct 2025

https://github.com/gaurav-van/fine-tuning-llms

Introductory Guide where we will talk about Different Techniques of Fine Tuning LLMs

1-bit-quantization bitnet fine-tuning finetuning-llms gemma llama2 llms lora post-training-quantization qlora quantization quantization-algorithms quantization-aware-training quantization-from-scratch

Last synced: 09 Apr 2025

https://github.com/nagababumo/-on-device-ai

cpu gpu image-segmentation image-semantic-segmentation image-semantics npu on-device on-device-ai qualcomm quantization quantization-aware-training

Last synced: 16 Jul 2025

https://github.com/omidghadami95/efficientnetv2_quantization_ck

EfficientNetV2 (Efficientnetv2-b2) and quantization int8 and fp32 (QAT and PTQ) on CK+ dataset . fine-tuning, augmentation, solving imbalanced dataset, etc.

ckplus efficientnet efficientnetv2 efficientnetv2-b2 emotion-recognition facial-emotion-recognition googlecolab imbalanced-dataset keras post-training-quantization ptq python qat quantization quantization-aware-training real-time-emotion-classification real-time-emotion-detection scale-down tensorflow

Last synced: 22 Feb 2025

https://github.com/amajji/llm-quantization-techniques-absmax-zeropoint-gptq-gguf

LLM quantization techniques: absmax, zero-point, GPTQ and GGUF

absmax absolute ggml gguf gptq llamacpp llm ptq quantization quantization-aware-training zeropoint

Last synced: 05 Jan 2026

https://github.com/sivakiran7/finetuning_llm

llm-fine-tuning lora qlora quantization quantization-aware-training

Last synced: 15 Sep 2025

https://github.com/sandergi/yades

YOLOv8 Animal Detection for Embedded Systems. 97% test accuracy in just 400kb (about the same size as the photos it classifies or 1 second of video). Various quantization, pruning, and distillation techniques for vision models are explored.

animal-detection classification cnn distillation pruning quantization quantization-aware-training yolov8

Last synced: 24 Dec 2025

https://github.com/sukanyabag/finetuning-qwen2-7b-vqa-on-radiology-scans

This repository is doing the finetuning of the Qwen2 7B VLM for performing VQA (Visual Question Answering) on various kinds of patient radiologies or medical scans.

adapter-tuning deep-learning finetuning generative-ai healthcare lora quantization-aware-training vision-language-models visual-question-answering

Last synced: 28 Dec 2025

https://github.com/ambidextrous9/quantization-of-models-ptq-and-qat

Quantization of Models : Post-Training Quantization(PTQ) and Quantize Aware Training(QAT)

keras ptq pytorch pytorch-implementation qat quantization quantization-aware-training tflite tflite-models

Last synced: 21 Aug 2025

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome