{"id":102888,"url":"https://github.com/wlfeng0509/Awesome-Diffusion-Quantization","name":"Awesome-Diffusion-Quantization","description":"A list of papers, docs, codes about diffusion quantization.This repo collects various quantization methods for the Diffusion Models. Welcome to PR the works (papers, repositories) missed by the repo.","projects_count":59,"last_synced_at":"2026-06-02T04:00:28.693Z","repository":{"id":295352075,"uuid":"989882620","full_name":"wlfeng0509/Awesome-Diffusion-Quantization","owner":"wlfeng0509","description":"A list of papers, docs, codes about diffusion quantization.This repo collects various quantization methods for the Diffusion Models. Welcome to PR the works (papers, repositories) missed by the repo.","archived":false,"fork":false,"pushed_at":"2026-02-02T08:23:57.000Z","size":9,"stargazers_count":18,"open_issues_count":0,"forks_count":1,"subscribers_count":0,"default_branch":"main","last_synced_at":"2026-05-16T15:05:26.010Z","etag":null,"topics":["awesome","diffusion-models","model-acceleration","model-compression","model-quantization"],"latest_commit_sha":null,"homepage":"","language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/wlfeng0509.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null,"notice":null,"maintainers":null,"copyright":null,"agents":null,"dco":null,"cla":null}},"created_at":"2025-05-25T03:14:19.000Z","updated_at":"2026-04-30T13:32:07.000Z","dependencies_parsed_at":"2026-03-02T14:00:37.262Z","dependency_job_id":null,"html_url":"https://github.com/wlfeng0509/Awesome-Diffusion-Quantization","commit_stats":null,"previous_names":["cantbebetter2/awesome-diffusion-quantization","wlfeng0509/awesome-diffusion-quantization"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/wlfeng0509/Awesome-Diffusion-Quantization","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/wlfeng0509%2FAwesome-Diffusion-Quantization","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/wlfeng0509%2FAwesome-Diffusion-Quantization/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/wlfeng0509%2FAwesome-Diffusion-Quantization/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/wlfeng0509%2FAwesome-Diffusion-Quantization/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/wlfeng0509","download_url":"https://codeload.github.com/wlfeng0509/Awesome-Diffusion-Quantization/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/wlfeng0509%2FAwesome-Diffusion-Quantization/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":33805341,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-05-26T15:22:16.424Z","status":"online","status_checked_at":"2026-06-02T02:00:07.132Z","response_time":109,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"created_at":"2026-01-02T00:00:41.771Z","updated_at":"2026-06-02T04:00:28.693Z","primary_language":null,"list_of_lists":false,"displayable":true,"categories":["Papers"],"sub_categories":["2024","2023","2025","2026"],"readme":"# Awesome-Diffusion-Quantization [![Awesome](https://awesome.re/badge.svg)](https://awesome.re)\r\n\r\nA list of papers, docs, codes about diffusion quantization. This repo collects various quantization methods for the Diffusion Models.  Welcome to PR the works (papers, repositories) missed by the repo. \r\n\r\n## Contents\r\n\r\n* [Papers](#Papers)\r\n  * [2025](#2025)\r\n  * [2024](#2024)\r\n  * [2023](#2023)\r\n\r\n## Papers\r\n\r\n### 2026\r\n\r\n* [[AAAI]](https://arxiv.org/abs/2503.06564) TR-DQ: Time-Rotation Diffusion Quantization\r\n* [[ICLR]](https://arxiv.org/abs/2509.23681) QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [[code]](https://github.com/wlfeng0509/QuantSparse) ![](https://img.shields.io/github/stars/wlfeng0509/QuantSparse)\r\n* [[ICLR]](https://arxiv.org/abs/2505.11497) QVGen: Pushing the Limit of Quantized Video Generative Models[[code]](https://github.com/ModelTC/QVGen)![](https://img.shields.io/github/stars/ModelTC/QVGen)\r\n\r\n* [[ICLR]](https://arxiv.org/abs/2503.02508) Q\u0026C: When Quantization Meets Cache in Efficient Image Generation \r\n* [[ICLR]](https://arxiv.org/abs/2505.18663) DVD-Quant: Data-free Video Diffusion Transformers Quantization [[code]](https://github.com/lhxcs/DVD-Quant) ![](https://img.shields.io/github/stars/lhxcs/DVD-Quant)\r\n\r\n### 2025\r\n\r\n* [[ICLR]](https://arxiv.org/abs/2406.02540) ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [[code]](https://github.com/thu-nics/ViDiT-Q)![](https://img.shields.io/github/stars/thu-nics/ViDiT-Q)\r\n* [[ICLR]](https://arxiv.org/abs/2411.05007) SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [[code]](https://github.com/mit-han-lab/nunchaku)![](https://img.shields.io/github/stars/mit-han-lab/nunchaku)\r\n* [[ICLR]](https://arxiv.org/abs/2404.05662) BinaryDM: Accurate Weight Binarization for Efficient Diffusion Models [[code]](https://github.com/Xingyu-Zheng/BinaryDM)![](https://img.shields.io/github/stars/Xingyu-Zheng/BinaryDM)\r\n* [[ICLR]](https://arxiv.org/abs/2410.02367) SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [[code]](https://github.com/thu-ml/SageAttention)![](https://img.shields.io/github/stars/thu-ml/SageAttention)\r\n* [[CVPR]](https://arxiv.org/abs/2406.17343) Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [[code]](https://github.com/Juanerx/Q-DiT)![](https://img.shields.io/github/stars/Juanerx/Q-DiT)\r\n* [[CVPR]](https://arxiv.org/abs/2503.01323) CacheQuant: Comprehensively Accelerated Diffusion Models [[code]](https://github.com/BienLuky/CacheQuant)![](https://img.shields.io/github/stars/BienLuky/CacheQuant)\r\n* [[CVPR]](https://arxiv.org/abs/2411.17106) PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [[code]](https://github.com/libozhu03/PassionSR)![](https://img.shields.io/github/stars/libozhu03/PassionSR)\r\n* [[ICML]](https://arxiv.org/abs/2505.22167) Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers [[code]](https://github.com/cantbebetter2/Q-VDiT)![](https://img.shields.io/github/stars/cantbebetter2/Q-VDiT)\r\n* [[ICML]](https://arxiv.org/abs/2411.10958) SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization [[code]](https://github.com/thu-ml/SageAttention)![](https://img.shields.io/github/stars/thu-ml/SageAttention)\r\n* [[ICCV]](https://arxiv.org/abs/2507.10340) Text Embedding Knows How to Quantize Text-Guided Diffusion Models\r\n* [[ICCV]](https://arxiv.org/abs/2402.03666) QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [[code]](https://github.com/hatchetProject/QuEST)![](https://img.shields.io/github/stars/hatchetProject/QuEST)\r\n* [[ICCV]](https://arxiv.org/abs/2507.12933) DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization[[code]](https://github.com/LeeDongYeun/dmq)![](https://img.shields.io/github/stars/LeeDongYeun/dmq)\r\n* [[ICCV]](https://arxiv.org/abs/2503.06545) QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [[code]](https://github.com/JunyiWuCode/QuantCache) ![](https://img.shields.io/github/stars/JunyiWuCode/QuantCache)\r\n* [[NeurIPS]](https://arxiv.org/abs/2506.16054) PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models\r\n* [[NeurIPS]](https://arxiv.org/abs/2508.04016) S2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation[[code]](https://github.com/wlfeng0509/S2Q-VDiT) ![](https://img.shields.io/github/stars/wlfeng0509/S2Q-VDiT)\r\n* [[NeurIPS]](https://arxiv.org/abs/2510.20348) AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models\r\n* [[WACV]](https://arxiv.org/abs/2409.07756) DiTAS: Quantizing Diffusion Transformers via Enhanced Activation Smoothing [[code]](https://github.com/DZY122/DiTAS)![](https://img.shields.io/github/stars/DZY122/DiTAS)\r\n* [[ISCAS]](https://arxiv.org/abs/2504.07998) CDM-QTA: Quantized Training Acceleration for Efficient LoRA Fine-Tuning of Diffusion Model \r\n* [[Arxiv]](https://arxiv.org/abs/2503.06930) Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping\r\n* [[Arxiv]](https://arxiv.org/abs/2502.04056) TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers\r\n* [[Arxiv]](https://arxiv.org/pdf/2503.15465) FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers [[code]](https://github.com/cccrrrccc/FP4DiT) ![](https://img.shields.io/github/stars/cccrrrccc/FP4DiT)\r\n* [[Arxiv]](https://arxiv.org/abs/2505.02242) Quantizing Diffusion Models from a Sampling-Aware Perspective\r\n* [[Arxiv]](https://arxiv.org/abs/2503.05584) QArtSR: Quantization via Reverse-Module and Timestep-Retraining in One-Step Diffusion based Image Super-Resolution [[code]](https://github.com/libozhu03/QArtSR) ![](https://img.shields.io/github/stars/libozhu03/QArtSR)\r\n* [[Arxiv]](https://arxiv.org/abs/2505.21591) Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning\r\n* [[Arxiv]](https://arxiv.org/abs/2507.04290) MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation\r\n* [[Arxiv]](https://arxiv.org/abs/2509.23582) RobuQ: Pushing DiTs to W1.58A2 via Robust Activation Quantization[[code]](https://github.com/racoonykc/RobuQ) ![](https://img.shields.io/github/stars/racoonykc/RobuQ)\r\n* [[Arxiv]](https://arxiv.org/abs/2509.24416) CLQ: Cross-Layer Guided Orthogonal-based Quantization for Diffusion Transformers[[code]](https://github.com/Kai-Liu001/CLQ) ![](https://img.shields.io/github/stars/Kai-Liu001/CLQ)\r\n* [[Arxiv]](https://arxiv.org/abs/2512.06353) TreeQ: Pushing the Quantization Boundary of Diffusion Transformer via Tree-Structured Mixed-Precision Search[[code]](https://github.com/racoonykc/TreeQ) ![](https://img.shields.io/github/stars/racoonykc/TreeQ)\r\n* [[Arxiv]](https://arxiv.org/abs/2512.03673) ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers\r\n\r\n### 2024\r\n\r\n* [[ICLR]](https://arxiv.org/abs/2310.03270) EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [[code]](https://github.com/ThisisBillhe/EfficientDM)![](https://img.shields.io/github/stars/ThisisBillhe/EfficientDM)\r\n* [[CVPR]](https://arxiv.org/abs/2311.16503) TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [[code]](https://github.com/ModelTC/TFMQ-DM)![](https://img.shields.io/github/stars/ModelTC/TFMQ-DM)\r\n* [[CVPR]](https://arxiv.org/abs/2305.18723) Towards Accurate Post-training Quantization for Diffusion Models [[code]](https://github.com/ChangyuanWang17/APQ-DM)![](https://img.shields.io/github/stars/ChangyuanWang17/APQ-DM)\r\n* [[ECCV]](https://arxiv.org/pdf/2405.17873) MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [[code]](https://github.com/thu-nics/MixDQ)![](https://img.shields.io/github/stars/thu-nics/MixDQ)\r\n* [[ECCV]](https://arxiv.org/abs/2407.03917) Timestep-Aware Correction for Quantized Diffusion Models \r\n* [[ECCV]](https://arxiv.org/abs/2311.06322v3) Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [[code]](https://github.com/tsa18/PCR)![](https://img.shields.io/github/stars/tsa18/PCR)\r\n* [[ECCV]](https://arxiv.org/abs/2401.04339) Memory-Efficient Fine-Tuning for Quantized Diffusion Model [[code]](https://github.com/ugonfor/TuneQDM)![](https://img.shields.io/github/stars/ugonfor/TuneQDM)\r\n* [[NeurIPS]](https://arxiv.org/pdf/2405.16005) PTQ4DiT: Post-training Quantization for Diffusion Transformers [[code]](https://github.com/adreamwu/PTQ4DiT)![](https://img.shields.io/github/stars/adreamwu/PTQ4DiT)\r\n* [[NeurIPS]](https://arxiv.org/abs/2406.04333) BitsFusion: 1.99 bits Weight Quantization of Diffusion Model [[code]](https://github.com/snap-research/BitsFusion)![](https://img.shields.io/github/stars/snap-research/BitsFusion)\r\n* [[NeurIPS]](https://arxiv.org/abs/2405.14854) TerDiT: Ternary Diffusion Models with Transformers [[code]](https://github.com/Lucky-Lance/TerDiT)![](https://img.shields.io/github/stars/Lucky-Lance/TerDiT)\r\n* [[NeurIPS]](https://arxiv.org/abs/2406.05723) Binarized Diffusion Model for Image Super-Resolution [[code]](https://github.com/zhengchen1999/BI-DiffSR)![](https://img.shields.io/github/stars/zhengchen1999/BI-DiffSR)\r\n* [[NeurIPS]](https://arxiv.org/abs/2412.05926) BiDM: Pushing the Limit of Quantization for Diffusion Models [[code]](https://github.com/Xingyu-Zheng/BiDM)![](https://img.shields.io/github/stars/Xingyu-Zheng/BiDM)\r\n* [[NeurIPS]](https://proceedings.neurips.cc/paper_files/paper/2024/hash/615675cc6e94ddb1a783904fb178b5f6-Abstract-Conference.html) StepbaQ: Stepping backward as Correction for Quantized Diffusion Models \r\n* [[AAAI]](https://arxiv.org/abs/2412.11549) MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [[code]](https://github.com/cantbebetter2/MPQ-DM)![](https://img.shields.io/github/stars/cantbebetter2/MPQ-DM)\r\n* [[AAAI]](https://arxiv.org/abs/2412.14628) Qua2SeDiMo: Quantifiable Quantization Sensitivity of Diffusion Models [[code]](https://github.com/Ascend-Research/Qua2SeDiMo)![](https://img.shields.io/github/stars/Ascend-Research/Qua2SeDiMo)\r\n* [[AAAI]](https://arxiv.org/abs/2412.16700) TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models \r\n* [[AAAI]](https://ojs.aaai.org/index.php/AAAI/article/view/34039) Optimizing Quantized Diffusion Models via Distillation with Cross-Timestep Error Correction \r\n* [[Arxiv]](https://arxiv.org/abs/2405.19751) HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization \r\n* [[Arxiv]](https://arxiv.org/abs/2408.17131) VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers\r\n* [[Arxiv]](https://arxiv.org/abs/2411.14172) TaQ-DiT: Time-aware Quantization for Diffusion Transformers [[code]](https://github.com/yhwangs/TQ-DiT)![](https://img.shields.io/github/stars/yhwangs/TQ-DiT)\r\n\r\n### 2023\r\n\r\n* [[ICCV]](https://arxiv.org/abs/2302.04304) Q-Diffusion: Quantizing Diffusion Models [[code]](https://github.com/Xiuyu-Li/q-diffusion)![](https://img.shields.io/github/stars/Xiuyu-Li/q-diffusion)\r\n* [[CVPR]](https://openaccess.thecvf.com/content/CVPR2023/papers/Shang_Post-Training_Quantization_on_Diffusion_Models_CVPR_2023_paper.pdf) Post-training Quantization on Diffusion Models [[code]](https://github.com/42Shawn/PTQ4DM)![](https://img.shields.io/github/stars/42Shawn/PTQ4DM)\r\n* [[NeurIPS]](https://arxiv.org/pdf/2305.10657) PTQD: Accurate Post-Training Quantization for Diffusion Models [[code]](https://github.com/ziplab/PTQD)![](https://img.shields.io/github/stars/ziplab/PTQD)\r\n* [[NeurIPS] ](https://proceedings.neurips.cc/paper_files/paper/2023/hash/f1ee1cca0721de55bb35cf28ab95e1b4-Abstract-Conference.html)Q-DM: An Efficient Low-bit Quantized Diffusion Model \r\n* [[NeurIPS]](https://arxiv.org/abs/2306.02316) Temporal Dynamic Quantization for Diffusion Models \r\n\r\n","projects_url":"https://awesome.ecosyste.ms/api/v1/lists/wlfeng0509%2Fawesome-diffusion-quantization/projects"}