https://github.com/zhzihao/QPruningKV
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression
https://github.com/zhzihao/QPruningKV
Last synced: about 1 year ago
JSON representation
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression
- Host: GitHub
- URL: https://github.com/zhzihao/QPruningKV
- Owner: zhzihao
- License: mit
- Created: 2025-01-05T14:29:17.000Z (over 1 year ago)
- Default Branch: master
- Last Pushed: 2025-01-15T04:16:18.000Z (over 1 year ago)
- Last Synced: 2025-01-15T05:41:22.855Z (over 1 year ago)
- Language: Python
- Homepage: https://arxiv.org/abs/2412.12706
- Size: 174 MB
- Stars: 8
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- StarryDivineSky - zhzihao/QPruningKV - Precision Trade-off in KV Cache Compression”,主要研究KV缓存压缩中token数量和精度之间的最佳权衡。项目提出了一种名为QPruning的创新方法,通过动态剪枝和量化KV缓存来减少内存占用,同时尽量保持模型性能。QPruning方法的核心思想是,在不显著损失模型性能的前提下,允许使用更多的token但降低每个token的精度。该项目提供了详细的实验结果,证明了QPruning在多种模型和数据集上的有效性,表明其能够在内存受限的环境下提升大语言模型的推理效率。具体而言,QPruning通过重要性评分来动态剪枝不重要的KV值,并对剩余的KV值进行量化,从而实现高效的压缩。项目代码和相关资源均已开源,方便研究人员和开发者复现和使用。该研究为大模型部署在资源有限的设备上提供了新的思路,并有望推动相关领域的进一步发展。 (A01_文本生成_文本对话 / 大语言对话模型及数据)