https://github.com/zhzihao/QPruningKV

More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression
https://github.com/zhzihao/QPruningKV

Last synced: over 1 year ago
JSON representation

More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression

StarryDivineSky - zhzihao/QPruningKV - Precision Trade-off in KV Cache Compression”，主要研究KV缓存压缩中token数量和精度之间的最佳权衡。项目提出了一种名为QPruning的创新方法，通过动态剪枝和量化KV缓存来减少内存占用，同时尽量保持模型性能。QPruning方法的核心思想是，在不显著损失模型性能的前提下，允许使用更多的token但降低每个token的精度。该项目提供了详细的实验结果，证明了QPruning在多种模型和数据集上的有效性，表明其能够在内存受限的环境下提升大语言模型的推理效率。具体而言，QPruning通过重要性评分来动态剪枝不重要的KV值，并对剩余的KV值进行量化，从而实现高效的压缩。项目代码和相关资源均已开源，方便研究人员和开发者复现和使用。该研究为大模型部署在资源有限的设备上提供了新的思路，并有望推动相关领域的进一步发展。 (A01_文本生成_文本对话 / 大语言对话模型及数据)

ecosyste.ms