SVDQuant – MIT 推出的扩散模型后训练量化技术-六六导航站

SVDQuant – MIT 推出的扩散模型后训练量化技术

2025-01-10 10:13:17 小编：六六导航站

SVDQuant是什么

SVDQuant是MIT研究团队推出的后训练量化技术，针对扩散模型，将模型的权重和激活值量化至4位，减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收量化过程中的异常值，在保持图像质量的同时，实现在16GB 4090 GPU上3.5倍的显存优化和8.7倍的延迟减少。SVDQuant支持DiT架构，兼容UNet架构，能无缝集成现成的低秩适配器（LoRAs），无需重新量化，为在资源受限的设备上部署大型扩散模型提供有效的解决方案。

SVDQuant的主要功能

量化压缩：将扩散模型的权重和激活值量化到4位，减少模型大小，降低内存占用。加速推理：量化减少计算复杂度，提高模型在GPU上的推理速度。低秩分支吸收异常值：引入低秩分支处理量化中的异常值，减少量化误差。内核融合：设计推理引擎Nunchaku，基于内核融合减少内存访问，进一步提升推理效率。支持多种架构：兼容DiT和UNet架构的扩散模型。LoRA集成：无缝集成低秩适配器（LoRAs），无需重新量化。

SVDQuant的技术原理

量化处理：对模型的权重和激活值进行4位量化，对保持模型性能构成挑战。异常值处理：用平滑技术将激活值中的异常值转移到权重上，基于SVD分解权重，将权重分解为低秩分量和残差。低秩分支：引入16位精度的低秩分支处理权重中的异常值，将残差量化到4位，降低量化难度。Eckart-Young-Mirsky定理：移除权重中的主导奇异值，大幅减小权重的幅度和异常值。推理引擎Nunchaku：设计推理引擎，基于融合低秩分支和低比特分支的内核，减少内存访问和内核调用次数，降低延迟。

SVDQuant的项目地址

项目官网：hanlab.mit.edu/projects/svdquantGitHub仓库：https://github.com/mit-han-lab/nunchakuarXiv技术论文：https://arxiv.org/pdf/2411.05007在线体验Demo：https://svdquant.mit.edu/

SVDQuant的应用场景

移动设备和边缘计算：在智能手机、平板电脑或其他移动设备上部署扩散模型，减少模型大小和提高推理速度，实现更快的图像生成和处理。个人电脑和工作站：在个人电脑或工作站上，提高图像和视频生成的效率，适用于内容创作者和专业设计师。云计算平台：在云服务中部署SVDQuant，为在线用户提供快速的图像生成服务，如虚拟试衣、图像编辑和增强等。交互式应用：在需要实时反馈的应用中，如游戏、虚拟现实（VR）和增强现实（AR）中，减少延迟，提供更流畅的用户体验。低功耗设备：在物联网（IoT）设备和其他低功耗设备中，实现能效比更高的模型推理。