SVDQuant – MIT 推出的扩散模型后训练量化技术
2025-01-10 10:13:17 小编:六六导航站
SVDQuant是什么
SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收量化过程中的异常值,在保持图像质量的同时,实现在16GB 4090 GPU上3.5倍的显存优化和8.7倍的延迟减少。SVDQuant支持DiT架构,兼容UNet架构,能无缝集成现成的低秩适配器(LoRAs),无需重新量化,为在资源受限的设备上部署大型扩散模型提供有效的解决方案。

SVDQuant的主要功能
量化压缩:将扩散模型的权重和激活值量化到4位,减少模型大小,降低内存占用。加速推理:量化减少计算复杂度,提高模型在GPU上的推理速度。低秩分支吸收异常值:引入低秩分支处理量化中的异常值,减少量化误差。内核融合:设计推理引擎Nunchaku,基于内核融合减少内存访问,进一步提升推理效率。支持多种架构:兼容DiT和UNet架构的扩散模型。LoRA集成:无缝集成低秩适配器(LoRAs),无需重新量化。SVDQuant的技术原理
量化处理:对模型的权重和激活值进行4位量化,对保持模型性能构成挑战。异常值处理:用平滑技术将激活值中的异常值转移到权重上,基于SVD分解权重,将权重分解为低秩分量和残差。低秩分支:引入16位精度的低秩分支处理权重中的异常值,将残差量化到4位,降低量化难度。Eckart-Young-Mirsky定理:移除权重中的主导奇异值,大幅减小权重的幅度和异常值。推理引擎Nunchaku:设计推理引擎,基于融合低秩分支和低比特分支的内核,减少内存访问和内核调用次数,降低延迟。SVDQuant的项目地址
项目官网:hanlab.mit.edu/projects/svdquantGitHub仓库:https://github.com/mit-han-lab/nunchakuarXiv技术论文:https://arxiv.org/pdf/2411.05007在线体验Demo:https://svdquant.mit.edu/SVDQuant的应用场景
移动设备和边缘计算:在智能手机、平板电脑或其他移动设备上部署扩散模型,减少模型大小和提高推理速度,实现更快的图像生成和处理。个人电脑和工作站:在个人电脑或工作站上,提高图像和视频生成的效率,适用于内容创作者和专业设计师。云计算平台:在云服务中部署SVDQuant,为在线用户提供快速的图像生成服务,如虚拟试衣、图像编辑和增强等。交互式应用:在需要实时反馈的应用中,如游戏、虚拟现实(VR)和增强现实(AR)中,减少延迟,提供更流畅的用户体验。低功耗设备:在物联网(IoT)设备和其他低功耗设备中,实现能效比更高的模型推理。- 猜你喜欢
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
-
-
PromptVine提示指令
-
-
-
MJ Prompt Tool提示指令
-
绘AI提示指令
- 相关AI应用
-
AIPRM提示指令
-
Snack Prompt提示指令
-
PublicPrompts提示指令
-
Generrated提示指令
-
LangGPT提示指令
-
AI Short提示指令
-
-
ClickPrompt提示指令
-
PromptHero提示指令
- 推荐AI教程资讯
- Perplexideez – 开源本地AI搜索助手,智能搜索信息来源追溯
- Micro LLAMA – 教学版 LLAMA 3模型实现,用于学习大模型的核心原理
- GenCast – 谷歌DeepMind推出的AI气象预测模型
- FullStack Bench – 字节豆包联合M-A-P社区开源的全新代码评估基准
- Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型
- Fish Speech 1.5 – Fish Audio 推出的语音合成模型,支持13种语言
- ClearerVoice-Studio – 阿里通义实验室开源的语音处理框架
- PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型
- Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架
- Fox-1 – TensorOpera 开源的小语言模型系列