Add-it – 英伟达推出无需训练的图像编辑技术
2025-01-21 11:42:13 小编:六六导航站
Add-it是什么
Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像的信息,实现结构一致性和自然的对象放置。Add-it在真实和生成图像的插入基准测试中表现优异,优于监督学习方法,且在超过80%的情况下更受人类偏好。

Add-it的主要功能
对象插入:根据文本指令在图像中无缝插入新对象。结构保持:在添加新对象的同时保持原始场景的结构一致性。自然融合:确保新对象与现有场景自然融合,看起来协调。无需训练:不需要针对特定任务的微调或训练。性能优越:在多个基准测试中取得了最先进的结果,包括新构建的“Additing Affordance Benchmark”。逐步生成:能逐步生成图像,最终图像更好地适应用户在每一步的偏好。非真实感图像处理:能处理非真实感(如卡通或艺术风格)的源图像。Add-it的技术原理
结构转移:将源图像的结构注入目标图像,保持场景的一致性。扩展自注意力块:扩展自注意力机制,让目标图像能从文本提示和源图像中提取关键信息,每个源分别加权,实现更精准的对象放置。主题引导潜在混合:用主题引导的潜在混合技术保留源图像的精细细节,如纹理和阴影,确保新对象与场景的自然融合。加权扩展注意力机制:基于加权机制,确保在整合信息时,不同来源的信息得到适当的重视,实现更自然的对象放置。无需额外训练:用预训练的扩散模型,无需额外的训练步骤,实现高质量的图像编辑。Add-it的项目地址
项目官网:research.nvidia.com/labs/par/additGitHub仓库:https://github.com/NVlabs/additarXiv技术论文:https://arxiv.org/pdf/2411.07232Add-it的应用场景
广告和营销:在广告图像中添加产品或品牌元素,创建更具吸引力的广告材料。内容创作:艺术家和设计师快速将想象中的对象或场景融入到现有的艺术作品中。电影和游戏制作:在电影或游戏的背景中添加虚拟角色或物体,增强视觉效果。新闻媒体:在新闻报道中,添加或替换图像中的特定元素。社交媒体:用户在社交媒体上分享的图片中添加文本描述的对象,增加互动性和趣味性。- 猜你喜欢
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
-
-
PromptVine提示指令
-
-
-
MJ Prompt Tool提示指令
-
绘AI提示指令
- 相关AI应用
-
AIPRM提示指令
-
Snack Prompt提示指令
-
PublicPrompts提示指令
-
Generrated提示指令
-
LangGPT提示指令
-
AI Short提示指令
-
-
ClickPrompt提示指令
-
PromptHero提示指令
- 推荐AI教程资讯
- Add-it – 英伟达推出无需训练的图像编辑技术
- DINO-X – IDEA 研究院推出的通用视觉大模型
- The Matrix – 阿里联合港大等多所机构推出的AI基础世界模拟器
- DreamPolish – 智谱AI、清华、北大联合推出的文本到3D生成模型
- OmniBooth – 华为诺亚方舟联合港科大推出的图像生成框架
- DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统
- MVPaint – 腾讯PCG联合多所高校共同推出的3D纹理生成框架
- LTX Video – Lightricks推出的开源AI视频生成模型
- BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力
- AutoVFX – 自然语言驱动的视频特效编辑框架
- 精选推荐
-
词魂2025-01-02提示指令
-
法智2025-01-02法律助手
-
FlowGPT2024-12-31提示指令
-
PromptVine2025-01-02提示指令
-
提示工程指南2024-12-31提示指令
-
Visual Prompt Builder2025-01-02提示指令