SPRIGHT – 专注于空间关系的大型视觉语言数据集
2025-04-01 16:38:26 小编:六六导航站
SPRIGHT是什么
SPRIGHT(SPatially RIGHT)是亚利桑那州立大学 、Intel 实验室 、Hugging Face 、华盛顿大学等机构联合推出的,专注于空间关系的大型视觉-语言数据集,能解决现有文本到图像(T2I)模型在生成图像时空间一致性不足的问题。数据集对约600万张图像进行重新描述,强调其空间关系,显著提高空间关系在数据集中的比例。通过用SPRIGHT进行微调,T2I模型在生成空间准确的图像方面取得显著的性能提升。SPRIGHT基于详细的评估和分析流程,验证了在捕捉空间关系方面的有效性,为未来的研究提供了丰富的资源和基础。

SPRIGHT的主要功能
增强空间关系的表示:基于重新描述图像,强调图像中的空间关系,如“左/右”、“上/下”、“前/后”等。数据集能更好地捕捉和表示图像中的空间信息。提高T2I模型的空间一致性:用SPRIGHT数据集进行微调的T2I模型能更准确地生成符合文本提示中空间关系的图像,提高生成图像的空间一致性。支持复杂的图像生成任务:SPRIGHT数据集包含丰富的空间关系信息,能帮助模型更好地理解和生成包含多个对象和复杂空间布局的图像。促进视觉-语言模型的发展:SPRIGHT为研究和开发更先进的视觉-语言模型提供丰富的资源和基础,推动相关领域的技术进步。SPRIGHT的技术原理
数据集构建:图像来源:SPRIGHT数据集的图像来源于四个广泛使用的视觉-语言数据集,包括CC-12M、Segment Anything、COCO和LAION-Aesthetics。重新描述:用大型语言模型(如LLaVA-1.5-13B)对图像进行重新描述,生成具有空间关系的合成文本描述。描述包含空间关系,强调对象的相对大小和位置等细节信息。空间关系的捕捉:在生成描述时,模型被指导用特定的空间词汇(如“left/right”、“above/below”等)描述图像中的对象及其相对位置。让生成的描述能更准确地反映图像中的空间结构。数据集验证:基于多级评估(如FAITHScore、GPT-4评估和人工标注)验证SPRIGHT数据集生成的描述的质量和准确性。评估确保数据集在捕捉空间关系方面的有效性。模型微调:用SPRIGHT数据集对T2I模型进行微调,尤其是在包含大量对象的图像上进行训练,显著提高模型的空间一致性。微调方法让模型能更好地理解和生成符合空间关系的图像。SPRIGHT的项目地址
项目官网:spright-t2i.github.ioGitHub仓库:https://github.com/SPRIGHT-T2I/SPRIGHTHuggingFace模型库:https://huggingface.co/SPRIGHTarXiv技术论文:https://arxiv.org/pdf/2404.01197SPRIGHT的应用场景
图像生成与编辑:设计师生成符合特定创意需求的图像,例如在广告设计中创建具有特定空间布局的产品展示图,或在游戏开发中生成复杂的场景背景图. 虚拟现实与增强现实:在虚拟现实应用中构建更加真实的虚拟场景,如在虚拟旅游中生成具有准确空间关系的建筑和景观,提升用户的沉浸感.教育与培训:在教育领域开发视觉学习工具,帮助学生通过图像理解空间概念,例如在几何学习中生成具有明确空间关系的图形,帮助学生掌握几何形状的属性和关系.科学研究与分析:在生物学研究中生成具有特定空间关系的细胞或组织图像,帮助研究人员分析生物结构的形态和功能.- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- SPRIGHT – 专注于空间关系的大型视觉语言数据集
- LIGER – Meta AI 等机构推出的混合检索模型
- 图森未来公告:出售美国业务,重心转亚洲
- SeedVR – 南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复
- AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
- 小鹏最佳财报交付,最大短板同时暴露
- EnerVerse – 智元机器人推出的首个机器人4D世界模型
- Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型
- ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架
- Uber联手打造的Robotaxi在拉斯维加斯上路
- 精选推荐
-
元典智库2024-12-31法律助手
-
Shakespeare AI Toolbar2025-02-01法律助手
-
WavTool2025-02-25提示指令
-
Vocal Remover2025-02-13提示指令
-
MJ Prompt Tool2025-01-02提示指令
-
Briefly2025-02-11法律助手