WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型
2025-05-15 11:58:27 小编:六六导航站
WorldMem是什么
WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中,智能体在多样化场景中自由探索,生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模,模拟动态变化(如物体对环境的影响)。模型在 Minecraft 数据集上进行大规模训练,在真实场景中验证有效性。WorldMem 为构建真实、持久、交互式的虚拟世界提供新的技术路径。

WorldMem的主要功能
保持一致性:在长时间生成中,让虚拟世界保持一致。模拟动态变化:模拟时间推移带来的变化,比如物体对环境的影响(如灯光融化积雪)。支持交互:用户在虚拟世界中放置物体或进行操作,交互被记录影响后续生成。多样化场景生成:支持在多种虚拟场景(如平原、沙漠、冰原等)中自由探索。适用于真实场景:在真实世界数据集上验证生成一致性的能力。WorldMem的技术原理
条件生成模块:基于条件扩散变换器(Conditional Diffusion Transformer)构建,结合 Diffusion Forcing 训练策略,支持自回归式长时生成。用外部动作信号(如移动、视角控制、物体放置等)引导第一人称视角的生成。记忆读写模块:记忆库存储生成过程中的关键历史信息,每个记忆单元包含图像帧及其对应的状态(如视角位姿和时间戳)。记忆检索用贪心匹配算法,基于视野重叠和时间差异计算相似度,高效筛选出与当前场景最相关的记忆单元。记忆融合模块:将当前帧与记忆帧的状态嵌入(位姿 + 时间)结合,基于注意力计算提取与当前场景最相关的记忆信息,生成融合特征引导当前帧的生成。用 Plücker 坐标表示位姿,基于 MLP 映射时间戳,引入相对嵌入机制,提升模型的空间理解和细节保持能力。WorldMem的项目地址
项目官网:https://xizaoqu.github.io/worldmem/GitHub仓库:https://github.com/xizaoqu/WorldMemarXiv技术论文:https://arxiv.org/pdf/2504.12369在线体验Demo:https://huggingface.co/spaces/yslan/worldmemWorldMem的应用场景
虚拟游戏:生成长期一致的虚拟游戏世界,支持自由探索和环境交互。VR/AR:创建持久且动态变化的虚拟环境,提升沉浸感。自动驾驶:模拟真实交通场景,用在自动驾驶系统的测试。建筑设计:生成虚拟建筑环境,辅助设计方案评估。教育:创建互动教学环境,支持学生进行实验和探索。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型
- GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型
- NodeRAG – 开源基于异构图的智能检索与生成系统
- Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型
- Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型
- 风宇 – 中国气象局联合华为和南昌大学推出的空间天气大模型
- RepText – Liblib AI联合Shakker Labs推出的多语言视觉文本渲染框架
- Xiaomi MiMo – 小米开源的首个推理大模型
- F-Lite – Freepik联合FAL开源的文生图模型
- ACI.dev – 为AI智能体设计的开源MCP基础设施平台
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令