MineWorld – 微软研究院开源的实时交互式世界模型-六六导航站

MineWorld – 微软研究院开源的实时交互式世界模型

2025-05-01 16:52:58 小编：六六导航站

MineWorld是什么

MineWorld是微软研究院开源的基于《我的世界》（Minecraft）的实时交互式世界模型，基于视觉-动作自回归Transformer架构，将游戏场景和动作转化为离散的token ID，通过下一个token预测进行训练。模型开发了并行解码算法，可实现每秒4至7帧的生成速度，支持实时互动。MineWorld在视频质量、可控性和推理速度上均优于现有模型，如Oasis。

MineWorld的主要功能

高生成质量：基于视觉-动作自回归 Transformer，MineWorld 能根据视觉和动作生成连贯、高保真的游戏帧。强可控性：模型通过动作跟随能力的基准测试，展现出精确且一致的行为，能根据输入动作生成准确的游戏场景。快速推理速度：采用并行解码算法，使模型能以每秒 4 至 7 帧的速度生成图像，支持实时互动。作为游戏代理：MineWorld 在训练过程中同时预测游戏状态和动作，可以作为独立的游戏代理自主进行游戏。实时交互能力：用户可以通过 Web 演示或本地运行与模型进行实时互动，选择初始帧、控制相机移动并执行游戏动作。

MineWorld的技术原理

视觉-动作自回归 Transformer：MineWorld 通过将游戏场景和玩家动作转化为离散的 token 序列，实现视觉和动作的联合建模。具体来说：图像标记器（Visual Tokenizer）：采用 VQ-VAE 架构，将游戏场景分割为离散的视觉标记。标记器从预训练的检查点开始，在 Minecraft 数据集上进行微调，实现高质量的图像重建。动作标记器（Action Tokenizer）：将玩家的连续动作（如鼠标移动）量化为离散的标记，将离散动作（如前进、攻击）归类为不同的类别，每个类别由唯一的标记表示。Transformer 解码器：采用 LLaMA 架构，接收交错拼接的视觉标记和动作标记序列作为输入，通过下一个标记预测进行训练。解码器能同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。并行解码算法：为了实现实时交互，MineWorld 开发了一种并行解码算法。算法利用相邻图像标记之间的空间依赖性，同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比，能显著提升生成速度，使模型能在不同规模下达到每秒 4 至 7 帧的生成速度。训练：模型通过下一个标记预测进行训练，学习游戏状态之间的动态演变规律以及动作与状态之间的关联。推理：在推理阶段，模型根据输入的当前游戏状态和动作，生成后续的游戏场景。并行解码算法的应用使得模型能快速生成高质量的游戏帧。评估指标：MineWorld 提出了新的评估指标，评估生成场景的视觉质量，动作跟随能力。例如，通过比较生成场景中预测的动作与输入的真实动作之间的准确性，来量化模型的可控性。

MineWorld的项目地址

Github仓库：https://github.com/microsoft/MineWorldHuggingFace模型库：https://huggingface.co/microsoft/mineworldarXiv技术论文：https://arxiv.org/pdf/2504.08388

MineWorld的应用场景

具身智能研究：MineWorld 提供了一个高保真、可交互的虚拟环境，能模拟复杂的物理规则和动态场景，非常适合用于具身智能的研究。研究人员可以用模型训练智能体，学习如何在虚拟环境中执行任务，如物体定位导航、环境探索等。强化学习训练：MineWorld 的实时交互能力和高生成质量使其成为强化学习训练的理想平台。研究人员可以用模型快速生成大量的训练数据，帮助智能体在模拟环境中学习最优策略。游戏代理开发：由于 MineWorld 在训练过程中同时预测游戏状态和动作，具备作为游戏代理的潜力。给定初始游戏状态和动作，模型可以迭代生成未来的状态和动作，模拟长期的游戏过程。实时交互式模拟：MineWorld 的快速推理速度（每秒 4 至 7 帧）能支持与游戏玩家的实时交互。视频生成与编辑：MineWorld 能生成高质量、连贯一致的游戏视频。可以用于视频内容创作，例如生成游戏预告片、教学视频等。