WorldVLA: Towards Autoregressive Action World Model

最新推荐文章于 2026-05-02 11:17:30 发布

原创最新推荐文章于 2026-05-02 11:17:30 发布 · 873 阅读 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

大大马猴

关注

标签

#python #算法

分类人工智能

摘要
我们提出了 WorldVLA，一个自回归动作世界模型，它将动作和图像的理解与生成统一起来。我们的 WorldVLA 将视觉-语言-动作 (VLA) 模型和世界模型集成在一个框架中。世界模型利用动作和图像理解来预测未来图像，旨在学习环境的底层物理特性，从而改进动作生成。同时，动作模型会根据图像观察生成后续动作，从而辅助视觉理解，进而促进世界模型的视觉生成。我们证明 WorldVLA 的表现优于单独的动作模型和世界模型，凸显了世界模型和动作模型之间的相互增强。此外，我们发现，当以自回归方式生成动作序列时，动作模型的性能会下降。这种现象可以归因于模型有限的动作预测泛化能力，导致错误从早期动作传播到后续动作。为了解决这个问题，我们提出了一种注意力掩蔽策略，该策略在生成当前动作时有选择地掩盖先前的动作，这在动作块生成任务中显示出显着的性能提升。

介绍

视觉-语言-动作 (VLA) 模型的开发已成为机器人动作模型研究的一大热点 (Brohan 等人，2023；Kim 等人，2024；Black 等人，2024)。这些模型是通过在大规模预训练的多模态大型语言模型 (MLLM) (Liu 等人，2023b；Li 等人，2024；Zhang 等人，2025；Bai 等人，2025) 的基础上，添加动作头或额外的动作专家模块来生成动作而构建的。MLLM 提供了强大的感知和决策能力，使 VLA 模型能够在各种机器人任务中展现出增强的泛化能力 (Black 等人，2024；Intelligence 等人，2025)。然而，一个显著的局限性依然存在：这些模型通常缺乏对动作的全面理解，因为动作仅被视为输出，而未将其整合为输入以进行更深入的分析。相比之下，世界模型展现出基于当前观察和动作预测未来视觉状态的能力，从而实现对视觉信息和行为动态的双重理解（Ha 和 Schmidhuber，2018；Agarwal 等，2025；Wu 等，2025）。尽管世界模型拥有这一优势，但它受限于无法直接生成动作输出，这导致了功能上的缺陷，限制了它们在需要明确动作规划的场景中的应用。

为了解决视觉-语⾔-动作 (VLA) 模型和世界模型固有的局限性，我们引⼊了 WorldVLA，这是⼀个⾃回归动作世界模型，⽤于统⼀动作和图像的理解和⽣成。如图 1 所⽰，WorldVLA 采⽤三个独⽴的标记器来编码图像、⽂本和动作。来⾃不同模态的标记被设置为共享相同的词汇表，以便在单个 LLM 架构中统⼀这些模态的理解和⽣成。世界模型组件通过基于输⼊动作⽣成视觉表征来捕捉环境的底层物理动态。这种动作解释和环境物理学习的过程对于在动作模型中实现有效的决策⾄关重要。同时，WorldVLA 中嵌入的动作模型细化了对视觉数据的理解，从而提高了世界模型执行图像生成的精度。这种双向增强创建了一个更强大、更全面的模型，能够理解并生成动作和图像。

动作组块和并行解码已被证明能显著影响动作模型的性能 (Kim et al., 2025)。然而，我们发现，按顺序生成多个动作会导致自回归模型的性能下降。主要原因是预训练的多模态语言模型主要接触图像和文本而非动作，导致动作泛化能力有限。在后续动作以先前动作为条件的自回归模型中，误差传播成为一个关键问题，因为先前的错误预测会随着时间的推移影响后续动作。为了缓解这个问题，我们提出了一种动作注意掩蔽策略，该策略在生成当前动作时选择性地掩蔽先前的动作。这种方法有效地减少了误差累积，并在动作组块生成任务中取得了显著的改进。

图 1 （a）动作模型基于图像理解生成动作；（b）世界模型基于图像和动作理解生成图像；（c）动作世界模型统一了图像和动作的理解和生成。

在 LIBERO 基准测试中的实验表明，我们的 WorldVLA 模型比基于相同骨干模型的动作模型抓取成功率高出 4%。此外，与原始世界模型相比，我们的 WorldVLA 模型展现出卓越的视频生成能力，并将 LIBERO 数据集上的 Fréchet 视频距离 (FVD) 降低了 10%。这些结果凸显了世界模型和动作模型融合带来的互利共赢，凸显了统一图像和动作理解与生成框架的优势。在动作块生成方面，采用传统的自回归方法会导致抓取成功率下降 10% 至 50%。然而，我们的注意力掩蔽策略显著缓解了这种下降趋势，使抓取成功率提升了 4% 至 23%。

总而言之，我们的贡献如下：

我们提出了 WorldVLA，一种统一动作和图像理解和生成的自回归动作世界模型。
我们为自回归模型中的动作块生成任务引入了一种动作注意掩蔽策略，解决了按顺序生成多个动作时动作错误累积的难题。
我们的实验表明，WorldVLA 的表现优于独立的动作模型和世界模型，凸显了世界模型和动作模型之间的相互增强。此外，动作注意掩蔽策略解决了生成动作块时的性能下降问题，并显著提升了抓取性能。

方法

1.问题描述

该模型能够同时执行动作预测和世界状态预测。具体来说，我们定义了两个主要组件：动作模型（或策略模型）π 和世界模型 f。动作模型 π 负责生成一个动作 a，该动作 a 的条件是图像观测历史 {o, o, ..., o} 和语言指令 l。世界模型 f 根据历史观测序列 {o, o, ..., o} 和相应的动作序列 {a, a, ..., a} 预测下一帧 o

2.架构

图 2 WorldVLA 概览。WorldVLA 集成了两个截然不同但互补的功能组件：动作模型和世界模型。动作模型负责根据文本和视觉数据生成动作。世界模型则利用文本信息、当前图像和当前动作来预测后续环境状态（例如，下一帧视觉）。

包括图像标记器、文本标记器和动作标记器。图像标记器是一个 VQ-GAN 模型（Esser et al., 2021），对特定图像区域（例如面部和显著物体）有额外的感知损失（Gafni et al., 2022）。图像标记器的压缩率为 16，码本大小为 8192。图像标记器为 256×256 图像生成 256 个标记，为 512×512 图像生成 1024 个标记。动作标记器将连续机器人动作的每个维度离散化为 256 个箱中的一个，箱宽由训练数据的范围决定（Kim et al., 2024; Brohan et al., 2023）。动作表示为 7 个标记，包括 3 个相对位置、3 个相对角度和 1 个绝对夹持器状态。文本分词器采用经过训练的 BPE 分词器 (Sennrich 等人，2015)，词汇量为 65,536，其中包含 8192 个图像tokens和 256 个动作tokens。所有文本、动作和图像均被离散化为tokens，并以自回归方式进行训练。

（三种模态（图像、文本、动作）的token被设计在同一个词汇表空间内，但不同模态的token被分配了互不重叠的区间。这种设计允许单一LLM处理所有模态）

3.训练策略

我们混合使用动作模型数据和世界模型数据来训练我们的 WorldVLA。融入世界模型数据来增强动作生成主要有三个原因。首先，世界模型通过学习根据当前状态和应用的动作预测未来观察结果来获得对环境物理的理解。这种学习到的环境物理表征有助于完成操作任务。其次，世界模型使系统能够模拟和评估候选动作的潜在结果，从而有助于避免可能导致不利状态的动作。第三，世界模型需要对动作输入进行精确的解释，这反过来又支持动作模型生成更有效、更符合情境的动作。另一方面，动作模型增强了视觉理解，反过来又支持了世界模型的视觉生成能力。

动作模型数据

动作模型是根据文本指令和图像观察结果生成动作。文本输入为“机器人应该采取什么行动来+任务指令+？”。整体令牌序列：

其中 {text}、{image} 和 {action} 分别表示离散的文本、图像和动作标记。[BOS]、[EOS]、[BOI]、[EOI]、[BOA]、[EOA] 分别表示句子开头、句子结尾、图像开头、图像标记结尾、动作开头和动作标记结尾。输入包含 M 个图像，输出包含 K 个动作。我们仅计算动作标记 L 的损失。

世界模型数据

世界模型是根据当前图像的观察结果和动作生成下一帧图像。它不需要任务指令，因为动作本身完全可以决定下一个状态。文本输入为“根据当前图像和动作生成下一帧”。整体 token 序列如下：

以动作为条件的下一帧预测重复 N 次，我们只计算生成的图像标记 L 的损失。

注意力掩码

自回归模型中的标准注意力机制通常采用因果注意力掩码，它限制当前标记只能访问来自前一个标记的信息，而无法访问任何后续标记，如图 3 (a) 所示。然而，这种传统配置不足以生成动作块（即多个连续动作）。虽然基础 MLLM 由于在不同数据集上进行大规模预训练而展现出跨图像和文本域的强大泛化能力，但其在动作域的有效泛化能力相对有限。因此，在默认注意力掩码下，源自早期动作的错误会传播到后续动作，导致性能下降。为了解决这一限制，我们引入了一种专为动作生成量身定制的替代注意力掩码，如图 3 (b) 所示。此修改后的掩码确保当前动作仅依赖于文本和视觉输入，同时禁止访问先前的动作。这样的设计使自回归框架能够并行生成多个动作，这与 (Kim et al., 2025; Black et al., 2024) 中提出的方法一致。世界模型部分遵循传统的因果注意力掩码，如图 3 (c) 所示。

训练目标

我们将动作模型数据和世界模型数据混合在一起，使得自回归动作世界模型既可以表现为动作模型，又可以表现为世界模型。损失函数为：

其中 L 动作和 L 表示动作模型数据和世界模型数据的交叉熵损失。由于图像标记（256 × 256 图像有 256 个标记，512 × 512 图像有 1024 个标记）远多于动作标记（7 个标记），我们使用 α 来平衡损失贡献。

（不管后文中是否用动作块，应该都是自回归动作生成）

实验

基线。动作模型分为连续动作模型和离散动作模型两类。连续动作模型并行生成多个动作，并使用 l1 回归损失进行训练。基于扩散的动作模型，如扩散策略 (Chi et al., 2023)、Octo (Team et al., 2024)、DiT 策略 (Hou et al., 2024) 和 UVA (Li et al., 2025)，使用扩散过程生成动作。Seer (Tian et al., 2024) 和 OpenVLA-OFT (Kim et al., 2025) 使用动作头直接一次性输出多个动作。离散动作模型（如 OpenVLA (Kim et al., 2024)）将动作视为与文本一样的标记，并以自回归方式生成动作。离散模型本质上表现出较差的性能，因为动作的标记化过程可能会导致信息丢失。

训练设置。动作模型使用默认输入图像数量 M = 2。在默认配置下，LIBERO Long 任务的动作块大小设置为 K = 10，其余三个 LIBERO 任务的动作块大小设置为 K = 5。为了最小化计算开销，世界模型采用单轮 N = 1 进行运行。实验设置中的参数α固定为 0.04。

指标。对于动作模型评估，我们会在不同的初始状态下对每个任务进行 50 次 rollout 评估，并记录成功率 (SR)。对于世界模型评估，我们使用验证集并记录 FVD、PSNR、SSIM 和 LPIPS 值。

评估结果与讨论

基准测试结果。表 2 表明，即使在没有预训练的情况下，所提出的 WorldVLA 模型也表现出优于离散 OpenVLA 模型的性能。这一结果证明了 WorldVLA 设计的有效性。此外，图像分辨率与模型性能之间存在正相关关系。具体而言，512∗512 像素分辨率比 256∗256 像素分辨率产生了更好的结果。这一现象主要归因于 Chameleon 主干网络 (Team, 2024) 的预训练方案，其图像标记化模块和大型语言模型组件在 512∗512 分辨率下进行了固有优化。此外，更高的分辨率自然可以提供更丰富的细节视觉信息，这对于机器人抓取任务尤为重要，因为它需要很高的操作精度。

世界模型助力行动模型。表 3 中的定量结果（包括第 2 行与第 1 行，或第 5 行与第 4 行）表明，整合世界模型显著提升了行动模型的性能。世界模型的基本功能是根据当前状态和给定的行动，预测环境的后续状态。这一生成过程本质上促进了对系统底层物理动力学的理解，这是成功的关键先决条件。

在诸如抓取等灵巧操作任务中执行。此外，世界模型赋予系统前瞻性模拟的能力，使其能够预测潜在动作的后果。这种预测性预见有助于做出更明智的决策，从而优化动作选择，最大限度地提高任务成功的概率。图 4 显示，动作模型在没有成功抓取奶酪或瓶子后直接移动到目的地。相比之下，我们的动作世界模型会反复尝试抓取物体，直到成功操作后再继续移动到目标位置。

动作模型助力世界模型。表 4 表明，动作世界模型在生成质量方面优于纯世界模型，尤其是在生成较长的视频序列时。动作模型根据输入图像推导出动作。一方面，这有助于更准确的视觉解释；另一方面，生成动作的过程增强了对潜在行为模式的理解。这两个方面都支持世界模型的整体性能，该模型依赖于对视觉和动作相关信息的鲁棒理解来有效地预测未来状态。如图 5 所示，纯世界模型在几种情况下会失效：它无法打开抽屉 (a)、移动盘子后导致碗消失 (b) 以及无法将碗放到炉子上 (c)。相比之下，动作世界模型在这些情况下会产生连贯且物理上合理的后续状态。

使用建议的注意力掩码生成动作分块。同时生成多个动作是对于实现有效且高效的抓取至关重要。然而，我们观察到，简单的自回归方法（即按顺序生成动作）会降低模型性能，如表 3 第 3 行和图 6 的结果所示。抓取成功率会随着动作块的延长而逐渐降低。这种性能下降的原因是，由于后续动作共享同一空间，它们会过度依赖于先前的动作，而不是基于视觉输入这种独特的模态。由于在预训练 MLLM 时未涉及这种模态，因此动作的泛化能力并不强。因此，随着生成动作序列的增加，错误往往会累积。所提出的注意力掩蔽机制确保每个动作独立生成并仅由视觉输入决定，从而减轻动作序列内错误传播的问题。如图 6 所示，与朴素注意力掩蔽相比，包含所提出的注意力掩蔽的模型表现出更优异的性能，尤其是在块长度较长的情况下。这凸显了所引入的掩蔽方法的有效性。如果动作块的长度过长，机器人及时调整策略的能力就会受到限制，导致整体性能下降，如图 6 所示。

世界模型 vs. 视频预测模型。视频预测模型是根据当前帧和任务指令生成下一帧。在先前的研究中，视频预测已用于预训练动作模型，例如 GR-1 (Wu et al., 2023) 和 GR-2 (Cheang et al., 2024)。视频预测模型和世界模型都属于视觉生成模型，因此我们进行比较，以评估哪个框架对动作模型的效用更大。视频预测模型的文本输入为“基于任务和当前图像生成未来图像+任务指令”。整体 token 序列为：

视频预测模型和世界模型之间的区别在于，世界模型以动作为条件，而视频预测模型则不然。如图 7 所示，世界模型的集成增强了动作模型在所有评估任务中的表现。然而，视频预测模型对两个任务表现出有益效果，同时对一个任务的性能产生负面影响。这种差异可能源于在没有动作输入时视频预测中固有的模糊性，因为后续帧无法仅从初始帧唯一地确定。因此，多个合理的未来帧或地面实况序列可能对应于单个起始帧，从而可能在训练期间引入噪声或不一致性。此外，加入世界模型需要理解动作，这有助于更有效地生成动作。

历史图像输入。诸如 Chameleon (Team, 2024) 等用于理解和生成的统一模型，采用离散图像标记器 VQGAN (Esser et al., 2021) 进行图像解释。然而，与 CLIP (Radford et al., 2021) 等基于视觉的感知模型相比，它们的语义理解能力相对有限。如表 5 所示，使用单帧输入会导致性能不佳。为了增强模型对视觉上下文的访问，我们引入了多个历史图像帧，从而逐步提升性能。此外，结果表明，在生成动作块时，两帧输入即可达到性能饱和。因此，我们在实验中默认采用两帧输入配置，以优化任务成功率和计算效率之间的平衡。

使用世界模型预训练动作模型。我们的 WorldVLA 框架在训练过程中整合了动作模型数据和世界模型数据。我们进一步研究了将世界模型用作动作模型预训练权重来源的可能性。这种预训练形式要求模型能够理解视觉输入、动作以及控制状态转换的底层物理动力学。如表 6 所示，使用世界模型进行预训练可显著提升抓取性能。这些发现凸显了世界模型预训练在机器人应用中的潜力，尤其是在通过预先掌握通用的世界知识来提升特定任务的性能方面。

结论与未来工作

本研究介绍了 WorldVLA，这是一个新颖的自回归框架，它将动作和视觉理解与生成功能统一起来。我们证明了，在该架构中整合世界建模和动作建模可以相互提升性能。我们提出了一种注意力掩码机制，以实现动作序列的自回归生成。数据和模型规模的扩展有望成为进一步开发 WorldVLA 框架的一条有效途径。此外，当前依赖于离散表示的图像分词器在感知表达能力方面存在局限性；因此，设计一个能够理解和生成高质量视觉内容的统一分词器是一个重要的改进方向。辅助动作头的加入提出了另一种提升抓取性能的潜在策略。我们期待这项工作能够促进并启发机器人技术的未来研究，尤其是在世界建模以及动作和图像理解与生成的统一模型领域。