世界模型综述：迈向通用 VLA 智能体

2026-04-16

1. 引言

具身智能（Embodied AI）的终极目标是开发能够像人类一样在复杂现实世界中感知、推理并执行任务的通用智能体。近年来，视觉-语言-动作（Vision-Language-Action, VLA）模型的出现，标志着具身智能向通用化迈出了关键一步。VLA 模型利用大规模多模态预训练模型（如 LLMs/VLMs）的语义推理能力，将高层指令转化为底层的机器人控制指令。

然而，现有的 VLA 智能体在实际部署中仍面临三大核心挑战：

物理幻觉（Physical Hallucination）：生成的动作往往缺乏物理常识约束。
计划验证缺失：难以预见动作执行后的物理后果，导致无法在闭环中验证计划的可执行性。
数据稀缺：高质量的机器人交互数据获取成本极高，限制了模型的扩展性。

为了应对这些挑战，世界模型（World Models） 被引入具身智能领域，作为一种”未来预测器”，模拟环境的时间演变。通过预测未来状态，世界模型不仅为 VLA 提供了物理接地的引导，还成为了高效的数据引擎和虚拟仿真环境。

图1：具身智能世界模型总览。世界模型（交互性、未来预测、物理接地）与 VLA（通用策略、开放指令、VLM 推理）的结合，赋予智能体仿真、前瞻规划和数据生成三大核心能力。（图源：Tan et al., 2026）

本文基于同济大学 Tan et al.（2026）发布于 TechRxiv 的综述论文 Towards Generalist Embodied AI: A Survey on World Models for VLA Agents，系统梳理具身智能中世界模型的研究进展，为学习和研究该领域提供参考。

2. 具身智能世界模型基本概述

2.1 什么是具身智能世界模型？

Cosmos WM 和 OpenVLA

在具身智能语境下，世界模型 $W_\phi$ 旨在通过近似状态转移分布 $P(s_{t+1} \mid s_t, \cdot)$ 来捕捉环境动力学。它通常采用生成式骨干网络（如 Diffusion 或 Transformer）来建模复杂场景的时空演化。

与传统的机器人仿真器不同，具身智能世界模型通常是从大规模多模态数据中”学习”物理规律，能够生成物理上一致的未来预测，从而辅助智能体进行闭环推理。

与 VLA 的关键区别：大型语言模型（LLMs）作为离散世界模型，擅长文本中心的推理，但难以捕捉连续物理动力学。具身世界模型通过预测连续的未来状态，填补了这一关键空白，将高层语义意图与低层物理执行连接起来。

2.2 核心要素与系统架构

世界模型与 VLA 智能体的集成通常包含以下核心能力：

交互性（Interactivity）：响应动作输入并反馈环境变化。
未来预测（Future Prediction）：预测像素级或潜空间级的未来状态。
物理接地（Physical Grounding）：确保生成的轨迹符合物理常识。

其典型的系统架构可分为：

感知编码器：将视觉和语言输入转化为特征。
动态模型（世界模型核心）：预测未来的潜状态或图像序列。
策略网络（VLA）：根据预测的未来信息生成最终动作。

2.3 研究发展趋势

世界模型的研究从最初的简单动作预测，逐步演进为集感知、推理、生成于一体的复杂系统。下图展示了 2023 年至 2025 年四大范式的演化时间轴。

图2：VLA 世界模型分类时间线（2023–2025）。从 2023 年的探索期到 2025 年世界合成器和世界模拟器的爆发式增长，展现了该领域的快速发展。（图源：Tan et al., 2026）

关键趋势：

2023年：UniPi、SuSIE 奠定视频生成驱动规划基础；GR-1 开创世界动作模型范式。
2024年：PIVOT-R、3D-VLA 引入 3D 感知；GR-2 验证了大规模视频预训练的有效性。
2025年初：UP-VLA、CoT-VLA 拓展推理增强方向；WorldGym 成为首批世界模拟器之一。
2025年中后期：世界合成器（DreamGen、Ctrl-World、GigaWorld-0）和世界模拟器（VLA-RFT、RoboScape-R、NORA-1.5）爆发式增长，受益于生成式 AI 技术的快速进步。

3. 四大技术范式详解

图3：VLA 世界模型的四大技术范式。(a) 世界规划器：世界模型生成潜表示 z 引导 VLA；(b) 世界动作模型：将观察与动作联合建模；(c) 世界合成器：通过模仿学习（IL）构建合成数据集；(d) 世界模拟器：通过强化学习（RL）优化策略并获取外部奖励。（图源：Tan et al., 2026）

3.1 世界规划器 (World Planner)

图：InternVLA·N1 的端到端双系统架构（图源：Intern Robotics）

定义：该范式采用世界模型 $\mathcal{W}_\phi$ 作为前向动力学模型，以显式未来观测或隐式潜特征的形式合成前瞻引导，为策略 $\pi_\theta$ 提供语义条件：

\[\max_\theta \mathbb{E}_{z_{t+1} \sim \mathcal{W}_\phi(\cdot|o_t)} \left[ \sum_t \log \pi_\theta(a_{t+1} | o_t, z_{t+1}) \right]\]

细粒度分类（根据规划范式和引导信号）：

范式	引导信号	代表性方法
显式（Explicit）	预测图像	UniPi, SuSIE, GR-MG, Vidar, 3D-VLA, FLIP
隐式（Implicit）	潜嵌入	V-JEPA 2, PIVOT-R
显式（Explicit）	潜嵌入	VPP, MinD, TriVLA, GO-1, Genie Envisioner
混合（Hybrid）	混合	MoWM

演进路径：UniPi、SuSIE、GR-MG、Vidar、3D-VLA、FLIP 等将规划视为高保真视频生成任务，通过扩散模型合成像素级未来状态，再经逆动力学模型导出动作。近期 V-JEPA 2 和 PIVOT-R 转向隐式规划，直接在潜空间预测未来状态，避免了动力学无关的视觉细节（如光照、纹理）的干扰，提升了引导信号的质量。MoWM 则融合多种动力学先验形成混合方案，进一步简化动作推导。

3.2 世界动作模型 (World Action Model)

定义：该范式采用生成式建模近似未来观测与动作的联合分布，预测视觉与控制的耦合动力学：

\[\max_\phi \mathbb{E}_{\tau \sim \mathcal{D}} \left[ \sum_t \log \mathcal{W}_\phi(o_{t+1}, a_{t+1} | o_t) \right]\]

细粒度分类（根据建模范式和实现机制）：

范式	机制	代表性方法
自回归（AR）	视频预训练	GR-1, HMA, UniVLA, GR-2
自回归（AR）	统一序列建模	WorldVLA, RynnVLA-002, UP-VLA
自回归（AR）	前瞻推理	Seer, F1, GR-MG, PAR
自回归（AR）	推理增强	FlowVLA, CoT-VLA, DreamVLA
扩散（Diff.）	离散值	UD-VLA, dVLA
扩散（Diff.）	连续值	DUST, FLARE

演进路径：GR-1 开创视频预训练范式后，WorldVLA、RynnVLA-002 将动作与观测整合为统一 Token 流，实现端到端的具身一致性。推理增强方向（FlowVLA、CoT-VLA、DreamVLA）引入多模态思维链结构化决策过程。扩散范式中，UD-VLA 和 dVLA 通过离散扩散提升 Token 生成质量；DUST 和 FLARE 利用联合扩散机制实现高精度连续控制，有效缓解动作离散化带来的信息损失。

3.3 世界合成器 (World Synthesizer)

定义：该范式构建可扩展的数据引擎，通过联合生成器 $\mathcal{G}_{\theta,\phi}$ 合成交错的观测-动作轨迹 $\tilde{\tau}$ 支持模仿学习：

\[\mathcal{D}_{syn} \triangleq \left\{ \tilde{\tau} \sim p(o_0) \prod_t \mathcal{G}_{\theta,\phi}(\hat{o}_{t+1}, a_{t+1} | \hat{o}_t) \right\}\]

细粒度分类（根据合成范式和生成策略）：

范式	机制	代表性方法
视角增强（View Aug.）	腕部视角前瞻	WristWorld
生成数据（Gen. Data）	动作条件生成	Genie Envisioner, Ctrl-World
生成数据（Gen. Data）	无动作合成	DreamGen, GigaWorld-0

演进路径：WristWorld 通过生成 4D 腕部视角数据进行视角增强，专注于改善自我中心前瞻。Genie Envisioner 和 Ctrl-World 采用动作条件世界模型，基于特定动作序列展开未来观测。DreamGen 和 GigaWorld-0 则首先合成视觉轨迹，再通过逆动力学推断动作——无需动作标注，为突破机器人数据长尾瓶颈提供了重要途径。

3.4 世界模拟器 (World Simulator)

定义：该范式将动作条件世界模型 $\mathcal{W}_\phi$ 作为虚拟仿真器，通过与外部奖励评估器集成，在想象结果上优化期望奖励：

\[\max_\theta \mathbb{E}_{\substack{a \sim \pi_\theta(\cdot|o) \\ \hat{o} \sim \mathcal{W}_\phi(\cdot|o,a)}} \left[ \mathcal{R}_{ext}(\hat{o}, a) \right]\]

细粒度分类（根据仿真范式和实现机制）：

范式	机制	代表性方法
评估（Eva.）	任务成功率	WorldGym, Genie Envisioner
强化学习（RL）	稀疏奖励	World4RL, WMPO, Prophet
强化学习（RL）	稠密奖励	World-Env, VLA-RFT, RoboScape-R, SRPO, NORA-1.5
测试时适应（TTA）	—	VLA-Reasoner, AdaPower

演进路径：WorldGym 和 Genie Envisioner 将世界模型作为单纯的评估器来验证 VLA 性能。稀疏奖励 RL 方案（World4RL、WMPO、Prophet）引入合成反馈进行策略改进。稠密奖励方案（World-Env、VLA-RFT、RoboScape-R）进一步提供逐步奖励，显著降低对物理部署的依赖；NORA-1.5 融合 V-JEPA 2 特征提升对齐精度；VLA-Reasoner 和 AdaPower 则探索测试时适应，允许模型在线动态更新。

4. 经典代表性工作

本章节梳理了具身智能世界模型演进过程中的几项里程碑式研究。

4.1 NeRF (2020)

———Representing Scenes as Neural Radiance Fields for View Synthesis

📄 Paper: https://arxiv.org/abs/2003.08934

精华

NeRF 是神经渲染（Neural Rendering）领域的开创性工作，其核心贡献和启发包括：

隐式场景表示：不再使用显式的点云或网格，而是将 3D 场景编码为 MLP 网络的权重，实现极高精度的连续场景表示。
5D 辐射场函数：通过输入空间坐标 $(x, y, z)$ 和观测视角 $(\theta, \phi)$，输出颜色和体积密度，完美捕捉了与视图相关的材质光泽（如 Specular 效应）。
位置编码（Positional Encoding）：发现并解决了深度网络偏向学习低频信号的问题，通过傅里叶变换将坐标映射到高维空间，从而还原复杂的纹理细节。
层次化体采样：设计了 Coarse-to-Fine 的采样策略，通过两个 MLP 同时优化，将计算资源集中在场景中有内容的区域，显著提升了渲染效率和质量。
端到端可微体渲染：结合经典体渲染公式，使得整个管线仅需带位姿的 2D 图像即可进行端到端训练。

1. 研究背景/问题

视角合成（View Synthesis）是计算机图形学的长期难题。传统方法（如离散体素、多平面图像或网格渲染）在处理复杂几何边缘和非朗伯体（Non-Lambertian）反射材质时，往往存在存储成本高或渲染不自然的问题。NeRF 旨在通过连续的神经场表示，在仅使用稀疏 2D 图像作为输入的情况下，实现照片级真实感的 3D 场景重建和视角合成。

2. 主要方法/创新点

NeRF 概览：从稀疏 2D 图像集中优化出连续的 5D 神经辐射场，并渲染出全新视角的图像。

NeRF 的核心管线包含以下关键技术：

5D 神经场景表示：

NeRF 网络架构：空间位置 $x$ 先经过 8 层 MLP 生成体积密度 $\sigma$ 和特征向量，再结合视角方向 $d$ 经过额外层输出视角相关的 RGB 颜色。

通过限制体积密度仅取决于位置，而颜色取决于位置和方向，模型能够保证在不同视角下观察到的几何结构一致，同时捕捉到随视角变化的光影。

可微渲染管线：

NeRF 训练管线：沿光线采样 -> 查询 MLP -> 体渲染合成像素 -> 与真值计算损失并反向传播。

利用数值积分近似体渲染方程，使得像素颜色成为网络权重的可微函数。

捕捉高频细节：引入了位置编码 $\gamma(p)$，将原始坐标映射为一系列正余弦函数： $\gamma(p) = \left( \sin(2^0\pi p), \cos(2^0\pi p), \dots, \sin(2^{L-1}\pi p), \cos(2^{L-1}\pi p) \right)$ 这使得 MLP 能够拟合高频变化的颜色和几何细节，避免了渲染结果过于平滑（Oversmoothed）。

3. 核心结果/发现

定量与定性超越：在合成数据集（如 Lego, Drums）和真实场景中，NeRF 的 PSNR 和 SSIM 指标均大幅超越了当时的 SOTA（如 LLFF, SRN）。

对比实验：NeRF 在恢复复杂几何（如乐高积木内部、显微镜网格）和非朗伯反射方面表现出显著优势。

存储优势：相比于需要数 GB 存储的体素网络，一个复杂的 NeRF 模型仅需约 5MB 的网络权重即可表示整个场景。

4. 局限性

NeRF 的主要局限在于训练和推理速度极慢（训练单个场景需一两天，渲染一张图需几十秒）。此外，原始 NeRF 仅适用于静态场景，无法处理动态物体或由于光照变化导致的一致性问题。

4.2 3D Gaussian Splatting (2023)

———Real-Time Radiance Field Rendering via Differentiable Gaussian Primitives

📄 Paper: https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

精华

3DGS 证明了显式、非连续的场景表示（无需神经网络）同样可以达到 SOTA 的 novel view synthesis 质量，打破了 NeRF 系隐式连续表示是高质量渲染必须条件的固有认知。各向异性协方差（通过旋转矩阵 R 和缩放矩阵 S 分解 $\Sigma = RSS^T R^T$）使每个 Gaussian 能够自适应地拟合场景中任意形状的几何结构，是高质量紧凑表示的关键。自适应密度控制中的 Clone（欠重建）+ Split（过重建）策略提供了一个简洁有效的几何增殖机制，可迁移应用于其他点云优化场景。Tile-based GPU Radix sort 排序 + $\alpha$-blending 的渲染流水线完全可微，实现了无限制梯度回传，是实现实时渲染同时保持训练质量的工程核心。