1. 引言
具身智能(Embodied AI)的终极目标是开发能够像人类一样在复杂现实世界中感知、推理并执行任务的通用智能体。近年来,视觉-语言-动作(Vision-Language-Action, VLA)模型的出现,标志着具身智能向通用化迈出了关键一步。VLA 模型利用大规模多模态预训练模型(如 LLMs/VLMs)的语义推理能力,将高层指令转化为底层的机器人控制指令。
然而,现有的 VLA 智能体在实际部署中仍面临三大核心挑战:
- 物理幻觉(Physical Hallucination):生成的动作往往缺乏物理常识约束。
- 计划验证缺失:难以预见动作执行后的物理后果,导致无法在闭环中验证计划的可执行性。
- 数据稀缺:高质量的机器人交互数据获取成本极高,限制了模型的扩展性。
为了应对这些挑战,世界模型(World Models) 被引入具身智能领域,作为一种”未来预测器”,模拟环境的时间演变。通过预测未来状态,世界模型不仅为 VLA 提供了物理接地的引导,还成为了高效的数据引擎和虚拟仿真环境。
本文基于同济大学 Tan et al.(2026)发布于 TechRxiv 的综述论文 Towards Generalist Embodied AI: A Survey on World Models for VLA Agents,系统梳理具身智能中世界模型的研究进展,为学习和研究该领域提供参考。
2. 具身智能世界模型基本概述
2.1 什么是具身智能世界模型?
在具身智能语境下,世界模型 $W_\phi$ 旨在通过近似状态转移分布 \(P(s_{t+1} \mid s_t, \cdot)\) 来捕捉环境动力学。它通常采用生成式骨干网络(如 Diffusion 或 Transformer)来建模复杂场景的时空演化。
与传统的机器人仿真器不同,具身智能世界模型通常是从大规模多模态数据中”学习”物理规律,能够生成物理上一致的未来预测,从而辅助智能体进行闭环推理。
与 VLA 的关键区别:大型语言模型(LLMs)作为离散世界模型,擅长文本中心的推理,但难以捕捉连续物理动力学。具身世界模型通过预测连续的未来状态,填补了这一关键空白,将高层语义意图与低层物理执行连接起来。
2.2 核心要素与系统架构
世界模型与 VLA 智能体的集成通常包含以下核心能力:
- 交互性(Interactivity):响应动作输入并反馈环境变化。
- 未来预测(Future Prediction):预测像素级或潜空间级的未来状态。
- 物理接地(Physical Grounding):确保生成的轨迹符合物理常识。
其典型的系统架构可分为:
- 感知编码器:将视觉和语言输入转化为特征。
- 动态模型(世界模型核心):预测未来的潜状态或图像序列。
- 策略网络(VLA):根据预测的未来信息生成最终动作。
2.3 研究发展趋势
世界模型的研究从最初的简单动作预测,逐步演进为集感知、推理、生成于一体的复杂系统。下图展示了 2023 年至 2025 年四大范式的演化时间轴。
关键趋势:
- 2023年:UniPi、SuSIE 奠定视频生成驱动规划基础;GR-1 开创世界动作模型范式。
- 2024年:PIVOT-R、3D-VLA 引入 3D 感知;GR-2 验证了大规模视频预训练的有效性。
- 2025年初:UP-VLA、CoT-VLA 拓展推理增强方向;WorldGym 成为首批世界模拟器之一。
- 2025年中后期:世界合成器(DreamGen、Ctrl-World、GigaWorld-0)和世界模拟器(VLA-RFT、RoboScape-R、NORA-1.5)爆发式增长,受益于生成式 AI 技术的快速进步。
3. 四大技术范式详解
3.1 世界规划器 (World Planner)
定义:该范式采用世界模型 \(\mathcal{W}_\phi\) 作为前向动力学模型,以显式未来观测或隐式潜特征的形式合成前瞻引导,为策略 \(\pi_\theta\) 提供语义条件:
\[\max_\theta \mathbb{E}_{z_{t+1} \sim \mathcal{W}_\phi(\cdot|o_t)} \left[ \sum_t \log \pi_\theta(a_{t+1} | o_t, z_{t+1}) \right]\]细粒度分类(根据规划范式和引导信号):
| 范式 | 引导信号 | 代表性方法 |
|---|---|---|
| 显式(Explicit) | 预测图像 | UniPi, SuSIE, GR-MG, Vidar, 3D-VLA, FLIP |
| 隐式(Implicit) | 潜嵌入 | V-JEPA 2, PIVOT-R |
| 显式(Explicit) | 潜嵌入 | VPP, MinD, TriVLA, GO-1, Genie Envisioner |
| 混合(Hybrid) | 混合 | MoWM |
演进路径:UniPi、SuSIE、GR-MG、Vidar、3D-VLA、FLIP 等将规划视为高保真视频生成任务,通过扩散模型合成像素级未来状态,再经逆动力学模型导出动作。近期 V-JEPA 2 和 PIVOT-R 转向隐式规划,直接在潜空间预测未来状态,避免了动力学无关的视觉细节(如光照、纹理)的干扰,提升了引导信号的质量。MoWM 则融合多种动力学先验形成混合方案,进一步简化动作推导。
3.2 世界动作模型 (World Action Model)
定义:该范式采用生成式建模近似未来观测与动作的联合分布,预测视觉与控制的耦合动力学:
\[\max_\phi \mathbb{E}_{\tau \sim \mathcal{D}} \left[ \sum_t \log \mathcal{W}_\phi(o_{t+1}, a_{t+1} | o_t) \right]\]细粒度分类(根据建模范式和实现机制):
| 范式 | 机制 | 代表性方法 |
|---|---|---|
| 自回归(AR) | 视频预训练 | GR-1, HMA, UniVLA, GR-2 |
| 自回归(AR) | 统一序列建模 | WorldVLA, RynnVLA-002, UP-VLA |
| 自回归(AR) | 前瞻推理 | Seer, F1, GR-MG, PAR |
| 自回归(AR) | 推理增强 | FlowVLA, CoT-VLA, DreamVLA |
| 扩散(Diff.) | 离散值 | UD-VLA, dVLA |
| 扩散(Diff.) | 连续值 | DUST, FLARE |
演进路径:GR-1 开创视频预训练范式后,WorldVLA、RynnVLA-002 将动作与观测整合为统一 Token 流,实现端到端的具身一致性。推理增强方向(FlowVLA、CoT-VLA、DreamVLA)引入多模态思维链结构化决策过程。扩散范式中,UD-VLA 和 dVLA 通过离散扩散提升 Token 生成质量;DUST 和 FLARE 利用联合扩散机制实现高精度连续控制,有效缓解动作离散化带来的信息损失。
3.3 世界合成器 (World Synthesizer)
定义:该范式构建可扩展的数据引擎,通过联合生成器 \(\mathcal{G}_{\theta,\phi}\) 合成交错的观测-动作轨迹 \(\tilde{\tau}\) 支持模仿学习:
\[\mathcal{D}_{syn} \triangleq \left\{ \tilde{\tau} \sim p(o_0) \prod_t \mathcal{G}_{\theta,\phi}(\hat{o}_{t+1}, a_{t+1} | \hat{o}_t) \right\}\]细粒度分类(根据合成范式和生成策略):
| 范式 | 机制 | 代表性方法 |
|---|---|---|
| 视角增强(View Aug.) | 腕部视角前瞻 | WristWorld |
| 生成数据(Gen. Data) | 动作条件生成 | Genie Envisioner, Ctrl-World |
| 生成数据(Gen. Data) | 无动作合成 | DreamGen, GigaWorld-0 |
演进路径:WristWorld 通过生成 4D 腕部视角数据进行视角增强,专注于改善自我中心前瞻。Genie Envisioner 和 Ctrl-World 采用动作条件世界模型,基于特定动作序列展开未来观测。DreamGen 和 GigaWorld-0 则首先合成视觉轨迹,再通过逆动力学推断动作——无需动作标注,为突破机器人数据长尾瓶颈提供了重要途径。
3.4 世界模拟器 (World Simulator)
定义:该范式将动作条件世界模型 \(\mathcal{W}_\phi\) 作为虚拟仿真器,通过与外部奖励评估器集成,在想象结果上优化期望奖励:
\[\max_\theta \mathbb{E}_{\substack{a \sim \pi_\theta(\cdot|o) \\ \hat{o} \sim \mathcal{W}_\phi(\cdot|o,a)}} \left[ \mathcal{R}_{ext}(\hat{o}, a) \right]\]细粒度分类(根据仿真范式和实现机制):
| 范式 | 机制 | 代表性方法 |
|---|---|---|
| 评估(Eva.) | 任务成功率 | WorldGym, Genie Envisioner |
| 强化学习(RL) | 稀疏奖励 | World4RL, WMPO, Prophet |
| 强化学习(RL) | 稠密奖励 | World-Env, VLA-RFT, RoboScape-R, SRPO, NORA-1.5 |
| 测试时适应(TTA) | — | VLA-Reasoner, AdaPower |
演进路径:WorldGym 和 Genie Envisioner 将世界模型作为单纯的评估器来验证 VLA 性能。稀疏奖励 RL 方案(World4RL、WMPO、Prophet)引入合成反馈进行策略改进。稠密奖励方案(World-Env、VLA-RFT、RoboScape-R)进一步提供逐步奖励,显著降低对物理部署的依赖;NORA-1.5 融合 V-JEPA 2 特征提升对齐精度;VLA-Reasoner 和 AdaPower 则探索测试时适应,允许模型在线动态更新。
4. 经典代表性工作
本章节梳理了具身智能世界模型演进过程中的几项里程碑式研究。
4.1 NeRF (2020)
———Representing Scenes as Neural Radiance Fields for View Synthesis
📄 Paper: https://arxiv.org/abs/2003.08934
精华
NeRF 是神经渲染(Neural Rendering)领域的开创性工作,其核心贡献和启发包括:
- 隐式场景表示:不再使用显式的点云或网格,而是将 3D 场景编码为 MLP 网络的权重,实现极高精度的连续场景表示。
- 5D 辐射场函数:通过输入空间坐标 $(x, y, z)$ 和观测视角 $(\theta, \phi)$,输出颜色和体积密度,完美捕捉了与视图相关的材质光泽(如 Specular 效应)。
- 位置编码(Positional Encoding):发现并解决了深度网络偏向学习低频信号的问题,通过傅里叶变换将坐标映射到高维空间,从而还原复杂的纹理细节。
- 层次化体采样:设计了 Coarse-to-Fine 的采样策略,通过两个 MLP 同时优化,将计算资源集中在场景中有内容的区域,显著提升了渲染效率和质量。
- 端到端可微体渲染:结合经典体渲染公式,使得整个管线仅需带位姿的 2D 图像即可进行端到端训练。
1. 研究背景/问题
视角合成(View Synthesis)是计算机图形学的长期难题。传统方法(如离散体素、多平面图像或网格渲染)在处理复杂几何边缘和非朗伯体(Non-Lambertian)反射材质时,往往存在存储成本高或渲染不自然的问题。NeRF 旨在通过连续的神经场表示,在仅使用稀疏 2D 图像作为输入的情况下,实现照片级真实感的 3D 场景重建和视角合成。
2. 主要方法/创新点
NeRF 的核心管线包含以下关键技术:
- 5D 神经场景表示:
通过限制体积密度仅取决于位置,而颜色取决于位置和方向,模型能够保证在不同视角下观察到的几何结构一致,同时捕捉到随视角变化的光影。
- 可微渲染管线:
利用数值积分近似体渲染方程,使得像素颜色成为网络权重的可微函数。
- 捕捉高频细节: 引入了位置编码 $\gamma(p)$,将原始坐标映射为一系列正余弦函数: \(\gamma(p) = \left( \sin(2^0\pi p), \cos(2^0\pi p), \dots, \sin(2^{L-1}\pi p), \cos(2^{L-1}\pi p) \right)\) 这使得 MLP 能够拟合高频变化的颜色和几何细节,避免了渲染结果过于平滑(Oversmoothed)。
3. 核心结果/发现
- 定量与定性超越:在合成数据集(如 Lego, Drums)和真实场景中,NeRF 的 PSNR 和 SSIM 指标均大幅超越了当时的 SOTA(如 LLFF, SRN)。
- 存储优势:相比于需要数 GB 存储的体素网络,一个复杂的 NeRF 模型仅需约 5MB 的网络权重即可表示整个场景。
4. 局限性
NeRF 的主要局限在于训练和推理速度极慢(训练单个场景需一两天,渲染一张图需几十秒)。此外,原始 NeRF 仅适用于静态场景,无法处理动态物体或由于光照变化导致的一致性问题。
4.2 3D Gaussian Splatting (2023)
———Real-Time Radiance Field Rendering via Differentiable Gaussian Primitives
📄 Paper: https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
精华
3DGS 证明了显式、非连续的场景表示(无需神经网络)同样可以达到 SOTA 的 novel view synthesis 质量,打破了 NeRF 系隐式连续表示是高质量渲染必须条件的固有认知。各向异性协方差(通过旋转矩阵 R 和缩放矩阵 S 分解 \(\Sigma = RSS^T R^T\))使每个 Gaussian 能够自适应地拟合场景中任意形状的几何结构,是高质量紧凑表示的关键。自适应密度控制中的 Clone(欠重建)+ Split(过重建)策略提供了一个简洁有效的几何增殖机制,可迁移应用于其他点云优化场景。Tile-based GPU Radix sort 排序 + \(\alpha\)-blending 的渲染流水线完全可微,实现了无限制梯度回传,是实现实时渲染同时保持训练质量的工程核心。
1. 研究背景/问题
Neural Radiance Field(NeRF)方法通过体积光线投射实现了高质量 novel view synthesis,但需要大量采样查询,渲染速度极慢(Mip-NeRF360 仅 0.07 fps),训练时间长达 48 小时。现有快速方法(InstantNGP、Plenoxels)在速度上有所改进但质量存在妥协,且无法实现 1080p 分辨率下真正的实时渲染(≥30 fps)。
2. 主要方法/创新点
3D Gaussian 表示
场景由一组 3D Gaussian 基元表示,每个 Gaussian 由以下参数描述:
- 位置(均值) \(\mu \in \mathbb{R}^3\)
- 各向异性协方差 \(\Sigma = RSS^T R^T\),其中 R 为旋转矩阵(四元数 q 参数化),S 为缩放矩阵(向量 s 参数化)
- 不透明度 \(\alpha \in [0,1]\)(sigmoid 激活)
- 球谐函数(SH)系数 表示与视角相关的颜色外观(4 bands,共 48 个系数)
3D Gaussian 函数定义为:
\[G(x) = e^{-\frac{1}{2}x^T \Sigma^{-1} x}\]从 3D 投影到 2D
渲染时将 3D Gaussian 投影到图像平面,利用仿射近似的 Jacobian J 计算相机坐标系下的 2D 协方差 \(\Sigma' = JW\Sigma W^T J^T\)(去掉第三行列后为 2×2 矩阵),从而支持高效的各向异性 splatting。
可微 Tile-based Rasterizer
渲染器将图像分割为 16×16 的 Tile,对每个 Gaussian 计算其覆盖的 Tile 数量并分配 64-bit key(低 32 位为深度,高 32 位为 Tile ID),通过单次 GPU Radix Sort 全局排序后进行 front-to-back \(\alpha\)-blending:
\[C = \sum_{i \in \mathcal{N}} c_i \alpha_i \prod_{j=1}^{i-1}(1 - \alpha_j)\]反向传播时通过从最后一个影响像素的点开始 back-to-front 遍历重建中间 \(\alpha\) 值,无需显式存储每像素的混合列表,内存开销仅为常数级别。
自适应密度控制
每 100 次迭代执行一次密度控制:
- 欠重建(位置梯度 \(\lVert \nabla_p L \rVert > \tau_{pos} = 0.0002\),且 Gaussian 体积小)→ Clone:复制 Gaussian 并沿位置梯度方向移动
- 过重建(位置梯度大,且 Gaussian 体积大)→ Split:替换为 2 个缩小 \(\phi=1.6\) 倍的子 Gaussian
- 每 N=3000 次迭代将 \(\alpha < \epsilon_\alpha\) 的 Gaussian 剪枝
训练损失结合 \(\mathcal{L}_1\) 和 D-SSIM:
\[\mathcal{L} = (1-\lambda)\mathcal{L}_1 + \lambda \mathcal{L}_\text{D-SSIM}, \quad \lambda=0.2\]3. 核心结果/发现
- 实时渲染:1080p 分辨率下达到 93-135 fps,远超 Mip-NeRF360(0.07 fps)
- 训练效率:7K 迭代(~6min)可媲美 InstantNGP,30K 迭代(~35-45min)超越 Mip-NeRF360(48h)
- Mip-NeRF360 数据集(30K iters):PSNR 27.21,SSIM 0.815,LPIPS 0.214
- Tanks&Temples(30K iters):PSNR 23.14,SSIM 0.841,LPIPS 0.183
- 消融实验:各向异性协方差、Clone/Split 两种密度化策略、SH 表示均对最终 PSNR 有显著贡献(见 Table 3)
- 模型规模:1-5M Gaussians 表示完整场景,内存占用 200-500 MB
4. 局限性
在场景观测不足的区域(如训练视角盲区、强反射/高光表面)可能产生伸长的”splotchy” Gaussian 伪影和深度排序跳变导致的 popping 现象;当前不对优化添加正则化,在非常大的场景(如城市级别)中可能需要降低学习率才能收敛。
4.3 Cosmos (2025)
———NVIDIA Cosmos World Foundation Model Platform for Physical AI
📄 Paper: https://arxiv.org/abs/2501.03575
精华
NVIDIA 发布的 Cosmos 物理 AI 世界模型平台,展示了构建通用物理世界模拟器的完整路径,值得借鉴的点包括:
- 数据策展流水线:开发了名为 Cosmos Video Curator 的大规模自动视频处理流水线,从 2 亿小时视频中筛选出 1000 万个高质量片段,解决了物理 AI 数据规模化的核心难题。
- 多模态 Tokenizer:设计了能够同时处理连续和离散表示的视觉 Tokenizer,通过时空分解和因果 3D 卷积实现了极高的压缩比和重建质量。
- 分层训练范式:采用先进行通用物理规律的大规模预训练,再针对特定机器人任务进行后训练(Post-training)的范式,显著提升了跨任务泛化能力。
- 物理对齐验证:通过在模拟环境中构建物理场景(如倾斜平面、U型槽等)并对比真实物理引擎结果,量化评估了生成模型对牛顿力学的遵循程度。
- 安全护栏系统:内置了完整的 Guardrail 系统,确保生成的物理模拟内容安全合规。
1. 研究背景/问题
物理 AI(Physical AI)的发展面临核心瓶颈:缺乏像语言模型那样的大规模高质量交互数据。虽然视觉生成模型近年来取得了巨大进步,但要在机器人、自动驾驶等物理交互领域应用,模型必须不仅能生成视觉逼真的图像,还必须深刻理解物理规律。现有的世界模型通常局限于特定环境或小规模数据,难以作为通用的”数字孪生”环境供物理 AI 训练和测试。
2. 主要方法/创新点
Cosmos 平台提供了一个完整的生态系统,用于构建和微调针对物理 AI 任务的世界基础模型(WFM):
- 平台组件:
- Cosmos Tokenizer:
Tokenizer 是系统的基石,支持连续(用于扩散模型)和离散(用于自回归模型)两种表示。它在保持高压缩比的同时,显著优于现有的 SOTA 方法(如 Video-MAGVIT2)。
- 预训练模型架构:
- 扩散模型(Diffusion WFM):基于 DiT 架构,擅长生成高视觉质量的 3D 一致性视频。
- 自回归模型(Autoregressive WFM):将视频视为离散 Token 序列,擅长处理长序列预测和复杂的交互。
- 训练与微调范式:
模型首先在大规模视频数据集上进行通用物理知识预训练,随后可以通过微调适应相机控制(Camera Control)、机器人操纵(Robotic Manipulation)和自动驾驶等任务。
3. 核心结果/发现
- 物理对齐能力:通过构建受控的物理实验,验证了 Cosmos WFM 能够准确模拟物体在重力、碰撞下的运动轨迹,其预测精度接近专用物理引擎。
- 多任务泛化:后训练后的模型在操纵、导航等任务上展示了极强的 Zero-shot 迁移能力,且生成质量优于 VideoLDM 等基准模型。
- 安全合规:
4. 局限性
虽然模型展现了强大的物理模拟能力,但在处理极小尺度物体的精细交互(如指尖触感)方面仍有提升空间。此外,在大规模场景生成时,模型偶尔会出现物体凭空消失或突然出现的异常。
4.4 Lyra 2.0 (2026)
———Explorable Generative 3D Worlds at Scale
📄 Paper: https://arxiv.org/abs/2604.13036
精华
NVIDIA 推出的 Lyra 2.0 解决了长程(Long-horizon)3D 一致性场景生成的两大核心痛点,值得借鉴的点包括:
- 解耦几何与外观(Decoupled Memory):将显式 3D 几何(点云缓存)仅用于信息路由和建立像素级对应关系,而将外观合成交给 Diffusion Model 的强生成先验,有效避免了渲染伪影的传播。
- 空间记忆路由(Anti-forgetting):通过几何感知检索机制,即便在长距离移动或重新访问(Revisit)区域时,也能通过 3D 投影检索最相关的历史帧,克服了 Transformer 有限上下文导致的”空间遗忘”。
- 自增强训练(Self-augmentation):在训练阶段引入带有自身预测偏差的损坏数据,使模型学会纠正自回归生成的漂移(Temporal Drifting),而非让误差无限累积。
- 生成式重建(Generative Reconstruction):展示了如何通过视频生成模型合成高一致性的多视角序列,进而驱动 Feed-forward 3DGS 模型快速重建高质量 3D 场景资产。
1. 研究背景/问题
当前的视频生成模型在生成长视频时极易出现空间遗忘(Spatial Forgetting)和时间漂移(Temporal Drifting)。当相机移动超出模型的有限上下文窗口时,模型会丢失对早先场景的记忆,导致回看时场景结构崩溃;同时,自回归生成的微小误差会随时间累积,造成颜色偏移和几何扭曲。这限制了生成式 3D 场景重建向大规模、可探索环境的扩展。
2. 主要方法/创新点
Lyra 2.0 的核心是一个基于”检索-生成-更新”的自回归循环:
- 抗遗忘机制(Anti-Forgetting):
系统维护一个 3D 缓存(3D Cache),存储每帧的深度图和点云。在生成下一段视频时,系统会根据当前相机视角,通过投影计算可见度(Visibility Score),检索出最相关的历史帧。
-
几何引导的上下文注入: 检索到的历史帧不会直接作为 RGB 图像输入,而是通过正则化坐标映射(Canonical Coordinate Warping)建立像素级对应关系。这种方式将几何约束与外观生成分离,允许视频模型在不引入渲染噪声的前提下保持空间一致性。
-
抗漂移训练(Anti-Drifting): 采用了自增强训练策略(Self-augmentation Training)。在训练时,模型不仅在完美的高清图像上训练,还会随机在自己生成的”损坏”潜变量(Latent)上进行去噪。这教导模型在推理过程中识别并修正微小的漂移误差,而非放大它们。
-
实时交互与 3D 导出:
3. 核心结果/发现
- 长程一致性:实验表明,Lyra 2.0 在 800 帧以上的生成序列中仍能保持极其稳定的几何结构和风格一致性,显著优于 GEN3C 和 SPMem 等基线方法。
- 高质量 3D 重建:生成的视频序列通过微调后的 feed-forward 3DGS 流程,可以生成几乎无伪影(Floater-free)的高质量 3D 高斯泼溅模型。
- 具身智能赋能:
4. 局限性
目前 Lyra 2.0 主要聚焦于静态场景的生成,尚未显式建模动态物体(如行人和车辆)。此外,模型生成的质量仍然受限于训练数据(如 DL3DV)中的光照变化和曝光差异。
4.5 Genie (2024)
———Generative Interactive Environments
📄 Paper: arXiv:2402.15391
精华
Genie 是首个仅通过无标注视频学习而成的生成式交互环境(Foundation World Model),其核心贡献在于:1) 无监督动作挖掘:通过潜动作模型(LAM)从纯视频中自动挖掘可控动作空间,解决了世界模型对真实动作标签的依赖;2) 高效时空架构:设计了基于 ST-Transformer 的计算架构,使显存占用随帧数线性增长,支持长序列视频生成;3) 具身智能底座:不仅能将任意图像(素描、照片等)转化为可玩的游戏世界,还展现了在机器人操作和智能体训练方面的巨大潜力,为“通向通用智能体的路径”提供了海量仿真数据。
1. 研究背景/问题
当前的生成式 AI(如 ChatGPT, DALL-E)在文本和图像领域取得了巨大成功,但视频生成模型(如 Video Diffusion)大多缺乏细粒度的交互控制能力。传统的“世界模型”通常需要大量带有真实动作标签(Action Labels)的数据进行训练,这在互联网海量视频面前成了瓶颈。Genie 旨在通过 20 万小时的无标注互联网视频,学习一个能实时响应用户操作、具有物理常识且能无限生成的交互式环境。
2. 主要方法/创新点
Genie 是一个参数量达 110 亿的基础模型,其架构由三个深度集成的组件构成,全部基于改进的 ST-Transformer。
2.1 潜动作模型 (Latent Action Model, LAM)
这是 Genie 的灵魂所在。为了在没有动作标签的情况下实现控制,LAM 采用 VQ-VAE 结构:
- 编码器:同时接收当前帧和下一帧,输出一个离散的潜动作 $\mathbf{a}_t$(通常限制在 8 个离散值以内,以模拟控制器按键)。
- 瓶颈机制:由于解码器只能通过历史帧和 $\mathbf{a}_t$ 来预测下一帧,模型被迫将视频中最具语义一致性的变化(如人物的左右移动、跳跃)编码进这 8 个 Token 中。
- 一致性:实验证明,即使在不同游戏中,相同的潜动作 Token 往往对应相同的物理语义(如 Action 0 始终代表左移)。
2.2 视频分词器 (Video Tokenizer)
Genie 提出了 ST-ViViT 架构:
- 时空压缩:不同于常规只在空间维度压缩的分词器,ST-ViViT 在编码和解码时都引入了时间轴。
- 效率优化:通过交替使用空间注意力和时间注意力,模型避免了计算量随时间呈平方级增长的问题,保证了在大规模数据集上的训练可行性。
2.3 动力学模型 (Dynamics Model)
基于 MaskGIT 的掩码自回归模型:
- 输入:接收当前视觉 Token 和用户选择的潜动作。
- 预测:模型在隐空间内预测下一帧的 Token。通过海量数据的“喂养”,模型学习到了复杂的 2D 平台游戏规则,如碰撞、重力、敌人交互和屏幕卷轴滚动。
3. 核心结果/发现
- “化腐朽为神奇”的生成能力:用户可以上传一张手绘草图、真实的自然景观照片,甚至是通过文生图模型(如 Imagen)生成的图片,Genie 都能立即将其转化为一个可以“玩”的横版过关游戏环境。
- 语义一致的操控感:在 Platformers 数据集上,潜动作展现了极强的泛化性。用户点击对应的潜动作,角色会做出连贯的位移或跳跃,且这种操控在视觉风格迥异的环境中依然有效。
- 机器人领域的潜力:研究人员在 RT1 机器人数据集上验证了 Genie。模型不仅学会了控制机械臂,还学会了模拟复杂物体的物理形变(如挤压面包袋),这证明 Genie 能够捕捉真实的物理世界动态。
- 作为强化学习的“母体”:在 Genie 内部训练的智能体,可以极快地迁移到真实环境中。相比于从零开始训练,使用潜动作预训练的智能体在样本效率上提升了数倍。
4. 局限性
- 分辨率瓶颈:受限于目前的计算资源,Genie 生成的视频分辨率较低(160x90),离高清沉浸式体验仍有距离。
- 自回归发散:由于是自回归生成,随着步数增加,视频内容可能会逐渐偏离物理真实或出现伪影。
- 动作映射:虽然挖掘出了潜动作,但将这些离散 Token 精确映射到人类直觉的复杂多级控制(如手柄的线性摇杆)仍需进一步研究。
4.6 VLA-World (2026)
———Learning Vision-Language-Action World Models for Autonomous Driving
📄 Paper: https://vlaworld.github.io
精华
VLA-World 的核心思想在于通过在单帧未来预测的基础上进行反思性推理,将世界模型的生成能力与 VLA 模型的推理能力相结合。最值得借鉴的设计是其“分步走”的流程:首先根据预测的动作生成一张未来图,再让模型去观察这张自己生成的图,从而识别潜在的碰撞风险并修正动作。这种“脑内模拟后二次评估”的机制(Think with Generated future)极大地增强了端到端驾驶系统的安全性和可解释性。
1. 研究背景/问题
现有的端到端自动驾驶模型(如 VLA)通常缺乏显式的时空建模,难以预测环境中其他交通参与者的演变。而纯世界模型虽然能生成连贯的未来场景,却往往缺乏推理能力,难以评估所生成未来的安全性或优劣。VLA-World 通过统一预测性想象与反思性推理,提升了驾驶前瞻性。
2. 主要方法/创新点
VLA-World 提出了一个结合了感知、动作衍生预测、图像生成、反思推理和规划的完整流程。
三阶段训练策略
- 阶段 1:视觉预训练:在大规模图像-指令数据集上激活图像生成知识。
- 阶段 2:监督微调 (SFT):通过 nuScenes-GR-20K 混合任务数据集,建立感知、未来生成与规划的逻辑链接。
- 阶段 3:强化学习 (RL):利用 GRPO 算法探索类人推理,使模型能更深入地反思生成的未来是否安全。
反思推理机制 (Think with Generated future)
模型首先输出一个 0.5 秒内的轨迹预测,并据此生成对应的未来图。随后,模型再次“审阅”这张自生成的图,识别重要物体和潜在风险,最终修正决策,输出最终的长程轨迹。这种机制类似于人类驾驶员遇到突发状况时的二次反思过程。
3. 核心结果/发现
- 性能表现: 在 nuScenes 等基准测试中,VLA-World 达到了比现有 VLA 和世界模型更低的碰撞率(Collision Rate 从 1.09% 降至 0.94%)和更高的 FID 视频生成质量。
- 可解释性: 通过让模型写下对“自己生成的未来”的推理过程(如识别某卡车的碰撞风险),系统的决策过程变得更加透明。
4. 局限性
由于模型需要先生成图像再进行推理,系统的端到端延迟仍然是一个挑战。未来研究将聚焦于提高实时推理速度。
4.7 WorldVLA (2025)
———Towards Autoregressive Action World Model
📄 Paper: https://arxiv.org/abs/2506.21539
精华
这篇论文的核心亮点在于将 Vision-Language-Action (VLA) 模型与世界模型(World Model)统一在单个自回归框架中。值得借鉴的思想包括:利用世界模型预测未来图像的能力来学习环境底层物理规律,从而增强动作生成的准确性;反之,动作模型也辅助视觉理解,提升了图像生成的质量。此外,针对自回归动作序列生成中的误差累积问题,提出的动作注意力掩码策略(Action Attention Masking)能够显著提升动作块(Action Chunk)的生成性能。
1. 研究背景/问题
当前的 VLA 模型主要关注从图像和文本生成动作,但往往缺乏对动作深层次的理解,因为动作仅作为输出而未作为输入。相比之下,世界模型能够通过预测未来视觉状态来理解物理动力学,但通常无法直接生成动作。WorldVLA 旨在打破这一界限,通过统一架构实现动作与图像的协同理解与生成。
2. 主要方法/创新点
WorldVLA 采用自回归架构,集成了图像、文本和动作三种模态的 Tokenizer。
统一架构
模型初始化自 Chameleon,一个统一的图像理解与生成模型。它包含:
- 图像 Tokenizer: VQ-GAN 模型,将图像离散化为 Token。
- 动作 Tokenizer: 将 7 维机器人动作(位置、角度、夹具状态)离散化为 256 个 Bin 的 Token。
- 文本 Tokenizer: 标准的 BPE Tokenizer。
训练策略
训练过程混合了动作模型数据和世界模型数据:
- 动作预测 ($L_{action}$): 给定指令和多帧图像,预测后续动作。
- 未来预测 ($L_{world}$): 给定当前观察和动作,预测下一帧图像。
动作注意力掩码 (Action Attention Masking)
论文发现,由于预训练模型在动作域的泛化能力有限,传统的因果掩码会导致前一动作的错误迅速传播。为此,WorldVLA 设计了一种特殊的掩码:在生成当前动作块时,遮蔽之前的动作,使动作生成仅依赖于视觉和文本输入,从而支持并行生成动作块并减少误差累积。
3. 核心结果/发现
- LIBERO 基准测试: WorldVLA 在 256x256 和 512x512 分辨率下均显著优于 OpenVLA。
- 协同效应: 加入世界模型数据后,动作生成的成功率(SR)有明显提升(例如在 LIBERO-Goal 上从 67.3% 提升至 73.1%);同时,动作模型也帮助降低了视频生成的 FVD 值。
- 动作块生成: 采用新掩码策略后,动作块生成的鲁棒性大幅增强。
4. 局限性
目前使用的离散图像 Tokenizer 在感知表现力上仍有局限。未来工作将探索更大规模的数据和模型,以及设计能够更平衡理解与生成的统一 Tokenizer。
4.8 WoVR (2026)
———World Models as Reliable Simulators for Post-Training VLA Policies with RL
📄 Paper: https://arxiv.org/abs/2602.13977
精华
WoVR 提出了一种基于世界模型的机器人强化学习(RL)框架,核心贡献在于解决了世界模型中的“幻觉(Hallucination)”问题对 RL 优化信号的干扰。值得借鉴的三个机制包括:稳定的动作调节视频模型(Stabilized Action-conditioned Video World Model)通过双通道动作注入提升稳定性;关键帧初始化回放(Keyframe-Initialized Rollouts, KIR)通过在任务关键点附近初始化轨迹,缩短了有效预测深度并限制误差累积;以及世界模型与策略的协同演化策略(PACE),通过迭代精调世界模型来恢复策略更新带来的分布漂移,确保了在想象空间中 RL 训练的可靠性。
1. 研究背景/问题
利用学习到的世界模型作为仿真器进行强化学习是机器人领域的热门方向,但闭环想象中的“幻觉”——即模型生成的视觉序列与真实物理规律不符——会误导 RL 优化,使其利用模型的错误而非真实的任务进度。随着策略演化,动作分布发生漂移,进一步加剧了幻觉问题。
2. 主要方法/创新点
WoVR 并不假设世界模型是完美的,而是通过三个层面显式地调节 RL 与不完美模拟器的交互。
稳定的世界模型架构
WoVR 引入了一种增强型 DiT(Diffusion Transformer)世界模型,通过双通道动作注入机制实现更稳定的动作控制,减少了长程漂移和结构崩溃。
关键帧初始化回放 (KIR)
为了防止自回归生成的误差随时间累加,WoVR 采用了 Keyframe-Initialized Rollouts。它利用人类演示中的关键帧作为起始点,在这些状态附近进行短程想象探索。这种做法大大限制了有效预测深度,抑制了幻觉的积累。
策略对齐协同演化 (PACE)
为了应对策略更新导致的动作分布漂移(Distribution Shift),PACE 策略会定期在当前演化策略生成的动作轨迹上对世界模型进行微调。这种协同演化机制使模拟器能够动态适应新的动作分布,保持了策略与模拟器的对齐。
3. 核心结果/发现
- LIBERO 基准测试: WoVR 将 LIBERO 的平均成功率从 39.95% 提升至 69.2%(+29.3个百分点)。
- 真机验证: 在真实机器人操作任务中,成功率从 61.7% 提升至 91.7%。
- 生成效率: WoVR 达到了 23 FPS 的生成速度,使其成为一种高效的训练模拟器。
4. 局限性
虽然 WoVR 缓解了幻觉,但对于极其复杂的多步长程任务,其稳定性仍有待提升。此外,协同演化过程中的计算开销也是一个需要优化的方向。
5. 基础模型
世界模型的强大离不开底层生成式基础模型的支持。根据功能定位,可分为三大类别:
5.1 图像/视频生成模型
作为世界模型的”想象引擎”,建模文本、图像或动作条件下的未来视频演变,参数规模从 0.6B 到 2B 不等。
| 模型 | 参数量 | 代表应用 |
|---|---|---|
| iVideoGPT | 0.6B | VLA-RFT, VLA-Reasoner |
| NOVA | 0.6B | WMPO |
| OpenSora | 0.7B | WMPO |
| InstructPix2Pix | 1B | SuSIE, GR-MG |
| WAN2.1 | 1.3B | WristWorld, DreamGen |
| DynamiCrafter | 1.4B | MinD |
| Stable Video Diffusion | 1.5B | Ctrl-World, MoWM, HMA, VPP |
| Cosmos-Predict2 | 2B | AdaPower, Prophet |
5.2 统一理解与生成模型
在单一框架中整合感知与生成,原生支持图像生成,同时具备指令理解和视觉生成规划能力,为多模态任务提供端到端建模。
| 模型 | 参数量 | 代表应用 |
|---|---|---|
| Show-o | 1.3B | UP-VLA |
| VILA-U | 7B | CoT-VLA |
| Chameleon | 7B | WorldVLA, RynnVLA-002 |
| MMaDA | 8B | dVLA |
| Emu3 | 8.5B | FlowVLA, UniVLA, UD-VLA |
5.3 表示学习模型
将感觉输入编码为紧凑、可迁移的状态表示,而非直接生成像素。通过提取本质结构与时序特征,显著提升样本效率和鲁棒性。
| 模型 | 参数量 | 代表应用 |
|---|---|---|
| V-JEPA 2 | 1B | NORA-1.5, MoWM, SRPO |
V-JEPA 2 是目前最具代表性的具身表示学习基础模型,其自监督视频表示学习框架为预测性规划提供了高效的状态空间,被多个 SOTA 方法广泛采用。
6. 评测基准与指标
6.1 评测基准
具身智能世界模型的评测基准分为仿真环境和真实世界数据集两类。
仿真环境基准
| 基准 | 领域 | 长航程 | 平台 | 轨迹数 | 任务数 |
|---|---|---|---|---|---|
| LIBERO | 桌面 | ✓ | Franka Panda | 6.5k | 130 |
| CALVIN | 桌面 | ✓ | Franka Panda | 24k | 34 |
| RLBench | 桌面 | ✓ | Franka Panda | 1.8k | 100 |
| ManiSkill 2 | 室内 | ✗ | Franka Panda | 30k+ | 20 |
| Meta-World | 桌面 | ✗ | Sawyer | 25k | 50 |
| RoboCasa | 室内 | ✓ | Franka Panda(移动) | 100k+ | 100 |
| SimplerEnv | 室内 | ✓ | Google Robot, Widow X | — | 8 |
真实世界数据集
| 数据集 | 领域 | 长航程 | 轨迹数 | 任务数 |
|---|---|---|---|---|
| BridgeData | 桌面 | ✗ | 60k | 13 |
| Droid | 室内 | ✓ | 76k | 86 |
| RT-1 | 室内 | ✓ | 130k | 744 |
| OXE | 混合 | ✓ | 1M+ | 160k+ |
性能趋于饱和:当前方法在 LIBERO 和 CALVIN ABC→D 上已接近饱和。SRPO(Online)在 LIBERO 达到 99.2% 平均成功率,DreamVLA 在 CALVIN 达到 4.44 平均序列长度。这表明现有仿真环境已不足以充分验证真实世界具身智能的复杂性。
6.2 基准性能对比
LIBERO 基准(成功率 %,越高越好)
| 方法 | Spatial | Object | Goal | Long | Avg. |
|---|---|---|---|---|---|
| World-Env | 87.6 | 86.6 | 86.4 | 57.8 | 79.6 |
| VLA-Reasoner | 91.2 | 90.6 | 82.4 | 59.8 | 81.0 |
| CoT-VLA | 87.5 | 91.6 | 87.6 | 69.0 | 81.1 |
| WorldVLA | 87.6 | 96.2 | 83.4 | 60.0 | 81.8 |
| TriVLA | 91.2 | 93.8 | 89.8 | 73.2 | 87.0 |
| FlowVLA | 93.2 | 95.0 | 91.6 | 72.6 | 88.1 |
| VLA-RFT | 94.4 | 94.4 | 95.4 | 80.2 | 91.2 |
| SRPO(离线) | 92.5 | 96.8 | 92.0 | 88.7 | 92.5 |
| DreamVLA | 97.5 | 94.0 | 89.5 | 85.2 | 92.6 |
| UD-VLA | 94.1 | 95.7 | 91.2 | 89.6 | 92.7 |
| UniVLA | 95.4 | 98.8 | 93.6 | 94.0 | 95.5 |
| dVLA | 97.4 | 97.9 | 98.2 | 92.2 | 96.4 |
| RynnVLA-002 | 99.0 | 99.8 | 96.4 | 94.4 | 97.4 |
| SRPO(在线) | 98.8 | 100.0 | 99.4 | 98.6 | 99.2 |
CALVIN ABC→D 基准(连续完成任务成功率 %,Avg. Len. 越高越好)
| 方法 | 1 | 2 | 3 | 4 | 5 | Avg. Len.↑ |
|---|---|---|---|---|---|---|
| GR-1 | 85.4 | 71.2 | 59.6 | 49.7 | 40.1 | 3.06 |
| GR-MG | 96.8 | 89.3 | 81.5 | 72.7 | 64.4 | 4.04 |
| UP-VLA | 92.8 | 86.5 | 81.5 | 76.9 | 69.9 | 4.08 |
| MoWM | 94.3 | 87.3 | 81.2 | 75.0 | 67.5 | 4.10 |
| Seer | 96.3 | 91.6 | 86.1 | 80.3 | 74.0 | 4.28 |
| VPP | 95.7 | 91.2 | 86.3 | 81.0 | 75.0 | 4.29 |
| TriVLA | 96.8 | 92.4 | 86.8 | 83.2 | 81.8 | 4.37 |
| UniVLA | 98.9 | 94.8 | 89.0 | 82.8 | 75.1 | 4.41 |
| DreamVLA | 98.2 | 94.6 | 89.5 | 83.4 | 78.1 | 4.44 |
6.3 评估指标体系
视频生成质量指标
| 指标 | 缩写 | 趋势 | 描述 |
|---|---|---|---|
| 均方误差 | MSE | ↓低 | 计算均方像素误差评估重建保真度 |
| 峰值信噪比 | PSNR | ↑高 | 峰值信号与噪声的对数比 |
| 结构相似性 | SSIM | ↑高 | 亮度、对比度和结构的感知相似性 |
| 感知图像块相似度 | LPIPS | ↓低 | 深度特征距离评估感知相似性 |
| Fréchet 起始距离 | FID | ↓低 | 衡量图像分布间的 Fréchet 距离 |
| Fréchet 视频距离 | FVD | ↓低 | 衡量视频分布间的 Fréchet 距离 |
光流精度与机器人任务指标
| 指标 | 缩写 | 趋势 | 描述 |
|---|---|---|---|
| 平均距离误差 | ADE | ↓低 | 所有查询点的平均像素距离误差 |
| 小于 Delta 比率 | LTDR | ↑高 | 距离阈值内的点的百分比 |
| 端点误差 | EPE | ↓低 | 光流端点误差幅度 |
| 成功率 | SR | ↑高 | 达成目标的试验百分比 |
| 平均任务进度 | ATP | ↑高 | 子任务完成的平均进度(长航程任务) |
专项综合基准
| 基准 | 主要评估维度 | 代表方法 |
|---|---|---|
| VBench | 时序质量、帧级质量、语义、风格、整体一致性 | Vidar |
| EWMBench | 场景、运动和语义质量(物理场景仿真) | Genie Envisioner |
| DreamGen Bench | 指令遵循与物理对齐(可控视频生成) | DreamGen, GigaWorld-0 |
| PAI-Bench (PBench) | 质量分和领域分(文本到世界生成) | GigaWorld-0 |
| 进度奖励基准 (PRBench) | 进度对齐(SC/Mono)和目标判别(MMD/JS/SMD) | SRPO |
7. 未来研究方向
尽管取得了显著进展,要实现可泛化的物理接地世界模型仍面临多项关键挑战:
7.1 物理一致性
当前模型在处理复杂物理场景时仍会产生幻觉和累积误差。需要将显式物理约束和长程因果推理整合到模型中。具体方向包括可微物理先验(将物理方程嵌入可微渲染管线)、因果学习(建模干预与结果的因果关系)以及反事实推理(评估”如果采取不同动作会发生什么”)。
7.2 时空 (4D) 感知
现有方法大多基于 2D 中心的控制范式,难以捕捉 3D 环境的精细几何变换。研究应聚焦于将控制信号与底层 3D 环境演变相互交织,探索动态高斯泼溅(Dynamic Gaussian Splatting)处理动态物体、持久点跟踪(Persistent Point Tracking)维持跨帧物体标识,以及神经占据场(Neural Occupancy Fields)表征 3D 空间结构。
7.3 安全性与可靠性
作为高保真仿真器,世界模型需在物理动作发生前预判潜在危险,同时提供可解释的推理过程。关键方向包括几何约束整合、不确定性量化(Uncertainty Quantification)和可解释性框架建设,确保系统在安全关键的机器人应用场景中可信赖。
7.4 长航程前瞻
在复杂多阶段任务中,模型需在扩展的推理过程中持续维持对物体属性、空间关系和任务目标的正确理解。潜在方案包括层次化时序抽象(分层建模不同时间尺度的动力学)、子目标分解(将长航程任务分解为可验证的子目标序列)和记忆增强机制(在长时间窗口内保持关键状态信息)。
7.5 失效感知动力学
现有方法主要从成功演示中学习,导致对成功分布的过拟合,在面对失败情形时泛化能力不足。需要引入对比学习(区分成功与失败轨迹)、次优数据离线学习(从不完美数据中提取有用信息)和错误引导轨迹合成(主动生成包含错误模式的训练数据)来增强模型的失效感知能力。
8. 总结
世界模型正在成为通向通用具身智能的关键桥梁。它不仅赋予了 VLA 智能体”预见未来”的能力,还通过数据合成和虚拟仿真解决了现实世界交互的高成本问题。
本文系统梳理了基于 Tan et al.(2026)综述的具身智能世界模型研究进展,涵盖:
- 四大技术范式:世界规划器(前向预测引导)、世界动作模型(联合分布建模)、世界合成器(数据引擎)、世界模拟器(虚拟训练环境)
- 里程碑式工作:从 NeRF 的隐式场景表示,到 Cosmos 的大规模物理 AI 平台,再到 Lyra 2.0 的长程 3D 一致性生成
- 底层基础模型生态:图像/视频生成模型、统一理解与生成模型、表示学习模型
- 评测体系:仿真与真实世界基准、视频生成质量、光流精度、机器人任务指标
- 五大未来方向:物理一致性、4D 时空感知、安全可靠性、长航程前瞻、失效感知动力学
尽管当前方法在 LIBERO 和 CALVIN 等基准上趋于饱和,在物理一致性、4D 时空感知、长航程推理和真实世界泛化等核心挑战上仍有广阔的探索空间。随着生成式 AI 技术的持续进步,基于世界模型的具身智能体有望在更多复杂的工业和家庭场景中落地,最终实现真正理解物理世界的具身通用人工智能。