AIR-VLA (2026)

———Vision-Language-Action Systems for Aerial Manipulation

📄 Paper: https://arxiv.org/abs/2601.21602

精华

AIR-VLA 的核心贡献在于将 VLA 范式从地面平台首次系统性地迁移至空中操作场景，这一跨平台迁移思路具有方法论示范价值。其评估框架的设计值得借鉴：针对浮动基座的特殊动力学特性，专门构建了多维度指标（Base Positioning Accuracy、Manipulator Efficacy、Environmental Safety、Task Progression），而非直接套用地面 benchmark 的 task success rate。大规模预训练模型（$\pi_{0.5}$）在仅 30-50 条示范数据的 few-shot fine-tuning 下即可快速适应空中操作，验证了跨实体预训练的强迁移能力。VLM 作为高层规划器与 VLA 作为底层控制器的解耦组合路线，是解决长时程任务的可行方向。

1. 研究背景/问题

现有 VLA 研究主要聚焦于地面固定底座平台，对 Aerial Manipulation Systems（AMS）的应用几乎空白。AMS 面临三重挑战：浮动基座的非线性动力学、UAV 与机械臂的强耦合、以及长时程多步操作的时序规划需求，这些特性使地面 VLA 方法无法直接迁移。

2. 主要方法/创新点

AIR-VLA 是一个面向空中操作系统的全栈 VLA benchmark，系统设计涵盖仿真环境、数据集、评估框架三个层次。

AIR-VLA 系统框架：左侧为包含 3000 条人工遥操作数据的 AMS 训练集，中间为以 VLA 模型为核心的推理框架，输入为图像序列、语言指令和观测状态（关节姿态、抓手状态），输出为 UAV 位移和机械臂动作的联合动作状态

仿真环境：基于 NVIDIA Isaac Sim 构建，使用 PhysX 5 物理引擎和光线追踪渲染，支持流体扰动、动态光照等真实物理效应，平台为四旋翼 UAV 搭载 7-DoF Franka Panda 机械臂，构成 12-DoF 高维控制问题。

数据集（AMS Dataset）：3000 条由专家通过手柄遥操作采集的高质量演示，传感器配置包括 UAV 正下方 RGB-D 相机、机械臂腕部 RGB-D 相机和第三视角相机三路视觉输入，同时记录 UAV 4D 位姿（含速度）、机械臂关节角和末端执行器位姿等完整本体感知信息。

AIR-VLA benchmark 全景：数据集构建流程（场景构建 → Isaac Sim 采集 → LLM 生成语言指令）、四类任务设计（Base Manipulation、Object & Spatial、Semantic Understanding、Long-Horizon）、以及覆盖 VLA 和 VLM 两条评估链路的双层评估框架

四类任务设计（Task Taxonomy）：

Base Manipulation：低层运动控制与 UAV-机械臂协调，最小干扰场景，平均 475 时间步
Object & Spatial：细粒度物理属性（颜色、形状、材质）和空间关系理解，要求跨模态对齐与 3D 几何推理
Semantic Understanding：非结构化自然语言鲁棒性测试，含多样表达风格和隐式意图
Long-Horizon：多步推理与时序依赖，任务链中任一子任务失败导致完全失败

双层评估框架：

VLA 评估：在线仿真闭环执行，量化 Base Positioning Accuracy（$S_{pos}$）、Manipulator Efficacy（$S_{arm}$）、Environmental Safety（$S_{safe}$）、Task Progression（$S_{task}$），综合加权得 $S_{total}$
VLM 评估：非交互式离线评估，输入四视角图像和任务描述，输出结构化规划序列，评估 Process Planning、Spatial Navigation Understanding、Object Grounding、Skill Selection 四个维度

VLM 高层规划评估流程：四视角图像 + 任务指令输入 VLM，配合包含任务类型、UAV 方向、机械臂目标物、技能库的 System Prompt，生成结构化子任务序列，再从 Process Planning、Spatial Navigation、Object Recognition、Skill Selection 四维度量化评估

3. 核心结果/发现

VLA 实验（Table 1）：

$\pi_{0.5}$ 综合得分最高（$S_{total} = 42.0$），在 few-shot（30-50 条）fine-tuning 下即超越 ACT、Diffusion Policy 等传统方法
$\pi_0$-FAST 相比 $\pi_0$ 性能显著下滑，蒸馏压缩在空中高维场景中损失更严重
所有模型在 Manipulator Efficacy 上均弱于 UAV Navigation，细粒度末端执行器控制是核心瓶颈
移除第三视角相机后 $\pi_{0.5}$ 性能大幅下降，模型对全局视角存在强依赖
安全约束问题突出：浮动基座碰撞比地面更具破坏性，Safety 指标在所有模型上普遍偏低

VLM 实验（Table 3）：

Qwen3-VL 在所有 4 个维度均达 SOTA（Overall Total: 82.4），展现出强大的多模态”大脑”能力
所有 VLM 在 Spatial Navigation Understanding 上显著偏弱，3D 空间感知是制约端到端成功率的核心瓶颈
VLM 对显式/隐式指令的理解能力接近（gap 可忽略），语义泛化能力已较成熟
引入视觉干扰物时，大多数模型在 Object Grounding 上出现轻微下滑

4. 局限性

当前 VLA 模型在处理浮动基座动态耦合、3D 长时程规划和扰动拒绝方面仍存在显著不足，且现有评估均在仿真环境进行，Sim-to-Real 迁移有效性有待验证。