SysNav (2026)

SysNav (2026)

———Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation

📄 Paper: https://arxiv.org/abs/2603.06914

精华

SysNav 将 ObjectNav 重新定义为系统级问题,将语义推理、导航规划、运动控制三层彻底解耦,值得借鉴。核心洞见是:VLM 不应被用于细粒度的 frontier 级别决策,而应限制在房间级别的高层规划,从而在推理能力与空间可靠性之间取得最佳平衡。三层场景图(Room→Viewpoint→Object)为 VLM 提供了结构化上下文,是 VLM 高效推理的关键基础设施。Early-stop 和 Room-query 两种 VLM 调用模式按需触发,有效避免了 VLM 的冗余调用。该系统在三种机器人平台上部署,验证了模块化设计对跨平台泛化的价值。


1. 研究背景/问题

Object Navigation(ObjectNav)要求机器人在未知室内环境中自主找到目标物体,需同时处理复杂空间结构、长程规划和语义理解。现有方法将 ObjectNav 作为单一策略学习问题,端到端模型难以兼顾多个子挑战;而过度依赖 VLM 进行 frontier 级别决策会因 VLM 缺乏精确 3D 空间理解而导致频繁回溯和低效行为。


2. 主要方法/创新点

SysNav 在多种真实环境和跨平台机器人上实现楼宇级别长程 ObjectNav

SysNav 是一个三层解耦的 ObjectNav 系统,各层专注于不同粒度的子问题:

高层——语义推理(Semantic Reasoning)

构建三层场景图表示 $\mathcal{R}$:

  • Room Node $v^r$:通过点云垂直分布拟合墙面并划分独立房间,每个节点存储房间类别、2D 顶视图和代表性 RGB 图像
  • Viewpoint Node $v^v$:在覆盖范围发生显著变化时新增,存储位置、覆盖区域和全景图像,实现高效语义存储
  • Object Node $v^o$:使用开放词汇检测(YOLOv8x + SAM2)实例化,每个节点存储类别、置信度、3D 点云、bounding box 及自属性

边类型包括:Room-Room(门道连通)、Room-Viewpoint(包含关系)、Room-Object(包含关系)、Viewpoint-Object(可见性)、Object-Object(空间约束,按需添加)。

VLM Reasoning 组件(Gemini-2.5-flash)基于上述场景图进行语义推理,提供房间级别导航指导。

中层——基于房间的导航(Room-based Navigation)

SysNav 系统架构:高层语义推理、中层房间导航、低层运动控制三层解耦

将房间作为最小语义规划单元,在房间内使用高效经典探索算法,仅在房间切换时调用 VLM:

  • In-room Exploration:两级规划(局部 + 全局),以覆盖分数 $w_{cov}(c_i) = \lvert \mathcal S_{cov}(c_i) \cap \hat{\mathcal S} \rvert$ 选取位姿候选,用 TSP 生成探索路径,滚动窗口机制协调局部与全局计划
  • Early-stop 模式:进入新房间时,VLM 根据上下文信息 $\mathcal C_{es}$(房间属性、已观测物体、任务目标)判断是否提前终止当前房间探索并切换到新房间
  • Room-query 模式:当前房间探索完毕仍未找到目标时,VLM 基于未探索房间信息 $\mathcal C_{rq}$ 推理最可能包含目标的下一个房间

低层——基础自主(Base Autonomy)

设计跨平台基础自主模块,将路径点转换为各平台(轮式机器人、四足 Unitree Go2、人形 Unitree G1)的具体运动控制指令,包含路径点跟随、碰撞回避和地形可通行性分析。


3. 核心结果/发现

SysNav 在轮式、四足、人形三种机器人平台上的真实环境定性结果

仿真基准(4个benchmark,与 SOTA 对比):

  • HM3D-v1:SR 63.7%,SPL 30.5%(大幅领先次优 ApexNav 的 59.6%/33.0%)
  • HM3D-v2:SR 80.8%,SPL 37.2%(次优 ApexNav 76.2%/38.0%)
  • MP3D:SR 50.7%,SPL 18.1%
  • HM3D-OVON:SR 54.9%,SPL 26.1%(次优 MTU3D 40.8%/12.1%,提升 14.1%/6.5%)

真实环境(190 次实验,对比 VLFM 和 InstructNav):

  • Hard 设置(目标在不同房间):SR 97.5%,SPT 71.8,AT 67.6s(Hard setting SR 较次优提升 61.1%,SPT 提升 51.1%,AT 减少 29.8s)
  • 导航效率较现有 ObjectNav 基线提升 4-5×

4. 局限性

仿真中 SPL 提升幅度小于 SR,原因是面向真实场景设计的严格覆盖策略在仿真中会造成轻微过度覆盖;此外,多房间布局对系统的额外挑战有限,因为中等难度场景中障碍物更密集反而会降低速度。