VLN 周报（2026-06-28 ~ 2026-07-05）

2026-07-05

一、本周值得优先看的几篇（贴近地面机器人 VLN / 具身导航）

1. UcON —— 首个”懂你摆放习惯”的物体导航基准（北大，ICRA 2026）

家用机器人找物体，传统方法全靠”书在书房、碗在厨房”式通用常识，但真实家庭里每个人的摆放习惯千差万别。北大团队构建了首个规模化的用户习惯物体导航基准：489 类物体、约 2.26 万条用户摆放习惯。最有意思的发现是”检索式习惯注入”（借鉴 RAG 思路）效果优于直接给真值习惯——因为检索结果会带出关联物体的习惯（比如找茶包时带出”早餐桌上放着茶具”），相当于给了额外的地标信息。现有 SOTA 方法在个性化场景下普遍”大幅滑坡”：端到端方法 VTN/ZSON 成功率仅 1~2%；即便是最好的方案（LGX + 检索习惯）成功率也只有 30.6%，说明这个方向的提升空间还很大。链接：https://arxiv.org/abs/2602.06459 ｜代码：https://github.com/whcpumpkin/User-Centric-Object-Navigation

2. M³E —— 让 VLN 智能体”学新不忘旧”（华南理工 / 新加坡管理大学，ICLR 2026）

持续学习一直是具身智能体的老大难问题：换个新环境训练，旧环境的导航能力就被冲掉了。这篇提出宏-微双路由 MoE + 动态动量更新，思路是把”全局场景推理”（跨环境通用）和”局部 token 级指令-视觉对齐”（专项技能）拆开，分别路由到不同专家，再按专家对当前任务的贡献度差异化调整更新速度。完全不需要历史数据回放，在 R2R 上 SPL 达到 66.96%（超过最强回放类基线 1.56 个百分点），BWT（反向迁移/遗忘指标）只有 0.04，几乎零遗忘（对比：普通微调 BWT 为 -5.42，经典正则化方法 EWC 为 -3.50）。更惊艳的是全量适配实验里，M³E 学完新环境后旧环境成功率反而涨了 2.15 个百分点（对比 HAMT 掉 12.54 个点）。这套”全局/局部解耦路由”的思路对任何长期部署、要跨场景持续学习的 VLN 系统都直接可借鉴。链接：https://openreview.net/pdf?id=pFh5ygjN3V ｜项目页：https://yongliangjiang.top/m3e

3. NAMO —— 靠物理交互”推开”障碍物的交互式导航（CMU + UC Berkeley，RAL 2026）

室内服务机器人遇到挡路的箱子、椅子，传统方案只会绕路。这篇让机器人通过约 1 秒的物理交互快速摸清物体的动力学属性（能不能推动），用共享基函数 + 专属线性系数的低秩结构实现未知物体动力学的在线快速适配，仅需 25 秒交互数据 MSE 就从 1.31 降到 0.43。真实机器人平台 Shmoobot（单球轮动态平衡）实验里，面对可推动纸箱（2.8kg）与不可推动锁轮轮椅（11.9kg）的混合场景，15 次随机实验整体成功率 86.7%——能正确识别可推物体挪开通路，对不可推物体自动更新地图绕行。把”能不能操作物体”这个连续动力学判断直接融入导航决策（而非传统的二分类”能/不能动”），这个把物理交互信息嵌入导航代价函数的思路，对做交互式导航/杂乱环境导航的方向很有参考价值。项目页：https://cmushmoobot.github.io/AdaptivePushing/

4. FutureNav —— 统一世界建模与动作生成的 VLN 框架

现有 VLN 基础模型大多把导航学成”直接动作生成”，不显式建模世界状态或预测其演化。FutureNav 让 VLM 联合编码文本/视觉/空间特征，同时优化 4 个目标：动作策略（导航动作预测）、正向/逆向动力学（状态转移建模）、未来生成（预测未来空间状态），仅 4B 规模骨干就在多个 VLN 基准上达到 SOTA（具体分数摘要截断未给出）。这是”显式世界建模 + 动作预测”联合训练而非分离模块的一个干净范式，比起单纯堆参数量，这种多任务联合监督的思路更值得在自己的导航架构里试。链接：https://arxiv.org/abs/2606.30367v1

5. CoFL-S —— 用”流场”表示 VLN 的低层动作（直击一个被忽视的问题）

VLN 领域这几年在高层指令推理、记忆、全局建图、指令分解上卷得很凶，但低层动作表示这块一直被忽视。CoFL-S 提出在机器人局部可视扇区内预测”语言条件流场”，通过 rollout 生成连续轨迹；把每条 VLN-CE episode（整段指令配整段动作序列）转成帧级局部监督（对齐子指令 + 动作/轨迹/密集流场目标）。同时提出一个连续时间 Habitat 基准，把低层动作接口和指令分解解耦评估——所有方法统一走同一个速度指令控制器，实现不依赖分解方式、跨规划频率的公平闭环对比（而不是 VLN-CE 里固定的离散”前进-转向”）。在同等编码器和训练设置下持续超越 action-token / action-chunk 基线（具体数字摘要截断）。这个”评测方法论”本身可能比模型更有长期价值——如果你也在纠结怎么公平对比不同粒度的动作表示，这个基准设计思路值得借鉴。链接：https://arxiv.org/abs/2607.02222v1

6. DART-VLN —— 免训练、即插即用的测试时 VLN 控制

基于记忆的离散 VLN 智能体在测试时有两个常见失效模式：记忆读取端证据过时、动作选择时局部低效回溯。DART-VLN 是一个训练无关的测试时控制框架：Test-Time Memory Decay（读取侧的记忆重加权，抑制过时/冗余证据、不改写存储内容）+ Anti-Loop Regularization（轻量的下一跳惩罚，抑制立即掉头）。不引入任何新可学习参数，骨干完全冻结。R2R / REVERIE 上呈现一致规律：单用衰减就能稳定提升读取端效果，衰减+反循环拿到最好的质量-效率平衡（更短轨迹、更低耗时、关键设置下导航性能更好）；行为分析证实反循环确实减少了局部回溯。这是本周最容易直接落地借鉴的一篇——不用改模型、不用重训，直接加在现有 VLN 系统的推理阶段就能生效。链接：https://arxiv.org/abs/2607.01043v1

7. MVP-Nav —— 把物理约束显式融入零样本物体导航

纯 RGB 的零样本物体目标导航（ZSON）一直有个根本困难：没有显式深度，容易出现”语义上说得通但物理上不安全”的行为。MVP-Nav 用 3D 基础模型把单目观测重建出显式物理占据（把 2D 语义实例投影成 3D 有向包围盒，组成全局空间语义表示），再提出多层价值地图（MVM），把语义优先级和重建几何统一到同一个代价空间里做规划，把”高层语义推理”和”底层物理约束”这两件常被分开处理的事融合到一个规划器里。这个”多层代价地图统一语义+几何”的设计模式，是任何做纯视觉 ZSON 的团队都可以直接参考的架构组件。链接：https://arxiv.org/abs/2606.31919v1

8. Phi-Nav —— 用”事后指令”补上在线探索的语义监督缺口

VLN 训练中做 on-policy 探索（让策略自己走、扩大状态分布覆盖）几乎必然导致实际轨迹偏离专家演示，造成”走的路”和”原始指令”语义对不上。Phi-Nav 提出三阶段双监督循环：① 智能体在专家动作反馈下做 oracle-guided 探索采样轨迹；② 一个 hindsight speaker 基于采集到的视觉观测，为这条实际走过的轨迹合成一条”事后路径级指令”；③ 智能体把这条合成的轨迹-指令对当作额外专家演示，做第二遍模仿学习。这是一个纯训练流程层面的技巧，不需要改动模型架构，任何用 on-policy 探索训 VLN 的 pipeline 都能直接套用，思路上和机器人操作里的”事后经验回放”（HER）异曲同工。链接：https://arxiv.org/abs/2607.01754v1

9. SWAM（Pondering the Way）—— 反思”验证式”世界模型规划范式

现有基于世界模型的视觉导航规划器大多走”验证中心”范式：先采样一堆候选动作，再用世界模型验证哪个更接近目标，把”目标意图”和”轨迹生成”割裂开，导致候选依赖、计算开销大、采样动作和预测画面容易对不上。SWAM 改成任务中心的联合观测-动作生成：给定起点和目标 RGB 观测，单次推理同时生成中间 RGB-D 序列和对应动作轨迹，训练时用深度伪标签内化空间先验，推理时只需单目 RGB。声称显著优于 SOTA 两阶段规划器（具体数字摘要截断）。这是对”验证式 vs 生成式”这一世界模型导航范式选择的一次直接挑战，如果你的导航系统里也有一个”采样-验证”式的世界模型模块，这篇提供了另一条路的具体设计参考。链接：https://arxiv.org/abs/2606.29908v1

二、其他方向但有明确可借鉴技巧的（不属于导航，但方法值得参考）

ImagineUAV（无人机 VLN，鹏城实验室）：核心范式是”想象-提取-规划”——用指令条件视频扩散世界模型先生成第一人称未来画面，再从生成视频里提取相对运动，交给动力学规划器优化成可执行轨迹（UAV-Flow 基准 70.9% 成功率 SOTA，仅 1.3B 参数，真机验证）。消融显示去掉”指令条件”直接用无条件世界模型，成功率从 70.9% 暴跌到 40.2%，去掉动力学规划器真机成功率从 13/20 掉到 9/20。平台是无人机、几何/动力学建模不能直接复用，但”先用条件视频扩散想象未来观测、再从想象结果中提取动作”这个三级流水线分解方式，是给地面 VLN 引入更强世界模型时可以参考的一种具体分解思路。链接：https://arxiv.org/abs/2606.01205
Z-1（机械臂操作，GRPO 强化学习后训练）：在 π0.5 基础上只用公开 RoboCasa 演示做 SFT，再用任务级 GRPO 在 24 个任务上强化训练，平均成功率 80.6%（+13.2 点）。是操作方向的工作，但”共享前缀 rollout + 树状轨迹分支 + 完成感知奖励校准”这套 RL 后训练工程技巧，对想给 VLN 策略做 RL 后训练的人是现成的工程参考。链接：https://arxiv.org/abs/2606.31846v1
Guided Action Flow（机械臂操作，flow-matching 测试时引导）：冻结预训练策略，另训练一个基于真实成功/失败 rollout 的 critic，仅在采样阶段用其梯度引导 flow-matching 反向采样，LIBERO 上单任务成功率从 68.0%→82.0%。同属操作方向，但如果本周的 CoFL-S 这类基于流场的导航策略要做测试时提升，”不重训、只用 critic 引导采样”这个思路是可以直接尝试迁移的。链接：https://arxiv.org/abs/2607.02092v1

三、无人机方向本周从简（非核心方向，仅供了解领域动态）

SpatialSky-Bench + Sky-VLM（清华/小米汽车，CVPR 2026）：无人机俯视视角的 VLM 空间智能评测基准 + 专用训练模型，13 项任务，Sky-VLM 平均得分 53.30 比 GPT-5 高 139.6%。评测任务设计和两阶段 SFT+GRPO 训练配方是通用技巧，但基准和数据集是无人机专属，场景设计本身不可直接复用到地面 VLN。
PS-LOS（北航，ICRA 2026）：反无人机拦截制导，平面扇区视线约束 + 延迟补偿 EKF，138 米超远拦截。纯控制理论/几何制导问题，和 VLN/VLA 基本不搭边。
UAST（中科大，CVPR 2026）：无人机主动搜索+跟踪一体化框架，全程无自然语言指令，本质是纯感知-控制闭环，跟踪成功率超 SOTA 50%+。和语言导航关联很弱。
DynFly（2606.31654）：无人机 VLN 连续轨迹生成，B 样条控制点 + Spline-DiT flow matching，解决离散动作到连续轨迹的接口问题（摘要截断，无具体数字）。
AERIS（2606.30151）：无人机边缘部署的 LLM 群体编排框架，小语言模型按角色动态绑定执行器（摘要截断，无具体数字）。

四、公众号「视觉语言导航」本周解读全览（8 篇，客观列全）

日期	标题	会议	方向	一句话看点
06-28	UAST：无人机搜索与跟踪统一框架	CVPR 2026	无人机（从简）	无建图端到端，跟踪成功率超SOTA 50%+
06-29	NAMO：非抓取移动操作助力交互式导航	RAL 2026	地面/精选①	推物开路，真实成功率86.7%
06-30	南大招聘（资讯，非论文）	—	—	南京大学 R&L Group 招具身智能工程师
07-01	SpatialSky-Bench + Sky-VLM	CVPR 2026	无人机（从简）	无人机VLM评测基准，Sky-VLM超GPT-5 139.6%
07-02	PS-LOS：平面扇区制导反无人机拦截	ICRA 2026	无人机（从简）	138米超远拦截，与VLN关联弱
07-03	M³E：VLN持续学习双专家架构	ICLR 2026	地面/精选①	无回放持续学习，R2R几乎零遗忘
07-04	ImagineUAV：世界模型赋能空中VLN	—	无人机（架构可借鉴②）	想象-提取-规划范式，UAV-Flow SOTA
07-05	UcON：个性化物体导航基准	ICRA 2026	地面/精选①	489类物体+2.26万条习惯

（①详见「一、本周值得优先看的几篇」；②详见「二、其他方向但有明确可借鉴技巧的」）

五、arXiv 新论文分类速览（40 篇，按主题归类）

5.1 视觉语言导航（VLN，地面/通用）

FutureNav、CoFL-S、DART-VLN、MVP-Nav、Phi-Nav、SWAM（Pondering the Way）均属此类，已在「一」中详细展开，此处不再重复。

5.2 VLA 基础模型 / 训练范式（机械臂操作为主，非本方向核心）

Training VLA with Dense ECoT / ZR-0（2606.30552）：2.6B 参数双流架构（VLM 具身思维链 + Diffusion Transformer 动作专家），推理时可跳过 ECoT 生成不损性能。
VLAFlow（2607.01586）：统一 flow-matching 框架对比 4 种 VLA 预训练范式，OXEMix（约 5000 小时）+ LIBERO 系列评测，组合式 MindLWPI 最稳定。
Domain Arithmetic / DART（2607.00666）：一次性（one-shot）VLA 环境适配，权重向量算术 + 子空间对齐，仅需 1 条演示。⚠️ 与「五、5.1」提到的 DART-VLN 是两篇不同论文，仅缩写撞车。代码：https://github.com/snumprlab/dart
SPARK（2606.30613）：免训练神经符号操作系统，LIBERO-PRO 上 43.7%，是 CaP-Agent0（18.2%）的两倍多。
OpenSPM（2606.29936）：可迁移机器人关键空间姿态记忆 + flow matching 动作生成。
Unleashing More Actions / ACT-VLA（2607.00351）：离线数据增强，合成已知子技能的新组合演示。
3D HAMSTER（2606.31329）：分层 VLA 高层规划器直接输出 3D 度量轨迹而非 2D 投影。
Bridge-WA（2607.02195）：轻量世界-动作蒸馏框架，VLABench/RoboTwin2.0/LIBERO-Plus 验证。
ACID（2607.02403）：世界模型规划加”循环动作一致性”约束，4模型×6任务（含视觉导航任务）提升规划质量且更省算力。
The Moving Eye（2607.02322）：双臂数据采集方案缓解 VLA 空间泛化的虚假相关性。
Learning to Move Before Learning to Do / TAP（2607.02466）：解耦”运动能力”与”语义对齐”预训练，SIMPLER 上用远少数据匹配百万级演示效果，真实 WidowX 相机扰动下保留 25% 成功率（基线归零）。
VLA-Corrector（2607.01804）：轻量视觉监视器检测动作块开环偏差并触发重规划。
Neuro-Symbolic Safety Guidance（2607.01378）：flow-matching VLA 去噪过程中做安全约束修正，SafeLIBERO 碰撞规避 82.8%。
Revisiting Parameter Redundancy（2606.31382）：VLM→VLA 适配视角重新审视参数剪枝冗余假设。
ELASTIC（2606.31132）：meta-MDP 形式化测试时计算分配（去噪步数 vs 并行采样）。
BIFROST（2607.01410）：跨域双仿真目标学习 sim2real 共享历史编码器，含 sim2sim 视觉导航任务验证。
A Modular VLA Framework for Indoor Environments（2606.31144）：CMU VLA Challenge 参赛系统，OwlViT 语义体素地图 + VLM 指令分类。
Z-1 / Guided Action Flow：见「二」。
FurnitureVLA（2607.01212）：首个真实尺度双臂家具组装系统，仿真成功率 48%→80%，真机最难任务仅降 16%。

5.3 人形 / 触觉 / 精细操作

Human-as-Humanoid（2606.32009）：60-DoF 人对齐人形平台 PrimeU，第一/第三人称视频配对 + 分阶段 IK 重定向。
UniTacVLA（2606.31723）：统一触觉理解与预测，触觉思维链 + 由粗到细未来触觉预测。
Human-Centric Transferable Tactile Pre-Training / H-Tac + TTP（2607.01067）：160 小时第一人称人类视频触觉数据集，300+ 任务、13.5 万条 episode。

5.4 安全性、鲁棒性与 Benchmark

OopsieVerse（2606.31993）：损伤感知的家庭操作安全基准，DAMAGESIM 框架 + 家务任务集。

5.5 自动驾驶方向的 VLA

Reasoning-aware Speculative Decoding（2606.31160）：自动驾驶 VLA 推理链拆成”常规/审慎”两路投机解码。
Teaching VLA What to See / DriveTeach-VLA（2607.01658）：三阶段”看什么-往哪看-怎么做”流水线，NAVSIM/nuScenes SOTA。

5.6 系统 / 部署 / 具身智能体架构

Embodied.cpp（2607.02501）：可移植 C++ 具身模型推理运行时，五层抽象适配异构机器人。
Automating the Design of Embodied Agent Architectures（2606.30111）：把 Agent Architecture Search 搬到感知型具身智能体，含 VLN 在内 3×4 矩阵评测，证明架构级搜索可带来方向性成功率提升。
LIME（2607.02417）：把”移动相机去看”建模成第一类语言条件动作，填补 VLN（移动底座）和 VLA（操作）之外的空白，对做主动视觉的 VLN 系统有参考价值。
Vision-Language-Action Models: Experimental Insights from a Real-World UR5 Platform（2606.30456）：OpenVLA/OpenVLA-OFT 落地真实 UR5e 的工程报告，核心发现”离线指标好看 ≠ 闭环行为稳定”。
LeCropFollow（2606.31941）：农业机器人非结构化玉米田导航，自监督语义热力图 + TD-MPC2 潜空间规划，声称零样本仿真到真实迁移。虽是农业场景，但”绕开几何建图、在潜空间直接规划”的思路与地面 VLN 的世界模型路线相关，可留意。

六、资讯类（非论文）

南京大学 R&L Group 招聘具身智能工程师：机械臂/人形/四足平台算法开发，C++/Python + PyTorch + ROS，3 年以上经验，南京，15k+，2-3 年聘期。联系：huojing@nju.edu.cn（详见公众号原文）。

七、主题分布小结

本周与地面机器人 VLN / 具身导航直接相关的高质量工作有 9 篇（UcON、M³E、NAMO 三篇公众号解读 + FutureNav、CoFL-S、DART-VLN、MVP-Nav、Phi-Nav、SWAM 六篇 arXiv），已全部收入「一、本周值得优先看的几篇」。无人机 VLA/VLN（本周 arXiv 2 篇 + 公众号 3 篇）和机械臂操作类工作（本周 arXiv 约 20 篇）本期从简处理，仅在方法上有明确可迁移点时单独摘出（ImagineUAV 的想象-提取-规划范式、Z-1 的 RL 后训练工程技巧、Guided Action Flow 的免训练 critic 引导采样）。

命名冲突提醒：本周出现两个不同的 “DART”——5.1 节的 DART-VLN（测试时记忆衰减，VLN 方向）与 5.2 节的 Domain Arithmetic / DART（一次性权重算术适配，操作方向），引用时注意区分。

八、配置更新：查询范围扩大后，本周又补回 20 篇被漏掉的论文

之前 arXiv 查询只有 6 个核心短语 + max_results=40 硬上限，实测这 40 条最早只回溯到 6.3 天前——10 天窗口里更早的论文其实已经被截断丢失，且未覆盖 3D-VLM / point nav / navigation agent / navigation benchmark 等主题。已扩充 arXiv 查询（新增 point goal navigation / PointNav / 3D vision-language 等词，navigation agent/3D encoder/navigation dataset/navigation benchmark 用 AND 收窄避免噪声，agentic navigation 因噪声过高未采用），max_results 从 40 提到 100。同一个 2026-06-25~07-05 窗口内因此又补回 20 篇之前被截断漏掉的论文，其中两篇直接与地面 VLN 相关，值得补充关注：

ViTL（2606.30696）：零样本长时程导航，现有零样本物体导航方法大多只能处理单目标指令，ViTL 用 LLM 把自然语言指令（如”先清理椅子或沙发，然后打开电视”）编译成线性时序逻辑（LTL）公式，再转成确定性有限自动机（DFA）协调多通道价值地图、检测到新物体时触发动态重规划；导航层面引入”方向性得分”，给前沿方向打带方向的分数而非无方向的全局值。这是本周新补上的、和地面 VLN 关系最直接的一篇——把时序/逻辑约束显式建模进零样本导航决策，是对多目标、有顺序要求指令的一个具体解法。
AirGroundBench（2606.28049）：异构无人机-地面机器人协同的空间智能诊断基准，11 个高保真仿真环境、约 6.2 万条双视角四选一空间推理题，外加 115 条闭环视觉语言导航 episode，覆盖空间感知/跨视角对齐/空间变换推理/具身决策四个能力维度。虽涉及无人机，但地面机器人（UGV）视角和 VLN episode 是评测核心组成部分，对研究”多视角空间智能如何影响导航决策”有直接参考价值。
SpikeVLA（2606.27807）：脉冲神经网络（SNN）版 VLA 架构，论文原文明确写的是”面向具身导航的节能推理”，含脉冲视觉编码器/脉冲多模态 LLM/脉冲动作策略三部分，导航与机器人控制任务上做了验证。方向是能效优化而非语义架构创新，仅供了解硬件/推理效率这条子路线。

其余 17 篇里 1 篇是明显噪声（PairCoder++，代码 pair-programming agent，和具身导航无关，命中原因大概率是 “navigation agent” 短语的误匹配），其余多为机械臂操作、VLA 安全/效率/评测类工作，与本周正文分类原则一致，不再逐条展开。整体噪声率约 1/20（5%），在扩大覆盖面换来的收益前可以接受。

反馈

📮 参与改进这篇文章

发现错误、想推荐相关论文、或有修改建议？点击下方按钮通过 GitHub Issue 提交，提交后你将出现在社区贡献者墙中。

🐛 报告错误 📄 推荐论文 ✏️ 修改建议