一、本周值得优先看的几篇(贴近地面机器人 VLN / 具身导航)
1. UcON —— 首个”懂你摆放习惯”的物体导航基准(北大,ICRA 2026)
家用机器人找物体,传统方法全靠”书在书房、碗在厨房”式通用常识,但真实家庭里每个人的摆放习惯千差万别。北大团队构建了首个规模化的用户习惯物体导航基准:489 类物体、约 2.26 万条用户摆放习惯。最有意思的发现是”检索式习惯注入”(借鉴 RAG 思路)效果优于直接给真值习惯——因为检索结果会带出关联物体的习惯(比如找茶包时带出”早餐桌上放着茶具”),相当于给了额外的地标信息。现有 SOTA 方法在个性化场景下普遍”大幅滑坡”:端到端方法 VTN/ZSON 成功率仅 1~2%;即便是最好的方案(LGX + 检索习惯)成功率也只有 30.6%,说明这个方向的提升空间还很大。 链接:https://arxiv.org/abs/2602.06459 | 代码:https://github.com/whcpumpkin/User-Centric-Object-Navigation
2. M³E —— 让 VLN 智能体”学新不忘旧”(华南理工 / 新加坡管理大学,ICLR 2026)
持续学习一直是具身智能体的老大难问题:换个新环境训练,旧环境的导航能力就被冲掉了。这篇提出宏-微双路由 MoE + 动态动量更新,思路是把”全局场景推理”(跨环境通用)和”局部 token 级指令-视觉对齐”(专项技能)拆开,分别路由到不同专家,再按专家对当前任务的贡献度差异化调整更新速度。完全不需要历史数据回放,在 R2R 上 SPL 达到 66.96%(超过最强回放类基线 1.56 个百分点),BWT(反向迁移/遗忘指标)只有 0.04,几乎零遗忘(对比:普通微调 BWT 为 -5.42,经典正则化方法 EWC 为 -3.50)。更惊艳的是全量适配实验里,M³E 学完新环境后旧环境成功率反而涨了 2.15 个百分点(对比 HAMT 掉 12.54 个点)。这套”全局/局部解耦路由”的思路对任何长期部署、要跨场景持续学习的 VLN 系统都直接可借鉴。 链接:https://openreview.net/pdf?id=pFh5ygjN3V | 项目页:https://yongliangjiang.top/m3e
3. NAMO —— 靠物理交互”推开”障碍物的交互式导航(CMU + UC Berkeley,RAL 2026)
室内服务机器人遇到挡路的箱子、椅子,传统方案只会绕路。这篇让机器人通过约 1 秒的物理交互快速摸清物体的动力学属性(能不能推动),用共享基函数 + 专属线性系数的低秩结构实现未知物体动力学的在线快速适配,仅需 25 秒交互数据 MSE 就从 1.31 降到 0.43。真实机器人平台 Shmoobot(单球轮动态平衡)实验里,面对可推动纸箱(2.8kg)与不可推动锁轮轮椅(11.9kg)的混合场景,15 次随机实验整体成功率 86.7%——能正确识别可推物体挪开通路,对不可推物体自动更新地图绕行。把”能不能操作物体”这个连续动力学判断直接融入导航决策(而非传统的二分类”能/不能动”),这个把物理交互信息嵌入导航代价函数的思路,对做交互式导航/杂乱环境导航的方向很有参考价值。 项目页:https://cmushmoobot.github.io/AdaptivePushing/
4. FutureNav —— 统一世界建模与动作生成的 VLN 框架
现有 VLN 基础模型大多把导航学成”直接动作生成”,不显式建模世界状态或预测其演化。FutureNav 让 VLM 联合编码文本/视觉/空间特征,同时优化 4 个目标:动作策略(导航动作预测)、正向/逆向动力学(状态转移建模)、未来生成(预测未来空间状态),仅 4B 规模骨干就在多个 VLN 基准上达到 SOTA(具体分数摘要截断未给出)。这是”显式世界建模 + 动作预测”联合训练而非分离模块的一个干净范式,比起单纯堆参数量,这种多任务联合监督的思路更值得在自己的导航架构里试。 链接:https://arxiv.org/abs/2606.30367v1
5. CoFL-S —— 用”流场”表示 VLN 的低层动作(直击一个被忽视的问题)
VLN 领域这几年在高层指令推理、记忆、全局建图、指令分解上卷得很凶,但低层动作表示这块一直被忽视。CoFL-S 提出在机器人局部可视扇区内预测”语言条件流场”,通过 rollout 生成连续轨迹;把每条 VLN-CE episode(整段指令配整段动作序列)转成帧级局部监督(对齐子指令 + 动作/轨迹/密集流场目标)。同时提出一个连续时间 Habitat 基准,把低层动作接口和指令分解解耦评估——所有方法统一走同一个速度指令控制器,实现不依赖分解方式、跨规划频率的公平闭环对比(而不是 VLN-CE 里固定的离散”前进-转向”)。在同等编码器和训练设置下持续超越 action-token / action-chunk 基线(具体数字摘要截断)。这个”评测方法论”本身可能比模型更有长期价值——如果你也在纠结怎么公平对比不同粒度的动作表示,这个基准设计思路值得借鉴。 链接:https://arxiv.org/abs/2607.02222v1
6. DART-VLN —— 免训练、即插即用的测试时 VLN 控制
基于记忆的离散 VLN 智能体在测试时有两个常见失效模式:记忆读取端证据过时、动作选择时局部低效回溯。DART-VLN 是一个训练无关的测试时控制框架:Test-Time Memory Decay(读取侧的记忆重加权,抑制过时/冗余证据、不改写存储内容)+ Anti-Loop Regularization(轻量的下一跳惩罚,抑制立即掉头)。不引入任何新可学习参数,骨干完全冻结。R2R / REVERIE 上呈现一致规律:单用衰减就能稳定提升读取端效果,衰减+反循环拿到最好的质量-效率平衡(更短轨迹、更低耗时、关键设置下导航性能更好);行为分析证实反循环确实减少了局部回溯。这是本周最容易直接落地借鉴的一篇——不用改模型、不用重训,直接加在现有 VLN 系统的推理阶段就能生效。 链接:https://arxiv.org/abs/2607.01043v1
7. MVP-Nav —— 把物理约束显式融入零样本物体导航
纯 RGB 的零样本物体目标导航(ZSON)一直有个根本困难:没有显式深度,容易出现”语义上说得通但物理上不安全”的行为。MVP-Nav 用 3D 基础模型把单目观测重建出显式物理占据(把 2D 语义实例投影成 3D 有向包围盒,组成全局空间语义表示),再提出多层价值地图(MVM),把语义优先级和重建几何统一到同一个代价空间里做规划,把”高层语义推理”和”底层物理约束”这两件常被分开处理的事融合到一个规划器里。这个”多层代价地图统一语义+几何”的设计模式,是任何做纯视觉 ZSON 的团队都可以直接参考的架构组件。 链接:https://arxiv.org/abs/2606.31919v1
8. Phi-Nav —— 用”事后指令”补上在线探索的语义监督缺口
VLN 训练中做 on-policy 探索(让策略自己走、扩大状态分布覆盖)几乎必然导致实际轨迹偏离专家演示,造成”走的路”和”原始指令”语义对不上。Phi-Nav 提出三阶段双监督循环:① 智能体在专家动作反馈下做 oracle-guided 探索采样轨迹;② 一个 hindsight speaker 基于采集到的视觉观测,为这条实际走过的轨迹合成一条”事后路径级指令”;③ 智能体把这条合成的轨迹-指令对当作额外专家演示,做第二遍模仿学习。这是一个纯训练流程层面的技巧,不需要改动模型架构,任何用 on-policy 探索训 VLN 的 pipeline 都能直接套用,思路上和机器人操作里的”事后经验回放”(HER)异曲同工。 链接:https://arxiv.org/abs/2607.01754v1
9. SWAM(Pondering the Way)—— 反思”验证式”世界模型规划范式
现有基于世界模型的视觉导航规划器大多走”验证中心”范式:先采样一堆候选动作,再用世界模型验证哪个更接近目标,把”目标意图”和”轨迹生成”割裂开,导致候选依赖、计算开销大、采样动作和预测画面容易对不上。SWAM 改成任务中心的联合观测-动作生成:给定起点和目标 RGB 观测,单次推理同时生成中间 RGB-D 序列和对应动作轨迹,训练时用深度伪标签内化空间先验,推理时只需单目 RGB。声称显著优于 SOTA 两阶段规划器(具体数字摘要截断)。这是对”验证式 vs 生成式”这一世界模型导航范式选择的一次直接挑战,如果你的导航系统里也有一个”采样-验证”式的世界模型模块,这篇提供了另一条路的具体设计参考。 链接:https://arxiv.org/abs/2606.29908v1
二、其他方向但有明确可借鉴技巧的(不属于导航,但方法值得参考)
- ImagineUAV(无人机 VLN,鹏城实验室):核心范式是”想象-提取-规划”——用指令条件视频扩散世界模型先生成第一人称未来画面,再从生成视频里提取相对运动,交给动力学规划器优化成可执行轨迹(UAV-Flow 基准 70.9% 成功率 SOTA,仅 1.3B 参数,真机验证)。消融显示去掉”指令条件”直接用无条件世界模型,成功率从 70.9% 暴跌到 40.2%,去掉动力学规划器真机成功率从 13/20 掉到 9/20。平台是无人机、几何/动力学建模不能直接复用,但”先用条件视频扩散想象未来观测、再从想象结果中提取动作”这个三级流水线分解方式,是给地面 VLN 引入更强世界模型时可以参考的一种具体分解思路。 链接:https://arxiv.org/abs/2606.01205
- Z-1(机械臂操作,GRPO 强化学习后训练):在 π0.5 基础上只用公开 RoboCasa 演示做 SFT,再用任务级 GRPO 在 24 个任务上强化训练,平均成功率 80.6%(+13.2 点)。是操作方向的工作,但”共享前缀 rollout + 树状轨迹分支 + 完成感知奖励校准”这套 RL 后训练工程技巧,对想给 VLN 策略做 RL 后训练的人是现成的工程参考。 链接:https://arxiv.org/abs/2606.31846v1
- Guided Action Flow(机械臂操作,flow-matching 测试时引导):冻结预训练策略,另训练一个基于真实成功/失败 rollout 的 critic,仅在采样阶段用其梯度引导 flow-matching 反向采样,LIBERO 上单任务成功率从 68.0%→82.0%。同属操作方向,但如果本周的 CoFL-S 这类基于流场的导航策略要做测试时提升,”不重训、只用 critic 引导采样”这个思路是可以直接尝试迁移的。 链接:https://arxiv.org/abs/2607.02092v1
三、无人机方向本周从简(非核心方向,仅供了解领域动态)
- SpatialSky-Bench + Sky-VLM(清华/小米汽车,CVPR 2026):无人机俯视视角的 VLM 空间智能评测基准 + 专用训练模型,13 项任务,Sky-VLM 平均得分 53.30 比 GPT-5 高 139.6%。评测任务设计和两阶段 SFT+GRPO 训练配方是通用技巧,但基准和数据集是无人机专属,场景设计本身不可直接复用到地面 VLN。
- PS-LOS(北航,ICRA 2026):反无人机拦截制导,平面扇区视线约束 + 延迟补偿 EKF,138 米超远拦截。纯控制理论/几何制导问题,和 VLN/VLA 基本不搭边。
- UAST(中科大,CVPR 2026):无人机主动搜索+跟踪一体化框架,全程无自然语言指令,本质是纯感知-控制闭环,跟踪成功率超 SOTA 50%+。和语言导航关联很弱。
- DynFly(2606.31654):无人机 VLN 连续轨迹生成,B 样条控制点 + Spline-DiT flow matching,解决离散动作到连续轨迹的接口问题(摘要截断,无具体数字)。
- AERIS(2606.30151):无人机边缘部署的 LLM 群体编排框架,小语言模型按角色动态绑定执行器(摘要截断,无具体数字)。
四、公众号「视觉语言导航」本周解读全览(8 篇,客观列全)
| 日期 | 标题 | 会议 | 方向 | 一句话看点 |
|---|---|---|---|---|
| 06-28 | UAST:无人机搜索与跟踪统一框架 | CVPR 2026 | 无人机(从简) | 无建图端到端,跟踪成功率超SOTA 50%+ |
| 06-29 | NAMO:非抓取移动操作助力交互式导航 | RAL 2026 | 地面/精选① | 推物开路,真实成功率86.7% |
| 06-30 | 南大招聘(资讯,非论文) | — | — | 南京大学 R&L Group 招具身智能工程师 |
| 07-01 | SpatialSky-Bench + Sky-VLM | CVPR 2026 | 无人机(从简) | 无人机VLM评测基准,Sky-VLM超GPT-5 139.6% |
| 07-02 | PS-LOS:平面扇区制导反无人机拦截 | ICRA 2026 | 无人机(从简) | 138米超远拦截,与VLN关联弱 |
| 07-03 | M³E:VLN持续学习双专家架构 | ICLR 2026 | 地面/精选① | 无回放持续学习,R2R几乎零遗忘 |
| 07-04 | ImagineUAV:世界模型赋能空中VLN | — | 无人机(架构可借鉴②) | 想象-提取-规划范式,UAV-Flow SOTA |
| 07-05 | UcON:个性化物体导航基准 | ICRA 2026 | 地面/精选① | 489类物体+2.26万条习惯 |
(①详见「一、本周值得优先看的几篇」;②详见「二、其他方向但有明确可借鉴技巧的」)
五、arXiv 新论文分类速览(40 篇,按主题归类)
5.1 视觉语言导航(VLN,地面/通用)
FutureNav、CoFL-S、DART-VLN、MVP-Nav、Phi-Nav、SWAM(Pondering the Way)均属此类, 已在「一」中详细展开,此处不再重复。
5.2 VLA 基础模型 / 训练范式(机械臂操作为主,非本方向核心)
- Training VLA with Dense ECoT / ZR-0(2606.30552):2.6B 参数双流架构(VLM 具身思维链 + Diffusion Transformer 动作专家),推理时可跳过 ECoT 生成不损性能。
- VLAFlow(2607.01586):统一 flow-matching 框架对比 4 种 VLA 预训练范式,OXEMix(约 5000 小时)+ LIBERO 系列评测,组合式 MindLWPI 最稳定。
- Domain Arithmetic / DART(2607.00666):一次性(one-shot)VLA 环境适配,权重向量算术 + 子空间对齐,仅需 1 条演示。⚠️ 与「五、5.1」提到的 DART-VLN 是两篇不同论文,仅缩写撞车。代码:https://github.com/snumprlab/dart
- SPARK(2606.30613):免训练神经符号操作系统,LIBERO-PRO 上 43.7%,是 CaP-Agent0(18.2%)的两倍多。
- OpenSPM(2606.29936):可迁移机器人关键空间姿态记忆 + flow matching 动作生成。
- Unleashing More Actions / ACT-VLA(2607.00351):离线数据增强,合成已知子技能的新组合演示。
- 3D HAMSTER(2606.31329):分层 VLA 高层规划器直接输出 3D 度量轨迹而非 2D 投影。
- Bridge-WA(2607.02195):轻量世界-动作蒸馏框架,VLABench/RoboTwin2.0/LIBERO-Plus 验证。
- ACID(2607.02403):世界模型规划加”循环动作一致性”约束,4模型×6任务(含视觉导航任务)提升规划质量且更省算力。
- The Moving Eye(2607.02322):双臂数据采集方案缓解 VLA 空间泛化的虚假相关性。
- Learning to Move Before Learning to Do / TAP(2607.02466):解耦”运动能力”与”语义对齐”预训练,SIMPLER 上用远少数据匹配百万级演示效果,真实 WidowX 相机扰动下保留 25% 成功率(基线归零)。
- VLA-Corrector(2607.01804):轻量视觉监视器检测动作块开环偏差并触发重规划。
- Neuro-Symbolic Safety Guidance(2607.01378):flow-matching VLA 去噪过程中做安全约束修正,SafeLIBERO 碰撞规避 82.8%。
- Revisiting Parameter Redundancy(2606.31382):VLM→VLA 适配视角重新审视参数剪枝冗余假设。
- ELASTIC(2606.31132):meta-MDP 形式化测试时计算分配(去噪步数 vs 并行采样)。
- BIFROST(2607.01410):跨域双仿真目标学习 sim2real 共享历史编码器,含 sim2sim 视觉导航任务验证。
- A Modular VLA Framework for Indoor Environments(2606.31144):CMU VLA Challenge 参赛系统,OwlViT 语义体素地图 + VLM 指令分类。
- Z-1 / Guided Action Flow:见「二」。
- FurnitureVLA(2607.01212):首个真实尺度双臂家具组装系统,仿真成功率 48%→80%,真机最难任务仅降 16%。
5.3 人形 / 触觉 / 精细操作
- Human-as-Humanoid(2606.32009):60-DoF 人对齐人形平台 PrimeU,第一/第三人称视频配对 + 分阶段 IK 重定向。
- UniTacVLA(2606.31723):统一触觉理解与预测,触觉思维链 + 由粗到细未来触觉预测。
- Human-Centric Transferable Tactile Pre-Training / H-Tac + TTP(2607.01067):160 小时第一人称人类视频触觉数据集,300+ 任务、13.5 万条 episode。
5.4 安全性、鲁棒性与 Benchmark
- OopsieVerse(2606.31993):损伤感知的家庭操作安全基准,DAMAGESIM 框架 + 家务任务集。
5.5 自动驾驶方向的 VLA
- Reasoning-aware Speculative Decoding(2606.31160):自动驾驶 VLA 推理链拆成”常规/审慎”两路投机解码。
- Teaching VLA What to See / DriveTeach-VLA(2607.01658):三阶段”看什么-往哪看-怎么做”流水线,NAVSIM/nuScenes SOTA。
5.6 系统 / 部署 / 具身智能体架构
- Embodied.cpp(2607.02501):可移植 C++ 具身模型推理运行时,五层抽象适配异构机器人。
- Automating the Design of Embodied Agent Architectures(2606.30111):把 Agent Architecture Search 搬到感知型具身智能体,含 VLN 在内 3×4 矩阵评测,证明架构级搜索可带来方向性成功率提升。
- LIME(2607.02417):把”移动相机去看”建模成第一类语言条件动作,填补 VLN(移动底座)和 VLA(操作)之外的空白,对做主动视觉的 VLN 系统有参考价值。
- Vision-Language-Action Models: Experimental Insights from a Real-World UR5 Platform(2606.30456):OpenVLA/OpenVLA-OFT 落地真实 UR5e 的工程报告,核心发现”离线指标好看 ≠ 闭环行为稳定”。
- LeCropFollow(2606.31941):农业机器人非结构化玉米田导航,自监督语义热力图 + TD-MPC2 潜空间规划,声称零样本仿真到真实迁移。虽是农业场景,但”绕开几何建图、在潜空间直接规划”的思路与地面 VLN 的世界模型路线相关,可留意。
六、资讯类(非论文)
- 南京大学 R&L Group 招聘具身智能工程师:机械臂/人形/四足平台算法开发,C++/Python + PyTorch + ROS,3 年以上经验,南京,15k+,2-3 年聘期。联系:huojing@nju.edu.cn(详见公众号原文)。
七、主题分布小结
本周与地面机器人 VLN / 具身导航直接相关的高质量工作有 9 篇(UcON、M³E、NAMO 三篇公众号解读 + FutureNav、CoFL-S、DART-VLN、MVP-Nav、Phi-Nav、SWAM 六篇 arXiv),已全部收入「一、本周值得优先看的几篇」。无人机 VLA/VLN(本周 arXiv 2 篇 + 公众号 3 篇)和机械臂操作类工作(本周 arXiv 约 20 篇)本期从简处理,仅在方法上有明确可迁移点时单独摘出(ImagineUAV 的想象-提取-规划范式、Z-1 的 RL 后训练工程技巧、Guided Action Flow 的免训练 critic 引导采样)。
命名冲突提醒:本周出现两个不同的 “DART”——5.1 节的 DART-VLN(测试时记忆衰减,VLN 方向)与 5.2 节的 Domain Arithmetic / DART(一次性权重算术适配,操作方向),引用时注意区分。
八、配置更新:查询范围扩大后,本周又补回 20 篇被漏掉的论文
之前 arXiv 查询只有 6 个核心短语 + max_results=40 硬上限,实测这 40 条最早只回溯到 6.3 天前——10 天窗口里更早的论文其实已经被截断丢失,且未覆盖 3D-VLM / point nav / navigation agent / navigation benchmark 等主题。已扩充 arXiv 查询(新增 point goal navigation / PointNav / 3D vision-language 等词,navigation agent/3D encoder/navigation dataset/navigation benchmark 用 AND 收窄避免噪声,agentic navigation 因噪声过高未采用),max_results 从 40 提到 100。同一个 2026-06-25~07-05 窗口内因此又补回 20 篇之前被截断漏掉的论文,其中两篇直接与地面 VLN 相关,值得补充关注:
- ViTL(2606.30696):零样本长时程导航,现有零样本物体导航方法大多只能处理单目标指令,ViTL 用 LLM 把自然语言指令(如”先清理椅子或沙发,然后打开电视”)编译成线性时序逻辑(LTL)公式,再转成确定性有限自动机(DFA)协调多通道价值地图、检测到新物体时触发动态重规划;导航层面引入”方向性得分”,给前沿方向打带方向的分数而非无方向的全局值。这是本周新补上的、和地面 VLN 关系最直接的一篇——把时序/逻辑约束显式建模进零样本导航决策,是对多目标、有顺序要求指令的一个具体解法。
- AirGroundBench(2606.28049):异构无人机-地面机器人协同的空间智能诊断基准,11 个高保真仿真环境、约 6.2 万条双视角四选一空间推理题,外加 115 条闭环视觉语言导航 episode,覆盖空间感知/跨视角对齐/空间变换推理/具身决策四个能力维度。虽涉及无人机,但地面机器人(UGV)视角和 VLN episode 是评测核心组成部分,对研究”多视角空间智能如何影响导航决策”有直接参考价值。
- SpikeVLA(2606.27807):脉冲神经网络(SNN)版 VLA 架构,论文原文明确写的是”面向具身导航的节能推理”,含脉冲视觉编码器/脉冲多模态 LLM/脉冲动作策略三部分,导航与机器人控制任务上做了验证。方向是能效优化而非语义架构创新,仅供了解硬件/推理效率这条子路线。
其余 17 篇里 1 篇是明显噪声(PairCoder++,代码 pair-programming agent,和具身导航无关,命中原因大概率是 “navigation agent” 短语的误匹配),其余多为机械臂操作、VLA 安全/效率/评测类工作,与本周正文分类原则一致,不再逐条展开。整体噪声率约 1/20(5%),在扩大覆盖面换来的收益前可以接受。