VLN-Imagine (2025)

VLN-Imagine (2025)

———用文本生成图像模型为导航智能体构建”视觉想象”

📄 Paper: https://arxiv.org/abs/2503.16394

精华

  1. 利用现成的 text-to-image 扩散模型(SDXL)为导航指令中的地标名词短语生成”视觉想象”,将跨模态对齐从隐式学习转化为显式的图像-图像匹配,思路简洁且可迁移。
  2. 方法设计为 model-agnostic:通过独立的 imagination encoder + 辅助对齐损失即可嵌入任意 VLN 模型,无需修改原有架构。
  3. 子指令过滤策略(FG-R2R 分割 + 名词短语黑名单)有效控制了生成图像的质量与相关性,是低成本数据增强的好范例。
  4. 实验表明 imagination 在训练和推理阶段均有增益,且训练阶段的正则化效应独立于推理时的输入增益,说明多模态辅助信号可提升模型泛化。
  5. cosine similarity 辅助损失足以对齐 imagination 与指令表征,无需更复杂的对比损失(InfoNCE),体现了”够用即可”的工程哲学。

1. 研究背景/问题

Vision-and-Language Navigation(VLN)任务中,智能体需要根据自然语言指令在未见过的环境中导航。指令常引用视觉地标(如”pool table”“kitchen”),但现有方法依赖隐式跨模态对齐来关联名词短语与实际观察。本文探索是否可以在导航前先用 text-to-image 模型为地标生成”视觉想象”,将语言-视觉对齐转化为更容易的图像-图像匹配任务。


2. 主要方法/创新点

2.1 Visual Imagination 生成管线

指令分割、过滤与图像生成流程:使用 FG-R2R 将指令分割为子指令,过滤掉不含视觉地标的部分,再通过 SDXL 生成想象图像
  • 指令分割:使用 FG-R2R 将完整导航指令分割为子指令序列 $S = (S_0, \cdots, S_m)$,R2R 训练集平均每条指令 3.66 个子指令。
  • 子指令过滤:通过 SpaCy 过滤无名词短语的子指令,再用黑名单排除非视觉名词(如计数词、方向词、代词),保留有效子指令集 $S’ \subset S$。
  • 图像生成:使用 SDXL 扩散模型,以正向提示词(indoor, house, realistic, real estate)和负向提示词(outdoor, text, humans 等)引导生成室内场景图像。最终构建 R2R-Imagine 数据集,包含超过 41k 张 1024×1024 想象图像。

2.2 Model-Agnostic 集成方法

方法总览:(左)想象图像经 ViT 编码后通过 MLP 生成 imagination embedding;(右)与指令 token 拼接后送入跨模态策略网络
  • Imagination Encoder:使用预训练 ViT-B/16 编码想象图像,加上 imagination modality 的类型嵌入 $t_{Im}$,再通过三层 MLP(768→512→768,ReLU + Dropout 0.15)得到 imagination embedding $h_i = \text{MLP}(\text{ViT}(Z_i) + t_{Im})$。
  • 模态融合:imagination embedding 与指令的文本编码拼接后,一起送入 VLN 智能体的跨模态编码器。本文在 HAMT 和 DUET 两个代表性模型上验证了该方法。
  • 辅助对齐损失:计算 imagination embedding $h_i$ 与对应子指令名词短语的平均文本嵌入 $\bar{S}i$ 之间的 cosine similarity 损失 $\mathcal L{cos}$,总损失为 $\mathcal L_{\text{base}} + \lambda \mathcal L_{cos}$($\lambda=0.5$)。
  • 三阶段微调:为缓解灾难性遗忘,先训练 MLP + 类型嵌入(25% 迭代)→ 联合训练所有模块(25%)→ 统一学习率训练(50%),总计 100k 迭代。
视觉想象示例:导航指令中的子目标(pool table、kitchen、bedroom)被生成为对应的室内场景图像

3. 核心结果/发现

  • R2R 数据集:在 HAMT 和 DUET 基础上,VLN-Imagine 在 val-unseen 上分别提升约 1.0 SR 和 0.5 SPL(HAMT: 67.26 SR / 62.02 SPL;DUET: 79.9 SR / 73.75 SPL)。DUET 在 test split 上 SR 提升 2 个点。
  • REVERIE 数据集:DUET-Imagine 在粗粒度指令设置下 SR 提升 1.3 点,RGS 提升 0.82 点,说明想象对目标定位也有帮助。
  • 训练与推理双重增益:即使在推理时 nullify imagination(置零注意力掩码),模型仍优于 baseline,暗示 imagination-based 训练具有正则化效果。
  • 对齐是关键:随机 imagination 反而降低性能;正确对齐的 imagination 才能带来提升。
  • 视觉优于文本:用子指令文本嵌入代替 imagination embedding 效果不如视觉想象,说明视觉表征与语言起互补作用。
  • Imagination 高保真度:通过 LangSAM 开放词汇检测器验证,98.78% 的子指令至少有一个名词短语被检测到。

4. 局限性

生成和编码想象图像增加了计算开销,对实际机器人部署尤为不利(H100 上单张 3.2 秒,微调需 V100 约 1.5 天)。此外,想象图像无法捕捉环境中物体和位置的个性化命名,终身学习的持久化视觉 grounding 仍是开放问题。