强化学习算法全景：聚焦具身智能领域的深度演进

2026-04-25

1. 引言：具身智能的”神经中枢”

在通往 AGI 的征途中，强化学习（Reinforcement Learning, RL） 是机器人（Robot）实现物理世界自主决策的核心引擎。当 RL 遇见具身智能（Embodied AI），它不再仅仅是处理数字信号、征服 Atari 游戏，而是要驱动一个拥有物理躯体的实体，在复杂的三维空间中感知、规划并完成任务。

核心命题：传统 RL 关注”最大化分值”，具身 RL 必须同时兼顾样本效率、动作平滑度与物理安全三重约束。这使得算法的选择与工程权衡远比游戏场景复杂。

强化学习与监督学习有本质区别：

维度	监督学习	强化学习
数据来源	人工标注的独立同分布数据	智能体与环境交互产生的时序数据
反馈信号	即时的正确标签	延迟的稀疏奖励
上限	人类标注水平	可超越人类（如 AlphaGo）
核心挑战	泛化性	探索-利用权衡、信用分配

本文将系统梳理具身智能中的核心 RL 算法，从数学基础到前沿方法，希望为读者构建完整的知识体系。

2. 理论基础：马尔可夫决策过程（MDP）

所有 RL 算法都建立在 马尔可夫决策过程（Markov Decision Process, MDP） 这一统一框架之上。

2.1 MDP 的四元组定义

一个 MDP 由四元组 $\langle S, A, P, R \rangle$ 定义：

状态空间 $S$：所有可能状态的集合，如机器人的关节角度、位置等。
动作空间 $A$：智能体可以执行的动作集合（离散或连续）。
状态转移概率 $P$：在状态 $s$ 执行动作 $a$，转移到 $s’$ 的概率：

\[P(s' | s, a) = p(s_{t+1} = s' \mid s_t = s, a_t = a)\]

奖励函数 $R$：在状态 $s$ 采取动作 $a$ 后获得的即时奖励：

\[R(s, a) = \mathbb{E}[r_{t+1} \mid s_t = s, a_t = a]\]

马尔可夫性质保证了”当前状态已包含所有历史信息”，即 $p(s_{t+1}

s_t, a_t) = p(s_{t+1}

s_0, a_0, \ldots, s_t, a_t)$。

2.2 策略、价值函数与 Bellman 方程

策略（Policy） $\pi(a

s)$ 是给定状态 $s$ 时，选择动作 $a$ 的概率分布。RL 的目标是找到最优策略 $\pi^*$，最大化期望累积奖励（回报）。

折扣回报定义为：

\[G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}\]

其中 $\gamma \in [0, 1)$ 是折扣因子，表示对未来奖励打折扣。

状态价值函数 $V_\pi(s)$ 是从状态 $s$ 出发，按策略 $\pi$ 执行所能获得的期望回报：

\[V_\pi(s) = \mathbb{E}_\pi\left[G_t \mid s_t = s\right] = \mathbb{E}_\pi\left[\sum_{k=0}^{\infty} \gamma^k r_{t+k+1} \mid s_t = s\right]\]

动作价值函数（Q 函数） $Q_\pi(s, a)$ 在状态 $s$ 执行动作 $a$ 后，再按策略 $\pi$ 的期望回报：

\[Q_\pi(s, a) = \mathbb{E}_\pi\left[G_t \mid s_t = s, a_t = a\right]\]

两者通过 Bellman 方程 递推：

\[V_\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a)\left[R(s,a) + \gamma V_\pi(s')\right]\] \[Q_\pi(s, a) = \sum_{s'} P(s'|s,a)\left[R(s,a) + \gamma \sum_{a'} \pi(a'|s') Q_\pi(s', a')\right]\]

2.3 两类核心问题：有模型 vs 免模型

graph TD
    A[RL 算法分类] --> B[有模型 Model-Based]
    A --> C[免模型 Model-Free]
    B --> D[动态规划<br/>DreamerV3, TD-MPC2]
    C --> E[基于价值<br/>DQN, TD3]
    C --> F[基于策略<br/>PPO, REINFORCE]
    C --> G[演员-评论员<br/>SAC, A2C, DDPG]

有模型 RL：智能体学习环境的状态转移模型 $P(s’

s,a)$，再利用该模型进行规划，样本效率高但依赖模型精度。

免模型 RL：直接与真实环境交互学习策略，不显式建模环境，更通用但需要大量样本。

3. 算法演进全景图 🗺️

具身 RL 的算法演进可分为四个代际：

graph LR
    A[基础控制期] --> B[效率飞跃期]
    B --> C[生成式变革期]
    C --> D[逻辑推理期]

    subgraph "2018-2022：无模型统治"
    A("PPO / SAC / TD3<br/>DDPG / A2C<br/>重点：稳健连续控制")
    end

    subgraph "2023-2024：模型加速"
    B("DreamerV3 / TD-MPC2<br/>World Models<br/>重点：世界模型与潜空间规划")
    end

    subgraph "2024-2025：生成式融合"
    C("Diffusion Policy / ReinFlow<br/>DPPO<br/>重点：多峰动作分布与轨迹平滑")
    end

    subgraph "2026：推理对齐"
    D("RLVR / Residual-VLA<br/>重点：可验证推理与 VLA 微调")
    end

4. 策略梯度：算法的数学根基

4.1 策略梯度定理

所有基于策略的 RL 算法都源自同一个核心公式——策略梯度定理：

\[\nabla \bar{R}_\theta = \mathbb{E}_{\tau \sim p_\theta(\tau)}\left[R(\tau) \nabla \log p_\theta(\tau)\right]\]

其中 $\bar{R}_\theta = \mathbb{E}_{\tau \sim p_\theta(\tau)}[R(\tau)]$ 是期望累积奖励，$\tau = (s_1, a_1, s_2, a_2, \ldots)$ 是一条轨迹。

直觉：如果一条轨迹带来了高奖励，就增大它发生的概率；反之降低概率。

实际计算时，将梯度分解到每个时间步：

\[\nabla \bar{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} \left(\sum_{t'=t}^{T_n} \gamma^{t'-t} r_{t'}^n - b\right) \nabla \log p_\theta(a_t^n | s_t^n)\]

其中 $b$ 是基线（baseline），用于降低梯度估计的方差。一个自然的选择是用价值函数 $V_\pi(s)$ 作为基线，即引入优势函数（Advantage Function）：

\[A(s_t, a_t) = Q_\pi(s_t, a_t) - V_\pi(s_t)\]

优势函数衡量”在状态 $s_t$ 采取动作 $a_t$，比平均水平好多少”。实际中用 TD 残差近似：

\[A(s_t, a_t) \approx r_t + \gamma V_\pi(s_{t+1}) - V_\pi(s_t)\]

4.2 探索与利用的权衡

具身智能中，探索-利用窘境（Exploration-Exploitation Dilemma）尤为突出：

探索（Exploration）：尝试未知动作，可能获得更大奖励，也可能损坏机器人。
利用（Exploitation）：执行已知最优动作，但可能陷入局部最优。

常见探索策略：

$\varepsilon$-greedy：以 $\varepsilon$ 概率随机动作，以 $1-\varepsilon$ 概率选最优动作。
熵正则化（Entropy Regularization）：SAC 的核心思想，最大化策略熵以鼓励探索。
参数噪声（Parameter Noise）：在网络参数中加入噪声（TD3/DDPG 使用动作噪声）。

5. 演员-评论员（Actor-Critic）框架

演员-评论员（Actor-Critic, A-C） 是现代具身 RL 算法的基础结构，融合了策略梯度（演员）和价值估计（评论员）。

graph TD
    A["环境"] -->|状态 s_t| B["演员 Actor<br/>策略网络 π"]
    B -->|动作 a_t| A
    A -->|奖励 r_t| C["评论员 Critic<br/>价值网络 V"]
    A -->|状态 s_t| C
    C -->|优势估计| B

优势演员-评论员（A2C） 的梯度更新：

\[\nabla_\theta J(\theta) \approx \frac{1}{N}\sum_{n=1}^N \sum_t \left(r_t^n + \gamma V_w(s_{t+1}^n) - V_w(s_t^n)\right) \nabla_\theta \log \pi_\theta(a_t^n | s_t^n)\]

评论员的损失函数（均方误差）：

\[\mathcal{L}(w) = \mathbb{E}\left[\left(r_t + \gamma V_w(s_{t+1}) - V_w(s_t)\right)^2\right]\]

A3C（Asynchronous Advantage Actor-Critic） 进一步使用多个并行工作进程异步更新全局网络，显著提升了样本效率和训练速度——类比《火影忍者》中鸣人用影分身同时修行的思路。

6. PPO：具身控制的基石算法 🛡️

近端策略优化（Proximal Policy Optimization, PPO） 是目前 OpenAI 默认的 RL 算法，也是 Isaac Lab 等具身仿真平台最常用的算法。其设计目标是在保持策略更新稳定性的同时，提升采样效率。

6.1 从同策略到异策略：重要性采样

策略梯度是同策略（On-Policy）算法——每次更新参数后必须重新采样数据，样本利用率极低。

重要性采样（Importance Sampling） 允许用旧策略 $\pi_{\theta'}$ 采集的数据训练新策略 $\pi_\theta$：

\[\mathbb{E}_{x \sim p}[f(x)] = \mathbb{E}_{x \sim q}\left[f(x)\frac{p(x)}{q(x)}\right]\]

将其应用到策略优化：

\[J^{\theta'}(\theta) = \mathbb{E}_{(s_t, a_t) \sim \pi_{\theta'}}\left[\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)} A^{\theta'}(s_t, a_t)\right]\]

其中 $$\frac{p_\theta(a_t

s_t)}{p_{\theta’}(a_t

s_t)}$$ 是重要性权重（Importance Weight），修正了两个分布间的差异。

关键约束：若 $\pi_\theta$ 与 $\pi_{\theta'}$ 差距过大，重要性权重方差爆炸，估计失准。这正是 PPO 要解决的问题。

6.2 TRPO：约束优化的前身

信任区域策略优化（TRPO） 将 KL 散度作为硬约束：

\[\max_\theta \; J^{\theta'}(\theta), \quad \text{s.t.} \;\; \mathrm{KL}(\theta, \theta') < \delta\]

TRPO 理论上保证了每次更新的策略改进，但求解带约束的优化问题计算代价高昂。

6.3 PPO-Penalty：自适应 KL 惩罚

PPO-Penalty（PPO1）将约束项合并进目标函数：

\[J_{\mathrm{PPO}}^{\theta^k}(\theta) = J^{\theta^k}(\theta) - \beta \cdot \mathrm{KL}(\theta, \theta^k)\]

并使用自适应 $\beta$ 动态调节 KL 散度惩罚强度：

若 $\mathrm{KL}(\theta, \theta^k) > \mathrm{KL}_{\max}$：增大 $\beta$（惩罚过大更新）
若 $\mathrm{KL}(\theta, \theta^k) < \mathrm{KL}_{\min}$：减小 $\beta$（允许更大更新）

6.4 PPO-Clip：裁剪机制（最常用）

PPO-Clip（PPO2）更简洁，直接通过裁剪约束概率比率：

\[J_{\mathrm{PPO2}}^{\theta^k}(\theta) \approx \sum_{(s_t, a_t)} \min\left(r_t(\theta) A^{\theta^k}(s_t, a_t),\; \mathrm{clip}(r_t(\theta),\, 1-\varepsilon,\, 1+\varepsilon) A^{\theta^k}(s_t, a_t)\right)\]

其中 $$r_t(\theta) = \frac{p_\theta(a_t

s_t)}{p_{\theta^k}(a_t

s_t)}$$ 是概率比率，$\varepsilon$ 通常取 0.1 或 0.2。

裁剪机制直觉：

graph LR
    A["概率比率 rt"] --> B["优势 A 为正"]
    A --> C["优势 A 为负"]
    B -- "rt 超出上界" --> D["截断：不增大概率<br/>防止步子迈太大"]
    B -- "rt 正常范围" --> E["正常增大概率"]
    C -- "rt 低于下界" --> F["截断：不减小概率<br/>防止矫枉过正"]
    C -- "rt 正常范围" --> G["正常减小概率"]

为什么 PPO 适合具身控制？

稳定性高：裁剪保证每次策略更新幅度有限，避免机械臂突然做出危险动作。
并行友好：Isaac Lab 等平台可以运行数千个并行仿真环境，PPO 的同策略特性与之天然契合。
实现简单：相较 TRPO，PPO 实现难度低，超参数少。

7. DDPG → TD3 → SAC：连续动作控制的演进

机器人控制通常涉及连续动作空间（如关节力矩、速度），DQN 等离散方法无法直接处理，因此催生了针对连续控制的系列算法。

7.1 DDPG：深度确定性策略梯度

深度确定性策略梯度（DDPG） 是将 DQN 扩展到连续动作空间的开创性工作，也是 TD3、SAC 的直接前身。

核心设计：

组件	名称	作用
演员 $\mu_\theta(s)$	策略网络	输出确定性连续动作
评论员 $Q_w(s, a)$	Q 网络	评估演员输出动作的价值
目标网络	Slow-updating targets	稳定 Q-target 计算
经验回放	Replay Buffer	打破数据相关性，实现异策略训练

演员更新（最大化 Q 值）：

\[\nabla_\theta J \approx \nabla_a Q_w(s, a)\big|_{a=\mu_\theta(s)} \cdot \nabla_\theta \mu_\theta(s)\]

评论员更新（TD 误差最小化）：

\[y = r + \gamma Q_{\bar{w}}(s', \mu_{\bar{\theta}}(s')), \quad \mathcal{L}(w) = \mathbb{E}\left[(Q_w(s,a) - y)^2\right]\]

其中 $Q_{\bar{w}}, \mu_{\bar{\theta}}$ 是目标网络的参数，每 $C$ 步软更新：$\bar{w} \leftarrow \tau w + (1-\tau)\bar{w}$。

为了鼓励探索，训练时对动作添加噪声（如 OU 噪声或高斯噪声）。

DDPG 的问题：Q 值容易过高估计，导致策略被破坏，对超参数极度敏感。

7.2 TD3：三大关键改进

双延迟深度确定性策略梯度（TD3） 通过三个技巧系统性解决了 DDPG 的不稳定问题：

技巧一：截断双 Q 学习（Clipped Double Q-Learning）

学习两个独立的 Q 网络 $Q_{\phi_1}, Q_{\phi_2}$，计算 Q-target 时取最小值：

\[y = r + \gamma (1-d) \min_{i=1,2} Q_{\phi_i,\mathrm{targ}}(s', a'_{\mathrm{TD3}})\]

使用最小值而非最大值，系统性地抑制了 Q 值过高估计。

技巧二：延迟策略更新（Delayed Policy Updates）

评论员每更新 2 次，演员才更新 1 次。实验表明：Q 网络先收敛再更新策略，能显著提升稳定性。

技巧三：目标策略平滑（Target Policy Smoothing）

在目标动作中加入截断噪声：

\[a'_{\mathrm{TD3}}(s') = \mathrm{clip}\left(\mu_{\bar{\theta}}(s') + \mathrm{clip}(\epsilon, -c, c),\; a_{\mathrm{low}},\; a_{\mathrm{high}}\right), \quad \epsilon \sim \mathcal{N}(0, \sigma)\]

平滑 Q 函数对动作的响应曲面，降低策略对 Q 误差的敏感性。

TD3 在灵巧手操作任务（Dexterous Manipulation）上表现优异，是机械臂精细控制的常用基线。

7.3 SAC：最大熵强化学习 🎨

软演员-评论员（Soft Actor-Critic, SAC） 是目前连续控制领域最强的免模型算法之一，其核心在于最大熵强化学习（Maximum Entropy RL）框架。

最大熵目标

SAC 不仅最大化累积奖励，同时最大化策略的熵（Entropy）：

\[\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_t \gamma^t \left(r_t + \alpha \mathcal{H}(\pi(\cdot|s_t))\right)\right]\]

其中 $\mathcal{H}(\pi(\cdot

s_t)) = -\mathbb{E}[\log \pi(a

s_t)]$ 是策略熵，$\alpha > 0$ 是温度参数，控制探索程度。

熵最大化的好处：

鼓励探索：策略分布更均匀，避免过早收敛到局部最优。
鲁棒性强：在多峰奖励环境中，能保持多种可行策略。
样本高效：异策略训练 + 经验回放。

SAC 的演员更新

演员目标是最大化 Q 值同时最大化熵：

\[\mathcal{L}(\phi) = \mathbb{E}_{s_t, \tilde{a}_t \sim \pi_\phi}\left[\alpha \log \pi_\phi(\tilde{a}_t | s_t) - \min_{i=1,2} Q_{\theta_i}(s_t, \tilde{a}_t)\right]\]

注意 SAC 使用双 Q 网络取最小值（同 TD3），有效抑制过估计。

自动温度调节

SAC 可以自动调节温度参数 $\alpha$，通过最小化：

\[\mathcal{L}(\alpha) = \mathbb{E}_{\tilde{a}_t \sim \pi_t}\left[-\alpha \log \pi_t(\tilde{a}_t|s_t) - \alpha \bar{\mathcal{H}}\right]\]

其中 $\bar{\mathcal{H}}$ 是目标熵（通常设为 $-\dim(A)$），无需手动调参。

PPO vs SAC vs TD3 对比

特性	PPO	SAC	TD3
策略类型	随机性	随机性	确定性
同/异策略	同策略	异策略	异策略
连续动作	✓	✓	✓
离散动作	✓	△	✗
样本效率	中	高	高
超参敏感度	低	低	中
具身应用	行走/跑步	灵巧手操作	精细组装

8. 有模型 RL：潜空间的”预知梦” 🧠

无模型 RL 需要与真实环境反复交互，样本效率低。有模型 RL（Model-Based RL） 让智能体学习环境的内部模型，在”脑海中”模拟练习，大幅减少真实环境的交互次数。

8.1 世界模型（World Models）：V-M-C 三部曲

David Ha 和 Jürgen Schmidhuber 在 2018 年 NeurIPS 提出了经典的世界模型框架，由三个模块组成：

graph LR
    A["原始观测 o_t<br/>(图像)"] --> B["V 模型<br/>VAE 编码器<br/>→ 潜向量 z_t"]
    B --> C["C 模型<br/>控制器<br/>输出动作 a_t"]
    B --> D["M 模型<br/>MDN-RNN<br/>预测 z_{t+1}"]
    D --> C
    C --> E["真实环境 / 虚拟环境"]
    E --> A

V 模型（Variational Autoencoder）：视觉感知模块，将高维图像压缩为低维潜向量 $z_t$，提取环境的本质特征。

M 模型（MDN-RNN）：记忆模块，根据当前潜向量 $z_t$、隐状态 $h_t$ 和动作 $a_t$ 预测下一时刻潜向量的概率分布：

\[P(z_{t+1} | a_t, z_t, h_t)\]

使用混合密度网络（MDN）输出多峰分布，捕捉环境的随机性。

C 模型（Controller）：控制器，将 $z_t$ 和 $h_t$ 拼接后直接映射为动作：

\[a_t = W_c [z_t \; h_t] + b_c\]

控制器参数少（线性层），用进化策略（CMA-ES）优化，避免反向传播穿越整个世界模型。

运作流程：

sequenceDiagram
    participant Real as 真实环境
    participant V as V 模型 (VAE)
    participant M as M 模型 (MDN-RNN)
    participant C as C 控制器

    Real->>V: 图像帧 o_t
    V->>C: 潜向量 z_t
    M->>C: 隐状态 h_t
    C->>Real: 动作 a_t
    Real->>V: 下一帧 o_{t+1}
    V->>M: z_t, a_t → 更新 h_{t+1}
    
    Note over V,M: 训练完成后，C 可在<br/>"梦境"（M 模拟的虚拟环境）中训练

关键洞察：训练完成后，可以完全在 M 模型构建的虚拟世界中训练 C 控制器，无需与真实环境交互，大幅提升训练效率。

生成模型 ≠ 世界模型。世界模型必须具备动作条件下的未来状态预测能力，即给定动作输入，能预测下一个状态。仅能生成图像的模型不满足此条件。

8.2 DreamerV3：潜空间的”梦境修炼”

DreamerV3 是目前最先进的世界模型之一，在具身 RL 中实现了显著的样本效率提升。

核心机制：

RSSM（循环状态空间模型）：将环境状态分解为确定性部分 $h_t$（LSTM 隐状态）和随机部分 $z_t$（VAE 潜向量）：

\[h_t = f_\phi(h_{t-1}, z_{t-1}, a_{t-1})\]

梦境训练（Dreaming）：在潜空间中展开完整轨迹，无需与真实环境交互：

sequenceDiagram
    participant RealWorld as 真实世界
    participant Encoder as RSSM 编码器
    participant Latent as 潜空间世界模型
    participant Agent as 智能体策略

    RealWorld->>Encoder: 收集少量真实序列
    Encoder->>Latent: 压缩为 (h_t, z_t)
    loop 梦境训练（数百步）
        Latent->>Agent: 预测下一潜状态
        Agent->>Latent: 输出模拟动作
    end
    Agent->>RealWorld: 部署最优策略

无量纲化奖励（Symlog）：使用 $\mathrm{symlog}(x) = \mathrm{sign}(x) \cdot \ln(

+1)$ 处理奖励，支持跨任务迁移而无需任务特定超参。

DreamerV3 的成就：

首个单一超参设置，无需任何调参，在 Atari、DMC、Crafter、Minecraft 等 7 个领域同时达到 SOTA。
在 Minecraft 中首次从零学会挖钻石（需要 14 步连续决策）。

8.3 TD-MPC2：潜空间的模型预测控制

TD-MPC2 将时序差分（TD）与模型预测控制（MPC） 在潜空间中统一，尤其擅长长程操作任务。

核心思路：在潜空间中进行短视野的有限步规划，结合 TD 学习估计长远价值，兼顾规划深度与计算效率。适用场景：机器人从”抓取”到”组装”等多步骤操作任务。

9. 扩散策略：从”生图”到”生动作” 🌊

9.1 Diffusion Policy

扩散策略（Diffusion Policy） 将图像生成领域（Stable Diffusion）的核心思想迁移到机器人动作生成：将目标动作轨迹视为”从高斯噪声逐步去噪”的过程。

为什么需要扩散策略？

传统策略网络输出动作的均值，无法处理多峰动作分布（Multi-Modal Distribution）。例如：

桌上有两个可选的杯子，最优策略是”选左”或”选右”，均值策略会徘徊在中间——两个都拿不到。
扩散模型天然能表示多峰分布，可以果断选择其中一个。

前向过程（加噪）：

\[q(x_k | x_{k-1}) = \mathcal{N}(x_k;\; \sqrt{1 - \beta_k}\, x_{k-1},\; \beta_k I)\]

反向过程（去噪，学习目标）：

\[p_\theta(x_{k-1} | x_k) = \mathcal{N}(x_{k-1};\; \mu_\theta(x_k, k),\; \Sigma_\theta(x_k, k))\]

训练时，网络学习预测每步的噪声 $\epsilon_\theta$，推理时从随机噪声出发，迭代去噪得到平滑的动作轨迹。

扩散策略的优势：

维度	传统策略网络	扩散策略
分布表达	单峰高斯	任意多峰
轨迹平滑度	一般	极高（去噪过程天然平滑）
推理速度	快（单次前向）	慢（需 K 步迭代）
适用场景	简单操作	复杂抓取、双臂协作

9.2 ReinFlow：扩散策略 + 强化学习

ReinFlow 在 Diffusion Policy 的基础上引入强化学习微调，解决了纯行为克隆（BC）泛化性不足的问题：

先用专家演示数据训练扩散策略（模仿学习阶段）
再用 RL 奖励信号对扩散策略进行微调（强化学习阶段）

这类似于 LLM 的 SFT → RLHF 两阶段训练范式，是当前机器人模仿学习的主流框架之一。

10. 稀疏奖励：具身 RL 的”死亡陷阱”

具身智能的奖励设计远比游戏环境困难。机器人大多数时间得不到任何奖励（如”拧螺丝”任务中，只有最终拧紧才有 +1 奖励），导致梯度消失、训练停滞。

10.1 奖励塑形（Reward Shaping）

人工设计辅助奖励来引导智能体行为，最常用但需要领域知识：

辅助奖励类型	具体例子	效果
接近性奖励	末端执行器距目标距离越近奖励越大	快速引导，但可能陷入局部解
接触力奖励	正确接触力范围内给奖励	适合精细操作
姿态正确性	物体朝向符合要求时给奖励	防止奇异构型
生存奖励	每步存活 +0.001	激励机器人持续探索

陷阱警告：设计不当的奖励可能导致”奖励欺骗（Reward Hacking）”——智能体找到超出预期的捷径最大化奖励，而不是真正完成任务。

10.2 内在好奇心模块（ICM）

好奇心驱动奖励是一种与任务无关的内在奖励，鼓励智能体探索”难以预测”的新状态：

graph LR
    A["状态 s_t"] --> B["ICM 网络<br/>(特征提取器 + 预测网络)"]
    C["动作 a_t"] --> B
    D["下一状态 s_t+1"] --> B
    B --> E["预测误差 = 内在奖励 r_i<br/>越难预测 → 越高奖励"]
    E --> F["总奖励 = r_ext + β·r_i"]

ICM 包含两个子网络：

正向模型（Forward Model）：给定 $(s_t, a_t)$ 预测 $\hat{s}_{t+1}$，预测误差作为内在奖励。
逆向模型（Inverse Model）：给定 $(s_t, s_{t+1})$ 预测动作 $\hat{a}_t$，用于训练特征提取器，过滤与智能体无关的噪声（如背景树叶飘动）。

10.3 课程学习（Curriculum Learning）

将任务从易到难递进式安排，让智能体逐步掌握复杂技能：

graph LR
    A["课程 1：板子已在柱子上<br/>只需向下压"] --> B["课程 2：板子略高<br/>需抬起再压"]
    B --> C["课程 3：板子任意位置<br/>完整穿插任务"]

逆向课程生成（Reverse Curriculum Generation） 是一种自动化方法：从目标状态出发，逐步采样”距离目标 $k$ 步”的初始状态，自动构建难度递增的课程。

10.4 HER：后见之明的奖励重标记

Hindsight Experience Replay（HER） 是处理稀疏奖励的经典技术：即使一次任务失败（如机械臂没有放到指定位置），也可以将”机械臂实际到达的位置”作为假想目标，从失败轨迹中学习。

关键洞察：失败的经验并非无用——用实际结果重新标记目标后，失败轨迹变成”成功经验”，有效缓解了奖励稀疏问题。

11. 2026 尖端：逻辑推理与残差学习 ⚡

11.1 RLVR：可验证奖励的强化学习

RLVR（Reinforcement Learning from Verifiable Rewards） 的核心思想：将可形式化验证的物理常识作为奖励信号，而非依赖稀疏的任务成功奖励。

什么是”可验证奖励”？

传统奖励：”完成抓取任务” → 稀疏，延迟
RLVR 奖励：”杯子当前是否垂直（角度误差 < 5°）” → 可即时验证，密集

graph TD
    A["智能体执行动作"] --> B{"物理约束验证"}
    B -->|角度偏差小于5度| C["+奖励：姿态正确"]
    B -->|物体未滑落| D["+奖励：抓握稳定"]
    B -->|末端力在阈值内| E["+奖励：力控安全"]
    C --> F["累积物理逻辑奖励"]
    D --> F
    E --> F
    F --> G["策略更新"]

RLVR 的本质是让机器人掌握物理推理能力：不只是记住”怎么做”，而是理解”为什么这么做”。这对于长程多步骤任务（如”拿出冰箱里的牛奶倒入杯子”）尤为关键。

11.2 Residual-VLA：大模型 + 残差微调

残差 VLA（Residual Vision-Language-Action） 架构针对的是”如何高效将通用 VLA 大模型适配到特定机器人”的问题。

问题背景：

VLA 大模型（如 RT-2、π0）拥有强大的常识和泛化能力，但动作精度不足。
全量微调代价高昂且可能破坏预训练知识。

残差架构设计：

graph LR
    subgraph "Residual-VLA 架构"
        A[视觉观测 + 语言指令] --> B["冻结的 VLA 大模型<br/>(提供粗粒度动作指令)"]
        A --> C["轻量级 RL 残差模块<br/>(提供精细动作修正)"]
        B --> D["基础动作 a_base"]
        C --> E["残差修正 Δa<br/>(毫米级精度)"]
        D --> F["最终动作 a = a_base + Δa"]
    end

VLA 大模型（冻结）：提供任务理解和粗粒度动作规划，类比”大脑皮层”。
RL 残差模块（可训练）：对大模型输出的动作进行实时精细修正，类比”小脑”。

核心优势：

仅训练小型残差网络（参数量 « VLA），极速适配新场景（数小时 vs 数天）。
保护预训练知识：冻结大模型避免灾难性遗忘。
通用性强：同一 VLA 骨干可搭配不同残差模块适配不同机器人平台。

12. 开发者指南：算法选择矩阵 🛠️

如果你正在开发具身智能项目，可按以下维度进行算法选型：

任务类型	推荐算法	核心理由	难度系数
四足/双足行走	PPO	稳定性最高，无惧电机限制；Isaac Lab 原生支持	⭐⭐
机械臂精细组装	SAC / TD3	异策略 + 样本高效；SAC 自动调参更友好	⭐⭐⭐
灵巧手抓取	SAC	熵正则化鼓励多样动作，应对多峰操作分布	⭐⭐⭐⭐
长程导航与操作	TD-MPC2	潜空间规划适合多步序列决策	⭐⭐⭐⭐
多任务/泛化操作	Diffusion Policy + ReinFlow	动作轨迹自然平滑，能处理多目标冲突	⭐⭐⭐⭐⭐
VLA 大模型微调	Residual-RL	保护预训练知识的同时快速适配特定场景	⭐⭐⭐⭐
稀疏奖励环境	SAC + ICM / HER	内在奖励 + 经验重用缓解奖励稀疏	⭐⭐⭐⭐⭐

选型决策树：

graph TD
    A{"动作空间类型?"} --> B["离散"]
    A --> C["连续"]
    B --> D["PPO / DQN"]
    C --> E{"训练预算?"}
    E -->|充足，样本效率优先| F{"是否需要世界模型?"}
    E -->|有限，稳定性优先| G["PPO"]
    F -->|是| H["DreamerV3 / TD-MPC2"]
    F -->|否| I{"任务特点?"}
    I -->|行走或跑步| J["PPO"]
    I -->|操作或抓取| K{"动作分布?"}
    K -->|单峰| L["SAC / TD3"]
    K -->|多峰| M["Diffusion Policy"]

13. 结语

强化学习在具身智能领域的演进，映射了整个 AI 发展的轨迹：

无模型时代（PPO/SAC/TD3）：解决了”如何稳定学习连续控制”的核心问题。
世界模型时代（DreamerV3/TD-MPC2）：解决了”如何在有限真实数据下高效学习”的问题。
生成式时代（Diffusion Policy）：解决了”如何表达复杂的多峰动作分布”的问题。
推理对齐时代（RLVR/Residual-VLA）：解决了”如何将通用大模型的推理能力融入物理决策”的问题。

每一代算法都在前人基础上攻克新的瓶颈，推动机器人从”会动”走向”会思考”，最终走向真正的物理世界自主智能体。

本文由 Tingde Liu 整理撰写，参考 EasyRL（Datawhale）等资料，聚焦 2026 年具身智能前沿技术演进。

📝 报告此页错误