强化学习研究智能体如何通过与环境交互学习决策。与监督学习不同，强化学习关注序贯决策：当前动作会影响未来状态和奖励。

虽然我的主要研究方向是三维感知、语义占用预测、协同感知和占用世界模型，但强化学习对我仍然重要，因为它帮助我理解感知如何服务于行动。

1. 序贯决策

强化学习中的基本循环是：

智能体观察状态 (s_t)；
选择动作 (a_t)；
环境转移到 (s_{t+1})；
智能体获得奖励 (r_t)。

目标是学习策略 (\pi(a

s))，最大化长期回报：

\[J(\pi)=\mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty}\gamma^t r_t\right].\]

这和静态视觉任务不同。视觉分类只输出一个标签，而智能体的动作会改变之后看到的数据。

2. MDP

Markov Decision Process 是强化学习的核心形式化框架，包含：

状态 (S)；
动作 (A)；
转移概率 (P(s’ s,a))；
奖励函数 (R(s,a))；
折扣因子 (\gamma)。

Markov 假设认为当前状态包含决策所需的全部信息。

在真实自动驾驶和具身智能中，这个假设往往不完全成立，因为智能体只能获得部分观测。因此需要 memory、belief state 或 world model 来补充当前观测。

3. 价值函数与 Bellman 方程

价值函数衡量状态或状态-动作对的长期收益：

\[V^\pi(s)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s\right].\]

动作价值函数为：

\[Q^\pi(s,a)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s,a_0=a\right].\]

Bellman 方程把当前价值和未来价值联系起来，是动态规划和强化学习算法的基础。

4. 动态规划与无模型方法

如果环境模型已知，可以使用动态规划：

policy evaluation；
policy improvement；
policy iteration；
value iteration。

如果环境模型未知，可以通过经验学习：

Monte Carlo；
TD learning；
SARSA；
Q-learning；
eligibility traces。

这些方法帮助我理解从交互数据中估计长期价值的基本思想。

5. 深度强化学习

深度强化学习使用神经网络表示价值函数或策略。

重要方法包括：

DQN；
policy gradient；
actor-critic；
A2C/A3C；
PPO；
SAC；
DDPG/TD3。

深度 RL 面临训练不稳定、样本效率低、探索困难、奖励设计复杂和安全性问题。

这些问题也是它在真实自动驾驶部署中困难的原因。

6. 有模型强化学习与世界模型

有模型强化学习学习环境动态模型，然后用模型进行规划或想象 rollout。

世界模型可以写作：

\[z_{t+1}=f_\theta(z_t,a_t).\]

对于自动驾驶感知，世界模型也可以不直接预测 reward，而是预测未来空间状态：

\[\hat{O}_{t+1:t+H}=f_\theta(O_{1:t}).\]

这就是 occupancy world model 的思想：让模型预测未来的空间占用和语义状态，从而支持下游决策。

7. 多智能体强化学习

多智能体强化学习研究多个智能体之间的协作或竞争。

关键问题包括：

centralized training decentralized execution；
credit assignment；
communication；
coordination；
opponent modeling；
partial observability。

这些问题和协同感知有相通之处。多个车辆或机器人需要在有限通信下共享信息、协调行为并构建共同场景理解。

8. 与我的研究的关系

我目前不直接研究控制策略，但强化学习帮助我理解：

为什么感知输出要服务于决策；
为什么未来预测重要；
为什么 uncertainty 会影响行动；
为什么 world model 是感知和规划之间的桥梁；
为什么多智能体通信需要 task-aware。

因此，强化学习是我理解具身智能和自动驾驶系统的重要补充。

强化学习与决策