强化学习与决策
强化学习研究智能体如何通过与环境交互学习决策。与监督学习不同,强化学习关注序贯决策:当前动作会影响未来状态和奖励。
虽然我的主要研究方向是三维感知、语义占用预测、协同感知和占用世界模型,但强化学习对我仍然重要,因为它帮助我理解感知如何服务于行动。
1. 序贯决策
强化学习中的基本循环是:
- 智能体观察状态 (s_t);
- 选择动作 (a_t);
- 环境转移到 (s_{t+1});
- 智能体获得奖励 (r_t)。
| 目标是学习策略 (\pi(a | s)),最大化长期回报: |
这和静态视觉任务不同。视觉分类只输出一个标签,而智能体的动作会改变之后看到的数据。
2. MDP
Markov Decision Process 是强化学习的核心形式化框架,包含:
- 状态 (S);
- 动作 (A);
-
转移概率 (P(s’ s,a)); - 奖励函数 (R(s,a));
- 折扣因子 (\gamma)。
Markov 假设认为当前状态包含决策所需的全部信息。
在真实自动驾驶和具身智能中,这个假设往往不完全成立,因为智能体只能获得部分观测。因此需要 memory、belief state 或 world model 来补充当前观测。
3. 价值函数与 Bellman 方程
价值函数衡量状态或状态-动作对的长期收益:
\[V^\pi(s)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s\right].\]动作价值函数为:
\[Q^\pi(s,a)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s,a_0=a\right].\]Bellman 方程把当前价值和未来价值联系起来,是动态规划和强化学习算法的基础。
4. 动态规划与无模型方法
如果环境模型已知,可以使用动态规划:
- policy evaluation;
- policy improvement;
- policy iteration;
- value iteration。
如果环境模型未知,可以通过经验学习:
- Monte Carlo;
- TD learning;
- SARSA;
- Q-learning;
- eligibility traces。
这些方法帮助我理解从交互数据中估计长期价值的基本思想。
5. 深度强化学习
深度强化学习使用神经网络表示价值函数或策略。
重要方法包括:
- DQN;
- policy gradient;
- actor-critic;
- A2C/A3C;
- PPO;
- SAC;
- DDPG/TD3。
深度 RL 面临训练不稳定、样本效率低、探索困难、奖励设计复杂和安全性问题。
这些问题也是它在真实自动驾驶部署中困难的原因。
6. 有模型强化学习与世界模型
有模型强化学习学习环境动态模型,然后用模型进行规划或想象 rollout。
世界模型可以写作:
\[z_{t+1}=f_\theta(z_t,a_t).\]对于自动驾驶感知,世界模型也可以不直接预测 reward,而是预测未来空间状态:
\[\hat{O}_{t+1:t+H}=f_\theta(O_{1:t}).\]这就是 occupancy world model 的思想:让模型预测未来的空间占用和语义状态,从而支持下游决策。
7. 多智能体强化学习
多智能体强化学习研究多个智能体之间的协作或竞争。
关键问题包括:
- centralized training decentralized execution;
- credit assignment;
- communication;
- coordination;
- opponent modeling;
- partial observability。
这些问题和协同感知有相通之处。多个车辆或机器人需要在有限通信下共享信息、协调行为并构建共同场景理解。
8. 与我的研究的关系
我目前不直接研究控制策略,但强化学习帮助我理解:
- 为什么感知输出要服务于决策;
- 为什么未来预测重要;
- 为什么 uncertainty 会影响行动;
- 为什么 world model 是感知和规划之间的桥梁;
- 为什么多智能体通信需要 task-aware。
因此,强化学习是我理解具身智能和自动驾驶系统的重要补充。
Enjoy Reading This Article?
Here are some more articles you might like to read next: