从占用预测到占用世界模型
语义占用预测描述当前三维世界状态。
但自动智能体需要的不只是当前状态。它们还需要预测接下来会发生什么。
这自然引出一个方向:
占用预测能否发展为占用世界模型?
1. 当前占用与未来占用
当前占用预测估计时间 (t) 的语义空间状态:
\[\hat{O}_t=f_\theta(x_{1:t}).\]未来占用预测估计未来多个时间步:
\[\hat{O}_{t+1:t+H}=f_\theta(x_{1:t}).\]两者差别很大。当前占用问的是“现在场景是什么”,未来占用问的是“场景将如何演化”。
对自动驾驶和具身智能来说,后者更接近决策需求。
2. 为什么世界模型重要
世界模型是智能体内部用于预测环境变化的模型。
在强化学习中,世界模型可以预测未来 latent state 和 reward。在自动驾驶感知中,世界模型可以预测未来空间状态。
Occupancy 是世界建模的合适格式,因为它直接表示物理空间。
占用世界模型可以支持:
- 未来碰撞风险估计;
- 轨迹规划;
- 不确定性感知决策;
- 场景演化模拟;
- 遮挡动态目标推理。
它让智能体拥有结构化“想象未来”的能力。
3. 4D Occupancy
如果 3D occupancy 描述空间,那么 4D occupancy 描述空间随时间变化:
\[O \in \{0,1,\ldots,K\}^{T \times X \times Y \times Z}.\]时间成为额外维度。
这种表示同时捕获:
- 物体在哪里;
- 物体如何移动;
- 空间何时变为 occupied;
- 未来哪些区域不确定。
对自动驾驶而言,4D occupancy 可以统一表示车辆、行人、骑行者、静态障碍、free space 和未来 unknown regions。
4. Motion-Aware Memory
未来占用预测需要记忆。
单帧观测很难可靠预测未来。模型需要理解运动、速度、加速度和交互。
Motion-aware memory 应该存储:
- 最近 occupancy 状态;
- BEV features;
- 目标运动线索;
- ego-motion;
- 时间不确定性;
- 智能体之间的交互。
Token memory 是一种可能设计。它不存储每一帧 dense feature map,而是存储重要区域和运动模式的紧凑 token。
这与 token-based collaborative perception 自然连接。
5. 协同世界模型
单智能体世界模型受自身观测限制。
协同世界模型可以利用多智能体信息构建更完整、更可预测的场景表示。
这对以下场景特别有用:
- 被遮挡动态物体;
- 路口;
- 远距离区域;
- 拥挤交通;
- ego 视野外区域。
如果另一个车辆看到了 ego 看不见的行人,协同世界模型可能更准确预测未来 occupancy。
但未来预测对通信质量更敏感。接收信息的小误差可能影响未来状态推断。
6. 未来预测的不确定性
未来天然不确定。
可能存在多个合理未来:
- 行人停下或继续走;
- 车辆直行或转弯;
- 遮挡物体出现或不出现;
- 交通参与者相互反应。
确定性预测可能不够。更有用的未来占用模型应表达不确定性。
可能方向包括:
- probabilistic occupancy;
- multi-modal prediction;
- uncertainty map;
- calibrated semantic occupancy;
- scenario-conditioned forecasting。
对规划而言,不确定性不是细节,而是决策问题本身的一部分。
7. 评价问题
评价 occupancy world model 很难。
除了 IoU 和 mIoU,还需要考虑:
- 预测时间 horizon;
- 时间一致性;
- 动态目标质量;
- 校准;
- 安全关键区域;
- 遮挡区域表现;
- 对规划是否有用。
平均 mIoU 高并不代表安全关键场景表现好。
8. 我的研究视角
我把占用世界模型看作感知和具身智能之间的桥梁。
它连接:
- 语义占用预测;
- 时间建模;
- 运动预测;
- 协同感知;
- 不确定性推理;
- 面向规划的表示学习。
长期问题是:
自动智能体如何构建紧凑、可通信、可预测的三维世界表示?
Enjoy Reading This Article?
Here are some more articles you might like to read next: