语义占用:连接感知与规划的三维表示
在建立第一版 Ph.D. 知识体系之后,我发现一个概念反复出现在不同方向中:语义占用。
它和计算机视觉相关,因为它预测三维结构和语义;它和机器人相关,因为它描述 free space 和 occupied space;它和自动驾驶相关,因为它能为规划提供空间接口;它也和世界模型相关,因为占用可以从当前状态预测扩展到未来状态预测。
这篇笔记整理我为什么认为语义占用是我研究方向中的核心表示。
1. 从目标中心到空间中心
传统自动驾驶感知常常以目标为中心:
- 检测车辆和行人;
- 估计三维框;
- 跟踪目标轨迹;
- 预测目标运动。
这种表示很有用,但它并不能描述完整场景。规划器还需要知道:
- 哪些区域是 free space;
- 哪些区域被占据;
- 每个 occupied 区域属于什么语义类别;
- 哪些区域被遮挡;
- 哪些预测不确定。
语义占用把问题从“目标在哪里”转为:
三维空间中每个区域的语义状态是什么?
语义占用网格可以写作:
\[O \in \{0,1,\ldots,K\}^{X \times Y \times Z}.\]每个 voxel 表示 free、unknown 或某个语义类别。它是 dense、structured 且与物理空间对齐的表示。
2. 为什么占用对智能体重要
自动智能体不只是识别物体,它还必须安全行动。
对于行动来说,一个核心问题是:
智能体能否安全通过这个区域?
Occupancy 直接回答这个问题。它告诉智能体哪里可通行,哪里存在障碍。
在自动驾驶中,这对很多情况尤其重要:
- 被遮挡的行人;
- 不规则障碍物;
- 施工区域;
- 道路碎片;
- 非 box 形状物体;
- 大车后方隐藏目标;
- 远距离低置信区域。
目标检测把场景压缩为有限数量的框,而占用保留了更完整的空间结构。
3. 语义占用与三维场景理解
语义占用预测结合了多个困难问题:
- 三维重建:从相机、LiDAR 或多传感器推断空间结构;
- 语义理解:为 occupied 区域赋予类别;
- 遮挡推理:推断不可见区域;
- 多视角融合:融合不同相机或智能体的观测;
- 时间一致性:让预测在连续帧中稳定。
因此,语义占用不是一个简单 dense prediction 任务,而是几何、学习、表示和机器人问题的交汇点。
对我来说,它也提供了一个清晰的研究目标:在通信受限条件下进行三维场景理解。
4. 不确定性
实际占用系统不应只输出 occupied/free,还应该表达不确定性。
不确定性来自:
- 遮挡;
- 远距离弱观测;
- 动态目标;
- 单一视角不足;
- 位姿误差;
- 传感器噪声;
- 通信延迟。
如果模型对这些区域过度自信,下游规划可能产生危险决策。
更有用的 occupancy representation 应当回答:
- 最可能的语义状态是什么?
- 预测有多不确定?
- 哪些区域需要更多信息?
- 哪些区域应该保守处理?
这自然连接到主动感知和协同感知。如果 ego agent 对某个区域不确定,它可以向拥有更好视角的邻近 agent 请求信息。
5. 作为规划接口
规划器并不需要感知模型内部的所有特征。它需要结构清晰、可解释、可用于决策的表示。
语义占用可以支持:
- collision checking;
- drivable area reasoning;
- risk estimation;
- trajectory evaluation;
- interaction-aware planning;
- future scene prediction。
占用表示也容易可视化和调试,这对安全关键系统非常重要。
因此,我把 occupancy 看作连接感知与规划的桥梁。
6. 与协同感知的联系
单智能体感知受视野和遮挡限制。协同感知希望通过多智能体共享信息弥补这个限制。
语义占用是协同感知的自然目标,因为不同智能体可以观察同一三维空间的不同部分。
例如:
- 一个车辆可以看到 truck 后面的区域;
- 另一个车辆可以从更好角度观察路口;
- 路侧设备可以提供稳定全局视角;
- 多智能体可以降低遮挡区域的不确定性。
挑战在于通信。dense 3D occupancy features 通常很大,带宽有限。
因此,我当前研究的核心问题是:
多智能体如何在有限带宽下通信最有用的三维场景信息?
Token 表示、token selection 和 token merging 是可能的解决路径。
7. 当前理解
语义占用不只是一个任务,而是一种世界表示。
它连接:
- 三维视觉;
- 多视几何;
- 时间建模;
- 自动驾驶;
- 具身感知;
- 协同智能;
- 世界模型。
我希望在 Ph.D. 阶段研究的不是孤立 benchmark,而是能够让智能体感知、通信、记忆、预测和行动的三维场景表示。
Enjoy Reading This Article?
Here are some more articles you might like to read next: