语义占用:连接感知与规划的三维表示

在建立第一版 Ph.D. 知识体系之后,我发现一个概念反复出现在不同方向中:语义占用

它和计算机视觉相关,因为它预测三维结构和语义;它和机器人相关,因为它描述 free space 和 occupied space;它和自动驾驶相关,因为它能为规划提供空间接口;它也和世界模型相关,因为占用可以从当前状态预测扩展到未来状态预测。

这篇笔记整理我为什么认为语义占用是我研究方向中的核心表示。


1. 从目标中心到空间中心

传统自动驾驶感知常常以目标为中心:

  • 检测车辆和行人;
  • 估计三维框;
  • 跟踪目标轨迹;
  • 预测目标运动。

这种表示很有用,但它并不能描述完整场景。规划器还需要知道:

  • 哪些区域是 free space;
  • 哪些区域被占据;
  • 每个 occupied 区域属于什么语义类别;
  • 哪些区域被遮挡;
  • 哪些预测不确定。

语义占用把问题从“目标在哪里”转为:

三维空间中每个区域的语义状态是什么?

语义占用网格可以写作:

\[O \in \{0,1,\ldots,K\}^{X \times Y \times Z}.\]

每个 voxel 表示 free、unknown 或某个语义类别。它是 dense、structured 且与物理空间对齐的表示。


2. 为什么占用对智能体重要

自动智能体不只是识别物体,它还必须安全行动。

对于行动来说,一个核心问题是:

智能体能否安全通过这个区域?

Occupancy 直接回答这个问题。它告诉智能体哪里可通行,哪里存在障碍。

在自动驾驶中,这对很多情况尤其重要:

  • 被遮挡的行人;
  • 不规则障碍物;
  • 施工区域;
  • 道路碎片;
  • 非 box 形状物体;
  • 大车后方隐藏目标;
  • 远距离低置信区域。

目标检测把场景压缩为有限数量的框,而占用保留了更完整的空间结构。


3. 语义占用与三维场景理解

语义占用预测结合了多个困难问题:

  1. 三维重建:从相机、LiDAR 或多传感器推断空间结构;
  2. 语义理解:为 occupied 区域赋予类别;
  3. 遮挡推理:推断不可见区域;
  4. 多视角融合:融合不同相机或智能体的观测;
  5. 时间一致性:让预测在连续帧中稳定。

因此,语义占用不是一个简单 dense prediction 任务,而是几何、学习、表示和机器人问题的交汇点。

对我来说,它也提供了一个清晰的研究目标:在通信受限条件下进行三维场景理解。


4. 不确定性

实际占用系统不应只输出 occupied/free,还应该表达不确定性。

不确定性来自:

  • 遮挡;
  • 远距离弱观测;
  • 动态目标;
  • 单一视角不足;
  • 位姿误差;
  • 传感器噪声;
  • 通信延迟。

如果模型对这些区域过度自信,下游规划可能产生危险决策。

更有用的 occupancy representation 应当回答:

  • 最可能的语义状态是什么?
  • 预测有多不确定?
  • 哪些区域需要更多信息?
  • 哪些区域应该保守处理?

这自然连接到主动感知和协同感知。如果 ego agent 对某个区域不确定,它可以向拥有更好视角的邻近 agent 请求信息。


5. 作为规划接口

规划器并不需要感知模型内部的所有特征。它需要结构清晰、可解释、可用于决策的表示。

语义占用可以支持:

  • collision checking;
  • drivable area reasoning;
  • risk estimation;
  • trajectory evaluation;
  • interaction-aware planning;
  • future scene prediction。

占用表示也容易可视化和调试,这对安全关键系统非常重要。

因此,我把 occupancy 看作连接感知与规划的桥梁。


6. 与协同感知的联系

单智能体感知受视野和遮挡限制。协同感知希望通过多智能体共享信息弥补这个限制。

语义占用是协同感知的自然目标,因为不同智能体可以观察同一三维空间的不同部分。

例如:

  • 一个车辆可以看到 truck 后面的区域;
  • 另一个车辆可以从更好角度观察路口;
  • 路侧设备可以提供稳定全局视角;
  • 多智能体可以降低遮挡区域的不确定性。

挑战在于通信。dense 3D occupancy features 通常很大,带宽有限。

因此,我当前研究的核心问题是:

多智能体如何在有限带宽下通信最有用的三维场景信息?

Token 表示、token selection 和 token merging 是可能的解决路径。


7. 当前理解

语义占用不只是一个任务,而是一种世界表示。

它连接:

  • 三维视觉;
  • 多视几何;
  • 时间建模;
  • 自动驾驶;
  • 具身感知;
  • 协同智能;
  • 世界模型。

我希望在 Ph.D. 阶段研究的不是孤立 benchmark,而是能够让智能体感知、通信、记忆、预测和行动的三维场景表示。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models