在建立第一版 Ph.D. 知识体系之后，我发现一个概念反复出现在不同方向中：语义占用。

它和计算机视觉相关，因为它预测三维结构和语义；它和机器人相关，因为它描述 free space 和 occupied space；它和自动驾驶相关，因为它能为规划提供空间接口；它也和世界模型相关，因为占用可以从当前状态预测扩展到未来状态预测。

这篇笔记整理我为什么认为语义占用是我研究方向中的核心表示。

1. 从目标中心到空间中心

传统自动驾驶感知常常以目标为中心：

检测车辆和行人；
估计三维框；
跟踪目标轨迹；
预测目标运动。

这种表示很有用，但它并不能描述完整场景。规划器还需要知道：

哪些区域是 free space；
哪些区域被占据；
每个 occupied 区域属于什么语义类别；
哪些区域被遮挡；
哪些预测不确定。

语义占用把问题从“目标在哪里”转为：

三维空间中每个区域的语义状态是什么？

语义占用网格可以写作：

\[O \in \{0,1,\ldots,K\}^{X \times Y \times Z}.\]

每个 voxel 表示 free、unknown 或某个语义类别。它是 dense、structured 且与物理空间对齐的表示。

2. 为什么占用对智能体重要

自动智能体不只是识别物体，它还必须安全行动。

对于行动来说，一个核心问题是：

智能体能否安全通过这个区域？

Occupancy 直接回答这个问题。它告诉智能体哪里可通行，哪里存在障碍。

在自动驾驶中，这对很多情况尤其重要：

被遮挡的行人；
不规则障碍物；
施工区域；
道路碎片；
非 box 形状物体；
大车后方隐藏目标；
远距离低置信区域。

目标检测把场景压缩为有限数量的框，而占用保留了更完整的空间结构。

3. 语义占用与三维场景理解

语义占用预测结合了多个困难问题：

三维重建：从相机、LiDAR 或多传感器推断空间结构；
语义理解：为 occupied 区域赋予类别；
遮挡推理：推断不可见区域；
多视角融合：融合不同相机或智能体的观测；
时间一致性：让预测在连续帧中稳定。

因此，语义占用不是一个简单 dense prediction 任务，而是几何、学习、表示和机器人问题的交汇点。

对我来说，它也提供了一个清晰的研究目标：在通信受限条件下进行三维场景理解。

4. 不确定性

实际占用系统不应只输出 occupied/free，还应该表达不确定性。

不确定性来自：

遮挡；
远距离弱观测；
动态目标；
单一视角不足；
位姿误差；
传感器噪声；
通信延迟。

如果模型对这些区域过度自信，下游规划可能产生危险决策。

更有用的 occupancy representation 应当回答：

最可能的语义状态是什么？
预测有多不确定？
哪些区域需要更多信息？
哪些区域应该保守处理？

这自然连接到主动感知和协同感知。如果 ego agent 对某个区域不确定，它可以向拥有更好视角的邻近 agent 请求信息。

5. 作为规划接口

规划器并不需要感知模型内部的所有特征。它需要结构清晰、可解释、可用于决策的表示。

语义占用可以支持：

collision checking；
drivable area reasoning；
risk estimation；
trajectory evaluation；
interaction-aware planning；
future scene prediction。

占用表示也容易可视化和调试，这对安全关键系统非常重要。

因此，我把 occupancy 看作连接感知与规划的桥梁。

6. 与协同感知的联系

单智能体感知受视野和遮挡限制。协同感知希望通过多智能体共享信息弥补这个限制。

语义占用是协同感知的自然目标，因为不同智能体可以观察同一三维空间的不同部分。

例如：

一个车辆可以看到 truck 后面的区域；
另一个车辆可以从更好角度观察路口；
路侧设备可以提供稳定全局视角；
多智能体可以降低遮挡区域的不确定性。

挑战在于通信。dense 3D occupancy features 通常很大，带宽有限。

因此，我当前研究的核心问题是：

多智能体如何在有限带宽下通信最有用的三维场景信息？

Token 表示、token selection 和 token merging 是可能的解决路径。

7. 当前理解

语义占用不只是一个任务，而是一种世界表示。

它连接：

三维视觉；
多视几何；
时间建模；
自动驾驶；
具身感知；
协同智能；
世界模型。

我希望在 Ph.D. 阶段研究的不是孤立 benchmark，而是能够让智能体感知、通信、记忆、预测和行动的三维场景表示。

语义占用：连接感知与规划的三维表示