单智能体感知存在天然限制。

无论模型多强，一个车辆或机器人只能从自己的视角观察世界。它可能被其他物体遮挡，受传感器范围限制，也会受到天气、光照和视角几何的影响。

协同感知提出的问题很简单：

多个智能体能否共享信息，从而构建更完整的场景理解？

1. 单智能体感知的局限

自动驾驶车辆的传感器可能包括相机、LiDAR、radar、GPS、IMU 和地图。即使传感器很强，观测仍然是局部的。

常见失败场景包括：

被遮挡的行人；
大车后方隐藏车辆；
路口看不见的横向来车；
远距离障碍物漏检；
拥挤动态场景中的不稳定预测。

单智能体可以尝试从上下文推断隐藏区域，但从单一视角推断永远存在不确定性。

协同感知提供另一种可能：让真正观察到这些区域的智能体提供信息。

2. 智能体可以共享什么

协同感知可以在不同层级共享信息。

2.1 原始数据

共享图像或点云保留最多信息，但通信成本极高，也带来同步、隐私和带宽问题。

2.2 中间特征

共享神经网络特征是现代协同感知常用方式。特征比原始数据更紧凑，又比最终预测保留更多上下文。

2.3 最终预测

共享检测框、地图或占用结果通信开销较小，解释性更强，但可能丢失不确定性和中间表示。

2.4 Token

共享 token 是我特别关注的方向。一个 token 可以表示空间区域、物体、BEV patch、记忆单元或场景元素。

Token 是灵活的信息单位，可以选择、排序、合并或压缩，非常适合通信受限感知。

3. 核心挑战

协同感知不是简单“发送更多信息”。

主要挑战包括：

3.1 带宽

通信带宽有限，智能体不能传输无限特征图。模型必须决定发送什么、发送多少、何时发送、哪些区域值得发送。

这使感知问题变成资源分配问题。

3.2 位姿对齐

不同智能体在不同坐标系中观察世界。融合前必须变换到统一坐标系。位姿噪声会导致空间错位，尤其在远距离区域更明显。

3.3 时间同步

不同智能体的观测可能不是同一时刻。在动态交通场景中，即使小延迟也会影响融合。

3.4 消息质量

不是所有信息都有用。有些特征冗余、噪声大或与 ego agent 当前需求无关。

好的通信策略应该偏向高价值信息。

4. 协同占用预测

占用预测非常适合作为协同感知任务。

输出是空间化的，不同智能体可以贡献不同区域的观测。如果 ego agent 看不到障碍物后方，另一个 agent 可能提供直接证据。

协同可以帮助：

降低遮挡不确定性；
改善远距离预测；
稳定语义标签；
补全隐藏区域；
改善动态目标表示。

但 dense occupancy features 通信开销大，因此通信效率是核心问题。

关键问题是：

三维场景中的哪些部分应该被通信？

5. Ego-Centric Request

我认为 ego-centric communication 很重要。

与其让每个智能体广播固定消息，不如让 ego agent 根据自身需求主动请求信息。

Ego agent 可以识别：

不确定区域；
遮挡区域；
规划轨迹附近区域；
高风险交通区域；
邻近智能体视角更好的区域。

然后它向合适的邻居请求信息。

这种机制让通信从被动广播变成主动信息获取，更符合最终服务 ego agent 决策的目标。

6. Task-Aware Communication

通信应该是任务感知的。

对于占用预测，一条消息有用，是因为它能改善最终 occupancy output，尤其是重要区域的预测。

设计原则包括：

优先不确定或遮挡区域；
保留动态物体附近信息；
减少背景冗余 token；
根据场景复杂度调整通信量；
同时评估精度和通信成本。

目标不是单纯最小化通信，而是在有限通信下传递最有用的信息。

7. 我的研究方向

协同感知连接了我的知识体系中的多个部分：

多视几何用于对齐；
深度学习用于特征表示；
语义占用用于 dense 3D prediction；
Agent 和强化学习用于通信决策；
世界模型用于时间推理。

我希望研究准确、高效、时间一致、对位姿噪声和带宽变化鲁棒的协同感知系统。

协同感知：超越单智能体视野