协同感知:超越单智能体视野
单智能体感知存在天然限制。
无论模型多强,一个车辆或机器人只能从自己的视角观察世界。它可能被其他物体遮挡,受传感器范围限制,也会受到天气、光照和视角几何的影响。
协同感知提出的问题很简单:
多个智能体能否共享信息,从而构建更完整的场景理解?
1. 单智能体感知的局限
自动驾驶车辆的传感器可能包括相机、LiDAR、radar、GPS、IMU 和地图。即使传感器很强,观测仍然是局部的。
常见失败场景包括:
- 被遮挡的行人;
- 大车后方隐藏车辆;
- 路口看不见的横向来车;
- 远距离障碍物漏检;
- 拥挤动态场景中的不稳定预测。
单智能体可以尝试从上下文推断隐藏区域,但从单一视角推断永远存在不确定性。
协同感知提供另一种可能:让真正观察到这些区域的智能体提供信息。
2. 智能体可以共享什么
协同感知可以在不同层级共享信息。
2.1 原始数据
共享图像或点云保留最多信息,但通信成本极高,也带来同步、隐私和带宽问题。
2.2 中间特征
共享神经网络特征是现代协同感知常用方式。特征比原始数据更紧凑,又比最终预测保留更多上下文。
2.3 最终预测
共享检测框、地图或占用结果通信开销较小,解释性更强,但可能丢失不确定性和中间表示。
2.4 Token
共享 token 是我特别关注的方向。一个 token 可以表示空间区域、物体、BEV patch、记忆单元或场景元素。
Token 是灵活的信息单位,可以选择、排序、合并或压缩,非常适合通信受限感知。
3. 核心挑战
协同感知不是简单“发送更多信息”。
主要挑战包括:
3.1 带宽
通信带宽有限,智能体不能传输无限特征图。模型必须决定发送什么、发送多少、何时发送、哪些区域值得发送。
这使感知问题变成资源分配问题。
3.2 位姿对齐
不同智能体在不同坐标系中观察世界。融合前必须变换到统一坐标系。位姿噪声会导致空间错位,尤其在远距离区域更明显。
3.3 时间同步
不同智能体的观测可能不是同一时刻。在动态交通场景中,即使小延迟也会影响融合。
3.4 消息质量
不是所有信息都有用。有些特征冗余、噪声大或与 ego agent 当前需求无关。
好的通信策略应该偏向高价值信息。
4. 协同占用预测
占用预测非常适合作为协同感知任务。
输出是空间化的,不同智能体可以贡献不同区域的观测。如果 ego agent 看不到障碍物后方,另一个 agent 可能提供直接证据。
协同可以帮助:
- 降低遮挡不确定性;
- 改善远距离预测;
- 稳定语义标签;
- 补全隐藏区域;
- 改善动态目标表示。
但 dense occupancy features 通信开销大,因此通信效率是核心问题。
关键问题是:
三维场景中的哪些部分应该被通信?
5. Ego-Centric Request
我认为 ego-centric communication 很重要。
与其让每个智能体广播固定消息,不如让 ego agent 根据自身需求主动请求信息。
Ego agent 可以识别:
- 不确定区域;
- 遮挡区域;
- 规划轨迹附近区域;
- 高风险交通区域;
- 邻近智能体视角更好的区域。
然后它向合适的邻居请求信息。
这种机制让通信从被动广播变成主动信息获取,更符合最终服务 ego agent 决策的目标。
6. Task-Aware Communication
通信应该是任务感知的。
对于占用预测,一条消息有用,是因为它能改善最终 occupancy output,尤其是重要区域的预测。
设计原则包括:
- 优先不确定或遮挡区域;
- 保留动态物体附近信息;
- 减少背景冗余 token;
- 根据场景复杂度调整通信量;
- 同时评估精度和通信成本。
目标不是单纯最小化通信,而是在有限通信下传递最有用的信息。
7. 我的研究方向
协同感知连接了我的知识体系中的多个部分:
- 多视几何用于对齐;
- 深度学习用于特征表示;
- 语义占用用于 dense 3D prediction;
- Agent 和强化学习用于通信决策;
- 世界模型用于时间推理。
我希望研究准确、高效、时间一致、对位姿噪声和带宽变化鲁棒的协同感知系统。
Enjoy Reading This Article?
Here are some more articles you might like to read next: