面向多智能体三维感知的 Token 通信

Transformer 改变了我们理解表示的方式。

图像可以表示为 patch,语言可以表示为词或子词 token,BEV 特征图也可以转换为空间 token。对于协同三维感知,这带来一个重要问题:

智能体能否通信紧凑 token 集,而不是 dense feature map?


1. 为什么 token 有用

Dense feature map 通信成本很高。如果每个智能体每一帧都发送所有空间位置的特征,带宽开销会迅速变大。

Token 提供了更灵活的表示。一个 token 可以表示:

  • BEV grid cell;
  • 局部空间区域;
  • 语义物体;
  • 记忆单元;
  • 不确定区域;
  • 压缩场景元素。

因为 token 是离散单元,所以可以被选择、排序、合并、剪枝或按预算传输。

这使它非常适合通信受限感知。


2. Token 化 BEV 表示

自动驾驶中 BEV 表示常用,因为它与地面平面和规划任务对齐。

BEV 特征可以写作:

\[F \in \mathbb{R}^{H \times W \times C}.\]

将其展平后得到 token 集:

\[T=\{t_i\}_{i=1}^{N}, \quad t_i \in \mathbb{R}^{C}.\]

每个 token 对应一个空间区域。这样就可以使用 attention 进行融合:

\[\text{Attn}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V.\]

在协同感知中,ego agent 可以在空间对齐后 attend 到邻近 agent 的 token。


3. Token Selection

降低通信成本最直接的方法是 token selection。

给定 token 集,模型选择子集:

\[T' \subset T,\quad |T'|\leq B,\]

其中 (B) 是通信预算。

选择依据可以包括:

  • feature magnitude;
  • 语义重要性;
  • 不确定性;
  • attention score;
  • 空间位置;
  • ego request;
  • 对 occupancy 精度的预期贡献。

但 selection 的问题是未选择 token 会被丢弃。如果选择策略错误,重要信息可能完全丢失。


4. Token Merging

Token merging 通过合并相似或冗余 token 来减少数量。

与直接丢弃不同,merging 可以把低优先级 token 压缩为摘要:

\[\tilde{t}_j=\sum_{i\in \mathcal{G}_j}\alpha_i t_i.\]

许多 BEV 区域是冗余的,例如大面积空路面、静态背景和低不确定 free space。

同时,重要区域应该保留更高分辨率:

  • 遮挡区域;
  • 动态目标;
  • 路口;
  • ego 轨迹附近区域;
  • 被 ego request 指定的区域。

因此,token merging 应该是 content-aware 的。


5. Request-Aware Communication

在协同感知中,ego agent 不需要所有邻居的全部信息。它需要能改善自身场景理解的信息。

一种 request-aware 流程是:

  1. ego agent 先预测初始 occupancy;
  2. 识别不确定或重要区域;
  3. 向邻居发送请求;
  4. 邻居保护 request-relevant tokens;
  5. 其他 token 被压缩或合并;
  6. ego agent 融合收到的 token 并更新 occupancy。

这种设计让通信由 ego agent 的需求驱动,而不是 sender 单方面决定。


6. 通信预算

协同感知方法应在不同带宽预算下评估。

重要问题包括:

  • 带宽下降时精度如何变化?
  • 哪些区域从通信中收益最大?
  • 严重压缩下是否仍然稳定?
  • 通信策略能否适应场景复杂度?
  • 位姿噪声和延迟下是否鲁棒?

对占用预测而言,我不仅关注总体 mIoU,也关注动态物体和遮挡区域的质量。


7. 开放问题

我目前关心的问题包括:

  • 如何衡量 token importance?
  • token 应表示固定网格还是自适应区域?
  • merging 如何保留语义边界?
  • temporal memory 如何与通信结合?
  • 能否用 occupancy supervision 端到端学习通信?
  • 方法如何泛化到不同带宽?

这些问题会继续指导我的研究。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models