面向协同占用预测的通信高效 token 合并

基于 BEV token、时空记忆、接收端请求和内容感知 token 合并的协同语义占用预测方法。

项目概述

本项目研究面向 connected autonomous vehicles 的 通信高效协同语义占用预测。语义占用预测希望重建周围环境的密集三维体素语义结构,而协同感知允许 ego vehicle 利用邻近智能体的互补观测,从而缓解遮挡、视野受限和局部感知不确定性。

核心挑战是:协同占用预测通常需要交换高维场景表示,通信开销很大。本项目通过紧凑的 BEV tokens 表示场景,并学习如何在有限带宽下选择、请求、合并、传输和融合 task-relevant tokens。

在该工作中,通信不是被动 broadcast,而是一个主动的 receiver-conditioned 过程。ego 车辆识别不确定或时间支持不足的区域,邻近智能体根据 ego request 对自身 tokens 进行评分,并在发送前合并冗余 tokens。

该工作已投稿 NeurIPS 2026

框架图

该框架使用 BEV tokens 作为局部感知、时间记忆、智能体通信和协同融合的统一载体。多视角图像首先被 lift 成 3D tokens,再投影为 BEV tokens。时空记忆聚合历史 BEV tokens,ego 车辆生成 receiver-side requests,邻近智能体计算 communication attention scores,并使用 content-aware token merging 在传输前压缩冗余信息。


项目动机

单车感知受遮挡和视野范围限制。协同感知可以利用邻近智能体的观测补全缺失区域,但 dense feature sharing 昂贵且冗余。

本项目关注:

  • 如何让智能体通信紧凑的三维场景表示,而不是 dense feature maps?
  • ego agent 如何只请求对自身任务有用的信息?
  • sender 端如何压缩冗余 tokens,同时保留有用占用证据?
  • 如何提升协同语义占用预测中的准确率-通信开销权衡?

这与真实部署密切相关。车联网协同系统不能假设无限带宽,多智能体感知系统必须判断哪些信息值得传输。因此,一个实用的协同感知模型应该同时具备准确性、带宽感知能力和对局部观测缺失的鲁棒性。


问题形式化

给定 ego agent (i) 和邻近智能体集合 (\mathcal{N}_i),目标是预测 ego 视角下的语义占用体:

[ \hat{O}i = f\theta(X_i, {M_{j \rightarrow i}}_{j \in \mathcal{N}_i}) ]

其中:

  • (X_i) 是 ego observation;
  • (M_{j \rightarrow i}) 是邻居 (j) 发送给 ego (i) 的 message;
  • (\hat{O}_i) 是预测的 semantic occupancy grid。

通信预算约束为:

[ \sum_{j \in \mathcal{N}i} \mathrm{Cost}(M{j \rightarrow i}) \leq B ]

项目目标是在该通信预算下最大化占用预测质量。实际实现中,这意味着传输紧凑 token set,而不是 dense intermediate feature maps。


主要贡献

项目提出了一个 token-based collaborative occupancy framework,包含四个关键组件:

  1. Tokenized 3D/BEV scene representation:用于紧凑 occupancy-oriented communication。
  2. Spatio-temporal memory:复用历史场景信息,降低单帧不确定性。
  3. Receiver-driven handshake communication:从 ego 不确定或弱支持区域出发请求信息。
  4. Content-aware token merging:压缩冗余 sender tokens,同时保留 request-relevant evidence。

核心方法

  • 使用 BEV tokens 作为局部感知、时空记忆、智能体通信和协同融合的统一载体。
  • 通过时空记忆聚合历史 BEV 表示,提高当前帧占用预测的稳定性。
  • 由 ego 端根据不可靠区域生成通信请求,使邻近智能体发送更相关的信息。
  • 在 sender 端进行内容感知 token 合并,保留高价值 tokens,同时压缩冗余 tokens。

Tokenized 3D Scene Representation

每个智能体从多视角图像中提取特征,通过 learnable queries lift 成稀疏 3D tokens,再通过 height-aware projection 投影到 BEV tokens。这些 BEV tokens 同时用于感知和通信。

相比 dense feature maps,BEV tokens 更灵活:可以被排序、选择、合并、存入记忆,或通过 attention 融合。因此 token 表示适合带宽受限的协同感知。

Spatio-Temporal Memory

每个智能体维护短期时空记忆。历史 BEV tokens 会根据运动对齐到当前帧,再通过 cross-attention 与当前 BEV tokens 融合,得到时间增强的场景表示。

该模块对当前帧被遮挡或观测不足的区域尤其有帮助。模型不只依赖当前图像,也可以复用历史证据。

Handshake-Based Communication

ego 车辆不是被动接收所有邻居的 dense messages,而是从自身不可靠和时间支持不足区域生成 request queries。邻近智能体再计算 receiver-conditioned communication attention scores,识别哪些 tokens 对 ego 最有帮助。

这种 handshake 机制将通信模式从:

sender broadcasts what it has

改为:

receiver requests what it needs

这很重要,因为 ego 车辆最清楚自己的 occupancy prediction 中哪些区域不确定。

Content-Aware Token Merging

sender 端保留高重要性、与 request 相关的 tokens,并将低优先级冗余 tokens 合并为紧凑代表。合并过程结合 feature similarity 和 spatial proximity,并使用 attention-weighted averaging。

这个过程可以理解为将大 token set (\mathcal{T}) 压缩为更小的 message set (\mathcal{M}):

[ \mathcal{T} \rightarrow \mathcal{M}, \quad |\mathcal{M}| \ll |\mathcal{T}| ]

目标是保留能改善占用预测的 tokens,同时合并相似或冗余的信息。


系统流程

整体 pipeline 为:

多视角图像 -> 3D token lifting -> BEV token projection -> spatio-temporal memory -> receiver-driven request generation -> sender-side token scoring -> content-aware token merging -> collaborative fusion -> 3D occupancy decoding

在该设计中,tokens 是场景编码、时间记忆、通信和融合的统一表示。


实验结果

项目在 Semantic-OPV2V 上进行实验。该 benchmark 基于 OPV2V,面向协同语义占用预测,包含同步多视角 RGB 图像和 connected vehicles 之间的协同感知。

主要设置:

Setting Value
Dataset Semantic-OPV2V
Occupancy grid 100 × 100 × 8
Spatial range 40 m × 40 m × 3.2 m
Cameras per agent 4 RGB views
BEV tokens 100 × 100
Learnable 3D queries 4320
STM length 3 frames
Max neighboring senders 6
Transmitted response dimension 128
Default transmitted tokens / sender 1000

相比 dense feature transmission,token communication 显著降低通信开销,并保持较强的占用预测性能。

Method mIoU ↑ Communication Cost ↓
CoHFF 34.16 4.69 MB
VOGS-CP 37.44 6.42 MB
Ours 42.85 1.48 MB

该方法在完整协同设置下达到 42.85% mIoU,同时每个 receiver 每帧只需要 1.48 MB feature payload。重要的是,它不是简单用精度换通信,而是在显著降低通信的同时提升了 mIoU,说明 task-aware token selection 和 merging 可以减少冗余通信并增强有用互补信息。


类别级占用结果

Metric / Class CoHFF VOGS-CP Ours
IoU ↑ 50.46 72.87 74.08
mIoU ↑ 34.16 37.44 42.85
Building 25.72 9.61 20.73
Fence 27.83 29.20 36.61
Terrain 48.30 74.51 79.83
Pole 42.74 12.19 25.47
Road 61.77 83.05 82.24
Sidewalk 39.62 78.22 72.45
Vegetation 20.59 20.43 26.18
Vehicles 63.28 60.49 69.73
Wall 58.27 36.45 51.10
Guard rail 1.94 32.50 27.32
Traffic signs 16.33 8.26 18.03
Bridge 3.53 4.35 4.51

提升主要出现在受互补视角影响较大的类别,例如 fence、terrain、vegetation、vehicles、traffic signs 和 bridge。


消融实验

表示能力和时间建模

增加 3D query density 可以提升空间表示能力,而 spatio-temporal memory 通过聚合历史观测提升鲁棒性。

3D Query Density #Queries STM Frames mIoU ↑
1440 3 36.62
2880 3 38.06
4320 3 42.85
4320 0 39.72
4320 1 41.47
4320 2 42.63
4320 3 42.85

通信压缩

Content-aware token merging 在保持强感知性能的同时降低通信成本。

Setting #Tokens / Sender Communication Cost ↓ mIoU ↑
Dense communication 10000 14.82 MB 42.38
Request-guided, no merge 10000 14.82 MB 42.65
CTM, 50% tokens 5000 7.41 MB 43.47
CTM, 30% tokens 3000 4.44 MB 42.91
CTM, 10% tokens 1000 1.48 MB 42.85

10% token 设置将 feature payload 从 14.82 MB 降到 1.48 MB,同时保持有竞争力的 mIoU。50% token 设置取得最高 mIoU,说明适度 token merging 也可能移除冗余或噪声邻居信息。


实验分析

实验结果说明:

  • 并非所有协同特征都同样有用,很多传输特征对 receiver 来说是冗余的。
  • receiver-side uncertainty 是决定通信内容的重要信号。
  • 时间记忆和通信是互补的:memory 稳定本地感知,communication 补充其他视角的缺失区域。
  • token merging 不只是压缩,也可以在合并冗余邻居信息时起到一定 denoising 作用。

这些观察进一步推动了我对 communication-efficient multi-agent perception 和 token-based 3D scene representation 的研究兴趣。


可视化结果

语义占用预测可视化结果

可视化结果表明,协同感知相比 ego-only perception 能生成更完整的语义占用预测,尤其是在车辆和 ego 可靠视野之外的区域。恢复出的区域说明紧凑 token communication 可以在保持较小传输开销的同时补充本地感知。


研究意义

该工作展示了 token 化 BEV 表示在协同占用预测中的潜力,为通信受限的多智能体三维感知系统提供了一种高效设计思路。


关键收获

  • Tokenized BEV representations 可以作为协同占用预测的紧凑通信载体。
  • Spatio-temporal memory 通过聚合历史 BEV tokens 改善场景表示。
  • Receiver-driven communication 让智能体交换 task-relevant information,而不是 broadcast dense features。
  • Content-aware token merging 可以压缩 sender 端冗余 tokens,同时保留高重要性信息。
  • 该框架在 Semantic-OPV2V 上取得了较好的 accuracy-communication trade-off。
  • 该项目进一步强化了我在协同三维感知、高效 token 通信和 occupancy-based scene understanding 方向上的研究定位。

状态

已投稿 NeurIPS 2026。更多细节将在 review 过程之后公开。