协同 4D 占用世界模型

结合多智能体观测、运动感知 token 记忆和未来场景预测的占用世界模型研究。

项目概述

本项目探索如何利用 协同感知 支持自动驾驶和具身智能中的 occupancy-based world modeling

与只重建当前三维场景不同,本项目关注动态环境中的占用状态如何随时间演化。系统希望将 多智能体观测motion-aware token memory未来占用预测 结合成统一的 4D 世界模型框架。

核心想法是:

协同感知不应该只帮助智能体看清当前世界,还应该帮助智能体预测三维世界将如何变化。

该工作目前是面向 CVPR 2027 准备中的 manuscript。

协同 4D 占用世界模型框架

该框架将协同占用预测从当前帧三维重建扩展到面向未来的 4D occupancy world modeling。多视角观测首先被转换成 tokenized 3D/BEV representations,然后维护在 motion-aware token memory 中。协同融合模块整合邻近智能体的互补信息,world-modeling 模块进一步预测未来多个时间步的 occupancy states。


项目动机

大多数语义占用预测方法关注当前三维场景重建。但自动智能体需要的不只是静态场景理解,还需要推理周围物体、free space 和遮挡区域在未来短时间内如何变化。

这对规划和控制很重要。车辆不仅要知道行人现在在哪里,还要估计行人和周围车辆接下来可能移动到哪里。同样,当前可见的 free space 可能在未来被占据,遮挡区域中也可能存在动态物体。

协同感知为这个目标提供了自然基础。不同智能体从互补视角观察环境,可以帮助恢复遮挡区域或不确定区域,并为未来预测提供更丰富的时间证据。

本项目关注:

  • 如何将协同三维占用预测扩展到 4D occupancy world modeling?
  • 如何维护既包含场景结构又包含运动动态的紧凑 memory tokens?
  • 多智能体观测如何改善遮挡和不确定区域的未来预测?
  • token-based representation 如何支持可扩展 4D 场景理解?
  • predictive occupancy representation 如何服务下游规划?

研究目标

项目目标是将协同三维占用预测进一步表述为 4D 占用世界建模

给定多个智能体的历史和当前观测,系统不仅预测当前语义占用网格,也预测未来多个时间步的占用状态演化:

[ \hat{O}{t:t+K} = f\theta(X_{1:t}^{1:N}) ]

其中:

  • (X_{1:t}^{1:N}) 表示来自 (N) 个智能体的历史观测;
  • (\hat{O}_{t:t+K}) 表示当前和未来 occupancy states;
  • (K) 是预测时间跨度。

这个方向连接了四类问题:

  • 感知:重建当前三维语义场景;
  • 时间推理:建模场景如何随时间变化;
  • 世界建模:预测未来 occupancy states;
  • 规划支持:为自动决策提供预测性空间表示。

核心思想

  • 将协同三维占用预测扩展为面向未来的 4D 占用建模。
  • 使用运动感知 token 记忆表示历史场景结构和动态变化。
  • 利用多智能体互补观测改善遮挡区域和不确定区域的未来预测。
  • 探索 token 表示在长时序、可扩展三维世界建模中的作用。

1. 协同 4D 占用建模

项目将 collaborative occupancy prediction 从静态 3D 场景理解扩展到面向未来的 4D 场景建模。多智能体观测提供互补的空间和时间证据。

与把协同看成单帧 feature fusion 不同,该框架把协同视为改善当前和未来场景 belief 的方式。

2. Motion-Aware Token Memory

系统设计 motion-aware token memory,用紧凑 occupancy tokens 捕捉时间动态。相比存储 dense historical features,memory 维护结构化 token,用来表示场景内容和运动变化。

该 memory 预期支持:

  • ego-motion compensation;
  • historical token alignment;
  • dynamic-object motion cues;
  • temporal uncertainty tracking;
  • compact long-range scene context。

3. 未来占用预测

项目把 future occupancy forecasting 作为连接感知、时间推理和世界模型的桥梁。模型预测 occupied、free 和 semantic regions 如何在未来帧中演化。

对于未来时间步 (t+k),模型预测结构化 occupancy field:

[ \hat{O}_{t+k} \in \mathbb{R}^{X \times Y \times Z \times C} ]

其中 (C) 表示语义占用类别。

4. Token-Based 4D Scene Representation

Token 表示被用于可扩展 4D 场景理解。Token 可以作为多智能体观测、时间记忆和未来预测的紧凑载体,适合长时序和通信感知的世界建模。

Token 表示也天然兼容选择性通信:智能体可以只共享预计能改善未来预测的 memory tokens 或 scene tokens。

5. 不确定性与遮挡推理

未来预测在不确定、遮挡或动态变化区域尤其重要。因此框架考虑 uncertainty-aware fusion and forecasting,使世界模型能集中处理协同和记忆最有价值的区域。


系统概念

计划中的系统流程为:

多智能体观测 -> tokenized 3D scene representation -> motion-aware token memory -> collaborative temporal fusion -> future occupancy forecasting -> 4D occupancy world model

该流程可以理解为三个阶段:

  1. Encode:将多视角观测转换为紧凑 3D/BEV tokens。
  2. Remember and collaborate:对齐历史 tokens,并融合邻近智能体的互补信息。
  3. Forecast:在预测时间跨度内解码当前和未来 occupancy fields。

预期贡献

  • 将协同三维占用预测表述为 4D occupancy world modeling。
  • 设计 motion-aware token memory 捕捉紧凑 occupancy representation 中的时间动态。
  • 利用多智能体观测改善遮挡、不确定和动态区域的未来预测。
  • 将 future occupancy forecasting 作为连接感知、时间推理和世界模型的桥梁。
  • 探索 token-based representation 在可扩展 4D 场景理解中的作用。
  • 研究通信约束下 predictive occupancy modeling 的准确率和效率权衡。

评价计划

项目预计评估:

  • 当前帧语义占用质量;
  • 未来占用预测准确率;
  • 遮挡和动态区域表现;
  • 协同观测相比 ego-only prediction 的收益;
  • motion-aware token memory 的作用;
  • 通信和记忆效率。

可能使用的指标包括 IoU、mIoU、future mIoU、动态物体占用质量,以及通信受限条件下的通信成本。


研究意义

该方向试图让感知系统从当前帧占用预测走向预测性三维场景理解。通过建模未来占用演化,系统可以为需要理解动态环境的自动智能体提供更丰富的表示。

长期目标是构建高效、可靠的感知系统,使其不仅理解当前场景,也能预测周围三维世界如何随时间变化。

该方向连接了我对 协同感知语义占用预测token memoryworld models 的研究兴趣。

状态

手稿准备中,计划面向 CVPR 2027