协同 4D 占用世界模型

项目概述

本项目探索如何利用 协同感知 支持自动驾驶和具身智能中的 occupancy-based world modeling。

与只重建当前三维场景不同，本项目关注动态环境中的占用状态如何随时间演化。系统希望将 多智能体观测、motion-aware token memory 和 未来占用预测 结合成统一的 4D 世界模型框架。

核心想法是：

协同感知不应该只帮助智能体看清当前世界，还应该帮助智能体预测三维世界将如何变化。

该工作目前是面向 CVPR 2027 准备中的 manuscript。

该框架将协同占用预测从当前帧三维重建扩展到面向未来的 4D occupancy world modeling。多视角观测首先被转换成 tokenized 3D/BEV representations，然后维护在 motion-aware token memory 中。协同融合模块整合邻近智能体的互补信息，world-modeling 模块进一步预测未来多个时间步的 occupancy states。

项目动机

大多数语义占用预测方法关注当前三维场景重建。但自动智能体需要的不只是静态场景理解，还需要推理周围物体、free space 和遮挡区域在未来短时间内如何变化。

这对规划和控制很重要。车辆不仅要知道行人现在在哪里，还要估计行人和周围车辆接下来可能移动到哪里。同样，当前可见的 free space 可能在未来被占据，遮挡区域中也可能存在动态物体。

协同感知为这个目标提供了自然基础。不同智能体从互补视角观察环境，可以帮助恢复遮挡区域或不确定区域，并为未来预测提供更丰富的时间证据。

本项目关注：

如何将协同三维占用预测扩展到 4D occupancy world modeling？
如何维护既包含场景结构又包含运动动态的紧凑 memory tokens？
多智能体观测如何改善遮挡和不确定区域的未来预测？
token-based representation 如何支持可扩展 4D 场景理解？
predictive occupancy representation 如何服务下游规划？

研究目标

项目目标是将协同三维占用预测进一步表述为 4D 占用世界建模。

给定多个智能体的历史和当前观测，系统不仅预测当前语义占用网格，也预测未来多个时间步的占用状态演化：

[ \hat{O}{t:t+K} = f\theta(X_{1:t}^{1:N}) ]

其中：

(X_{1:t}^{1:N}) 表示来自 (N) 个智能体的历史观测；
(\hat{O}_{t:t+K}) 表示当前和未来 occupancy states；
(K) 是预测时间跨度。

这个方向连接了四类问题：

感知：重建当前三维语义场景；
时间推理：建模场景如何随时间变化；
世界建模：预测未来 occupancy states；
规划支持：为自动决策提供预测性空间表示。

核心思想

将协同三维占用预测扩展为面向未来的 4D 占用建模。
使用运动感知 token 记忆表示历史场景结构和动态变化。
利用多智能体互补观测改善遮挡区域和不确定区域的未来预测。
探索 token 表示在长时序、可扩展三维世界建模中的作用。

1. 协同 4D 占用建模

项目将 collaborative occupancy prediction 从静态 3D 场景理解扩展到面向未来的 4D 场景建模。多智能体观测提供互补的空间和时间证据。

与把协同看成单帧 feature fusion 不同，该框架把协同视为改善当前和未来场景 belief 的方式。

2. Motion-Aware Token Memory

系统设计 motion-aware token memory，用紧凑 occupancy tokens 捕捉时间动态。相比存储 dense historical features，memory 维护结构化 token，用来表示场景内容和运动变化。

该 memory 预期支持：

ego-motion compensation；
historical token alignment；
dynamic-object motion cues；
temporal uncertainty tracking；
compact long-range scene context。

3. 未来占用预测

项目把 future occupancy forecasting 作为连接感知、时间推理和世界模型的桥梁。模型预测 occupied、free 和 semantic regions 如何在未来帧中演化。

对于未来时间步 (t+k)，模型预测结构化 occupancy field：

[ \hat{O}_{t+k} \in \mathbb{R}^{X \times Y \times Z \times C} ]

其中 (C) 表示语义占用类别。

4. Token-Based 4D Scene Representation

Token 表示被用于可扩展 4D 场景理解。Token 可以作为多智能体观测、时间记忆和未来预测的紧凑载体，适合长时序和通信感知的世界建模。

Token 表示也天然兼容选择性通信：智能体可以只共享预计能改善未来预测的 memory tokens 或 scene tokens。

5. 不确定性与遮挡推理

未来预测在不确定、遮挡或动态变化区域尤其重要。因此框架考虑 uncertainty-aware fusion and forecasting，使世界模型能集中处理协同和记忆最有价值的区域。

系统概念

计划中的系统流程为：

多智能体观测 -> tokenized 3D scene representation -> motion-aware token memory -> collaborative temporal fusion -> future occupancy forecasting -> 4D occupancy world model

该流程可以理解为三个阶段：

Encode：将多视角观测转换为紧凑 3D/BEV tokens。
Remember and collaborate：对齐历史 tokens，并融合邻近智能体的互补信息。
Forecast：在预测时间跨度内解码当前和未来 occupancy fields。

预期贡献

将协同三维占用预测表述为 4D occupancy world modeling。
设计 motion-aware token memory 捕捉紧凑 occupancy representation 中的时间动态。
利用多智能体观测改善遮挡、不确定和动态区域的未来预测。
将 future occupancy forecasting 作为连接感知、时间推理和世界模型的桥梁。
探索 token-based representation 在可扩展 4D 场景理解中的作用。
研究通信约束下 predictive occupancy modeling 的准确率和效率权衡。

评价计划

项目预计评估：

当前帧语义占用质量；
未来占用预测准确率；
遮挡和动态区域表现；
协同观测相比 ego-only prediction 的收益；
motion-aware token memory 的作用；
通信和记忆效率。

可能使用的指标包括 IoU、mIoU、future mIoU、动态物体占用质量，以及通信受限条件下的通信成本。

研究意义

该方向试图让感知系统从当前帧占用预测走向预测性三维场景理解。通过建模未来占用演化，系统可以为需要理解动态环境的自动智能体提供更丰富的表示。

长期目标是构建高效、可靠的感知系统，使其不仅理解当前场景，也能预测周围三维世界如何随时间变化。

该方向连接了我对 协同感知、语义占用预测、token memory 和 world models 的研究兴趣。