当我写第一版 Ph.D. 知识体系时，它故意覆盖得很宽。

我希望整理自己需要的基础：数学、机器学习、深度学习、计算机视觉、图形学、强化学习、自动驾驶和具身智能。

经过几个月阅读和研究之后，我的方向变得更聚焦。

现在的中心主题是：

面向自动与具身智能体的高效、可预测三维场景理解。

1. 我想研究什么

我的研究兴趣可以概括为几个相关主题：

三维感知；
语义占用预测；
协同感知；
通信高效多智能体系统；
token-based scene representation；
temporal memory；
occupancy world models。

这些主题不是孤立的。我把它们看作同一个问题的不同层面：

智能体如何在有限观测、有限通信和有限计算下建立有用的三维世界表示？

这个问题对自动驾驶、机器人和具身智能都很重要。

2. 为什么是三维场景理解

智能体在物理空间中行动。

因此，三维场景理解不是一个普通 perception benchmark，而是规划、控制、导航和交互的基础。

二维图像告诉智能体相机看到了什么。三维表示告诉智能体世界中东西在哪里。

重要三维表示包括：

点云；
BEV features；
voxel grids；
semantic occupancy；
implicit fields；
object-centric representations；
tokenized scene memories。

其中语义占用尤其吸引我，因为它把几何和语义结合在一种 planning-friendly 的格式中。

3. 为什么是协同

没有单个智能体能观察全部世界。

协同允许智能体共享信息，从而减少 partial observability。

在自动驾驶中，这尤其有价值：

车辆可以帮助彼此看到遮挡后方；
路侧基础设施可以提供互补视角；
多智能体可以提升复杂场景鲁棒性；
共享感知可以支持更安全决策。

但协同不是免费的。通信带宽有限，位姿对齐不完美，消息可能延迟，传输信息可能冗余。

所以研究问题不只是 collaborative perception，而是 communication-efficient collaborative perception。

4. 为什么是 Token

Token 提供了紧凑而灵活的表示。

Dense feature map 很难高效通信，而 token 可以被选择、排序、合并或存入记忆。

在多智能体三维感知中，token 可以表示：

BEV 空间区域；
语义区域；
不确定区域；
object-like entities；
temporal memory elements；
request-relevant information。

这使 token communication 成为 bandwidth-aware collaboration 的有希望方向。

关键是让通信 task-aware。智能体不应该只发送视觉上显著的 token，而应发送能改善 ego agent 最终 occupancy prediction 的 token。

5. 为什么是世界模型

当前感知不足以支持自动智能体。

智能体必须推理未来。

Occupancy world models 将语义占用预测从当前三维重建扩展到未来 4D 场景预测。

这连接了：

感知；
运动预测；
时间推理；
不确定性；
规划；
具身智能。

对我而言，占用世界模型是协同占用预测之后的自然下一步。如果多个智能体可以协同理解当前场景，它们也可能协同预测场景如何演化。

6. 一条更清晰的研究线索

我现在可以把自己的研究方向描述为一条序列：

构建强三维场景表示；
用语义占用作为结构化输出；
引入协同来突破单智能体限制；
用 token communication 降低带宽成本；
加入 temporal memory 稳定场景理解；
将当前占用扩展为未来占用世界模型。

这条线索帮助我更清楚地向潜在导师解释自己的研究，也帮助我判断新想法是否属于自己的方向。

7. 我还需要加强什么

为了支撑这个方向，我还需要继续加强：

7.1 几何

多视几何、坐标变换、位姿对齐和三维投影是协同感知基础。

7.2 优化

多模块感知系统需要稳定训练和合理 loss 设计。

7.3 表示学习

Token communication 依赖紧凑而有意义的表示。

7.4 不确定性

占用预测和未来预测都需要 uncertainty-aware reasoning。

7.5 系统思维

通信、延迟、记忆和计算都会影响真实感知系统。

研究想法不能只看 accuracy，也要看 practicality。

8. 申请定位

对于 Ph.D. 申请，我希望网站和 research statement 传达清晰身份：

我关注面向自动和具身智能体的高效三维感知与世界建模，尤其关注多智能体通信约束下的场景理解。

这个定位能把我当前项目和未来目标连接起来，也能让潜在导师快速理解我想研究什么。

我不希望自己的 profile 看起来像一组无关主题，而希望它呈现一条连续的研究轨迹。

9. 总结

知识体系的目的不只是收集笔记，而是帮助我思考。

三月的宽路线图让我看清全局，最近这些笔记帮助我逐渐收束方向。

目前这条线越来越清晰：

三维感知 → 语义占用 → 协同通信 → 时间记忆 → 占用世界模型。

这会是我接下来继续推进的研究主线。

围绕三维感知进一步明确 Ph.D. 研究方向