围绕三维感知进一步明确 Ph.D. 研究方向

当我写第一版 Ph.D. 知识体系时,它故意覆盖得很宽。

我希望整理自己需要的基础:数学、机器学习、深度学习、计算机视觉、图形学、强化学习、自动驾驶和具身智能。

经过几个月阅读和研究之后,我的方向变得更聚焦。

现在的中心主题是:

面向自动与具身智能体的高效、可预测三维场景理解。


1. 我想研究什么

我的研究兴趣可以概括为几个相关主题:

  • 三维感知;
  • 语义占用预测;
  • 协同感知;
  • 通信高效多智能体系统;
  • token-based scene representation;
  • temporal memory;
  • occupancy world models。

这些主题不是孤立的。我把它们看作同一个问题的不同层面:

智能体如何在有限观测、有限通信和有限计算下建立有用的三维世界表示?

这个问题对自动驾驶、机器人和具身智能都很重要。


2. 为什么是三维场景理解

智能体在物理空间中行动。

因此,三维场景理解不是一个普通 perception benchmark,而是规划、控制、导航和交互的基础。

二维图像告诉智能体相机看到了什么。三维表示告诉智能体世界中东西在哪里。

重要三维表示包括:

  • 点云;
  • BEV features;
  • voxel grids;
  • semantic occupancy;
  • implicit fields;
  • object-centric representations;
  • tokenized scene memories。

其中语义占用尤其吸引我,因为它把几何和语义结合在一种 planning-friendly 的格式中。


3. 为什么是协同

没有单个智能体能观察全部世界。

协同允许智能体共享信息,从而减少 partial observability。

在自动驾驶中,这尤其有价值:

  • 车辆可以帮助彼此看到遮挡后方;
  • 路侧基础设施可以提供互补视角;
  • 多智能体可以提升复杂场景鲁棒性;
  • 共享感知可以支持更安全决策。

但协同不是免费的。通信带宽有限,位姿对齐不完美,消息可能延迟,传输信息可能冗余。

所以研究问题不只是 collaborative perception,而是 communication-efficient collaborative perception


4. 为什么是 Token

Token 提供了紧凑而灵活的表示。

Dense feature map 很难高效通信,而 token 可以被选择、排序、合并或存入记忆。

在多智能体三维感知中,token 可以表示:

  • BEV 空间区域;
  • 语义区域;
  • 不确定区域;
  • object-like entities;
  • temporal memory elements;
  • request-relevant information。

这使 token communication 成为 bandwidth-aware collaboration 的有希望方向。

关键是让通信 task-aware。智能体不应该只发送视觉上显著的 token,而应发送能改善 ego agent 最终 occupancy prediction 的 token。


5. 为什么是世界模型

当前感知不足以支持自动智能体。

智能体必须推理未来。

Occupancy world models 将语义占用预测从当前三维重建扩展到未来 4D 场景预测。

这连接了:

  • 感知;
  • 运动预测;
  • 时间推理;
  • 不确定性;
  • 规划;
  • 具身智能。

对我而言,占用世界模型是协同占用预测之后的自然下一步。如果多个智能体可以协同理解当前场景,它们也可能协同预测场景如何演化。


6. 一条更清晰的研究线索

我现在可以把自己的研究方向描述为一条序列:

  1. 构建强三维场景表示;
  2. 用语义占用作为结构化输出;
  3. 引入协同来突破单智能体限制;
  4. 用 token communication 降低带宽成本;
  5. 加入 temporal memory 稳定场景理解;
  6. 将当前占用扩展为未来占用世界模型。

这条线索帮助我更清楚地向潜在导师解释自己的研究,也帮助我判断新想法是否属于自己的方向。


7. 我还需要加强什么

为了支撑这个方向,我还需要继续加强:

7.1 几何

多视几何、坐标变换、位姿对齐和三维投影是协同感知基础。

7.2 优化

多模块感知系统需要稳定训练和合理 loss 设计。

7.3 表示学习

Token communication 依赖紧凑而有意义的表示。

7.4 不确定性

占用预测和未来预测都需要 uncertainty-aware reasoning。

7.5 系统思维

通信、延迟、记忆和计算都会影响真实感知系统。

研究想法不能只看 accuracy,也要看 practicality。


8. 申请定位

对于 Ph.D. 申请,我希望网站和 research statement 传达清晰身份:

我关注面向自动和具身智能体的高效三维感知与世界建模,尤其关注多智能体通信约束下的场景理解。

这个定位能把我当前项目和未来目标连接起来,也能让潜在导师快速理解我想研究什么。

我不希望自己的 profile 看起来像一组无关主题,而希望它呈现一条连续的研究轨迹。


9. 总结

知识体系的目的不只是收集笔记,而是帮助我思考。

三月的宽路线图让我看清全局,最近这些笔记帮助我逐渐收束方向。

目前这条线越来越清晰:

三维感知 → 语义占用 → 协同通信 → 时间记忆 → 占用世界模型。

这会是我接下来继续推进的研究主线。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • From Occupancy Prediction to Occupancy World Models
  • 从占用预测到占用世界模型