围绕三维感知撰写 Ph.D. Research Statement

Ph.D. research statement 不应该是一组关键词列表。

它应该回答更深的问题:

我想花几年时间研究什么问题?这个问题为什么重要?我已经做了什么?我接下来能贡献什么?

准备 2027 Fall Ph.D. 申请时,我正在尝试把自己的 statement 组织在一个中心方向周围:

面向自动与具身智能体的高效预测式三维场景理解。

这篇笔记是我对这个结构的整理。


1. 核心论点

Research statement 需要一个 thesis,而不只是兴趣列表。

我目前的核心论点是:

自动和具身智能体需要的三维感知系统,不仅要准确,还要通信高效、具备时间记忆,并且能够预测未来。

这句话连接了四件事:

  1. 三维感知:智能体在物理空间中行动,因此需要结构化空间理解。
  2. 通信效率:真实多智能体系统不能传输所有信息。
  3. 时间意识:感知应该利用历史,而不只是单帧输入。
  4. 未来预测:智能体需要推理未来场景演化,而不只是重建当前。

这个 thesis 可以避免 profile 显得分散,让网站、CV、项目和 Blog 都围绕同一个中心展开。


2. 为什么这个问题重要

研究动机应该比某个 benchmark 更宽。

自动驾驶和机器人都面对 partial observability:

  • 相机看不穿遮挡;
  • 单车无法观察所有区域;
  • 传感器有噪声和范围限制;
  • 通信存在带宽和延迟约束;
  • 规划依赖未来状态。

所以研究问题不只是:

能否在 occupancy benchmark 上提升 mIoU?

更大的问题是:

智能体如何在有限观测、有限通信、有限计算和有限时间下,建立有用的三维世界 belief?

这个表达让工作同时与计算机视觉、机器人和具身智能相关。


3. 当前工作能说明什么

Statement 应该用当前项目作为证据。

对我来说,这些证据可以组织成三个阶段。

3.1 语义占用作为结构化输出

语义占用预测吸引我,是因为它把几何和语义结合在一种下游系统更容易使用的形式中。

模型不只是检测目标或分割图像,而是预测体素化三维场景:

\[\hat{O} \in \mathbb{R}^{X \times Y \times Z \times C},\]

其中每个 voxel 存储 semantic occupancy logits。

这种输出更接近规划需求,因为它描述了 occupied space、free space 和语义类别。

3.2 带宽约束下的协同感知

单智能体感知受遮挡和视野限制。

协同感知允许邻近智能体共享互补信息,但通信成本很高。我的当前工作研究 token-based communication:

\[M_{j \rightarrow i} = \{z_k^j : k \in \mathcal{S}_{j \rightarrow i}\},\]

其中 (\mathcal{S}_{j \rightarrow i}) 是从智能体 (j) 发送到 ego agent (i) 的 token 子集。

这让系统可以思考哪些信息值得传输。

3.3 占用世界模型

当前帧 occupancy 很有用,但智能体还需要预测未来。

Occupancy world models 将感知从:

\[\hat{O}_t = f_\theta(X_{\leq t})\]

扩展到:

\[\hat{O}_{t:t+K} = f_\theta(X_{\leq t}),\]

其中模型预测未来 (K) 个时间步的 occupancy states。

这把感知与时间推理和规划连接起来。


4. 未来研究目标

Research statement 还要展示向前走的方向。

我目前把未来 Ph.D. 研究目标整理成三个可能 aim。

Aim 1: 高效三维场景表示

自主智能体如何紧凑表示三维场景,同时保留任务相关信息?

这包括:

  • tokenized 3D 和 BEV representations;
  • semantic occupancy 与 free-space modeling;
  • uncertainty-aware representation learning;
  • memory-efficient temporal scene representations。

Aim 2: 通信感知的多智能体感知

在带宽、延迟和可靠性约束下,智能体应该如何决定共享什么?

这包括:

  • receiver-driven information requests;
  • adaptive token selection;
  • perception communication 的 rate-distortion 视角;
  • 对位姿噪声、缺失智能体和延迟消息的鲁棒性。

Aim 3: 预测式占用世界模型

感知模型如何推理未来三维场景演化?

这包括:

  • motion-aware token memory;
  • future occupancy forecasting;
  • 对动态和遮挡区域的不确定性建模;
  • predictive perception 与 downstream planning 的联系。

这三个 aim 比较有野心,但它们属于一条连续轨迹。


5. 如何匹配导师

好的 statement 应该让 advisor fit 很容易看出来。

对于每位潜在导师或实验室,我希望明确:

  • 我的方向中哪一部分与他们的工作重合;
  • 我能贡献什么技术基础;
  • 我希望和他们一起探索什么新问题;
  • 为什么他们的实验室适合这个问题。

Statement 不应该像通用模板。

对计算机视觉实验室,我会强调三维表示学习和语义占用;对机器人实验室,我会强调具身感知、预测和规划;对自动驾驶实验室,我会强调协同感知和部署约束。

核心方向不变,但连接点会变化。


6. 什么让 Statement 可信

Research statement 的可信度来自“野心有证据支撑”。

在申请材料里,我希望展示:

  • 我有连续研究方向;
  • 我实现过完整系统;
  • 我理解文献和开放问题;
  • 我能连接数学、代码、实验和写作;
  • 我重视可复现性和真实约束;
  • 我对未来工作有具体计划。

这也是我维护网站研究笔记的原因。Blog 并不是申请材料之外的东西,它展示了我如何思考。


7. 一个可能的 Statement 结构

一个简洁结构可以是:

  1. 开头 thesis:面向自动与具身智能体的高效预测式三维场景理解。
  2. 研究动机:部分可观测、有限通信、时间不确定性、规划需求。
  3. 已有工作:语义占用、协同 token 通信、世界模型。
  4. 未来 aims:高效表示、通信感知感知、预测式占用世界模型。
  5. 导师匹配:为什么目标实验室适合这个问题。
  6. 结尾:我希望成为什么样的研究者。

这个结构很简单,但能让 statement 保持聚焦。


8. 总结

最重要的是 coherence。

我不希望申请材料看起来像一堆无关主题:computer vision、autonomous driving、LLM、robotics 和 systems。

我更希望它呈现一条轨迹:

资源受限系统 -> 三维感知 -> 协同占用预测 -> token 通信 -> 时间记忆 -> 占用世界模型。

这条轨迹仍在发展,但已经越来越清晰。

Research statement 的目的,就是让这条轨迹能被别人快速看懂。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Drafting a Ph.D. Research Statement Around 3D Perception
  • From Ideas to Reliable Research Systems
  • 从想法到可靠研究系统
  • How I Read Research Papers for Ph.D. Preparation
  • 我如何为 Ph.D. 准备阅读论文