围绕三维感知进一步明确 Ph.D. 研究方向
当我写第一版 Ph.D. 知识体系时,它故意覆盖得很宽。
我希望整理自己需要的基础:数学、机器学习、深度学习、计算机视觉、图形学、强化学习、自动驾驶和具身智能。
经过几个月阅读和研究之后,我的方向变得更聚焦。
现在的中心主题是:
面向自动与具身智能体的高效、可预测三维场景理解。
1. 我想研究什么
我的研究兴趣可以概括为几个相关主题:
- 三维感知;
- 语义占用预测;
- 协同感知;
- 通信高效多智能体系统;
- token-based scene representation;
- temporal memory;
- occupancy world models。
这些主题不是孤立的。我把它们看作同一个问题的不同层面:
智能体如何在有限观测、有限通信和有限计算下建立有用的三维世界表示?
这个问题对自动驾驶、机器人和具身智能都很重要。
2. 为什么是三维场景理解
智能体在物理空间中行动。
因此,三维场景理解不是一个普通 perception benchmark,而是规划、控制、导航和交互的基础。
二维图像告诉智能体相机看到了什么。三维表示告诉智能体世界中东西在哪里。
重要三维表示包括:
- 点云;
- BEV features;
- voxel grids;
- semantic occupancy;
- implicit fields;
- object-centric representations;
- tokenized scene memories。
其中语义占用尤其吸引我,因为它把几何和语义结合在一种 planning-friendly 的格式中。
3. 为什么是协同
没有单个智能体能观察全部世界。
协同允许智能体共享信息,从而减少 partial observability。
在自动驾驶中,这尤其有价值:
- 车辆可以帮助彼此看到遮挡后方;
- 路侧基础设施可以提供互补视角;
- 多智能体可以提升复杂场景鲁棒性;
- 共享感知可以支持更安全决策。
但协同不是免费的。通信带宽有限,位姿对齐不完美,消息可能延迟,传输信息可能冗余。
所以研究问题不只是 collaborative perception,而是 communication-efficient collaborative perception。
4. 为什么是 Token
Token 提供了紧凑而灵活的表示。
Dense feature map 很难高效通信,而 token 可以被选择、排序、合并或存入记忆。
在多智能体三维感知中,token 可以表示:
- BEV 空间区域;
- 语义区域;
- 不确定区域;
- object-like entities;
- temporal memory elements;
- request-relevant information。
这使 token communication 成为 bandwidth-aware collaboration 的有希望方向。
关键是让通信 task-aware。智能体不应该只发送视觉上显著的 token,而应发送能改善 ego agent 最终 occupancy prediction 的 token。
5. 为什么是世界模型
当前感知不足以支持自动智能体。
智能体必须推理未来。
Occupancy world models 将语义占用预测从当前三维重建扩展到未来 4D 场景预测。
这连接了:
- 感知;
- 运动预测;
- 时间推理;
- 不确定性;
- 规划;
- 具身智能。
对我而言,占用世界模型是协同占用预测之后的自然下一步。如果多个智能体可以协同理解当前场景,它们也可能协同预测场景如何演化。
6. 一条更清晰的研究线索
我现在可以把自己的研究方向描述为一条序列:
- 构建强三维场景表示;
- 用语义占用作为结构化输出;
- 引入协同来突破单智能体限制;
- 用 token communication 降低带宽成本;
- 加入 temporal memory 稳定场景理解;
- 将当前占用扩展为未来占用世界模型。
这条线索帮助我更清楚地向潜在导师解释自己的研究,也帮助我判断新想法是否属于自己的方向。
7. 我还需要加强什么
为了支撑这个方向,我还需要继续加强:
7.1 几何
多视几何、坐标变换、位姿对齐和三维投影是协同感知基础。
7.2 优化
多模块感知系统需要稳定训练和合理 loss 设计。
7.3 表示学习
Token communication 依赖紧凑而有意义的表示。
7.4 不确定性
占用预测和未来预测都需要 uncertainty-aware reasoning。
7.5 系统思维
通信、延迟、记忆和计算都会影响真实感知系统。
研究想法不能只看 accuracy,也要看 practicality。
8. 申请定位
对于 Ph.D. 申请,我希望网站和 research statement 传达清晰身份:
我关注面向自动和具身智能体的高效三维感知与世界建模,尤其关注多智能体通信约束下的场景理解。
这个定位能把我当前项目和未来目标连接起来,也能让潜在导师快速理解我想研究什么。
我不希望自己的 profile 看起来像一组无关主题,而希望它呈现一条连续的研究轨迹。
9. 总结
知识体系的目的不只是收集笔记,而是帮助我思考。
三月的宽路线图让我看清全局,最近这些笔记帮助我逐渐收束方向。
目前这条线越来越清晰:
三维感知 → 语义占用 → 协同通信 → 时间记忆 → 占用世界模型。
这会是我接下来继续推进的研究主线。
Enjoy Reading This Article?
Here are some more articles you might like to read next: