为计算机视觉 Ph.D. 研究构建知识体系

在准备计算机视觉、自动驾驶和具身感知方向的 Ph.D. 申请时,我越来越清楚地意识到:真正有生命力的研究想法,必须建立在宽而系统的知识基础之上。

我目前关注的研究问题包括三维感知、语义占用预测、协同感知和占用世界模型。这些问题并不属于某一个孤立方向,而是连接了数学、机器学习、深度学习、计算机视觉、计算机图形学、机器人、强化学习、自动驾驶和 AI Agent。

这篇文章是我为 Ph.D. 研究准备建立的知识体系路线图。它不是一个固定课程表,而是一张长期使用的认知地图,帮助我把理论、算法、系统和研究问题连接起来。


1. 数学基础

数学是机器学习、视觉、图形学、机器人和自动驾驶共同的语言。我的目标不只是会用公式,而是理解数学工具如何解释模型行为、优化稳定性、几何推理和不确定性。

1.1 矩阵论与线性代数

矩阵论对于注意力机制、优化、几何变换和三维视觉非常重要。我需要系统复习向量空间、基、维数、秩、零空间、子空间、正交投影、最小二乘、特征值、特征向量、谱分解、SVD、正定矩阵、半正定矩阵、矩阵范数、条件数、块矩阵、Schur 补以及矩阵微积分。

这些概念会直接出现在我的研究中,例如 token merging 中的低秩结构、BEV 表示中的空间变换、多智能体特征对齐以及 Transformer 中的注意力计算。

1.2 数值分析

数值分析帮助我理解算法为什么稳定、为什么不稳定,以及为什么同一个理论方法在实际训练或部署中会表现不同。浮点误差、病态问题、收敛性、迭代法、数值优化、插值、近似、数值微分和积分,都会影响深度模型训练和嵌入式部署。

对于感知系统而言,数值分析也能解释梯度爆炸、优化震荡、混合精度训练误差和 GPU 部署中的精度问题。

1.3 概率统计

概率是感知、不确定性估计、传感器融合、占用预测和世界模型的基础。我需要掌握随机变量、分布、期望、方差、协方差、贝叶斯公式、最大似然估计、MAP、KL 散度、熵、交叉熵、假设检验、蒙特卡洛估计和校准等内容。

在语义占用预测中,模型并不只是输出一个确定标签。遮挡区域、远距离区域、动态目标和多智能体通信误差都需要不确定性建模。

1.4 优化

深度神经网络训练本质上是优化问题。我需要理解 SGD、Momentum、Adam、AdamW、学习率调度、warmup、cosine decay、正则化、约束优化、KKT 条件、Hessian、曲率、鞍点、sharp/flat minima 以及数值稳定技巧。

这些知识对构建稳定的三维感知、Transformer、占用预测和多智能体系统非常关键。


2. 机器学习基础

在进入高级视觉系统之前,我需要扎实掌握机器学习基础,包括监督学习、经验风险最小化、偏差-方差权衡、线性回归、逻辑回归、SVM、核方法、决策树、随机森林、Boosting、聚类、GMM、EM、概率图模型、贝叶斯学习、模型选择、正则化和交叉验证。

统计学习理论也很重要。泛化误差、VC 维、Rademacher 复杂度、分布偏移、域偏移、OOD 检测和鲁棒性,都是自动驾驶模型能否跨场景、天气、传感器和城市泛化的关键。

现代深度学习依赖表示学习。我需要理解不变性、等变性、对比学习、InfoNCE、自监督学习、MAE、DINO、信息瓶颈、CNN 和 Transformer 的归纳偏置,以及多模态表示学习。

这些内容都和我的 token 化三维场景表示、协同感知和通信高效表示学习直接相关。


3. 深度学习

深度学习是现代计算机视觉和自动驾驶感知的核心技术基础。

我需要系统复习 MLP、激活函数、CNN、归一化方法、残差连接、Dropout、随机深度以及分类、分割、检测和密集预测损失。

Transformer 是当前视觉、三维感知和多智能体感知的核心架构之一。我需要深入理解 scaled dot-product attention、多头注意力、位置编码、RoPE、encoder、decoder、cross-attention、ViT、patch embedding、高效注意力、稀疏注意力、token pruning、token selection 和 token merging。

这些概念和我的研究高度相关:BEV token、时空记忆、通信 token 合并以及协同占用预测都离不开 Transformer 的表示能力。


4. 计算机视觉

计算机视觉提供了感知系统的核心基础。我计划系统学习图像形成、相机模型、滤波、边缘、角点、特征描述子、单应性、图像配准、光流、目标识别、图像分割、跟踪和视频理解。

对于自动驾驶和三维感知,多视几何尤为重要。我需要掌握针孔相机模型、内参、外参、坐标变换、SE(3)、极线几何、基础矩阵、本质矩阵、三角化、bundle adjustment、PnP 和深度估计。

三维场景表示包括点云、体素、BEV、mesh、隐式场、occupancy field、SDF、Gaussian Splatting 和神经场景表示。这一部分连接了视觉、图形学和三维世界建模。


5. 图形学、强化学习与具身智能

计算机图形学对于三维几何、渲染、仿真和神经场景表示越来越重要。坐标变换、网格、光栅化、z-buffer、光线追踪、材质、纹理映射和可微渲染,都是理解三维视觉和仿真的基础。

强化学习虽然不是我的主要研究方向,但它帮助我理解智能体如何把感知连接到决策。MDP、动态规划、Monte Carlo、TD learning、Q-learning、policy gradient、actor-critic、model-based RL、offline RL 和 multi-agent RL,都是理解 embodied agent 的重要工具。

AI Agent 和具身智能则把感知、记忆、规划和行动统一起来。对我而言,重点是其中的感知和世界建模层:智能体如何建立空间记忆,如何预测未来状态,如何在不完整观测下做出可靠决策。


6. 自动驾驶感知与协同感知

我的主要研究方向位于自动驾驶感知和三维场景理解。

BEV 表示和传感器融合是基础。early fusion、middle fusion、late fusion、camera-only BEV、LiDAR-camera fusion、lift-splat、cross-attention lifting、temporal alignment 和 ego-motion compensation 都需要系统理解。

语义占用预测是我的核心兴趣之一。它不仅预测当前场景中的 occupied/free/semantic 状态,也可以扩展到 future occupancy forecasting 和 occupancy world models。

协同感知引入多智能体推理和通信约束。关键问题包括:什么信息值得通信?什么时候通信?和谁通信?如何对齐并融合接收到的信息?在带宽受限的情况下,token selection、token merging、量化、剪枝和 task-aware communication 都非常重要。


7. 总结

这套知识体系的目标不是收集孤立知识点,而是帮助我建立研究能力。

对每个主题,我希望自己能够做到:

  1. 清楚定义概念;
  2. 解释它为什么重要;
  3. 把它和我的研究问题连接起来;
  4. 实现代表性算法;
  5. 阅读并批判相关论文。

研究不是记住很多方法,而是能在不同领域之间建立联系。这套知识体系就是我从数学、机器学习、视觉、图形学、自动驾驶到具身智能之间建立连接的开始。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models