数学基础

数学是我准备计算机视觉 Ph.D. 研究时最需要长期打磨的基础。很多深度学习模型看起来是工程系统,但它们背后仍然由线性代数、概率、优化和数值计算支撑。

对我而言,学习数学不是为了追求形式上的完整,而是为了更好地理解三维感知、Transformer、语义占用预测、协同感知和世界模型中的核心问题。


1. 矩阵论与线性代数

线性代数是深度学习和计算机视觉的共同语言。向量、矩阵、张量、线性变换和子空间构成了神经网络表示的基本结构。

在视觉任务中,图像特征、BEV 特征、点云特征和 token 表示都可以看作高维向量或矩阵。注意力机制中的 (Q)、(K)、(V) 也是矩阵运算:

\[\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V.\]

因此,我需要深入理解:

  • 向量空间、基、维数和秩;
  • 线性变换和坐标变换;
  • 正交性、投影和最小二乘;
  • 特征值、特征向量和谱分解;
  • SVD 与低秩近似;
  • 正定矩阵和半正定矩阵;
  • 矩阵范数与条件数;
  • 块矩阵、Schur 补和矩阵不等式;
  • 矩阵微积分。

这些内容和我的研究直接相关。token merging 可以从低秩近似和信息压缩角度理解;多智能体感知中的坐标对齐依赖 SE(3) 变换;优化稳定性又和 Hessian、谱性质、条件数有关。


2. 数值分析

数值分析研究算法在有限精度计算中的稳定性和误差。深度学习论文中很少直接强调数值分析,但实际训练和部署离不开它。

我需要关注:

  • 浮点表示与舍入误差;
  • 稳定性、收敛性和条件数;
  • 线性方程组求解;
  • 最小二乘问题;
  • Jacobi、Gauss-Seidel、共轭梯度等迭代法;
  • 插值与近似;
  • 数值微分和积分;
  • ODE 求解和基本仿真方法。

在深度学习系统中,数值问题会表现为 loss 震荡、梯度爆炸、梯度消失、混合精度不稳定、NaN、推理误差放大等现象。

对于自动驾驶和嵌入式感知系统,数值稳定性尤其重要,因为模型不仅要在 GPU 上训练,还可能部署到资源受限平台。


3. 概率统计

感知系统面对的是不确定世界。遮挡、传感器噪声、远距离目标、天气变化、动态物体和通信误差都会引入不确定性。

因此,我需要扎实理解概率统计:

  • 随机变量、PMF、PDF、CDF;
  • 期望、方差、协方差;
  • 高斯分布、伯努利分布、类别分布、泊松分布;
  • 多元高斯和协方差结构;
  • 条件概率和贝叶斯公式;
  • MLE 与 MAP;
  • KL 散度、JS 散度、熵和交叉熵;
  • 假设检验和置信区间;
  • Monte Carlo 估计;
  • 不确定性估计与模型校准。

语义占用预测本质上是对空间状态的概率建模。每个 voxel 不一定只有一个确定标签,更现实的输出应当包含类别概率和置信度。对未来占用预测而言,不确定性更加重要,因为未来可能有多个合理分支。


4. 优化

神经网络训练是一个大规模非凸优化问题。即使模型结构很漂亮,如果优化不稳定,最终结果也很难可靠。

我需要理解:

  • 梯度下降和反向传播;
  • SGD、Momentum、Nesterov;
  • Adam、AdamW 和自适应优化;
  • warmup、cosine decay、step decay;
  • weight decay、dropout、stochastic depth;
  • 约束优化、Lagrange 方法和 KKT 条件;
  • Hessian、曲率和鞍点;
  • sharp minima 与 flat minima;
  • log-sum-exp 等数值稳定技巧。

在三维感知和协同感知中,优化问题更复杂。模型可能包含 view transformation、temporal memory、multi-agent fusion、token selection 和 occupancy decoder。不同模块的梯度尺度不同,loss 设计也会影响模型关注的空间区域。


5. 与三维视觉的联系

数学不是独立课程,而是研究问题背后的结构。

在三维视觉中:

  • 相机投影依赖矩阵和齐次坐标;
  • 多视几何依赖线性代数和优化;
  • 深度估计涉及概率和不确定性;
  • occupancy prediction 需要 dense prediction loss;
  • BEV 特征对齐依赖坐标变换;
  • token communication 需要信息压缩和表示学习;
  • world models 需要时序建模和未来状态分布。

如果只从工程角度看模型,很容易停留在“调参”和“堆模块”。数学基础能帮助我判断一个方法为什么有效、什么时候会失败,以及如何提出更本质的问题。


6. 学习目标

我希望自己学习数学时能够做到:

  1. 能用清楚语言解释概念;
  2. 能推导核心公式;
  3. 能实现代表性算法;
  4. 能把数学工具连接到视觉模型;
  5. 能在论文阅读中识别数学假设。

数学基础是慢变量。它不会立刻变成一个实验结果,但会长期影响我提出问题和理解问题的能力。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models