1. 矩阵论与线性代数

线性代数是深度学习和计算机视觉的共同语言。向量、矩阵、张量、线性变换和子空间构成了神经网络表示的基本结构。

在视觉任务中，图像特征、BEV 特征、点云特征和 token 表示都可以看作高维向量或矩阵。注意力机制中的 (Q)、(K)、(V) 也是矩阵运算：

\[\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V.\]

因此，我需要深入理解：

向量空间、基、维数和秩；
线性变换和坐标变换；
正交性、投影和最小二乘；
特征值、特征向量和谱分解；
SVD 与低秩近似；
正定矩阵和半正定矩阵；
矩阵范数与条件数；
块矩阵、Schur 补和矩阵不等式；
矩阵微积分。

这些内容和我的研究直接相关。token merging 可以从低秩近似和信息压缩角度理解；多智能体感知中的坐标对齐依赖 SE(3) 变换；优化稳定性又和 Hessian、谱性质、条件数有关。

2. 数值分析

数值分析研究算法在有限精度计算中的稳定性和误差。深度学习论文中很少直接强调数值分析，但实际训练和部署离不开它。

我需要关注：

浮点表示与舍入误差；
稳定性、收敛性和条件数；
线性方程组求解；
最小二乘问题；
Jacobi、Gauss-Seidel、共轭梯度等迭代法；
插值与近似；
数值微分和积分；
ODE 求解和基本仿真方法。

在深度学习系统中，数值问题会表现为 loss 震荡、梯度爆炸、梯度消失、混合精度不稳定、NaN、推理误差放大等现象。

对于自动驾驶和嵌入式感知系统，数值稳定性尤其重要，因为模型不仅要在 GPU 上训练，还可能部署到资源受限平台。

3. 概率统计

感知系统面对的是不确定世界。遮挡、传感器噪声、远距离目标、天气变化、动态物体和通信误差都会引入不确定性。

因此，我需要扎实理解概率统计：

随机变量、PMF、PDF、CDF；
期望、方差、协方差；
高斯分布、伯努利分布、类别分布、泊松分布；
多元高斯和协方差结构；
条件概率和贝叶斯公式；
MLE 与 MAP；
KL 散度、JS 散度、熵和交叉熵；
假设检验和置信区间；
Monte Carlo 估计；
不确定性估计与模型校准。

语义占用预测本质上是对空间状态的概率建模。每个 voxel 不一定只有一个确定标签，更现实的输出应当包含类别概率和置信度。对未来占用预测而言，不确定性更加重要，因为未来可能有多个合理分支。

4. 优化

神经网络训练是一个大规模非凸优化问题。即使模型结构很漂亮，如果优化不稳定，最终结果也很难可靠。

我需要理解：

梯度下降和反向传播；
SGD、Momentum、Nesterov；
Adam、AdamW 和自适应优化；
warmup、cosine decay、step decay；
weight decay、dropout、stochastic depth；
约束优化、Lagrange 方法和 KKT 条件；
Hessian、曲率和鞍点；
sharp minima 与 flat minima；
log-sum-exp 等数值稳定技巧。

在三维感知和协同感知中，优化问题更复杂。模型可能包含 view transformation、temporal memory、multi-agent fusion、token selection 和 occupancy decoder。不同模块的梯度尺度不同，loss 设计也会影响模型关注的空间区域。

5. 与三维视觉的联系

数学不是独立课程，而是研究问题背后的结构。

在三维视觉中：

相机投影依赖矩阵和齐次坐标；
多视几何依赖线性代数和优化；
深度估计涉及概率和不确定性；
occupancy prediction 需要 dense prediction loss；
BEV 特征对齐依赖坐标变换；
token communication 需要信息压缩和表示学习；
world models 需要时序建模和未来状态分布。

如果只从工程角度看模型，很容易停留在“调参”和“堆模块”。数学基础能帮助我判断一个方法为什么有效、什么时候会失败，以及如何提出更本质的问题。

6. 学习目标

我希望自己学习数学时能够做到：

能用清楚语言解释概念；
能推导核心公式；
能实现代表性算法；
能把数学工具连接到视觉模型；
能在论文阅读中识别数学假设。

数学基础是慢变量。它不会立刻变成一个实验结果，但会长期影响我提出问题和理解问题的能力。