深度学习基础

深度学习是现代计算机视觉、自动驾驶感知和具身智能的核心工具。我的研究方向虽然聚焦三维感知、语义占用预测和协同感知,但这些问题背后都依赖深度模型的表示能力。

这篇笔记整理我需要长期掌握的深度学习基础。


1. 神经网络基础

最基本的神经网络可以看作多层函数复合:

\[f_\theta(x)=f_L(\cdots f_2(f_1(x))).\]

每一层通过线性变换和非线性激活提取表示。需要掌握的基础包括:

  • MLP;
  • 激活函数;
  • 反向传播;
  • 损失函数;
  • 参数初始化;
  • 梯度消失和梯度爆炸;
  • 正则化;
  • BatchNorm、LayerNorm、RMSNorm;
  • 残差连接。

深层网络的训练并不是简单堆层数。归一化、残差结构和优化策略共同决定了模型是否能稳定学习。


2. CNN 与视觉归纳偏置

CNN 曾经是计算机视觉的核心架构。即使 Transformer 变得主流,CNN 的归纳偏置仍然非常重要。

卷积具有几个特点:

  • 局部连接;
  • 参数共享;
  • 平移等变性;
  • 层级特征;
  • 高效计算。

这些特点非常适合图像和局部空间结构。对于 BEV 特征、体素特征和局部三维结构,卷积仍然是有效工具。

经典 CNN 架构包括 AlexNet、VGG、ResNet、DenseNet、MobileNet、EfficientNet 等。ResNet 尤其重要,因为残差连接让深层网络训练变得稳定。


3. Transformer

Transformer 通过注意力机制建模长距离依赖。注意力计算为:

\[\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V.\]

我需要理解:

  • query、key、value;
  • multi-head attention;
  • self-attention 和 cross-attention;
  • encoder 和 decoder;
  • 位置编码;
  • RoPE 和相对位置编码;
  • Vision Transformer;
  • window attention;
  • sparse attention;
  • efficient attention。

Transformer 对我的研究尤其重要,因为协同感知中的多智能体特征融合、token communication、时空记忆和占用世界模型都可以用 attention 进行建模。


4. 表示、token 与 memory

现代视觉模型越来越多地使用 token 化表示。图像可以分成 patch token,BEV 特征可以分成空间 token,三维场景也可以被压缩为一组 token。

Token 表示的优势在于:

  • 可以被选择;
  • 可以被合并;
  • 可以用于跨模态融合;
  • 可以作为通信单元;
  • 可以存入记忆模块;
  • 可以用 attention 灵活交互。

在协同感知中,token 的意义不仅是模型内部表示,还可能是智能体之间传输的信息单元。


5. 训练稳定性

深度学习研究中,训练稳定性常常决定方法是否可用。

我需要关注:

  • 学习率;
  • warmup;
  • weight decay;
  • gradient clipping;
  • loss balancing;
  • class imbalance;
  • mixed precision;
  • distributed training;
  • checkpoint 和 reproducibility。

语义占用预测是 dense prediction 问题,类别不平衡非常严重。free space、background 和常见类别可能占据大部分 voxel,而动态物体和稀有类别更难学习。

因此,loss 设计和训练策略很关键。


6. 深度学习与三维感知

三维感知系统通常包含多个模块:

  • 图像 backbone;
  • view transformation;
  • BEV encoder;
  • temporal fusion;
  • occupancy decoder;
  • multi-agent fusion;
  • post-processing 或 planning interface。

每个模块都依赖深度学习表示。模型不仅要识别图像语义,还要把多视角信息提升到三维空间,并在时间和多智能体之间融合。

这使得深度学习基础和几何基础必须结合起来学习。


7. 研究视角

对我来说,深度学习不是简单调用网络结构,而是理解模型如何表示世界。

我希望从以下角度思考深度模型:

  1. 模型学到的表示是什么?
  2. 这种表示是否适合三维空间?
  3. 它能否在时间上保持一致?
  4. 它是否适合通信压缩?
  5. 它能否表达不确定性?
  6. 它是否能支持未来预测?

这些问题会贯穿我后续关于语义占用、协同感知和世界模型的研究。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • LLM Learning: From Pretraining to Decoder Inference
  • LLM学习:从 Pretraining 到 Decoder 推理
  • Refining My PhD Research Direction Around 3D Perception
  • 围绕三维感知进一步明确 Ph.D. 研究方向
  • From Occupancy Prediction to Occupancy World Models