深度学习是现代计算机视觉、自动驾驶感知和具身智能的核心工具。我的研究方向虽然聚焦三维感知、语义占用预测和协同感知，但这些问题背后都依赖深度模型的表示能力。

这篇笔记整理我需要长期掌握的深度学习基础。

1. 神经网络基础

最基本的神经网络可以看作多层函数复合：

\[f_\theta(x)=f_L(\cdots f_2(f_1(x))).\]

每一层通过线性变换和非线性激活提取表示。需要掌握的基础包括：

深层网络的训练并不是简单堆层数。归一化、残差结构和优化策略共同决定了模型是否能稳定学习。

2. CNN 与视觉归纳偏置

CNN 曾经是计算机视觉的核心架构。即使 Transformer 变得主流，CNN 的归纳偏置仍然非常重要。

卷积具有几个特点：

这些特点非常适合图像和局部空间结构。对于 BEV 特征、体素特征和局部三维结构，卷积仍然是有效工具。

经典 CNN 架构包括 AlexNet、VGG、ResNet、DenseNet、MobileNet、EfficientNet 等。ResNet 尤其重要，因为残差连接让深层网络训练变得稳定。

Transformer 通过注意力机制建模长距离依赖。注意力计算为：

\[\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V.\]

我需要理解：

Transformer 对我的研究尤其重要，因为协同感知中的多智能体特征融合、token communication、时空记忆和占用世界模型都可以用 attention 进行建模。

现代视觉模型越来越多地使用 token 化表示。图像可以分成 patch token，BEV 特征可以分成空间 token，三维场景也可以被压缩为一组 token。

Token 表示的优势在于：

在协同感知中，token 的意义不仅是模型内部表示，还可能是智能体之间传输的信息单元。

深度学习研究中，训练稳定性常常决定方法是否可用。

我需要关注：

语义占用预测是 dense prediction 问题，类别不平衡非常严重。free space、background 和常见类别可能占据大部分 voxel，而动态物体和稀有类别更难学习。

因此，loss 设计和训练策略很关键。

三维感知系统通常包含多个模块：

每个模块都依赖深度学习表示。模型不仅要识别图像语义，还要把多视角信息提升到三维空间，并在时间和多智能体之间融合。

这使得深度学习基础和几何基础必须结合起来学习。

对我来说，深度学习不是简单调用网络结构，而是理解模型如何表示世界。

我希望从以下角度思考深度模型：

这些问题会贯穿我后续关于语义占用、协同感知和世界模型的研究。