简介
《深度学习》一书分为三个部分:第一部分介绍了深度学习所需的数学基础,第二部分讲解了深度网络及现代实践,第三部分讨论深层概率模型。前两部分奠定了理解深度概率模型的基础,因此在展开总结第三部分内容之前,我们先简要回顾前两部分的要点。
-
第一部分:数学基础。 这一部分涵盖了深度学习所需的线性代数、概率论、信息论和数值计算等知识。书中详细介绍了标量、向量、矩阵和张量等基本概念,矩阵运算规则,常用概率分布及其性质,以及梯度计算和优化基础等内容。这些数学工具为理解后续章节中的模型训练算法(如梯度下降法、反向传播)提供了支撑。例如,线性代数中的矩阵乘法和求导是深度神经网络计算和优化的基础;概率论知识则帮助我们理解模型的不确定性、概率分布及其条件独立性等概念,为深度概率模型埋下伏笔。
-
第二部分:深度网络与现代实践。 这一部分系统介绍了当今主流的深度学习模型和训练技巧。包括:
- 深度前馈网络(多层感知机):介绍了构建多层神经网络以逼近复杂函数的原理,使用非线性激活函数和隐藏层来提取特征。
- 正则化:讨论了对抗过拟合的方法,如L₁/L₂正则、Dropout等。
- 优化算法:深入讲解了随机梯度下降(SGD)及其各种改进(如动量、AdaGrad、RMSProp、Adam等),如何高效地训练深层网络。
- 卷积神经网络(CNN):阐述卷积层的结构与原理,在计算机视觉中的卓越表现。
- 序列建模(循环神经网络 RNN):介绍处理时间序列和自然语言的模型,包括RNN及其改进(LSTM、GRU)来捕捉长程依赖。
- 实践技巧:涵盖深度学习模型训练的实用方法论,如参数初始化、批归一化、超参数调优、模型集成以及在实际应用中提高性能的经验。
这一部分的核心是监督学习:模型从大量带标签的数据中学习映射关系,并在图像分类、语音识别、机器翻译等任务上取得了显著效果。然而,这些成果往往依赖于海量的标注数据。在许多实际场景中获取如此多的标签并不容易,这激发了对无监督学习和生成式模型的研究兴趣。第二部分为第三部分的生成建模方法打下基础——例如,理解前馈网络和反向传播对于后续变分自编码器(VAE)和生成对抗网络(GAN)的实现至关重要。
原创2025/7/31大约 157 分钟