《深度学习》(美)Ian Goodfellow 花书简要笔记(第一部分:应用数学与机器学习基础)

说明:本篇Blog为自己刷《深度学习》时的简要笔记,仅记录对自己有启发或不熟悉的知识点,并非全面笔记。不过,对于任何一个学深度学习的人来说,这本书真的算是很好的一本入门书籍,公式推导都特别细致,很难得,必刷指数五颗星~

第一章 引言

1、人工智能的真正挑战在于解决那些对于人来说很容易执行、但很难形式化描述的任务;人工智能的一个关键性挑战在于如何将这些非形式化的知识传达给计算机。
2、对于很多任务来说,我们很难知道应该提取哪些特征。解决这个方法的途径之一是表示学习。
3、配套资源网站:http://www.deeplearningbook.org/lecture_slides.html

第二章 线性代数

#本部分主要为矩阵论的内容,没有修过矩阵论的童鞋可以找找相关的网络课程或者参考书籍(我们当时学的时候用的是程云鹏老师的《矩阵论》,感觉内容编排有点杂乱,但是习题非常不错)。
1、张量:坐标超过两维的数组。
2、广播:在DL中,我们允许矩阵和向量相加而产生另一个矩阵:C=A+b。(向量b和矩阵A的每一行相加)。这种隐式地复制向量b到很多位置的方式,称为广播。
3、Hadamard乘积(元素对应乘积)
《深度学习》(美)Ian Goodfellow 花书简要笔记(第一部分:应用数学与机器学习基础)_第1张图片4、范数是满足下列性质的任意函数:
(1)f(x) = 0,推出 x = 0;
(2)满足三角不等式;
(3)存在a属于R,f(ax) = |a|f(x).
5、Frobenius范数:衡量矩阵的大小。(F范数)《深度学习》(美)Ian Goodfellow 花书简要笔记(第一部分:应用数学与机器学习基础)_第2张图片

6、迹运算
7、行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或缩小了多少。如果行列式是0,那么空间至少沿着某一个维度完全收缩了,使其失去了所有的体积;如果行列式是1,那么这个转换保持空间体积不变。

第三章 概率论与信息论

- 概率论部分
#本章概率论部分大部分为本科概率论课本上的知识,除此之外,还有狄利克雷分布、高斯混合模型和常用的两个函数sigmoid、softplus,这四个知识点可以单独补充。

1、概率法告诉我们AI系统如何推理,可以用概率和统计从理论上分析我们提出的AI系统的行为;
2、概率论使我们能够提出不确定的声明以及在不确定性存在的情况下进行推理;而信息论使我们能够量化概率分布中的不确定总量。
3、不确定性的3种可能来源:
(1)被建模系统内在的随机性;
(2)不完全观测;
(3)不完全建模。
4、概率直接与时间发生的频率相联系,被称为频率派概率;而涉及确定性水平,被称为贝叶斯概率。
5、必须根据随机变量来推断使用的PMF(概率质量函数),而不是根据函数的名称来推断。
6、正态分布是默认比较好的选择,原因有两个:
(1)我们想要建模的很多分布的真实情况是比较接近正态分布的。中心极限定理说明很多独立随机变量的和近似服从正态分布。
(2)在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布。
7、Laplace分布
在这里插入图片描述《深度学习》(美)Ian Goodfellow 花书简要笔记(第一部分:应用数学与机器学习基础)_第3张图片
8、softplus函数
参考地址:https://blog.csdn.net/bqw18744018044/article/details/81193241
激活函数,用的较少,原因是对数运算计算量过大。
9、测度论(测量几何区域的尺度)
两个相关术语:零测度、几乎处处。
零测度:零测度集在我们的度量空间内不占有任何的体积。
几乎处处:某个性质如果是几乎处处都成立的,那么它在整个空间除了一个测度为零的集合以外都是成立的。
#Jacobian矩阵(雅可比矩阵,参考同济高数教材)

- 信息论部分
#信息论部分涉及的比较基础,涉及熵的定义(熵、最大熵、条件熵、联合熵)、自信息、互信息、KL散度,一般不会超出这个范围,百度补充即可。另外,涉及图模型的基础知识:有向图、无向图、团等概念,百度补充即可。

第四章 数值计算

#梯度下降法参考吴恩达老师的《机器学习》课程,导数相关概念参考高数课本,Hessian矩阵参考矩阵论课本。

1、上溢和下溢
#非0非无穷的数字被近似为0和无穷有时候会破坏运算。
(1)上溢:当大量级的数被近似为无穷时发生上溢;
(2)下溢:当接近0的数被四舍五入为0时发生下溢。
可以用softmax函数对上溢和下溢进行数值稳定。
2、病态条件和条件数
参考地址1:https://baike.baidu.com/item/病态条件/19112883?fr=aladdin
参考地址2:https://baike.baidu.com/item/条件数/5293168
3、递增带有离散参数的目标函数称为爬山算法。
4、二阶导数测试(左右移动,通过斜率变化判断该点是局部极大点还是局部极小点)。
5、牛顿法
参考地址:https://baike.baidu.com/item/牛顿法/1384129?fr=aladdin
补充:拟牛顿法,参考地址:https://baike.baidu.com/item/拟牛顿法
(感觉百度百科比大部分博客讲的清楚多了)
6、Lipschitz连续和Lipschitz常数
#如果存在常数L>0,使得不等式∣f(x,y1)-f(x,y2)〡≤L∣y1-y2〡 对于所有(x,y1),(x,y2) 属于R 都成立,则函数f(x,y)称为在R上满足利普希茨(Lipschitz)条件,L称为利普希茨常数(该常数依函数而定)。
7、凸优化(很重要,待补充课程知识:黄皮教材+练习+斯坦福youtube配套课程)
8、KKT条件
(1)广义Lagrangian的梯度为0;
(2)所有关于x和KKT乘子的约束都满足;
(3)不等式约束显示的“互补松弛性”:
在这里插入图片描述
#补充:参考地址:https://blog.csdn.net/johnnyconstantine/article/details/46335763
9、矩阵函数求导
参考地址1:http://www.doc88.com/p-3887470858128.html
参考地址2:https://blog.csdn.net/daaikuaichuan/article/details/80620518
参考地址3:https://blog.csdn.net/u010025211/article/details/51646739

第五章 机器学习基础

#机器学习部分建议参考李航老师的《统计学习》和周志华老师的西瓜书《机器学习》,建议以统计学习为主(最好相关模型自己手推一遍),西瓜书作为补充。建议配套吴恩达老师的《机器学习》课程(最好完成Cousera上的编程作业)。花书的基础部分讲的太简单了,以上书籍课程涵盖了这部分的所有内容,可以作为本章的补充。
#能力强的童鞋可以参考Bishop的《PATTERN RECOGNITION And MACHINE LEARNING》,有译本《模式识别与机器学习》。英文电子版本可以联系我邮箱:[email protected]
1、常见机器学习任务

  • 分类
  • 输入缺失分类:输入向量的每个度量不被保证;解决办法,学习所有相关变量的概率分布,然后通过边缘化缺失变量来解决分类任务。
  • 回归
  • 转录:在这类任务中,机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。
  • 机器翻译
  • 结构化输出:结构化输任务的输出是向量或其他包含多个值的数据结构,并且构成输出的这些不同元素间具有重要关系。
  • 异常检测
  • 合成和采样
  • 缺失值填补
  • 去噪
  • 密度估计/概率质量函数估计:要求学习算法隐式地捕获概率分布的结构。

2、表示数据集的常用方法是设计矩阵。设计矩阵的每一行包含一个不同的样本。
3、算法前提——独立同分布假设(数据集内样本独立、训练集与测试集同分布)。
4、Vapnik-Chervonenkis 维度(VC维)

  • 量化模型容量、表征泛化的一种方法。
    补充资料:
    参考地址1:https://baike.baidu.com/item/vc维/2947135?fr=aladdin
    参考地址2:https://www.jiqizhixin.com/graph/technologies/e766aa0d-af15-480a-9ce9-b6357442330e
    参考地址3:https://cntofu.com/book/157/15. Vapnik-Chervonenkis Dimension.md

5、贝叶斯误差:从预先知道的真实分布预测而出现的误差。
6、通过两种方法控制算法的性能:允许使用的函数种类、函数的数量。
7、估计、偏差和方差(概率论知识补充)

  • 估计:点估计、函数估计;
  • 偏差:无偏、渐近无偏;样本方差、无偏样本方差;
  • 方差、标准差;最小化均方误差(权衡偏差和方差);
  • 一致性

8、关于聚类的一个问题是,没有单一的标准去度量聚类的数据在真实世界中效果如何。
9、随机梯度下降的核心是,梯度是期望。
10、局部核:核函数k(u,v)在u=v时很大,当uv距离拉大时而减小。局部核可以看做执行模板匹配的相似函数,用于度量测试样本x和每个训练样本xi之间的相似度。
参考论文:Bengio et al.Conditional computation in neural networks for faster models.
论文下载地址:https://arxiv.org/pdf/1511.06297.pdf
11、深度学习的核心思想是假设数据由因素或特征组合产生,这些因素或特征可能来自一个层次结构的多个层级。
12、流形学习

  • 数学概念:指一组点,且每个点都有其领域。给定一个任意的点,其流形局部看起来像是欧几里得空间。(日常生活中,我们将地球视为二维平面,但实际上它是一个三维空间中的球状流形。)
  • 流形学习的观点:认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上这些数据只要比较低的维度就能唯一的表示。所以直观上来讲,一个流形好比是一个dd维的空间,在一个mm维的空间中(m>d)(m>d)被扭曲之后的结果。需要注意的是流形并不是一个形状,而是一个空间。(参考地址:https://www.cnblogs.com/jiangxinyang/p/9314256.html)
  • 流形假设:假设n维空间R中的大部分都是无效输入,有意义的输入只分布在包含少量数据点的子集构成的一组流形中,而学习函数的输出中,有意义的变化都沿着流形的方向或仅发生在我们切换到另一流形时。
  • 支持流形假设的两个观察:
    (1)现实生活中的图像、文本、声音的概率分布都是高度集中的;
    #如果我们均匀地随机抽取字母来生成文件,能有多大概率得到一个有意义的英语文档?答案是几乎为零。
    (2)(我们必须确保所遇到的样本和其他样本相互连接)我们至少能够非正式地想象这些领域和变换。

你可能感兴趣的:(学习笔记)