Deep Learning花书学习笔记-------第2章 线性代数

第2章 线性代数

2.1 标量、向量、矩阵和张量 

  • 标量(scalar):标量是单独的数,只有大小没有方向。
  • 向量(vector):向量是既有大小又有方向的量,它可以形象化地表示为带箭头的线段。一个向量是一个数列(有序排列的数)。可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。
  • 矩阵(matrix):矩阵是一个二维数组。
  • 张量(tensor):坐标超过两维的数组。数组元素分布在多维坐标构成的网络中。
  • 转置(transpose):矩阵的操作,将矩阵以主对角线为轴作镜像,得到矩阵的转置。

2.2 矩阵和向量相乘 

  • 矩阵乘积:矩阵相乘最重要的方法是一般矩阵乘积。它只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有意义。

  •  Hadamard乘积:矩阵对应元素相乘。

Deep Learning花书学习笔记-------第2章 线性代数_第1张图片

两相同维数的向量x和向量y的点积可看作矩阵乘积x^{T}y。向量的点积是一个标量,标量的转置是自身,两个向量的点积满足交换律x^{T}y = y^{T}x,然而,矩阵的乘积并不满足AB \neq BA

 2.3 单位矩阵和逆矩阵

  • 单位矩阵(identity matrix):单位矩阵表示I或E,主对角元素都是1,其他元素都是0。
  • 逆矩阵(matrix inversion):对于矩阵A,若存在一个矩阵A^{-1}使得AA^{-1} = IA^{-1}为矩阵A的逆矩阵,并且称矩阵A可逆。

2.4 线性相关和生成子空间 

  • 线性组合(linear combination): 向量的线性加权(标量)和。

  • 生成子空间(span):原始向量线性组合后能到达的点的集合。确定Ax = b是否有解,相当于确定向量b是否在A列向量的生成子空间中。为了使Ax = b对于任意向量b都存在解,要求A的列空间构成整个R空间。
  • 线性相关(linear dependence):如果一组向量中的任何一个向量都不能表示成其他向量的线性组合,则这组向量是线性无关的,否则为线性相关。如果一个向量和一组向量线性相关,则将这个向量加入这组向量中不会增加这组向量生成子空间的大小。

2.5 范数 

  • 范数(norm):用来衡量向量大小的量。L^{p}范数定义为: 

范数衡量了向量到原点的距离,下图表示了p从无穷到0变化时,范数值为1的点构成的图形。

è¿éåå¾çæè¿°

p为0时,L-0范数表示向量中非零元素个数之和。常用来统计向量中非零元素的个数,使用L-0范数来优化参数矩阵时,是希望参数矩阵大部分元素为0,使得参数矩阵稀疏。但由于L-0范数求解是个NP-Hard问题,常用L-1范数近似求解(对向量缩放一定倍数不会改变向量非零元素的个数)。

p为1时,L-1范数为向量中所有非零元素之和。L-1范数也称为稀疏规则算子,也是通过使得参数矩阵元素为零来使其稀疏。L-1范数可以用于特征筛选。

p为2时,L-2范数为欧几里得范数,表示从原点到向量的欧几里得距离。使用L-2范数优化参数矩阵时,会使得参数元素都很小,尽量接近于0,参数越小时,模型越简单,因此L-2范数可以防止模型过拟合。

p为无穷时,为最大范数,表示向量中具有最大幅值的元素的绝对值。

2.6 特殊类型的矩阵和向量

  • 对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其他位置都是零。 
  • 单位向量(unit vector):具有单位范数的向量(范数值为1,即长为1)。
  • 正交矩阵(orthogomal matrix):正交:x^{T}y = 0表示向量x和y正交(向量夹角为90度) 。若x和y范数均为1(长为1),则向量x和y标准正交。行向量和列向量分别标准正交的矩阵为正交矩阵。(行,列长均为1,且行向量之间,列向量之间均为90度夹角)。
  • 矩阵的秩(rank):矩阵的秩是矩阵的极大线性无关组中的向量的个数。行秩:矩阵的行向量中线性无关的向量个数,列秩:矩阵的列向量中线性无关的向量个数。对方阵来说,行秩和列秩相等,对于m*n的矩阵来说,秩为行秩和列秩中较小的那个。矩阵的秩在空间上表示为该矩阵能够张成的空间的维度。

2.7 特征分解 

Deep Learning花书学习笔记-------第2章 线性代数_第2张图片

特征值分解(EVD)是将矩阵分解为特征向量和对应的特征值类似于力的分解的过程,特征向量是力的方向,特征值是在这个方向上力的大小。对矩阵分解后按照特征值大小进行排序,可进行主成分分析。 

2.8 奇异值分解

奇异值分解(SVD)是将矩阵A分解成三个矩阵的乘积 。

Deep Learning花书学习笔记-------第2章 线性代数_第3张图片

奇异值分解表示了一个向量到另一个向量的线性变换,包括旋转,缩放和投影等。

2.12 实例:主成分分析

主成分分析(PCA)是一种特征降维的机器学习算法,将原有的n维特征映射到k维上,这k维特征即为主成分。

给定原始特征矩阵X,通过变换矩阵W,进行特征降维得到变换后的矩阵L

Deep Learning花书学习笔记-------第2章 线性代数_第4张图片

矩阵分解,X = LW^{-1},即X = LRW是投影矩阵,R是投影矩阵的逆。

Deep Learning花书学习笔记-------第2章 线性代数_第5张图片

目标函数:均方误差最小原则。

R为投影方向。 

Deep Learning花书学习笔记-------第2章 线性代数_第6张图片

Deep Learning花书学习笔记-------第2章 线性代数_第7张图片

特征值的意义:样本在w方向投影的均值(和)最大。

Deep Learning花书学习笔记-------第2章 线性代数_第8张图片

PCA就是从原始特征空间中每次都找使得数据方差最大的相互正交的坐标轴,进行投影,得到一个主成分,接下来继续找使得数方差最大的相互正交的坐标轴。

参考文献:

1.《Deep Learning》.Ian Goodfellow/Yoshua Bengio

2.https://baike.baidu.com

3.https://blog.csdn.net/sinat_29957455/article/details/80206589

4.国科大2018秋季《机器学习》课件,Chapter7 Feature Selection & Extraction

你可能感兴趣的:(Deep,Learning花书学习笔记)