深度学习(Deep Learning)——第2章 线性代数

1、标量和向量

(1)一个标量就是一个单独的数,通常用斜体小写字母表示;

(2)一个向量是一列数,通常用粗体的小写字母表示,向量中的元素可以通过带角标的斜体表示,如向量x的第一个元素是x1;我们定义集合S={1,3,6},然后写作xs,则是指定原集合中的x1、x3、x6这3个元素,用符号-表示集合的补集中的索引,如x-1表示除x1外的所有元素。

 

2、矩阵(matrix)和张量(tensor)

(1)矩阵是一个二维数组;

(2)张量是超过两维的数组。

 

3、深度学习中,我们允许矩阵和向量相加,产生一个矩阵:C=A+b,即向量b和矩阵A的每一行相加。

 

4、点积和元素对应乘积(AB

(1)点积可以表示为C=AB,矩阵AB要满足矩阵相乘的条件;元素对应乘积即两矩阵中对应元素的乘积。

 

5、对于Ax=b这个方程:当r(A)≠r(A|b)时,无解;当r(A)=r(A|b)=m(设A是m×n的矩阵且n≥m)时,有且只有一个解;当r(A)=r(A|b)<m时,有无穷个解。(其中r(A)表示矩阵A的秩)

 

6、范数(norm):是将向量映射到非负值的函数,如向量x的范围衡量从原点到点x的距离;

(1)常用的L2范数表示从原点出发到向量x确定的点的欧几里得距离,简化为:

                                                                    

         用于优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合的情况;

(2)另一种常用的是L1范数,简化为:,表示非零数的绝对值之和,用于实现特征稀疏

(3)还有一种常出现的范数是L∞范数,也称为最大范数,表示向量中具有最大幅值元素的绝对值,简化为:

                                                                 

7、diag(v)表示对角元素由向量v中元素给定的一个对角方阵,diag(v)x=v⊙x表示对应元素相乘;

对称矩阵是指转置和自身相等的矩阵;

单位向量是指具有单位范数的向量(即||x||2=1);

正交矩阵是指行向量和列向量分别标准正交的方阵。

 

8、特征值和特征向量

(1)对于矩阵A,如有Avv成立,则标量λ称为矩阵A的特征值,v称为特征值λ对应的特征向量;

(2)每个实对称矩阵都可分解为实特征向量和实特征值,即A=QΛQT,其中Q是A的特征向量组成的正交矩阵,Λ是对角矩阵;

(3)所有的特征值为正数的矩阵称为正定,都是非负数的矩阵称为半正定,对于半正定矩阵,xxTAx≥0

 

 

9、奇异值分解(SVD)

(1)将矩阵A分解成三个矩阵的乘积,A=UDVT(假设A是m×n的矩阵,那么U是m×m的矩阵,D是m×n的矩阵,V是n×n的矩阵),矩阵U和V都定义为正交矩阵,矩阵D定义为对角阵但不一定是方阵;

 

(2)对角矩阵D对角线上的元素称为矩阵A的奇异值,矩阵U的列向量称为左奇异向量,矩阵V的列向量称为右奇异向量

 

(3)A的左奇异向量是AAT的特征向量,A的右奇异向量是ATA的特征向量,A的非零奇异值是ATA特征值的平方根;

 

(4)非方矩阵A,想要求解Ax=y,就需要用到伪逆,实际算法为:A+=VD+UT,U、D、V是矩阵A奇异值分解后得到的矩阵,对角矩阵D的伪逆D+是其非零元素取倒数之后再转置得到的;A的列数多于行数时,x=A+y是方程所有可行解中欧几里得范数||x||2最小的一个;A的行数多于列数时,可能没有解,而通过伪逆得到的x使得||Ax-y||2最小。

 

10、矩阵的迹和行列式

(1)迹表示矩阵对角元素的和,矩阵A的迹表示为Tr(A),在数值上等于特征值的和;

 

(2)行列式det(A)是将一个方阵映射到实数的函数,在数值上等于特征值的乘积。

 

11、主成分分析(PCA)

(1)假设在Rn空间中有m个点,我们要对这些点进行有损压缩,降低内存小号,编码这些点的一种方式是用低维表示,对于每个点x(i)∈Rn,会有对应的编码向量c(i)∈Rl,如果l比n小,我们也就找到了编码函数f(x)=c;我们也希望找到一个解码函数使得x≈g(f(x));

 

(2)我们使用矩阵乘法将编码映射回Rn,即g(c)=Dc(为了简化编码问题,限制D的列向量彼此正交),一种最小化原始输入向量x和重构向量g(c*)之间的距离,这里使用平方L2范数衡量它们之间的距离:

 

经过化简和微积分运算,最终得到c=DTx;

 

(3)我们令f(x)=DTx,则定义PCA重构操作:r(x)=g(f(x))=DDTx,这里以l=1为例,此时D是一个单一向量d,则最终可得:

此时dTd=1,也就是说最优dXTX最大特征值对应的特征向量

 

 

你可能感兴趣的:(机器学习)