深度学习笔记(1) 线性代数

1.标量与向量

(1)标量:只有一个元素的矩阵

(2)向量:只有一列的矩阵,通常写为x

(3)标量与矩阵

标量c和矩阵B相加或标量c和矩阵B相乘时,需要将其与矩阵的每个元素相加或相乘,即

(4)向量与矩阵

向量b和矩阵A相加,需要将向量b和矩阵A的每一行相加,即

(5)向量点积

相同维度,可看作是矩阵乘积,且满足交换律,即;或写作

(6)矩阵乘积

两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去

2.元素对应乘积(Hadamard 乘积)

两个矩阵对应元素的乘积,记为A⊙B

3.列空间(值域)

确定是否有解相当于确定向量b是否在A列向量的生成子空间中

4.利用矩阵的逆求解方程组

如果矩阵是一个非奇异(满秩,行列式的值不为0)的方阵可通过逆矩阵求解方程组

5.范数

范数是将向量映射到非负值的函数(向量x的范数衡量从原点到点x的距离)

(1)L2范数(欧几里得范数):表示从原点出发到向量x确定的点的欧几里得距离,一般直接写作

(2)平方L2范数:用来衡量向量大小,可用表示,平方L2范数对每个元素的导数只取决于对应的元素,但是它在远点附近增长缓慢(不适用于恰好是零的元素和非零但值很小的元素)

(3)L1范数:利用向量中各元素的绝对值之和衡量向量大小

(4)L0范数:利用向量中非零元素的个数衡量向量的大小

(5)范数(最大范数):利用向量中具有最大绝对值的元素的绝对值衡量向量的大小

(6)Frobenius范数:用来衡量矩阵的大小

6.对角矩阵

使用表示对角元素由向量v中元素给定的对角矩阵

在算法中将一些矩阵限制为对角矩阵可以得到计算代价较低的算法

7.正交矩阵

各行是单位向量且两两正交,各列是单位向量且两两正交

满足

8.特征分解(矩阵分解方式1,非奇异方阵的分解)

(1)即将矩阵分解成一组特征向量和特征值,便于分析矩阵的特定性质

特征向量指与A相乘后相当于对该向量进行缩放的非零向量(对特征向量任何比例缩放后的向量仍是该方阵的特征向量,一般只考虑单位特征向量),

(矩阵A乘以x表示对向量x进行一次线性变换(旋转或拉伸)。求特征值和特征向量即为求出该矩阵能使哪些向量(当然是特征向量)只发生拉伸,使其发生拉伸的程度如何(特征值大小)。这样做的意义在于,看清一个矩阵在那些方面能产生最大的效果,并根据所产生的每个特征向量(一般研究特征值最大的那几个)进行分类讨论与研究。)

特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么,可以将每一个特征向量理解为一个线性的子空间,我们可以利用这些线性的子空间干很多的事情。)

(2)将矩阵A的由大到小排列的特征值对应的特征向量作为矩阵的每一列形成一个矩阵V,将特征值作为对角矩阵Σ的对角元素,有

分解得到的Σ矩阵是一个对角阵,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列) 

(3)补充:

每个实对称矩阵都能分解成实特征向量和实特征值。实对称矩阵的特征分解可以用于优化二次方程当x等于A的某个单位特征向量时,f将返回对应的特征值。

实对称阵属于不同特征值的的特征向量是正交的。

矩阵是奇异的当且仅当含有零特征值。

正(负)定矩阵:所有特征值都是正(负)数的矩阵

半正(负)定矩阵:所有特征值都是非负(正)数的矩阵

半正定矩阵保证,正定矩阵保证

9.奇异值分解(矩阵分解方式2,非方阵的分解)

(1)每个实数矩阵都有一个奇异值分解,但不一定都有特征分解,如非方阵矩阵以及奇异方阵。

奇异值分解将矩阵A分解为

A是一个N * M的矩阵,那么得到的U是一个N * N的方阵(里面的向量是正交的,其列向量称为左奇异向量),D是一个N * M的矩阵(除了对角线的元素都是0,对角线上(坐标满足i=j,不一定是方阵)的元素称为奇异值),是一个N * N的矩阵(里面的向量也是正交的,其列向量称为右奇异向量)

(2)求解:

(A的左奇异向量是的特征向量,A的右奇异向量是的特征向量,A的非零奇异值是的特征值的平方根也是的特征值的平方根)

将矩阵A左乘,将会得到一个方阵,用这个方阵求特征值可以得到,其中νi基奇异值分解的右奇异向量,可以得到,其中\sigma _{i}为奇异值,为左奇异向量。(矩阵A的奇异值就是的特征值的平方根

σ的值减小的特别的快,在很多的情况下前10%甚至1%的奇异值之和就占了全部奇异值之和的99%以上。因此可以用前r个大的奇异值来近似的描述矩阵,这里定义奇异值的分解: 

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,其中r越接近于n,则相乘的结果越接近于A。而这三个矩阵的面积之和(在存储观点来说,矩阵面积越小,存储量就越小)要远远小于原始的矩阵A,可压缩空间来表示原矩阵A。

10.伪逆(用于将Ax=y中的非方阵A映射到x=By中的B(B即A的伪逆);伪逆矩阵是逆矩阵的广义形式,即奇异矩阵或非方阵的矩阵的逆矩阵)

(1)A的伪逆定义为,其中矩阵U,D,V是矩阵A奇异值分解后得到的矩阵,对角矩阵的D的伪逆是其非零元素取倒数之后再转置得到的

(2)当矩阵A的列数多于行数时,使用伪逆求解线性方程是众多可能解法中的一种。具体地,x=A^{+} y是方程所有可行解中欧几里得范数\left \| x \right \|_{2}最小的一个。

当矩阵A的行数多于列数时,可能没有解。在这种情况下,通过伪逆得到的x是使得Ax和y的欧几里得距离\left \| Ax-y \right \|_{2}最小的解(最小二乘法的解)。

(3)把方程个数大于未知量个数的方程组叫做超定方程组。通常来说,对于一个超定方程组X\theta =Y来说,求最小二乘解只需要两边同时乘X^{T},然后得到正规方程组X^{T}X\theta =X^{T}Y,然后解这个方程就得到了最小二乘解。

11.迹运算

(1)迹运算返回的是矩阵的对角元素的和

                                                                     

(2)Frobenius范数

                                                                     

(3)迹运算在转置运算下是不变的

                                                                     

(4)多个矩阵相乘,交换矩阵相乘的顺序后(矩阵的形状允许交换)得到的结果(可能乘积的顺序改变导致结果的形状也发生改变)的迹相同            

                                                                     

12.行列式

(1)记作det(A),是一个将方阵映射到实数的函数

(2)计算

在n阶行列式D=\left | a_{ij} \right |中划去元素a_{ij}所在第i行和第j列后得到n-1阶行列式成为元素a_{ ij}的余子式,记作M_{ ij},把A_{ ij}=(-1)^{i+j}M_{ij}称为元素a_{ij}的代数余子式

n阶行列式D=\left | a_{ij} \right |等于它的任一行(列)各元素与其对应的代数余子式乘积之和,即

                                                                    D=\sum_{k=1}^{n}a_{kj}A_{kj}  (j表示某列)

                                                                                 或

                                                                    D=\sum_{k=1}^{n}a_{ik}A_{ik}  (i表示某行)

(3)行列式等于矩阵特征值的乘积

(4)行列式可以看做是有向面积或体积的概念在一般的欧几里得空间中的推广。或者说,在 n 维欧几里得空间中,行列式描述的是一个线性变换对“体积”所造成的影响。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或缩小了多少。

你可能感兴趣的:(机器学习,基础数学,深度学习,线性代数)