全文根据深度学习500问pdf版本,加上各种博客内容,具体链接文中已给出,侵删。
可以看成是向量和矩阵在多维空间中的推广。标量是零阶张量,向量是一维张量,矩阵是两维张量。下面是一个三阶张量的例子,它有三维即3个mode。
固定1个维度,值变化2个维度。
固定2个维度,值变化1个维度。
定义一个向量为:a=[-5, 6, 8, -10]。
向量的1 范数:向量的各个元素的绝对值之和,上述向量a 的1 范数结果就是:29。
向量的2 范数:向量的每个元素的平方和再开平方根,上述a 的2 范数结果就是:15。
向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量a 的负无穷范数结果就
是:5。
向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量a 的负无穷范数结果就
是:10。
定义一个矩阵A=[-1 2 -3; 4 -6 6]。
矩阵的1 范数:矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),
上述矩阵A 的1 范数先得到[5,8,9],再取最大的最终结果就是:9。
矩阵的 2 范数:矩阵AT A的最大特征值开平方根,上述矩阵 A 的 2 范数得到的最终结果
是:10.0623。
矩阵的无穷范数:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),
上述矩阵A 的1 范数先得到[6;16],再取最大的最终结果就是:16。
矩阵的核范数:矩阵的奇异值(将矩阵svd 分解)之和,这个范数可以用来低秩表示(因
为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A 最终结果就是:10.9287。
矩阵的L0 范数:矩阵的非0 元素的个数,通常用它来表示稀疏,L0 范数越小0 元素越多,
也就越稀疏,上述矩阵A 最终结果就是:6。
矩阵的L1 范数:矩阵中的每个元素绝对值之和,它是L0 范数的最优凸近似,因此它也
可以表示稀疏,上述矩阵A 最终结果就是:22。
矩阵的F 范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2 范数,它
的有点在它是一个凸函数,可以求导求解,易于计算,上述矩阵A 最终结果就是:10.0995。
矩阵的L21 范数:矩阵先以每一列为单位,求每一列的F 范数(也可认为是向量的2 范
数),然后再将得到的结果求L1 范数(也可认为是向量的1 范数),很容易看出它是介于L1
和L2 之间的一种范数,上述矩阵A 最终结果就是:17.1559。
设A是数域上的一个n阶矩阵,若在相同数域上存在另一个n阶矩阵B,使得: AB=BA=E ,则我们称B是A的逆矩阵,而A则被称为可逆矩阵。
并且可逆一定满秩,满秩一定可逆。
(AT)-1=(A-1)T
(A’)-1=(A-1)’
方阵A的各元素aij的代数余子式Aij所构成的如下矩阵 :
该矩阵A*或者adj A称为矩阵A的伴随矩阵。(一定Aij和Aji的位置)
其中(2)也可以理解为AA*=|A|En。
指方阵的|A|=0.
是指矩阵A的非零子式的最高阶数,记作R(A)。
(1)转置后秩不变
(2)r(A)<=min(m,n),A是m*n型矩阵
(3)r(kA)=r(A),k不等于0
(4)r(A)=0等价于A=0
(5)r(A+B)<=r(A)+r(B)
(6)r(AB)<=min(r(A),r(B))
(7)r(A)+r(B)-n<=r(AB)*
(8)P,Q为可逆矩阵, 则 r(PA)=r(A)=r(AQ)=r(PAQ)
如果AAT=E(E为单位矩阵,AT表示“矩阵A的转置矩阵”)或ATA=E,则n阶实矩阵A称为正交矩阵。
定义:如果有n阶矩阵A,其矩阵的元素都为实数,且矩阵A的转置等于其本身(aij=aji)(i,j为元素的脚标),则称A为实对称矩阵。
定义:一个n阶的实对称矩阵M是正定的的条件是当且仅当对于所有的非零实系数向量z,都有zTMz> 0。其中zT表示z的转置。
等价条件:
性质:
(1)正定矩阵的行列式恒为正;
(2)实对称矩阵A正定当且仅当A与单位矩阵合同;
(3)若A是正定矩阵,则A的逆矩阵也是正定矩阵;
(4)两个正定矩阵的和是正定矩阵;
(5)正实数与正定矩阵的乘积是正定矩阵。
设A为n阶矩阵,子式称为A的i阶顺序主子式。
对于n阶的矩阵A,其共有n阶顺序主子式,即矩阵A的顺序主子式由 共n个行列式按顺序排列而成。
设A,B为n阶矩阵,如果有n阶可逆矩阵P存在,使得P(-1)AP=B则称矩阵A与B相似,记为A~B。
相似对角化若A和一个对角矩阵D相似,则称A可以相似对角化。
若两个矩阵AB相似,则两者的特征方程相同,特征值相同,反之不一定。
设A,B是两个n阶方阵,若存在可逆矩阵C,使得CTAC=B则称方阵A与B合同,记作 A≃B。
两个实对称矩阵合同的充要条件是它们的正负惯性指数相同。由这个条件可以推知,合同矩阵等秩。
正惯数,是线性代数里矩阵的正的特征值个数。正负惯性指数之和=f的秩。
一元函数,一个y 对应一个x,导数只有一个。
二元函数,一个z 对应一个x 和一个y,有两个导数:一个是z 对x 的导数,一个是z 对
y 的导数,称之为偏导。
如果向量v与变换A满足Av=λv,则称向量v是变换A的一个特征向量,λ是相应的特征值。
(λEn-A)X=0是方阵A的特征方程。
矩阵A的n个特征值的乘积等于A的行列式的值。
特征值意义:表示这个特征向量到底有多重要。
特征值的分解:对于矩阵为高维的情况下,那么这个矩阵就是高维空间下的一个线性变换。可以想象,这个变换也同样有很多的变换方向,我们通过特征值分解得到的前N 个特征向量,那么就对应了这个矩阵最主要的N 个变化方向。我们利用这前N 个变化方向,就可以近似这个矩阵(变换)。
https://blog.csdn.net/jinshengtao/article/details/18448355 (看第一二节就可以)
对于特征函数的理解:https://www.zhihu.com/question/23686709
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
协方差是衡量两个变量线性相关性强度及变量尺度。两个随机变量的协方差定义为:Cov(x, y)=E( (x-E(x) )(y-E(y) ) )