L1范数,L2范数,L2,1范数(向量范数、矩阵范数、正则化)

参考文章如下:https://blog.csdn.net/lqzdreamer/article/details/79676305

                         https://blog.csdn.net/lqzdreamer/article/details/79676305

一、范数定义

        一般常用范数来衡量向量,向量的Lp范数定义为:

         Lp范数示意图:

        从图中可以看出,p的取值在 [0,1) 之间,范数不具有凸性,实际优化过程中,无法进行,一般会把L0范数转化为L1范数。

二、向量范数

1.L0向量范数

        L0范数是指向量x中的非0个数,是一种度量向量的稀疏性的表示方法。例如:x=[1,1,0,1],

2.L1向量范数

        L1范数是向量中元素的绝对值之和,也是一种度量向量的稀疏性的表示方法。

 {\left\| x \right\|_1} = \sum\limits_{i = 1}^n {\left| {​{x_i}} \right|}

三、矩阵范数

1.矩阵的L1范数

        矩阵的L1范数定义为:所有矩阵列向量绝对值之和的最大值

{\left\| {\rm{A}} \right\|_1} = \mathop {\max }\limits_{1 \le j \le n} \sum\limits_{i = 1}^m {\left| {​{a_{i,j}}} \right|}

2.矩阵的L2范数

        矩阵的L2范数定义为:{​{\rm{A}}^{\rm{T}}}{\rm{A}}矩阵的最大特征值的开方

{\left\| {\rm{A}} \right\|_2} = \sqrt {\mathop {\max }\limits_{1 \le i \le m} \left| {​{\lambda _i}} \right|}

        其中λi为{​{\rm{A}}^{\rm{T}}}{\rm{A}}的特征值。

3.矩阵的F范数

        矩阵的F范数定义为:矩阵元素绝对值的平方和再开方

L1范数,L2范数,L2,1范数(向量范数、矩阵范数、正则化)_第1张图片

4.矩阵的L2,1范数

        矩阵的L2,1范数定义为:矩阵A的每一行的L2范数之和

L1范数,L2范数,L2,1范数(向量范数、矩阵范数、正则化)_第2张图片

        在最小化问题中,只有每一行的L2范数都最小总问题才最小,而每一个函数取得最小的含义是,当行内尽可能多的元素为0的时候,约束才可以取到最小。

四、范数如何与正则化联系起来

        为了避免过拟合,我们常会给简单的函数加一个偏移,假如有两个函数都可以很好的拟合数据,我们会倾向于使用简单的那个,可以通过添加一个正则项来实现也就是范数,常用形式:

        其中λ是正则系数,表示想要正则化的程度。

五、为什么权重最小的范数可以实现正则化

        根据范数的定义,我们可以知道权重越大,范数越大,也就是说最小化范数可以得到一个相对简单的函数。总结来说,最小化权重的范数可以让过拟合函数变简单

        通过给我们最小化目标函数添加范数,可以促使拟合出权重较小的函数,带来了正则效应,提升了数据的泛化性。

六、L2,1范数特征选择

        在特征选择中,通过稀疏化的特征选择矩阵来选取特征,相当于是一种线性变换。 

        一行代表一个数据点,每一列代表一个特征分量。

你可能感兴趣的:(机器学习,机器学习,矩阵)