Lp范数与数据拟合

Lp范数

-------------------------------------------------------------------------------------------------

定义如下,p取值范围[0,+∞) 


其中L0范数表示非零数据的个数

   L+∞范数表示数据中的最大值

   L-∞ 范数表示数据中的最小值


与数据拟合的关系

-------------------------------------------------------------------------------------------------

数据拟合中,通常说通过Lp范数最小化求解,是指yi的p次方和作为损失函数(无需再开p次方)

  

损失函数最小,以求解表达式中的参数。通常取 p>=1(主要是了大数据计算方便)

实际在小数据、少量参数情况下,通过优化算法,可以实现0

以上公式只有在p=0,以及p=+∞时,才需要严格按照Lp范数的定义赋予损失函数


要理解Lp范数对数据拟合的意义,我们先考虑如下情况


p= 0  时,a 的结果为数列X的     众数 (由于0^0问题,此时损失函数需要按L0范数的定义写)

p= 1  时,a 的结果为数列X的  中位数

p= 2  时,a 的结果为数列X的  平均数

p=+∞时,a 的结果为数列X的  中程数(即最大数与最小数的平均值,此时损失函数需要按L+∞范数的定义写)


以上结论可以完全适用在Lp范数最小化的数据拟合上(偏差=真实数据-拟合函数预测值)

在对异常值敏感度上,某数据在偏差Lp范数总和(损失函数)中占比越大,则对结果影响越大

如p=2,异常值对应的偏差 y - f(a ,b...) (通常较大) 经过平方之后,在损失函数值中占比更大

对结果的影响也更大,因此,相比L1范数求解方法,L2范数对异常值更敏感


总结,Lp范数最小化进行数据拟合时,有如下意义:

   L0范数为      众数回归,对异常值    无感,有0偏差最多

   L1范数为   中位数回归,对异常值不敏感,有正偏差和负偏差数量相等

   L2范数为   平均数回归,对异常值较敏感,有平均偏差为0

   L+∞范数为中程数回归,对异常值高敏感,有最大正偏差和最小负偏差绝对值相等


对于p等于其它数,其结果和对异常值的敏感性将介于以上两者其间

如L0.5范数最小化数据拟合,应是融合中位数和众数的一种回归,对异常值敏感性也介于不敏感和无感之间

0

众数影响太大(相对于L0范数),并在两者之间取得一个平衡


参考资料

-------------------------------------------------------------------------------------------------

https://blog.csdn.net/tiandijun/article/details/50380538

https://www.zhihu.com/question/46664595

你可能感兴趣的:(数据处理)