机器学习 | 过拟合与正则化、模型泛化与评价指标

 一、过拟合与正则化

1、多项式逼近思想

        任何函数都可以用多项式来表示。

        

        举个栗子 ~

        比如说 泰勒公式

                若要拟合sinx,泰勒认为仿造一条曲线,首先要保证在原点重合,之后在保证在这个点处的倒数相同,导数的倒数相同。

                高次项引入了更多的弯折,;同时使得相似范围越来越大。

                机器学习 | 过拟合与正则化、模型泛化与评价指标_第1张图片


2、过拟合的真相

        过拟合的真相 —— 高次项过多。

        为了防止过拟合,就要控制高次项的个数 n ,可以通过控制wn的个数来实现。

        所以解决过拟合问题就变成了让 w向量中 项的个数最小化的问题。

        写成数学语言:

        —— 这就是数学中 零范数(norm) 的概念。

                它就类似向量中长度的概念。可以理解为下图中分类线的长度。

                机器学习 | 过拟合与正则化、模型泛化与评价指标_第2张图片


3、正则化与相似概念对比

  • 其中 φ 为正则化项,λ为他的系数
  • 最小化损失函数的同时尽量减少参数项的个数
  • 机器学习 | 过拟合与正则化、模型泛化与评价指标_第3张图片
  • 甭管是几范数,都可以理解成长度 ~
  • 机器学习 | 过拟合与正则化、模型泛化与评价指标_第4张图片

  • 机器学习 | 过拟合与正则化、模型泛化与评价指标_第5张图片
  • 机器学习 | 过拟合与正则化、模型泛化与评价指标_第6张图片        


4、L1正则化空间解释 LASSO回归

        左边图即为G损失函数在特征空间中的三维分布,红色即为正则化项的分布。

        投影到右边图中,当没有正则项时,我们找的是这个漏斗的最低点。

        现在要同时满足两者都达到最小,即红色交点,而这个点恰巧 w1=0。

                换句话说,L1正则项(一次正则项)可以降低参数的维度。

        机器学习 | 过拟合与正则化、模型泛化与评价指标_第7张图片


5、L2正则化空间解释 Ridge岭回归

        与L1正则化不同,

        等值线与圆的任何部分相交的概率都是相同的,所以交点会尽量靠近坐标轴中间的位置。

        这使得L2正则,相对而言,是鼓励产生小而分散的权重,考虑更多的特征,而不仅仅是依赖某几个特征,因此可以增强模型泛化能力。

        此外,因为二次正则项处处可导,这使得计算更加方便。

        机器学习 | 过拟合与正则化、模型泛化与评价指标_第8张图片

        总的来说,正则项相当于给最小化增加了空间的约束,限制了模型的复杂度,因而可以很好解决过拟合问题。


二、模型泛化

        泛化能力:机器学习算法对新鲜样本的适应能力

        奥卡姆剃刀法则:能简单别复杂

        泛化理论:衡量模型复杂度

        Generalization:可以理解为一般化

  • 机器学习 | 过拟合与正则化、模型泛化与评价指标_第9张图片
  • 机器学习 | 过拟合与正则化、模型泛化与评价指标_第10张图片


三、评价指标

1、混淆矩阵、精准率、召回率

        以检测核酸为例:

        机器学习 | 过拟合与正则化、模型泛化与评价指标_第11张图片

        评价指标:

        机器学习 | 过拟合与正则化、模型泛化与评价指标_第12张图片

        F1 Score

        机器学习 | 过拟合与正则化、模型泛化与评价指标_第13张图片

        


2、PR曲线与ROC曲线

        机器学习 | 过拟合与正则化、模型泛化与评价指标_第14张图片


 

梗直哥丶的个人空间-梗直哥丶个人主页-哔哩哔哩视频

你可能感兴趣的:(算法,机器学习,人工智能)