《统计学习方法》李航-第二版 ,读数笔记

第1章 统计学习及监督学习概论

一、分类

          基本分类:监督学习、无监督学习、强化学习、半监督学习和主动学习

                           监督学习:分类问题(离散)和回归问题(连续)

          按模型分类:概率与非概率、线性和非线性、参数化和非参数化

二、统计学习三要素

                                    模型+策略+算法

           策略:经验风险最小化、结构风险最小化

三、模型评估

《统计学习方法》李航-第二版 ,读数笔记_第1张图片  《统计学习方法》李航-第二版 ,读数笔记_第2张图片

          模型复杂度较大时容易产生过拟合现象,这时需要引入正则化,正则化是结构风险最小化策略的实现。

正则化形式:

                  

          正则化项可以是参数向量的L2范数:

              

         正则化项也可以是参数向量的L1范数:

                 

补充:范数知识

(注:此部分内容来源于简书,作者:Jason____,链接:https://www.jianshu.com/p/ab49185ab270)

      L1 范数和 L2 范数,用于机器学习的 L1 正则化、L2 正则化。对于线性回归模型,使用 L1 正则化的模型建叫做 Lasso 回归,使用 L2 正则化的模型叫做 Ridge 回归(岭回归)。

其作用是:

     L1 正则化是指权值向量 w 中各个元素的绝对值之和,可以产生稀疏权值矩阵(稀疏矩阵指的是很多元素为 0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是 0. ),即产生一个稀疏模型,可以用于特征选择;

     L2 正则化是指权值向量 w 中各个元素的平方和然后再求平方根,可以防止模型过拟合(overfitting);一定程度上,L1 也可以防止过拟合。

曼哈顿距离:
曼哈顿距离对应 L1 - 范数,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上,坐标(x1, y1)的点 P1 与坐标(x2, y2)的点 P2 的曼哈顿距离为:,要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。

欧式距离(对应 L2 范数):
最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。n 维空间中两个点 x1 (x11,x12,…,x1n) 与 x2 (x21,x22,…,x2n) 间的欧氏距离:

                            

二维空间的欧式距离公式:

                            

                 

曼哈顿距离与欧式距离:其中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。

                             《统计学习方法》李航-第二版 ,读数笔记_第3张图片        

 

你可能感兴趣的:(机器学习,算法,统计学)