统计学习方法笔记(一)

     之前都是手写笔记,但是由于习惯不好,笔记老是找不到,又有很多人推荐我写博客方便以后查看,所以这几天会将我之前的笔记,一点点的写到这里来,但是由于CSDN的博客设置不是很会用,会很粗糙哦。。。

     首先是李航老师的统计学习方法,一直认为是入门的非常经典的一本书,里面的理论知识非常适合新手看。

     接下来,是我当时写的一些笔记。

     (一)统计学习方法概论

     统计学习三要素:  方法=模型+策略+算法

  • 模型:在监督学习过程中,模型就是所要学习的条件概率或决策函数,模型的假设空间包括所有可能的条件概率或决策函数。
  • 策略,即按照什么样的准则选择最优模型。
  1. 损失函数和风险函数 (。。。实在是不想打公式)


      期望损失(期望风险):

           

      经验损失(经验风险)

              


        学习的目标就是选择期望风险最小的模型。但是一方面算期望风险需要用到联合分布,另一方面联合分布又是未知的,所以监督学习就成为一个病态的问题。

     但是由于我们有神奇的大数定理,当样本容量N趋向于无穷是,我们的经验风险趋向于期望风险!!这是非常关键的一点,所以我们可以用经验风险去估计期望风险。

    2,经验风险最小化和结构最小化

    学机器学习的同学对着两个肯定不陌生,但是很多人不清楚这这两个名词是怎么来的。

    经验风险最小化:(听名字都知道是什么了)

            统计学习方法笔记(一)_第1张图片

      当样本容量足够大是,经验风险最小化能保证有很好的学习效果,“极大似然估计”就是经验风险最小化的一个例子。但是,当样本容量很小时,效果就未必很好。

    3,结构风险最小化

       本身就是为了防止过你和而提出的策略,就是在经验风险上加上了模型复杂惩罚函数,就是正则化项或罚项。



其中的J(f)为模型的复杂度。

      贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。

  4,过拟合

     指学习时选择的模型所包含的参数过多,以至于出现模型对已知数据预测的很好,但对未知数据预测的很差的现象。

     一般防止过拟合的方法:正则化与交叉验证。

  5,正则化

     就像上面结构风险公式的后半部分,正则化一般具有如下形式:


     正则化的作用是选择经验风险与模型复杂度同时较小的模型。

   6,交叉验证

  • 简单交叉验证:随机的将已给数据分为两部分,一部分作为训练集,另一部分作为测试集,(例如, 70%的数据为训练集.30%的数据为测试集),然后用训练集在各种条件下(例如,不同的参数个数〉训练模型,从而得到不同的模型:在测试集上评价各个模型的测试误差,选出测试误差最小的模型.
  • S折交叉验证(K):首先随机地将已给数据切分为5 个互不相交的大小相同的于集:然后利用S- l 个子集的数据训练模型,利用余下的于集测试模型:将这-过程对可能的S 种选择重复进行.最后选出S 次评测中平均测试误差最小的模型。
  • 留一交叉验证:S 折交叉验证的特殊情形是S=N.往往在数据缺乏的情况下使用-这里.N 是给定数据集的容量。
   7,泛化能力:就是模型对未知数据的预测能力。

        这部分主要是将泛化误差上界,主要是一个定理的证明,感兴趣的同学可以直接看书。

   8, 分类问题

      分类是监督学习的一个核心问题在监督学习中, 当输出变量Y 取有限个离散值时,预测问题便成为分类问题这时,输入变量X 可以是离散的,也可以是连续的.监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier) .

       评价分类器性能的指标一般是准确率。

       对于二分类问题常用的指标是——精确率和召回率。

       TP一将正类预测为正类数:
       FN一一将正类预测为负类数:
       FP一一将负类预测为正类数,
       TN-一将负类预测为负类数.

      这里有个很好记的方法,前面的T,F表示的是分类的正确性,后面的P,N为预测的结果,如TP,为正确预测为正类,那就是正类预测为正类数了嘛,FP,为错误预测为正类,那就是将负类预测为正类数了。

 

    9,回归问题

       回归是监督学习的另-个重要问题回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。    

       回归问题的学习等价于函数拟合·选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。

       回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares) 求解。


第一篇,不得不说手打好累,希望能坚持下去吧。

你可能感兴趣的:(机器学习)