局部加权回归

《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文,希望大家共同讨论,共同进步。

网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html


写了几篇笔记,发现好像课程题目和课程内容并不是十分拟合,所以,这篇博文开始,就不会再以课程题目为博客标题了,会从课程中的主要内容总结出题目来,以防造成大家的阅读困扰。


本篇博文整理 课程3(欠拟合与拟合的概念)的主要内容:

(1)局部加权回归

(2)对于线性模型的概率解释(下篇博文再做详细分析)


局部加权回归


以之前提到的房价为例:

局部加权回归_第1张图片         我们采用第一种线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting)。

  而采用图三多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的
 过拟合(overfitting),不符合数据真实的模型。


 

局部加权回归是一种非参数学习方法它的主要思想就是只对预测样本附近的一些样本进行选择,根据这些样本得到回归方程,那么此时我们得到的回归方程就比较拟合样本数据,不会存在欠拟合和过拟合的现象。


与参数学习方法相比,非参数学习方法的不同之处在于:

参数学习方法是用一组训练得到一系列训练参数,然后确定出预测函数h,之后就可以根据新的输入来输出新的预测值,不再依赖之前的训练集了,参数值求解出来后一直是确定的。

而非参数学习方法是在预测新样本值时候每次都会根据预测样本附近的训练集求解新的参数值,即每次预测新样本是都会依赖训练集求解新的参数,所以每次得到的参数值是不确定的。


以上述房价为例解释 局部加权回归方法的思路:

1、加入一个加权因子:       

               

    

     (1)如果,则。   (所以当预测样本举例训练样本越近,权值越大)

      (2)如果,则。 (所以当预测样本举例训练样本越远,权值越小)


2、重新构造新的j(θ):


局部加权回归的弊端:

(1)当数据规模比较大的时候计算量很大,学习效率很低。

(2)并不一定能避免欠拟合。

你可能感兴趣的:(Andrew,Ng,机器学习笔记,机器学习,欠拟合,过拟合,局部加权回归)