lecture3 locally weighted & logistic regression

locally weighted regression:

terminologys:


parametric learning:有具体的参数θ,和数据多少无关(比如线性回归)。

non-paramatric learning:没有具体的参数,需要的内存会线性增长。

       如果是一个曲线,如何进行拟合?线性回归可能误差很大,当然可以采用feature selection选择二次或者三次函数指数函数这样的进行拟合,但是曲线变的很扭曲,怎么选择feature?

       采用局部加权回归,终点放在预测点的旁边,给予较大的权重,其他的地方权重降低。

lecture3 locally weighted & logistic regression_第1张图片

lecture3 locally weighted & logistic regression_第2张图片

      类似下面这张图,他权重的分配有一点像正态分布,很远的地方权重几乎是零。 其中的tau决定权重曲线的宽度。它的选择很有技巧,可以看到tao越大拟合越平滑。有很多论文。局部回归通常是作用于小数据集,并且难以判断曲线类型。

lecture3 locally weighted & logistic regression_第3张图片

why least square?

       首先我们对误差做出IID(independently identically distribution)的假设。这样数据量足够大的时候,根据Central limit theorem中心极限定理他们的平方加和就可以看作是正态分布的。

lecture3 locally weighted & logistic regression_第4张图片

       p(yi|xi;θ)就是对于确定的θ,y的概率分布。我们定义likelihood(似然),也就是在当前θ的设定之下,出现试验样本的可能性。可像而知,这个likelihood越大证明我们的模型拟合的越好。这也就是MLE(Maximum Likelihood Estimate)的简单理解。

lecture3 locally weighted & logistic regression_第5张图片

lecture3 locally weighted & logistic regression_第6张图片

      两边再取一波对数,就可以看出极大似然等价于最小二乘,这样最小二乘就resonable了。

logistic regrassion:

        面对的是一个分类问题,好比是0-1分类问题。首先朴素的想法是来一把线性回归,然后输入看一下值靠近一还是靠近零。但是一方面这样分类的不好,如下图。并且输出一个大于一的数本身就很奇怪。

lecture3 locally weighted & logistic regression_第7张图片

     逻辑回归原理其实很简单。就是通过sigmoid函数将预测值转化为一个0-1之间的,之后进行极大似然算出参数取值。

lecture3 locally weighted & logistic regression_第8张图片

lecture3 locally weighted & logistic regression_第9张图片

       由于h(x)是预测的值,很自然可以理解成他就是y=1的概率。好比我预测它的值是0.5,那就可以理解为他为一的概率是百分之五十,为零的概率也是百分之五十。

lecture3 locally weighted & logistic regression_第10张图片

这样将m个样本点的数据带进去就可以给出θ的似然,以及对数形式下的对数似然。问题转化成了一个最优化问题。

lecture3 locally weighted & logistic regression_第11张图片

       然后就算它的导数一步步更新就可以了。由于采用了sigmoid函数,他不会产生局部最大值。这也是之前选择sigmod而不是其他函数的原因

lecture3 locally weighted & logistic regression_第12张图片

最终会发现θ更新的方式和线性回归里面是一样的。事实上,广义线性模型都是这个样子,后面会讲。 

lecture3 locally weighted & logistic regression_第13张图片

 

你可能感兴趣的:(cs229)