先介绍下问题的背景:
要从看NG Adrew的机器学习视频课程说起,这个课程很早就下载了,但是当时基础知识不够很多没看懂,反反复复看了几次前面的几节课程。昨晚再次看到"under fittng"以及"over fitting"这个视频(是第四个视频吧)的时候,里面讲到了这个问题,也就是在线性回归中,对房价的预测为什么使用了J = 1/2*(y-h(x))^2作为代价函数来求解参数。
接着介绍下问题:
在这个问题中有m个样本,分别用x_1,x_2,...x_m表示,对应的label分别为y_1,y_2,...y_m,使用J = 1/2*(y_1 - h(x_1))^2 + 1/2*(y_2 - h(x_2))^2+...+1/2*(y_m - h(x_m))^2,然后使用优化算法比如梯度下降对h中的参数theta进行优化求解,满足的前提是min J。
索要描述的问题就是:为什么最小化J之后得到的参数theta值,就是我们真正想要的呢?
答案:
令 y = h(x) + error,此时我们假设error符合均值为0的高斯分布(这个假设可以用很多方法证明的),此时当theta固定的话,h(x)是常数,所以p(y-h(x)) = p(error)。
利用似然性得到l(theta) = p(y_1-h(x_1))*p(y_2-h(x_2))*...*p(y_m-h(x_m)),因为error独立,故让l(theta)最大就可以得到error最小(这个可以根据正太分布的图形知道,当位于中心点的时候误差为0,此时概率最大)由于error符合高斯分布,带入到高斯分布函数中,就可以得到一个表达式(这个表达式太复杂了,csdn编辑器不支持,我就不写了),然后对l两边求log,最后就可以得到J。