斯坦福机器学习公开课6-x逻辑回归

起初 这一课主要是没有理解为何要使用-log(h theta (x))和-log(1-h theta (x))作为损失函数。

要理解 对于分类是不适合采用线性回归的。比如二分类。采用线性回归。会随着样本的变化有很大预测问题。比如之前的样本以0.5作为分界,样本分布在1-200之间,线性拟合得到阈值超过大小100就是恶性的了。100时为0.5。此时如果样本中突然来了一个1000的肿瘤。那么导致斜率下降。阈值右移,到了300.很显然不符合我们的预测。

斯坦福机器学习公开课6-x逻辑回归_第1张图片



第二如果使用之前的最小二乘法来估计损失函数。

第一是会有多个局部最优值。没有全局最优值。


如何理解可以使用 -log(h heta(x))作为代价函数呢。首先 [ -log(h  heta(x)) y=1 ]依旧是针对一个样本的损失函数。总损失函数依然是对每个样本损失函数求和。

这一部分需要用概率来理解。(h  heta(x))表示的是 预测对了样本 的概率

以 y=1时的 -log(h theta(x))为例。也就是样本的标签是1。h theta(x)表示样本特性为x的时候 判定该样本为y=1(即该样本为正样本)的概率。如果h  heta(x)是符合我们要求的函数。那么 h theta(x)应该是越接近1的. -log(h  heta(x))就越接近0.这样总cost就小,满足我们的要求。如果h  heta(x)不满足我们的要求,判定结果为负样本。那么h  heta(x)就越接近于0.导致 -log(h  heta(x))接近于无穷大。这样cost就会很大,此时需要我们通过调整theta使得cost最小。同理 y=0时也一样。

也就是真实的样本是正样本 1 。结果通过h  heta(x)计算出来是负样本0 或者接近0比如0.1的概率是正样本。那么-log(h  heta(x))就会让这个COST特别大。使得我们不得不调整theta。

最小二乘法的理解是让更多的样本更靠近拟合的直线。


前面有人说到对数损失函数是由最大似然估计推导得到的。这部分没有验证。但是我理解了一下似然函数和最大似然估计。这里做个记录,避免以后忘记。

似然函数就是用当前的样本得到一个估计函数。最大似然估计则是求一个theta使得似然函数取得最大值。

假定正面向上概率为theta,那么背面向上概率为1-theta     theta处于0-1之间

假设抛硬币4次 观测到结果为 1 0 1 0 。那么根据这些样本得到的似然函数就是 theta*(1-theta)*theta*(1-theta)=y。求该函数的得到极大值时theta的概率。得到的theta就是正面向上的概率。如果我只抛了一次为正面。那么theta肯定是1.也就是说抛一次正面向上的概率为1。如果抛多次,那么每次函数不一样.theta应该是慢慢接近于0.5的。


因为一次测量得到的数据理论上来说一定是概率最大的(比如某事件发生的概率为99%,不发生概率为1%,通常你试验一次,理论上是发生的。)当我得到样本的时候应该是最大概率。因此要求得满足函数的极大值时theta值作为概率。




你可能感兴趣的:(机器学习和GPU)