ml P9 逻辑回归

概览

p9:逻辑回归

疑问

笔记

B站19年李宏毅 P9

1.Function Set :方程集合

  • 由上面那个贝叶斯化简出来 从总体sample 出


    Function Set

2.Step 2: Goodness of a Function

  • 找出w,b让L最大


    推导1

    推导2
  • cross entropy 代表的是这两个分布有多接近,如果两个 distribution 一模一样的话,这个cross entropy 就是零


    推导3

3.逻辑回归与线性回归对比

  • 逻辑回归我们要最小化的对象是 所有 example 的 cross entropy 的总和,也就是说假设把 f(x) 当作一个伯努利 distribution ,把 yn hat 当作另外一个伯努利 distribution,C(f(x),y)下面那个公式之和是我们要最小化的东西。
  • 直观上来讲,我们希望 function 的 output 和 target ,如果把他们都看作是伯努利 distribution 的话,这两个伯努利 distribution 越接近越好。


    对比

4.Find the best function

  • 根据梯度下降法来算,先计算对 w 的偏微分,剩下的一样处理


    偏微分推导1

    偏微分推导2
  • wi的偏微分见下面,梯度下降的每一次参数更新也在下面
  • **式子代表的意义:现在参数的 update 取决于三件事:
    一、是learning rate 这个是自己调整的
    二、xi 这个来自与data
    三、第三项就是偏微分,具体式子看下面。这个微分的代表的意思是这个function的output跟他理想的目标的差距有多大。yn hat是目标,fw,b(x)是现在model的output,这两个相减的差代表这两个的差距有多大,如果现在离目标越远那么每次update的量就应该越大 **


    偏微分推导3结果

5.对比线性回归以及逻辑回归的update的式子

  • 式子形式一样,唯一不一样的是。logistic 的output一定是介于零和1之间的数字,target也只有0,1;
  • linear 的output可以是任何值,target 也可以是任何值。


    对比update

6.为什么不用Logistic Regression + Square Error


Logistic Regression + Square Error 1

Logistic Regression + Square Error 2

Cross Entropy v.s. Square Error

7.对比逻辑回归与贝叶斯的w,b(判别式与生成式)

  • logistic 和 前面贝叶斯的用的是同一个 function set 只不过用的是不同的假设,所以根据同一组 training data 找出来的参数会是不一样的。
  • 在 logistic regression 里面对数据的 distribution 没有做任何的假设,在 generative model (生成的,看起来是贝叶斯) 里面对 distribution 是有假设的,比如假设是高斯分布,伯努利之类的。根据假设可以找出另外一组 w,b


    Discriminative v.s. Generative 1
  • 同样用7个 feature ,Discriminative model 要比 Generative model 表现要好。


    Generative v.s. Discriminative 2
  • 举例说明 Generative 的表现为什么不太好


    Generative v.s. Discriminative 3

    Generative v.s. Discriminative 4
  • 最后算出来这个两个都是1 的data是属于 class2的
  • 因为 native 是没有考虑 feature1和 feature之间的关系的。现在在 class2 里我们没有发现这种两个都是1的data,他会认为我们是 sample的不够多。
  • generative model和 Discriminative model之间的区别就是:generative 做了某些假设:假设你的data来自于某个几率模型,脑补。


    Generative v.s. Discriminative 4
  • 如果今天training data的数量很少,那么 Generative model 可能会好一些。data慢慢增加的时候,Discriminative 会变得越来越好;
  • 如果data 是有问题的,那么 Generative model 可能会好一些。
  • 最后一句没有看懂 Priors and class-dependent probabilities can be estimated from different sources. 可以问一下。


    Generative v.s. Discriminative 5

8.分多个类别 :Multi-class Classification


Multi-class Classification 1

你可能感兴趣的:(ml P9 逻辑回归)