ml P8 贝叶斯概型,从贝叶斯推出逻辑回归

概览

p8:贝叶斯概型,从贝叶斯推出逻辑回归

疑问

1.高斯分布以及高斯分布多个参数的情况
2.极大似然估计

笔记

B站19年李宏毅 P8

1.为什么regression不适合做分类

  • regression 会惩罚那些太正确的样本,就是那些远远大于1的样本,使分界线下偏。


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第1张图片
    为什么regression不适合做分类

2.Ideal Alternatives:理想方案

  • loss function 是来计算 分类错误的次数


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第2张图片
    理想方案

3.贝叶斯公式

  • 条件:从两个盒子里随机抽取一个球,是蓝色;
  • 问题:这个篮球从盒子1,2抽出来的几率分别是多少?


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第3张图片
    贝叶斯

4.贝叶斯分类讲解

  • 条件:这里有两个分类,class1和class2
  • 问题:给我们一个x(ei我们要分类的对象),求他从某个class里面sample出来的几率是多少?
  • 需要知道的值:红框标记的值。
  • p(c1) 从class1里面抽一个x的几率(从class1抽的几率)
  • p(c2) 从class2里面抽一个x的几率(从class2抽的几率)
  • p(x|c1) 从class1里面抽一个x的几率(抽出 x 的几率)
  • p(x|c2) 从class2里面抽一个x的几率(抽出 x 的几率)
  • 图片上的 P(c1|x) 的公式就是 x 属于 class1 的几率,分子抽到 class1的几率乘以从class1里抽出 x的几率,除以分母抽到 class1的几率乘以从class1里抽出 x的几率+抽到 class2的几率乘以从class2里(sample)抽出 x的几率
  • 想法:从一个模型中拿出x的几率,p(x)图片公式Generative Model:生成模型
    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第4张图片
    贝叶斯

5.Prior

  • class1 水系的,class2 一般系
  • p(c1) 从c1中sample出一只宝可梦的概率,p(c2) 从c2中sample出一只宝可梦的概率。


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第5张图片
    prior : 首先

6.Probability from Class:各个分类里面的概率

  • P(x|C1)从水系里面挑出来一只宝可梦,这只宝可梦是海龟的概率
  • 把每只宝可梦的数值做成一个向量,作为这个宝可梦的feature


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第6张图片
    Probability from Class

7.Probability from Class - Feature :各个分类里面的概率-特征

  • 选了两个维度的数据画在平面上(七个维度不能都画出来)
  • 海龟没有在训练集里面,怎么去看。
  • 假设这79个点是从一个高斯分布去sample出来的
  • 我们现在要做的就是找出这个高斯分布


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第7张图片
    Probability from Class - Feature

8.Probability from Class :属于这一类的概率

  • 根据这79个点找出高斯分布的 μ 和 Σ,就知道对应的高斯分布
  • 把x带入 fμ,Σ 的公式后,(图片黑色的公式)就可以算出对应 x 属于由目前这些样本猜测的高斯分布 sample 出来的概率。这个值里u(那个向量)越近,概率越大,否则越小
    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第8张图片
    Probability from Class

9.Maximum Likelihood : 最大似然估计 ——怎么找到上面说的 u 以及 Σ (Covariance)

  • 这79个点可以从任何一个高斯分布里面sample出来,不管 u 以及 Σ (Covariance)在哪里。因为从高斯分布sample出一个点可以是空间上的任意一个点只不过有些地方几率高,有些地方几率低。**但没有一个地方的几率是 exactly 等于零的。
  • 每个点都可能会sample出这79个点,但是每个高斯分布sample出79个点的 likelihood (可能性)不一样。右上角高斯分布的比较低,左下角sample出这79个点的可能性比较高。
  • 如果给出一个高斯分布的 u 以及 Σ 我们就可以算这个高斯分布sample出这79个点的几率
  • 最下面这个这个公式L(u,Σ),input就是 u 和 Σ,做的事情就是把 u 和 Σ 代入 likelihood 的 function 里面,然后就算出(根据图上这个公式L(u,Σ))算出这个高斯分布 sample出这79个点的概率是多大。
  • 公式L(u,Σ) 的解释:因为这79个点是独立被sample出来的,所以这个 Gaussian sample出这79个点的几率,就是这个 gaussian sample出第一个点的几率乘以 这个 gaussian sample出第二个点的几率乘以这个 gaussian sample出第三个点的几率。。。 。。。 乘以 这个 gaussian sample出第79个点的几率


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第9张图片
    Maximum Likelihood

10.Maximum Likelihood 极大似然估计

  • 我们有79只水系的宝可梦,我们知道这79个宝可梦是从某一个 gaussian 被sample出来的,接下来要做的事情就是找到这个 guassian,这个 guassian sample出这79个点的几率是最大的。我们就把这个 gaussian 当作sample出这79个点的 gaussian。这个gaussian的 u 和 Σ 写作 u* 和 Σ* 。
  • u* 就是这个79个报可能数据的平均值。
  • Σ* 就是把 u* 算出来之后,用每一个 x(二维向量) 减去 u* 得到一个向量,然后用这个向量乘以这个向量的转置。
  • Σ* 的另外一种算法,对 (,Σ) 对 Σ 作微分,解出来微分是零的点。


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第10张图片
    Maximum Likelihood

11.Maximum Likelihood

  • 根据上面提到的计算方式算出
  • 最有可能sample出 class1 的gaussian的 u1 和 Σ1
  • 最有可能sample出 class2 的gaussian的 u2 和 Σ2


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第11张图片
    Maximum Likelihood

12.Now we can do classification 现在我们可以做分类的问题了

  • 做分类问题其实就是给我一个x,他是从c1来的几率
  • 如果最后,(| ) 大于0.5,那么x就属于class1
  • p(c1),p(c2)很容易算,就是对应属于class1,class1的样本数,除以总的样本数(两个加起来)
  • (|1), (|2) 就是我们之前算出来的高斯分布函数 (gaussian distribution),这个两个的高斯分布函数的u* 和 Σ* 都已经算出来了。
  • 现在把现在这个样本的二维向量带入进去就可以得到对应的概率。


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第12张图片
    Now we can do classification

13.result

  • 左上角的图:这个图上的每一个点(宝可梦两个能力数值的二维向量)都可以计算出一个 (1|) (e.i x属于class1的概率)
  • 由于是分类问题 (1|) >0.5 则这个x属于class1,否者属于class2
  • 根据 (1|) = 0.5 画一条线,右上方大于 0.5 属于class1 左下方属于 class2
  • 这个是二维的数据,每个宝可梦有七个feature,可以建一个7维向量,则,u1 和 u2 是一个七维的向量(每个类型里面的所有维度数据的平均值)
  • Σ1 和 Σ2 是一个77的矩阵,参考上面 22 矩阵的算法。
    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第13张图片
    result

14.Modifying Model : 修改模型

  • 比较常见的做法是:不同的class可以share 同一个 Covariance matrix(协方差矩阵)
  • Covariance matrix 是跟 input 的 feature 的平方成正比的,当 feature size 很大的时候,增长可以是非常快的。所以在这种情况下,对两个不同的 gaussian 给它不同的 Covariance matrix ,这样的话 model 的参数可能会太多,model 的参数可能会太多,Covariance matrix 就会比较大,比较容易 overfitting。
  • 想要有效的减少参数的话,可以对这两类的样本给同样的 Covariance matrix 强迫他们公用同一组 Covariance matrix ,


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第14张图片
    Modifying Model

15.Modifying Model

  • 两组样本共用一个 Covariance matrix
  • 怎么找到对应的 1, 2, Σ,使得L( 1, 2, Σ)最大
  • 1 and 2 is the same,取对应类型的平均值
  • Σ 看图片右下角公式:根据每个分类算出来的 Covariance matrix weight by element 数目(加权平均)


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第15张图片
    Modifying Model

16.Modifying Model -result

  • 分界线是一条直线,我们也说这个是一个linear model
  • 如果不共用协方差矩阵,分界线是个曲线,就不是linear model。
  • 这个是七维空间的结果,并不知道是怎么分的。


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第16张图片
    Modifying Model

17.Three Steps ——回顾分类的三个步骤

  • 首先有一个model,也就是function set ,function set 里面的 function 都是 (1|) 的样子。
  • input一个x,我们有 class1,2 的 p(c1), p(c2)。class1 和class2 产生 x 的 概率分布函数
  • p(c1), p(c2)以及 class1 和class2 产生 x 的 概率分布函数 就是model的参数
  • 选择不同的 class1 和class2 产生 x 的 概率分布函数 就会得到不同的 function,不同的 mean,不同的 Covariance matrix 就会得到不同的概率分布函数。这些不同的分布函数集合起来就是一个model就是一个function set
  • 怎么决定分类:If ( |) > 0.5, output: class 1 Otherwise, output: class 2
  • 极大似然估计找出参数的好坏——看图片


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第17张图片
    Three Steps

18.Probability Distribution

  • 选高斯还是其他分布是自己决定的
  • 如果每一个样本的每一个feature都是独立的,可以选择一维gaussian。(If you assume all the dimensions are independent, then you are using Naive Bayes Classifier.)
  • 如果对一个二元特征,更适合伯努利分布。就是概率论里面不同分布所使用的地方(For binary features, you may assume they are from Bernoulli distributions.)


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第18张图片
    Probability Distribution

19.Posterior Probability:后验概率

  • 分子分母同除分子之后,把右下角那一块带入z,会得到 sigmoid function,右下角是 sigmoid function 的图像


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第19张图片
    后验概率

20.公式化简到最后的结果

  • 直接找w,b


    ml P8 贝叶斯概型,从贝叶斯推出逻辑回归_第20张图片
    直接找w,b

你可能感兴趣的:(ml P8 贝叶斯概型,从贝叶斯推出逻辑回归)