第五章(3) 分类:贝叶斯分类器

  1. 在一些情况中,属性和类之间的关系是不确定的,产生这种情况的原因可能是噪声或是其他因素,所以,引入对属性集和类的概率关系的建模,即贝叶斯分类器,两种:朴素贝叶斯和贝叶斯信念网络
  2. 贝叶斯定理:先验知识在现实中的概率实现
  3. 贝叶斯定理在分类中的应用:在现实,它允许我们用先验概率、类条件概率、证据来表示后验概率,所以对类条件概率的估计就由朴素贝叶斯和贝叶斯信念网络来实现
  4. 朴素贝叶斯:
    1. 前提是假设属性之间条件独立
    2. 有了条件独立,条件之间的组合概率可以不用计算,直接连乘得到,对给定的类y,计算每一个属性组合的条件概率即可(或者一起求出来);对于所有y,p(x)是固定的,所以不用求
      1. 估计分类属性的条件概率:即条件下的概率
      2. 估计连续属性的条件概率:
        1. 把连续属性离散化,将连续属性转化成序数属性
        2. 假设连续变量服从某种概率分布,然后使用其参数
    3. 条件概率的m估计:在现实中,如果一个属性的类条件概率为0,则整个类的后验概率为0,且在训练记录较少时,这种情况很容易发生,这时朴素贝叶斯无法使用,只有加入m估计,是一种更加健壮的概率估计方法
    4. 朴素贝叶斯分类器的特征:
      1. 面对孤立的噪声点,朴素贝叶斯分类器是健壮的
      2. 面对无关属性,朴素贝叶斯分类器是健壮的
      3. 相关属性可能会降低朴素贝叶斯分类器的性能(因为假设不成立,连乘不成立)
  5. 贝叶斯误差率:在已知类的前提下,犯I类错误的概率,在多个类的交界处,其总误差率为贝叶斯误差率,在这其中作的决定都有可能是错误的,但是是可以被计算的也是可以被接受的。
  6. 贝叶斯信念网络:不要求给定类的所有属性都条件独立,而是指定那些属性条件独立
    1. 模型表示:贝叶斯信念网络BBN(一个有向无环图,一个概率表)
      1. 条件独立:贝叶斯网络中的一个结点,如果它的父母结点已知,则它条件独立于它的所有非后代结点
      2. 概率表:即父母结点的条件概率
    2. 建立模型:两个步骤
      1. 创建网格结构
      2. 估计每一个结点的概率表中的概率值
      3. 算法保证生成的拓扑图不包含环,不可以存在一条弧从低序结点指向高序结点
      4. 简化方法:将变量分为原因变量和结果变量,从各原因变量向对应的结果变量画弧
      5. 概率的确定比较简单,即朴素贝叶斯理论(朴素贝叶斯假设属性是同级的,没有父子关系,而现实中条件之间的父子关系其实是常见的)
    3. 使用BBN举例
    4. BBN的特点:
      1. BBN是一种用图形模型来获取特定领域的先验知识的方法
      2. 构建网络开销大,但是一旦确定添加新变量会变得简单
      3. 贝叶斯网络可以处理属性或前提不完整的数据
      4. 因为数据和先验知识以概率的方式结合起来了,所以贝叶斯网络对模型的过分拟合问题是非常稳健的

 

你可能感兴趣的:(数据挖掘导论)