信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量

  • 信息检索分类例子:

    • 文档编码的识别分词
    • 真实的大小写处理
    • 文档语言类型的判定
    • 垃圾网页的自动判定
    • 色情淫秽内容的自动判定
    • 情感发现
    • 个人的邮件组织和整理
    • 面向主题的搜索或者垂直搜索
    • 构建ad hoc IR中的排序函数
  • 分类方法

    1. 手工分类
    2. 人工编写规则
    3. 基于机器学习的方法

朴素贝叶斯文本分类

  • 多项式朴素贝叶斯(multinomial Naive Bayes)或多项式NB(multinomial NB)


    信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第1张图片

最可能的类是具有MAP(maximum a posteriori,最大后验概率)估计值的结果:


信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第2张图片
信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第3张图片
信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第4张图片
信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第5张图片

贝努利模型

  • 条件独立性假设

  • 信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第6张图片

    :是在d中出现的词项序列(去掉停用词)
    :一个M维的布尔向量,表示每个词项在文档d中存在与否
    P(Xk=t|c)表示一篇c类文档中词项t出现在位置k上的概率。
    P(Ui=1|c)表示ti出现在c类文档中的概率,这时可以是在任意位置上出现任意多次。

  • 位置独立性假设:

    • 词项在文档中出现位置本身并不包含任何人类有用的信息
    • 假设在不同位置k上的词项分布不一样的话,那么就要估计针对每个k的一系列参数,导致稀疏性问题。


  • 多项式模型和贝努利模型的比较


    信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第7张图片
  • NB分类中伸出的那一类往往会比其他类得到的概念估计值大很多,并且其估计值会和真实值相差非常大。然而,分类觉此取决于哪个类得分最高,它并不关注得分本身的精确性。正确的参数估计意味着精确的预测,但是精确的预测不一定意味着正确的参数估计。NB分类器的估计效果很差,但是往往分类效果不错。

  • NB优点:速度快+不低的精确度

    1. 当有多个同等重要的特征联合起来对分类决策起作用时,NB能够表现出很好的效果。
    2. NB能够对噪音特征和概念漂移的现象表现出一定程度的鲁棒性(贝努利模型尤其对概念飘移具有鲁棒性,但对噪声特征特别敏感)
      ps: 概念漂移:随时间的推移类别的概念发生了变化的现象

特征选择

  • 目的:
    1. 通过减少有效的词汇空间来提高分类器训练和应用的效率
    2. 去除噪声特征,从而提高分类的精度
  • 互信息
    MI(expected mutual information,期望互信息)作为A(t,c)。MI度量的是词项的存在与否给类别c的正确判断所带来的信息量。MI的形 式化定义如下:


    信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第8张图片
信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第9张图片

为从给定的类别中选出k个词项,先计算每个词项的效用指标A(t,c)=I(Ut,Cc),然后选择值最大的k个词项。
如果某个词项在类别中的分布等同于其在所有文档集上的分布,那么I(U;C)=0。当词项是判定类别归属的最佳特征时,互信息达到最大值。此时的词项满足:当且仅当某篇文档属于当前类别时,词项出现在该文档中。

  • 卡方统计量
    常常用于检测两个事件的独立性。
    X2 度量的是期望值E和观察值N的偏离程度。X2 值大则意味着独立性假设不成立,此时期望
    值和观察值相差不大。


    信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第10张图片

如果两个事件互相依赖,那么词项的出现也会使某个类别的出现更有可能或更不可能,因此它适合于作为特征被选出来。这就是χ 2特征 选择方法的基本原理。


信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量_第11张图片
  • MI与卡方的比较
    • 不同:即使词项t几乎不携带任何有关文档归属类别c的信息,t和c的独立性假设有时也可能在置信度很高的情况在被拒绝。对于罕见词项尤其如此。如果某个词项仅在文档集的c类中出现了一次,那么这就具有统计显著性。然而,根据信息论,一次出现所携带的信息量是不够的。由于卡方基于显著统计性来选择特征,因此它会比MI选出更多的罕见词项,而这些词项对于分类是不太可靠的。当然,MI也不一定就能选出使得分类进度最大化的词项。
      对于卡方特征选择方法,最优值来得稍迟一点,这可能因为卡方开始选择的具有统计显著性的罕见词没有覆盖类别中的所有文档。然而,在这之后的特征选择区间上,卡方表现出比MI更好的效果。
    • 相同:基于MI和卡方的分类精度看上去并没有系统上的太大不同。在很多文本分类问题中,只有很少的强指示特征(简称强特征),大部分是弱指示特征(简称弱特征)。只要所有的强特征和很多弱特征被选出,那么分类的期望精度就不错。而上述两种特征选择方法都能做到这一点。 MI和卡方都是基于贪心的策略。他们所选择的特征中,相对于前面选出的特征,后面选出的特征可能并没有提供新的增量信息,可能是冗余信息。(尽管这些冗余特征会对分类精度造成负面影响,非贪心策略由于计算开销很大很少在文本分类中使用)

你可能感兴趣的:(信息检索复习(6)——文本分类、朴素贝叶斯、贝努利模型、互信息、卡方统计量)