《数据挖掘导论》CH5.3贝叶斯分类器

背景:
属性集和类变量之间的关系是不确定的,其一,噪声数据的干扰;其二,出现某些影响分类的因素没有包含在属性集中。
因此,出现一种对属性集和类变量的概率关系建模的方法。贝叶斯定理是把类的先验知识和从数据中收集的新证据相结合的统计原理。它可以通过先验概率、类条件概率和证据来表示后验概率。(5-11)
对于类条件概率的估算有两种方法:

5.3.3朴素贝叶斯分类器
1.前提:条件独立性:属性集的属性(条件)与类之间是独立的互不影响的。在条件独立性的基础上,类条件概率=各属性类条件概率的乘积。
2.属性的类型有分类属性和连续属性,它们的条件概率的估计方法不同。
2.1分类属性的条件概率=频数相除
2.2连续属性的条件概率=假设该属性变量服从某种概率分布,然后用训练数据估计分布的参数,得到该属性的概率密度函数。
举例:预测贷款人是否会拖欠贷款P143
3.朴素贝叶斯分类存在的问题:后验概率为0的伪情况:
3.1如果一个属性的类条件概率为0,整个类的后验概率就为0;训练样例没有覆盖所有的属性值,导致某些属性值的类条件概率为0。
3.2解决办法:条件概率的m估计(P144),当样例较少时,m估计通常是一种更加健壮的估计方法。
4.贝叶斯误差率

5.3.5贝叶斯信念网络

你可能感兴趣的:(《数据挖掘导论》CH5.3贝叶斯分类器)