数据挖掘基础导论学习笔记(五)

第五章 分类 其他分类
贝叶斯分类器
贝叶斯定理:把类的先验知识和从数据中收集的新证据相结合的统计原理。
公式:
P(Y|X)=P(X|Y)*P(Y)/P(X)
X是属性集,Y是类变量
X和Y看成随机变量,用P(Y|X)以概率的方式捕捉二者之间的关系,这个条件概率又称为Y的后验概率
P(Y)称为Y的先验概率
朴素贝叶斯分类器:
1 条件独立性
2 朴素贝叶斯分类器如何工作
3 估计分类属性的条件概率
4 估计连续属性的条件概率
5 条件概率的m估计
6 朴素贝叶斯分类器的特征:
面对孤立的噪声点,朴素贝叶斯分类器是健壮的,也可以处理属性值遗漏问题。
面对无关属性,该分类器是健壮的。
相关属性可能会降低该分类器的性能,因为对这些属性,条件独立的假设已经不成立。
7 贝叶斯误差率

贝叶斯信念网络(BNN)
1 模型表示
用图形表示一组随机变量之间的概率关系。主要有两部分组成:
(1)一个有向无环图,表示变量之间的依赖关系。
(2)一个概率表,把各节点和他的直接父结点关联起来。
如果从X到Y有一条有向弧,则X是Y的父母,Y是X的子女。
如果网络中存在一条从X到Z的有向路径,则X是Z的祖先。

性质:
条件独立:贝叶斯网络中的一个结点,如果他的父母结点已知,则他条件独立于他的所有非后代结点。

每个结点关联的概率表:
(1)如果结点X没有父母结点,则表中只包含先验概率P(X)
(2)如果结点X只有一个父母结点Y,则表中包含条件概率P(X|Y)
(3)如果结点X包含多个父母结点{Y1,Y2…Yk},则表中包含条件概率P(X|Y1,Y2…Yk)。

贝叶斯网络建立模型步骤
(1)创建网格结构
(2)估计每一个结点的概率表中的概率值

BNN特点
(1)BNN提供了一种用图形模型来捕获特定领域的先验知识的方法。网络还可以用来对变量间的因果依赖关系进行编码。
(2)构造网络可能既费时又费力,然而,一旦网络构建下来,添加新变量就十分容易。
(3)贝叶斯网络很适合处理不完整的数据。对有属性遗漏值的实例可以通过对该属性的所有可能取值的概率求和或求积分来加以处理。
(4)该方法对模型的过分拟合问题是非常棒的。

你可能感兴趣的:(数据挖掘导论基础知识,数据挖掘)