贝叶斯系列:(二)半朴素贝叶斯分类器

现实情况是属性全部独立基本上是不可能的,而如果完全考虑各属性之间的相关性会大大增加计算复杂度,所以才引入半朴素贝叶斯网络:进一步放松条件独立性假设,即假设部分属性之间存在依赖关系。
独依赖估计:每个其他属性最多只依赖于一个属性,即:
这里写图片描述
对于父属性已知的计算,可采用式(9)的计算方式进行计算。故问题就在如何确定父属性,最简单的方法是如图(b)所示,SPODE,称为超父属性,即所有节点都依赖于同一个父属性,x1为超父属性。
贝叶斯系列:(二)半朴素贝叶斯分类器_第1张图片
TAN树则是在最大带权生成树算法的基础上,通过一下步骤获得(c)的树形结构:
(1) 计算任意两个属性之间的条件互信息
这里写图片描述
(2) 以属性为节点构造完全图,两节点之间的权值为互信息这里写图片描述
(3) 构建此完全图的最大带权生成树,挑选根变量,将边设置为有向的;
(4) 加入类别节点y,增加从y到每个属性xi的有向边;
通过条件互信息就刻画了属性之间的依赖关系,然后基于互信息计算属性之间的权值,从而实现半朴素贝叶斯网络的构建。
AODE是一种基于集成学习机制、更为强大的独依赖分类器。与SPODE确定超父属性的方法不同,AODE尝试将每个属性都作为超父属性来构建SPODE,然后将具有足够训练支撑的SPODE集成起来作为最终结果,即:
这里写图片描述
Dxi是在第i个属性上取值为xi的样本的集合(xi为父节点),m为阈值常数(一般默认为30),故AODE方法需要估计P(c,xi)和p(xj|c,xi),利用拉普拉斯平滑有原理,与式(7)(8)类似(参见文章:贝叶斯系列:(一)朴素贝叶斯分类器):
贝叶斯系列:(二)半朴素贝叶斯分类器_第2张图片

你可能感兴趣的:(数据挖掘,贝叶斯,朴素贝叶斯分类)