贝叶斯系列:(三)贝叶斯网络

贝叶斯网络是一种信念网,基于有向无环图来刻画属性之间的依赖关系的一种网络结构,并使用条件概率表(CPT)来描述联合概率分布。
具体来所,一个贝叶斯网络B由结构G和参数 两部分构成,B=(G, θ),网络结构G是一个有向无环图,点对应每一个属性,设父节点为π,所以包含了每个属性的条件概率表为这里写图片描述,如图所示:
贝叶斯系列:(三)贝叶斯网络_第1张图片

结构
以结构表达了属性之间的条件独立性,给定父节点集,假设每个属性与它的非后裔属性独立,于是有联合概率分布定义为:
这里写图片描述
两个变量通过第三个中间变量的连接方式主要有顺连、分连、汇连这三种连接形式(图1-3)。
贝叶斯系列:(三)贝叶斯网络_第2张图片
(1)顺连(图1-3a)
当z未知时,变量x的变化会影响z的置信度的变化,从而间接影响y的置信度,所以此时x间接影响y,x和y不独立。当变量z的置信度确定时,x就不能影响z,从而不能影响y,此时x和y独立,因为此时x和y的通道被阻断了。
(2)分连(图1-3b)
对于图b,分连代表一个原因导致多个结果,当变量z已知时,变量x和y之间就不能相互影响,是独立的,而当变量z未知时,z可以在变量x和y之间传递信息,从而使变量x和y相互影响从而不独立。
(3)汇连(图1-3c)
汇连与分连恰好相反,代表多个原因导致一个结果,并且当变量z已知时,变量x的置信度的提高会导致变量y的置信度的降低,从而x和y之间会相互影响所以是不独立的。而当z未知时,变量x和y之间置信度互不影响,他们之间是独立的。
故对于一个复杂的DAG,可定义这样一个结论(即D-分离):设E是一个DAG且包含A,B,C三个节点结合,为了判断A,B是否关于C条件独立,考虑E中所有A,B之间的无向路径满足以下条件的一条,则称这条路径是被阻断的:
(1) 路径中的某个节点X满足顺连或分连的连接方式,并且X属于C
(2) 路径中的节点X满足汇连的方式,并且X或X的子节点不属于C
如果连接A和B的所有路径都被阻断的,那么A和B是关于C条件独立的,否则A和B是不关于C条件独立的。

道德图
道德图是先找到结构中的汇连结构,并在汇连结构中的父节点上加上一条无向边,把结构中的所有有向边变为无向边,便形成了道德图,令父节点相连的过程称为“道德化”。
基于道德图能够迅速找到变量间的条件独立性,假定道德图中有变量x,y和变量集z={zi},若变量x和y能在图上被z分开,从道德图中将变量集合z去除后,x和y分别属于两个连通分支,即由z分成两个图,则称x和y被z有向分离,x⊥y|z成立(即x和y关于z条件独立)将上图道德化之后得到右图,
贝叶斯系列:(三)贝叶斯网络_第3张图片
所以i⊥l|g,g⊥s|i,d⊥l|g。

学习
若已知结构,只需要学习参数即可,然后估计出条件概率表即可。但现实中并不知晓网络结构,于是贝叶斯网络就是找出结构最巧当的贝叶斯网络,常用“评分搜索”的方法来进行结构好坏的评判,,就是先定义一个评分函数,然后评估贝叶斯网络与训练数据集的契合程度,然后基于评分函数来寻找最优网络结构。
评分函数是基于信息论的原则,即找到一个能以最短编码长度来描述训练数据的模型。长度包括模型自身的长度和描述该模型所需的参数的字节长度。
给定训练集这里写图片描述在数据集D上的评分函数为:
这里写图片描述
这里写图片描述
为贝叶斯网络B的对数似然,所以(15)中第一项是计算编码贝叶斯网络所需的参数的字节数,第二项是计算需要结构B所对应的Pb需要多少个字节来描述数据集D,故贝叶斯网络就是寻找结构使评分函数s(B|D)最小。

若f(θ)=1,即每个参数用一个字节描述,则得到AIC评分函数(AIC信息准则即Akaike information criterion,是衡量统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则,它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。
贝叶斯系列:(三)贝叶斯网络_第4张图片
若贝叶斯网络B的网络结构G固定,则评分函数s(B|D)的第一项是固定的,所以最小化评分函数就转化为参数θ最大似然函数估计,参数这里写图片描述能够直接在训练数据集D上通过经验估计获得即:
这里写图片描述
所以若结构一致,则需要对参数进行最大似然估计即可得到结构和参数。
但是从所有的网络结构空间进行搜索最优网络结构是一个NP问题,难以快速求解,一般有两种常用的方法快速求解:贪心算法:假设现有结构为最优,每次调整一条边(增加、删除、改变方向)直到评分函数值最低为止;第二种直接通过网络结构增加约束来减少搜索空间,例如将网络结构限定为树形结构等。

你可能感兴趣的:(数据挖掘,贝叶斯,朴素贝叶斯分类,数据挖掘,知识发现,机器学习,分类)