贝叶斯网络

定义:
贝叶斯网络是一个有向无环图,由代表变量结点及连接这些结点的有向边构成。可以将具体问题中复杂的变量关系在一个网络结构表示,通过网络模型反映问题领域中变量的依赖关系。用数学符号表示一个贝叶斯网络模型如下:
B=(V,E,P)
其中:
V={V1,V2,…Vn}                     随机变量集合;
E={ViVj|Vi,Vj∈V}                   有向边的集合;
P={P(Vi|V1,V2,…,Vi-1),Vi∈V}          条件概率分布集,即条件概率表;
变量可以是任何问题的抽象,用来代表感兴趣的现象、部件、状态或属性等,具有一定的物理和实际意义。有向边表示变量之间的依赖或因果关系,有向边的箭头代表因果关系影响的方向性(由父结点指向子结点),结点之间若无连接边表示结点所对应的变量之间是条件独立的, 其对应问题领域的定性描述。条件概率表列出了每个结点相对于其父结点所有可能的条件概率,其对应问题领域的定量描述。贝叶斯网络约定以结点Xi的父结点为条件,Xi与任意非Xi子结点条件独立。概率值表示子结点与其父结点之间的关联强度或置信度,没有父结点的结点概率为其先验概率。
 
 
 
贝叶斯网络的优势:
贝叶斯学习理论将先验知识与样本信息相结合、依赖关系与概率表示相结合,是数据挖掘和不确定性知识表示的理想模型。与数据挖掘中的其它方法如:规则表示、决策树、人工神经网络等相比,贝叶斯学习理论具有下列优点:
(1)    贝叶斯学习能够方便的处理不完全数据。例如考虑具有相关关系的多个输入变量的分类或回归问题,对标准的监督学习算法而言,变量间的相关性并不是它们处理的关键因素,当这些变量中有某个缺值时,它们的预测结果就会出现很大的偏差。而贝叶斯学习则提供了较为直观的概率关联关系模型。
(2)    贝叶斯学习能够学习变量间的因果关系。因果关系是数据挖掘中极为重要的模式。原因有二:在数据分析中,因果关系有利于对领域知识的理解;在干扰较多时,便于作出精确的预测。
(3)    贝叶斯网络与贝叶斯统计相结合能够充分利用领域知识和样本数据的信息。任何从事过实际建模任务的人都会知道先验信息或领域知识在建模方面的重要性,尤其是在样本数据稀疏或数据较难获得的时候,一些商业方面的专家系统完全根据领域专家知识来构建就是一个很好的例证。贝叶斯网络用弧表示变量间的依赖关系,用概率分布表来表示依赖关系的强弱,将先验信息与样本知识有机结合起来。
贝叶斯学习理论在数据挖掘中获得了成功的应用。对贝叶斯学习理论研究最大的动力就是它在实际应用中的巨大作用和潜力。目前,贝叶斯学习理论已成功地应用到智能用户接口、信息滤波、车辆自动导航、武器制导、医疗诊断、经济预测和文本分类等诸多领域。
 
贝叶斯网络的构建:
构建贝叶斯网络包括以下三部分内容:
(1)变量的定义;
(2)结构学习;
(3)参数学习。
网络结构学习的目标是找到和样本数据D匹配度最好的贝叶斯网络结构。贝叶斯网络的参数学习实质上是在已知网络结构的条件下,来学习每个节点的概率分布表。
这三个任务之间一般是顺序进行的,然而在构造过程中一般需要在以下两个方面作折中:一方面为了达到足够的精度,需要构建一个足够大的、丰富的网络模型;另一方面,要考虑构建、维护模型的费用和考虑概率推理的复杂性。实际上建立一个贝叶斯网络往往是上述三个过程迭代地、反复地交互过程。其中第二、三个任务是构建贝叶斯网络的关键点也是难点所在,主要是构建出一个有向无环图并给出图中每个结点的分布参数,即每个节点都对应一个条件概率分布表。
一般情况下,有三种不同方式来构造贝叶斯网络。
(1)    完整学习。这种方式完全由人主观定义贝叶斯网络结构及参数,完全由人的主观因素确定;
(2)    部分学习。这种方式由人主观定义贝叶斯网络中的结点变量,然后通过大量的训练数据来学习贝叶斯网的结构和参数。这种方式完全是一种数据驱动的方法,具有很强的适应性;
(3)    将以上两种方式的结合,由领域专家确定贝叶斯网络中的结点变量,通过专家的知识来指定网络的结构,再通过机器学习的方法从数据中学习网络的参数。


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/guyuan1983/archive/2008/02/28/2128774.aspx

你可能感兴趣的:(数据分析,算法,网络,数据挖掘,医疗,任务)