人工智能原理复习–确定性推理
常识具有不确定性。
常识往往对环境有极强的依存性。
其中已知事实
和知识
是构成推理的两个基本要素,不确定性可以理解为在缺少足够信息的情况下做出判断。
要实现对不确定性知识的处理,要解决:1、不确定知识的表示问题 2、不确定信息的计算问题 3、不确定性表示 4、计算的语义解释问题
解决办法:
表示问题:
规则不确定性( E → H , f ( H , E ) E \rightarrow H, f(H, E) E→H,f(H,E))表示知识的不确定性程度
证据不确定性( E , C ( E ) E, C(E) E,C(E)), 证据E为真的程度,由初始证据,和推出揭露为来源
计算问题:
指不确定性的传播和更新
语义问题:
表示问题可以使用概率论或模糊数学
不确定性推理方法分类:
模型方法分为:
传统贝叶斯方法
先验概率:p(事件)在没有知识支持它的出现或不出现的情况下赋给这个事件的概率,即先于证据的概率
后验概率:p(事件 / 证据)给定一些证据的条件下这个实践发生的概率
P ⇒ Q P \Rightarrow Q P⇒Q的不确定表示后验概率 p ( Q / P ) p(Q/P) p(Q/P)
条件概率公式:
p ( Q / P ) = p ( P / Q ) ∗ p ( Q ) p ( P ) p(Q/P) = \frac{p(P/Q)*p(Q)}{p(P)} p(Q/P)=p(P)p(P/Q)∗p(Q)
传统贝叶斯理论需要获取大量样本时间来统计 p ( P ) , p ( Q ) , p ( P / Q ) p(P), p(Q), p(P / Q) p(P),p(Q),p(P/Q)
但是有些同类事件发生的频率不高
主观贝叶斯方法
由于传统贝叶斯中的先验概率 p ( P ) p(P) p(P)很难获得,所以要消去 p ( P ) p(P) p(P)
定义先验几率:
Q 的先验几率为 O ( Q ) = p ( Q ) p ( ¬ Q ) Q的先验几率为O(Q) = \frac{p(Q)}{p(\lnot Q)} Q的先验几率为O(Q)=p(¬Q)p(Q)
Q 的后验几率为 O ( Q / P ) = p ( Q / P ) p ( ¬ Q / P ) Q的后验几率为O(Q/P) = \frac{p(Q/P)}{p(\lnot Q/ P)} Q的后验几率为O(Q/P)=p(¬Q/P)p(Q/P)
L S 为充分性因子 = p ( P / Q ) p ( P / ¬ Q ) LS为充分性因子 = \frac{p(P/Q)}{p(P/ \lnot Q)} LS为充分性因子=p(P/¬Q)p(P/Q)
充分因子表示P成立对Q成立的影响力
因此 O ( Q / P ) = L S ∗ O ( Q ) O(Q/P) = LS * O(Q) O(Q/P)=LS∗O(Q)称为Bayes公式的似然形式
同理可以推出:
p ( Q / ¬ P ) p ( ¬ Q / ¬ P ) = p ( ¬ P / Q ) p ( ¬ P / ¬ Q ) ∗ O ( Q ) \frac{p(Q/ \lnot P)}{p(\lnot Q / \lnot P)} = \frac{p(\lnot P /Q)}{p(\lnot P / \lnot Q)} *O(Q) p(¬Q/¬P)p(Q/¬P)=p(¬P/¬Q)p(¬P/Q)∗O(Q)
定义: L N 为必要性因子 = p ( ¬ P / Q ) p ( ¬ P / ¬ Q ) LN为必要性因子 = \frac{p(\lnot P / Q)}{p(\lnot P / \lnot Q)} LN为必要性因子=p(¬P/¬Q)p(¬P/Q)
O ( Q / P ) = L S ∗ O ( Q ) O(Q/P) = LS*O(Q) O(Q/P)=LS∗O(Q)
对LS—充分性因子
表示P成立对Q成立的影响力
O ( Q / ¬ P ) = L N ∗ O ( Q ) O(Q / \lnot P) = LN * O(Q) O(Q/¬P)=LN∗O(Q)
对LN—必要性因子
表示P不成立对Q成立的影响力
而专家系统,基于专家主观估计的LS(和LN)而验算出来的后验概率p(Q/P)称为主观概率。
所以
p ( Q / P ) = L S ∗ O ( Q ) L S ∗ O ( Q ) + 1 = O ( Q / P ) O ( Q / P ) + 1 p(Q/P) = \frac{LS * O(Q)}{LS*O(Q) + 1} =\frac{O(Q/P)}{O(Q/P) + 1} p(Q/P)=LS∗O(Q)+1LS∗O(Q)=O(Q/P)+1O(Q/P)
p ( Q / ¬ P ) = L N ∗ O ( Q ) L N ∗ O ( Q ) + 1 p( Q/ \lnot P) = \frac{LN * O(Q)}{LN*O(Q) + 1} p(Q/¬P)=LN∗O(Q)+1LN∗O(Q)
若 P ′ ⇒ P ⇒ Q P' \Rightarrow P \Rightarrow Q P′⇒P⇒Q, 给出 p ( P / P ′ ) p(P/P') p(P/P′), 则我们要求 p ( Q / P ′ ) p (Q/P') p(Q/P′)
同理可以传递更长路径:
P ′ ⇒ P ⇒ Q ⇒ W P' \Rightarrow P \Rightarrow Q \Rightarrow W P′⇒P⇒Q⇒W
p ( W / P ′ ) = p ( W / Q ) ∗ p ( Q / P ′ ) + p ( W / ¬ Q ) ∗ p ( ¬ Q / P ′ ) p(W/P') = p(W/Q)*p(Q/P') + p(W/ \lnot Q)*p(\lnot Q / P') p(W/P′)=p(W/Q)∗p(Q/P′)+p(W/¬Q)∗p(¬Q/P′)
而 p ( Q / P ′ ) = p ( Q / P ) ∗ p ( P / P ′ ) + p ( Q / ¬ P ) ∗ p ( ¬ P / P ′ ) p(Q/P') = p(Q/P)*p(P/P') + p(Q/\lnot P) * p(\lnot P / P') p(Q/P′)=p(Q/P)∗p(P/P′)+p(Q/¬P)∗p(¬P/P′)由上面已知
以此递归可求;
根据 p ( P / P ′ ) 的值, p ( Q / P ′ ) 值也会不同 p(P/P')的值, p(Q/P')值也会不同 p(P/P′)的值,p(Q/P′)值也会不同
但是当 p ( P / P ′ ) 的值位于折点之间时 p(P/P')的值位于折点之间时 p(P/P′)的值位于折点之间时
共有两条直线,而为与这两条直线上时
分段线性插值手段:
不确定性的组合
当多个相互独立的前提 P i P_i Pi支持同一结论Q的情况,表示为:
P 1 ′ ⇒ P 1 ⇒ Q P'_1 \Rightarrow P_1 \Rightarrow Q P1′⇒P1⇒Q
P 2 ′ ⇒ P 2 ⇒ Q P'_2 \Rightarrow P_2 \Rightarrow Q P2′⇒P2⇒Q
有 P 1 ′ P 2 ′ ⇒ Q P'_1P'_2 \Rightarrow Q P1′P2′⇒Q
主观贝叶斯的优点:1. 基于概率模型,具有坚实的理论基础,是目前不确定推理中最成熟的方法之一
缺点:1. 需要大量的概率数据来构造知识库,并且那一解释 2. 要求原始证据具有相互独立性
该方法采用可信度CF作为不确定性的度量,通过对CF(H, E)的计算,探讨证据E对假设H的定量支持程度,因此也称为C-F模型。
C F ( H , E ) = M B ( H , E ) − M D ( H , E ) CF(H, E) = MB(H,E) - MD(H, E) CF(H,E)=MB(H,E)−MD(H,E)
MB(H, E) = a —信任度量
证据E成立使结论H的可信度增加了数量a
MD(H, E) = B —不信任度量
证据E成立使结论H的不可信度增加了数量b
MB(H, E)和MD(H, E)不能同时大于0
,因为同一证据E不能既增加结论H的可信度,有增强不可信度
(4)对H的信任增长度等于对非H的不信任增长度
M D ( ¬ H , E ) = M B ( H , E ) MD(\lnot H, E) = MB(H, E) MD(¬H,E)=MB(H,E)
对H的可信度与非H的可信度之和等于0
C F ( H , E ) + C F ( ¬ H , E ) = 0 CF(H,E) + CF(\lnot H, E) = 0 CF(H,E)+CF(¬H,E)=0
可信度不是概率
(5)对同一个前提E,若支持若干个不同的结论 H i H_i Hi则 ∑ C F ( H i , E ) < = 1 \sum{CF(H_i , E)} <= 1 ∑CF(Hi,E)<=1
所以如果出现 C F ( H 1 , E ) = 0.7 , C F ( H 2 , E ) = 0.4 CF(H_1, E) = 0.7, CF(H_2, E) = 0.4 CF(H1,E)=0.7,CF(H2,E)=0.4是不符合的要进行调整
由于实际应用中P(H)和P(H|E)的值很难获得,所以CF(H,E)的值应有领域专家给出
可信度的计算:
产生式规则表示
I f E T h e n H ( C F ( H , E ) ) If\ E\ Then\ H \ (CF(H,E)) If E Then H (CF(H,E))
E为前提,H为结论,CF(H, E)为规则的可信度所描述的是知识的静态强度
证据E的不确定性也是用CF表示为CF(E), 其取值范围为[-1, 1]
当E为真时:CF(E) = 1
当E为假时:CF(E) = -1
当E一无所知时:CF(E) = 0
CF(E)所描述的是证据的动态强度。
组合证据不确定性的计算
采用最大值最小值的形式
当组合证据是单一证据的合取( ∧ \land ∧)时取 m i n min min
当组合证据是单一证据的析取( ∨ \lor ∨)时取 m a x max max
C F ( ¬ E ) = ¬ C F ( E ) CF(\lnot E) = \lnot CF(E) CF(¬E)=¬CF(E)
不确定性的推理算法
证据肯定存在时(CF(E) = 1)时
有 CF(H) = CF(H, E)
证据不是肯定存在的 ( C F ( E ) ≠ 1 ) (CF(E)\not = 1) (CF(E)=1)时
C F ( H ) = C F ( H , E ) ∗ m a x { 0 , C F ( E ) } CF(H) = CF(H, E) * max\{0, CF(E)\} CF(H)=CF(H,E)∗max{0,CF(E)}
这说明改模型没有考虑证据为假时对结论H所产生的影响
当是组合证据时
MYCIN优化
MYCIN定义:
C F = M B − M D 1 − m i n { M B , M D } CF = \frac{MB - MD}{1 - min\{ MB, MD\}} CF=1−min{MB,MD}MB−MD
这样可以削弱一个反面证据对多个正面证据的影响
同时提出规则前提的CF值必须 > 0.2
的门阀值
优点:1. 具有简洁直观的优点。通过简单的计算,不确定性就可以在系统中传播,并且具有线性复杂度 2. 容易理解,将不信任和信任清楚的区分开来
缺点:1. 可能与条件概率的出的结果相反 2. MYCIN一般应用于短推理链,长了会有问题 3. 可能导致累计误差 4. 组合规则的顺序不同可能得到不同的结果
用一个概率范围而不是单个概率值取模拟不确定性
可信度可以看作是证据理论的一个特例,同时给了可信度一个理论性的基础
在证据理论中,可以分别用信任函数、似然函数及类概率函数来描述精确信任度、不可驳斥信任度及估计信任度,可以从各个不同角度刻画命题的不确定性
采用集合表示命题,先建立命题与集合之间一一对应关系,不命题的不确定性问题转换成集合的不确定问题
概率分配函数
例:
信任函数
定义:在Bel
: 2 Ω → [ 0 , 1 ] 2^{\Omega \rightarrow [0, 1]} 2Ω→[0,1] 对任意的 A ⊆ Ω A \subseteq \Omega A⊆Ω有,
B e l ( A ) = ∑ B ⊆ A m ( B ) Bel(A) = \sum_{B \subseteq A}{m(B)} Bel(A)=B⊆A∑m(B)
Bel(A)表示当前环境下,对假设集A的信任程度,其值为A的所有子集的基本概率之和,表示对A的总的信任度
似然函数
定义:Pl
: 2 Ω → [ 0 , 1 ] 2^{\Omega \rightarrow [0, 1]} 2Ω→[0,1] 对任意的 A ⊆ Ω A \subseteq \Omega A⊆Ω有
P l ( A ) = 1 − B e l ( ¬ A ) Pl(A) = 1 - Bel(\lnot A) Pl(A)=1−Bel(¬A)
其中, ¬ A = Ω − A \lnot A = \Omega - A ¬A=Ω−A
似然函数称为不可驳斥函数或上限函数
由于Bel(A)表示对A为真的信任度, B e l ( ¬ A ) Bel(\lnot A) Bel(¬A) 表示对 ¬ A \lnot A ¬A的信任度, 因此Pl(A)表示对A为非假的信任度。
推论
P l ( A ) = ∑ A ∩ B ≠ ∅ m ( B ) Pl(A) = \sum_{A \cap B \not = \emptyset}{m(B)} Pl(A)=A∩B=∅∑m(B)
信任函数和似然函数的性质
信任区间
分别用Bel(A)和Pl(A)为对A信任程度的下限和上限,
记为:
A ( B e l ( A ) , P l ( A ) A(Bel(A), Pl(A) A(Bel(A),Pl(A)
P l ( A ) − B e l ( A ) Pl(A) - Bel(A) Pl(A)−Bel(A)表示既不信任A,也不信任 ¬ A \lnot A ¬A的程度, 即对于A是真是假不知道的程度。
类概率函数
f ( A ) = B e l ( A ) + ∣ A ∣ ∣ Ω ∣ ∗ ( P l ( A ) − B e l ( A ) ) f(A) = Bel(A) + \frac{|A|}{|\Omega|}*(Pl(A) - Bel(A)) f(A)=Bel(A)+∣Ω∣∣A∣∗(Pl(A)−Bel(A))
其中|A|、| Ω \Omega Ω|分别表示A和 Ω \Omega Ω中包含元素个数
类概率函数 f ( A ) f(A) f(A)也可以用来度量证据A的不确定性。
性质:
证据的组合函数
具有不确定的推理规则可表示为:
i f E T h e n H , C F if\ E\ Then\ H,\ CF if E Then H, CF
H可表示为: H = { a 1 , a 2 . . . a m a_1,a_2 ... a_m a1,a2...am}H为假设集合 Ω \Omega Ω的子集
CF = { c 1 , c 2 . . . c m c_1, c_2 ... c_m c1,c2...cm}其中 c i > = 0 c_i >= 0 ci>=0, ∑ c i < = 1 \sum c_i <= 1 ∑ci<=1
定义
:
m ( { a i } ) = f ( E ) ∗ c i m(\{ a_i\}) = f(E)*c_i m({ai})=f(E)∗ci
规定 m ( Ω ) = 1 − ∑ m ( { a i } ) m(\Omega) = 1 - \sum m(\{a_i\}) m(Ω)=1−∑m({ai})
对于 Ω \Omega Ω的所有其他子集H,均有m(H) = 0
当H为 Ω \Omega Ω的真子集时有
B e l ( H ) = ∑ m ( B ) = ∑ m ( { a i } ) Bel(H) = \sum m(B) = \sum m(\{ a_i\}) Bel(H)=∑m(B)=∑m({ai})
合取( ∧ \land ∧)取 m i n min min
析取( ∨ \lor ∨)取 m a x max max
与求可信度方法类似;
不确定性的组合
优点:能够满足比概率论更弱的公理系统,可以区分不知道和不确定的情况,可以依赖证据积累,不断缩小集合。
缺点:证据的独立性不易保证
未完待续