评价频繁模式挖掘和关联分析的指标(模型兴趣度度量方法)

强规则不一定是有趣的

关联分析和频繁模式挖掘的两大经典算法包括:Apriori算法和FP-growth。

其在学习过程中的评价指标主要包括支持度(包括支持度计数)和置信度(也叫可信度)。但其实这两个指标有一定的局限性。

示例问题如下:

假设一共有10000个事务,其中包括A事件的事务有6000个;包括B事件的事务有7500个;同时包括A事件和B事件的事务有4000个。要求的最小支持度阈值为30%,最小置信度阈值为60%。计算关联规则。

由条件可知,P(A)=60%,P(B)=75%,P(AB)=40%。则支持度为support(A=>B)=P(AB)=40%,置信度confidence(A=>B)=P(B|A)=P(AB)/P(A)=66%。因此支持度和置信度都满足最小阈值,可以认为是强规则。

但是此处存在一个问题:不考虑A事件,B事件的发生概率为75%,比66%还高,所以A和B事件是负相关,A事件的发生降低了B事件的发生的可能性。可以发现此强规则是误导,有一定欺骗性,所以传统的支持度和置信度不能完全度量A和B之间蕴含的实际强度。以下介绍几个可以替代支持度-置信度框架的指标。

1、相关分析

事件A和B之间的相关性度量可以有很多指标,比如:

提升度

两个独立的事件:P(AB)=P(A)*P(B)。否则两个事件是依赖和相关的。所以提升度定义如下:

lift(A, B)=P(AB)/P(A)*P(B)

当上式小于1,则A和B的出现是负相关的;大于1,则A和B的出现是正相关的,意味着每一个的出现都蕴含另一个的出现;等于1则A和B是独立的,之间没有相关性。

上式等价于P(B|A)/P(B)或conf(A=>B)/sup(B).

卡方度量

X^2=∑((观测值-期望值)^2/期望值)

卡方度量依赖于相依表的建立。

2、模式评估度量比较

全置信度

all_conf(A, B)=sup(AB)/max{sup(A), sup(B)}=min{P(A|B), P(B|A)}

又称之为两个与A和B相关的关联规则的最小置信度。

最大置信度

max_conf(A, B)=max{P(A|B), P(B|A)}

是两个关联规则“A=>B”和"B=>A"的最大置信度。

Kulczynski

Kulc(A,B)=1/2(P(A|B)+P(B|A))

两个置信度的平均值。

余弦

cosine(A, B)=P(AB)/((P(A)*P(B))^1/2)=sup(AB)/((sup(A)*sup(B))^1/2)=(P(A|B)*P(B|A))^1/2

可以看做是调和提升度度量。

 

以上四个度量的共同性质:(1)度量值仅受A和B和AB的支持度的影响,而不受事务总个数的影响。(2)每个度量值都编取0~1,并且值越大,A和B的联系越紧密。

四个零不变度量指标,推荐Klus与不平衡比配合使用。


参考文献:

《数据挖掘:概念与技术》 韩家炜等人著

你可能感兴趣的:(机器学习)