关联

关联分析用于发现隐藏在大型数据集中的有意义的联系,所发现的联系可以用关联规则(association rule)或频繁项集的形式表示。

1. 项集:在关联分析中,包含0个或多个项的集合被称为项集(itemset)。如果一个项集包含k个项,则称它为k-项集。例如{啤酒,尿布} 是一个2-项集。空集是指不包含任何项的项集。

2. 关联规则(association rule):是形如 X → Y 的蕴含表达式,其中X和Y是不相交的项集,即:X∩Y=?。关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。

3. 支持度:一个项集或者规则在所有事物中出现的频率,确定规则可以用于给定数据集的频繁程度。支持度是一种重要的度量,因为支持度很低的规则可能只是偶然出现,低支持度的规则多半也是无意义的。因此,支持度通常用来删去那些无意义的规则。

支持度的计算方法如下:

项集X的支持度计算:s(X)=σ(X)/N;

规则X → Y的支持度计算:s(X → Y) = σ(X∪Y) / N。

其中σ(X):表示项集X的支持度计数,N表示记录总数。

4. 置信度:确定Y在包含X的事务中出现的频繁程度。置信度用于度量通过规则得出的推理的可靠程度。对于给定的规则X → Y,置信度越高,Y在包含X的事物中出现的可能性就越大,即P(Y|X)越大。

置信度的计算方法如下:

规则X → Y的置信度计算:c(X → Y) = σ(X∪Y)/σ(X)。

你可能感兴趣的:(关联)