数据挖掘算法----关联规则

简介

关联规则作为机器学习算法中的一个分类,其目的是在数据集中找出两个变量之间的关联关系,且这种相关关系在数据集中不能直观展现出来。

关联规则的分类

1、按处理的变量

布尔型:买啤酒=>买尿布

数值型:月收入5000元=>每月交通费800

2、按资料的抽象层次

单层关联规则:IBM台式机=>Sony打印机,一个细节数据上的单层关联规则;

多层关联规则:台式机=>sony打印机,,较高和细节层次之间的多层关联规则;

3、按涉及到的资料维数

单维关联规则:啤酒=>尿布,只涉及用户购买物品;

多维关联规则:性别:女=>职业:秘书,涉及两个属性的信息;

关联规则中的计算

1、支持度(support)

项集X,Y同时发生的概率成为关联规则的支持度(相对支持度),support(X=>Y)=P(X U Y);

最小支持度:用户或者专家定义的一个衡量支持度的一个阈值,表示项集在统计意义上的最低重要性;该指标是建立强关联规则的第一个门槛;意义为通过最小阈值(minsup)的设定来剔除那些"出镜率"较低的无意义的规则,而保留出现较为频繁的项集所隐含的规则。即筛选出满足:support(A)>=minsup的项集A。

2、置信度(confidence)

表示在关联规则的先决条件X发生的条件下,关联结果Y发生的概率;即含有X的项集的条件下,同时含有Y的可能性,confidence(X=>Y) = P(Y|X);

最小置信度:用户或者专家定义的一个衡量置信度的一个阈值,表示关联规则的最低可靠性;生成强关联规则的第二个门槛;同样,通过设置的最小阈值(mincon)进行筛选最终生成满足需要的强关联规则,因此,当产生频繁项集之后进一步选取满足confidence(X=>Y)>=mincon的规则,至此完成所需关联规则的生成。

3、提升度(lift)

表示在含有X的条件下同时含有Y的可能性与无条件下含有Y的可能性之比,即在Y自身出现的可能性P(Y)的基础上,X的出现对于Y的“出镜率”P(Y|X)的提升程度,lift(X=>Y) = P(Y|X)/P(Y) = confidence (X=>Y)/P(Y);该指标和置信度同样衡量规则的重要性,可以看做置信度的一种互补指标。如果 lift = 1,表示X与Y相互独立,X对Y出现的可能性没有提升作用,其值越大(lift >1)表示X对Y的提升程度越大,也表示关联性越强。

相关概念

强关联规则:同时满足最小支持度阈值和最小置信度阈值的关联规则;

项集:项的集合,含有K个项的项集称为K项集,例如{面包,牛奶,香蕉}是一个三相集;

绝对支持度:项集出现的概率是所有包含项集的事务计数,也称为支持度计数;

频繁项集:若项集 I 满足预定义的最小支持度阈值,则 I 是频繁项集;

 

 

你可能感兴趣的:(数据挖掘)