【数据挖掘】关联规则的术语及定义

项目:交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品。例如,客户在某次交易中购买了“面包”和“牛奶”,则“面包”和“牛奶”代表了2个不同的项目。


交易:某个客户在一次交易中,发生的所有项目的集合。在上例中,交易为:{“面包”,“牛奶”}。


项目集:包含若干个项目的集合。项目集可能是一个交易,也可能不是一个交易,但一个交易一定是一个项目集。上例中{“面包”,“牛奶”}、{“面包”}和{“牛奶”}都是项目集,但只有{“面包”,“牛奶”}才是一个交易。


项目集的维数:把一个项目集所包含的项目的个数称为项目集的维数或项目集的长度,维数为k的项目集称作k维项目集(k-itemset)。例如,项目集I={“面包”,“牛奶”}的维数是2,记作|I|=2,此项目集是2-itemset。


支持度:①交易集合(交易数据库)D中包含某个交易X的个数称为X在D中的支持计数。例如,D={T1,T2,T3}包3个交易,其中T1={A,B,C}、T2={B}、T3={B,C,D},如果X={B,C},则D中存在T1和T3两个交易包含X,此时称X在D中的支持计数为2。②假定X是一个项目集,D是一个交易集合,称D中包含X的交易个数与D中总的交易个数之比为X在D中的支持度,记作sup(X)。在上例中,包含X的项目个数是2,D中总的交易个数是3,则X在D中的支持度为2/3,即sup(X)=P(X)=66.7%。③关联规则的一般形式为:X=>Y,其含义为X出现的同时也导致Y出现。关联规则X=>Y的支持度sup(X=>Y)=sup(X∪Y)=P(X∪Y)。支持度是对关联规则的重要性的度量,表示了关联规则的频度。


最小支持度:由用户定义的衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性。


置信度:又称为可信度。设交易集合D中支持项目集X的交易中有c%的交易同时支持项目集Y,则称c%为关联规则X=>Y的置信度,记作conf(X=>Y)。由置信度的定义可知,conf(X=>Y)=sup(X∪Y)/sup(X)=P(Y|X)。一个规则的置信度范围在0和1之间,指出现了项目集X的交易中,出现项目集Y的概率。置信度是对关联规则准确度的度量,表示了关联规则的强度。


最小置信度:由用户定义的衡量置信度的一个阈值,表示关联规则的最低可靠性。


频繁项目集:对一个项目集X,如果sup(X)≥min_sup,称X为频繁项目集。


关联规则:令I=[i1,i2,,i3,… in]项的集合。设任务相关的数据集D 是事务数据库的集合,其中每个事务T是项目的集合,使得TÍI。每一个事务有一个表示符,称作TID。设A是一个项目集,事务T包含A当且仅当AÍT。关联规则就是一个形如AÞB的逻辑蕴涵式,其中AÌI,BÌI且AÇB=Æ。规则AÞB在事务集D中成立,具有支持度S,其中S是D中事务包含AÈB(即A和B二者)的百分比。它是概率P(AÈB)。规则AÞB在事务集D中具有可信度C,如果D中事务包含A的事务,同时也包含B的百分比是C,它是条件概率P(B|A)。

    即  Support(AÞB)=P(AÈB)=Support(AÈB)=S;

        Confidence(AÞB)=P(B|A)=Support(AÈB)/Support(A)=C。
    参考刘卫的硕士论文《基于剪枝概念格模型的频繁项集表示及挖掘研究》和韩家玮所著《数据挖掘概念与技术》。

你可能感兴趣的:(机器学习)