商务智能大总结2 关联分析

文章目录

    • 支持度(Support)
    • 频繁项集(frequent itemset)
    • 关联规则
    • 逐层发现算法Apriori
    • 生成关联规则
    • 相关性度量
    • 相关分析
    • 例题

支持度(Support)

交易包含项集X的概率
用户兴趣的度量
在这里插入图片描述假设交易数据库是D,|D|表示交易数据库中的交易条数
count(X)表示项集X在交易中出现的频次
例:
商务智能大总结2 关联分析_第1张图片 Z={A} ,
Y={A,B}=AB
support(Z) = 3/5×100%=60%
support(Y) = 1/5×100%=20%

频繁项集(frequent itemset)

若support(X) >=minsup(最小支持度) ,则X称为频繁项集(frequent itemset),也可以说X是频繁的.
设minsup = 50%
项集Z为频繁项集,项集Y则不是

闭合频繁项集
一个频繁项集 X 被称为闭合频繁项集(closed frequent itemset)当且仅当不存在任一个项集Y满足X⊂Y 且support(Y)=support(X)。频繁项集X被称为是闭合的。
例:
假设最小支持度为60%
X={A}; Y={AD}
项集X是频繁的,但不是闭合的,因为support(Y)=support(X),
且X⊂Y

关联规则

给定两个项集X和Y,关联规则是形如X→Y的蕴含式
-X⊆I称为规则的前件,Y⊆I称为规则的后件,X∩Y=∅
规则X→Y的支持度(support)
在这里插入图片描述
规则X→Y的置信度(confidence)
在这里插入图片描述
例:
关联规则:X → Y
support( X → Y ) =support(X ∪ Y)=|TXY| / |D|
E.g:
商务智能大总结2 关联分析_第2张图片
X={A} Y={C}
support(A → C )=support(AC)=0.2
X={A,D}=AD Y=C
support(AD→C )=support(ADC)=0.2

Confidence(X → Y )=|TXY| / |TX|=sup(X ∪ Y) / sup(X)

Confidence(X → Y )=|TXY| / |TX|=sup(XY) / sup(X)= support(AC)/support(A)=1/3

A→C (20%(支持度), 33%(置信度))

关联规则的挖掘
给定如下阈值
minimum support : minsup
minimum confidence : minconf
发现所有形如X→Y 的关联规则,满足
Support(X→Y )≥ minsup
Confidence(X→Y) ≥ minconf
强关联规则

逐层发现算法Apriori

主要步骤
1.k=1
2.统计每个k项候选集的支持度,找出频繁的k项集:Lk
3.利用频繁的k项集生成k+1项候选集(Candidate itemset ):Ck+1
4.k=k+1; 转至步骤2

例:minsup = 2/4
商务智能大总结2 关联分析_第3张图片

生成关联规则

在这里插入图片描述
为每个频繁项集l, 生成非空子集s; 若满足:
商务智能大总结2 关联分析_第4张图片
则输出规则:(l-s) →s
e.g: l=ABCD, s = D , (l-s)= ABC
confidence(ABC →D)=support(ABCD)/support(ABC)
商务智能大总结2 关联分析_第5张图片
商务智能大总结2 关联分析_第6张图片
商务智能大总结2 关联分析_第7张图片

相关性度量

度量:Lift(增益,提升度)
商务智能大总结2 关联分析_第8张图片
>1: positively correlated
=1: independent
<1: negatively correlated

例:
商务智能大总结2 关联分析_第9张图片
商务智能大总结2 关联分析_第10张图片
Lift:
Conf (BE→ C)=2/3
Sup( C )=3/4
Lift(BE→ C)=(2/3) / (3/4) = 8/9
Confidence(BC→ E)=1
Lift (BC→ E)=1/(3/4)=1.33
商务智能大总结2 关联分析_第11张图片

度量:cosine
对于关联规则X→Y
它适用于变量不对称的情况,即项集的同时出现相比于同时不出现更重要的情况
在这里插入图片描述
商务智能大总结2 关联分析_第12张图片

相关分析

商务智能大总结2 关联分析_第13张图片
在这里插入图片描述

例题

1.数据库有5个事务。min_sup=60%, min_conf=80%
1)用apriori算法找到频繁项集
2)列举与下面元规则匹配的强关联规则并给出支持度与可信度,其中X是代表顾客的变量, itemi是代表产品的变量。
在这里插入图片描述
商务智能大总结2 关联分析_第14张图片
1)商务智能大总结2 关联分析_第15张图片
2)商务智能大总结2 关联分析_第16张图片
2.商务智能大总结2 关联分析_第17张图片
(1)
support = 2000/5000 = 40%,confidence = 2000/3000 = 66.7%。是强关联规则。
(2)商务智能大总结2 关联分析_第18张图片

你可能感兴趣的:(商务智能,数据挖掘,数据挖掘)