数据挖掘——关联规则分析(二)Apriori算法

Apriori算法

1、Apriori算法最早是Agrawal和Srikant在1996年提出的,后经不断完善,已成为数据挖掘中简单关联分析的核心算法。

2、为克服简单搜索可能产生大量无效规则,计算效率低下,且在大样本下甚至可能无法实现的问题,Apriori算法包括如下两大部分: 第一,搜索频繁项集。 第二,依据频繁项集产生关联规则。

搜索频繁项集

1、频繁项集:支持度不低于用户设定最小支持度阈值的项集。

2、频繁项集的性质:
     性质1:频繁项集的子集必为频繁项集。
     性质2:非频繁项集的超集一定是非频繁的。

3、寻找频繁项集

数据挖掘——关联规则分析(二)Apriori算法_第1张图片

 

关联规则的生成

1、从频繁项集中产生所有关联规则,选择置信度大于用户指定最小值置信度阈值的关联规则,组成有效规则集合。

2、候选规则:If {A,B,C} is a frequent itemset, 候选规则如下: AB → C, AC → B, BC → A A → BC, B → AC, C → AB

3、如果 |Y| = k(即Y中有k项), 那么会有 2k– 2 个候选关联规则 ( 减去的两个为:Y → 空集 and 空集 → Y)
      例:L3={2 3 5},则可以产生 2^3 - 2 = 6 个候选关联规则(见下图)

4、例:(用上面寻找频繁项集的结果L3={2,3,5})设最小置信度为80%

数据挖掘——关联规则分析(二)Apriori算法_第2张图片

 

 

数据挖掘——关联规则分析(二)Apriori算法_第3张图片

第1行,23→5,含有23的有2个,含有235的有2个,则置信度为2/2 = 100%
第2行,2→35,含有2的有3个,含有35的有2个,则置信度为2/3 = 67%
以此类推。。。
最后满足条件的只有23→5,35→2

你可能感兴趣的:(数据分析挖掘,数据挖掘)