数据挖掘与数据仓库——关联规则挖掘

关联规则挖掘

基本概念

数据挖掘与数据仓库——关联规则挖掘_第1张图片
数据挖掘与数据仓库——关联规则挖掘_第2张图片

数据挖掘与数据仓库——关联规则挖掘_第3张图片

Apriori算法

Apriori裁剪原理: 对于任意项集,如果它不是频繁集,则它的任何超集不用产生/测试!
算法流程:

数据挖掘与数据仓库——关联规则挖掘_第4张图片

关于连接操作:

数据挖掘与数据仓库——关联规则挖掘_第5张图片

一个例子:

数据挖掘与数据仓库——关联规则挖掘_第6张图片

Apriori算法存在问题:

  1. 多次扫描数据库
  2. 产生大量的候选集合

FP-Tree算法

可以参考:https://blog.csdn.net/kisslotus/article/details/80328045

FP-tree 算法的优点

  1. FP-tree 算法只需对事务数据库进行二次扫描;
  2. 避免产生大量候选集;

FP-tree 算法的缺点

  1. 要递归生成条件数据库和条件 FP-tree,所以内存开销大;
  2. 只能用于挖掘单维的布尔关联规则;

多维关联规则挖掘

多维关联规则:规则中有两个以上的谓词。
例如:
Age(X, “30到40”)∧Income(X, “4万-6万”)→ Buys(X, “computer”)

你可能感兴趣的:(数据挖掘与数据仓库,数据挖掘,关联规则挖掘)