机器学习之关联规则

关联规则的定义:

机器学习之关联规则_第1张图片

支持度和置信度的定义:

机器学习之关联规则_第2张图片

机器学习之关联规则_第3张图片

支持度和置信度的作用:

clipboard.png

Frequent Itemsets and Strong Rules(频繁集和强规则)

clipboard.png

clipboard.png

关联规则问题:
clipboard.png

Itemset Generation

传统的遍历所有节点的方法,势必会产生大量无用项。
机器学习之关联规则_第4张图片

The Apriori Method

Apriori算法的核心思想:

  • 频繁集的子集一定是频繁的

  • 非频繁集的超集一定是非频繁的

剪枝处理

机器学习之关联规则_第5张图片

过程描述

  1. 给定一组特定大小的项集

  2. 扫描数据库找出其中的频繁项集

  3. 使用找到的频繁项集生成比原来的频繁项集多一个元素的候选项集。返回上一步继续执行。

Attention

  • 需要多次扫描数据库

  • 有效的索引方式(Hash,BitMap)能增强检索速度。

伪代码描述

/*
 * C(k):长度为k的候选项集
 * L(k):长度为k的频繁项集
*/
L(1) = {frequent items}
for(k=1;L(k)!=NULL;k++)
    C(k+1) <- candidate(L(k))
    for each transaction t
        Q = {c|c∈C(k+1)∧c∈t}
        count[c] += 1 ,∀c∈Q
    end for
    L(k+1) = {c|c∈C(k+1)}∧count[c]/N≥σ}
end for
return all the L

参考资料:
http://www.xuetangx.com/cours...

你可能感兴趣的:(机器学习)