频繁项集与强规则

<数据挖掘导论>第六章第1节

项集和事务

: 就是集合中的一个元素
项集: 就是项的集合

事务: 事务是关联分析中最基本的概念, 也是最核心的概念.事务集是问题, 关联分析是方法.

每个事务唯一关联一个项集,可以认为事务就是个项集, 在不产生歧义的情况下, 我们不区分”事务”和”事务的项集”.

项集和事务通过(项集的)支持度关系到一起: 一个项集的支持度就是这个项集在所有事务中出现(作为子集)的次数.

形式上, 项集 X 的支持度用 σ(X) 表示.

关联分析问题

关联规则: 形如 XY 这样的蕴含关系被称为关联规则, X Y 均是项集.

关联规则有两个属性: 支持度置信度
关联规则的支持度: s=σ(XY)N , N是事务的总数
关联规则的置信度: c=σ(XY)σ(X)

由此我们可以定义关联分析问题: 在给定的事务集中,找到(支持度, 置信度)大于给定阈值 (s0,c0) 的所有关联规则.

平凡的方法是遍历所有的关联规则, 其复杂度为:

R=3d2d+1+1

好一点的方法是使用剪枝, 注意到关联规则的支持度只与项集有关, 我们可以首先筛选出支持度大于阈值 s0 的所有项集, 这样的项集叫做频繁项集

给定频繁项集, 我们可以从中选出置信度大于阈值 c0 的所有关联规则, 这样的规则叫做强规则

后记

是集合的元素
项构成项集,事务是特殊的项集
项集有个重要属性, 叫做支持度

关联规则是个蕴含关系,它的前件和后件都是项集
关联规则有两个属性, 支持度置信度

关联分析问题就是从给定事务集中找到满足条件的所有关联规则
关联分析问题的的暴力解法需要 3d2d+1+1 次计算,因此不可行
为了解决关联分析问题, 我们首先筛选出频繁项集, 然后从频繁项集中挖掘强规则

你可能感兴趣的:(自言自语,数据挖掘)