数据挖掘笔记:关联规则


什么是关联规则

从那个 尿布和啤酒的故事 中不难看出,虽然是两个完全不相关的事物之间也可能存在一定的关系——这也就是所谓的关联规则

  • 关联规则:反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。
    数据挖掘笔记:关联规则_第1张图片
    根据上述规则,下面给出个例子:
    数据挖掘笔记:关联规则_第2张图片
    数据挖掘笔记:关联规则_第3张图片
    关联规则的强度可以用它的支持度和置信度度量。可以看到,面包和黄油一起的关系在所有组合中支持度最高;

支持度和置信度

  • 关联规则的支持度:支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现,从商务角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。因此,支持度通常用来删除那些不令人感兴趣的规则
    数据挖掘笔记:关联规则_第4张图片

  • 关联规则的置信度:置信度通过规则进行推理的可靠性。对于给定的规则 X —>Y,置信度越高,Y 在包含 X 的事务中出现的可能性就越大;
    数据挖掘笔记:关联规则_第5张图片
    数据挖掘笔记:关联规则_第6张图片

  • 提升度:提升度代表的是“商品 A 的出现,对商品 B 的出现概率提升的”程度。计算公式如下:提升度 (A→B)=置信度 (A→B)/ 支持度 (B)
    所以提升度有三种可能:
    (1)提升度 (A→B)>1:代表有提升;
    (2)提升度 (A→B)=1:代表有没有提升,也没有下降;
    (3)提升度 (A→B)<1:代表有下降。


先验原理

  • 简介:如果一个项集是频繁的,则它的所有子集一定也是频繁的。相反,如果一个项集是非频繁的,则它所有的超集也是非频繁的;
  • 支持度的反单调性(anti-monotone):一个项集的支持度绝不会超过它的子集的支持度;
    基于此原理,我们就能对项集进行 基于支持度的剪枝(support-based pruning),不用计算支持度就能删除掉某些非频繁项集——>

Apriori算法

  • 主要步骤
  1. K=1,计算 K 项集的支持度(也就是各自为集);
  2. 筛选掉小于最小支持度的项集;
  3. 如果项集为空,则对应 K-1 项集的结果为最终结果。
    否则 K=K+1,重复 1-3 步。
  • 缺点
  1. 可能产生大量的候选集,因为采用排列组合的方式,把可能的项集都组合出来了;
  2. 每次计算都需要重新扫描数据集,来计算每个项集的支持度;

你可能感兴趣的:(数据挖掘学习笔记,数据挖掘,人工智能,算法)