频繁模式挖掘(关联规则挖掘)-Apriori方法

一句话总结:通过算概率,层层挖掘出的商品(元素)组合。

内容

  1. 关联规则基础
  2. Apriori方法

1. 关联规则基础

  1. 需要的数学知识
    概率:简单概率,联合概率,条件概率
    集合:并集、排列组合

  2. 什么是关联规则

关联规则是发现交易数据库中不同商品(项)之间的联系

  • 这些规则找出顾客购买行为的模式。 如购买了某一商品对购买其他商品的影响
  • 发现这样的规则可以应用于商品货架设计、存货。 安排以及根据购买模式对用户进行分类。
  1. 基本概念
  • 可信度和最小可信度
    购买x1,x2,…, xn 的情况下购买Y的可能性, 条件概率
  • 支持度和最小支持度
    同时购买x1,x2,…,xn 和Y的可能性
  • 频繁项目集
    满足最小支持度的项目集
  1. 支持度和可信度计算
  • 支持度:(并集的概率)
    support (A --> B ) = P(A∪B)
  • 可信度:(条件概率)
    confidence (A --> B ) = P(B|A)
  1. 计算支持度和可行度的一个例子

例如第一行的A-->D,
支持度:有五个购物篮,分母是5;购物篮中含有A和D的有两个,所以分子是2。支持度是2/5
条件概率:在有D的情况下,A出现的概率是多少。D出现的次数3是分母;此情况下A出现次数是2为分子。计算得到可信度是2/3

频繁模式挖掘(关联规则挖掘)-Apriori方法_第1张图片
sample-1.png
  1. 因果关系
    定因和果,不好确定。
    一个例子: 如果商店降低尿布的价格而升高啤酒的价格,则会吸引尿布购买者,而这些购买尿布的人同时很可能会购买啤酒,这样商店在尿布上遭受的损失就会从啤酒中得以弥补,这是因为“尿布是因,啤酒是果”。相反,如果降低啤酒的价格而升高尿布的价格,买啤酒的人多了但买尿布的人并不会增多,商店就赔本了。

  2. 频繁集合公理

  • 公理:如果一个项目集S是频繁的(项目集S的出现频度大于最小支持度s),那么S的任意子集也是频繁的。
  • 怎么用:一般是反过来,如果某个集合A的所有(任意)子集都是频繁子集,那么A也是频繁集。
  1. 如何挖掘关联规则
    通常被分解为两个子问题,第二个问题比较简单,关键是解决第一个问题。
    (1) 根据用户输入的最小支持度,寻找频繁项目集
    (2) 根据用户输入的最小可信度,产生关联规则

2. Apriori算法

  1. 步骤简述:
    a. 寻找频繁项目集
    分层次计算每个子集的出现频度,筛选出符合条件的子集。然后根据频繁集合公理,筛选出下一层的频繁集合。
    b. 产生关联规则

  2. 寻找频繁项目集的步骤
    a. down-top,由底向上分层。宽度优先。
    b. 第一层:包含全部元素,并且集合模式为单元素子集。
    b. 第二层:由第一层的元素配列组合为新的集合,筛选出符合规则的集合。
    c. 第三层:根据公理,寻找所有子集均是频繁集合的新并集。
    d. 第四/n层:同上

频繁模式挖掘(关联规则挖掘)-Apriori方法_第2张图片
Astep1.png
  1. 一个例子,设出现次数大于2的集合为频繁集合。
频繁模式挖掘(关联规则挖掘)-Apriori方法_第3张图片
sample

参考资料:

  1. 中国大学MOOC,人大 数据库系统概论(新技术篇) 第六讲,频繁模式挖掘

2018.4.27

你可能感兴趣的:(频繁模式挖掘(关联规则挖掘)-Apriori方法)