机器学习算法 - 关联规则

一、应用背景

1.1 啤酒与尿布

沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。

原因解释:爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒?

通过上述的案例我们找到了找到类似的规则:啤酒→尿布;这些规则出现的频次很高,关联性很强。

关联规则的目的是利用一些度量指标来分辨数据库中存在的强规则。也就是说关联规则挖掘是用于知识发现,而非预测,所以是属于无监督的机器学习方法。

二、关联规则的基础概念

如何从所有可能规则的集合中选择感兴趣的规则?
需要利用一些度量方法来筛选和过滤,比较有名的度量方法是最小支持度最小置信度

比如我们有以下的商品订单:
机器学习算法 - 关联规则_第1张图片

2.1 频繁集(Frequent Item Sets)

频繁集:经常一起出现的事件集合。

2.2 支持度(Support)

2.2.1 支持度定义

支持度其实就是计算频繁集占整个集合的比例&

你可能感兴趣的:(机器学习,数据挖掘,机器学习,推荐系统,python)