Apriori 算法-如何进行关联规则挖掘

目录
1,关联分析
2,三个重要概念
3,如何寻找频繁项
4,Apriori 算法
5,Apriori 算法的实现
6,总结
在数据分析领域有一个经典的故事,叫做“尿布与啤酒”。

据说,在美国西部的一家连锁超市发现,很多男人会在周四购买尿布和啤酒。这样超市就可以将尿布与啤酒放在一起卖,便可以增加销售量。

“尿布与啤酒”这个案例就属于数据分析中的关联分析,也就是分析数据集中的内在隐含关系。

关联分析可以被用于发掘商品与商品之间的内在关联关系,进而通过商品捆绑销售或者相互推荐,来增加商品销量。

关联分析除了可以用于零售行业外,还可以用于网站流量分析和医药行业等。

Apriori 算法是一种发掘事物内在关联关系的算法,它可以加快关联分析的速度,从而让我们更有效的进行关联分析。

1,关联分析
关联分析用于发掘大规模数据集中的内在关系。

关联分析一般要分析数据集中的频繁项集(frequent item sets)和关联规则(association rules):

频繁项集:是数据集中频繁项的集合,集合中可以有一项或多项物品。
关联规则:暗示了两种物品之间可能存在很强的内在关系。
假设,我们收集了一家商店的交易清单:

交易编号    购物清单
1    牛奶,面包
2    牛奶,面包,火腿
3    面包,火腿,可乐
4    火腿,可乐,方便面
5    面包,火腿&#

你可能感兴趣的:(数据挖掘,算法,数据挖掘,数据分析)