目录
数据初步认识
关联规则算法
算法介绍
python导入库函数来实现
python自定义算法实现
根据顾客实际购买行为数据(值为1表示购买了该种商品;值为0表示未购买该种商品),分析顾客在网络购物中购买图书、运动鞋、耳机、DVD和果汁五种商品时,是否存在购买行为上的关联。保存至sale.csv文件进行读取如图所示
查看数据相关信息读取csv文件的时候去除第一列(即序号那一列),再将其转换成列表,在spyder里查看数据读取的文件
转换成列表
每个列名称
查看描述统计量
最后查看摘要统计
关联分析是发现事物之间关联关系)的分析过程。典型应用——就是购物篮分析(Market Basket Analysis)。关联规则是反映物品与其他物品之间的关联性,常用实体商店或者在线电商的推荐系统:通过对顾客的购买记录数据进行关联规则挖掘,发现顾客群体的购买习惯的内在共性。
早期的关联分析主要用于零售行业的购物行为分析,也称为购物篮分析。之后,扩展到多个领域中。在交易数据、关系数据或其他信息载体中,查看存在于项目集合或对象集合之间的额频繁模式、关联结构。
广泛用于:
购物篮分析:用户购物行为,可以看一下用户在同一次购物中经常买什么
交叉营销:根据相似客户的购买记录,或者用户一次购买中购买的商品,可 以 交叉销售.
产品目录设计:把相关联的产品,经常一起购买的产品,能否放在用一个页面, 同一个目录?甚至实体店中同一个货架中?
聚集和分类等:将商品进行聚集或者分类,进行组合销售
直接导入apriori库来进行关联规则分析,比较便捷。
将每个商品装入字典
得到最后的关联规则结果如下
使用一个小练习来实现
先定义一个函数,求第一次数据库之后的候选集
再定义存放所有项集的支持度
得到最后的候选集
最后定义实现apriori算法的代码
最后调用函数得出结果
结果如下图所示:
代码和数据集都已经上传至资源,请自行取用