无监督学习之关联规则分析(—):基本概念总结

一、关联规则分析(一)

关联规则分析也称为购物篮分析,早期是为了发现超市销售数据中不同商品的关联关系,可以帮助超市了解客户的购买模式和习惯,以便于制定更好的销售计划。可以求出当a数据出现时b数据出现的可能性。常用的算法有Apriori,FP-Tree,Eclat,灰色关联算法,本篇主要介绍关联规则的一些基本概念和参数。
首先介绍一些基本概念

1.项:

超市用户购买数据库中所保存的所购买的产品称之为项,例如面包,矿泉水,都属于项。

2.项集:

一次所购买东西的总和叫做项集,例如我今天去超市买了:{方便面,火腿肠,可乐},这是我今天购买的项集,根据项集中所包含的项数,可以称为K项集,K为项集中的项数,例如{方便面,火腿肠,可乐}就可叫为3—项集,而我去超市购买商品就成了一个事务。

3.前项——后项:

假如所求规则为:{方便面}——{火腿肠} 则方便面称之为前项,火腿肠称之为后项。

4.支持度计数:

所求关联规则商品出现在几个项集当中的次数称为他的支持度计数,例如,今天超市只有我和我的同学同时购买了方便面和火腿肠,那么方便面的支持度计数为2。

5.支持度:

支持度:某一规则同时发生的概率,支持度等于支持度计数除以总的事务数,例如今天超市有100人买东西,但只有我和我朋友买了同时购买了方便面和火腿肠,那么{方便面}——{火腿肠} 这一规则的支持度就等于2/100=0.02。

在这里插入图片描述

支持度表示了某一规则出现的可能性,一般最后会对支持度超过一定的阈值的规则进行分析。

6.置信度:

置信度:在某个规则中前项出现时,后项出现的概率。置信度等于前项与后项同时出现的概率除以前项出现的概率。
无监督学习之关联规则分析(—):基本概念总结_第1张图片

7.提升度:

提升度:当某个规则中前项出现时对后项出现的影响。

提升度大于一时且越大,表示前项与后项成正相关性,且正相关性越高。
提升度等于一时,表示前项与后项之间无相关性。
提升度小于一且越小,表示前项与后项成负相关性,且负相关性越高。

在这里插入图片描述
一般情况下,我们选择对提升度大于3的关联规则进行分析,一般来说,支持度较大的规则,提升度倾向于比较小,提升度特别大的规则,支持度倾向于非常小

8.频繁项集与强关联规则:

支持度大于设定阈值的项集称为频繁项集。
支持度和置信度均大于设定阈值的规则称为强关联规则。

文章中图片来源于https://blog.csdn.net/weixin_42057852/article/details/82661667
因为自己刚开始写博客,自己公式写的没有前辈的好,所以就截图拼上来了,嘿嘿。

你可能感兴趣的:(#,无监督学习,机器学习)