关于apriori算法中置信度、支持度怎么理解的问题

比如说啤酒和尿布的问题:

关于apriori算法中置信度、支持度怎么理解的问题_第1张图片


TID是transaction ID 即交易编号,说白了就是有五个人在超市买了这样的东西(Iteams),现在我们统计一下,大家买的东西之间有

没有什么规律,比如买面包的是不是很可能同时买牛奶这样的规律。


那问题来了,有啥东西去度量面包与牛奶有没有关系以及啤酒喝尿布有没有关系?有很多,这里只说置信度和支持度:


支持度:



这是啥?答:support的首字母S支持度,是规则:{Milk, Diaper}{Beer}的支持度(规则是神马?就是比如说买了Milk和Diaper的人会不会买Beer),所以支持度分母是这三个都买的人数,分子是买东西的总人数。

仔细想想是不是合理这样定义?:假如这个支持度越大,说明同时买这三个东西的人多,说明这三者之间有关系!对吧?很容易理解。但是!!!!!!!!!!!!!!!!!只用这一个可靠吗?再这样想一下,交易量特别大的时候,假如有一万个人买东西,只有10个人同时买了Milk、Diaper、Beer,但其他9990个人没有买这三者中的任何一个,那么此时S=10/10000=0.001,

是不是特别小?如果仅从这个0.001看,这三者之间没有任何关系,但是事实却不是这样,因为只有十个人这样买,并且同时买了这三种东西,所以他们之间应该是由关系的,而不是偶然。


置信度:

为了解决上面问题,再加一个置信度概念。Confidence。根据表格计算置信度如下:



这是啥?和S支持度比较只有分母变了,变成了买了Milk和Diaper两种东西的人,这个式子是说买了Milk和Diaper两种东西的人里面又有多少人买了Beer这个东西!



》》》》》》》》》》》》》》》》》》你先缓缓这个式子》》》》》》》》》》》》》》》》》》》》》》》》》》》》》



那这个式子怎么就解决上面的问题了呢?还是那一万个人的情况下,此时c=10/10=100%!!!!!!!!!!!, 明白了吗,只有十个人买了Milk和Diaper两种东西,但是这十个人又都买了Beer!,所以这个值为100%,因此他能衡量一部分关联规则。


又有人问了,只用置信度行吗?很明显不行啊!!!比如1万个人,只有一个人买了Milk和Diaper两种东西,并且顺手买了一瓶Beer,那么此时c=1/1=100%,很大,但是很明显就这一个交易不能说明三者之间有关系啊。这时候S=1/10000=0.0001,特别的小!!!!


所以正确的有关联的判定是:置信度和支持度都应该比较大才可以认为这些东西之间有关联!





















你可能感兴趣的:(关于apriori算法中置信度、支持度怎么理解的问题)