再说说提升水平lift这个参数。
假定设定规则的最小阀值为支持度30%,置信度为60%,然后你得到了很多的强关联规则。比如有这么一条,总数据10000个,A商品6000个,B商品7500个,然后同时购买A和B的4000个。我们发现A-B(即购买了a的同时购买b)这条规则也是一条强关联规则。支持度为=4000/1000o=40%,置信度=4000/6000=66.7%.
但是我们发现原总数据集中,购买b产品的比例有75%,要大于66.%,即购买a产品会对购买b产品产生反向作用,即负相关。所以才有了lift这样一个参数,来弥补支持度和置信度在解释规则方面的不足:
Lift= P(AUB) / P(A)P(B)
当lift=1时,A、B互相独立
当lift<1时,A、B负相关
当Lift>1时,A、B正相关 即A/B中一个的出现,都提升了另外一个出现的可能性。