关联规则挖掘理论和算法(数据挖掘十大算法---Apriori算法)

一、(Apriori)发现频繁项目集

通过用户给定的 最小支持度,寻找所有频繁项目集(满足Support不小于Minsupport的所有项目子集)
逐层发现算法,按照项集的长度由下到大逐级进行,并最后发现频繁几项集

项(Item)
购物篮(Transcation):交易
项集(Itemset):所有项的集合
K项集:在集合中包含K个项的项集


支持度:support(x)=count(x) / |D| *100%
——x出现的概率


count(x):一个项集x在数据库中出现的次数x
D:数据库(交易的个数)


置信度:confidence(X->Y) = support(X->Y) / support(X) *100%
support(X)=support(X∩Y)
———X出现了的同时Y出现的概率

算法实现:
输入:数据库D;最小支持度minsup_count
输出:频繁项目集L

                                       样本事务数据库
TID Itemset
1 A,B,C,D

你可能感兴趣的:(算法,数据挖掘,python)