Apriori算法

关联分析的目标包括两项:发现频繁项集和发现关联规则。首先需要找到频繁项集,然后才能获得关联规。

Apriori算法是发现频繁项集的一种方法。可以帮助我们减少找出频繁项集的计算量。Apriori原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。但更常用的是它的逆否命题,即如果一个项集是非频繁的,那么它的所有超集也是非频繁的。

Apriori算法的两个输入参数分别是最小支持度和数据集。该算法首先会生成所有单个元素的项集列表。接着扫描数据集来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉。然后,对剩下来的集合进行组合以生成包含两个元素的项集。接下来,再重新扫描交易记录,去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被 apriori函数介绍

apriori实现了Apriori算法,来自apyori包,实验环境已经安装此包。通过apriori函数能够找出频繁项集。使用方法如下:

results = list(apriori(transactions))

参数解释:

1. transactions:项集集合。

你可能感兴趣的:(Apriori算法)