Apriori关联分析

对于一堆数据,我们不知道那些属性是相关的。

这个时候,我们就可以利用Apriori算法分析并发现相关的物品、或者说属性。

这些相关的属性或者物品,就称为频繁项集。即在数据中频繁出现的项目集合。

基于频繁项集,就能进一步分析其关联规则。


Apriori作用是:进行关联分析,关联规则学习。属于无监督学习的一种。

相关概念:

支持度:包含该项集的记录占整个数据集的比例。

实际使用中,会指定一个支持度作为临界点。

支持度是针对项集而言的。

置信度:也可称为可信度。

支持度(项集)/支持度(项集某一分项)

置信度是针对关联规则而言的。

关联规则可以简单化为:"如果……那么"的关系。

这两个概念是用来量化关联分析是否成功的方法。


由于把所有物品的清单进行组合,然后计算频繁项集,这种计算量是非常大的,而且实际运行会非常慢。

所以才有了Apriori算法,其基本目的是减少运算量。

基本思想是:

如果某个项集是频繁的,那么其子集也是频繁的。

如果某个子集是非频繁的,那么其超集也是非频繁的。(重点)


这就能在频繁项集分析中,根据指定的支持度,减少很多不必要的组合分支的计算。

你可能感兴趣的:(Apriori,关联分析)