数据挖掘之---AprioriAll算法

AprioriAll算法总结
使用场景:
AprioriAll算法是在Apriori算法基础上加入了时间序列的统计方法,使数据集之间多了时间序列上的关联关系。

原理:
我们分五个具体阶段来介绍基于上面概念发现序列模式的方法。这些步骤分别是排序阶段、大项集阶段、转换阶段、序列阶段以及选最大阶段。

  1. 排序阶段
    •对数据库进行排序(Sort),排序的结果将原始的数据库转换成序列数据库。


    带交易时间的交易数据源实例

    按时间序列排序处理后
  1. 大项集阶段
    •这个阶段要找出所有频繁的项集(即大项集)组成的集合L。(使用支持度阈值筛选,然后用算出从一阶到多阶的支持度)
    根据数据集,统计符合最低阈值的频繁项,转成map


    大项集阶段
  2. 转换阶段
    • 用最大频度项,替换原来的数据集,得到新的数据集,低频率的项将会被删除。


    转换阶段,得到映射表
  3. 序列阶段
    •对转换完的数据,在进行一次,大于最小支持度阈值的筛选,从一阶到多阶。

  4. 选最大阶段
    •在大序列集中找出最长序列(Maximal Sequences)。

伪码:


AprioriAll伪码

如需源码,请私信我。

参考资料1:https://blog.csdn.net/qq_25269795/article/details/84202263
参考资料2:https://blog.csdn.net/WeeYang/article/details/52793864

你可能感兴趣的:(数据挖掘之---AprioriAll算法)