关联规则计算步骤 Apriori算法计算及算法复杂度分析

定义

  • 定义1 项目与项集
    , 设:1={i 1, i2,…, i m}是m个不同项目的集合,每个 ik(k=l , 2 , … , m)柏:为一个项目。tem)。
    , 项目的集合 I 称为项目集合。temset) ,简称为项 靠。真元素个数称为顶集的长度,长度为k的项集 称为k-项集(k-:ltemset)。

  • 定义2 交易 · 每笔交易T(Tran saction )是项集1上的一个子集, 即Tcl,但通常Tcl。 · 对应每一个交易有一个帷一的标识 交易号, i己作TID · 交易的全体构成了交易数据库0,或称交易记录 集D,简称交易集Do · 交易集D中包含交易的个数记为IDI。

  • 关联规则挖掘是一个两步的过程:

    • 找出所有频繁项集(大于或者等于最小支持度的项集 )

    • 由频繁项集产生强关联规则,这些规则必须大于 或者等于最小支持度和最小置信度

      • Apriori算法
        Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法。
        Apriori算法将发现关联规则的过程分为两个步骤: p 通过选代,检索出事务数据库中的所有频繁项集, 即支持度不低于用户设定的阑值的项集; ,利用频繁项集构造出满足用户最小置信度的规则。
        挖掘或识别出所有频繁项集是该算法的核心,占整 个计算量的大部分。
  • 频繁项集产生过程:
    候选集:(长度为k的项集 称为k-项集(k-:ltemset))关联规则计算步骤 Apriori算法计算及算法复杂度分析_第1张图片
    频繁项集

你可能感兴趣的:(Data,Mining)