购物篮分析(MBA)又称关联规则学习或关联分析,是一种数据挖掘技术,可应用于市场营销、生物信息学、教育领域、核科学等多个领域。市场营销MBA课程的主要目的是为零售商提供信息,了解购买者的购买行为,帮助零售商做出正确的决策。执行MBA有各种各样的算法。现有的算法只处理静态数据,它们不能捕获随时间变化的数据。该算法不仅挖掘静态数据,而且为考虑数据变化提供了一种新的方法。本文讨论了数据挖掘技术,即关联规则挖掘,并提出了一种新的算法,该算法有助于研究客户行为,有助于提高销售额。
如今,在零售市场、银行业、医疗等各个领域的数据库中都保存着大量的数据。但是,对于用户来说,整个信息不一定是有用的。因此,从大量的数据中提取有用的信息是非常重要的。这种提取有用数据的过程称为数据挖掘或知识发现和数据(KDD)过程。从数据中发现和解释模式的整个过程包括许多步骤,如选择、预处理、转换、数据挖掘和解释。数据挖掘有助于企业营销。在管理研究中使用购物篮分析的工作已经由Aguinis等人完成了。它帮助市场分析师了解客户的行为,例如哪些产品一起被购买。有各种各样的技术和算法可用于执行数据挖掘。
有许多数据挖掘技术和算法可用来发现有意义的模式和规则。这些技术已经被Saurkar等人讨论过。有许多不同的技术如下:
关联规则挖掘有助于发现隐藏在大型数据集中的有趣关系。在下面的例子中,商店的一些交易被视为如表1所示。
有趣的关系可以用关联规则的形式表示,如下图所示:
上述规则表明,牛奶和黄油之间有很强的关系。它表明许多顾客同时购买牛奶和黄油。这些规则有助于零售商了解顾客的购买行为。最流行的数据挖掘方法之一是从事务数据集中查找频繁项集并派生关联规则。赵等人对关联规则挖掘进行了研究。本文讨论了关联规则挖掘、分类、聚类等不同类型的挖掘技术。进一步讨论了关联规则的两个基本措施:支持和信任。
本研究提供了Apriori系列方法、AIS算法、Apriori算法、FP-Tree算法(频繁模式树算法)、RARM(快速关联规则挖掘)算法的知识。但从这些算法中,Apriori算法是对以往算法的最大改进,而且易于实现。
Andrej提出了用数据挖掘方法进行购物篮分析的工作。购物篮分析是基于六西格玛方法进行的。本研究的目的是改善结果并改变过程的西格玛绩效水平。本研究采用一般规则归纳法(GRI)建立关联规则。
Hilage等人提出将数据挖掘技术应用于特定的业务组织,并特别参考了购买行为。应用关联规则挖掘技术、规则归纳技术和apriori算法对结果进行了检验。随后,将这三种技术的结果结合起来,努力了解客户的正确购买行为。
Raorane等人提出了利用购物篮分析提取知识的工作,利用关联规则数据挖掘技术。为此,他们使用了超市的数据集,并分析了市场的日常交易。本研究的主要目的是将超市的产品进行合理的摆放,以增加超市的利润。
现有的购物篮关联规则挖掘工作主要有大型数据库网络中的MBA、多店环境中的MBA、快速算法的MBA。
霍金斯对“异常值”的定义是:“异常值是一种观测结果,它与其他观测结果相差甚远,以至于让人怀疑它是由另一种机制产生的”。
He等人开展了基于FP-Outlier-Frequent模式的离群点检测工作。提出了一种从数据集中发现频繁模式的离群点检测方法。一个称为FPOF(频繁模式离群点因子)的度量方法用来检测离群点事务,它定义并提出了FindFPOF算法来发现离群点。
Khan等人利用数据挖掘技术实现了商业智能的离群点检测。在此工作之前,研究人员的主要关注点是在大型数据集中发现有助于决策的模式。然而,离群值检测并不是主要的研究重点。因此,这项工作是离群点检测的进展。
虽然数据挖掘作为一种新兴的技术已经变得很流行,但是仍然有一些问题需要解决,以便使它在不同的领域中发挥作用。数据挖掘面临的问题包括数据质量、互操作性、安全性和隐私性等。数据挖掘的主要问题是缺乏对实时数据的分析。随着数据的变化趋势,周期性挖掘应运而生。周期性挖掘是指在固定的时间段之后进行数据挖掘。例如,百货商店每季度挖掘关联规则,以发现客户当前的购买行为。
关联规则挖掘有许多可用的算法。现有的算法处理静态数据。他们根据支持度、置信度、升力等各种指标找到良好的关联规则。在这些算法中,当下一次执行数据挖掘时,算法自动不捕获数据中的变化。这就是为什么他们使用另一种比较算法来跟踪数据的变化。
我们提出的算法也进行关联规则挖掘。它致力于改变建模的概念。基本上,更改建模用于通过检查在已发现的模式中发生的更改来了解数据生成过程的动态。它处理动态数据并执行周期性挖掘。周期性挖掘实际上是KDD过程的成熟用法。
该算法试图捕捉购物篮分析中交易的变化趋势。该方法基于协同关联规则挖掘的基本思想,通过对关联规则预测器进行逻辑修改,得到各属性之间的强关联关系。(商品放在市场上)。其主要目的是找出交易中不同项目之间的关联。我们跟踪与高置信度相关的项目。(比如X→Y
,则置信度= n(X∩Y)/n(X))。所以这个算法的结果是两组关联规则:
输入:事务集
输出:预测的关联规则、过时的关联规则
Support(X)支持度 :项目的支持是一个项目在数据库事务中出现的次数。
Confidence置信度:Confidence置信度是与关联规则相关的一个术语,其数学定义为:Confidence=Support (X∩Y)/Support (X)
Score (X→Y):根据关联规则的置信度对关联属性赋值,如表2所示
为了运行该算法,数据集是从扩展的面包店数据集中获取的,并将其存储在4个窗口中,并且该算法在每个窗口中处理2000个事务和26个物品,物品最多可以扩展到n。(网站链接:https://wiki.csc.calpoly.edu/ datasets/wiki/apriori))
第一阶段:在第一阶段,我们有4个窗口的二进制数据集,其规格如前一节所述。
Apriori算法:在本部分中,我们只是在所有窗口的二进制数据集上运行Apriori算法,并从中发现频繁项集和进一步的关联规则。
阶段2:这个阶段可以分为两个子阶段,其中两个算法交替运行。
第1部分- ARM-Update:该算法创建分数表,结构如图1(a)所示,然后随着连续窗口数据的到来更新分数表。
ARM-Update( Windowi, ConfidenceToScoreTable, ScoreTable )
{
For ( i = start-of-Windowi ; i < end-of-Windowi ; i ++)
{
N = AssignScore (ith assoction rule, ConfidenceToScoreTable) ;
CreateEntryScoreTable(N,ith association rule);
}
}
其中
AssignScore (ith association rule, ConfidenceToScoreTable) :它是一个将输入的一些关联规则和置信度输入到记分表中的函数,该算法与part2算法结合使用,将处理后的信息提供给part2算法,part2算法再对这些信息进行处理。
CreateEntryScoreTable (N,ith association rule) :它是一个函数,它在分数表中创建一个新的条目,如果某个ith关联规则不在记分表中,或者如果存在,那么就将分数N添加到现有规则中。
第2部分- ARM-Predictor:这部分是在我们运行ARM-Update算法之后运行的,该算法根据某个阈值找到离群点。
ARM-Outlier (ScoreTable) {
for ( i=0;i$<$number of months ;i++) {
A = FindUpperRules(Rules above threshold);
B = FindLowerRules( Rules below threshold) //containing outliers ;
}
}
FindUpperRules() :它是一个寻找阈值以上的关联规则集的函数,如表4所示。
FindLowerRules() :该算法发现阈值以下的关联规则集如表5所示。这些规则被称为离群值。
ARM-Update 算法
输入: Window, Look-Up Table 输出: Score Table
其中
Window: 它包含特定时间段的关联规则
Look-Up Table: 它包含对相应分数值的置信度
Score Table :关联规则沿行排列,它们的属性在列中与它们的得分一起排列
ARM-Predictor 算法
输入 : Score Table 输出 : Outliers
其中
Score Table: 关联规则沿行排列,它们的属性在列中与它们的得分一起排列
Outliers: 高于分数阈值的关联规则集,低于分数阈值的关联规则集
结果如下:
i) 第1个月和第2个月的评分表,分别与前一个月的数据变化情况如图1(a)和(b)所示
ii) 第三个月后的评分表,分别与第二个月和第四个月的数据变化相对应,如图2 (a)和(b)所示
异常值检测
iv)经过表3所示的第四个月规则后,我们进行离群点检测,在阈值为20时,将规则分为表4所示的上关联规则和表5所示的下关联规则两部分。较低的关联规则称为离群值。
目前,许多数据挖掘算法已经被开发出来并应用于各种实际问题中。然而,周期性挖掘是数据挖掘中的一种新方法,近年来也得到了越来越多的重视。由于不同应用的需要和数据挖掘的局限性,这一领域正在发展。这将增强现有数据挖掘技术的能力。发现由于数据变化而产生的模式本身就是一个值得探索的有趣领域。它可能有助于
作者认为,还有一些领域需要关注。首先,分数的手动阈值对结果的影响较大,需要对阈值进行自动化处理,以更好地识别离群值。其次,这种方法是专门针对购物篮数据的,它可能会扩展到其他领域。