数据挖掘:基于关联挖掘的商品销售分析

                                                               摘   要 

本次论文作为数据仓库的结课论文,主要总结了课堂上学到的有关关联挖掘定义和属性以及分类等理论知识;并根据李建老师提供的Northwind数据(这是一系列有关商品销售情况的数据),建立星型模型,并将数据进行了多维形式的数据组织。在此基础上,进行利用关联挖掘技术挖掘不同类型的商品在不同国家、地区和城市的销量,与商品的单价和折扣之间的关联关系,并展示了部分主要操作步骤的截图。

1相关理论

1.1关联规则的定义及属性

在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Lmielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。

设R= { I1,I2 ……Im} 是一组物品集,W 是一组事务集。W 中的每个事务T 是一组物品,T∈R。假设有一个物品集A,一个事务T,如果A∈T,则称事务T 支持物品集A。关联规则是如下形式的一种蕴含A→B,其中A、B 是两组物品,A∈I,B∈I,且A∩B=∅。一般用四个参数来描述一个关联规则的属性:

1.可信度

设W 中支持物品集A 的事务中,有c %的事务同时也支持物品集B,c %称为关联规则A→B 的可信度。简单地说,可信度就是指在出现了物品集A 的事务T 中,物品集B 也同时出现的概率有多大。

2.支持度

设W

你可能感兴趣的:(数据挖掘)