透过‘啤酒尿布’来看数据挖掘及分析

公众号:机器学习算法与大数据技术  免费领取 2000+G 大数据相关教程资料

今日分享热词:数据挖掘 数据分析

这两个词可以称得上是本号数据挖掘及分析的‘body’ or ‘soul’,小编原计划要写两篇文章来分别安利它们,但仔细想来,一篇似乎能更好使说明它们。原因多是数据挖掘与数据分析联系性非常紧密,广义层次上来说是你中有我,我中有你的关系,小编也是不忍心隔断其联系性。

数据挖掘

关于数据挖掘(Data mining)的概念定义:

首先是智库百科上的定义,从两个角度来说

技术角度:所谓的数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。什么个意思呢?现在数据库中有无数T/P/E...这么多的独立的数据,去通过挖掘来找出存在关系的数据或者说数据中的关系。问题来了,如何去找,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,利用人工神经网络、遗传算法、紧邻算法、决策树来寻求数据间的关系,从而实现数据挖掘的一些功能,比如数据的分类聚类、关联规则、特征等,此时,狭义上数据挖掘的工作已经结束了。

商业角度:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。这个说法就很贴近数据分析的广义概念了,可以理解为数据挖掘是深层次的数据分析或者广义的数据分析。

其次来看下甲骨文公司是如何定义数据挖掘的:

Data mining is the practice of automatically searching large stores of data to discover patterns and trends that go beyond simple analysis. Data mining uses sophisticated mathematical algorithms to segment the data and evaluate the probability of future events.

这个说法更多地是从技术角度来说明的:超越了简单的数据分析,利用人工智能等技术去识别大量数据中的关系或者趋势,也牵涉到复杂算法,从而实现数据的一个归类来支持决策。

数据分析

数据分析:是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

这里提到的统计方法主要有以下几种:

描述性统计分析:包括样本基本资料的描述,作各变量的次数分配及百分比分析,以了解样本的分布情况。比如面前有十几个数据,你把它的平均数、极差、方差、标准差相关的这些表示集中程度或者离散程度的量分析出来。

探索性分析:它是一种系统性分析数据的方法,用来展示数据变量的分布情况、利用散列矩阵图、散点图来分析变量之间的相关性。相关性分析是探索性分析中最常用的,主要就是来确定变量间是否呈正相关、负相关或不相关关系。

在上述两个分析过程中还会用到对比分析(比如我们常听到的环比,同比等一些基于时间和空间对比的名词)、分组分析(把数据对象按某几个特征划分成不同的组)和回归分析(回归分析可能更适应于长周期的变量,比如某服装店每一年中各季度各月的销售量,通过先前的销售量建立的回归模型来预测当下未来同期的销售量)等。

数据挖掘与数据分析中最能体现其共同点的一个特征是:为了更好的支持决策。

为了更好的理解数据挖掘与数据分析的概念,小编举个烂大街例子:

啤酒与尿布

这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。

在这个case中:在数据挖掘阶段,主要用到的是关联规则“购物篮规则”,在这可能会有疑惑,比如买尿布时可能还会买香烟,但是为什么只说了啤酒呢,这可能牵涉到一个阈值了,也就是未达到这一个值时不能认为他们之间有关联,也就是同时买啤酒尿布的量(前提大于设定的阈值)大于同时买香烟尿布的量,把啤酒香烟作为异常值忽略(或者吧香烟作为次于啤酒的相关变量)。在发现这一关联后,研究人员开始进行跟踪,这里的跟踪并不是在商店中进行直接的观察,而是利用人工智能等技术手段对这两个变量的锁定观察,对这两个量的跟中研究就是基于数据挖掘所带来的一个决策。

在数据分析阶段,比如文中说的30%~40%,这其实都是数据分析的一个定量数据表现。上面提到的捆绑销售或者吧货物商品放到邻近的货架上,这些个行为也是数据分析在支持决策方面的一个表现。

同样的例子比如还有巧克力与TT等

Reference:

http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90

https://baike.baidu.com/

https://www.oracle.com/en/

你可能感兴趣的:(理论分享)