数据挖掘理论(一)

目录

为什么进行数据挖掘? 

什么是数据挖掘?

数据挖掘的流程 

在什么数据上进行挖掘?

可以挖掘什么类型的数据?

数据来源


为什么进行数据挖掘? 

我们拥有丰富的数据,但缺乏有用的信息。解决方法是:数据仓库技术和数据挖掘技术。

数据仓库(Data Warehouse)和在想分析处理(OLAP)-----为数据的存储和管理提供了基础。

数据挖掘(Data Mining):在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束) 

什么是数据挖掘?

数据挖掘就是从数据中发现知识,具体的说,就是从大量的数据当中挖掘出令人感兴趣的、有用的、隐含的、先前未知的、但又可能有用的模式或知识。数据挖掘又称KKD(数据库中的知识挖掘Knowledge-Discovery in Databases)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。

数据挖掘的流程 

1、了解应用领域

2、创建目标数据集

3、选择数据,数据清洗和预处理,数据压缩和变换(其中数据预处理是耗时耗力的过程,占整个流程的60%-80%的时间)

4、选择数据挖掘的技术、功能和合适的算法,进行数据挖掘

5、寻找感兴趣的模式

6、模式评估

7、知识表示

在什么数据上进行挖掘?

数据是对事物描述的符号。在计算机科学中,数据是数字、文字、图像、声音等可以输入到计算机被识别的符号。
企业运营离不开数据。
用户生成数据(user generated data, UGD)

可以挖掘什么类型的数据?

从表现形式看:文字、数字、图像、声音等。

从存储形式看:分为结构化数据和非结构化数据。(结构化数据通过统一的二维表存储)

 一般将非结构化的数据处理成结构化的数据。

数据来源

关系型数据库、空间数据、多媒体数据、web网(用爬虫技术获得)

数据挖掘的方法和技术

数据挖掘理论(一)_第1张图片

数据挖掘理论(一)_第2张图片

数据挖掘理论(一)_第3张图片数据挖掘理论(一)_第4张图片

数据挖掘理论(一)_第5张图片

数据挖掘理论(一)_第6张图片

数据挖掘理论(一)_第7张图片数据挖掘理论(一)_第8张图片

数据挖掘理论(一)_第9张图片

分类可以进行数据预测,但分类的类别可以看成定性属性的取值,而常用的数值预测的方法是回归分析,比如说可以根据用户的特征来预测每个月的消费额,预测模型的构建则需要历史数据来进行分析。

在异常检测中作用很大。数据挖掘理论(一)_第10张图片

数据挖掘理论(一)_第11张图片

数据挖掘理论(一)_第12张图片

数据挖掘理论(一)_第13张图片

两者都是用来数据分析和决策支持的。

数据挖掘理论(一)_第14张图片

啤酒与尿布、牙膏与牙刷----交叉销售

数据挖掘理论(一)_第15张图片数据挖掘理论(一)_第16张图片

数据挖掘理论(一)_第17张图片

数据挖掘理论(一)_第18张图片数据挖掘理论(一)_第19张图片数据挖掘理论(一)_第20张图片数据挖掘理论(一)_第21张图片

数据挖掘理论(一)_第22张图片

数据挖掘理论(一)_第23张图片数据挖掘理论(一)_第24张图片

你可能感兴趣的:(数据挖掘)