数据挖掘-引论

一、什么是数据挖掘

 数据挖掘指的是从大量数据中挖掘有趣的模式或知识的过程:简称数据中的知识发现(KDD),有如下的迭代序列组成:

(1)数据清理(清除噪声和删除不一致的数据)

(2)数据集成(将多种数据源组合在一起)

(3)数据选择和变换(选择与分析任务的数据,通过汇总或聚集操作,把数据变换成适合挖掘的形式)

(4)数据挖掘(使用机器学习方法提取数据模式)

(5)模式评估和知识展现(根据某种兴趣度来度量,识别代表知识的真正有趣的模式,把模式可视化)

二、可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。包括特征化和区分,频繁模式、关联和相关性分析,分类与回归,聚类分析,离群点分析。

2.1 类/概念描述:特征化与区分

        数据可以与类或概念相关联,比如:销售数码商品的类别包括有笔记本和平板,顾客概念有大客户和小客户,用汇总、简洁、精确的描述每个类和概念是有用的。这种描述方法可以通过下述方式得到:

(1)数据特征化,一般地汇总目标类的数据,比如汇总在天猫一年内花费1W以上的顾客的特征;数据特征化的输出可以多种形式提供,例如饼图,条土,曲线,多维数据立方体等。

(2)数据区分,将目标类和多个目标类进行比较,比如2015年销售增加10%的数码产品与同一时期销售下降30%的数码产品进行比较。

2.2 挖掘频繁模式、关联和相关性

1、频繁模式是在数据中频繁出现的模式:包括频繁项集频繁子序列(序列模式)频繁子结构

    (1)频繁项集:一般是指频繁地在一起的出现的商品集合,比如顾客频繁的一起购买牛奶和面包。

    (2)频繁子序列:比如顾客倾向于先买手机、再买手机膜这个的一个频繁的序列模式。

    (3)频繁子结构:涉及到不同的结构形式,如树、图、格,如果一个子结构经常出现,则称它是频繁子结构。

2、关联分析

     (1)单维关联规则:面包=>牛奶【10%,60%】

     (2)多维关联规则:age(X,"20-29") /\ income(X,"10k-20k")=>buy(X,"laptop")【10%,70%】

 2.3 用于预测分析的分类与回归

分类是这样的一个过程,基于对训练数据集,即类标号已知的数据对象的分析,学习出一个模型,该模型预测类标号未知的对象的类标号。包括分类规则(IF-THEN)、决策树、神经网络、朴素贝叶斯分类、SVM、最近邻分类

回归是建立连续值的函数模型,做数值预测。

在分类和回归之前,使用相关分析技术试图识别与分类或回归显著相关的属性,将这些属性应用于分类和回归过程,过滤掉不相关属性。

2.4 聚类分析

 聚类是分析数据对象,而不考虑类标号,根据类内相似性最大化,类间相似性最小化的原则进行聚类。

三、认识数据

3.1 数据对象

 数据集由数据对象组成,一个数据对象代表一个实体,数据对象由属性来描述,比如数据库中行就是数据对象,列就是属性。

3.2 属性

表示数据对象的一个特征,属性、维、特征、变量都是可以互换使用。

3.3 属性的类型

标称属性:具有名称的属性,比如头发的颜色,有褐色、白色、红色、棕色

二元属性:只有两种状态0或1,0表示不出现,1表示出现。如果两种状态都同等重要,则称为二元对称属性,如男和女。如果状态的不是同等重要,则称为二元非对称属性,例如阳性和阴性。

序数属性:值之间具有某种意义的序,但相继值之间差是未知的,如小 中 大。

数值属性:用整数或实数表示。

机器学习中将属性归为:离散属性连续属性

3.4 数据的基本统计描述

       对于成功的数据预处理而言,把握数据的全貌是至关重要的,基本的统计描述可以用来识别数据的性质,凸显那些数据值应该视为噪声或离群点。

数据的中心趋势度量包括:中位数众数算术均值加权均值

数据的散布:极差、四分位数、四分位数差、方差、标准差,五数概括和盒图

图形显示:分位数图、分位数图-分位数图、直方图、散点图

你可能感兴趣的:(数据挖掘-引论)