机器学习与数据挖掘知识归纳(一)

一. 数据挖掘基础

1. 数据中的知识发现包括哪几个步骤?

数据源——(数据整合、准备)——整理过的数据——(数据选取与预处理)——准备好的数据——(数据挖掘)——模型——(模型评估)——专业知识

1、数据准备、整合: 了解 KDD 应用领域的有关情况,包括熟悉相关的背景知识,掌握用户需求,确定数据属性、把数据导入数据库、异常值缺失值的处理、处理数据偏差等。
2、数据选取: 旨在确定目标数据,根据用户的需要从原始数据库中选取相关数据或样 本。
数据预处理: 对上述选出的数据进行再处理,检查数据完整性及数据一致性,量化连续、离散值,删除冗余/无用的数据特征,选择抽样方法,数据归一化等。数据预处理:主要包括

  • 聚集(将两个或多个对象合并成单个对象)、
  • 抽样(选择数据对象子集进行分析)、
  • 维归约(将高维数据压缩成低维数据⽽减少数据量,常用的方法法为特征的提取,如线性判别分析LDA和主成分分析PCA)、
  • 特征子集选择(将所有可能的特征子集作为感兴趣的数据挖掘算法的输入,然后选取产生最好结果的子集)
  • 特征创建(由原来的属性创建新的属性集)
  • 离散化和二元化(聚类、直⽅图)、
  • 数据变换(归⼀化和标准化)等⼏个部分

3、数据挖掘: 根据KDD用户需求,选择合适的数据挖掘算法,对预处理后的数据进行挖掘的过程。传统的数据挖掘将算法大体分为有监督的学习与无监督的学习两种。

  • 确定 KDD 目标:根据用户的要求,确定 KDD 要发现的知识类型,因为对 KDD 的不同要求会采用不同的知识发现算法,如分类、回归、关联规则、聚类等。
  • 选择算法:根据步骤①确定的任务目标选择合适的知识发现算法,包括选取合适的模型和参数。有两种选择算法的途径,一是 根据数据的特点不同,选择与之相关的算法;二是根据用户的要求,有的用户希望得到描述型的结果,有的用户希望得到更高的预测准确度。总之,要做到选择算法与整个 KDD 过程的评判标准相一致。
  • 数据挖掘:这是整个 KDD 过程中重要的一个步骤。运用②中算法,从数据库中获取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)。

4、模式评估: 对数据挖掘结果的评价,也是评价模型效果好与坏的标准,常见的评估指标有精度、召回率等。如果发现冗余或无关的模式,就将其剔除。

2. 数据挖掘应用

物体检测、文本分类、语音识别、图像识别、建模传感数据、自动驾驶、学习自定义用户、社交网络发现、医疗诊断等

二. 学习的可行性

机器学习与数据挖掘知识归纳(一)_第1张图片
假如一个罐子中有绿色和橙色两种弹珠,现在想知道罐子中橙色弹珠的比例,该怎么做?
这时便需要进行抽样并从抽出的样本(sample)中估计橙色弹珠的比例,但是抽样一定会带来一定的误差的,而且直观上来看,抽样的样本数目越多,误差越小。而 Hoeffding 不等式就是描述这个误差跟抽样数目的关系,假如橙色弹珠的真实比例为 μ , 而从样本中估计出的比例为 ν, 样本大小为 N,样本v不一定等于µ,但可以趋近µ。上式中的 ϵ 表示允许的误差范围。
在这里插入图片描述

2. 用 Hoeffding 不等式说明学习的可行性

考虑一个二分类问题,样本标签与我们的模型 h 预测出的标签一致,和表示样本标签与预测标签不一致。则橙色弹珠的比例就是模型 h 的错误率。同时将模型 h 在总体中的错误率记为 Eout(h)(泛化误差), 而在抽取的样本中的错误率记为 Ein(h)(训练误差),则根据 Hoeffding 不等式有:
机器学习与数据挖掘知识归纳(一)_第2张图片

也当模型的所有假设的个数 M 为有限个时,样本数目 N 足够大时,就能够保证泛化误差 Eout(h) 和训练误差 Ein(h) 很接近。只要找到一个假设 使得 Ein(h) 很小,那么 Eout(h) 也会很小,从而达到学习的目的。
机器学习与数据挖掘知识归纳(一)_第3张图片

三. 数据和数据预处理

1. 有哪四种不同的属性类型?分别可以进行什么操作?

机器学习与数据挖掘知识归纳(一)_第4张图片

  • 标称属性(nominal):模、熵、卡方。值的转换有一一映射。
  • 序数属性(ordinal):中值、百分位、符号检验。值的转换有保序变换。
  • 区间属性(interval):平均值、标准差。值的转换有函数变换,可有偏置。
  • 比率属性(ratio):几何平均数、调和平均数。值的转换有函数变换,不可有偏置。

2. 非对称属性?

对于非对称的属性,只有非零的属性值被认为是重要的,我们一般只关注属性为1的情况,所以这个就是非对称的二元属性。
就像学生选课一样,没选的课为0,而考虑这些0的属性的话,基本每个学生都很相似了。还有比如二元属性,当考虑普通人的患癌情况时,健康时属性为0,患癌时为1,这样大部分情况下该属性都为0。
也可能有离散的或连续的非对称特征。例如,如果记录每门课程的学分,则结果数据集将包含非对称的离散属性或连续属性。

3. 数据对象之间相似度、相异度计算

3.1 相异度
两个对象之间的相异度 (dissimilarity) 是这两个对象差异程度的数值度量。对象越类似,它们的相异度就越低。距离(distance)用作相异度的比较,相异度在 0 和正无穷大之间取值。
(1)欧几里得距离
n是维数,而xk和yk分别是 x 和 y 的第 k个属性值
在这里插入图片描述
(2)明可夫斯基距离
r 是参数:

  • (1)r = 1, 城市街区(也称曼哈顿、出租车、L1范数)距离。
  • (2)r=2, 欧几里得距离(L2范数)。
  • (3)r = oo, 上确界(Lmax范数)距离。这是对象属性之间的最大距离。
    在这里插入图片描述

(3)马氏距离:
在这里插入图片描述
3.2 相似度
两个对象之间的相似度 (similarity)的非正式定义是这两个对象相似程度的数值度量。相似度是非负的,并常常在 0 (不相似)和 1 (完全相似)之间取值。
(1)简单匹配系数
机器学习与数据挖掘知识归纳(一)_第5张图片
(2)Jaccard系数
在这里插入图片描述
(3)余弦相似度
机器学习与数据挖掘知识归纳(一)_第6张图片
(4)广义Jaccard系数
机器学习与数据挖掘知识归纳(一)_第7张图片
(5)相关分析
机器学习与数据挖掘知识归纳(一)_第8张图片

4. 数据预处理的主要任务

  • 数据清洗(处理缺失数据,噪音数据,冗余数据)、
  • 数据集成(将多个数据源上的数据合并)、
  • 数据变换(数据聚合,标准化)、
  • 数据维度约减(将巨大的数据规模变小,但分析结果大体相同)
  • 数据离散化(增强鲁棒性)

5. 处理缺失值的方法?

  • 检查并输入缺失数据的合理预测值和期望值
  • 直接删除此缺失数据样本
  • 用一个全局常数替换缺失值
  • 用其特征平均值替换缺失值
  • 用给定类的特征平均值替换缺失值(如果类标记信息
  • 用最可能的值替换一个缺失的值(例如,根据当前数据的其他属性的值)

你可能感兴趣的:(机器学习,数据挖掘)