数据挖掘导论学习笔记(一)

第一章 绪论

数据挖掘:在大型数据存储库中,自动的发现有用信息的过程。

数据库中知识发现过程(KDD):
输入数据—>数据预处理---->数据挖掘---->后处理---->信息
数据预处理:特征选择,维规约,规范集,选择数据子集
后处理:模式过滤,可视化,模式表示

数据挖掘任务分为两大类:
(1)预测任务:根据其他属性的值,预测特定属性的值
被预测的属性一般叫做目标变量或因变量
用来做预测的属性称为说明变量或自变量
(2)描述任务:导出概括数据中潜在联系的模式

四种主要数据挖掘任务:
(1)预测建模:以说明变量函数的方式为目标变量建立模型
分类:用于预测离散的目标变量
回归:用于预测连续的目标变量
例:预测花的类型
(2)关联分析:用来发现描述数据中强关联特征的模式。
例:购物篮分析
(3)聚类分析:发现紧密相关的观测值组群。
例:文档聚类
(4)异常检测:识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。
例:信用卡欺诈检测

第二章 数据

基本概念:
(1)数据集可以看做是数据对象的集合
(2)属性是对象的特征或特性
通常,数据集是一个文件,其对象是文件的记录(或行),每个字段(或列)对应于一个属性。
(3)测量标度:将数值或符号值与对象的属性相关联的规则。通常将属性的类型作为测量标度的类型。
(4)数值的如下性质常常用来描述属性
相异性 序 加法 乘法
根据给定的这些性质,我们可以定义四种属性类型:标称,序数,区间,比率。
分类的(定性的):标称,提供足够信息以区分对象(在与不在,是与不是)
序数,提供足够信息确定对象的序(那一段)
数值的(定量的):区间,存在测量单位(有正负)
比率,差和比率都有意义,绝对温度
(5)用值的个数描述属性
离散的:离散属性具有有限或无限可能数值
二元属性:特殊情况,只能接受两个值,真假,是否,0 1
连续的:连续属性是取实数值的属性。
(6)非对称属性:选课的为1,未选课为0,只有非零值才重要的二元属性是非对称的二元属性。
(7)数据集的一般特性:
维度:数据集中的对象具有的属性数目。维灾难,维归约
稀疏性:优点,很多数据挖掘算法仅适合处理稀疏数据。
分辨率:不同分辨率下数据的性质不同。分辨率太高,模式看不到,或者掩埋在噪声中;分辨率太低,模式可能不出现。
(8)记录数据类型:
事物数据或购物篮数据
数据矩阵或模式矩阵(稀疏数据矩阵,文档-词矩阵)
(9)有序数据
时序数据,时间数据:记录数据的扩充
序列数据:体项的序列
时间序列数据,特殊的时间数据,其中每个数据都是一个时间序列。
空间数据:重要特点,空间自相关性。

测量和数据收集问题:
1 测量误差和数据收集错误
测量误差:测量过程导致的任何问题
连续属性,测量值与实际值的差成为误差
数据收集错误:遗漏数据对象或属性值或不正确的包含数据对象等错误
2 噪声和伪像
噪声:测量误差的随机部分。术语噪声通常包含时间或空间分量的数据。
伪像:数据的确定性失真,(一组照片同一地方上的条纹)
3 精度,偏倚和准确率
精度:(相同量)重复测量之间的封闭性,通常用集合标准差度量。
偏倚:测量与被测量之间的系统的变差,用值集合的均值与被测量的已知值之间的度量值。
准确率:被测量的测量值与实际值之间的接近度。考虑有效数字的使用。
4 离群点:具有不同于数据集中大部分数据对象的特征的数据对象或是相对于该属性的典型值不寻常的属性值。也称异常对象或异常值。
5 遗漏值
处理遗漏值的策略:
(1)删除数据对象或属性
(2)估计遗漏值:与具有遗漏值的电临近的点的属性值常常可以用来估计遗漏的值。
(3)在分析时忽略遗漏值

聚集:
定义:将两个或多个对象合并成单个对象。
动机:
首先,数据规约导致的较小数据集需要较少的内存和处理时间,因此可以使用花费更大的数据挖掘算法。
其次,通过高层而不是低层数据视图,聚集起到了辖域或标度转换的作用。
最后,对象或属性群的性质通常比单个对象或属性的性质更加稳定。

抽样:
定义:一种选择数据对象子集进行分析的常用方法。
简单随机抽样:选取任何特定项的概率相等。
两种变形:
(1)无放回抽样
(2)有放回抽样
分层抽样:从预先指定的组开始抽样。
渐进抽样:合适的样本容量很难确定,因而需要使用自适应或渐进抽样方法。即从一个小样本开始,然后增加样本容量直至得到足够容量的样本。

维归约
好处:
(1)如果维度较低,许多数据挖掘算法的效果更好,因为维归约可以删除不相关的特征并降低噪声。
(2)维归约可能导致更容易理解的模型,因为模型可能只设计较少的属性。
(3)降低了数据挖掘算法的时间和内存需求。
维灾难:随着数据维度的增加,许多数据分析变得十分困难。
常用方法:使用线性代数技术,将数据高维空间投影到低维空间,特别是对于连续数据。主成分分析和奇异值分解。

特征子集选择
降低维度的另一种方法是仅使用特征的一个子集。
冗余特征:重复包含了在一个或多个其他属性的许多或所有信息。
不相关特征:包含对于手头数据挖掘任务几乎完全没用的信息。
几种标准的特征选择方法:
(1)嵌入方法:特征选择作为数据挖掘算法的一部分自然的出现。
(2)过滤方法:使用某种独立于数据挖掘任务的方法,在数据挖掘算法执行前进行特征选择。
(3)包装方法

数据挖掘导论学习笔记(一)_第1张图片 特征子集选择过程流程图

特征创建
创建新属性的方法:
(1)特征提取:由原始数据创建新的特征集称作特征提取。特征提取技术都是高度依赖于特定领域的。
(2)映射数据到新的空间:数据的一种完全不同的视角可能揭示重要和有趣的特征。傅里叶变换
(3)特征构建

离散化和二元化
离散化:将连续属性变成分类属性
二元化:二元属性
连续属性离散化:
(1)将连续属性值排序后,通过制定n-1个分割点把他们分成n个区间。
(2)将一个区间中的所有值映射到相同的分类值。
用于分类的离散化方法的根本区别在于使用类信息(监督)还是不适用类信息(不监督)。
不监督离散化:
等宽:将属性的值域划分成具有相同宽度的区间,而区间的个数由用户指定。可能受离群点的影响效果不佳。
等频率:试图将相同数量的对象放进每个区间。
等深
监督离散化:
第i个区间的熵:
划分的总熵是每个区间的熵的加权平均

变量变换:用于变量的所有值的变换。
(1)简单函数 (2)标准化或规范化

相似性或相异性的度量
相似度:两个变量相似程度的数值度量,通常非负
相异度:两个对象差异程度度量,术语距离为相异度的同义词
二者可以相互变换。
数据对象之间的相异度:
欧几里距离
闵可夫斯基距离

欧几里距离性质:非负性,对称性,三角不等式性。这三个性质的测量称为度量。
二元数据的相似性度量:
两个仅包含二元属性的对象之间的相似性度量也称为相似系数。
简单匹配系数(SMC) Jaccard系数
余弦相似度。
广义Jaccard系数(Tanimoto系数)
皮尔森相关(还不会求)
Bregman散度
Mahalanobias距离

斜体都是公式,用于计算,没有什么具体的解释。

你可能感兴趣的:(数据挖掘导论基础知识)