关联分析、噪声、高维性


数据挖掘不是信息检索


数据库中知识发现KDD:

输入数据->

数据预处理(特征选择、维归约、规范化、选择数据子集)->
数据挖掘->
后处理(模式过滤、可视化、模式表示)->

信息


注:数据预处理步骤——聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变换


预处理目的:改善数据挖掘分析工作,减少时间,降低成本,提高质量

维归约:通常是创建新属性,将一些旧属性合并在一起来降低数据集的维度。

维灾难:随着数据维度的增加,许多数据分析变得非常困难。

维归约的线性代数技术:主成分分析PCA是一种用于连续属性的线性代数技术,找出正交的新属性。

有三种标准的特征自己选择方法:嵌入(构造决策树分类器的算法使用此方法)、过滤、包装。


数据预处理阶段,涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值。

后处理阶段,还能用统计度量或假设检验,删除虚假的数据挖掘结果。


数据挖掘利用了来自如下一些领域的思想:1.来自统计学的抽样、估计、假设检验 2.人工智能、模式识别、机器学习的搜索算法、建模技术和学习理论 3.数据库技术 4.分布式计算、并行计算


数据挖掘任务:预测任务(  由一些属性(自变量或说明变量) 预测 其他特定的属性(因变量或目标变量)  )、描述任务(导出 概括数据中潜在联系的 模式)(相关、趋势、聚类、轨迹、异常)。


预测建模任务:分类(classification)(用于预测离散的目标变量)  和  回归(regression)(用于预测连续的目标变量)


关联分析(association analysis) 用来发现描述数据中强关联特征的模式。

聚类分析(cluster analysis) 旨在发现紧密相关的观测值群组,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。


异常检测(cluster analysis) 的任务是识别其特征显著不同于其他数据的观测值。这样的观测值成为异常点(anomaly)或离群点(outlier)。


数据:数据基本类型、数据质量、预处理技术、相似性和相异性度量。

相似度:两个对象相似程度的数值度量。

相异度:两个对象差异程度的数值度量。


数据探查:汇总统计、可视化技术、联机分析处理

分类:过分拟合、性能评估

重要的分类计数:基于规则的系统、最近邻分类器、贝叶斯分类器、人工神经网络、支持向量机以及组合分类器。

关联分析:频繁项集、关联规则以及产生它们的一些算法

聚类分析:不同的簇,三种特定的聚类技术( K均值、凝聚层次聚类 和 DBSCAN )


属性是对象的性质或特性。

测量标度(measurement scale) 是将数值或符号值与对象的属性相关联的规则(函数)。


属性的四种类型:标称(nominal)、序数(ordinal)、区间(interval)、比率(ratio)

标称和序数属性统称分类的(categorical)或定性的(qualitative)属性。

后两种是数值的或定量的。


非对称的二元属性:属性取值只能为0或1,但非0值才是受关注的二元属性。

数据集类型分成三组:记录数据、基于图形的数据和有序的数据。


分类:分类任务就是通过学习得到一个目标函数(target function) f,把每个属性集x映射到一个预先定义的类标号y。目标函数也称为分类模型(classification model)。决策树分类法是一种简单、广泛的分类方法。


估计误差有助于学习算法进行模型选择(model selection)


deduplication去重复