Data & Data Preprocessing
数据:数据对象及其属性的集合
属性:属性是对象的属性或特征
属性值:属性值是分配给属性的数字或符号
属性和属性值的区别:
相同的属性可以映射到不同的属性值
不同的属性可以映射到同一组值
属性的类型取决于它所拥有的数字的下列哪些操作:
给定上述属性,即可以定义四种不同类型的属性:
Asymmetric Attributes 非对称属性。对于非对称属性,只有存在一个非零属性值被认为是重要的。
举例: 考虑一个数据集,其中每个对象是一个学生,每个属性记录一个学生是否在大学上过特定的课程。这种情况下,关注非零值是有意义的。
结构化数据的重要特征:
记录数据(Record Data )是由一组记录组成的数据,每个记录都由一组固定的属性组成。
数据矩阵(Data Matrix):数据对象具有相同的固定的数字属性集,因此数据对象可以被认为是多维空间中的点,其中每个维度代表一个不同的属性。
文档数据(Document Data ):每个文档都成为一个单词向量,每个单词都是该向量的一个分量(属性),每个分量的值是文档中单词出现的次数。(文本向量化操作)
事务数据(Transaction Data ):一种特殊类型的记录数据,其中每个记录(事务)涉及一组“项”。
例如,考虑一家杂货店。顾客在一次购物旅行中购买的一组产品构成一个事务,而购买的一组产品中的个别产品即是“项”。
TID | Items |
---|---|
1 | Bread, Coke, Milk |
2 | Beer, Bread |
3 | Beer, Coke, Diaper, Milk |
4 | Beer, Bread, Diaper, Milk |
5 | Coke, Diaper, Milk |
图数据( Graph-Based Data ):图有时可以是数据的方便和强大的表示。 可以用来表示数据对象之间的关系。
对象之间的关系经常传达重要信息。 在这种情况下,数据通常表示为图表。
数据对象映射到图的节点,而对象之间的关系则由对象和链接属性(如方向和权重)之间的链接来捕获。
例如:World Wide Web 万维网、Molecular Structures 分子结构
有序数据(Ordered Data ):对于这种类型的数据,属性具有涉及时间或空间顺序的关系。
空间坐标数据(Spatial Data ):有些对象具有空间属性,如位置或区域,以及其他类型的属性。
例如:天气数据(降水(降水量)、温度、压力)
空间自相关:物理上接近的对象在其他方面也倾向于相似
顺序数据/时间数据 (Sequential Data/Temporal Data):可以被认为是记录数据的扩展,其中每个记录都有与其相关的时间。
例如,零售交易数据集存储交易发生的时间。
时间也可以与每个属性相关联。这导致了“购买DVD播放器的人倾向于在购买后立即购买DVD”的模式可以被发现
序列数据(Sequence Data ):是单个实体的序列,如单词或字母的序列。 与顺序数据非常相似,只是没有时间戳;相反,有顺序序列中的位置。
时间序列数据(Time series data):是一种特殊类型的顺序数据,其中每个记录都是一个时间序列,即随着时间的推移而进行的一系列测量。
时间自相关:如果两个测量值在时间上接近,那么这些测量值往往非常相似
数据挖掘应用程序通常应用于为另一目的收集的数据,或用于未来但未指定的应用程序。数据挖掘聚焦于:检测和纠正数据质量问题和使用容忍数据质量差的算法。
Who Define Data Quality?The person who uses the data.
A small set of data quality attributes that are commonly selected:
质量决策必须基于质量数据,数据仓库需要对质量数据进行一致整合。
噪声是指对原始值修改后的数据
异常是特征与数据集中的大多数其他数据对象有很大的不同的数据
Data cleaning,填写缺失值,平滑噪声数据,识别或删除异常值,解决不一致
测量变量中的随机误差或方差,可能是伪造数据收集工具,存在数据录入问题,技术限制,数据传送问题,命名规则不一致等问题导致的。
Binning:对数据进行排序并划分到回收箱,通过bin方法、bin中值或bin边界等来平滑bin中的每个数据。
等宽度分割
例如:
Sorted data: 4, 7, 9, 12, 21, 22, 29, 30, 31, 34, 37, 38
◼ Partition into equal-width bins:
◆ Bin 1 (4-14): 4, 7, 9, 12
◆ Bin 2 (15-25): 21, 22
◆ Bin 3 (26-38): 29, 30, 31, 34, 37, 38
◼ Smoothing by bin means:
◆ Bin 1: 8, 8, 8, 8
◆ Bin 2: 21, 21
◆ Bin 3: 33, 33, 33, 33, 33
◼ Smoothing by bin boundaries:
◆ Bin 1: 4, 4, 12, 12
◆ Bin 2: 21, 22
◆ Bin 3: 29, 29, 29, 38, 38,38
等深度分割
例如:
Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
◼ Partition into equal-depth bins:
◆ Bin 1: 4, 8, 9, 15
◆ Bin 2: 21, 21, 24, 25
◆ Bin 3: 26, 28, 29, 34
◼ Smoothing by bin means:
◆ Bin 1: 9, 9, 9, 9
◆ Bin 2: 23, 23, 23, 23
◆ Bin 3: 29, 29, 29, 29
◼ Smoothing by bin boundaries:
◆ Bin 1: 4, 4, 4, 15
◆ Bin 2: 21, 21, 25, 25
◆ Bin 3: 26, 26, 26, 34
回归:通过将数据拟合为回归函数来平滑
聚类:检测和删除异常值
计算机和人为检查相结合:计算机检测可疑值后交给人检查
删除异常数据,即删除与大多数数据不一致的数据点。例如:某人年龄属性为200的数据等等。
删除方法:聚类、使用给定模型进行假设检验、曲线拟合…
数据不一致检测方法:
一旦我们发现差异,我们通常需要定义和应用一系列转换来纠正它们:
迭代和交互,两个过程的整合。 (e.g., Potter’s Wheels: http://control.cs.berkeley.edu/abc/)
Data integration,多个数据库、数据立方体或文件的集成。将来自多个源的数据组合成一个连贯的存储。
多个数据库集成时,经常会出现数据冗余问题。仔细整合来自多个来源的数据可能有助于减少/避免冗余和不一致,并提高挖掘速度和质量。冗余属性可以通过相关分析来检测。
皮尔森乘积矩相关系数:
该值大于0,表示A、B呈正相关,且值越大,其正相关性越大。
该值等于0,表示A、B相互独立。
该值小于0,表示A、B呈负相关,且值越小,其负相关性越大。
Χ2(卡方)检验:
其中,Oij = Count(A = ai, B = bi); eij = Count(A = ai) × Count(B = bi) / N
卡方检测的值越大,变量相关性越大。
举个例子:
注意:相关性 ≠ 因果关系
Data transformation,归一化和聚合
Data reduction,获得体积小得多但却产生相同(或几乎相同)分析结果的数据集的简化表示。
数据缩减的策略:
数据缩减的方法:
Data discretization,通过将属性的范围划分为间隔来减少给定连续属性的值数。(数值型 - > 名词型)
目的是用来减少数据大小, 且一些分类算法只接受分类属性。
离散化方法:
概念层次生成: 通过收集和替换低级别的概念(如年龄的数值),用更高级别的概念(如年轻人、中年人或老年人)来递归地减少数据)
相似度: 两个数据对象有多相似的数值。数值越高,相似度越高。
不相似度:两个数据对象有多不同的数值。数值越高,相似度越低。
接近(邻近性)是指相似性或不相似性。
在实践中,属性有许多不同的类型,因此需要一个整体的相似性。 一种简单的方法是:
分别计算每个属性之间的相似性,然后使用一种导致0和1之间相似性的方法来处理这些相似性。通常,总体相似性被定义为所有个体属性相似性的平均值。
不幸的是,如果某些属性是不对称属性,这种方法就不能很好地工作。解决这个问题的最简单方法是,当两个对象的相似度计算值都为0时,从相似度计算中省略不对称属性。( 类似的方法也能很好地处理缺失值)
注意:
其中,r是参数,n是属性的维数:
马氏距离在计算距离时考虑了变量之间的协方差
通过这种度量,欧氏距离固有的尺度和相关性问题不再是一个问题
假设d(p,q)是点 p 和 q 之间的距离,距离有如下几个特性:
满足这些性质的距离即为,度量。
一些补充:
余弦相似度:cos( d1, d2 ) = (d1 • d2) / ||d1 || ||d2 ||
相关性可以度量对象之间的线性关系,为了计算相关性,可以将数据对象p和q标准化(正态标准化),然后取它们的点积。
有时,一些属性对邻近的定义比其他属性更重要。为了解决这种情况,可以通过加权每个属性的贡献来修改相关公式,例如:使用介于0到1之间的权重wk,并将其求和为1。
稠密又连续的数据,可以使用欧氏距离的方式进行度量(结合标准化和添加权重等操作)。
稀疏又离散的数据,可以使用余弦相似度、杰卡德相似度的方式进行度量。