本章主要讲的是数据,具体来说 ,是涉及到考察数据的属性和数据值。本章为第三章的数据预处理做铺垫作用。
关于数据对象和属性的定义这里自不多谈,都容易理解。说多了反而复杂 。这里重点介绍的是数据属性的几种类型。
标称属性
这个属性的概念解释起来不是很好理解,但看实际例子一眼就明白了。
头发颜色(黑色,黄色,红色,蓝色,绿色)
职业(学生,教师,工人,农民)
枪支类型(1,2,3,4) ps:其中1代表手枪,2代表散弹枪,3代表冲锋枪,4代表阻击枪。
这里的“头发颜色”和“职业”都是标称属性。这种属性的值只能是一些符号或者其子类的名称,所以说,它的值并没有数学意义,因此,你对它进行数学运算也是毫无意义的。
考察标称属性最有意义的就是分析其众数(出现最多的值),这可以看出一种中心趋势。根据这种中心趋势,可以得出一些结论。如这个地方的人的头发颜色一般都是黑色,大部分人的职业都是工人等等。
二元属性
二元属性是一种特殊的标称属性。之所以这样说 ,原因有二。其一,该属性的值同样也只能是一些符号或者其子类的名称。其二,其中只能为0或者 1(有/无,true/false)。所以该属性又被称为布尔属性。
抽烟(1,0,1,0) ps:其中1表示抽烟,0表示不抽烟。
性别(1,1,0,0) ps其中1表示男,0表示女。
其中,如果该属性的值是具有同等价值并且携带相同的权重的,我们称之为该二元属性是对称的。相反,如果其状态的结果不是同等重要的,我们称之为该二元属性的是非对称的。例如,上面的男和女就是对称的,而考察吸烟的那个就是非对称的。因为通常来说我们关注其中的某一方。
序数属性
序数属性的值是有意义的/有先后次序的/的值,主要用在记录不能客观度量的主观评估上。这么说可能很抽象,我们来看个例子。
职称(讲师,教授,助教,副教授)
评价(一般,差,良,中,优)
OK,这两个例子很好理解。我们对着例子来看定义。“该属性的值是有意义的”,这个好理解,“有先后次序的”,这个也好理解。“用在纪律不能客观度量的主观评估上”,这个才是理解的关键所见。比如说,评价是比较主观的,我们不能说“优”比“良”到底好多少分(当然我知道有那种具体的量化的评分标准),也不能说教授比副教授牛逼多少分(这个应该可以理解吧?)。所以该属性的值是用来定性的而不是用来定量的。
因此,基于这种特性。我们说,序数属性一般都是用于等级评定的调查。通过分析这个属性,可以得到它的众数和中位数(有序序列的中间值)
数值属性
这个属性就是用来定量的了,这个不用多解释。其次,该属性可以是区间标度和比率标度属性,这个虽然不熟悉,但是看一遍也好理解,因此,这里不多提。
离散属性和连续属性
我们在前面已经把属性分成了好几个类型了,而这些类型不是互斥的。这些类型的区别主要是观察角度的不同。
而这里说的离散属性和连续属性也是从不同的观察角度来说的,这里的观察角度和前面的观察角度已经不同了,上升到了算法的层次。
在机器学习领域开发的分类算法通常都把属性分成离散的或连续的,每种类型都可以用不同的方法处理。
其中关于离散属性的定义是这样的:离散属性具有有限或无限可数个值,可以用或者不用整数来表示。这个其实挺好的理解的,属性的有限个值就是比如说,头发的颜色就只有这么几种,撑破了几十种,不能有无限多个种类,因此头发颜色这个属性是离散的;属性有无限可数个值就是比如说,顾客的ID号从理论上来说是无限增长的,但实际上我们不可能有无限个顾客。因此顾客ID号也是一个离散的属性。
连续性说白了就是无限不可数,那么不可数的属性就是连续的。比如,生产零件的规格尺寸(误差在很小很小以下,从绝对意义上来说,不可能制造出两个完全一样零件)
这一小节说的是,对于数据的预处理而言,把握数据的全貌是非常重要。数据的全貌包括中心趋势和散布,而基本统计描述就是干这个事情的。下面一次介绍。
中心趋势度量
中心趋势度量就是考察数据的均值,加权平均数,中位数(有序数据的中间),众数(单峰,多峰),中列值(数据集中最大和最小值的平均值。)。这些概念都是理解的,这里不多说。指的一提的是,尽管均值是描述数据集的最有用的单个量,但是它 并非总是度量数据中心的最讲方法。究其原因是均值对两端的极端值及其敏感。所以为了抵消极端值的影响,我们可以在计算均值之前去掉高端和低端的2%左右,再行计算。这就是截尾均值。
度量数据散布
度量数据散布涉及到这么几个东西:极差,四分位数,方差,标准差和四分位差。下面依次说一下
极差
极差就是该集合的最大值和最小值之差。
四分位数
这个概念还是挺重要的,详细的具体的,网上资料有一大堆,这里就不过多阐述了。其实这个东西说白了就是把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。第一个四分位数记作Q1,是第25%个数;第二个记作Q2,是第50%个数;第三个记作Q3,是第75%个数;剩下的就是余下的25%。
这里要特别注意的是Q1和Q3这两个点,在Q1~Q3区间,给出了数据中间的一半所覆盖的范围。我们把这个范围或者说距离成为四分数极差。即
IQR=Q3-Q1
五数概括
顾名思义,这个五数概括就是五个参数,分别是,中位数(Q2),四分位数(Q1),四分位数(Q3),最小值和最大值。通常我们表示这五个数的时候是借助盒图(也叫箱线图)来表示的。
这里需要特别注意的是,两端的线本来是画的最大值和最小值,但是假如说最值超过了四分位数的1.5*IQR时,那就不能画两个最值了。那么肯定会有人说,那就画1.5*IQR。非也!!!画的是出现在四分位数的1.5*IQR之内的最极端的观测值。这个规矩要搞搞清楚,看看书上的例子吧。
方差和标准差
这个自不多说。
方差和标准差都是反映了一组数据偏离平均值的程度(离散程度)(这句话在以后的聚类时会频繁的用到,务必理解)。
可能会有人提出这样的疑问,既然标准差就是方差的开方,那么为什么还需要标准差?
其实,有了标准差是为了方便我们进行后续的工作,这里我说的方便指的是数值和单位。知乎上有关于这块的讨论,我就不多说了。
数据的基本统计描述的图形显示
其实说的就是如何把上面说的数据的基本统计描述用图形表示出来。
显示一元属性数据的图有三种:分位数图,分位数-分位数图(Q-Q图),直方图。
其中分位数图书上讲得比较清楚,但是分位数-分位数图书上就只是简单介绍了下,初看会有很多疑问。这里说明下。
Q-Q图实际上可以反映出两种分布的走势及区别。
我们看图2.5,注意观察横坐标(部门1)和纵坐标(部门2)及黑点分别对应的值。例如Q1,部门1对应的是60,而部门2对应的是64.因为Q1的含义是固定的,都代表各自的25%。因此,就可以得出,在Q1,部门1销售商品单价比部门2稍低(例如,一个的一半才40,一个的一半就是80了。肯定这两者有差距嘛)。
而散点图是显示二元分布的(即涉及两个属性)
总的来说,把这个基本统计量进行图形显示之后,他们有助于识别噪声和离群点。因此对于数据清理是特别有用的。
可视化
本章对可视化做了简单介绍,书上介绍的还算清楚,这里不多说。
(这个东西基本上是贯穿了整个KDD的,包括以后涉及到的度量及矩阵计算等。)
在诸如聚类、离群点分析和最近邻分类等数据挖掘应用中,我们需要评估对象之间相互比较的相似或不相似程度。
相似性和相异性度量都称为邻近性。
相似性和相异性的度量用 数值(0-1)来表示。对于相似性来说,0为完全不相似(完全不相同),1为完全相似(完全相同);对于相异性来说,0为完全不相异(完全相同),1为完全相异(完全不相同)。
描述数据对象之间的相似性和相异性我们通常采用矩阵这一数据结构。具体来说是数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象之间的相异性值)
关于矩阵的具体构造书上已经给出了很详细的例子
P46,2.4.2
上面我们知道了对象用矩阵存储,下面我们就来看看不同的属性的邻近性到底是如何度量的。
标称属性的邻近性度量
回归一下标称属性
头发颜色(红色,黑色,黄色,绿色)
职业(学生,老师,工人,农民)
OK,其实计算标称属性的邻近性度量(其实就是相似性)很简单,也很容易想到。书上介绍的很详细,这里不多说。
二元属性的邻近性度量
二元属性前面已经介绍过。它分为对称和非对称的。
简单的计算方法书上已经介绍了,这里不多说。只强调一下Jaccard系数。这个东西在文献里被广泛使用。
书中47页的例2.18的意思我已经明白,但最后的计算过程我并不理解。我按照自己的理解去做这道题,画出了矩阵进行计算,但始终无法得到和书上一样的式子。搜索了一下也没有答案,这里暂且放着。
数值属性的邻近性度量
数值属性的值是实实在在的数字,所以计算相异性那就直接算出具体的数字就OK了。
所以,用来度量数值属性的相异性的指标是距离。具体包括欧几里得距离、曼哈顿距离、闵可夫斯基距离。
书上对这些概念解释得也很清楚,仔细看下应该能理解。
其中关于闵可夫斯基距离的推广,切比雪夫距离可能大家会感到比较陌生。实际上,二个点之间的切比雪夫距离就是其各坐标数值差绝对值的最大值。以(x1,y1)和(x2,y2)二点为例,其切比雪夫距离为max(|x2-x1|,|y2-y1|)。
序数属性的邻近性度量
这种属性的值是定性的而不是定量的。因此要计算出定性的数值邻近性不太容易(因为它的数字不是定量的)。因此为了解决这个问题,我们参考借鉴了数值属性解决方法。
关键就是采用了映射这一思想。首先把定性的转换成定量的,然后再计算距离就OK了。在NLP中,对于情感类的词汇处理基本上就是这样做的。例如0代表最不开心,1代表最开心。
混合类型属性的相异性
通常处理混合类型属性的有两种做法,一种就是将每种类型的属性分成一组,然后分别进行处理再融合,这种一般来说不会使用。还有一种就是把所有类型一起处理。这涉及到规格化,映射。
关于例2.22,我按照书上给的公式,经过一番折腾得到了最终的结果。这里不得不吐槽一下,这本书对于新手来说简直太不友好了=。=直接甩给你一堆公式和一个结果就完了,这让我们怎么进行推导=。=好在最后还是搞出来了。
但是,我在这里还存在一个疑问。第二种算法的大概意思就是把不同属性的都统一计算成同一种规格的,然后再合并形成一个相异性矩阵。但实际上,这种算法同样也是分开计算了呀,而且虽然说是混合但这种混合仍然是分成一列一列的。这个混合不是我想象中的那种所有类型都揉在一起的那种混合,自然这种混合的处理也不是我以为的那种混合。或许是书上给的例子太少了,也可能是我的认识还不够深,总之,我对这种处理,目前还持保留意见。
余弦相似性
这个我在论文中也已经研究过这个。主要是处理文本信息的。通过特征向量来匹配。这里不多说了。