【内容包括:第二章 认识数据】
数据对象:一个实体,又称样本、实例、数据点或对象
数据库的行对应于数据对象,列对应于属性
属性: 一个数据字段,表示数据对象的一个特征(属性、维度、特征、变量)
标称属性: 值式符号或事物的名称。每个值代表类别,编码或状态。
标称属性也是分类的,枚举的。
标称属性中数学运算没有意义。
二元属性(布尔属性): 是一种标称属性,只有两个类别或状态:01(truefalse)
对称的二元属性:两种状态的价值相同,权重相同。
非对称的二元属性:状态的结果并不式同样重要的。
序数属性:可能的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。
数值属性:定量的,可度量的值。
区间标度属性: 属性用相等的单位尺度度量。
比率标度属性:属性是具有固有零点的数值属性。
机器学习的分类算法把属性分为离散的和连续的。
离散属性:具有有限或无限可数个值
连续属性:不是离散的就是连续的
算术均值、加权算术均值(加权平均)、截尾均值
具有一、二、三个众数的数据集合成为单峰的、双峰的、三峰的
可能没有众数
数据集的最大和最小值的平均值
最大值和最小值之差
分位数
4-分位数
百分位数
四分位数极差(IQR): 第三个和第一个四分位数的极差
可疑的离群点:落在第三个四分位数之上或第一个四分位数之下至少1.5IQR处的值。
盒图:
1.端点在四分位数上,盒的长度是四分位数极差IQR
2.盒内的线:表示中位数
3.盒外的线:延伸到最大、最小观测值
4.绘制出可能的离群点
除了线性方法安排数据记录填充窗口的其他方法:
二维空间填充曲线:希尔伯特曲线、格雷码、z-曲线
圆弓分割技术
基于像素的缺点是对于理解多维空间的数据分布帮助不大。
二维: 散点图
三维:三维的散点图
高维数据集:散点图矩阵、平行坐标系
1.把所有维划分成自己,这些子空间按层次可视化。
“世界中的世界”Worlds-within-Worlds
n-vision
探究高维中的某一维随着其他维变化时,可以先固定某些维,然后使用一个三维图对没有固定的维进行可视化
1.标签云
2.相关性(类似知识图谱的)
簇 数据对象的集合
分类:使同一个簇中的对象互相相似,其他簇中的对象相异。
临近性 相似性和相异性
数据矩阵 对象-属性结构。用关系表的形式或n×p的形式表示
又称二模矩阵。
相异性矩阵 对象-对象矩阵,存放n个对象两两之间的邻近度。
又称单模矩阵,只包含一类实体。
d(i,j) 是对象i和j之间的相异性或差别的度量。i,j越相似,其值越接近于0。
d(i,i)=0
对于标称数据有:sim(i,j)=1-d(i,j)
两个对象i和j的相异性(不匹配率):
d ( i , j ) = p − m p d(i,j)=\frac{p-m}{p} d(i,j)=pp−m
m是匹配的数目,两个对象中有m个属性是相同的。
还可以赋予m较大的权重等增加m的影响。
两个对象i和j的相似性:
s i m ( i , j ) = 1 − d ( i , j ) = m p sim(i,j)=1-d(i,j)=\frac{m}{p} sim(i,j)=1−d(i,j)=pm
对于对称的二元属性,每个状态都同样重要。
二元相异性 基于对称二元属性的相异性。
对象i\对象j | 1 | 0 | sum |
---|---|---|---|
1 | q | r | q+r |
0 | s | t | s+t |
sum | q+s | r+t | q+r+s+t |
对于非对称的二元属性,两个状态不是同等重要的。
给定两个非对称的二元属性,两个都取1的情况被认为比两个都取值0(负匹配)的情况更有意义。
(书中通过检测不同的病人的症状是否相同,来判断病人之间是否得的是同一种病,此时不需要考虑两个人都没有的症状)
i和j的相异性为:
用对称的二元属性刻画: d ( i , j ) = r + s q + r + s + t d(i,j)=\frac{r+s}{q+r+s+t} d(i,j)=q+r+s+tr+s
用非对称的二元相异性刻画: d ( i , j ) = r + s q + r + s d(i,j)=\frac{r+s}{q+r+s} d(i,j)=q+r+sr+s
互补地,可以容易得到相似性。
非对称的二元相似性(Jaccard系数): s i m ( i , j ) = 1 − d ( i , j ) = q q + r + s sim(i,j)=1-d(i,j)=\frac{q}{q+r+s} sim(i,j)=1−d(i,j)=q+r+sq
欧几里得距离
曼哈顿距离
满足性质:
1.非负性
2.同一性(对象到自身的距离为0)
3.对称性 d(i,j)=d(j,i)
4.三角不等式
度量:满足上述条件的的测度
闵科夫斯基距离 Minkowski Distance
Lp范数
p=1 曼哈顿距离
p=2 欧几里得距离
上确界距离
又称Lmax, 切比雪夫距离
p=∞ L∞称为一致范数
每个变量还可以根据重要性赋一个权重
1.第i个对象的f值称为 x i f {{x}_{if}} xif,属性f有 M f {{M}_{f}} Mf个有序的状态,表示f个排位,用排位 r i f {{r}_{if}} rif取代 x i f {{x}_{if}} xif。
2.由于每个序数属性都可以有不同的状态数,通常需要将每个属性的值域映射到[0,1]上,以便每一个属性有相同的权重,规格化的公式如下:
z i f = r i f − 1 M f − 1 {{z}_{if}}=\frac{{{r}_{if}}-1}{{{M}_{f}}-1} zif=Mf−1rif−1
3. 相异性可以用任何一种数值属性的距离度量计算,使用${{z}_{if}}$作为第i个对象的f值。
1.将每种类型的属性分成一组,对每种类型分别进行数据挖掘分析
2.(更可取)将所有的属性类型一起处理,只做一次分析。把所有有意义的属性转换到共同的区间[0,1]上
每一个特定词或短语的频率都可以看成是文档的属性。
每一个文档都被一个所谓的词频向量表示。
这种数据可能是高度非对称的。
词频向量长而且稀疏,很多公共0值,我们需要一种度量,关注两个文档确实共有的词,而忽略都没有出现在两个文档中的词。
使用余弦相似度能够比较或针对给定的查询词向量对文档排序。
令x和y是两个待比较的向量,使用余弦度量作为相似性函数,有:
s i m ( x , y ) = x × y ∣ ∣ x ∣ ∣ ⋅ ∣ ∣ y ∣ ∣ sim(x,y)=\frac{x\times y}{||x||\cdot ||y||} sim(x,y)=∣∣x∣∣⋅∣∣y∣∣x×y
余弦值0意味着两个向量正交,没有匹配。余弦值越接近于1,夹角越小,匹配越大。
余弦相似度并不遵守度量测度性质,因此被称为非度量测度
当属性是二值属性时,余弦相似性函数可以用共享特征或属性解释。1表示拥有某属性,0表示不拥有。
Tanimoto系数(Tanimoto距离):x和y所具有的属性的个数于x(y)所具有的属性的比率,同样可运用于相似度评估,如下:
s i m ( x , y ) = x × y x × x + y × y − x × y sim(x,y)=\frac{x\times y}{x\times x+y\times y-x\times y} sim(x,y)=x×x+y×y−x×yx×y