《数据挖掘——概念与技术(第3版)》笔记(二)

【内容包括:第二章 认识数据】

目录

    • 一、数据对象与属性类型
    • 二、数据的基本统计描述
      • 中心趋势度量
        • 均值
        • 中位数
        • 众数
        • 中列数
      • 度量数据散布
        • 1.极差(range)
        • 2.五数概括、盒图与离群点
        • 3.方差和标准差
      • 数据的基本统计描述的图形显示
    • 三、数据可视化
      • 1.基于像素的可视化技术
      • 2.几何投影可视化技术
      • 3.基于图符的可视化技术
        • 切尔诺夫脸
        • 人物线条画
      • 4.层次可视化技术
      • 5.可视化复杂对象和关系
    • 四、度量数据的相似性和相异性
      • 1.标称属性的邻近性度量
      • 2.二元属性的邻近性度量
      • 3.数值属性的相异性
      • 4.序数属性的临近性度量
      • 5.混合类型的相异性
      • 6.余弦相似性

一、数据对象与属性类型

数据对象:一个实体,又称样本、实例、数据点或对象
数据库的行对应于数据对象,列对应于属性

属性: 一个数据字段,表示数据对象的一个特征(属性、维度、特征、变量)

标称属性: 值式符号或事物的名称。每个值代表类别,编码或状态。
标称属性也是分类的,枚举的。
标称属性中数学运算没有意义。

二元属性(布尔属性): 是一种标称属性,只有两个类别或状态:01(truefalse)
对称的二元属性:两种状态的价值相同,权重相同。
非对称的二元属性:状态的结果并不式同样重要的。

序数属性:可能的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。

数值属性:定量的,可度量的值。
区间标度属性: 属性用相等的单位尺度度量。
比率标度属性:属性是具有固有零点的数值属性。

机器学习的分类算法把属性分为离散的和连续的。

离散属性:具有有限或无限可数个值
连续属性:不是离散的就是连续的

二、数据的基本统计描述

中心趋势度量

均值

算术均值、加权算术均值(加权平均)、截尾均值

中位数

众数

具有一、二、三个众数的数据集合成为单峰的、双峰的、三峰的
可能没有众数

中列数

数据集的最大和最小值的平均值


度量数据散布

1.极差(range)

最大值和最小值之差

分位数
4-分位数
百分位数

四分位数极差(IQR): 第三个和第一个四分位数的极差

2.五数概括、盒图与离群点

可疑的离群点:落在第三个四分位数之上或第一个四分位数之下至少1.5IQR处的值。

盒图
1.端点在四分位数上,盒的长度是四分位数极差IQR
2.盒内的线:表示中位数
3.盒外的线:延伸到最大、最小观测值
4.绘制出可能的离群点

3.方差和标准差


数据的基本统计描述的图形显示

  • 分位数图
  • 分位数-分位数图
  • 直方图(频率直方图)
  • 散点图

三、数据可视化

1.基于像素的可视化技术

除了线性方法安排数据记录填充窗口的其他方法:

二维空间填充曲线:希尔伯特曲线、格雷码、z-曲线
圆弓分割技术

2.几何投影可视化技术

基于像素的缺点是对于理解多维空间的数据分布帮助不大。
二维: 散点图
三维:三维的散点图
高维数据集:散点图矩阵、平行坐标系

3.基于图符的可视化技术

切尔诺夫脸

人物线条画

4.层次可视化技术

1.把所有维划分成自己,这些子空间按层次可视化。
“世界中的世界”Worlds-within-Worlds
n-vision
探究高维中的某一维随着其他维变化时,可以先固定某些维,然后使用一个三维图对没有固定的维进行可视化

  1. 树图

5.可视化复杂对象和关系

1.标签云
2.相关性(类似知识图谱的)

四、度量数据的相似性和相异性

数据对象的集合
分类:使同一个簇中的对象互相相似,其他簇中的对象相异。
临近性 相似性和相异性

数据矩阵 对象-属性结构。用关系表的形式或n×p的形式表示
又称二模矩阵。
相异性矩阵 对象-对象矩阵,存放n个对象两两之间的邻近度。
又称单模矩阵,只包含一类实体。
d(i,j) 是对象i和j之间的相异性或差别的度量。i,j越相似,其值越接近于0。
d(i,i)=0
对于标称数据有:sim(i,j)=1-d(i,j)

1.标称属性的邻近性度量

两个对象i和j的相异性(不匹配率)

d ( i , j ) = p − m p d(i,j)=\frac{p-m}{p} d(i,j)=ppm

m是匹配的数目,两个对象中有m个属性是相同的。
还可以赋予m较大的权重等增加m的影响。

两个对象i和j的相似性:

s i m ( i , j ) = 1 − d ( i , j ) = m p sim(i,j)=1-d(i,j)=\frac{m}{p} sim(i,j)=1d(i,j)=pm


2.二元属性的邻近性度量

对于对称的二元属性,每个状态都同样重要。
二元相异性 基于对称二元属性的相异性。

对象i\对象j 1 0 sum
1 q r q+r
0 s t s+t
sum q+s r+t q+r+s+t

对于非对称的二元属性,两个状态不是同等重要的。
给定两个非对称的二元属性,两个都取1的情况被认为比两个都取值0(负匹配)的情况更有意义。
(书中通过检测不同的病人的症状是否相同,来判断病人之间是否得的是同一种病,此时不需要考虑两个人都没有的症状)

i和j的相异性为
用对称的二元属性刻画: d ( i , j ) = r + s q + r + s + t d(i,j)=\frac{r+s}{q+r+s+t} d(i,j)=q+r+s+tr+s

用非对称的二元相异性刻画: d ( i , j ) = r + s q + r + s d(i,j)=\frac{r+s}{q+r+s} d(i,j)=q+r+sr+s

互补地,可以容易得到相似性。
非对称的二元相似性(Jaccard系数): s i m ( i , j ) = 1 − d ( i , j ) = q q + r + s sim(i,j)=1-d(i,j)=\frac{q}{q+r+s} sim(i,j)=1d(i,j)=q+r+sq


3.数值属性的相异性

欧几里得距离
曼哈顿距离

满足性质:
1.非负性
2.同一性(对象到自身的距离为0)
3.对称性 d(i,j)=d(j,i)
4.三角不等式

度量:满足上述条件的的测度

闵科夫斯基距离 Minkowski Distance
Lp范数
p=1 曼哈顿距离
p=2 欧几里得距离

上确界距离
又称Lmax, 切比雪夫距离
p=∞ L∞称为一致范数

每个变量还可以根据重要性赋一个权重


4.序数属性的临近性度量

1.第i个对象的f值称为 x i f {{x}_{if}} xif,属性f有 M f {{M}_{f}} Mf个有序的状态,表示f个排位,用排位 r i f {{r}_{if}} rif取代 x i f {{x}_{if}} xif

2.由于每个序数属性都可以有不同的状态数,通常需要将每个属性的值域映射到[0,1]上,以便每一个属性有相同的权重,规格化的公式如下:

z i f = r i f − 1 M f − 1 {{z}_{if}}=\frac{{{r}_{if}}-1}{{{M}_{f}}-1} zif=Mf1rif1

3. 相异性可以用任何一种数值属性的距离度量计算,使用${{z}_{if}}$作为第i个对象的f值。


5.混合类型的相异性

1.将每种类型的属性分成一组,对每种类型分别进行数据挖掘分析

2.(更可取)将所有的属性类型一起处理,只做一次分析。把所有有意义的属性转换到共同的区间[0,1]上


6.余弦相似性

每一个特定词或短语的频率都可以看成是文档的属性。
每一个文档都被一个所谓的词频向量表示。

这种数据可能是高度非对称的。

词频向量长而且稀疏,很多公共0值,我们需要一种度量,关注两个文档确实共有的词,而忽略都没有出现在两个文档中的词。

使用余弦相似度能够比较或针对给定的查询词向量对文档排序。
令x和y是两个待比较的向量,使用余弦度量作为相似性函数,有:

s i m ( x , y ) = x × y ∣ ∣ x ∣ ∣ ⋅ ∣ ∣ y ∣ ∣ sim(x,y)=\frac{x\times y}{||x||\cdot ||y||} sim(x,y)=xyx×y

余弦值0意味着两个向量正交,没有匹配。余弦值越接近于1,夹角越小,匹配越大。

余弦相似度并不遵守度量测度性质,因此被称为非度量测度

当属性是二值属性时,余弦相似性函数可以用共享特征或属性解释。1表示拥有某属性,0表示不拥有。

Tanimoto系数(Tanimoto距离):x和y所具有的属性的个数于x(y)所具有的属性的比率,同样可运用于相似度评估,如下:

s i m ( x , y ) = x × y x × x + y × y − x × y sim(x,y)=\frac{x\times y}{x\times x+y\times y-x\times y} sim(x,y)=x×x+y×yx×yx×y

你可能感兴趣的:(数据挖掘,数据挖掘,概念与技术,余弦相似性)