数据挖掘导论读书笔记

本文主要对相关系数做出介绍,了解各种相似性和相异性度量的方法,以及适用的场景。

一、 数据类型
 首先对数据的类型进行介绍:在统计学上,将数据分为定性和定量两种类型。定量数据表示事物的数量或者个数,用数值标度度量。例如:转账的金额1000/次,转账的笔数2次/月。定性数据是指的没有量的解释,它们只能分类,例如:性别,职业,学历等。因为用来描述和分析数据的合适的统计工具依赖于数据类型的,因此,区别定量数据和定性数据很重要。数据挖掘导论读书笔记_第1张图片
  定性数据的图形描述方法常用的是条形图和饼图。条形图给出相应的每一类的频数(或者相对频率),长方形的高度或者长度与类的频数(相对频率)成比例。饼图将一个圆分成几份,每一份代表一个类,每份中心角与类相对频率成比例。帕累托图将定性变量的类按照高度从左到右进行降序排列条形图。帕累托图是质量控制中的一种重要的图形,有助于辨别最严重的问题区域。
  定量数据的图形方法:点图、茎叶图和直方图。
二、 相似性和相异性
 相似性定义这两个对象相似程度的数值度量。相似性越高,度量值就越大。一般相似度的取值在0和1之间。
 相异性定义两个对象差异程度的数值度量,对象差别越大,度量值越大。一般相异性的取值在0和无穷之间取值。
 1、简单属性的相似性和相异性的度量
相似度和想相异度之间可以相互转换,因为有些算法是基于相异度进行度量的。二者之间的转换见下表:
数据挖掘导论读书笔记_第2张图片
 2、 数据对象之间的相似性度量
 1) 二元属性相似性度量
 两个仅包含二元属性的对象之间的相似性度量称为相似系数,一般取值在0和1之间。
 简单匹配系数:(SMC)
数据挖掘导论读书笔记_第3张图片
简单匹配系数表达式
 Jaccard系数:忽略0-0匹配,对于事务型的矩阵(或者购物篮数据)是稀疏矩阵,SMC将会判断所有事务都是类似的。
Jaccard系数表达式
 2) 余弦相似性
 不仅要忽略0-0匹配,而且还必须能够处理非二元向量,对于文档的相似性常常用余弦的相似性进行度量。
余弦相似表达式
公式各个参数的意义
 3)相关性
 两个具有二元变量或者连续变量的数据对象之间的相关性是对象属性间的线性联系的度量,也称为Pearson相关系数:
Pearson相关系数
数据挖掘导论读书笔记_第4张图片
 3、数据对象之间的相异性度量
数据对象之间的相异性一般是用距离来度量的,距离远就说明差异大,距离近就说明差异小。
数据挖掘导论读书笔记_第5张图片
 r=1时,称为汉明距离
 r=2时,称为欧几里得距离
 r值取无穷,称为上确界距离


Pang-Ning Tan、[美]Michael Steinbach;Vipin Kumar;范明、范宏建等译 《数据挖掘导论(完整版)》

你可能感兴趣的:(读书摘要)