数据挖掘——认识数据

《数据挖掘》国防科技大学
《数据挖掘》青岛大学
《数据挖掘与python实践》

数据挖掘之认识数据

1. 数据和信息

**数据(data)**是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材

在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息

2. 数据对象及属性类型

数据集由数据对象组成,一个数据对象对应一个实体,数据对象也可以成为元组
用于表示数据对象的特征或功能的数据字段称为属性
属性类型:

  1. 标称属性 nominal:状态可列举
    特殊:二进制属性,(0,1)
    · 对称二进制:数量相当
    · 不对称二进制:数量差距大
  2. 序数属性 ordinal:有意义的顺序,如大、中、小
  3. 区间标度属性 interval scaled:以单位长度顺序性度量,值有序,无零点,倍数无意义
  4. 比率标度属性 ratio scaled:具有固定零点的数值属性,有序且可以计算倍数
    (标称属性和叙述属性是定性的,区间标度属性和比率标度属性是定量的)

离散属性(Discrete Attribute)&连续属性(Continuous Attribute)

2. 数据统计

数据挖掘——认识数据_第1张图片

集中趋势

  1. 均值 mean
  2. 中位数 median
  3. 众数 mode
    经验公式:mean - mode = 3×(mean - median)

离散趋势【变异程度的度量】

  1. 极差(range,全距):最大值与最小值的差距
  2. 方差(Variance):数据值与平均值之间的差异
    数据挖掘——认识数据_第2张图片
  3. 标准差(Standard deviation):方差的正平方根
  4. 变异系数:标准差相对于平均数的大小的度量
    数据挖掘——认识数据_第3张图片

分位数

四分位数(quartile): Q1 (25th 百分位数percentile), Q3 (75th percentile)
中间四分位数极差(Inter-quartile range): IQR = Q3 – Q1
五数概括: min, Q1, median, Q3, max

3. 数据可视化

数据可视化、过程可视化、结果可视化
基本统计图:

  1. 箱线图/盒图(Box plot):可以分析多个属性数据的分布差异性
    数据挖掘——认识数据_第4张图片
    离群点:通常情况下高于或低于1.5 IQR的值
  2. 直方图:可以分析单个属性在各个区间的变化分布
  3. 散点图:可以用来显示两组数据的相关性分布,正相关、负相关、不相关

4. 数据相似性

数据矩阵:N×p,N个数据,p个维度
相异矩阵,N个数据点,记录两点之间的距离,下三角矩阵
数据挖掘——认识数据_第5张图片

相似性度量

  1. 相似度 similarity:[0,1],值越大越相似
  2. 相异度 dissimilarity/distance:值越小越相似
  3. 邻近性 proximity (相似度或相异度)

(1)标称属性的邻近性度量
数据挖掘——认识数据_第6张图片
对于二值属性:
数据挖掘——认识数据_第7张图片
(2)序数属性的邻近性度量
数据挖掘——认识数据_第8张图片

(3)数值属性的邻近性度量
① 闵可夫斯基距离 Minkovski distance
数据挖掘——认识数据_第9张图片
数据挖掘——认识数据_第10张图片
曼哈顿距离 Manhattan Distance:L1范数
欧氏距离 Euclidean Distance:L2范数
上确界距离/切比雪夫距离 Supremum Distance:Lmax,L范数(指所有的属性之间,差值最大的即为两个对象的距离)
② Z-score(标准化)数据挖掘——认识数据_第11张图片
③ 余弦相似性
cos(d1, d2) = (d1 • d2) /||d1|| ||d2||
数据挖掘——认识数据_第12张图片
(4)混合属性的邻近性度量
数据挖掘——认识数据_第13张图片

你可能感兴趣的:(数据挖掘,数据挖掘)