数据挖掘学习笔记(四)

第二章 数据

  • 数据预处理是数据挖掘过程的第一个主要步骤,了解数据才能为分析与挖掘做好预处理。
  • 数据的属性:
    • 数据值类型
    • 数据的分布
    • 图形表示形式
    • 数据的相似性与相异性

数据的属性

1.数据对象

  • 数据集由数据对象组成。
  • 一个数据对象代表一个实体。
  • 例如:
    • 销售数据库:顾客、商品、销售
    • 医疗数据库:患者、医生、诊断治疗
    • 大学生数据库:学生、教授、课程
  • 数据对象又称为样本、实例、数据点、对象或元组。
  • 数据对象用属性描述。
  • 数据表的行对应数据对象,列对应属性。

2.属性(Attributes)

  • 属性:(规模,特征,变量)是一个数据字段,表示数据对象的一个特征。如:customer_ID、name、address。
  • 属性类型
  • 标称属性(nominal)
  • 二元属性(binary)
  • 序数属性(ordinal)
  • 数值属性(numeric)
  • 区间标度属性(interval-scaled)
  • 比率标度属性(ratio-scaled)

3.属性类型

  • 标称属性(nominal attribute):类别,状态或事物的名字。
    • 每个值代表某种类别、编码或状态。
    • 这些值不必具有有意义的序,可以看做是枚举的。
    • 例如:头发颜色={赤褐色,黑色,金色,棕色,褐色,灰色,白色,红色}
    • 婚姻状况、职业、ID号、邮政编码
    • 也可以用数值表示这些符号或名称,但并不定量地使用这些数。
    • 如:0表示未婚,1表示已婚。
  • 二元属性(binary attribute):布尔属性
    • 是一种标称属性,只有两个状态:0或1.
    • 对称的(symmetric):两种状态具有同等的价值,且携带相同的权重。如:性别。
    • 非对称的(asymmetric):其状态的结果不是同样重要。如:体检报告(阴性和阳性)。惯例:重要的结果用1编码(如,HIV阳性)。
  • 序数属性(ordinal attribute)
    • 其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。
    • 尺寸={小,中,大},军衔,职称
    • 可用于主观质量评估,例如:顾客对客服的满意程度调查。0-很不满意,1-不太满意,2-基本满意,3-满意,4-非常满意。
    • 以上三种属性都是定性的。
  • 数值属性(numeric attribute):定量度量,用整数或实数值表示。
    • 区间标度(interval-scaled)属性
      • 使用相等的单位尺度度量。
      • 值有序,可以评估值之间的差,不能评估倍数。
      • 没有绝对的零点(如:摄氏温度、华氏温度)
    • 比率标度(ratio-scaled)属性
      • 具有固定零点的数值属性。
      • 值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。如:开式温标(K)、重量、高度、速度等。
  • 离散属性VS连续属性
  • 离散属性(discrete attribute)
    • 具有有限或无限可数个值
    • 如:邮编、职业或文库中的字集。
    • 有时,表示为整型量。
    • 注意:二进制属性是离散属性的一个特例。
  • 连续属性(continuous attribute)
    • 属性值为实数
    • 例如,温度、高度或重量。
    • 实际上,真实值只能使用一个有限的数字来测量和表示。
    • 一般用浮点变量表示

你可能感兴趣的:(数据挖掘)