机器学习_3_attribute

 

二、标称属性(nominal  attribute)

 1)特点

  1. 标称属性的值是一些符号或事物的名称。
  2. 每个值代表某种类别、编码、状态,因此标称属性又被看做是分类的(categorical)。
  3. 标称属性的值不具有有意义的序,而且不是定量的。(也就是说,给定一个对象集,找出这种属性的均值没有意义)

 2)其它

  1. 这些值不必具有有意义的序,在计算机科学中,这些值也被看做是枚举的(enumeration)。
  2. 尽管标称属性的值是一些符号或“事物的名称”,但也可以用数表示这些符号或名称,如 hari_color,可以用 0 表示黑色,1 表示黄色。
  3. 但一种属性中最长出现的值,称为众数(mode),是一种中心趋势度量。

  # 例:hari_color(头发颜色)、marital_status(婚姻状况)、occupation(职业),都是标称属性,表示对象的特征

 

四、序数属性(ordinal  attribute)

 1)特点

  1. 属性对应的可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的查是未知的。(也就是对应的值有先后次序

 2)其它

  1. 例:drink_size,表示饮料杯的大小:小、中、大,这些值具有有意义的先后次序。
  2. 序数属性可以通过把数值量的值域划分成有限个有序类别(如,0-很不满意、1-不满意、2-中性、3-满意、4-很满意),把数值属性离散化而得到。
  3. 可以用众数和中位数表示序数属性的中性趋势,但不能定义均值。
  4. 标称、二元和序数属性都是定性的,即,它们描述对象的特征,而不给出实际大小或数值。

 

六、离散属性与连续属性

  • 机器学习中的分类算法通常把属性分为离散的和连续的。

 1)离散属性

  • 特点:
  1. 具有有限个或无限个可数个数,可以用或不用整数表示
  2. 例:hari_color、smoker、drimk_size都有有限个值,因此是离散的。
  • 无限可数:如果一个属性可能的值集合是无限的,但是可以建立一个与自然数一一对应,则该属性是无限可数的。
  • 例:customer_ID 是无限可数的。

 2)连续属性

  • 如果属性不是离散的,则它是连续的
  • 文献中,术语“数值属性”和“连续属性”可以互换的使用。
  • 实践中,实数值用有限位数数字表示,连续属性一般用浮点变量表示

参考: 数据挖掘:数据(数据对象与属性类型)

你可能感兴趣的:(机器学习)