HCIE数据挖掘笔记-005数据挖掘专业名词

数据对象和属性类别:

 数据一般有噪声,数量庞大,且来自不同的数据源

 数据集数据对象组成,一个数据对象代表一个实体

 数据对象:样本、实例、数据点、对象  

 数据对象数据元组的形式存放在数据库中,数据库对应于数据对象对应于属性

 属性是一个数据字段,与特征变量对应

  用于数据仓库

 特征 用于机器学习

 变量 用于统计学

 属性的类型 值域

 属性有四大类: 

  标称属性:只代表某种类别,不具有意义的序(无排序)例如第一食堂、第二食堂这种也是不具有意义的序

  二元属性:标称属性的一种特殊情况 ,只有0/1

  序数属性:顺序有意义,相继值之间的差是未知的,各值之间可以相互比较,但不一定是数字(比如白金会员、超级会员等)

  数值属性:定量的可度量的量,用整数或者实数表示。

   区间标度属性:以相等的单位尺度度量

   比例标度属性:具有固定零点的数值属性

  数值属性和序数属性之间在某些情况下可以相互转换

 额外两种类型:

  离散型:有限个/无限个可数个数

  连续性:数据具有连续性

  离散型数据与连续型数据在一些情况下也可以相互转换(区间分割/加值等,一般把连续转换为离散)

 数据集类型:数据对象有时叫做

  训练集:用于训练模型

  测试集:用于测试模型,对比预测值与真实值。

  验证集:用于调参,与测试集的区别为:验证集可以反复用,测试集仅用于一次测试

  一般训练:测试:验证为6:2:2

  当数据量很大,需使用GPU加速时:训练、测试、验证的比值为:8:1:1

  在不适用验证集时训练集测试集比:

   总数据在1w以下:7:3

   总数据在1w以下:8:2

   数据量大到需使用GPU加速训练:9:1

  数据集的维度:一维数据、二维数据、多维数据、高维数据

  数据集的稀疏性:在矩阵中,如果数值为0的元素远大于非0元素的个数,非0元素排列无规律十,称为稀疏矩阵;若非零元素占大多数时,称为稠密矩阵。(IE考试中记住概念即可)稀疏矩阵可以用于提升性能

  数据集的分辨率:灰度计算、图片压缩等(使用K-means)

  数据汇总统计:量化,用单个数或数的小集合捕获可能很大的值集的各种特征

   中心趋势度量:均值、中位数和众数

HCIE数据挖掘笔记-005数据挖掘专业名词_第1张图片

 

    度量数据散步:极差、四分位数(四等分位:第25个百分位数、第50个百分位数、第75个百分位数、第100个百分位数)、方差、标准差、四分位数极差

HCIE数据挖掘笔记-005数据挖掘专业名词_第2张图片

你可能感兴趣的:(HCIE数据挖掘笔记-005数据挖掘专业名词)