认识数据-DataMining

一、数据对象和属性类型

数据集由数据对象组成；数据对象用属性描述。

数据对象：
一个数据对象代表一个数据实体；
又称为：样本、实例、数据点、对象；
如果数据对象存放在数据库中，则称为数据元组；
就是说，数据库的行对应于数据对象，而列对应于属性；

属性：
是一个数据字段，表示数据对象的一个特征。
在文献中，属性、维（dimension）、特征（feature）、变量（variable）可以互换使用。
维：一般用在数据仓库中；
特征：机器学习文献更倾向于使用此术语；
变量：统计学家更愿意使用此术语；
属性：数据挖掘和数据库的专业人士倾向于使用的术语；

特征向量：用来描述一个给定对象的一组属性；又称属性向量；

属性类型：由该属性可能具有的值的集合决定；
标称属性、二元属性、序数属性、数值属性；

标称属性：nominal attribute /'nɑmɪnl/
标称属性的值是一些符号或事物的名称，每个值代表某种类别、状态、编码；
这些值不必具有有意义的顺序,并且不是定量的，也被称为枚举（enumeration）;
这种属性的均值、中值是没有意义的；
中心趋势度量使用众数（Mode）：该属性最常出现的值；

二元属性：（binary attribute）
是一种只有两个状态的标称属性；1表示出现，0表示不出现；
又称布尔属性，如果两种状态对应 true 和 false的话；
对称二元属性：两种状态具同等价值，且携带相同的权重；例如性别gender。
非对称二元属性：状态的结果不是同等重要；例如：新冠检测：阳性、阴性；

序数属性：ordinal attribute /'ɔrdənl/
其可能的值之间具有有意义的顺序评定，但值之间的差是未知的；
用于记录不能客观度量的主观质量评估，通常用于等级评定；
也可以通过把数值属性的值域划分成有限个顺序类别，把数值属性离散化而得到；
中心趋势度量：众数和中位数（有序序列的中间值）表示，不能定义均值；

注：标称属性、序数属性都是定性的，仅描述对象的特征，而不给出实际的大小或数量，不是可测量的值；例如：0表示中杯，1表示大杯，2表示特大杯。（罗永浩：小杯是什么？）

数值属性：numeric attribute /nu'mɛrɪkl/
是定量的，可度量的量，用整数或实数表示；
I、区间标度属性 interval-scaled：用相等的单位尺度度量，区间属性的值有序，允许比较和定量评估值之间的差。例如温度，没有真正的零点，0℃不表示没有温度，不能说10℃比5℃温暖2倍；即不能用比率谈论这些值；
II、比率标度属性 ratio-scaled：是具有固有零点的数值属性；可以说一个值是另一个值的倍数。例如开氏温度、速度、年龄、高度等；

另：机器学习领域的分类算法通常把属性分成：离散的、连续的；
离散属性：具有有限或无限个可数的值；可以用整数或不用整数表示；
连续属性：连续属性一般用浮点变量表示，值是实数；

二、数据的基本统计描述

中心趋势度量：度量数据分布的中部或中心位置；即属性的值大部分落在何处。
均值、中位数、众数、中列数；

数据散布度量：数据如何分散的，识别离群点；
极差、四分位数、四分位数极差、五数概括、盒图、方差、标准差；

基本统计描述可视化：分位数图、分位数-分位数图、直方图、散点图、线图、饼

1、中心趋势度量：

I、均值 mean：数据集『中心』最常用、最有效的数值度量。适用于对称数据集；
加权平均：每个值可以与一个权重Wi相关联，权重反应对应值的意义、重要性或出现的频率。
截尾均值 trimmed mean：丢弃高低极端值后的均值；计算均值前去掉高端和低端的2%；

II、中位数 median：有序数据值的中间值，把数据分为高低两半的值；适用于非对称数据集;
中位数的近似值：当观测的数量很大时，中位数的计算开锁很大，用近似值公式计算；

III、众数 mode：集合中出现最频繁的值。定性定量属性均可有众数；
单峰数据集 unimodal：最高频率对应一个值；
多峰数据集 multimodal：最高频率对应两个或更多值；

IV、中列数 midrange：是数据集最大和最小值的平均值；

对称数据分布的单峰数据集，均值、中位值、众数是相同的中心值；
正倾斜分布的数据集，众数出现在小于中位数的值上；
负倾斜分布的数据集，众数出现在大于中位数的值上；

2、度量数据散布：

I、极差 range：最大值 max()与最小值Min()之差；

II、分位数 quantile：把数据分布划分为基本大小相等的连贯集合的数据点；
二分位数：即中位数：把数据划分为高低两半；
四分位数 quartile ：是3个数据点，把数据分布划分为4个相等的部分，各四分之一;
百分位数 percentile ：把数据分布划分成100个大小相等的连贯集；

四分位数极差 IQR ：第一个四分位数Q1和第三个四分位数Q3之间的距离，是中间一半所覆盖的数据范围，是散布的一种简单度量。

III、五数概括 five-number summary、盒图 boxplot、离群点
对于倾斜分布，单个散布数值度量（例IQR）不是很有用；中心度量值不能把数据划分成大小相同的两半；因此用五个数来概括更完整的数据分布形状；
五数概括：Mininum、Q1、Median、Q3、Maxinum；
最小值、四分位数Q1、中位数、四分位数Q3、最大值；
盒图：体现了五数概括；
盒的长度是四分位数极差IQR；
中位数用盒内的线标记；
盒外的两条线（胡须）延伸到最小和最大观测值；如果最高或最低值超过四分位数的1.5倍IQR时，则胡须扩展到1.5xIQR终止，剩下的值个别绘出；

IV、方差和标准差

指出数据分布的散布程度；
低标准差：数据趋向于非常靠近均值；高标准差：数据散布在一个大的值域中。
标准差（standard deviation）σ（西格玛）是方差 (Variance)σ^2（西格玛平方）的平方根；
一个观测一般不会远离均值超过标准差的倍数，是数据集发散的很好指示器。

3、数据的基本统计描述的图形显示：

这些图形是助于可视化的审视数据，对数据预处理是有用的。

I、分位数图 quantile plot
观察单变量数据分布的简单有效的方法。
显示所有数据：评估总的情况和不寻常的数据；
显示分位数信息，按递增顺序排序的数据，可以基于分位数比较不同的分布；

II、分位数-分位数图 quantile - quantile plot：
III、直方图 histogram
IV、散点图 scatter plot：确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一；用于观察簇和离群点或考察相关联系的可能性。正相关、负相关、零相关；

综上所棕：基本数据描述（中心趋势度量、散布度量）和图形统计显示（分位数图、直方图、散点图）提供了数据总体情况的有价值的洞察。有助于识别噪声和离群点，所以对于数据清理特别有用。

认识数据-DataMining

一、数据对象和属性类型

二、数据的基本统计描述

你可能感兴趣的:(认识数据-DataMining)