(二)认识数据

数据对象与属性类型

属性

1)标称属性


image.png

2)二元属性(布尔属性 true or false)

3)序数属性
值之间具有有意义的序或级别评定(ranking)
例如:小,中,大 或者 A+ ,A-,B+,B- 。布尔属性和序数属性都是定性的,而不是可测量的量

4)数值属性
定量的,即它是可度量的量,用整数或是数值标识。可以是区间标度的或比率标度的

中心趋势度量:均值,中位数和众数

均值:


image.png
image.png

中位数:
区别与均值,是对倾斜(非对称)数据,数据中心利用 中位数作为更好的度量。中位数是有序数据值的中间值。它是把数据高的一半与较低的一半分开的值

当观察量很大的时候


image.png

众数:


image.png

中列数:


image.png
image.png

度量数据散布:极差,四分位数,方差,标准差和四分位数极差

极差:


image.png

分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。

四分位数:把数据分布划分成4个相等的部分。使得每部分表示数据分布的四分之一。

百分位数:分成一百分之一

四分位数极差(IQR):IQR = Q3 - Q1


image.png

五数概括,盒图与离群点

五数概括:中位数,四分位数Q1 和 Q3,最小和最大观测值

不同数据集间的相异性(数据矩阵与相异性矩阵)

image.png

序数属性相异性:
1,每个属性映射到 值域 [0,1]
2,根据从低到高的序数对 0~1 进行拆分 。比如:fail,good,excellent 就分为 0,0.5,1

image.png

数值属性相异性:
闵可夫斯基距离


image.png
image.png

二元属性相异性:


image.png
image.png
image.png

混合属性相异性:


image.png
image.png
image.png

你可能感兴趣的:((二)认识数据)