数据挖掘_探索数据

一、定义

对数据进行初步研究,更好的了解数据的特性,用以选择更合适的数据分析技术。

二、汇总统计summary statistics

1.频率:具有属性v的对象数/对象总数(某属性在样本中出现的频率)
2.众数:最高频率的值。
位置度量:均值、中位数。
3.百分位数percentile:对有序数据在指定百分比位的值。如二八法则
4.均值mean:平均数
5.中位数median:排序后,中间位置的数。(与50分位数的区别)
6.mean与median比较:
1)值对称分布是,mean才能体现集合中位;如果分布是斜的,median更好;
2)mean受离群值影响大,median更稳健的定为集合中位。
?7.截断均值trimmed mean:
散布度量:极差、方差
7.极差range:值的分布范围,但不能反映集中情况。
8.方差variance:(注意:均值受离群值影响大,方差用均值计算,故也受离群值影响,可以用更稳健的均值计算)
9.标准差standard deviation:方差的平方根。
10.其他散布:
绝对平均偏差absolute average deviation:ADD,各样本值与mean距离的和的平均数。(|x1-xmean|+|x2-xmean|+…|xm-xmean|)/m
中位数绝对偏差median absolute deviation:MAD,各样本值与mean距离的中位数。
四分位数极差inter quartile range:IQR,x75%-x25%,2个四分位的差值。
11.多元汇总统计
协方差矩阵convariance matrix:对象多元(多个属性时),2个对象的差异是各属性与mean差的乘积。
相关矩阵correlation matrix:
协方差:协同,多个属性差的乘积;协方差用来评估多元对象间的总体差异。
1)现实应用:度量2个变量间协同变异大小的总体参数。如验证3种化肥对果树增产的影响,但是果树的基础产量不同,要把这个变量考虑进来。则可以把基础产量作为协变量,基础产量和化肥做协方差。(2个变量合并做1个变量?)
12.图形化:
盒装图:一维数据的一种展示图;标识了10、25、75、90分位数,直观的显示数据的散布情况。
散布图:
扩展的二维、三维图:用颜色、大小、形状可以表达更多的信息。但是会难易理解。
平行坐标系:
雷达图:
13.倾斜度skewness:度量值均匀的分布在均值附近的程度。

你可能感兴趣的:(数据挖掘)