数据分析(一)认识数据(二)

继续上一章节继续写,从数据统计常识开始

数据统计常识

Quartiles, outliers and boxplots
四分位数 Quartiles: Q1(25th percentile), Q3(75th percentile)
四位分数极差 Inter-quartile range: IQR = Q3 –Q1
五数概括 Five number summary: min, Q1, median,Q3, max
盒图 Boxplot: 分布直观表示,体现五数概括
离群点 Outlier: 第三个四分位数之上或者第一个四分位数之下至少1.5 x IQR的值
Variance and standard deviation (sample: s, population: σ)
方差 Variance:
标准差 Standard deviation 方差的平方根
盒图
五数概括:Minimum, Q1, Median, Q3, Maximum 
盒的端点在四分位数上,使得盒长度为四分位数极差IQR
中位数用盒内线标记
盒外线延伸到最小和最大的观测值

3-D盒图

数据分析(一)认识数据(二)_第1张图片

基本的统计图

盒图 Boxplot: 五数概括
直方图 Histogram: x-axis 数值大小, y-axis 频率
分位数图 Quantile plot: 观测单变量数据分布,x1最小xn最大
分位数-分位数图 Quantile-quantile (q-q) plot: 两个观测集,观察一个分布到另一个
分布是否漂移
散点图 Scatter plot: 每个值视作一个坐标对,作为一个点画在平面上

分位数图

显示给定属性所有数据
绘制分位数信息
增序排列,每个观测值xi与一个百分数fi 配对,百分比0.5对应中位数,0.75对应Q3

数据分析(一)认识数据(二)_第2张图片

分位数-分位数图

对着另一个对应的分位数,绘制一个单变量分布的分位数
使得用户可以观测从一个分布到另一个分布
X,Y轴分别代表不同的观测集,存在两个观测集的值的个数不一致时,不是所有的值都被表示

数据分析(一)认识数据(二)_第3张图片

散点图
确定两个数值变量之间看上去是否存在联系
观察双变量数据的有用的方法

数据分析(一)认识数据(二)_第4张图片

你可能感兴趣的:(数据分析)