第一章 批量数据比较

1.1 箱型图

1.五数概括:极大值;极小值;上四分位点;下四分位点;中位数
箱型图构造:箱子部分(上下四分位点,实线中位数,虚线均值)
箱子两触角:
在这里插入图片描述
箱型图可用于比较不同批量数据:
第一章 批量数据比较_第1张图片

1.2 直方图

直方图是对核密度的估计,核密度估计可以对数据整体分布有很好认识。
在这里插入图片描述
第一章 批量数据比较_第2张图片
h最优值:在这里插入图片描述除了h影响直方图形状外,起始点x0也影响直方图形状。——移动平均直方图

1.3 核密度

用平滑的函数代替直方图的箱子
第一章 批量数据比较_第3张图片
常见核函数:
第一章 批量数据比较_第4张图片
带宽h决定了密度估计函数的平滑程度,确定方法:交叉确认方法和参考合理的参照分布来计算。

1.3 散点图

绘制两个或三个变量对应数值所决定数据点的图形。
二维散点图:直线分割
第一章 批量数据比较_第5张图片
三维散点图:平面分割
第一章 批量数据比较_第6张图片
散点图矩阵:反应不同变量之间的散点图
第一章 批量数据比较_第7张图片

1.5 切诺夫—夫洛瑞脸谱图

高维数据的图像化表示。

1.6 安德鲁曲线

将高维数据表示为函数曲线来表述。
第一章 批量数据比较_第8张图片
1.为什么使用该函数表示?
首先,该函数是傅里叶序列函数,任何函数均可展成傅里叶序列函数,因此使用该函数;其次,该函数属于三角函数,图像呈现出在一定范围内变化,这样就更有利于在有限值域内展示不同数据的差别;最后是函数图像是波动曲线,有高峰低峰,这样就更能显示出不同数据之间的差异性。
2.变量的优先顺序会影响到函数的图像,决定最优顺序方法是主成分分析。

1.7 平行坐标图

第一章 批量数据比较_第9张图片
横轴:表示六个不同的维度:这里表示钞票的六个不同度量指标
纵轴:经过量化处理的观察值
第一章 批量数据比较_第10张图片

1.8 波士顿住房

平行坐标图:分析所有不同变量与待分析变量的大致关系
散点图矩阵:分析每一个变量与待分析变量的关系

你可能感兴趣的:(应用多元统计分析)