数据的描述性分析

描述统计内容包括:统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
分析数据的主要特征:集中程度、分散程度、数据的分布是正态还是偏态等。多元数据还要分析各个变量之间的相关性等。
单变量数据的数字特征:

  • 均值: X ˉ = 1 n ∑ i = 1 n x i \bar{X}=\cfrac 1n\sum_{i=1}^nx_i Xˉ=n1i=1nxi 表示数据的集中位置
  • 方差: S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\cfrac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 S2=n11i=1n(xixˉ)2 表示数据的分散程度
  • 变异系数: C V = 100 × S X ˉ ( % ) CV=100\times\cfrac{S}{\bar{X}}\quad(\%) CV=100×XˉS(%) 表示数据相对分散程度

偏度和峰度是刻画数据偏态、尾重程度的度量,与数据的矩有关系

  • K阶原点矩: V k = 1 n ∑ i = 1 n x i k V_k=\cfrac1n\sum_{i=1}^{n}x_i^k Vk=n1i=1nxik 一阶原点矩即均值
  • K阶中心距: u k = 1 n ∑ i = 1 n ( x i − x ˉ ) k u_k=\cfrac1n\sum_{i=1}^{n}(x_i-\bar{x})^k uk=n1i=1n(xixˉ)k 二阶中心距即方差
  • 偏度: g 1 = n ∑ i = 1 n ( x i − x ˉ ) 3 ( n − 1 ) ( n − 2 ) S 3 = n 2 u 3 ( n − 1 ) ( n − 2 ) S 3 g_{1}=\cfrac{n \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{(n-1)(n-2) S^{3}}=\cfrac{n^{2} u^{3}}{(n-1)(n-2) S^{3}} g1=(n1)(n2)S3ni=1n(xixˉ)3=(n1)(n2)S3n2u3 刻画数据对称性。当数据关于均值对称时为0,右偏时大于0,左偏时小于0
  • 峰度: g 2 = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) S 4 ∑ i = 1 n ( x i − x ˉ ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) g_{2}=\cfrac{n(n+1)}{(n-1)(n-2)(n-3) S^{4}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}-3 \cfrac{(n-1)^{2}}{(n-2)(n-3)} g2=(n1)(n2)(n3)S4n(n+1)i=1n(xixˉ)43(n2)(n3)(n1)2 刻画数据尾重程度。数据总体为正态分布时为0,两侧极端数据较多时为正,否则为负

p分位数: M p = { x [ n p ] + 1 n p 不 是 整 数 1 2 ( x n p + x n p + 1 ) n p 是 整 数 M_p=\begin{cases} x_{[np]+1}&\text np不是整数\\\cfrac12(x_{np}+x_{np+1}) &\text np是整数\end{cases} Mp=x[np]+121(xnp+xnp+1)npnp
M 1 = x ( n ) M_1=x(n) M1=x(n)最大值, M 0 = x ( 1 ) M_0=x(1) M0=x(1)最小值, M 0.5 = M M_{0.5}=M M0.5=M中位数, M 0.25 = Q 1 M_{0.25}=Q_1 M0.25=Q1下四分位数, M 0.75 = Q 3 M_{0.75}=Q_3 M0.75=Q3上四分位数。

  • 四分位数极差: R = Q 3 − Q 1 R=Q_3-Q_1 R=Q3Q1 度量样本分散性。对于有异常值的数据也具有稳健性
  • 下、上截断点: Q 1 − 1.5 R Q_1-1.5R Q11.5R Q 3 + 1.5 R Q_3+1.5R Q3+1.5R,大于上截断点的为特大值,小于下截断点的为特小值,两者均为异常值
  • 三均值: M ^ = 1 4 Q + 1 2 M + 1 4 Q 3 \hat{M}=\cfrac14Q+\cfrac12M+\cfrac14Q_3 M^=41Q+21M+41Q3 数据中心位置的数字特征

单变量数据的分布图:
为分析数据总体分布,常绘制直方图、累计分布图(分布函数)、QQ图、箱线图。其中QQ图为对目标累计分布函数值求标准正态分布累计分布函数的逆,若所有点基本上在一条直线上,我们可以说这两个分布是同一分布。
正态性检验是分布拟合检验中最重要的一种,可通过单样本K-S来检验分布是否为正态分布。

多元数据的数字特征与相关分析:
对二元总体 ( X , Y ) (X,Y) (X,Y),相关系数包括:

  • 变量x,y观测数据的协方差: S x y = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) S_{xy}=\cfrac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) Sxy=n11i=1n(xixˉ)(yiyˉ)
  • 协方差矩阵: S = [ S x x S x y S y x S y y ] S=\begin{bmatrix} S_{xx}& S_{xy} \\ S_{yx} & S_{yy} \end{bmatrix} S=[SxxSyxSxySyy] (对称阵)
  • 相关系数(Pearson相关系数): r x y = S x y S x x S y y ∣ r x y ∣ ≤ 1 r_{xy}=\cfrac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\qquad|r_{xy}|\le1 rxy=Sxx Syy Sxyrxy1
    Spearman相关系数要求两个变量的观测值是成对的,每对观测值间相互独立,两个变量的总体来自正态分布,且实验数据间的差距不能相差太大,即该相关系数受到异常值的影响较大。
  • 秩相关系数(Spearman相关系数): ρ = 1 − 6 ∑ i = 1 n d i 2 n ( n 2 − 1 ) \rho=1-\cfrac{6\sum_{i=1}^nd_i^2}{n(n^2-1)} ρ=1n(n21)6i=1ndi2
    “秩”意为顺序,即将变量 X , Y X,Y X,Y的数据进行排序,得到每个变量排序后的位置,对每组 x i , y i x_i,y_i xi,yi的秩相减得到秩次的差值 d i d_i di,Spearman相关系数受异常值的影响很小。

在计算相关系数的同时,会计算样本的显著性水平,即P值。如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的。通常需要p值小于0.1,最好小于0.05甚至0.01,才可得出结论:两组数据有明显关系。如果p=0.5,远大于0.1,只能说明相关程度不明显甚至不相关,起码不是线性相关。

你可能感兴趣的:(数学建模,数据分析,统计学)