Z-Score:定义,公式 和 数据标准化

一、 什么是 Z-Score?

z-score 也叫 standard score, 用于评估样本点到总体均值的距离。z-score主要的应用是测量原始数据与数据总体均值相差多少个标准差。

z-score是比较测试结果与正常结果的一种方法。测试与调查的结果往往有不同的单位和意义,简单地从结果本身来看可能毫无意义。当我们知道小明数学考了90分(满分100),我们也许会认为这是一个好消息,但是如果我们拿小明的成绩与班上平均成绩相比较,我们也许会深感惋惜。z-score可以告诉我们小明数学成绩和总体数学平均成绩的比值。

二、 Z Score 公式

2.1 Z Score 公式:单个样本的情况

当样本只有一个时,z score的规则是: z = x − μ σ        ( 1 ) z=\frac{x-\mu}{\sigma}\ \ \ \ \ \ (1) z=σxμ      (1)
举个例子,小明的数学成绩是90,班级的数学平均成绩为95,标准超为2,此时对于此例中的z score为: z = x − μ σ = 90 − 95 2 = − 2.5 z=\frac{x-\mu}{\sigma}=\frac{90-95}{2}=-2.5 z=σxμ=29095=2.5z score告诉我们这个分数距离平均分数相差几个标准差。此例中,小明的数学分数低于班级平均分数2.5个标准差。

当我们不知道数据总体的 μ \mu μ σ \sigma σ ,我们可以使用样本均值 x ‾ \overline{x} x 和样本标准差 S S S,此时我们可以用下式精确地表示式(1): z i = x i − x ‾ S        ( 2 ) z_i=\frac{x_i-\overline{x}}{S} \ \ \ \ \ \ (2) zi=Sxix      (2)

2.2 Z Score 公式:均值的标准误差

如果我们有多个样本,并且想知道这些样本均值 x ‾ \overline{x} x 与总体均值距离多少个标准差,可以使用此公式: z = x ‾ − μ σ / n        ( 3 ) z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}\ \ \ \ \ \ (3) z=σ/n xμ      (3)举个例子,考过这张数学卷子的人的平均成绩为80,标准差为15。那么对于包括小明等40位同学所在的班级来说 z = x ‾ − μ σ / n = 95 − 80 15 / 40 = 6.3 z=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}=\frac{95-80}{15/\sqrt{40}}=6.3 z=σ/n xμ=15/40 9580=6.3

三、Z Score 与 标准差

Z-Score表示抽样样本值与数据均值相差标准差的数目。举个例子:

  • z-score = 1 意味着样本值超过均值 1 个标准差;
  • z-score = 2 意味着样本值超过均值 2 个标准差;
  • z-score = -1.8 意味着样本值低于均值 1.8 个标准差。

z-score告诉我们样本值在正态分布曲线中所处的位置。z-score = 0告诉我们该样本正好位于均值处,z-score = 3 则告诉我们样本值远高于均值。

四、Z Score 与 数据标准化

Z Score是一个经常被用于数据标准化的方法。在多指标评价体系中,由于各评价指标的性质不同,通常具有不痛的数量级和单位,如果直接利用原始数据,就会突出数值较高的指标在分析中的作用,相对弱化数值较低指标的作用。因此,为了保证结果的可靠性,需要对原始数据进行标准化。

对于样本序列 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn进行标准化,根据公式(2)有 y i = x i − x ‾ s y_i = \frac{x_i-\overline{x}}{s} yi=sxix产生的新序列 y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn 是均值位0,方差为1,无量纲的数据。

你可能感兴趣的:(数据分析,概率,机器学习,Z,Score,Z,分数,数据标准化)