精度及其3σ准则

1 精度的概念

定义:测量值与真实值(或标准值)的接近程度,称为精度。
精度与误差的大小相对应,因此可用误差大小来表示精度的高低,误差小则精度高,误差大则精度低。
精度包含了以下三类概念:
1)准确度(Accuracy):表示测量结果与真值之间的一致程度,它反映测量结果中系统误差与随机误差的综合。其定量特征可用测量的不确定度(或极限误差)来表示;
2)精密度(Precision):表示在一定条件下进行多次测量时,所得测量结果彼此之间符合的程度,它反映测量结果中随机误差的影响程度;
3)正确度(Trueness):表示测量结果中系统误差大小的程度,反映了规定条件下,测量结果中所有系统误差的综合。

2 标准差

提到精度,就必须了解标准差的概念。
我们先复习下统计及误差理论里的几个重要概念,以下均为离散型数据,不讨论连续型。

2.1 数学期望(mean)

数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
E ( X ) = ∑ i = 1 n x i p i E(X)=\sum_{i=1}^nx_ip_i E(X)=i=1nxipi
式中: x i x_i xi n n n个离散型随机变量值, p i p_i pi为每一个随机变量对应取值的概率。
假设每个变量取值概率相同,此时 E ( X ) = ( ∑ i = 1 n x i ) / n E(X)=(\sum_{i=1}^nx_i)/n E(X)=(i=1nxi)/n,即为样本的算术平均。

2.2 方差(variance)

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。离散数据的方差公式如下:
D ( X ) = ∑ i = 1 n ( p i ⋅ ( x i − μ ) 2 ) D(X)=\sum_{i=1}^n(p_i\cdot(x_i-\mu)^2) D(X)=i=1n(pi(xiμ)2)其中 μ = E ( X ) \mu=E(X) μ=E(X),即 X X X的期望值。
假设每个变量取值概率相同,此时
D ( X ) = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 D(X)=\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2 D(X)=n1i=1n(xixˉ)2
式中: x ˉ \bar x xˉ为所有样本值的算术平均值。实际上,方差公式的分母应为数据个数减一,即无偏方差,感兴趣可看知乎:《为什么样本方差的分母是 n-1?》。

2.3 标准差(standard deviation)

标准差,又称均方差,标准差定义是总体各单位标准值与其平均数离差平方和的算术平均数的平方根,即标准差是方差的算术平方根,用σ表示。 σ = D ( X ) \sigma=\sqrt{D(X)} σ=D(X) ,即
σ = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 \sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2} σ=n1i=1n(xixˉ)2
标准差能反映一个数据集的离散程度。简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。平均数相同的两组数据,标准差未必相同。

3 3σ准则

3.1 正态分布

正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布。高斯对于正态分布的历史地位的确立起到了决定性的作用,甚至德国硬币与10马克的纸币上都留有高斯的头像和正态密度曲线。
在这里插入图片描述
正态分布是自然界及工程技术中最常见的分布之一,大量的随机现象都是服从或近似服从正态分布的,可以证明,如果一个随机指标受到诸多因素的影响,但其中任何一个因素都不起决定性作用,则该随机指标一定服从或近似服从正态分布。

3.2 3σ准则

3σ准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的,即其适用于有较多组数据的情况,当测量次数较少的情形用该准则剔除粗大误差是不够可靠的。因此,在测量次数较少的情况下,最好不要选用3σ准则,而用其他准则。
在这里插入图片描述
如图所示正态分布中, σ σ σ为标准差, μ \mu μ为均值, x = μ x=\mu x=μ为图像的对称轴,3σ准则为:
数值分布在(μ-σ,μ+σ)中的概率为0.6827;
数值分布在(μ-2σ,μ+2σ)中的概率为0.9545;
数值分布在(μ-3σ,μ+3σ)中的概率为0.9973;
可以认为,一个正态分布的数据集的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。

3.3 如何理解3σ准则下的精度指标

以下纯属个人理解,欢迎讨论。

  1. 进行设备的精度评估时,根据测量的数据集得出标准差σ后,就得出这个设备在特定概率下的精度。举例来说,假设计算得出的σ为1μm,则结论就是:在68.27%概率下设备精度1μm,在95.45%概率下设备精度为2μm,在99.73%概率下设备精度为3μm,与设备要求的精度指标对比,就可评价该设备是否满足精度要求。
  2. 设备的精度应该都是在一定概率条件下的,比如说标明1μm精度(3σ)指标的设备,理论上依然有0.27%的概率达不到1μm这个精度,而标明1μm精度(1σ)指标的设备,理论上就有31.73%的概率达不到1μm这个精度,但这并不是说该设备就不合格不能用,而是要根据自己的使用要求来评估这个设备是否适合用。这也说明,很多设备只提精度指标,而不标注是几个σ条件下,是不严谨和不完整的。
  3. 设备的精度指标按照3σ准则提出后,实际上就是提出了设备试验数据集的标准差σ的要求,最终试验数据的标准差如果在此范围内,精度就符合要求,否则精度就不符合要求。同时,实际工程中,由于3σ的概率≈1,所以3σ的精度指标一般就是要求设备数据集的标准差σ必须小于所提的精度的1/3。

4 附 其它常见误差概念

以上提到了统计及误差理论中的几个重要概念,实际上还有很多类似的概念,这里再列出几个,以备比较。

4.1 均方误差(mean square error, MSE)

均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,但不完全一样,如果只有一组数据,样本方差就是均方误差。

4.2 均方根误差(root mean squared error, RMSE)

均方误差的开方叫均方根误差,同样,一定条件下,均方根误差就是标准差。

4.3 均方根(root mean square, RMS)

均方根值(RMS)也称为有效值,它的计算方法是先平方、再平均、然后开方,即 X r m s = 1 n ∑ i = 1 n x i 2 X_{rms}=\sqrt{\frac{1}{n}\sum_{i=1}^nx_i^2} Xrms=n1i=1nxi2

4.4 极差(range)

极差又称范围误差或全距,以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。

你可能感兴趣的:(精度及其3σ准则)