标准差(Standard Deviation) ,也称均方差(mean square error),是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。
简介
标准差也被称为标准偏差,或者实验标准差,公式如图。 简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。 标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。 标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越细,代表回报较为稳定,风险亦较小。
例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差为17.07分,B组的标准差为2.37分(此数据时在R统计软件中运行获得),说明A组学生之间的差距要比B组学生之间的差距大得多。 如是总体,标准差公式根号内除以n 如是样本,标准差公式根号内除以(n-1) 因为我们大量接触的是样本,所以普遍使用根号内除以(n-1) 公式意义 所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一),再把所得值开根号,所得之数就是这组数据的标准差。
标准差的意义
标准差越高,表示实验数据越离散,也就是说越不精确 反之,标准差越低,代表实验的数据越精确
离散度
标准差是反应一组数据离散程度最常用的一种量化形式,是表示精密确的最要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。
虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,基检测值应该很紧密的分散在真实值周围。如何不紧密,那距真实值的就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。
一组数据怎样去评价和量化它的离散度呢?人们使用了很多种方法:
极差
最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。
离均差的平方和
由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。 但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。
方差(S2)
由于离均差的平方和与样本个数有关,只能反应相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将标准差求平均值,这就是我们所说的方差成了评价离散度的较好指标。 样本量越大越能反映真实的情况,而算数均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
标准差(SD)
由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。
在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
变异系数(CV)
标准差能很客观准确的反映一组数据的离散程度,但是对于不同的检目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV。
标准差与平均值之间的关系
一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一“自然”的测量。 定义公式:
标准差公式
1、方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/n 2、标准差=方差的算术平方根
几何学解释
从几何学的角度出发,标准差可以理解为一个从 n 维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3。它们可以在3维空间中确定一个点 P = (X1,X2,X3)。想像一条通过原点的直线 。如果这组数据中的3个值都相等,则点 P 就是直线 L 上的一个点,P 到 L 的距离为0, 所以标准差也为0。若这3个值不都相等,过点 P 作垂线 PR 垂直于 L,PR 交 L 于点 R,则 R 的坐标为这3个值的平均数: 运用一些代数知识,不难发现点 P 与点 R 之间的距离(也就是点 P 到直线 L 的距离)是。在 n 维空间中,这个规律同样适用,把3换成 n 就可以了。
标准差与标准误的区别
标准差与标准误都是心理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。 首先要从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,然后利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。
标准差(standard deviation, STD)
表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差收到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个侧样测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。
标准误(standard error, SE)
表示的是抽样的误差。因为从一个总体中可以抽取出无多个样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本个数的开平方来计算的。从这里可以看到,标准误更大的是受到样本个数的影响。样本个数越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表样本。
Excel函数
关于这个函数在EXCEL中的STDEVP函数有详细描述,EXCEL中文版里面就是用的“标准偏差”字样。但我国的中文教材等通常还是使用的是“标准差”。 在EXCEL中STDEVP函数是另外一种标准差,也就是总体标准差。在繁体中文的一些地方可能叫做“母体标准差” 在R统计软件中标准差的程序为: sum((x-mean(x))^2)/(length(x)-1)
外汇术语
标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。 在excel中调用函数 “STDEV“ 估算样本的标准偏差。标准偏差反映相对于平均值 (mean) 的离散程度。
样本标准差
在真实世界中,除非在某些特殊情况下,不然找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
标准误差(又称均方根误差)
它是观测值与真值偏差的平方和观测次数n比值的平方根,
在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替.
标准误差对一组测量中的特大或特小误差反映非常敏感,所以,标准误差能够很好地反映出测量的精密度。这正是标准误差在工程测量中广泛被采用的原因。
在相同测量条件下进行的测量称为等精度测量,例如在同样的条件下,用同一个游标卡尺测量铜棒的直径若干次,这就是等精度测量。对于等精度测量来说,还有一种更好的表示误差的方法,就是标准误差。
标准误差定义为各测量值误差的平方和的平均值的平方根,故又称为均方误差。
设n个测量值的误差为ε1、ε2……εn,则这组测量值的标准误差σ等于:
(此处为一公式,显示不出来,你看下文字就可以知道这个公式是什么样的。)
由于被测量的真值是未知数,各测量值的误差也都不知道,因此不能按上式求得标准误差。测量时能够得到的是算术平均值(),它最接近真值(N),而且也容易算出测量值和算术平均值之差,称为残差(记为v)。理论分析表明①可以用残差v表示有限次(n次)观测中的某一次测量结果的标准误差σ,其计算公式为
(此处为一公式,显示不出来,你看下文字就可以知道这个公式是什么样的。)
对于一组等精度测量(n次测量)数据的算水平均值,其误差应该更小些。理论分析表明,它的算术平均值的标准误差。有的书中或计算器上用符号s表示)与一次测量值的标准误差σ之间的关系是
(此处为一公式,显示不出来,你看下文字就可以知道这个公式是什么样的。)
需要注意的是,标准误差不是测量值的实际误差,也不是误差范围,它只是对一组测量数据可靠性的估计。标准误差小,测量的可靠性大一些,反之,测量就不大可靠。进一步的分析表明,根据偶然误差的高斯理论,当一组测量值的标准误差为σ时,则其中的任何一个测量值的误差εi有68.3%的可能性是在(-σ,+σ)区间内。
世界上多数国家的物理实验和正式的科学实验报告都是用标准误差评价数据的,现在稍好一些的计算器都有计算标准误差的功能,因此,了解标准误差是必要的。
就是在要求以内的,,
呵呵,
可以记为不算误差的范围
世界上多数国家的物理实验和正式的科学实验报告都是用标准误差评价数据的,现在稍好一些的计算器都有计算标准误差的功能,因此,了解标准误差是必要的。
标准差
是方差的平方根。它和观测值有相同的单位。是最常用的表示数据分散程度的指标。对于正态分布的数据,它的用处尤大。样本标准差s是对总体标准差σ的一种估计。s的值可在有统计功能的计算器上直接得出。计算s值的功能键常用表示。
测量误差按其性质可以分为系统误差、随机误差和粗大误差。
1、系统误差
系统误差是指在相同测量条件下,对同一被测几何量进行连续多次测量时,误差的大小和符合均变,或按一定规律变化的测量误差。前者称为定值系统误差,后者称为变值系统误差。例如,使用千分尺测量零件时,千分尺零位调整不正确,对各次测量结果的影响是相同的,因此所引起的测量误差属于定值系统误差。又如,分度盘所引起的按正弦规律变化的测量误差,属于变值系统误差。
根据系统误差的性质和变化规律,它可以用计算或实验对比的方法确定,用修正值从测量结果中消除。但是在某些情况下,系统误差的规律难于判定,因而无法消除。
2、随机误差
随机误差是指在相同测量条件下,连续多次测量同一被测几何量时,误差的大小和符号以不可预定的方式变化的测量误差。所谓不可预定是指单次测量中,误差的大小和符号无法预先知道。但是连续多次进行测量,则误差的总体服从一定的统计规律。
由于随机误差是由测量过程中许多难以控制的偶然因素或不稳定因素引起的,所以误差值时大时小,符号可正可负。因而这类误差不能消除,只能设法减小它对测量结果的影响,并运用概率论和数理统计方法,在一定的置信概率下估算它的分布范围。
从某种意义上说,测量精度的高低,并不取决于对测量误差的估计,而是取决于测量方法和测量条件的优劣。要提高测量精度,必须采用科学的测量方法和良好的测量条件。
3、粗大误差
粗大误差是指超出在规定测量条件条件下预计的测量误差,它明显歪曲测量结果。含有粗大误差的测得值称为异常值,它的数值比较大。粗大误差的产生由主观的原因,如测量人员疏忽造成的读数不准确,也有客观原因,如外界突然振动。在处理数据时,必须从测量数据中按一定的准则剔除。
粗大误差常用拉依达准则。主要时用于测量次数较大,(一般要求多于10次),服从正态分布的误差,该准则认为:某一测量值的残余误差的绝对值大于3倍的随机误差标准偏差时,则可以认为该测量值属于粗大误差,应予剔除。
误差表示给出值与真值的差量。
误差所指的是一个实验的估计不准度。
给出值指测量值、标示值、标称值、矛置值、近似值等给出的非真值。
真值是指在某一时刻和某一位置,或某一状态某量的客观值或实标值。
真值可以分下面几类:
a 、理论真值
如平面三角形三个内角和为1800;同一量自身之差为零;自身之比为1。等等。
b、计量学约定真值
如长度单位:米——1米等于氪86原子的2P10和5d能级之间跃迁的辐射在真空中波长的1650763.73倍。
时间单位:秒——1秒是铯133原子基态的两个超精细能级之间跃迁所对应的辐射的9192631770个周期的持续时间。
电流强度单位:安培——1安培是一恒定电流,如果处在真空中相距1米的两根无限长而圆截面可忽略的平行直导线,所载电流各保持1安培,则这两导线间每单位长度的作用力为2×10-7牛顿米。
温度单位:开尔文——开尔文是水的三相点热力学温度的1/273.16。
c、标准器相对真值
高一级标准器的误差与低一级标准器或普通仪器的误差相比,为1/5(或者1/8—1/10)时,则可以认为前者是后者的相对真值。
平均误差、相对误差、标准误差、可几误差。
平均误差:在一组测量中,测得值为X1、X2······Xn ,其真值为X。
则平均误差定义为:。
它反映测得值离真值的大小,故又称绝对误差,在多次测量中,可用平均值代替真值。平均值: 。
相对误差:例如用一频率计测量准确值为100千赫的频率源、测得值为101千赫,测量误差为1千赫,又用波长表测量一准确值为1兆赫的标准频率源,测得值为1,001兆赫,其误差也为1千赫。上面两个测量,从误差的绝对量来说是一样的,但它们是在不同频率点上作测量的,它们的准确度是不同的。为描述测量的准确度而引入相对误差的概念。
定义:相对误差=误差÷真值, 一般用百分数表示。
我们在测量中经常使用电气仪表,电气仪表的准确度分为0.1,0.2,0.5,1.0,1.5,2.5和5.0七级,若仪表为S级,则用该仪表测量时绝对误差为:
绝对误差≤XS×S%
XS为满刻度值。
相对误差为≤
故当X越接近于X满时,其测量准确度越高,相对误差越小。这就是人们利用这类仪表时,尽可能在仪表满刻度2/3以上量程内测量的原因。所以测量的准确度不仅决定于仪表的准确度,还决定于量程的选择。
如用一0.5级、量程为0~300伏的电压表和一1.0级量程为0~100伏的电压表测量一接近100伏的电压,问那个测量较为准确?
因为
可见量程选择恰当,用1.0级表进行测量也会得到比用0.5级表,而量程选择不当时更为准确的结果。
标准误差:也称为方根误差。
标准误差,定义为:
在有限次测量中常用表示,一般利用标准误差来表示精密度。
可几误差:可几误差也称为必然误差,它的意义为:在一组测量中若不计正负号,误差大于r的测量值与小于r的测量值的数目各占一半。
可几误差r标准误差δ的关系为:
r=0.6745δ
误差来源
装置误差
标准器误差:标准器是提供标准量的器具,如标准电池、标准电阻、标准钟等。它们本身体现的量都有误差。
仪表误差:如电表、天平、游标等本身的误差。
附件误差:进行测量时所使用的辅助附件,如开关、电源、连接导线所引起的误差。
环境误差:
由于各种环境因素(如温度、湿度、气压、震动、照明、电磁场等)与要求的标准状态不一致,及其在空间上的梯度、与随时间的变化,致使测量装置和被测量本身的变化所引起误差。
人员误差:
测量者生理上的最小分辨力,感官的生理变化,反应速度和固有习惯所引起的误差。
方法误差:
经验公式、函数类型选择的近似性及公式中各系数确定的近似值所引起的误差。
在推导测量结果表达式中没有得到反映,而在测量过程中实际起作用的一些因素引起的误差,如漏电、热电势、引线电阻等一些因素引起的误差。
由于知识不足或研究不充分引起的方法误差。
误差的分类
系统误差
定义:在同一条件下多次测量同一量时,误差的绝对值和符号保持恒定或在条件改变时,按某一确定规律变化的误差,它的特点是其确定性。
实验条件一经确定,系统误差就获得一个客观上的恒定值。多次测量的平均值也不能削弱它的影响,改变实验条件或改变测量方法可以发现系统误差,可以通过修正予以消除。
偶然误差
定义:在同一条件下多次测量同一量时,误差的绝对值和符号随机变化,它的特点是随机性,没有一定规律,时大时小,时正时负,不能予定。
由于偶然误差具有偶然的性质,不能预先知道,因而也就无法从测量过程中予以修正或把它加以消除,但是偶然误差,在多次重复测量中服从统计规律,在一定条件下,可以用增加测量次数的方法加以控制,从而减少它对测量结果的影响。
过失误差(粗大误差)
定义:明显歪曲测量结果的误差。这是由于测量者在测量和计算中方法不合理,粗心大意,记错数据所引起的误差。只要实验者采取严肃认真的态度是可以避免的。
精度
不准确或不精确度是指给出值偏离真值的程度,它与误差的大小相对应。习惯上称为准确度,其含义乃是不准确之意。
精度一词可细分为精密度,准确度和精确度。
1.精密度:表示一组测量值的偏离程度。或者说,多次测量时,表示测得值重复性的高低。如果多次测量的值都互相很接近,即偶然误差小,则称为精密度高。可见精密度与偶然误差相联系。
2.准确度:表示一组测量值与真值的接近程度。测量值与真值越接近,或者说系统误差越小,其准确度越高。所以准确度与系统误差相联系。
3.精确度:它反映系统误差与偶然误差合成大小的程度。在实验测量中,精密度高的、准确度不一定高,准确度高的,精密度不一定高,但精确度高的。则精密度和准确度都高。
误差的传递
测量结果可直接从测量值得出的测量叫直接测量。通过对几个与被测有一定函数关系的量进行直接测量,然后利用函数关系算出被测量大小的测量方法叫间接测量。既然公式中所包含的直接测量都的误差,那么,间接测量也必然有误差,这就是误差的传递。设间接测量量Y与n个直接量量X1、X2······Xn有关,dX1、dX2······dXn表示各对应量的绝对误差,则有:
绝对误差
相对误差
结论:
间接测量量的绝对误差等于各直接测量量所决定的函数的全微分,并应取所有偏微分绝对值的和。
间接测量的相对误差等于各直接测量量的偏微分与原函数的比值的绝对值之和。
误差的处理
由于误差的存在,测量值可能比真值大,也可能比真傎小,故在可能情况下,总是采用重复多次测量,然后取其平均值,这个平均值必然更接近其真值。
设在相同条件下对某一物理量X进行n次重复测量,其测量值分别为X1、X2······Xn
则平均值:
若为多次测量,则用多次测量的平均值代替真值。
平均偏差:
相对误差:
标准误差
: