概率论与数理统计是研究和揭示随机现象统计规律性的一门数学学科。
满足一下三个特点的试验称为随机试验:
随机事件
在实际中,当进行随机试验时,人们常常关心满足某种条件的那些样本点所组成的集合。
对于一个事件(除必然事件和不可能事件外),它在一次试验中可能发生,也可能不发生。我们常常希望知道某些事件在一次试验中发生的可能性究竟有多大。频率描述了事件发生的频繁程度,概率表征事件在一次试验中发生的可能性大小。
一些随机试验,它们的结果可以用数来表示。此时样本空间S的元素是一个数。当样本空间S的元素不是一个数时,对于S就难以描述和研究,随机变量引入一个法则,将随机试验的每一个结果,即将S的每个元素e与实数x对应起来。
有些随机变量,它全部可能取到的值是有限个或可列无限多个,这种随机变量称为离散型随机变量。要掌握离散型随机变量X的统计规律,必须且只需要知道X的所有可能取值以及每一个可能值的概率。
三种重要的离散型随机变量:
在实际中,我们厂对某些随机变量的函数更感兴趣。例如在一些试验中,所关心的随机变量往往不能由直接测量得到,而它却是某个能直接测量的随机变量的函数。
一般,设E是一个随机试验,它的样本空间是S={e},设X=X(e)和Y=Y(e)是定义在S上的随机变量,由它们构成一个向量(X,Y)叫作二维随机向量或二维随机变量。二维随机变量(X,Y)的性质不仅与X及Y有关,而且还依赖于这两个随机变量的相互关系。需要将(X,Y)作为一个整体来进行研究。
单有关于X和Y的边缘分布,一般来说是不能确定随机变量X和Y的联合分布的。
虽然随机变量的分布函数、概率密度函数和分布律都能完整的描述随机变量,但是在某些实际或理论问题中,人们感兴趣于某些能描述随机变量某一种特征的常数。由随机变量的分布所确定的,能刻画随机变量某一方面的特征的常数统称为数值特征,它在理论和实际应用中都很重要(数学期望、方差、相关系数和矩)。
随机变量的数字特征是由随机变量的分布确定的,能描述随机变量某一个方面的特征的常数。最重要的数字特征是数学期望和方差。
一般,n为随机变量的分布式不知道的,或者太复杂,以致在数学上不易处理,因此在实际应用中将概率密度改写成协方差矩阵的形式。
极限定理是概率论的基本理论,在理论研究和应用中起着重要的作用,其中最重要的是称为“大数定律”与“中心极限定理”的一些定理。大数定律是叙述随机变量序列的前一些项的算术平均值在某种条件下收敛到这些项的均值的算术平均值;中心极限定理则是确定在什么条件下,大量随机变量之和的分布逼近于正态分布。
大量试验证实,随机事件的频率当重复试验的次数n增大时总呈现出稳定性,稳定在某一个常数的附近。频率的稳定性是概率定义的客观基础。
在客观实际中有许多随机变量,他们由大量的相互独立的随机因素的综合影响所形成的。而其中每一个别因素在总的影响中所起的作用都是微小的。这种随机变量往往近似地服从正态分布。这种现象就是中心极限定理的客观背景。
数理统计具有广泛应用的一个数学分支,它以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。
数理统计的内容包括:如何收集、整理资料;如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断(统计推断问题)。
在数理统计中,研究有关对象的某一项数理指标,考虑与这一数量指标相联系的随机试验,对这一数量指标进行试验或观察。将试验的全部可能的观察值称为总体,这些值不一定都不形同,数目上也不一定是有限的,每一个可能观察值称为个体。总体中所包含的个体的个数称为总体的容量。容量为有限的称为有限总体,容量为无限的称为无限总体。
总体中的每一个个体是随机试验的一个观察值,因此它是某一随机变量X的值,这样,一个总体对应于一个随机变量X。对总体的研究就是对一个随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和数字特征。不区分总体与相应的随机变量,统称定位总体X。
在实际中,总体的分布一般是未知的,或只知道它具有某种形式而其中包含着未知参数。在数理统计中,人们都是通过从总体中抽取一部分个体,根据获得的数据来对总体分布作出推断的。被抽出的部分个体叫作总体的一个样本。
所谓从总体抽取一个个体,就是对总体X进行一次观察并记录其结果。在相同的条件下对总体X进行n次重复的、独立的观察。将n次结果按试验的次序记为 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn。由于 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn是对随机变量X观察的结果。且各次观察是在相同的条件下独立进行的,所以有理由认为 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn是相互独立的,且都是与X具有相同分布的随机变量。这样得到 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn称为来自总体X的一个简单随机样本,n称为这个样本的容量。
当n次观察一经完成,就得到一组实数 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn,它们依次是随机变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn的观察值,称为样本值。
对于有限总体,采用放回抽样就能得到简单随机样本,但放回抽样使用起来不方便,当个体的总数N比要得到的样本的容量n大得多时,在实际中可将不放回抽样近似的当作放回抽样来处理。至于无限总体,因抽取一个个体不影响它的分布,所以总是用不放回抽样。
为了研究总体分布的性质,人们通过试验得到许多观察值,一般来说这些数据是杂乱无章的。为了利用他们进行统计分析,将这些数据加以整理,还借助于表格或图形对它们加以描述。
数据集中,疑似异常值的产生源于:
当检测出疑似异常值时,人们需对疑似异常值出现的原因加以分析。如果是由于策略或记录的错误,或某些其他明显的原因造成的,将这些疑似异常值从数据集中丢弃就可以了。当出现的原因无法解释时作出丢弃或保留这些值的决策是困难的。因此对数据集作分析时尽量选用稳健的方法,使得疑似异常值对结论的影响较小。
样本是进行统计推断的依据,在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。
统计量的分布称为抽样分布。在使用统计量进行统计推断时常需要知道它的分布。当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。来自正态总体的几个常用统计量的分布。
统计推断的基本问题可以分为两大类,一类是估计问题,另一类是假设检验问题。
参数估计问题分为点估计和区间估计。点估计是适当的选择一个统计量作为未知参数的估计(称为估计量),若已取得一个样本,将样本值代入估计量,得到估计量的值,以估计量的值作为未知参数的近似值(称为估计值)。
设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。
构造估计量的方法:矩估计法和最大似然估计法。
矩估计法
以样本矩作为总体矩的估计量,而已样本矩的连续函数作为相应的总体矩的连续函数的估计量,从而得到总体未知参数的估计。
最大似然估计法
最大似然估计法的基本想法是,若已知观察到样本 ( X 1 , X 2 , . . . , X n ) (X_1, X_2,...,X_n) (X1,X2,...,Xn)的样本值 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,...,x_n) (x1,x2,...,xn),而取到这一样本值的概率为 p p p(在离散型的情况下)或 ( X 1 , X 2 , . . . , X n ) (X_1, X_2,...,X_n) (X1,X2,...,Xn)落在这一样本值 ( X 1 , X 2 , . . . , X n ) (X_1, X_2,...,X_n) (X1,X2,...,Xn)的领域内的概率为 p p p(在连续型的情况下),而 p p p与未知参数有关,就取 θ \theta θ的估计值使概率 p p p取到最大。
对于同一参数,用不同的估计方法求出的估计量可能不相同,原则上任何统计量都可以作为未知参数的估计量。哪一种估计量好,需要用估计量的评选标准。
两个总体 N ( μ 1 , σ 1 2 ) , N ( μ 2 , σ 2 2 ) N(\mu_1, \sigma^2_1),N(\mu_2, \sigma^2_2) N(μ1,σ12),N(μ2,σ22)的情况
在实际中常遇到下面的问题:已知产品的某一质量指标服从正态分布,但由于原料、设备条件、操作人员不同,或工艺过程的改变等因素,引起总体均值、总体方差有所改变。如果需要知道这些变化有多大,就需要考虑两个正态总体均值差或方差比的估计问题。
设已给定置信水平为 1 − α 1-\alpha 1−α,并设 X 1 , X 2 , . . . , X n 1 X_1, X_2,...,X_{n_1} X1,X2,...,Xn1是来自第一个总体的样本; Y 1 , Y 2 , . . . , Y n 2 Y_1, Y_2,...,Y_{n_2} Y1,Y2,...,Yn2是来自第二个总体的样本,这两个样本相互独立。且设 X ˉ \bar{X} Xˉ, Y ˉ \bar{Y} Yˉ分别为第一、第二个总体的样本均值, S 1 2 S_1^2 S12, S 2 2 S_2^2 S22分别是第一、第二个总体的样本方差。
统计推断就是由样本来推断总体,它包括两个基本问题:统计估计和假设检验。有关总体分布的未知参数或未知分布形式的种种论断叫统计假设。人们要根据样本所提供的信息对所考虑的假设做出接受或拒绝的决策。假设检验就是做出这一决策的过程。
一般,人们总是对原假 H 0 H_0 H0做出接受或拒绝的决策。由于作出判断原假设 H 0 H_0 H0是否为真的依据是一个样本,由于样本的随机性,当 H 0 H_0 H0为真时,检验统计量的观察值也会落入拒绝域,致使我们做出拒绝 H 0 H_0 H0的错误决策;而当 H 0 H_0 H0为不真时,检测统计量的观察值也会未落入拒绝域,致使我们做出接受 H 0 H_0 H0的错误决策。
接受一个假设并不意味这确信它是真的,它只意味着决定采取某种行动;拒绝一个假设也不意味着它是假的,这也仅仅是作出采取另一种不同的行动。不论哪种情况,都存在作出错误选择的可能性。
上面介绍的各种检验法都是在总体分布形式为已知的前提下进行的。但在实际问题中,有时不能知道总体服从什么类型的分布,这时就需要根据样本来检验关于分布的假设。
在客观世界中普遍存在着变量之间的关系。变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系时指变量之间的关系可以用函数关系来表达的。另一种非确定性的关系即所谓相关关系。如果变量是随机变量,那么变量关系是非确定性的。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个变量取得的值去估计另一个变量所取的值。
统计模型:方差分析模型和回归分析模型。
设总体的分布 F F F未知,但已经有一个容量为 n n n的来自分布 F F F的数据样本,自这一样本按放回抽样的方法抽取一个容量为 n n n的样本,这种样本称为bootstrap样本或称为自助样本。相继的、独立的从自原始样本中取很多个bootstrap样本,利用这些样本对总体 F F F进行推断。这种方法称为非参数bootstrap方法,又称自助法。这一方法可以用于当人们对总体知之甚少的情况,它是近代统计中的一种用于数据处理的重要实用方法。
从随时间演变的随机现象引入随机过程的概念和记号。介绍随机过程的统计描述方法。从实际问题抽象出两个著名的随机过程,并介绍它们的统计特性。
随机过程的研究对象是随时间演变的随机现象。这种现象已不能用随机变量或多维随机变量来合理的表达,而需要用一族(无限多个)随机变量来描述。
随机过程在任一时刻的状态是随机变量,可以利用随机变量(一维或多维)的统计描述方法来描述随机过程的统计特性。
泊松过程
马尔可夫过程的主要特征是具有无后效性(马氏性),通俗的说,就是在已知过程“现在”所处状态的条件下,其“将来”状态的概率分布不依赖于“过去”所处的状态。无后效性的严格定义是由条件分布函数给出的。
在物理学中,很多确定现象遵从如下演变规则:由时刻 t 0 t_0 t0系统或过程所处的状态,可以决定系统或过程在时刻 t > t 0 t>t_0 t>t0所处的状态,而无需借助于 t 0 t_0 t0以前系统或过程所处状态的历史资料。如微分方程初值问题所描绘的物理过程就属于这类确定性现象。把上述原则延伸到随机现象,即当一物理系统或过程遵循的是某种统计规律时,可仿照上面的原则,引入以下的马尔可夫性或无后效性:过程(或系统)在时刻 t 0 t_0 t0所处的状态为已知的条件下,过程在时刻 t > t 0 t>t_0 t>t0所处的状态的条件分布与过程在 t 0 t_0 t0之前所处的状态无关。通俗的说,就是在已经知道过程“现在”的条件下,其“将来”不依赖于“过去”。
泊松过程是时间连续、状态离散的马氏过程;维纳过程是时间、状态都连续的马氏过程。
马尔可夫过程的主要特性是它具有无后效性(马氏性),通俗的说,就是在已知过程“现在”所处状态的条件下,其“将来”状态的概率分布不依赖于“过去”所处的状态。
泊松过程是时间连续、状态离散的马氏过程;维纳过程是时间、状态都连续的马氏过程。
根据实验记录确定平稳过程的均值和自相关函数的理论依据和方法。
用数字特征来描述随机过程,比用分布函数(或概率密度)来的简单。对于具有各态历经性的平稳过程,可以根据各态历经定理,对随机过程的一个样本函数使用数学分析的计算手续去求它的均值和相关函数。在这种场合下,利用均值和相关函数去研究随机过程更是方便。特别是对于正态平稳过程,它额均值和相关函数完全刻画了该过程的统计特性。
用傅里叶变换确立平稳过程的频率结构—功率谱密度。