Fourier分析入门——第9章——Fourier系数的假设检测

目录

第9章 Fourier系数的假设检验

9.1 引言

9.2 回归分析(Regression analysis)

9.3 带限信号(Band-limited signals)

9.4 可信区间(Confidence intervals)

9.5 Fourier系数的多元(或多变量)统计分析(Mulitvariate statistical analysis of Fourier coefficients)


第9章 Fourier系数的假设检验

9.1 引言

在第 8 章中,我们从一个新的角度研究了Fourier系数。尽管由 D 项组成的傅里叶级数将在 D 个采样点处精确拟合离散数据函数,但由于原始数据值的测量误差,该级数可能仍不能正确表示物理系统。 因此,从统计的角度来看,计算出的Fourier系数仅仅是对没有噪声因素污染的真实值的估计。由于噪声的存在,这些计算当基础信号的系数为零时,系数很少会等于零。 例如,正弦相位的方波只有奇次谐波分量,但当噪声被添加到方波时,计算出的偶次谐波系数不一定为零。 由于Fourier分析的最终目的通常是为所研究的系统创建一个合理的模型,因此制定策略来决定是否要从模型中省略特定的谐波项变得很重要,因为噪声本身就可以解释为系数计算的特定值。换句话说我们寻求检验特定Fourier系数等于零的零假设的方法

本章处理的问题与第 7 章中遇到的问题类似。我们在第 7 章中研究了从确定性函数的精确Fourier级数模型中省略某些项的后果。我们发现虽然删除项会给模型引入误差但通过调整Fourier级数中剩余项的系数并不能使引入的误差量变小换句话说,截断的Fourier级数模型最小化了均方误差现在我们有一个稍微不同的问题,其中模型中的错误不是由删除项引起的,而是由包含污染数据的加性(additive)Gauss噪声引起的

一个更普遍的问题是使用Fourier系数向量的重复测量来确定平均向量是否不同于给定向量。给定的向量可能为零,在这种情况下,问题本质上是这样的:数据中是否有任何信号,或者只有噪声? 第 9.5 节讨论了处理此问题的策略。

9.2 回归分析(Regression analysis)

在回归统计理论中,近似模型“拟合优度(goodness of fit)”的常用方法是调查由比率定义的统计量 S

S = \frac{variance \hspace{0.2cm}of \hspace{0.2cm} data \hspace{0.2cm} accounted \hspace{0.2cm} for \hspace{0.2cm} by \hspace{0.2cm} model}{residual \hspace{0.2cm} variance} ------------------------------------------[9.1]

(译注:S = 由模型计算的数据方差/剩余方差)

这里的基本思想是记录的波形具有方差(即,不仅仅是常数)的原因是由于两个因素:一些潜在的确定性函数和随机误差。 例如,在线性回归中,潜在的确定性函数被假定为一条直线,它有两个自由参数:斜率和截距。 这样的模型预测数据中一定量的方差([9.1] 中的分子),但模型未考虑一些剩余方差([9.1] 中的分母)。 如果 S 很大,则意味着该模型是可以接受的,因为它很好地解释了数据中的方差。 在Fourier分析的背景下,我们在第 8 章介绍的这两个引入方差的因素的词是:信号和噪声。 因此,统计量 S 与之前定义的 SNR 非常相似,因为分子是基础信号强度的度量,而分母取决于存在的噪声量。

使用诸如 S 之类的汇总统计量来检验关于模型充分性的假设在统计学中称为参数检验(parametric test)”。 为了开发这种有用的测试,需要知道 S 的概率分布。也许最广为人知的这种分布是 Snedecor 的 分布(以 R.A. Fisher 爵士的名字命名),它适用于等式[9.1]的分子是自由度为的 \chi^{2} 变量除以a,分母为自由度为的 \chi^{2} 变量除以b 。即,

\frac{\chi_a^2/a}{\chi_b^2/b} \backsim F_{a,b} ---------------------------------------------------------------------------------------[9.2]

鉴于第 8 章的结果表明当仅存在Gauss噪声时谐波功率分布为 \chi^{2} ,发现有时可以使用 F 检验来检验Fourier级数模型的拟合优度也就不足为奇了。Hartley[há:tli](1949)是第一个开发这种测试的人,他的方法如下所述。

我们从等式[3.45]给出的Parseval定理的版本得知,D个样本点的方差等于相应谐波分量的功率之和。

Var(Y ) = \frac{1}{D}\sum_{k=1}^{D}Y_k^2 - m^2 = 1/2 sum_{k=1}^{D/2}(a_k^2+b_k^2) = \sum_{k \neq 0}^{}c_k^2 = \sum_{k=1}^{D/2}p_k ------[9.3]

因此,如果所考虑的Fourier模型包括所有 D 次谐波分量,那么它将解释数据的所有方差,剩余方差将为零,并且模型将准确地拟合数据。 另一方面,如果模型中仅包含一些谐波,则省略的谐波将解释(account for)剩余方差(residual variance)。 在这种情况下,我们可以创建一个类似 S 的统计量来确定模型是否仍然合适。

为了解这是如何工作的,假设我们在Fourier模型中只包含第 k 次谐波。 换句话说,假设所有其他谐波都是噪声。根据上面的等式[3.45],这个模型解释的方差是 p_k 。之前,我们在等式 [8.14] 中发现,如果我们在仅存在噪声的零假设下通过除以预期功率量来归一化 p_k ,则“相对功率”分布为具有 2 个自由度的 \chi^{2} 。

\frac{p_k}{\sigma^{2}/D} \backsim \chi_{2R}^2 -------------------------------------------------------------------------------------------[9.4]

现在为了制定 Hartley 统计量,我们将这些变量中的每一个除以它们各自的自由度数并形成它们的比率

H=\frac{\frac{p_k}{2\sigma^{2}/D}}{\frac{1}{2R}\sum_{j=1}^{R}\frac{p_j}{\sigma^{2}/D}}=\frac{relative \hspace{0.2cm} power \hspace{0.2cm} in \hspace{0.2cm} k-th \hspace{0.2cm} harmonic/DoF}{average \hspace{0.2cm} rel. \hspace{0.2cm} power \hspace{0.2cm} in \hspace{0.2cm} residuals/DoF} \backsim F_{2,2R} --------------[9.5]

(译注:DoF = Degree of Freedom(自由度);relative power in k-th harmonic/DoF = k 次谐波中的相对功率/自由度;average rel. power in residuals/DoF=剩余方差中的平均相对功率/自由度 。)

幸运的是,未知量σ同时出现在分子和分母中,因此抵消掉后余下部分为

\frac{p_k}{\frac{1}{R}\sum_{j \neq k}^{}} \backsim F_{2,2R} ---------------------------------------------------------------------------------------[9.6]

因此,如果对于显著性水平(significance level)的 αH > F_{2,2R} 的临界值,在第k次谐波中的Hartley信号功率是零的零假设(null hypothesis,或称“原假设”)检验将拒绝零假设。要针对选定的显着性水平(通常为 5% 或 1%)执行此检验,请在 F 分布表中查找 F 的临界值。如果计算出的检验统计量大于表格中的临界值,则拒绝零假设,即该谐波中的信号功率为零。显著性水平解释为错误地拒绝零假设的概率

具有加性Gauss噪声的信号示例如图 9.1A 所示,其幅度谱如图 9.1B 所示。 该数据集 (D = 11) 的数据向量和复数Fourier系数向量在表 9.1 中给出。 数据的总方差为 1.49,可根据Fourier系数(不包括常数项 c_0 )或直接根据数据值计算得出。具有最大功率的谐波(在本例中为基波)的方差为 0.57,因此 Hartley 统计量的值为 H = 0.57/[(1.49-0.57)/4] = 2.48,与表格中的F 统计量 (4.46) 在具有自由度为 2 和 8的 α = 0.05 水平相比并不显著。 因此,我们接受零假设,即,即使是最大的谐波功率也与零没有显著差异。如果我们拒绝零假设,我们将对下一个最大的谐波分量重复该过程,依此类推,直到不能再拒绝零假设。此时,该模型包括所有具有统计显著性的谐波。

Fourier分析入门——第9章——Fourier系数的假设检测_第1张图片

 ---------------------------------------------图表9.1 示例波形A及其幅度谱B----------------------------------------

9.3 带限信号(Band-limited signals)

当信号是带限为W的信号且有意过采的时候,会出现 Hartley 检验的另一个应用。在这种情况下,准确的Fourier级数是

f ( x ) = \frac{a_0}{2} + \sum_{k=1}^{W}[a_k cos(kx)+b_k sin(kx)] + \sum_{k=w+1}^{N}[a_k cos(kx)+b_k sin(kx)] ---------[6.1]

并且模型将通过在 W 次谐波处截断级数来获得。略去了高次谐波,因为信号是带限的,高次谐波中的功率代表噪声。因此,残余谐波的数量为 R = (D/2) - W,Hartley 的统计量为

H=\frac{\frac{1}{2W}\sum_{j=1}^{W}\frac{p_j}{\sigma^{2}/D}}{\frac{1}{2R}\sum_{j=W+1}^{N}\frac{p_j}{\sigma^{2}/D}}=\frac{relative \hspace{0.2cm} power \hspace{0.2cm} in \hspace{0.2cm} model/DoF}{average \hspace{0.2cm} rel. \hspace{0.2cm} power \hspace{0.2cm} in \hspace{0.2cm} residuals/DoF} \backsim F_{2W,2R}--------------[9.7]

(译注:DoF = Degree of Freedom(自由度);relative power in Model /DoF = 模型中的相对功率/自由度;average rel. power in residuals/DoF=剩余方差中的平均相对功率/自由度 。)

值得记住的是,Parseval 定理提供了一种计算剩余功率的间接方法,无需实际计算过采样产生的所有高次谐波的Fourier系数。

9.4 可信区间(Confidence intervals)

基本统计最重要的结果之一是总体样本均值的可信区间的规范。如果我们回顾该结果的逻辑,它将成为获取Fourier系数可信区间的有用起点。假设 \overline{x}N 个样本的平均值,我们希望能够以 95% 的可信度(即错误概率小于 5% )断言真实总体平均值 μ 落在范围

\overline{x} - A \leqslant \mu \leqslant \overline{x} + A  -----------------------------------------------------------------------[9.8]

问题是,A 的值是多少? 这个问题的近似答案是平均值标准误差的 2 倍。要了解为什么是这样,请回想一下标准化样本均值 t ,也称为学生 t 统计(Student's t-statistic),

t=\frac{|\overline{x}-\mu|}{s/\sqrt{N}} -----------------------------------------------------------------------------------------[9.9]

具有 N – 1 个自由度的 t 分布(译注:Student's t-statistic,简称“t 分布”)。在等式中,s是采样标准偏差且 s/\sqrt{N} = s(\overline{x}) 是均值的标准误差。学生 t 分布实际上是一组由自由度数参数化的分布函数。一个典型的例子可能如图 9.1 所示。左边是概率密度函数,右边是 1 减去累积概率分布,即它是密度函数下超出某个标准 c 的区域,作为 c 的函数。 

Fourier分析入门——第9章——Fourier系数的假设检测_第2张图片

---------------------------------------图9.1 学生 t 分布---------------------------------------------

使 P(c) 降至 5% 所需的 c 的确切值取决于 D,但对于大样本,c 约为 2。这意味着 t 大于 2 的概率仅为 5% 。 现在根据等式 [9.9],这意味着

Prob(\frac{|\overline{x}-\mu|}{s(\overline{x})}>2) = 5\% ------------------------------------------------------------------[9.10]

(译注:Prob = probability简写,词义“概率”)

该表达式中的不等式可以用类似于等式 [9.8] 的形式重述,作为真实均值 μ 位于估计均值的 ± 2 SEM 范围内的概率的表达式,

Prob\{ \overline{x}- 2 s(\overline{x}) < \mu < \overline{x}+ 2 s(\overline{x})\} = 95\% ------------------------------------[9.11]

换句话说,对μ 而言,95% 的可信边界是 \overline{x} \pm 2s(\overline{x}) 。

按照同样的推理,我们从等式[9.6]中知道Hartley的谐波功率与剩余功率之比在零假设下服从 F 分布。 即使 p_k=0 的零假设为假,估计系数和实际系数之间的差异也是由于Gauss噪声造成的。因此,与[9.5]类似的方程式是通过返回等式[8.11] 中给出的Hartley统计中的分子形式获得的,即,

H = \frac{(\hat{a}_k-a_k)^{2}+(\hat{b}_k-b_k)^{2}}{\frac{1}{R}\sum_{j}^{R}p_j} \backsim F_{2,2R} -------------------------------------------------------[9.12]

因此,[9.10] 的类似等式是

Prob\{\frac{(\hat{a}_k-a_k)^{2}+(\hat{b}_k-b_k)^{2}}{\frac{1}{R}\sum_{j}^{R}p_j} > F_{2,2R}\}=95\% ----------------------------------------[9.13]

这种定义可信界限的不等式具有简单的几何解释,如图 9.2 所示。如果我们画一个以点 (a_k,b_k)为中心的圆,半径 ρ 由下式给出 

\rho ^{2}=\frac{F_{2,2R}}{R}\sum_{j}^{R}p_j ---------------------------------------------------------------------------[9.14]

那么我们可以以 95% 的可信度断言Fourier系数  (a_k,b_k) 的真实值对应于该圆内某处的一个点。如果此圆包含原点,则此 k 次谐波项中的功率与零没有显著差异。

Fourier分析入门——第9章——Fourier系数的假设检测_第3张图片

 -------------------------------------图 9.2 Fourier系数的可信界限--------------------------------------------

总之上述分析旨在确定Fourier级数模型中应包括哪些谐波。然后,我们使用有关不包含有意义信号的那些谐波频率的Fourier系数可变性的信息,为那些包含有意义信号的谐波频率创建可信限度。 在许多实验中,感兴趣的频率是先验已知的,因为物理系统被一些已知频谱的信号所强制,因此预期响应频率与刺激相同,或者在非线性系统的情况下是其谐波。在事先不知道感兴趣的频率的情况下,一种有效的策略是根据系数的大小对系数进行排序,从最大的开始,然后依次分析每个系数。

9.5 Fourier系数的多元(或多变量)统计分析(Mulitvariate statistical analysis of Fourier coefficients)

在本节中,我们研究了使用Fourier系数向量的重复测量来确定平均Fourier向量 \overline{x} 是否等于预先指定的给定向量 μ 的相关问题。 例如,我们可能希望知道是否有任何谐波分量在统计上显著,在这种情况下我们会问是否 \overline{x}=\mu=0 。一个类似的问题是询问为一个总体确定的平均Fourier向量 \overline{x} 是否与为其他总体母体确定的平均Fourier向量   \overline{y} 相同。 这些是多元统计领域的常见问题,标准教科书(例如 Anderson,Krzanowski)。 最简单、最直接的方法是基于Hotelling (1931) 对学生 t 统计的概括。为了进行这种概括,等式 [9.8] 中的数量 \overline{x} 和 μ 被认为是向量而不是标量。 Hotelling对等式[9.9]中学生 t 统计量的概括是 T^2 统计量 

T^2 = N(\overline{x} -\mu)' S^(-1) (\overline{x} -\mu) -------------------------------------------------------[9.15]  

其中 N 是用于计算均值向量 \overline{x} 的Fourier向量的数量,S 是样本协方差(covariance)矩阵,其中每一行都是一个观察值,每一列都是一个变量。 这是Anderson (1984)教材中的等式[5.2]。 至于学生t 统计,假设向量 x 的每个分量都是Gauss随机变量。此外,假设每个分量在统计上独立于所有其他分量,在这种情况下,向量 x 被称为多元Gauss随机过程(multivariate Gaussian random process)。鉴于这些假设,Hotelling 的 T^2 统计与 F 统计成正比。

为了检验均值向量等于给定向量 \overline{x}=\mu 的假设,我们首先根据等式[9.15] 计算 T^2 。 接下来,我们计算 F 统计量为

F_{df1,df2}=\frac{T^2}{N-1}\frac{df2}{df1} (见Matlab程序T2OneMean.m)--------------------------------------[9.16]

其中,较小的自由度 df1 = D 是Fourier向量 x 的长度,较大的自由度是 df2 = N - D。要使此测试有效,Fourier向量的数量 N 必须超过样本数量 D 用于计算每个向量。 如果此 F 统计量的值大于给定自由度和指定显著性水平 α F 分布的表格临界值,则我们可以拒绝 x = μ 的假设。为均值向量指定可信区域更难。在几何上,我们可以将均值向量 x 解释为 D 维空间中的一个点。因此可信区域是这个超空间中的一个封闭椭圆体,以均值为中心。 Anderson 提供了定义此椭球体的方程式(方程式 11,第 165 页)。 我们可以自信地断言 1 - α 真实均值位于该椭圆体内部的某个位置。如果注意力集中在单个谐波频率上,则置信区域会减少为图 9.2 的二维空间中的椭圆。 我们假设测量的Fourier系数的可变性是由于加性、Gauss与被测信号无关的噪声,因此Fourier系数将是不相关的Gauss随机变量。因此,可信椭圆将缩小为圆形区域。 Victor 和 Mast (1991) 根据他们的新颖统计描述了另一种计算该圆形可信区域半径的方法 T_{circ}^2 。

为了检验从样本量 N_1 计算的平均向量 \overline{x} 等于从样本量 N_{2} 计算的不同向量 \overline{y} 的假设,我们首先计算 T^2 统计量

T^2 = \frac{N_1 N_2}{N_1+N_2 }(\overline{x} -\overline{y})'S^{-1} (\overline{x}-\overline{y}) (见Matlab程序T2TwoMeans.m)-------------------[9.17]

现在,我们计算 F 统计量为

F_{df1,df2} = \frac{T^2}{N_1+N_2-2}\frac{df2}{df1 } ---------------------------------------------------------------------------[9.18]

其中,较小的自由度 df1 = D 是两个Fourier向量的公共长度,较大的自由度是 df2 = N_1 + N_2 - D - 1 。 如果此统计量的值大于给定自由度和所选显著性水平 α 的表格 F 分布,则我们可以拒绝Fourier系数的两个均值向量相等的假设。

内容来源:

<< Fourier Analysis for Beginners>> Larry N. Thibos

你可能感兴趣的:(数学与应用数学,傅里叶,傅立叶,假设检测,假设检验)