目录
第 8章 Fourier系数的统计描述
8.1 引言
8.2 统计假设
8.3 Fourier系数对噪声的均值和方差
8.4 Fourier系数对噪声信号的概率分布
8.5 随机信号的Fourier系数分布
8.6 信号平均
上一章通过假设离散函数是通过对连续函数定期采样获得的,将离散函数和连续函数的Fourier分析结合在一起。该练习中隐含的概念是数据向量 v 可以由函数 f ( x ) 的一系列样本表示为
-----------------------------------------------------[8.1]
然而,在Fourier分析的实际应用中,样本不太可能与感兴趣的基础函数完全匹配。在这种情况下,通常将正在研究的函数称为信号(signal),而对该信号的污染影响(contaminating influence)称为噪声(noise)。图 8.1 显示了一个示例,其中家庭作业练习 7.2 中定义的函数被均匀分布在极限 (-0.5, +0.5) 之间的随机噪声污染。
------------------------------------图 8.1 采样数据=信号+噪声---------------------------------------
许多因素可能会在样本值中引入误差。 例如,如果要采样的功能通过电极、放大器、滤波器或传输电缆,则不可避免地会导致一定程度的污染。 即使采样到有限的精度水平(例如使用 8 位模数转换器)也会引入可能被视为噪声的误差。当考虑测量噪声时,数据向量 v 的一个更现实的模型是
------------------[8.2]
其中,每个 表示一个加到信号 f ( x ) 上的不同噪声。本章的核心问题是:当信号被噪声污染的时候,与 f ( x )关联的Fourier系数会发生什么变化?
为了检查噪声对Fourier系数的影响,我们必须了解噪声过程的统计属性。在自然界中出现的所有不同类型的噪声中,从数学的角度来看,最简单和最容易处理的噪声具有以下两个特性:
(1) 加性(additive)噪音。换句话说,如等式[8.2]所示,采样值等于被采信号与噪声的线性和。
(2) 每个噪声 样本均可从均值0(mean zero)和方差 (variance)的噪声过程(或统计总体(population))中独立地提取。
出于本入门课程的目的,我们将假设我们所研究的噪声满足以上这两个条件。
这两个假设的含义之一是噪声与信号无关。如果一个事件的发生对另一个事件的发生概率没有影响,则两个随机事件 A 和 B 是独立的。 使用条件概率表示法,独立性意味着 P(B|A) = P(B)。 在当前背景下,独立性意味着噪声不会仅仅因为信号变大或变小而变大或变小。 另一个含义是,每个噪声样本都来自与所有其他噪声样本具有相同统计特性的统计母体。也就是说,用统计学家的行话,噪声值 称为随机变量,这些随机变量的集合被称为独立同分布。这与实验结束时的噪声比实验开始时的噪声大的情况形成对比,这将违反同分布噪声的假设。反之,如果 时刻的噪声值依赖于其前某一个时刻 的噪声,则其依赖性明显。
因为在数据向量中的每个采样点 都被假设为确定为一个确定(deterministic)信号f ( xj )和一个采样的随机噪声信号 这意味着,必须视 为一个随便变量。此外,由于噪声具有0均值且噪声具有加性,这意味着 的均值(或者理论“期望值(expected value)”)等于 。由于信号被假设为噪声自由的(noise-free), 的方差等于噪声的方差 。我们将这些结论数学化记为
(采样信号 = 信号 + 噪声)
(采样均值 = 信号)
( 采样方差=噪声方差 ) ----------------------------------------------------[8.3]
技术术语无关性(uncorrelation)、独立性(independence)和正交性(orthogonality)描述了两个随机变量之间的断开层次(a hierarchy of disconnectedness)。如果随机变量 A 和 B 的乘积的期望值等于他们单独期望的乘积,E(AB) = E(A)E(B),则它们是不相关的。 如果两个变量的乘积的期望值为零,即 E(AB)=0,则这两个变量是正交的。如果两个变量的联合概率等于它们各自概率的乘积 P(A,B) = P(A)P(B),则这两个变量是独立的。无关是比独立性弱得多的条件,因为它仅取决于平均行为,而独立性取决于 A 和 B 的所有可能值。如果两个随机变量独立,则它们不相关,相反,如果两个变量相关,则它们必须相关 依赖。 因此,两个统计因变量可能不相关。 联合高斯随机变量是这条规则的一个重要例外,因为在这种特殊情况下,不相关等同于独立。
想象相关性和正交性之间差异的另一种方法是考虑随机变量的实现。如果随机变量 A 被采样 D 次,则样本值的结果向量(即实现)可以用 D 维空间中的一个点几何表示。同样,随机变量B的D个样本也用D维空间中的一个点来表示。如果A和B是正交变量,那么从原点到A的向量应该(平均)垂直于从原点到B的向量,这意味着两个实现的内积等于零,这是另一种说法 E(AB)=0。设想相关性是相似的,但是向量首先相对于它们自己的均值居中。这是通过从 A 的每个元素中减去向量 A 中元素的平均值以生成“居中”数据向量来实现的。 向量 B 以相同的方式居中,然后将两个向量绘制在 D 维空间中。如果两个居中向量垂直,则基础变量 A 和 B 不相关。 由于居中可以改变两个向量之间的角度,原始数据向量可以是垂直的,但当居中时它们有一些倾斜角度。在这种情况下,变量 A 和 B 正交但相关。相反,原始数据向量可以彼此倾斜,但当居中时它们变得垂直,在这种情况下A 和 B 不正交而是不相关的。 第三种情况是当原始向量垂直并且在居中时保持垂直,在这种情况下 A 和 B 都是正交且不相关的。
虽然假定时间 j 的噪声值在统计上独立于时间 k 的噪声,但相应的数据值将不是独立的,因为加性信号会引入样本之间的相关性。例如,如果信号在时间 t 很强,那么它可能会在稍晚的时间保持强势。 因此,较早时间的信号 + 噪声之和将比稍后时间的信号 + 噪声之和更好地预测。 一个实际的例子是通过说明天的天气和今天一样来预测明天的天气。 当然会发生变化,但 7 月 2 日的天气更可能像 7 月 1 日的天气,而不是 12 月 1 日的天气。
回顾一下等式[3.30] 和 [3.31],针对数据向量 v 求得的Fourier系数由三角基函数
----------------------------[3.30]
----------------------------[3.31]
给出,且复数形式由复数指数基函数
-------------------------[4.23]
给出。
现在根据等式 [8.3]每个数据向量是信号向量加上噪声向量的总和。这意味着由等式 [3.30, 3.31]评估的系数可被视为单独对信号的真实Fourier系数的估计。为了看到这一点,我们将 [8.3] 中的第一个方程代入 [3.30] 得到
---------------------------------------------------------------------------------[8.4]
其中, 是可积的 Fourier系数 。这个结论提示了 是真实的Fourier系数 的估计值,误差为 ,即噪声样本向量的Fourier系数。类似的结果适用于正弦系数。复系数的相应结果是
----------------------------------------------------------------------------------[8.5]
前面的发展表明,为噪声数据确定的估计Fourier系数也是随机变量,因此我们想知道这些系数的均值(即期望值)和方差。由于每个估计的Fourier系数都是常数 和随机变量 的总和,因此 中的可变性完全由随机误差项 引起。从概率论我们知道,如果 是均值 μ 和方差 的随机变量,并且如果 s 是某个标量常数,则新的随机变量 Z = s 具有均值 sμ 和方差 。这意味着等式[8.4]中的一般项 是均值为 0 且方差为 的随机变量。 概率论的另一个结果是,如果 和 Z分别是均值 μ、ν 和方差 、 的独立同分布随机变量,则新的随机变量W = + Z的均值 μ + ν 和方差 。简而言之,当随机变量相加时,它们的均值相加,方差相加。 将此结果应用于等式[8.4]中的第二个求和。我们看到εk是D个随机变量的总和,每个随机变量的均值为0,方差为 。因此,εk = 0 的平均值和εk 的方差由下式给出
(对于 k ≠ 0)
(对于 k = 0) -------------------------------------------------------------[8.6]
等式 [8.6] 的简化基于采样余弦函数的平方长度等于 D/2 的事实,除非 k = 0,在这种情况下它等于 D(见练习 3.3) 。 k = 0 作为特例的出现在数学上是相当尴尬的。为了计算方差,正如在 Parseval 定理中所处理的那样(参见等式[7.6]),可以通过将 系数重新调整为 系数重新调整为
对于复数 Fourier系数,常规项 是一个具有均值为0 和 方差为 的随机变量。D 个这样的随机变量的总和,给出了噪声方差的以下公式
----------------------------------------------------------------------------[8.6-1]
复数Fourier系数的一个优点是常数项不是特例。
鉴于这些结果,我们现在可以提供估计Fourier系数的前两个统计矩(statistical moments)的值。从等式[8.4]我们知道,随机变量 是确定项系数 的和,并且,随机变量 的和,并且,随机变量 具有0均值和由等式[8.6]给出的方差。最后,
(对于 k ≠ 0)
(对于 k ≠ 0)----------------------------------------------------------------------------[8.7]
并且类似的等式适用于正弦系数的估计。复Fourier系数的相应等式是
-------------------------------------------------------------------------------[8.7-1]
请注意,由于 的方差是 ,则 的方差指的是均值方差,等于 ,因此,均值的标准偏差是 。(这个结论对于 更为明显 。) 这是一个来自初等统计的熟悉结论。在统计学上,D个数据的均值的标准偏差称为均值标准误差(standard error of the mean),其值等于 ,其中,σ 是从中提取数据的统计总体(population)的标准偏差。
总之,在加性(additive)独立噪声的假设下,所有三角Fourier系数估计值的方差( 除外)等于噪声方差乘以 。所有复数Fourier系数估计的方差等于噪声方差乘以 。 这表明减少估计方差的一种方法是增加样本点数 D。 一种称为信噪比(signal-to-noise ratio,SNR) 的品质因数(A figure of merit)通常用于量化信号的可靠性。特定Fourier系数的 SNR 可以视为均值(例如 )与标准偏差 的比值。根据这个定义,估计的Fourier系数的 随着 的增加而增加,并与噪声量 σ 成比例地减少。
均值和方差是随机变量的有用汇总统计数据,但更完整的表征是概率分布。给定确定性信号,为噪声波形的 D 个样本计算的Fourier系数的概率分布取决于添加噪声的概率分布。 正如噪声信号的基本分析中的典型情况,从现在开始我们将假设噪声具有均值 μ 和方差 的Gauss(或正态(normal))概率密度(probability density) 。在此假设下,噪声信号在任何时刻位于范围(a ,b) 中某处的概率 P
由这些限制之间的Gauss概率密度函数下的面积给出。
可以提供Gauss假设的几个理由。 首先,许多物理噪声源都可以通过这个特定的概率函数很好地建模。这并不奇怪,因为概率论的中心极限定理指出,无论单个变量的概率分布如何,大量自变量的总和都趋于Gauss分布。另一个原因是权宜之计(expediency):这个假设使当前的问题变得容易处理。概率论的一个结果是Gauss分布在加法下是封闭的,这意味着任意数量的Gauss随机变量的加权和仍然是Gauss分布。由于随机变量 εk是噪声变量的加权和,如果噪声是Gauss分布的,那么Fourier系数的估计值也是Gauss分布的。简而言之,加性Gauss噪声产生Gauss傅立叶系数。
Gauss分布只有两个参数,即均值和方差,这可以从上面第 8.3 节的更一般的结果中得知。因此,我们可以通过声明,Fourier系数的估计值作为具有以下均值和方差的正态(即Gauss)随机变量分布(“~N(a,b)”读作“有一个具有均值a和方差b的正态分布”),从而总结前面的结果:
--------------------------------------------------------------------------------[8.9]
另一个感兴趣的随机变量是第 k 次谐波的功率。在等式[7.6]中它表明,信号功率是(极性)振幅平方的二分之一。 因此,第k次谐波中的估计信号功率 为
----------------------------------------------------[8.10]
从概率论我们知道,如果 X 是一个均值为零、单位方差为零的标准化Gauss随机变量,即如果 X ~N(0,1),那么变量 服从具有 1个自由度的一个卡方(chi-squared)变量。 即, 。如果我们通过减去均值并除以标准偏差,以此标准化等式[8.9]中Fourier系数的估计,则这个结果在当前情况下很有用。这意味着平方化——标准化Fourier系数分布 为
和 -------------------------------------------------[8.11]
类似的表述适用于 和 系数。 现在,从概率论我们也知道,如果随机变量 X 和 Y 都服从具有 1 个自由度的卡方分布,那么变量 Z = X + Y 则服从具有 2 个自由度的卡方分布。这意味着
和 -----------------------------[8.12]
最后一个结果的一个重要实际应用是测试特定谐波频率信号的存在。在这种情况下,可能提出的零假设(null-hypothesis)是第 k 次谐波的Fourier系数为零。在这个假设下,等式[8.12] 简化为
和 ---------------------------------------------[8.13]
将这个结果与等式 [8.10] 中信号功率的定义相结合,我们看到
-------[8.14]
要解释最后的结果,请注意等式 [8.14] 左侧的分母是噪声源的总功率除以确定的Fourier系数的数量。这种解释来自我们对等式[3.45]中给出的Parseval定理的理解,以及 要解释最后的结果,请注意等式 [8.14] 左侧的分母是噪声源的总功率除以确定的Fourier系数的数量。这种解释来自我们对等式[3.45]中给出的Parseval定理的理解,以及 的期望值这一事实。因此,根据这种解释,[8.14] 的分母是每个系数的预期噪声功率量,也就是说,噪声功率谱中的平均功率。因此,左侧的比率是第 k 次谐波中测量的功率量,由平均噪声功率归一化。如果我们称这个无单位量为第 k 次谐波的相对功率,则等式 [8.14]表示在第 k 次谐波处信号功率为零的原假设下,第 k 次谐波中的相对功率分布为 。
在下一章中,我们将利用等式[8.14]中的结果构建原假设的统计检验。同时,值得回顾的是, 变量的均值等于变量的自由度数,方差等于均值的两倍。由于信号功率 是零假设下的缩放 变量,我们立即知道 的标准差(即方差的平方根)等于均值(等式 8.15),在这种情况下,这意味着 SNR = 1 。通常这样低的 SNR 是不可接受的,这需要下面描述的方法来提高 SNR。
------------------------------------------------------[8.15]
-----------------图8.2 概率密度函数的卡方(Chi-squared)族-------------------------------------
有时,被调查的信号源根本没有确定性成分,而本身就是一个随机过程。一个例子是脑电图(electroencephalogram),即放置在头骨上的电极记录的微小电压。 其他例子是瞳孔直径(pupil diameter)的正常波动(“hippus”-“虹膜震颤”)和在恒定观察条件下眼睛光焦度的波动。这样的信号被称为随机信号,因为它们不容易作为确定性分量加上随机噪声分量的总和而适合等式 [8.2] 的模型,除非我们简单地完全删除信号项。
随机(即随机)信号的Fourier分析通常以极坐标形式进行,因为信号的随机性质降低了相位的重要性,只留下感兴趣的频谱的幅度部分。 此外,不是绘制Fourier系数的幅度 而是绘制 更常见,它是谐波分量的功率。因此,每个Fourier分量的功率图作为频率的函数称为功率谱(power spectrum)。一个随机过程的功率谱满足每个样本独立于每个其他样本并具有相同分布的假设,这将是平坦的。这是因为,如等式 [8.14]表明,对于零信号的情况,每个谐波的功率是相同的。具有平坦功率谱的噪声源称为“白(white)”噪声,类似于可见光谱。 这个结论的一个推论(corollary)是,如果以产生非平坦频谱(即“彩色”频谱)的方式过滤噪声源,则噪声样本将不再独立且分布相同。实际上,过滤引入了样本之间的相关性,因此它们不再是统计独立的。
在第 8.4 节末尾观察到,在没有确定性信号的情况下, 的标准差等于平均值,这意味着 SNR = 1。“信号”在本文中的含义是 的估计值,即随机信号的 k 次谐波分量的功率。通常,如此低的 SNR 值是不可接受的,因此需要寻求提高可靠性的方法。一种方法是重复采样波形和计算功率谱的过程。如果将 M 个谱加在一起,则每个谐波的功率将是 M 个随机变量的总和,每个随机变量均服从具有 2 个自由度的 分布。 因此,总功率将分布为自由度为 2M 的 ,均值为 2M,标准差为 。 平均功率是总功率除以 M,
----------------------------------------------------------------[8.16]
其均值,方差和 SNR 分别是
----------------------------------------------------------[8.17]
因此,我们得出结论,通过平均 M 个单独的频谱创建的随机信号的估计功率谱的可靠性与 成比例增加。
一种等效技术是对 M 个样本向量进行平均,然后计算平均数据向量的功率谱。由于数据向量的每个分量的可靠性与 成正比(因为均值的标准误差与 反比),计算出的功率谱也是如此。
研究系统行为的常用方法是用周期性刺激强制驱使系统,然后测量响应。任何真实系统都会不可避免地产生噪声响应,这使得响应的每个周期或时期与其他时期略有不同。 从概念上讲,有两种方法可以对此类响应波形进行Fourier分析。第一种是将 n 个历元(epoch)视为长度为 nL 的时间间隔内的一个连续响应。 另一种方法是分别分析每个时期。如果响应波形在每个时期被采样 D 次,那么这两种方法都会产生 nD 个Fourier系数。不同之处在于,在第一种方法中,系数对应于 nD /2 个不同的谐波,而在第二种方法中,它们对应于相同的 D/2 个谐波的重复。在许多情况下,第一种方法中包含的大部分谐波都没有意义。 因此,第二种方法提供了一个机会来估计所测量系数的统计可靠性。这是以一种称为光谱的直接方式完成的平均。给定系数 的 n 个度量,可以独立于所有其他系数计算 的均值和 的方差。应该注意的是,在第一种方法中,通过频谱平均确定的 的平均值将恰好等于对应频率的系数值。这是因为系数的值是通过样本值与感兴趣的样本正弦波的内积得出的。内积对样本点进行求和,因此无论是一次性求和(方法1)还是逐个求和(方法2)都无关紧要。练习 8.1 是一个验证这一点的实际例子。
虽然用谱平均法很容易计算Fourier系数的均值和方差,但指定Fourier系数的概率分布就比较难了。等式 [8.10] 表示标准化系数分布为自由度为 1 的 。 这意味着非标准化分布是按比例缩放的非中心 分布。 遗憾的是,n 个这样的随机变量的总和并不那么容易处理。 概率论的中心极限定理有一些令人欣慰的地方,它指出,无论 的分布如何,如果 n 很大, 的均值分布将近似呈Gauss分布。
分析多个时期的另一种常见方法是对各个时期的数据进行平均,以产生一个平均波形,然后对其进行Fourier分析。这种方法称为信号平均。 练习 8.1 证明了用这种方法得到的Fourier系数与通过谱平均得到的平均系数相同。 该结果是Fourier分析是线性运算的结果。 无论是先对数据进行平均然后进行光谱分析,还是相反,先进行光谱分析再进行平均,都没有关系。
内容来源:
<< Fourier Analysis for Beginners>> Larry N. Thibos