在《信号与系统》中,作者从高数课本里的傅里叶级数开始推理,得到级数系数的表达式,再将原函数的周期推广到无限,得到傅里叶变换。整个过程在运算上很严谨,但是也很冗杂、不本质、乃至于难以理解
然而如果从函数空间的角度来理解傅里叶变换,它就会显得简单、优雅而本质 – 原来,傅里叶级数和傅里叶变换只不过是函数在特定的三角函数集合上的投影
下面我将从一名工科生的视角出发,试图从函数空间的角度来优雅地理解傅里叶级数
认识了向量空间,也就认识了函数空间。因为向量空间到函数空间之间只差一步–把函数看成向量
所以我们先看向量空间
函数空间似乎是数学系学生才比较熟悉的领域,对于工科生而言则比较陌生。其实这些概念的思想深刻而简洁,可以用简短的语言解释:
在一个集合上定义一些运算,这个"集合+运算"就称之为空间
在空间内定义加法和乘法,并满足八条运算性质,称为线性空间
定义了距离的空间,称为度量空间。范数(norm)是一种特殊的距离(范数有四个条件,距离只有三个条件,比度量多一个数乘条件),定义了范数的空间称之为赋范(normd)空间
度量空间和线性空间是两种很基本的空间,可以认为两者“正交”
赋范空间和线性空间叠加在一起就是赋范线性空间(或者Banach空间,Banach空间和赋范线性空间空间这两个概念很接近,前者比后者稍特殊。Banach空间的主要例子是勒贝格空间 L p L^p Lp: p次可积函数构成的空间)
赋范线性空间的基础上定义角度(或者内积,两者等价)也就是内积空间(或者Hilbert空间,Hilbert空间和内积空间两个概念很接近,前者比后者稍特殊)
Euclidean空间是最简单的Hilbert空间
这几者的关系如下图所示
那么怎么由向量空间过渡到函数空间呢?只需要记住,线性空间中的元素都可以被称为向量,当这些向量是函数时,就成为了函数空间。研究此类函数向量空间的学科也就是泛函分析
当然,在数学家眼中,向量和数字的概念一样,都是抽象的,并不依赖于其表达的实际含义。中向量的元素是可数的,当我们把一个向量中的元素数量扩展到无穷的时候,向量就变成了函数。我们同样可以仿照之前给出的定义,对函数空间定义范数、内积、正交。
https://zhuanlan.zhihu.com/p/338428121
以空间 C [ a , b ] C[a,b] C[a,b](C的意思是continution连续)为例,连续函数的内积可以定义为
< f , g > = ∫ a b f ( t ) g ( t ) d t
两函数正交的含义是:
< f , g > = 0
其L2范数是
∣ ∣ f ∣ ∣ 2 = ( ∫ a b f 2 ( t ) d t ) 1 2 ||f||_2=(\int_a^bf^2(t)dt)^{\frac{1}{2}} ∣∣f∣∣2=(∫abf2(t)dt)21
在向量空间中,有基与正交基的概念,同样地,在函数空间中也有相应的基与正交基的概念。例如下面的三角函数系就是一族基,并且是正交基
{ 1 , cos t , cos 2 t , ⋯ , cos n t , sin t , sin 2 t , ⋯ , sin n t } \{1, \cos t, \cos 2 t, \cdots, \cos n t, \sin t, \sin 2 t, \cdots, \sin n t\} {1,cost,cos2t,⋯,cosnt,sint,sin2t,⋯,sinnt}
为什么是正交基呢?因为它们在上面定义的内积下,内积为0,即:
< f , g > = ∫ 0 2 π f ( t ) g ( t ) d t = 0
称上面的三件函数构成的集合为W,显然W是 C [ 0 , 2 π ] C[0,2\pi] C[0,2π]的子空间(C[0,2pi]是区间上的所有连续函数构成的空间,非常广)
我们知道,一个向量可以投影到另一个向量上,例如,向量 a ⃗ \vec{a} a投影到向量 b ⃗ \vec{b} b上,那么投影的模长是:
∣ a ∣ c o s θ = a ⃗ b ⃗ ∣ b ∣ |a|cos\theta=\frac{\vec{a}\vec{b}}{|b|} ∣a∣cosθ=∣b∣ab
相应的函数f投影到函数g上,模长是
∣ ∣ f ∣ ∣ c o s θ = < f , g > ∣ ∣ g ∣ ∣ = ∫ f ( t ) g ( t ) d t ∫ g 2 ( t ) d t ||f||cos\theta =\frac{
有没有感觉右边这个式子很熟悉?在广义柯西施瓦茨不等式中见到过
在上面的例子中, W ⊂ C [ 0 , 2 π ] W\subset C[0,2\pi] W⊂C[0,2π],因此可以把C空间中的任意函数 f f f往W空间中投影,并且用W中的基底函数的线性组合表示 f f f
例如,把某函数f投影到 cos k t \cos kt coskt上,coskt这个基底对应的模长就是
a k = ∣ ∣ f ∣ ∣ c o s θ = < f , c o s k t > ∣ ∣ c o s k t ∣ ∣ = ∫ 0 2 π f ( t ) c o s k t d t ∫ 0 2 π c o s 2 ( k t ) d t a_k=||f||cos\theta = \frac{
投影到sinkt上,则
b k = ∣ ∣ f ∣ ∣ s i n θ = < f , s i n k t > ∣ ∣ s i n k t ∣ ∣ = ∫ 0 2 π f ( t ) s i n k t d t ∫ 0 2 π s i n 2 ( k t ) d t b_k=||f||sin\theta = \frac{
通过计算可以得到
⟨ cos k t , cos k t ⟩ = ⟨ sin k t , sin k t ⟩ = π \langle\cos k t, \cos k t\rangle=\langle\sin k t, \sin k t\rangle=\pi ⟨coskt,coskt⟩=⟨sinkt,sinkt⟩=π
也就是
a k = 1 π ∫ 0 2 π f ( t ) cos k t d t , b k = 1 π ∫ 0 2 π f ( t ) sin k t d t a_k=\frac{1}{\pi} \int_0^{2 \pi} f(t) \cos k t d t, \quad b_k=\frac{1}{\pi} \int_0^{2 \pi} f(t) \sin k t d t ak=π1∫02πf(t)cosktdt,bk=π1∫02πf(t)sinktdt
上边的 a k a_k ak和 b k b_k bk,就是任意函数f从空间C[0,2pi]往空间W中投影时,f投影在W的各个基底上的模长
将以上所有的分量向量("分量"函数)加和(也就是平行四边形法则)就得到了原向量(原函数),这些分量就是f的傅里叶级数
f ( t ) = a 0 2 + ∑ k = 1 ∞ ( a k cos k t + b k sin k t ) f(t)=\frac{a_0}{2}+\sum_{k=1}^{\infty}\left(a_k \cos kt+b_k \sin k t\right) f(t)=2a0+k=1∑∞(akcoskt+bksinkt)
由于
cos θ = e i t + e − i t 2 , sin θ = e i t − e − i t 2 i \cos \theta=\frac{e^{i t}+e^{-i t}}{2}, \quad \sin \theta=\frac{e^{i t}-e^{-i t}}{2 i} cosθ=2eit+e−it,sinθ=2ieit−e−it
带入到周期为2l的f的傅里叶级数展开中,运算得到
f ( x ) = ∑ n = − ∞ ∞ c k e i k π x l , c k = 1 2 l ∫ − l l f ( x ) e − i k π x l d x f(x)=\sum_{n=-\infty}^{\infty} c_k e^{i \frac{k \pi x}{l}}, c_k=\dfrac{1}{2l}\int_{-l}^{l}f(x)e^{-i\frac{k\pi x}{l}}dx f(x)=n=−∞∑∞ckeilkπx,ck=2l1∫−llf(x)e−ilkπxdx
为什么是这样一个看起来奇怪的式子?
其实,在 L 2 [ 0 , 2 π ] L^2[0,2\pi] L2[0,2π]上, { 1 2 π e i k t } \left\{\frac{1}{\sqrt{2\pi}}e^{i k t}\right\} {2π1eikt}是一族完备规范正交基
把函数f往这个空间的各个基底上投影,可以得到
< f , e n > = 1 2 π ∫ 0 2 π f ( t ) e − i n t d t = c n
Parseval恒等式
∑ n = − ∞ ∞ ∣ c n ∣ 2 = 1 2 π ∫ − π π ∣ f ( x ) ∣ 2 d x \sum_{n=-\infty}^\infty|c_n|^2=\dfrac{1}{2\pi}\int_{-\pi}^\pi|f(x)|^2dx n=−∞∑∞∣cn∣2=2π1∫−ππ∣f(x)∣2dx
实际上,这个恒等式可以看作是勾股定理的推广,等号右边是某个向量f的范数的平方,左边是它的各个正交分量长度平方和
wiki的Parseval词条有更详细的解释
上面,我们说了函数f在基底
{ 1 , cos t , cos 2 t , ⋯ , cos n t , sin t , sin 2 t , ⋯ , sin n t } \{1, \cos t, \cos 2 t, \cdots, \cos n t, \sin t, \sin 2 t, \cdots, \sin n t\} {1,cost,cos2t,⋯,cosnt,sint,sin2t,⋯,sinnt}
以及基底
{ 1 2 π e i k t } \left\{\frac{1}{\sqrt{2\pi}}e^{i k t}\right\} {2π1eikt}
上的投影,分别得到了三角函数形式的傅里叶级数和指数形式的傅里叶级数
那么,能不能在其他的基底上投影、乃至于在不正交的基底上投影呢?答案当然是可以的
事实上,我们不只是能够在三角函数正交基上对函数进行正交分解,函数在任何一组两两正交的函数族上的投影,被称为广义傅里叶级数或正交级数,且可以证明f_n是对f的最佳逼近(广义傅里叶级数都是在正交基上的投影)
例如,高数课本给出的泰勒公式,其在x=0处的麦克劳林级数,就是函数f在空间 s p a n { 1 , x , x 2 , x 3 . . . } span\{1,x,x^2,x^3...\} span{1,x,x2,x3...}上的非正交展开(这些基底并不正交,故称)。
进一步,对这些基底进行Gram-Schmidt正交化,得到的正交基就是Legendre多项式
正交函数系有很多,除了Legendre多项式以外,Bessel多项式、Hermit多项式,都是一系列正交函数系列
傅里叶分析,或称调和分析的一个重要目的就是将一个给定的函数表示成一族给定的基函数的和。这个问题可以在Hilbert空间中更抽象地描述为:任何一个Hilbert空间都有一族标准正交基,而且每个Hilbert空间中的元素都可以唯一地表示为这族基中的元素的倍数的和。
由于Hilbert空间和内积空间的概念很接近,上述结论中的Hilbert空间也可以近似理解成为内积空间中的一个结论
https://zhuanlan.zhihu.com/p/338428121
投影这个词在几何上的含义,就是在另一个空间中找到某个向量的最佳逼近;在函数空间中也类似,投影就是找到一个特定函数在另一个空间(函数族)上的最佳逼近
傅里叶级数所用的基底都是周期函数,所以它们的线性组合依然是周期函数,对于非周期函数这些线性组合不可能很好地拟合它–这也就是傅里叶级数展开的一个基本条件,原函数f至少需要有周期性
实际上信号分析中大多数信号都不是周期函数,为此需要把傅里叶级数的基底函数的周期推向无穷,从而得到傅里叶变换
F ( ω ) = ∫ − ∞ + ∞ f ( t ) e − i ω t d t f ( t ) = 1 2 π ∫ − ∞ + ∞ F ( ω ) e i ω t d ω \begin{aligned}&F(\omega)=\int_{-\infty}^{+\infty}f(t)e^{-i\omega t}dt\\ &f(t)=\frac{1}{2\pi}\int_{-\infty}^{+\infty} F(\omega)e^{i\omega t}d\omega\end{aligned} F(ω)=∫−∞+∞f(t)e−iωtdtf(t)=2π1∫−∞+∞F(ω)eiωtdω
傅里叶变换是一个全局性的变换,因此它处理非平稳信号有天生缺陷。傅里叶变换只能获取一段信号总体上包含哪些频率的成分,并不能给予关于信号频率随时间改变的任何信息,也就是时域相差很大的两个信号,频谱图可能是一样的。换句话说,傅里叶变换处理的信号需要有平稳性,然而平稳信号大多是人为制造出来的,自然界的信号几乎都是非平稳的,因此在实际应用中,往往不会单纯的采用傅里叶变换的方法。
为此,Gabor提出了短时傅里叶变换(STFT)
简单来说,就是把整个时域过程分解成无数个等长的小过程,每个小过程近似平稳,再分别进行傅里叶变换,这样就知道在哪个时间点上出现了什么频率了。为了达到这个目的,我们先让函数乘上一个仅在一段时间不为零的窗函数
,再进行一维的傅里叶变换
X ( t , ω ) = ∫ − ∞ ∞ w ( t − τ ) x ( τ ) e − j ω τ d τ X(t,\omega)=\int_{-\infty}^{\infty}w(t-\tau)x(\tau)e^{-j\omega \tau}d\tau X(t,ω)=∫−∞∞w(t−τ)x(τ)e−jωτdτ
随着t的改变,窗函数在时间轴上位移,因此信号只留下了窗函数截取的部分做傅里叶变换,所得到的结果代表着信号随时间与频率变换的大小与相位。窗函数的种类很多,需要根据不同的应用场景进行选取,随着窗函数大小的不同,变换会有不同的频率和时间分辨率。
上面说到,给傅里叶变换加窗,就得到了短时傅里叶变换。当这个窗函数是e指数函数(高斯函数)时,就是Gabor变换
G x ( τ , ω ) = ∫ − ∞ ∞ x ( t ) e − π ( t − τ ) 2 e − j ω t d t G_x(\tau,\omega)=\int_{-\infty}^{\infty}x(t)e^{-\pi(t-\tau)^2}e^{-j\omega t}dt Gx(τ,ω)=∫−∞∞x(t)e−π(t−τ)2e−jωtdt
短时傅里叶变换和Gabor变换相比原本的傅里叶变换,能够更细致地刻画原函数。但是也会带来时域分辨率和频域分辨率的取舍
窗函数太窄,也就是每次截取的信号很少,这会导致频域分辨率差
窗函数太宽,每次截取的信号很多,会导致频域分辨率高–但每次截取的信号很宽也违背了加窗的初衷。这种很宽的加窗,也就是时域分辨率差
时间分辨率和频率分辨率的不可兼得,类似于量子力学中的不确定性原理
基于STFT和Gabor变换的这种缺点,人们设计出了小波变换。
在数学原理上,小波变换实际上是替换了傅里叶变换的基底,将无限长的三角函数基换成了有限长的会衰减的小波基
X w ( a , b ) = 1 ∣ b ∣ ∫ − ∞ ∞ x ( t ) ψ ( t − a b ) d t X_w(a,b)=\dfrac{1}{\sqrt{|b|}}\int_{-\infty}^{\infty}x(t)\psi(\dfrac{t-a}{b})dt Xw(a,b)=∣b∣1∫−∞∞x(t)ψ(bt−a)dt
如果把这个小波基底进行替换,还可以得到其他类型的小波变换
Δ x Δ p ≥ h 4 π \Delta x\Delta p\geq\dfrac{h}{4\pi} ΔxΔp≥4πh
不确定性原理表明,粒子的位置与动量不可同时被确定,即对一者掌握得越清楚,对另一者就掌握得越模糊
上面说到,信号分析中时域分辨率与频域分辨率存在一个取舍问题,两者不能同时被无限提高
例如一个声音越短促,我们就越不确定它的频率,要清楚的确定一个声音的频率,我们必须得到足够长的声音片段,持续时间越长,我们对所确定出的频率也越有把握。因此,我们也有信号中的不确定性原理
信号分析中的不确定性原理是:
Δ t Δ ω ≥ 1 2 \Delta t\Delta\omega\geq\dfrac{1}{2} ΔtΔω≥21
上面两个不确定性原理,其实可以抽象为希尔伯特空间(或者简化为内积空间)中的一个结论,这个结论也被称为广义不确定性原理
σ A σ B ≥ 1 2 ∣ ⟨ [ A , B ] ⟩ ∣ \sigma_A\sigma_B\geq\dfrac{1}{2}|\langle[A,B]\rangle| σAσB≥21∣⟨[A,B]⟩∣
wiki: σ \sigma σ是标准差,A和B是可观察态(啥意思?)
名字叫Paley-Wiener的定理有两个,一个叫做Paley-Wiener Condition,一个叫Paley-Wiener Theorem
Paley-Wiener Condition描述系统可实现的必要条件,即:
∫ − ∞ + ∞ ∣ l n ∣ H ( j ω ) ∣ ∣ 1 + ω 2 d ω < ∞ \int_{-\infty}^{+\infty}\frac{|ln|H(j\omega)||}{1+\omega ^ 2}d\omega < \infty ∫−∞+∞1+ω2∣ln∣H(jω)∣∣dω<∞
Paley-Wiener理论被称为"模糊版本的不确定性原理",是不确定性原理的初等形式(from wiki:傅里叶分析)。这个定理的中文翻译是
一个函数(分布)和它的傅里叶变换不可能同时具有紧支集。(也有的表述是:非零紧支集广义函数的傅里叶变换没有紧支集)
这个解释太数学系了,不好理解。下面用上面新学的函数空间的语言说明这句话是啥意思
在L1空间上取一函数,自变量是d维实向量,即:
f ∈ L 1 ( R d ) f\in\mathcal{L}^1(\mathbb{R}^d) f∈L1(Rd)
为什么要在L1空间上取函数f呢?因为 L1空间即绝对可积函数(例如sinx就不是R上的可积函数(R上积分为无穷)),傅里叶变换要求原函数是绝对可积的,即 f ∈ L 1 ( R ) f\in L^1(R) f∈L1(R)
这种函数图像也比较有特点,往往可以在0附近取比较大的值,而在很远的地方值趋近于0
额外补充一些 L p L^p Lp空间上函数的知识
则 f f f的傅里叶变换 f ^ ( ξ ) \widehat f(\xi) f (ξ)是
f ^ ( ξ ) = ( 2 π ) − d 2 ∫ R d f ( x ) e − i ⟨ x , ξ ⟩ d x , ξ ∈ R d \widehat f(\xi)=(2\pi)^{-\frac{d}{2}}\int_{\mathbb R^d}f(x)e^{-i\langle x,\xi\rangle}dx,\quad\xi\in\mathbb R^d f (ξ)=(2π)−2d∫Rdf(x)e−i⟨x,ξ⟩dx,ξ∈Rd
上式中的内积是常见的向量内积 ⟨ x , ξ ⟩ = ∑ j = 1 d x j ξ j \langle x,\xi\rangle=\sum_{j=1}^d x_j\xi_j ⟨x,ξ⟩=∑j=1dxjξj
有了这样一个变换后,一个自然的问题是,哪些函数的信息可以从它们的傅里叶变换中检索(retrieve)出来?
其中一个最基本的结果是Inversion Theorem,该定理指出,一个L1空间上的函数,其傅里叶变换也是L1空间上的,并且可以从傅里叶变换中恢复出来(傅里叶反变换达成了这个目的,这个结论告诉我们绝对可积函数的傅里叶变换也是绝对可积的)
1934年,Paley和Wiener提出了一个结果,给出了一个函数的support(支撑集,函数值不为0的点)与它的傅里叶-拉普拉斯变换的整体性之间的关系,他们的做法是把上面式子中 ξ ∈ R d \xi\in\mathbb{R}^d ξ∈Rd换成一个复数向量 ζ ∈ C d \zeta\in\mathbb{C}^d ζ∈Cd。为了纪念他们,任何这样的结果通常被称为Paley-Wiener Theorem。
什么叫一个函数在某个区域内被支撑(supported)?标准解释是:函数在这个区域外不为0的点是零测集 - - 说人话就是函数在这个区域内有值,在这个区域外几乎没有值
Paley-Wiener理论的具体数学式子是什么?
它有不同的数学形式
在一篇林奈大学的毕业论文中是这样的
陶哲轩在他的博客Terrence Tao’s blog上写到过Paley-Wiener理论
链接在这
陶哲轩对这个理论的解释更为简单,即 f ^ ( ξ ) \hat f(\xi) f^(ξ)受限于一个范围内,给出了f的取值范围的一个估计
上面这些不同的形式的确切不同,需要比较深刻的数学知识才能理解,但它们的形式总是 ∣ f ^ ( z ) ∣ ≤ C e z 1 + ∣ z ∣ n |\hat f(z)|\le C\frac{e^z}{1+|z|^n} ∣f^(z)∣≤C1+∣z∣nez,也就是给傅里叶变换的值做出一个(上限)估计
在这个问题Explicit Paley-Wiener function中,给出的数学形式比较容易让工科生理解,我很喜欢这个形式,也比较像Z变换中的一些定理
∣ f ( z ) ∣ ≤ C n e B ∣ I m z ∣ 1 + ∣ R e z ∣ n , ∀ n ∈ N . |f(z)|\leq\dfrac{C_n e^{B|\mathrm{Im}z|}}{1+|\mathrm{Re}z|^n},\quad\forall n\in\mathbb{N}. ∣f(z)∣≤1+∣Rez∣nCneB∣Imz∣,∀n∈N.
上式中的f(z)是某函数的傅里叶变换,等式右边,注意分母类似于z变换的实轴。也就是说,随着z值往实轴的两边走,f(z)的模值快速衰落,从而可以看出f(z)一定是快速衰落的函数
问了下ChatGPT说Paley-Wiener与不确定性原理之间的关系
Paley-Wiener定理和不确定性原理之间存在一些联系,尽管它们处于不同的数学领域和物理领域。Paley-Wiener定理是关于函数和它的傅里叶变换之间的关系的数学定理,它描述了函数在时间域和频率域之间的不确定性关系。不确定性原理则是量子力学中的基本原理,它描述了在某些情况下,我们不能同时精确地测量一个粒子的位置和动量。
从数学角度来看,Paley-Wiener定理和不确定性原理都涉及到函数的变换和限制。Paley-Wiener定理告诉我们,如果一个函数在时间域中局限在一个有限范围内,那么它的傅里叶变换在频率域中就必须有一定的增长。这种增长就表明了在时间域中的精度和频率域中的精度之间存在一种不确定性的关系。类似地,不确定性原理则告诉我们,如果我们想要更加精确地测量一个粒子的位置,那么我们就必须对它的动量有更大的不确定性,反之亦然。
从物理角度来看,Paley-Wiener定理和不确定性原理之间也存在一些类比。例如,在光学中,Paley-Wiener定理可以用来描述在一定光谱范围内的光束的传播特性,而不确定性原理则可以用来解释粒子的波粒二象性。因此,尽管Paley-Wiener定理和不确定性原理在数学和物理上存在一些不同,但它们都涉及到变换和限制,并且有一些共同点。
漫谈傅里叶级数–Maple小七
形象易懂讲算法Ⅰ–小波变换
佩利维纳准则
Paley-Wiener Theorem–University of Minnesota
Marko Sobak的毕业论文
数学中的各种空间,C1,C2,C零无穷,H1-0,L2这类都分别是什么意思?