数学狂想曲(十)——复变函数, 平稳离散时间随机过程, 功率谱

熵(续)

信息熵

信息熵和热力学熵的假设相同,因此有类似结论不足为奇,毕竟数学上都是同一个微分方程。

信息熵:编码方案完美时,最短平均编码长度的是多少。

交叉熵:编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度的是多少。平均编码长度=最短平均编码长度+一个增量

H ( p , q ) = − ∑ x p ( x )   log ⁡ q ( x ) H(p, q) = -\sum_x p(x)\, \log q(x) H(p,q)=xp(x)logq(x)

相对熵:编码方案不一定完美时,平均编码长度相对于最小值的增加值。(即上面那个增量)

D K L ( P ∥ Q ) = − ∑ i P ( i )   log ⁡ Q ( i ) P ( i ) D_{\mathrm{KL}}(P\|Q) = - \sum_i P(i) \, \log\frac{Q(i)}{P(i)} DKL(PQ)=iP(i)logP(i)Q(i)

参考:

https://www.zhihu.com/question/41252833

如何通俗的解释交叉熵与相对熵?

复变函数

1.复球面表示。

2.条件严格性。

点域:连续<可导(可微)<可解析

区域:连续<可导(可微)=可解析

由于复平面的存在,极限 z → z 0 z\to z_0 zz0中,趋向于点 z 0 z_0 z0的路径有无穷多种,必须所有路径的极限都存在且一致,才可以说极限 z → z 0 z\to z_0 zz0存在。

3.函数可微的充要条件:Cauchy-Riemann Equations

f ( x + i y ) = u ( x , y ) + i v ( x , y ) f(x + iy) = u(x,y) + iv(x,y) f(x+iy)=u(x,y)+iv(x,y)可导,则:

1) u ( x , y ) u(x,y) u(x,y) v ( x , y ) v(x,y) v(x,y)在点 ( x , y ) (x,y) (x,y)可导。

2)

∂ u ∂ x = ∂ v ∂ y , ∂ u ∂ y = − ∂ v ∂ x \frac{\partial u}{\partial x} = \frac{\partial v}{\partial y},\frac{\partial u}{\partial y} = -\frac{\partial v}{\partial x} xu=yv,yu=xv

4.复数在场论描述中的应用。

复数求导

信号处理领域,很多需要求导的函数往往是不解析的。比如一系列的二乘loss:MSE、LS、WLS等。这些函数都包含 ∣ e ( k ) ∣ 2 = z z ∗ \mid e(k)\mid^2=zz^* e(k)2=zz的成分。然而,这个函数是不可导的。

z z ∗ = x 2 + y 2 zz^*=x^2+y^2 zz=x2+y2

所以

∂ u ∂ x = 2 x , ∂ v ∂ x = 0 \frac{\partial u}{\partial x}=2x,\frac{\partial v}{\partial x}=0 xu=2x,xv=0

上式显然不满足Cauchy-Riemann Equations,因此函数不可导。

上述结论我们也可以另一个角度观察。

假设 f ( z ) f(z) f(z)解析,则 f ( z ) f(z) f(z)可展开为z的Taylor级数。而这个展开式不包含 z ∗ z^* z。即一个解析的复变函数只和z有关,而和 z ∗ z^* z无关。

因为实函数必须同时依赖z和 z ∗ z^* z,否则虚部无法被消掉。因此,实函数 f ( z ) f(z) f(z)都是不解析的

所以,Cauchy-Riemann Equations也可以写成 f ( z ∗ ) = 0 f(z^*)=0 f(z)=0

参考:

https://mp.weixin.qq.com/s/SUWUAMQjSuB5Gs06SPliTQ

复数求导在信号处理中的应用

Hermite矩阵

复数矩阵通常不能直接转置,而必须进行共轭转置。共轭转置也叫做Hermite转置,用 A H A^H AH表示。

如果 A = A H A=A^H A=AH,则A被称为Hermite矩阵。

Charles Hermite,1822~1901,19世纪下半叶法国最著名的数学家,代数学领域的宗师级人物。Henri Poincaré的导师。他首先证明了e是超越数。以他的名字命名的数学术语竟达10项之多。
Hermite虽然不是如某些地摊文学所言,一遇考试就跪。但是的确不太擅长考试,大学(他考的大学类似国内的清北的地位)入学成绩排在第68位,完全没有学神的风范。相比之下,Poincaré的入学成绩可是排第一位的。尽管就成就而言,Hermite绝不逊于Poincaré。

平稳离散时间随机过程

Toeplitz矩阵

Toeplitz矩阵(diagonal-constant matrix),指矩阵中每条自左上至右下的斜线上的元素相同。

Otto Toeplitz,1881~1940,德国犹太裔数学家。University of Breslau博士(1905),先后执教于Göttingen University(在David Hilbert手下供职)、University of Kiel和Bonn University。1939年,为了躲避元首的迫害,逃亡耶路撒冷,次年去世。

广义平稳离散时间随机过程的相关矩阵是Hermite矩阵,也是Toeplitz矩阵。反之,如果相关矩阵是Toeplitz矩阵,则该离散时间随机过程,一定是广义平稳的。

离散时间随机过程的相关矩阵是非负定的,并且几乎总是正定的。(等于零,只有在无噪声且观测向量线性相关的情况下,才会出现。)

白噪声

E [ v ( n ) v ∗ ( n − k ) ] = { σ v 2 , k = 0 0 , k ≠ 0 E[v(n)v^*(n-k)]=\begin{cases} \sigma_v^2, & k = 0 \\ 0, & k \neq 0 \\ \end{cases} E[v(n)v(nk)]={σv2,0,k=0k̸=0

线性差分方程

时间随机过程本身是由时间序列组成的,因此也可以使用《机器学习(二十四)》中提到的ARIMA模型。该模型的关键是求解线性差分方程。这通常要使用“信号与系统”课程中的z变换(离散域的拉普拉斯变换)求解。考虑到“信号与系统”是一个很大的课程。这里仅对本人关心的要点,做一个简要记录。

绝对可积->收敛域

z变换: f ( z ) → F ( z ) f(z)\to F(z) f(z)F(z)

z逆变换: F ( z ) → f ( z ) F(z)\to f(z) F(z)f(z)

系统函数: H ( z ) = R ( z ) E ( z ) H(z)=\frac{R(z)}{E(z)} H(z)=E(z)R(z)。其中,E是激励信号,R是系统响应。

E的收敛域: ∣ z ∣ > 1 \mid z\mid >1 z>1

差分算子->特征方程->特征根

H的平稳条件:H的特征根满足 ∣ z ∣ ≤ 1 \mid z\mid \le 1 z1

特征根是正实数,且 ∣ z ∣ < 1 \mid z \mid<1 z<1:自相关函数为阻尼曲线,仅有幅变。

特征根是负实数或者复数,且 ∣ z ∣ < 1 \mid z \mid<1 z<1:自相关函数为正弦阻尼曲线,不仅有幅变,还有相变。

选择ARIMA的阶数

如前所述,ARIMA(p,d,q)除了一些参数之外,还包括p,d,p这三个阶数的超参数。

AIC信息准则即Akaike information criterion,是衡量统计模型拟合优良性(Goodness of fit)的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。AIC方法主要使用了KL散度。

MDL(minimum description length,最小描述长度) 原理是Rissane在研究通用编码时提出的。其基本原理是选择总描述长度最小的模型。

参考:

https://mp.weixin.qq.com/s/66lY17sOO83Q-xhvQi72dw

周期性时间序列的预测

功率谱

随机过程(设时间序列为 u ( n ) u(n) u(n))二阶统计:

时域——自相关函数

(1) r N ( n − k ) = E [ u N ( n ) u N ∗ ( k ) ] r_N(n-k)=E[u_N(n)u_N^*(k)]\tag{1} rN(nk)=E[uN(n)uN(k)](1)

其中, u N ∗ ( k ) u_N^*(k) uN(k) u N ( k ) u_N(k) uN(k)的复共轭。

频域:

(2) U N ( ω ) = ∑ n = − N N u N ( n ) e − j ω n U_N(\omega)=\sum_{n=-N}^Nu_N(n)e^{-j\omega n}\tag{2} UN(ω)=n=NNuN(n)ejωn(2)

(3) S ( ω ) = lim ⁡ N → ∞ 1 N E [ ∣ U N ( ω ) ∣ 2 ] = ∑ l = − ∞ + ∞ r ( l ) e − j ω l S(\omega)=\lim_{N\to\infty}\frac{1}{N}E[\mid U_N(\omega)\mid^2]=\sum_{l=-\infty}^{+\infty}r(l)e^{-j\omega l}\tag{3} S(ω)=NlimN1E[UN(ω)2]=l=+r(l)ejωl(3)

其中, S ( ω ) S(\omega) S(ω)就是功率谱密度(power spectral density, PSD),也称为功率谱(power spectrum)。

自相关函数和功率谱密度组成了傅立叶变换对,这种关系又被称为EWK(Einstein-Wiener-Khintchine)关系

Einstein最早提出idea,Wiener证明了一个特例,Khintchine做了扩展证明。

Aleksandr Yakovlevich Khinchin,1894~1959,苏联数学家。莫斯科州立大学毕业,并留校任教,直到去世。苏联概率学派的重要人物。苏联科学院院士。概率论中,著名的Khintchine inequality就是他的成果。

在频域上,我们有Nyquist频率,相应的在时域上,我们也有Nyquist间隔:在这个间隔之外, S ( ω ) S(\omega) S(ω)是周期性的。

离散时间随机过程的功率谱密度是非负实函数。

(4) S o ( ω ) = ∣ H ( e j ω ) ∣ S ( ω ) S_o(\omega)=\mid H(e^{j\omega})\mid S(\omega)\tag{4} So(ω)=H(ejω)S(ω)(4)

其中,H为系统函数, S o S_o So输出信号的功率谱密度。

功率谱密度的Cramér表示:

(5) u ( n ) = 1 2 π ∫ − π π e j ω n d Z ( ω ) u(n)=\frac{1}{2\pi}\int_{-\pi}^{\pi}e^{j\omega n}\mathrm{d}Z(\omega)\tag{5} u(n)=2π1ππejωndZ(ω)(5)

其中, d Z ( ω ) \mathrm{d}Z(\omega) dZ(ω)被称为增量过程(increment process)

Harald Cramér,1893~1985,瑞典数学家、统计学家。Stockholm University博士(1917)、教授、校长、瑞典高等教育系统大臣。被誉为“统计理论的巨人”。

由公式2和5,可得:

(6) U N ( ω ) = 1 2 π ∫ − π π ∑ n = − N N e ( − j ( ω − v ) n ) d Z ( v ) U_N(\omega)=\frac{1}{2\pi}\int_{-\pi}^{\pi}\sum_{n=-N}^N e^{(-j(\omega-v) n)}\mathrm{d}Z(v)\tag{6} UN(ω)=2π1ππn=NNe(j(ωv)n)dZ(v)(6)

我们定义:

(7) K N ( ω ) = ∑ n = − N N e j ω n = sin ⁡ ( ( 2 N + 1 ) ω / 2 ) sin ⁡ ( ω / 2 ) K_N(\omega)=\sum_{n=-N}^N e^{j\omega n}=\frac{\sin((2N+1)\omega/2)}{\sin(\omega/2)}\tag{7} KN(ω)=n=NNejωn=sin(ω/2)sin((2N+1)ω/2)(7)

则公式6可改写为:

(8) U N ( ω ) = 1 2 π ∫ − π π K N ( ω − v ) d Z ( v ) U_N(\omega)=\frac{1}{2\pi}\int_{-\pi}^{\pi}K_N(\omega-v)\mathrm{d}Z(v)\tag{8} UN(ω)=2π1ππKN(ωv)dZ(v)(8)

这里的K被称作Dirichlet Kernel。参见《数学狂想曲(一)》的相关章节。

一般来说,在公式8中, U N ( ω ) U_N(\omega) UN(ω)是已知的,而 d Z ( ω ) \mathrm{d}Z(\omega) dZ(ω)是未知的。从数学上来说,这个积分方程可看做第一类Fredholm积分方程的一个例子。

Erik Ivar Fredholm,1866~1927,瑞典数学家。Uppsala University博士(1898)+Stockholm University教授。不知道是不是瑞典的保险业比较发达,他和Cramér居然都当过兼职的精算师。。。瑞典皇家科学院院士。

Uppsala University是瑞典,也是北欧最古老的大学,始建于1477年。

功率谱密度的估计方法主要包括参数法和非参数法两大类。

参数法包括:

1.模型辨识法。基本就是上面提到的ARIMA或者其变种。

2.最小方差无失真响应法(MVDR)。

3.特征分解法。将相关矩阵R分解为两个子空间:信号子空间和噪声子空间。

非参数法包括:

1.周期图法。

2.多窗口法。

一般来说,随机过程的功率谱包含两个分量:确定性分量和连续分量。前者是增量过程 d Z ( ω ) \mathrm{d}Z(\omega) dZ(ω)的一阶矩,后者是 d Z ( ω ) \mathrm{d}Z(\omega) dZ(ω)的二阶中心矩。

参数法一般在知道相关物理规律时使用,它具有较高的精确度。而非参数法由于只依赖增量过程的一阶矩和二阶中心矩,因此适用范围更广泛,即使不知道系统的物理规律也可以使用。(有些类似万能拟合的GMM)

参考:

https://www.zhihu.com/question/29520851

功率谱密度如何理解?

高阶统计

上面讨论的基本都是一阶和二阶统计量,实际上我们还可以使用更高阶的统计量。使用高阶统计量的学科,一般被称为高阶统计学(higher-order statistics)。

Moment

Moment(矩)的定义为:

μ n = ∫ − ∞ ∞ ( x − c ) n   f ( x )   d x \mu_n = \int_{-\infty}^\infty (x - c)^n\,f(x)\,\mathrm{d}x μn=(xc)nf(x)dx

其中,当c=0时,被称作Raw Moment。当c为均值时,被称作Central Moment。如果用 μ n / σ n \mu_n/\sigma^n μn/σn替换 μ n \mu_n μn,就是所谓的Normalised Moment了。

1阶Raw Moment,常称为Mean。2阶Central Moment,常称为Variance。3阶Normalised Moment,常称为Skewness。4阶Normalised Moment,常称为kurtosis。

Cumulants

Cumulants(累积量)的思想最早是Thorvald Thiele提出的,后来被Ronald Fisher和John Wishart发扬光大。

Thorvald Nicolai Thiele,1838~1910,丹麦天文学家。哥本哈根大学博士。哥本哈根天文台台长(1978~1907)。曾研究过三体问题。被Ronald Fisher誉为“最伟大的统计学家”。

John Wishart,1898~1956,苏格兰数学家和农业统计学家。Edinburgh University本科+Cambridge University硕士+University College London博士。导师是Karl Pearson,和Ronald Fisher也有过合作。Royal Society of Edinburgh会员。Cambridge University统计实验室首任主任。

苏格兰人的自我意识真是强,足球有自己的协会,就连皇家学会也有自己的。

你可能感兴趣的:(数学狂想曲)