一些可能很有用的矩阵知识

一些可有可无的矩阵知识

  • 酉矩阵

酉矩阵

  • 一个服从正态分布的向量乘以一个酉矩阵,得到的向量仍然服从正态分布

酉矩阵是一个复数矩阵,满足其转置的共轭等于其逆矩阵。当一个向量通过一个酉矩阵进行线性变换时,它的模长保持不变,只是发生了旋转和缩放。这意味着如果原始向量服从正态分布,变换后的向量仍将服从相同的正态分布。

p r o o f : proof: proof:

当一个向量服从正态分布时,其概率密度函数(PDF)可以表示为: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2其中, μ μ μ 是均值, σ σ σ 是标准差。现在,我们有一个酉矩阵U,将向量 x x x 乘以U 得到 y : y = U x y: y=Ux y:y=Ux
对于 y 的概率密度函数,首先,计算y 的均值 μ y μ_y μy: μ y = E ( y ) = E ( U x ) = U E ( x ) \mu_y = E(y) = E(Ux) = UE(x) μy=E(y)=E(Ux)=UE(x)由于 x x x 服从正态分布且期望是 μ μ μ,则 μ y = U μ x = U μ μ_y=Uμ_x=Uμ μy=Uμx=Uμ,然后,计算 y y y的协方差矩阵 Σ y Σ_y Σy Σ y = E [ ( y − μ y ) ( y − μ y ) T ] = E [ ( U x − U μ ) ( U x − U μ ) T ] = U E [ ( x − μ ) ( x − μ ) T ] U T \Sigma_y = E[(y - \mu_y)(y - \mu_y)^T] = E[(Ux - U\mu)(Ux - U\mu)^T] = UE[(x - \mu)(x - \mu)^T]U^T Σy=E[(yμy)(yμy)T]=E[(UxUμ)(UxUμ)T]=UE[(xμ)(xμ)T]UT由于 x x x 服从正态分布且协方差矩阵是 Σ Σ Σ,则 Σ y = U Σ U T Σ_y=UΣU^T Σy=UΣUT,现在,我们可以得到 y y y的概率密度函数 f y ( y ) f_y(y) fy(y)
f y ( y ) = 1 ( 2 π ) n ∣ Σ y ∣ e − 1 2 ( y − μ y ) T Σ y − 1 ( y − μ y ) f_y(y) = \frac{1}{\sqrt{(2\pi)^n|\Sigma_y|}}e^{-\frac{1}{2}(y-\mu_y)^T\Sigma_y^{-1}(y-\mu_y)} fy(y)=(2π)nΣy 1e21(yμy)TΣy1(yμy) μ y \mu_y μy Σ y \Sigma_y Σy带入可得: f y ( y ) = 1 ( 2 π ) n ∣ Σ ∣ e − 1 2 ( y − U μ ) T ( U Σ U T ) − 1 ( y − U μ ) f_y(y) = \frac{1}{\sqrt{(2\pi)^n|\Sigma|}}e^{-\frac{1}{2}(y-U\mu)^T(U\Sigma U^T)^{-1}(y-U\mu)} fy(y)=(2π)nΣ 1e21(yUμ)T(UΣUT)1(yUμ)由于酉矩阵 U 具有单位行列式( ∣ U ∣ = 1 ∣U∣=1 U=1)和单位逆矩阵( U − 1 = U T U^{−1}=U^T U1=UT),上式可简化为: f y ( y ) = 1 ( 2 π ) n ∣ Σ ∣ e − 1 2 ( y − U μ ) T ( U μ ) − 1 ( y − U μ ) f_y(y) = \frac{1}{\sqrt{(2\pi)^n|\Sigma|}}e^{-\frac{1}{2}(y-U\mu)^T(U\mu)^{-1}(y-U\mu)} fy(y)=(2π)nΣ 1e21(yUμ)T(Uμ)1(yUμ)这与正态分布的概率密度函数形式相同,只是参数变为 Σ Σ Σ U μ U_μ Uμ。因此, y y y 也服从正态分布,其均值为 U μ U_μ Uμ,协方差矩阵为 Σ Σ Σ

你可能感兴趣的:(transformer数学理论,矩阵,线性代数,人工智能)