cayley变换

Cayley变换是一个近年来常用于将神经网络中线性操作的矩阵替换成正交/酉矩阵的一个操作。

正交/酉矩阵的性质 

保范性

在深度学习中最重要的一点是保范性,即\Vert W \mathbf{x} \Vert_2=\Vert \mathbf{x} \Vert_2

证明过程:\Vert W \mathbf{x} \Vert_2 =(W\mathbf{x})^H (W \mathbf{x})=\mathbf{x} ^HW^H W \mathbf{x}=\mathbf{x}^H \mathbf{x}=\Vert \mathbf{x} \Vert_2

实特征值取值范围为\pm 1

 我们知道,如果\lambda是矩阵W的实特征值,那么就有其对应的实特征向量(非\mathbf{0}\mathbf{x},满足\lambda \mathbf{x} = W \mathbf{x}

分别用等号两边的向量做内积:

<\lambda \mathbf{x}, \lambda \mathbf{x}>=\lambda^2 <\mathbf{x},\mathbf{x}>

<W \mathbf{x}, W\mathbf{x}> = (W\mathbf{x})^T W\mathbf{x}=\mathbf{x}^T W^T W \mathbf{x} = \mathbf{x}^T \mathbf{x}=<\mathbf{x},\mathbf{x}>

因为在实数域,\mathbf{x}^T\mathbf{x}\neq \mathbf{0}

所以我们知道:\lambda^2=1,解得\lambda=\pm 1

 何谓Cayley变换

W=(I+A)^{-1}(I-A), A=(I+W)^{-1}(I-W), 其中的A是所谓的斜对称矩阵,即满足A^T=-A

证明W是正交矩阵: 

\begin{aligned} W^T W &=((I+A)^{-1}(I-A))^T (I+A)^{-1}(I-A)\\ &=(I+A)(I-A)^{-1}(I+A)^{-1}(I-A)\\ &=(I+A)((I+A)(I-A))^{-1}(I-A)\\ &=(I+A)((I-A)(I+A))^{-1}(I-A)\\ &=(I+A)(I+A)^{-1}(I-A)^{-1}(I-A)\\ &=I \end{aligned}

反之亦可证明。证明过程中最巧妙的一步就是(I-A)(I+A)=(I+A)(I-A) 

那我们如何获得双向映射中的第二条(由W求A)呢?

由第一条得:

cayley变换_第1张图片

但是,通过Cayley变换,我们不能获得特征值为-1的正交/酉矩阵。为什么呢?

先写下我的猜想:

假设通过Cayley变换,我们获得的矩阵W存在特征值\lambda=-1的情况,其对应的特征向量为\mathbf{y}。那么,我们就有\lambda \mathbf{y} = W \mathbf{y}

当矩阵可逆时,它必然没有特征值为0。但(I+W)\mathbf{y}=\mathbf{y}+W\mathbf{y}=\mathbf{y}-\mathbf{y}=\mathbf{0},解得\lambda=0,说明(I+W)不可逆。既然无法完成双射,那么这种情况自然Cayley变换就做不到了!

你可能感兴趣的:(数学,算法,矩阵,线性代数)