探寻《矩阵论》与AI的结合(二)

总述:https://blog.csdn.net/randy_01/article/details/80616681 这篇博客主要论述了矩阵理论的一般性,接下来将进一步深入探讨特殊矩阵以及应用。国外翻译版的《矩阵论》主要教会从业人员一种研究矩阵的方法论。纵观整个篇幅基本可以发现,研究矩阵的方法不外乎以下几种:①feature value decomposition②矩阵相似性~的研究③矩阵分块理论。对矩阵的任何研究都离不开这三种方法,比如奇异值分解,矩阵的分解实际上是相似性和分块理论的融合。矩阵中最重要的元素是feature value,它是矩阵的灵魂。以feature value为核心的研究,包括线性变换,谱范数,feature value估计,矩阵的扰动问题,稳定性等等。矩阵的范数在AI中往往应用在结构化约束中,矩阵的范数还可以证明矩阵的收敛性,最小二乘法损失函数用矩阵可以解释为估计参数满足向量Y在预测值平面内的投影是预测值向量本身。包括在《实变函数与泛函数分析》和《凸优化》中都可以用矩阵来解释,比如泛函数分析中著名的乘积空间其实可以看成是矩阵空间,有界线性算子。《矩阵论》+《实变函数与泛函数分析》+《凸优化》+《统计学》是从事研究工作最基本的数学储备。而普通本科非数学专业的微积分和线代又是前面的基础。但是理论扎实和创新并不是一回事儿,比如国外的Ai研究员可以从生活常识中得到灵感,比如幼儿的抓阄,物理学中的弹簧系统的稳定性等等。建立创新意识比知识储备更重要,也就是增强自身的认知能力,而不只是停留在感知层面。比如有的公司或者研究人员认为扒论文复现很重要,认为本科生做不了。事实上如果中国的教育有质量保证的话,本科生完全可以胜任,因为扒论文复现并不是什么高深和光彩的事儿。

学习学科的目标并不是单纯为了积累知识,方法论才是最重要的。比如国内很多研究生很水,据观察国内很多高校根本不具备开设硕士专业的资格,导师水平不达标,有的甚至不是专业对口的导师,可想而知多么坑人。方法论在知识图谱中以及神经规则推理中更为重要,比如图模型推理的研究,基本思路是融合统计学派和图模型,然后用神经网路学习知识表示。再比如CNN的改进总体离不开以下3种方法:①输入层embedding的扩展,比如融合知识图谱的embedding表示②卷积算子的改进(数学中的卷积算子的研究和有界线性算子很相似)③最后池化层的改进。去年以色列特拉维夫大学和哈弗大学的一篇改进卷积算子(谱卷积算子的论文很不错,很前沿,这些都是工业界最具价值的研究)。目前国内的研究最大的问题是"唯论文论"的浮夸,部分博士不务实,以写论文为生。工业界的进步靠的是少数有价值的论文,而不是论文漫天纷。国内的研究总体上格局不大,有点儿小家子气,保守,习惯于在1的基础上小修小改。从0到1的过程是最具价值的,也是最消耗精力的,需要从基础抓起。比如有的人研究方向很可能不对思路(纯学术派的Ai研究员容易犯这样的错误),从0到1的研究必须必须慢下来。比如很多工业界的码农学习Ai完全是蜻蜓点水,这是不恰当的,能够评估一篇论文的商业价值需要很强的学术能力和经验。再比如去年微软已经上线的core inferrence chain用cvt节点的图谱做2-hot以上的推理,metapath衡量语义相似度,论文有些人看了以后认为这仅仅是一篇paper而已,草率地认为实际上实现不了。国内确实没有上线的,这说明国内的Ai基础研究明显落后于美国。

基础学科《矩阵论》的学习,绝对会使Ai研究人员上升层次。本篇博客将重点论述AI和矩阵,AI部分主要论述统计学派和图模型以及神经网络的融合,分为以下几个部分:

一、矩阵的方法论研究(切入点为特殊矩阵的研究,从特殊到一般的归纳总结是人类研究自然世界的基本规律);

二、矩阵与AI(最小二乘法,损失函数的结构化约束) ,重要的矩阵:拉普拉斯矩阵,PageRank,无向图的卷积算子(谱卷积算子,相对于图卷积算子),图模型推理.

1.特殊的矩阵

1.1 正定矩阵与正稳定矩阵

矩阵的研究方法在总述中已经提到了,看下面的图:

探寻《矩阵论》与AI的结合(二)_第1张图片

 利用以上结论可以得出:对于n阶Hermite正定矩阵A有,其中P为n阶非奇异矩阵,证明过程用到了第②条结论。这个结论可以直接证明向量的椭圆范数满足三角性。n阶Hermite正定矩阵毫无疑问是稳定的,他是判断线性系统稳定性的重要依据(依据特征值来判断,前面提到矩阵的特征值是矩阵的灵魂)。

1.2 投影矩阵

1.21 投影算子、投影矩阵和幂等矩阵的概念

探寻《矩阵论》与AI的结合(二)_第2张图片

 探寻《矩阵论》与AI的结合(二)_第3张图片

 注意:幂等矩阵是A^2=A的矩阵。

 探寻《矩阵论》与AI的结合(二)_第4张图片

 探寻《矩阵论》与AI的结合(二)_第5张图片

 

 1.22 判断投影矩阵的条件

探寻《矩阵论》与AI的结合(二)_第6张图片

 

探寻《矩阵论》与AI的结合(二)_第7张图片

 1.23 投影矩阵的表示

探寻《矩阵论》与AI的结合(二)_第8张图片

 

 举例:

探寻《矩阵论》与AI的结合(二)_第9张图片

 探寻《矩阵论》与AI的结合(二)_第10张图片

 1.3 正交投影矩阵

探寻《矩阵论》与AI的结合(二)_第11张图片

 L子空间的向量与M子空间的向量正交,M是L的正交补。

1.31 正交投影矩阵的表示

探寻《矩阵论》与AI的结合(二)_第12张图片

 探寻《矩阵论》与AI的结合(二)_第13张图片

 探寻《矩阵论》与AI的结合(二)_第14张图片

 x在L上的投影为:

 

2. 矩阵的一般相似性定理

在第一篇博客已经提到了哈密特-凯莱定理,依据是任意n阶矩阵与三角阵相似。在《线性代数》中论述的是特殊的相似性:n阶非奇异矩阵与对角阵(特征值)相似。更特殊的是n阶对称矩阵的相似性,从特殊到一般的情况是《矩阵论》区别于《线性代数》的地方之一。

二,矩阵与AI

1.最小二乘法的研究

   1.1 椭圆方程

         1.11 标准椭圆方程

               在二维平面内,一个标准的椭圆方程为x^2/a^2 + y^2/b^2 = 1,用矩阵表示为

探寻《矩阵论》与AI的结合(二)_第15张图片

在《线性代数》的二次型章节中,有标准的二次型矩阵表示,重新回顾一下:

探寻《矩阵论》与AI的结合(二)_第16张图片

 探寻《矩阵论》与AI的结合(二)_第17张图片

 

 探寻《矩阵论》与AI的结合(二)_第18张图片

 探寻《矩阵论》与AI的结合(二)_第19张图片

  标准的二次型就是这样的:

探寻《矩阵论》与AI的结合(二)_第20张图片

 探寻《矩阵论》与AI的结合(二)_第21张图片

 探寻《矩阵论》与AI的结合(二)_第22张图片

 其中C是标准正交特征向量系组成的矩阵。所以以原点为中心的标准椭圆方程就是X^TAX,A为Hermite矩阵,X为椭圆参数。

那么椭圆中心不在原点的方程呢?比如

探寻《矩阵论》与AI的结合(二)_第23张图片

 很明显此时的方程应该为:(X-X0)^TA(X-X0)

         1.12 旋转后的椭圆方程

                比如将原来的椭圆按原点顺时针旋转thelta度,旋转后的方程是什么样的呢?设原椭圆上的一点a(x1,x2),旋转后为a`(x1`,x2`)。旋转矩阵为探寻《矩阵论》与AI的结合(二)_第24张图片,标记为C,于是a` = Ca。变换一下,将a`逆时针旋转thelta度返回原来的a,此时的旋转矩阵为探寻《矩阵论》与AI的结合(二)_第25张图片,替换掉原来的C。于是a = Ca`,带入原来的椭圆方程中得到:探寻《矩阵论》与AI的结合(二)_第26张图片 (初等旋转矩阵和初等反射矩阵在上一篇博客有论述),中心为X0(x10,x20)的椭圆方程为(X-X0)^T(C^TAC)(X-X0)。

   1.2 最小二乘法损失函数

         1.21 最小二乘法损失函数的由来

                 最小二乘法对于很多AI从业人员来说很熟悉,感觉没什么好说的,但是真要自己独立深入研究就需要功底了。运用数学知识自行研究AI需要方法论指导,首先写出最小二乘法的损失函数公式:

探寻《矩阵论》与AI的结合(二)_第27张图片

线性回归中的样本容量为n,标记Y为真实值,维度为n,YC^n空间,预测值探寻《矩阵论》与AI的结合(二)_第28张图片  L(L为C^n的子空间)。

在《统计学》中我们知道,对于回归问题,真实值与预测值之间的误差遵循标准高斯分布探寻《矩阵论》与AI的结合(二)_第29张图片,他的概率密度函数为高斯分布函数,因此利用最大似然函数估计得到:

探寻《矩阵论》与AI的结合(二)_第30张图片

让这个概率密度函数最大化等价于exp()里面的东东最小,于是就有了最小二乘法的损失函数。当然这个只是经验风险估计,还没有加上结构化约束,不能算最后的损失函数,后面将利用《凸优化》论述结构化约束。另外最小二乘法的损失函数属于凸函数,集合属于凸集,可以自己验证一下(两方面可以验证,一是变换成椭球公式,椭球属于典型的凸集,另一种方法求参数的二阶导函数>0)。

         1.22 损失函数的椭圆范数表示

看到最小二乘的损失函数公式,如果数学功底扎实的话,马上能看出来它是两个相同向量的内积取均值,我们把这个向量表达出来就是Y-X*,其中X为样本组成的矩阵。于是损失函数可以表示为:①探寻《矩阵论》与AI的结合(二)_第31张图片,②。我们将从这两个公式展开研究,先看公式②。把他展开看一下:

最后一项非常熟悉是标准椭圆方程,那么整个公式是不是椭圆呢?观察来看不是旋转后的椭圆,那就是中心不在原点的椭圆,来结合一下前面的公式:

 对比这两个公式,发现如下规律:

探寻《矩阵论》与AI的结合(二)_第32张图片

 于是损失函数为

 进一步研究,中间的矩阵是n阶非奇异对称方阵,前后两项是非零向量,很明显这个公式是参数thelta的椭圆范数的平方,即:

探寻《矩阵论》与AI的结合(二)_第33张图片

 探寻《矩阵论》与AI的结合(二)_第34张图片

 这个意义很明显了,最小二乘的损失函数就是找到最优的参数thelta,使椭圆范数最小。这个椭圆是以理想的参数探寻《矩阵论》与AI的结合(二)_第35张图片为中心,它的范数越小,训练的参数越接近于这个理想参数。所以它属于凸优化范畴。那么问题又来了,我们发现这个最后的公式里并没有Y,前面的公式①我们还没有论述,这两个公式之间存在着什么样的联系呢?换句话说我们找到了最优的参数thelta后,他对于公式①意味着什么?

         1.22 损失函数的矩阵投影意义

                 前面我们提到,Y属于C^n空间,X*thelta属于L,L是C^n的子空间,M亦属于C^n的子空间并且探寻《矩阵论》与AI的结合(二)_第36张图片,令Y-X*thelta=Z,得到Y=X*thelta+Z。要使损失函数①最小,也就是让Z向量的模最小,很明显只有满足以下关系才能是损失函数最小:

探寻《矩阵论》与AI的结合(二)_第37张图片

 也就是说X*theltaY沿着M向L的投影,更确切地说是正交投影。我们来验证一下是否正确。公式Y=X*thelta+Z,按照《矩阵论》中投影的定义,Y分解为了两个子空间,这两个子空间直和是完整的C^n空间,所以X*thelta是Y的投影,符合要求。而且是正交投影,那么必有正交投影矩阵P满足以下关系:PY=X*thelta,P为Hermite幂等矩阵。那么至此最小二乘损失函数的意义就是:找到最优的参数thelta使损失函数的椭圆范数最小(最优椭圆),根据这样的参数thelta能够得到Hermite幂等矩阵P使PY=X*thelta,即X*thelta是Y沿着M(M是L的正交补)的正交投影。X*thelta是对参数thelta的线性变换,把X进行奇异值分解后降维处理或者用PCA降维,X先是对thelta旋转变换,然后伸缩变换,最后再次旋转变换,此时的参数变成了L子空间。在实际工程训练中只能逼近这个理想结论,能否达到主要取决于结构化约束和参数优化方法。于是引出1.23节的论述,请看下文:

         1.23 损失函数的结构化约束(lasso研究)

                 春节后更新……

2. 重要的矩阵:拉普拉斯矩阵,无向图卷积算子,谱卷积算子,从无向图到有向图的推理研究

    2.1 拉普拉斯矩阵与PageRank算法

    2.2 普通卷积算子,谱卷积算子,无向图推理

          2.21 普通卷积算子

          2.22 谱卷积算子

          2.23 无向图推理

   2.3 从无向图到有向图推理

 

 

 

你可能感兴趣的:(AI基础理论,矩阵论,nlp语义理解,关系推理,图模型)