http://antkillerfarm.github.io/
去掉和各参数无关的部分后,可得:
去掉和 Λ 无关的部分,并求导可得:
因为公式1中 E[⋅] 部分的结果实际上是个实数,因此该公式可变形为:
而:
去掉和 Λ 无关的部分,可得:
所以:
因为:
所以:
代入公式2,可得:
由上式等于0,可得:
因此:
因为:
所以:
因此根据之前的讨论可得:
将上式代入公式3,可得:
这里需要注意的是,和之前的混合高斯模型相比,我们不仅要计算 Σz(i)|x(i) ,还要计算 E[z] 和 E[zzT] 。
此外,我们还可得出:(推导过程略)
在继续Andrew Ng的讲义之前,我们需要加强一些矩阵的相关知识。虽然Andrew Ng的讲义中已经包含了一个线性代数方面的简介文章,然而真的就只是简介而已,好多内容都没有。
这里推荐一本书《Matrix Methods in Data Mining and Pattern Recognition》。
作者:Lars Eld´en,执教于Linköping University数学系。
http://www.cnblogs.com/daniel-D/p/3204508.html
这是daniel-D写的中文笔记。
这一部分的内容属于数值计算领域,涉及的概念虽然不复杂,但提出一个高效算法,仍然不是件容易的事情。
还有另外一本书《Liner Algebra Done Right》,也值得推荐。这本书从定义矩阵算子,而不是通过行列式,来解释各种线性代数原理,提供了一种独特的视角。因为算子是有明确的几何或物理意义的,而行列式则不然。
作者:Sheldon Jay Axler,1949年生,美国数学家。普林斯顿大学本科,UCB博士,MIT博士后,San Francisco State University教授。美国的数学系基本就是本科和博士,很少有硕士。因为数学,尤其是理论数学,需要高度的抽象思维能力,半调子的硕士,既不好找工作,也不好搞科研。
以3阶方阵为例,上面左边的矩阵被称为下三角矩阵(lower triangular matrix),而右边的矩阵被称为上三角矩阵(upper triangular matrix)。
对于矩阵求逆问题来说,下三角矩阵是一类比较简单的矩阵,求逆难度仅高于对角阵。
下三角矩阵的逆矩阵也是下三角矩阵,因此:
由矩阵乘法定义,可得:
由 cij=1,i=j ,可得: bii=1aii
由 cij=0,i≠j ,可得:
因此:
上三角矩阵求逆,可通过转置转换成下三角矩阵求逆。这里会用到以下性质:
LU分解可将矩阵A分解为 A=LU ,其中L是下三角矩阵,U是上三角矩阵。
LU分解的用途很多,其中之一是求逆:
LU分解有若干种算法,常见的包括Doolittle、Cholesky、Crout算法。
注:Myrick Hascall Doolittlee,1830~1913。
Andr´e-Louis Cholesky,1875~1918,法国数学家、工程师、军官。死于一战战场。
Prescott Durand Crout,1907~1984,美国数学家,22岁获MIT博士。
这里只介绍一下Doolittle算法。
由矩阵乘法定义,可知:
因此:
u1j=a1j,j=1,2,…,n (U的第1行)
lj1=aj1/u11,j=1,2,…,n (L的第1列)
For i=2,3,…,n do
uii=aii−∑i−1t=1litutj
uij=aij−∑i−1t=1litutj for j=i+1,…,n (U的第i行)
lji=aji−∑i−1t=1ljtutiuii for j=i+1,…,n (L的第i列)
End
unn=ann−∑n−1t=1lntutn
参见:
http://www3.nd.edu/~zxu2/acms40390F11/Alg-LU-Crout.pdf
任意实数方阵A,都能被分解为 A=QR 。这里的Q为正交单位阵,即 QTQ=I 。R是一个上三角矩阵。这种分解被称为QR分解。
QR分解也有若干种算法,常见的包括Gram–Schmidt、Householder和Givens算法。
注:Jørgen Pedersen Gram,1850~1916,丹麦数学家,在矩阵、数论、泛函等领域皆有贡献。他居然是被自行车撞死的…
Erhard Schmidt,1876~1959,德国数学家,哥廷根大学博士,柏林大学教授。David Hilbert的学生。20世纪数学界的几位超级大神之一。1933年前的哥廷根大学数学系,秒杀其他所有学校。所谓“一流的学生去哥廷根,智商欠费才去藤校”。
Alston Scott Householder,1904~1993,美国数学家,芝加哥大学博士,田纳西大学教授。ACM主席。
James Wallace Givens, Jr.,1910~1993,美国数学家,普林斯顿大学博士,西北大学教授。参与UNIVAC I机器项目(1951年),这是最早的商用计算机。
这里只介绍Gram–Schmidt算法,这个算法虽然名为Gram–Schmidt,然而拉普拉斯和柯西早就已经用过了。
首先介绍一下向量的投影运算的符号表示。
如上图所示,根据余弦定理和向量点乘的定义可得:
因此,向量a在向量b上的投影向量 a1 ,可表示为:
特别的,当b为单位向量时:
我们定义投影符号如下: