深度学习——第4.2章 深度学习的数学基础

第4章 深度学习的数学基础

目录

4.6 矩阵

4.6 矩阵

下一章开始,我们就会用到矩阵。借助矩阵,可以用一个式子表示大量的联立方程式,特别方便。此外,使用矩阵或向量表示,也会更有助于我们直观理解方程式。
深度学习——第4.2章 深度学习的数学基础_第1张图片

图4-13 标量、向量、矩阵、张量

4.6.1 什么是矩阵

把数横向或纵向排列,得到的是向量;把数像表格一样既横向排列又纵向排列,得到的就是矩阵。下式表示的是一个2×3矩阵(图4-14):
A = [ 1 2 3 4 5 6 ] (4-70) A=\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6\tag{4-70} \end{array}\right] A=[142536](4-70)

深度学习——第4.2章 深度学习的数学基础_第2张图片

图4-14 矩阵

通常,矩阵中横向的内容从上至下读作第1行、第2行等,纵向的内容从左至右读作第1列、第2列等。为了与Python中数组的索引一致,矩阵从0行0列开始计数,即横向从上至下分别是第0行、第1行等,纵向从左至右分别是第0列、第1列等。

式4-70所示的矩阵通常用“2行3列的矩阵”描述。当用一个变量表示矩阵时,一般用粗斜体的大写字母A表示。矩阵中元素的表示方法是:
[ A ] i , j (4-71) [A]_{i, j}\tag{4-71} [A]i,j(4-71)

该式表示的是矩阵A中第 i i i行第 j j j列的元素,如:
[ A ] 0 , 1 = 2 , [ A ] 1 , 2 = 6 (4-72) [A]_{0,1}=2,[A]_{1,2}=6\tag{4-72} [A]0,1=2,[A]1,2=6(4-72)

请注意,元素的序号是从0开始的。

在用变量表示矩阵中的元素时,由于元素是标量,所以用斜体的小写字母表示:
A = [ a 0 , 0 a 0 , 1 a 0 , 2 a 1 , 0 a 1 , 1 a 1 , 2 ] (4-73) \boldsymbol{A}=\left[\begin{array}{lll} a_{0,0} & a_{0,1} & a_{0,2} \\ a_{1,0} & a_{1,1} & a_{1,2}\tag{4-73} \end{array}\right] A=[a0,0a1,0a0,1a1,1a0,2a1,2](4-73)

a i , j a_{i,j} ai,j的下标 i , j i,j i,j分别是行和列的序号。下标之间的“,”有时会省略,比如写作 a 01 a_{01} a01

向量可以算作一种矩阵。比如,如下列向量可以看作一个3行1列的矩阵:
[ 1 2 3 ] (4-74) \left[\begin{array}{l} 1 \\ 2 \\ 3\tag{4-74} \end{array}\right] 123 (4-74)

而如下行向量可以看作一个1行2列的矩阵:
[ 4 5 ] (4-75) \begin{bmatrix} 4 & 5 \tag{4-75} \end{bmatrix} [45](4-75)

4.6.2 矩阵的加法和减法

在介绍矩阵和联立方程式的关系之前,我们先介绍几个矩阵相关的规则。首先看一下矩阵的加法运算。下面以2×3矩阵AB为例:
A = [ 1 2 3 4 5 6 ] , B = [ 7 8 9 10 11 12 ] (4-76) \boldsymbol{A}=\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array}\right], \boldsymbol{B}=\left[\begin{array}{ccc} 7 & 8 & 9 \\ 10 & 11 & 12\tag{4-76} \end{array}\right] A=[142536],B=[710811912](4-76)

矩阵的加法运算是把对应的元素相加(图4-15):
A + B = [ 1 2 3 4 5 6 ] + [ 7 8 9 10 11 12 ] = [ 8 10 12 14 16 18 ] (4-77) \boldsymbol{A}+\boldsymbol{B}=\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array}\right]+\left[\begin{array}{ccc} 7 & 8 & 9 \\ 10 & 11 & 12 \end{array}\right]=\left[\begin{array}{ccc} 8 & 10 & 12 \\ 14 & 16 & 18 \tag{4-77} \end{array}\right] A+B=[142536]+[710811912]=[81410161218](4-77)

深度学习——第4.2章 深度学习的数学基础_第3张图片

图4-15 矩阵的加法和减法

减法运算与加法运算一样,是把对应的元素相减:
A − B = [ 1 2 3 4 5 6 ] − [ 7 8 9 10 11 12 ] = [ 1 − 7 2 − 8 3 − 9 4 − 10 5 − 11 6 − 12 ] = [ − 6 − 6 − 6 − 6 − 6 − 6 ] (4-78) \boldsymbol{A}-\boldsymbol{B}=\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array}\right]-\left[\begin{array}{ccc} 7 & 8 & 9 \\ 10 & 11 & 12 \end{array}\right]=\left[\begin{array}{ccc} 1-7 & 2-8 & 3-9 \\ 4-10 & 5-11 & 6-12 \end{array}\right]=\left[\begin{array}{ccc} -6 & -6 & -6 \\ -6 & -6 & -6 \tag{4-78} \end{array}\right] AB=[142536][710811912]=[174102851139612]=[666666](4-78)

无论是加法运算还是减法运算,两个矩阵的大小(行数和列数)必须相等。要想利用Python进行矩阵计算,必须和进行向量运算时一样,先使用import导入NumPy库。

# 代码清单 4-3-(1)
import numpy as np

然后,使用np.array定义矩阵。

# 代码清单 4-3-(2)
A=np.array([[1, 2, 3], [4, 5, 6]])
print(A)

输出结果:

[[1 2 3]
 [4 5 6]]

在定义向量时,我们只是像np.array([1,2,3])这样用了一组[];而在定义矩阵时,则是先把每行的元素用一组[]括住,然后用[]把整个内容括起来,使用的是双层结构。下面定义矩阵B。

# 代码清单 4-3-(3)
B = np.array([[7, 8, 9], [10, 11, 12]])
print(B)

输出结果:

[[ 7  8  9]
 [10 11 12]]

计算A+B、A-B:

# 代码清单 4-3-(4)
print(A + B)
print(A - B)

输出结果:

[[ 8 10 12]
 [14 16 18]]
[[-6 -6 -6]
 [-6 -6 -6]]

4.6.3 标量积

当矩阵乘以标量值时,结果是所有的元素都乘以标量值:
2 A = 2 × [ 1 2 3 4 5 6 ] = [ 2 × 1 2 × 2 2 × 3 2 × 4 2 × 5 2 × 6 ] = [ 2 4 6 8 10 12 ] (4-79) 2 A=2 \times\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array}\right]=\left[\begin{array}{lll} 2 \times 1 & 2 \times 2 & 2 \times 3 \\ 2 \times 4 & 2 \times 5 & 2 \times 6 \end{array}\right]=\left[\begin{array}{ccc} 2 & 4 & 6 \\ 8 & 10 & 12 \tag{4-79} \end{array}\right] 2A=2×[142536]=[2×12×42×22×52×32×6]=[28410612](4-79)

深度学习——第4.2章 深度学习的数学基础_第4张图片

图4-16 矩阵的标量积

在Python中,矩阵的标量积代码如下:

# 代码清单 4-3-(5)
A = np.array([[1, 2, 3], [4, 5, 6]])
print(2 * A)

输出结果:

[[ 2  4  6]
 [ 8 10 12]]

4.6.4 矩阵的乘积

矩阵之间的乘积(矩阵积)与加法或减法运算不同。

首先看一看1行三列的矩阵A和3行一列的矩阵B,这两个矩阵可以分别看作行向量和列向量,不过这里当作矩阵进行计算:

A = [ 1 2 3 ] , B = [ 4 5 6 ] (4-80) A=\left[\begin{array}{lll} 1 & 2 & 3 \end{array}\right], \boldsymbol{B}=\left[\begin{array}{l} 4 \\ 5 \\ 6 \tag{4-80} \end{array}\right] A=[123],B= 456 (4-80)

深度学习——第4.2章 深度学习的数学基础_第5张图片

图4-17 1 × M 1\times M 1×M矩阵和 M × 1 M\times 1 M×1矩阵的乘积

这两个矩阵的乘积可以计算为:
A B = [ 1 2 3 ] [ 4 5 6 ] = 1 × 4 + 2 × 5 + 3 × 6 = 32 (4-81) A B=\left[\begin{array}{lll} 1 & 2 & 3 \end{array}\right]\left[\begin{array}{l} 4 \\ 5 \\ 6 \tag{4-81} \end{array}\right]=1 \times 4+2 \times 5+3 \times 6=32 AB=[123] 456 =1×4+2×5+3×6=32(4-81)

这就是把AB当作向量时得到的内积。在Python中,AB的内积如代码如下:

# 代码清单 4-3-(6)
A = np.array([1, 2, 3])
B = np.array([4, 5, 6])
print(A.dot(B))
#输出结果:32

计算AB的内积用A.dot(B),A.dot(B)不仅可以计算向量内积,还可以计算矩阵积。但是这样的话,会产生一种对行向量AB计算矩阵积的错觉。

其实,在Python中计算矩阵积时,矩阵的行和列会被自动调整为可以进行计算的形式。此时,B会被看作列向量,这样就可以继续计算内积了。

注意:如果使用通常的乘法运算符号“*”,则乘法运算会在对应的元素之间进行,如下代码所示:

# 代码清单 4-3-(7)
A = np.array([1, 2, 3])
B = np.array([4, 5, 6])
print(A * B)
#输出结果:[ 4 10 18]

这跟“+”或“-”相同。“/”也一样,是在对应的元素之间进行除法运算。演示代码如下:

# 代码清单 4-3-(8)
A = np.array([1, 2, 3])
B = np.array([4, 5, 6])
print(A / B)
#输出结果:[0.25 0.4  0.5 ]

接下来,思考一下A 2 × 3 2\times 3 2×3矩阵、B 3 × 2 3\times 2 3×2矩阵时的情况:
A = [ 1 2 3 − 1 − 2 − 3 ] , B = [ 4 − 4 5 − 5 6 − 6 ] \boldsymbol{A}=\left[\begin{array}{ccc} 1 & 2 & 3 \\ -1 & -2 & -3 \end{array}\right], \quad \boldsymbol{B}=\left[\begin{array}{cc} 4 & -4 \\ 5 & -5 \\ 6 & -6 \end{array}\right] A=[112233],B= 456456

此时,我们把A看作2行的行向量,把B看作2列的列向量,并以各自的组合计算内积,然后在对应的位置写上答案。

深度学习——第4.2章 深度学习的数学基础_第6张图片

图4-18 L × M L\times M L×M矩阵和 M × N M\times N M×N矩阵的乘积

具体的计算步骤如下:
A B = [ 1 2 3 − 1 − 2 − 3 ] [ 4 − 4 5 − 5 6 − 6 ] = [ 1 × 4 + 2 × 5 + 3 × 6 1 × ( − 4 ) + 2 × ( − 5 ) + 3 × ( − 6 ) ( − 1 ) × 4 + ( − 2 ) × 5 + ( − 3 ) × 6 ( − 1 ) × ( − 4 ) + ( − 2 ) × ( − 5 ) + ( − 3 ) × ( − 6 ) ] = [ 32 − 32 − 32 32 ] \begin{aligned} A B &=\left[\begin{array}{ccc} 1 & 2 & 3 \\ -1 & -2 & -3 \end{array}\right]\left[\begin{array}{cc} 4 & -4 \\ 5 & -5 \\ 6 & -6 \end{array}\right] \\ &=\left[\begin{array}{cc} 1 \times 4+2 \times 5+3 \times 6 & 1 \times(-4)+2 \times(-5)+3 \times(-6) \\ (-1) \times 4+(-2) \times 5+(-3) \times 6 & \quad(-1) \times(-4)+(-2) \times(-5)+(-3) \times(-6) \end{array}\right] \\ &=\left[\begin{array}{cc} 32 & -32 \\ -32 & 32 \end{array}\right] \end{aligned} AB=[112233] 456456 =[1×4+2×5+3×6(1)×4+(2)×5+(3)×61×(4)+2×(5)+3×(6)(1)×(4)+(2)×(5)+(3)×(6)]=[32323232]
( 4 − 82 ) (4-82) (482)

与前面一样,同样使用A.dot(B)计算。

# 代码清单 4-3-(9)
A = np.array([[1, 2, 3], [-1, -2, -3]])
B = np.array([[4, -4], [5, -5], [6, -6]])
print(A.dot(B))

输出结果:

[[ 32 -32]
 [-32  32]]

在一般情况下,当A L × M L\times M L×M矩阵、B M × N M\times N M×N矩阵时,AB的大小为 L × N L\times N L×N。当A的列数与B的行数不等时,不能计算矩阵积。

矩阵积的元素 i 、 j i、j ij计算为:
[ A B ] i , j = ∑ m = 0 M − 1 a i , m b m , j (4-83) [\boldsymbol{A} \boldsymbol{B}]_{i, j}=\sum_{m=0}^{M-1} a_{i, m} b_{m, j} \tag{4-83} [AB]i,j=m=0M1ai,mbm,j(4-83)

行数和列数相等的矩阵叫作方阵。当AB均为方阵时,虽然我们可以计算出ABBA的值,但是在一般情况下AB=BA是不成立的,所以在矩阵的乘法运算中,顺序很重要。从这一点来说,矩阵积与即使改变顺序答案也不变的标量积不同。

4.6.5 单位矩阵

对角元素均为1、其他元素均为0的特殊方阵叫作单位矩阵,用I表示,如 3 × 3 3\times3 3×3的单位矩阵为:
I = [ 1 0 0 0 1 0 0 0 1 ] (4-84) \boldsymbol{I}=\left[\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \tag{4-84} \end{array}\right] I= 100010001 (4-84)

深度学习——第4.2章 深度学习的数学基础_第7张图片

图4-19 单位矩阵

在Python中,np.identity(n)用于生成 n × n n\times n n×n的单位矩阵),示例如下:

# 代码清单 4-3-(10)
print(np.identity(3))

输出结果:

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
print(np.eye(3))

输出结果:

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

各个元素之后有” ⋅ \cdot ”,这表示矩阵的元素可以是用于表示小数的float类型。

单位矩阵与标量“1”类似。任何数乘以1,结果都还是该数。单位矩阵也一样,任何矩阵(大小相同的方阵)与单位矩阵相乘,结果都不发生变化。比如,3×3矩阵与单位矩阵相乘:

[ 1 2 3 4 5 6 7 8 9 ] [ 1 0 0 0 1 0 0 0 1 ] = [ 1 + 0 + 0 0 + 2 + 0 0 + 0 + 3 4 + 0 + 0 0 + 5 + 0 0 + 0 + 6 7 + 0 + 0 0 + 8 + 0 0 + 0 + 9 ] = [ 1 2 3 4 5 6 7 8 9 ] \left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{array}\right]\left[\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right]=\left[\begin{array}{lll} 1+0+0 & 0+2+0 & 0+0+3 \\ 4+0+0 & 0+5+0 & 0+0+6 \\ 7+0+0 & 0+8+0 & 0+0+9 \end{array}\right]=\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{array}\right] 147258369 100010001 = 1+0+04+0+07+0+00+2+00+5+00+8+00+0+30+0+60+0+9 = 147258369
(4-85) \tag{4-85} (4-85)
计算代码如下:

# 代码清单 4-3-(11)
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
I = np.identity(3)
print(A.dot(I))

输出结果:

[[1. 2. 3.]
 [4. 5. 6.]
 [7. 8. 9.]]

这里介绍单位矩阵,其实是为了给接下来要介绍的逆矩阵做铺垫。

4.6.6 逆矩阵

如何对矩阵进行除法运算呢?对于标量,除以3的运算与乘以3的倒数 1 3 \frac{1}{3} 31是一样的。一个数的倒数是与其相乘可以得到1的数。 a a a的倒数为 1 a \frac{1}{a} a1,也可以表示为 a − 1 a^{-1} a1
a × a − 1 = 1 (4-86) a \times a^{-1}=1\tag{4-86} a×a1=1(4-86)

与之类似,矩阵也有与其对应的逆矩阵

深度学习——第4.2章 深度学习的数学基础_第8张图片

图4-20 逆矩阵

但是,只有行数和列数相等的方阵才具有逆矩阵。一个方阵A与其逆矩阵 A − 1 \boldsymbol A^{-1} A1相乘的结果为单位矩阵I

A A − 1 = A − 1 A = I (4-87) \boldsymbol A \boldsymbol A^{-1}=\boldsymbol A^{-1} \boldsymbol A=\boldsymbol I\tag{4-87} AA1=A1A=I(4-87)

在一般情况下,矩阵积的结果与顺序有关,但一个矩阵与其逆矩阵的积一定是单位矩阵,所以与顺序无关。

比如,当A为2×2方阵时,令 A = [ a b c d ] \boldsymbol A=\left[\begin{array}{ll} a & b \\ c & d \end{array}\right] A=[acbd],则A的逆矩阵为:

A − 1 = 1 a d − b c [ d − b − c a ] (4-88) \boldsymbol A^{-1}=\frac{1}{a d-b c}\left[\begin{array}{cc} d & -b \\ -c & a \tag{4-88} \end{array}\right] A1=adbc1[dcba](4-88)

如果 A = [ 1 2 3 4 ] \boldsymbol A=\left[\begin{array}{ll} 1 & 2 \\ 3 & 4 \end{array}\right] A=[1324],那么A的逆矩阵为:

A − 1 = 1 1 ⋅ 4 − 2 ⋅ 3 [ 4 − 2 − 3 1 ] = − 1 2 [ 4 − 2 − 3 1 ] = [ − 2 1 1.5 − 0.5 ] (4-89) \boldsymbol A^{-1}=\frac{1}{1 \cdot 4-2 \cdot 3}\left[\begin{array}{cc} 4 & -2 \\ -3 & 1 \end{array}\right]=-\frac{1}{2}\left[\begin{array}{cc} 4 & -2 \\ -3 & 1 \end{array}\right]=\left[\begin{array}{cc} -2 & 1 \\ 1.5 & -0.5 \tag{4-89} \end{array}\right] A1=14231[4321]=21[4321]=[21.510.5](4-89)

试着计算 A A − 1 \boldsymbol{AA}^{-1} AA1,可得到单位矩阵:

A A − 1 = [ 1 2 3 4 ] ⋅ − 1 2 [ 4 − 2 − 3 1 ] = − 1 2 [ − 2 0 0 − 2 ] = [ 1 0 0 1 ] (4-90) \boldsymbol{A} \boldsymbol{A}^{-1}=\left[\begin{array}{ll} 1 & 2 \\ 3 & 4 \end{array}\right] \cdot-\frac{1}{2}\left[\begin{array}{cc} 4 & -2 \\ -3 & 1 \end{array}\right]=-\frac{1}{2}\left[\begin{array}{cc} -2 & 0 \\ 0 & -2 \end{array}\right]=\left[\begin{array}{ll} 1 & 0 \\ 0 & 1 \tag{4-90} \end{array}\right] AA1=[1324]21[4321]=21[2002]=[1001](4-90)

在Python中,np.linalg.inv(A)用于求A的逆矩阵:

# 代码清单 4-3-(12)
A = np.array([[1, 2], [3, 4]])
invA = np.linalg.inv(A)
print(invA) 

输出结果:

[[-2.   1. ]
 [ 1.5 -0.5]]

如上所示,得到的结果与上面的式4-89的结果一样。

这里必须注意,也有一些方阵没有对应的逆矩阵。如果是2×2方阵,那么使得 a d − b c = 0 ad-bc=0 adbc=0的矩阵就不存在逆矩阵。因为这样的话,式4-88中分数的分母就是0。

比如矩阵 [ 2 − 2 − 1 1 ] \left[\begin{array}{cc} 2 & -2 \\ -1 & 1 \end{array}\right] [2121],由于 a d − b c = 0 ad-bc=0 adbc=0,所以它没有逆矩阵。

对于3×3和4×4等较大的矩阵,虽然也可以使用公式求逆矩阵,但是计算过程很复杂。因此,在机器学习中一般会借用库的力量,使用np.linalg.inv(A)求逆矩阵。

4.6.7 转置

将列向量转换为行向量、将行向量转换为列向量的转置运算,已在4.1节介绍。这个转置运算也可以扩展到矩阵中。

以下式为例说明一下:

A = [ 1 2 3 4 5 6 ] (4-91) \boldsymbol{A}=\left[\begin{array}{lll} 1 & 2 & 3 \\ 4 & 5 & 6\tag{4-91} \end{array}\right] A=[142536](4-91)

把矩阵A的行和列互换,即可得到A的转置 A T \boldsymbol A^T AT,结果为(图4-23):

A T = [ 1 4 2 5 3 6 ] (4-92) \boldsymbol{A}^{\mathrm{T}}=\left[\begin{array}{ll} 1 & 4 \\ 2 & 5 \\ 3 & 6\tag{4-92} \end{array}\right] AT= 123456 (4-92)

Python实现代码如下:

# 代码清单 4-3-(13)
A = np.array([[1, 2, 3], [4, 5, 6]])
print(A)
print(A.T)

扩展到一般情况,转置之后,矩阵下标的顺序会被替换:

[ A ] i j = [ A T ] j i (4-93) [\boldsymbol{A}]_{i j}=\left[\boldsymbol{A}^{\mathrm{T}}\right]_{j i}\tag{4-93} [A]ij=[AT]ji(4-93)

在对AB整体进行转置时,如下关系式成立:

( A B ) T = B T A T (4-94) (\boldsymbol{A} \boldsymbol{B})^{\mathrm{T}}=\boldsymbol{B}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}}\tag{4-94} (AB)T=BTAT(4-94)

转置之后矩阵积的顺序与转置前相反。以2×2矩阵为例,如下所示,可以证明式4-94成立:

( A B ) T = [ [ a 11 a 12 a 21 a 22 ] [ b 11 b 12 b 21 b 22 ] ] T = [ a 11 b 11 + a 12 b 21 a 21 b 11 + a 22 b 21 a 11 b 12 + a 12 b 22 a 21 b 12 + a 22 b 22 ] B T A T = [ b 11 b 21 b 12 b 22 ] [ a 11 a 21 a 12 a 22 ] = [ a 11 b 11 + a 12 b 21 a 21 b 11 + a 22 b 21 a 11 b 12 + a 12 b 22 a 21 b 12 + a 22 b 22 ] \begin{array}{l} (\boldsymbol{A B})^{\mathrm{T}}=\left[\left[\begin{array}{ll} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right]\left[\begin{array}{ll} b_{11} & b_{12} \\ b_{21} & b_{22} \end{array}\right]\right]^{\mathrm{T}}=\left[\begin{array}{ll} a_{11} b_{11}+a_{12} b_{21} & a_{21} b_{11}+a_{22} b_{21} \\ a_{11} b_{12}+a_{12} b_{22} & a_{21} b_{12}+a_{22} b_{22} \end{array}\right] \\ \boldsymbol{B}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}}=\left[\begin{array}{ll} b_{11} & b_{21} \\ b_{12} & b_{22} \end{array}\right]\left[\begin{array}{ll} a_{11} & a_{21} \\ a_{12} & a_{22} \end{array}\right]=\left[\begin{array}{ll} a_{11} b_{11}+a_{12} b_{21} & a_{21} b_{11}+a_{22} b_{21} \\ a_{11} b_{12}+a_{12} b_{22} & a_{21} b_{12}+a_{22} b_{22} \end{array}\right] \end{array} (AB)T=[[a11a21a12a22][b11b21b12b22]]T=[a11b11+a12b21a11b12+a12b22a21b11+a22b21a21b12+a22b22]BTAT=[b11b12b21b22][a11a12a21a22]=[a11b11+a12b21a11b12+a12b22a21b11+a22b21a21b12+a22b22]

使用式4-94可以简单推导出:

( A B C ) T = C T ( A B ) T = C T B T A T (4-95) (\boldsymbol{A} \boldsymbol{B} \boldsymbol{C})^{\mathrm{T}}=\boldsymbol{C}^{\mathrm{T}}(\boldsymbol{A} \boldsymbol{B})^{\mathrm{T}}=\boldsymbol{C}^{\mathrm{T}} \boldsymbol{B}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}}\tag{4-95} (ABC)T=CT(AB)T=CTBTAT(4-95)

这是把看作一个整体,先对与C进行转置,最后对AB进行转置。哪怕是三个矩阵的矩阵积,转置之后,矩阵下标的顺序也会被替换。

4.6.8 矩阵和联立方程式

借助矩阵,我们可以用一个式子表示大量的联立方程式,特别方便。到此为止的内容都是为使用矩阵做的铺垫,接下来,我们尝试用一个矩阵表示两个联立方程式,并使用矩阵运算求解答案。具体来说,这里以下面的联立方程式为例:

y = 2 x (4-96) y=2x \tag{4-96} y=2x(4-96)
y = − x + 3 (4-97) y=-x+3 \tag{4-97} y=x+3(4-97)

深度学习——第4.2章 深度学习的数学基础_第9张图片

图4-21 用矩阵表示法求解联立方程式

对于上面的联立方程式,把式4-96代入式4-97之后,可以简单地求出 x = 1 x=1 x=1 y = 2 y=2 y=2。这里特意通过矩阵的方式求解。首先,将式4-96和式4-97变形,得到:

2 x − y = 0 x + y = 3 (4-98) \begin{array}{l} 2 x-y=0\\ x+y=3 \tag{4-98} \end{array} 2xy=0x+y=3(4-98)

上式可以表示为矩阵:
[ 2 − 1 1 1 ] [ x y ] = [ 0 3 ] (4-99) \left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{l} 0 \\ 3 \end{array}\right]\tag{4-99} [2111][xy]=[03](4-99)

为什么可以这样表示呢?计算式4-99的左边之后,可知下式成立,即两个列向量相等:
[ 2 x − y x + y ] = [ 0 3 ] (4-100) \left[\begin{array}{l} 2 x-y \\ x+y \end{array}\right]=\left[\begin{array}{l} 0 \\ 3 \end{array}\right]\tag{4-100} [2xyx+y]=[03](4-100)

式子左边和右边的向量相等,即矩阵中的对应元素相等,所以式4-100与式4-98是一个意思。

接下来,要想求出 x x x y y y的值,需要把式4-99变形为:

[ x y ] = [ ? ? ] \left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{l} ? \\ ? \end{array}\right] [xy]=[??]

因此,首先让式4-99的两边乘以$
\left[\begin{array}{cc}
2 & -1 \
1 & 1
\end{array}\right]
$的逆矩阵:

[ 2 − 1 1 1 ] − 1 [ 2 − 1 1 1 ] [ x y ] = [ 2 − 1 1 1 ] − 1 [ 0 3 ] (4-101) \left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]^{-1}\left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]^{-1}\left[\begin{array}{l} 0 \\ 3 \end{array}\right]\tag{4-101} [2111]1[2111][xy]=[2111]1[03](4-101)

根据逆矩阵的性质可知,左边是一个单位矩阵:

[ 1 0 0 1 ] [ x y ] = [ 2 − 1 1 1 ] − 1 [ 0 3 ] (4-102) \left[\begin{array}{ll} 1 & 0 \\ 0 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]^{-1}\left[\begin{array}{l} 0 \\ 3 \end{array}\right]\tag{4-102} [1001][xy]=[2111]1[03](4-102)

已知单位矩阵乘以 [ x y ] T [x y]^{\mathrm{T}} [xy]T,结果不变,所以我们可以得到:

[ x y ] = [ 2 − 1 1 1 ] − 1 [ 0 3 ] \left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]^{-1}\left[\begin{array}{l} 0 \\ 3 \end{array}\right] [xy]=[2111]1[03]

通过公式4-88计算出如下所示的 [ 2 − 1 1 1 ] − 1 \left[\begin{array}{cc}2 & -1 \\ 1 & 1\end{array}\right]^{-1} [2111]1的结果:

[ 2 − 1 1 1 ] − 1 = 1 2 × 1 − ( − 1 ) × 1 [ 1 1 − 1 2 ] = 1 3 [ 1 1 − 1 2 ] \left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]^{-1}=\frac{1}{2 \times 1-(-1) \times 1}\left[\begin{array}{cc} 1 & 1 \\ -1 & 2 \end{array}\right]=\frac{1}{3}\left[\begin{array}{cc} 1 & 1 \\ -1 & 2 \end{array}\right] [2111]1=2×1(1)×11[1112]=31[1112]

然后得到:

[ x y ] = 1 3 [ 1 1 − 1 2 ] [ 0 3 ] = 1 3 [ 1 × 0 + 1 × 3 ( − 1 ) × 0 + 2 × 3 ] = [ 1 2 ] (4-103) \left[\begin{array}{l} x \\ y \end{array}\right]=\frac{1}{3}\left[\begin{array}{cc} 1 & 1 \\ -1 & 2 \end{array}\right]\left[\begin{array}{l} 0 \\ 3 \end{array}\right]=\frac{1}{3}\left[\begin{array}{l} 1 \times 0+1 \times 3 \\ (-1) \times 0+2 \times 3 \end{array}\right]=\left[\begin{array}{l} 1 \\ 2 \end{array}\right]\tag{4-103} [xy]=31[1112][03]=31[1×0+1×3(1)×0+2×3]=[12](4-103)

观察对应的元素可知,我们得到了正确的值,即 x = 1 x=1 x=1 y = 2 y=2 y=2

对方程式求解时也需要变形,求出“ x = ? x=? x=?”。从这一点来说,这种方法与求解方程式的过程是类似的。对于方程式 a x = b ax=b ax=b,我们会在等式的两边都乘以 a a a的倒数,将其变形为 x = b / a x=b/a x=b/a的形式。而矩阵是让等式两边都从左边乘以逆矩阵,将$\boldsymbol{A}x= \boldsymbol B 变形 变形 变形x=\boldsymbol{A}^{-1}\boldsymbol{B}$的形式。

对于只有两个变量的两个联立方程式,即使用普通方法求解也不算麻烦,但是当变量和式子增多时,比如有 D D D个式子,这种使用矩阵的方法就会起到不凡的作用。

4.6.9 矩阵和映射

我们可以通过图形解释向量的加法或减法,同样地,也可以通过图形解释矩阵运算。矩阵可以看作“把向量转换为另一个向量的规则”。此外,如果将向量解释为坐标,即空间内的某个点,那么矩阵就可以解释为“令某点向别的点移动的规则”。

像这样关于从组(向量或点)到组(向量或点)的对应关系的规则叫作映射,矩阵的映射是一种线性映射

比如,看一下上一节4-99矩阵方程式的左边,即式:

[ 2 − 1 1 1 ] [ x y ] \left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right] [2111][xy]

将上式展开之后,可得到下式:

[ 2 − 1 1 1 ] [ x y ] = [ 2 x − y x + y ] (4-104) \left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{l} 2 x-y \\ x+y \end{array}\right]\tag{4-104} [2111][xy]=[2xyx+y](4-104)

因此矩阵 [ 2 − 1 1 1 ] \left[\begin{array}{cc}2 & -1 \\ 1 & 1\end{array}\right] [2111]可以解释为一个令点 [ x y ] \left[\begin{array}{cc}x \\ y\end{array}\right] [xy]向点 [ 2 x − y x + y ] \left[\begin{array}{cc}2x-y \\ x+y\end{array}\right] [2xyx+y]向点移动的映射。

比如,把向量 [ 1 , 0 ] T [1,0]^T [1,0]T代入式4-104之后,可得到 [ 2 , 1 ] T [2,1]^T [2,1]T,所以可以说 [ 1 , 0 ] T [1,0]^T [1,0]T通过这个矩阵移动到点 [ 2 , 1 ] T [2,1]^T [2,1]T。同样,也可以说 [ 0 , 1 ] T [0,1]^T [0,1]T通过这个矩阵移动到 [ − 1 , − 1 ] T [-1,-1]^T [1,1]T,点 [ 1 , 2 ] T [1,2]^T [1,2]T通过这个矩阵移动到 [ 0 , 3 ] T [0,3]^T [0,3]T。像这样从各种点移动的情形如图4-22中的左图所示,形状为由内向外的旋涡状。

图4-22中的右图为 [ 2 − 1 1 1 ] \left[\begin{array}{cc}2 & -1 \\ 1 & 1\end{array}\right] [2111]的逆矩阵的映射,它是由外向内的旋涡状,与原矩阵的映射的移动方向刚好相反。

深度学习——第4.2章 深度学习的数学基础_第10张图片

图4-22 矩阵形式的向量的映射

这里,式4-99可以解释为这样一个问题:应用矩阵 [ 2 − 1 1 1 ] \left[\begin{array}{cc}2 & -1 \\ 1 & 1\end{array}\right] [2111]的映射规则被移动到 [ 0 3 ] \left[\begin{array}{cc}0 \\ 3\end{array}\right] [03]的是哪个点?

[ 2 − 1 1 1 ] [ x y ] = [ 0 3 ] \left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{l} 0 \\ 3 \end{array}\right] [2111][xy]=[03]

答案为:

[ x y ] = [ 2 − 1 1 1 ] − 1 [ 0 3 ] = [ 1 2 ] \left[\begin{array}{l} x \\ y \end{array}\right]=\left[\begin{array}{cc} 2 & -1 \\ 1 & 1 \end{array}\right]^{-1}\left[\begin{array}{l} 0 \\ 3 \end{array}\right]=\left[\begin{array}{l} 1 \\ 2 \end{array}\right] [xy]=[2111]1[03]=[12]

我们可以这样理解:通过逆矩阵把移动后的点 [ 0 3 ] \left[\begin{array}{cc}0 \\ 3\end{array}\right] [03]恢复到动前的位置可知,移动前的位置是点 [ 1 2 ] \left[\begin{array}{cc}1 \\ 2\end{array}\right] [12]

你可能感兴趣的:(深度学习,深度学习,人工智能,python,机器学习,numpy,神经网络,mllib)