深度学习基础 - 标量、向量、矩阵、张量

深度学习基础 - 标量、向量、矩阵、张量

邵盛松

公元前约350年前,古希腊著名学者亚里士多德 在研究力的时候发现,作用在物体同一点上的两个力,实际结果不是一个简单的加法,需要一个平行四边形法则来计算.

向量这个词是怎么来的

1 向量与矢量 没有差别,一个词的两个叫法

2 向量来自英文的vector,而英文的vector来自拉丁文的vehere,意思是“携带”,其含义隐含着将某物从此处带到彼处的意思。

3有过多种译法,譬如有向数、有向量、方向量等。现在物理学界称之为矢量,数学界称之为向量。

4 英国数学家哈密顿最早使用向量这个术语,他也是第一个用“向量(vector))表示有向线段的数学家。

行向量

中括号( box brackets) 与 小括号(parentheses) 通用
[ A 1 , A 2 , ⋯ A n ] \left[A_{1}, A_{2}, \cdots A_{n}\right] [A1,A2,An]

列向量
[ B 1 B 2 ⋮ B m ] \left[ \begin{array}{c}{B_{1}} \\ {B_{2}} \\ {\vdots} \\ {B_{m}}\end{array}\right] B1B2Bm

( 1 , 2 , 3 , 4 ) T = ( 1 2 3 4 ) (1,2,3,4)^{T}=\left( \begin{array}{l}{1} \\ {2} \\ {3} \\ {4}\end{array}\right) (1,2,3,4)T=1234

( 1 2 3 4 ) = ( 1 , 2 , 3 , 4 ) \left( \begin{array}{l}{1} \\ {2} \\ {3} \\ {4}\end{array}\right)=(1,2,3,4) 1234=(1,2,3,4)

向量的加法
( x 1 ⋮ x n ) + ( y 1 ⋮ y n ) = ( x 1 + y 1 ⋮ x n + y n ) \left( \begin{array}{c}{x_{1}} \\ {\vdots} \\ {x_{n}}\end{array}\right)+\left( \begin{array}{c}{y_{1}} \\ {\vdots} \\ {y_{n}}\end{array}\right)=\left( \begin{array}{c}{x_{1}+y_{1}} \\ {\vdots} \\ {x_{n}+y_{n}}\end{array}\right) x1xn+y1yn=x1+y1xn+yn

( 1 2 3 ) + ( 4 5 6 ) = ( 5 7 9 ) \left( \begin{array}{l}{1} \\ {2} \\ {3}\end{array}\right)+\left( \begin{array}{l}{4} \\ {5} \\ {6}\end{array}\right)=\left( \begin{array}{l}{5} \\ {7} \\ {9}\end{array}\right) 123+456=579

常数和向量的乘法
c ( x 1 ⋮ x n ) = ( c x 1 ⋮ c x n ) c \left( \begin{array}{c}{x_{1}} \\ {\vdots} \\ {x_{n}}\end{array}\right)=\left( \begin{array}{c}{c x_{1}} \\ {\vdots} \\ {c x_{n}}\end{array}\right) cx1xn=cx1cxn

3 ( 1 2 3 ) = ( 3 6 9 ) 3 \left( \begin{array}{l}{1} \\ {2} \\ {3}\end{array}\right)=\left( \begin{array}{l}{3} \\ {6} \\ {9}\end{array}\right) 3123=369

矩阵
矩阵这个词是怎么来的
 在我国的《九章算术》一书中已经有所描述,只是没有将它作为一个独立的概念加以研究,而仅用它解决实际问题,所以没能形成独立的矩阵理论。《九章算术》就是数学应用大全。

 1850年,英国数学家西尔维斯特 (SylveSter,1814 -1897)在研究方程的个数与未知量的个数不相同的线性方程组时,由于无法使用行列式,所以引入了矩阵的概念。看这里,一个问题解决不了就会引出一个新的词,就像导数与极限的关系,按照逻辑先有极限再有导数,历史次序正好相反。在逻辑上,矩阵的概念应先于行列式的概念,历史上他们出场的次序也是相反的。

 1855年,英国数学家凯莱 (Caylag,1821-1895)在研究线性变换下的不变量时,为了简洁、方便,引入了矩阵的概念。1858年,凯莱在《矩阵论的研究报告》中,定义了两个矩阵相等、相加以及数与矩阵的数乘等运算和算律,同时,定义了零矩阵、单位阵等特殊矩阵,更重要的是在该文中他给出了矩阵相乘、矩阵可逆等概念,以及利用伴随阵求逆阵的方法,证明了有关的算律,如矩阵乘法有结合律,没有交换律,两个非零阵乘积可以为零矩阵等结论,定义了转置阵、对称阵、反对称阵等概念。

 1878年,德国数学家弗罗伯纽斯 (Frobeniws,1849-917)在他的论文中引入了λ 矩阵的行列式因子、不变因子和初等因子等概念,证明了两个λ 矩阵等价当且仅当它们有相同的不变因子和初等因子,同时给出了正交矩阵的定义,1879年,他又在自己的论文中引进矩阵秩的概念.
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ) = ( a i j ) ∈ R m × n \mathbf{A}=\left[ \begin{array}{cccc}{a_{11}} & {a_{12}} & {\cdots} & {a_{1 n}} \\ {a_{21}} & {a_{22}} & {\cdots} & {a_{2 n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m 1}} & {a_{m 2}} & {\cdots} & {a_{m n}}\end{array}\right]=\left( \begin{array}{cccc}{a_{11}} & {a_{12}} & {\cdots} & {a_{1 n}} \\ {a_{21}} & {a_{22}} & {\cdots} & {a_{2 n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {a_{m 1}} & {a_{m 2}} & {\cdots} & {a_{m n}}\end{array}\right)=\left(a_{i j}\right) \in \mathbb{R}^{m \times n} A=a11a21am1a12a22am2a1na2namn=a11a21am1a12a22am2a1na2namn=(aij)Rm×n
一般线性方程组
{ a 11 x 1 + a 12 x 2 + ⋯ + a 1 n x n = b 1 a 21 x 1 + a 22 x 2 + ⋯ + a 2 n x n = b 2 … … … … … … … … … a m 1 x 1 + a m 2 x 2 + ⋯ + a m n x n = b m \left\{\begin{array}{c}{a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 n} x_{n}=b_{1}} \\ {a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 n} x_{n}=b_{2}} \\ {\ldots \ldots \ldots \ldots \ldots \ldots \ldots \ldots \ldots} \\ {a_{m 1} x_{1}+a_{m 2} x_{2}+\cdots+a_{m n} x_{n}=b_{m}}\end{array}\right. a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm
A x = b \mathbf{A x}=\mathbf{b} Ax=b
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n … … … … … a m 1 a m 2 ⋯ a m n ] x = [ x 1 x 2 ⋮ x n ] , b = [ b 1 b 2 ⋮ b m ] \mathbf{A}=\left[ \begin{array}{cccc}{a_{11}} & {a_{12}} & {\cdots} & {a_{1 n}} \\ {a_{21}} & {a_{22}} & {\cdots} & {a_{2 n}} \\ {\dots} & {\ldots \ldots} & {\ldots} & {\ldots} \\ {a_{m 1}} & {a_{m 2}} & {\cdots} & {a_{m n}}\end{array}\right] \mathbf{x}=\left[ \begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right], \mathbf{b}=\left[ \begin{array}{c}{b_{1}} \\ {b_{2}} \\ {\vdots} \\ {b_{m}}\end{array}\right] A=a11a21am1a12a22am2a1na2namnx=x1x2xn,b=b1b2bm

矩阵转置
A = ( 1 2 3 4 5 6 ) → A T = ( 1 4 2 5 3 6 ) A=\left( \begin{array}{lll}{1} & {2} & {3} \\ {4} & {5} & {6}\end{array}\right) \quad \rightarrow \quad A^{T}=\left( \begin{array}{ll}{1} & {4} \\ {2} & {5} \\ {3} & {6}\end{array}\right) A=(142536)AT=123456
矩阵转置性质
( A T ) T = A \left(A^{T}\right)^{T}=A (AT)T=A
( A B ) T = B T A T (A B)^{T}=B^{T} A^{T} (AB)T=BTAT

矩阵

A = [ − 1.3 0.6 20.4 5.5 9.7 − 6.2 ] \mathbf {A} ={\begin{bmatrix}-1.3&0.6\\20.4&5.5\\9.7&-6.2\end{bmatrix}} A=1.320.49.70.65.56.2

A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ) = ( a i j ) ∈ R m × n . {\displaystyle \mathbf {A} ={\begin{bmatrix}a_{11}&a_{12}&\cdots &a_{1n}\\a_{21}&a_{22}&\cdots &a_{2n}\\\vdots &\vdots &\ddots &\vdots \\a_{m1}&a_{m2}&\cdots &a_{mn}\end{bmatrix}}=\left({\begin{array}{rrrr}a_{11}&a_{12}&\cdots &a_{1n}\\a_{21}&a_{22}&\cdots &a_{2n}\\\vdots &\vdots &\ddots &\vdots \\a_{m1}&a_{m2}&\cdots &a_{mn}\end{array}}\right)=\left(a_{ij}\right)\in \mathbb {R} ^{m\times n}.} A=a11a21am1a12a22am2a1na2namn=a11a21am1a12a22am2a1na2namn=(aij)Rm×n.

单位矩阵(identity matrix, 有时候不确切的叫unit matrix)

I 1 = [ 1 ] ,   I 2 = [ 1 0 0 1 ] ,   I 3 = [ 1 0 0 0 1 0 0 0 1 ] ,   ⋯   ,   I n = [ 1 0 0 ⋯ 0 0 1 0 ⋯ 0 0 0 1 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ 0 0 0 ⋯ 1 ] I_{1}={\begin{bmatrix}1\end{bmatrix}},\ I_{2}={\begin{bmatrix}1&0\\0&1\end{bmatrix}},\ I_{3}={\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}},\ \cdots ,\ I_{n}={\begin{bmatrix}1&0&0&\cdots &0\\0&1&0&\cdots &0\\0&0&1&\cdots &0\\\vdots &\vdots &\vdots &\ddots &\vdots \\0&0&0&\cdots &1\end{bmatrix}} I1=[1], I2=[1001], I3=100010001, , In=1000010000100001

矩阵加法(Matrix addition)

A + B = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ] + [ b 11 b 12 ⋯ b 1 n b 21 b 22 ⋯ b 2 n ⋮ ⋮ ⋱ ⋮ b m 1 b m 2 ⋯ b m n ] = [ a 11 + b 11 a 12 + b 12 ⋯ a 1 n + b 1 n a 21 + b 21 a 22 + b 22 ⋯ a 2 n + b 2 n ⋮ ⋮ ⋱ ⋮ a m 1 + b m 1 a m 2 + b m 2 ⋯ a m n + b m n ]  ​ {\begin{aligned}{\mathbf {A}}+{\mathbf {B}}&={\begin{bmatrix}a_{{11}}&a_{{12}}&\cdots &a_{{1n}}\\a_{{21}}&a_{{22}} &\cdots &a_{{2n}}\\\vdots &\vdots &\ddots &\vdots \\a_{{m1}}&a_{{m2}}&\cdots &a_{{mn}}\\\end {bmatrix}}+{\begin{bmatrix}b_{{11}}&b_{{12}}&\cdots &b_{{1n}}\\b_{{21}}&b_{{22}}&\cdots &b_{{2n}}\\\vdots & \vdots &\ddots &\vdots \\b_{{m1}}&b_{{m2}}&\cdots &b_{{mn}}\\\end{bmatrix}}\\&={\begin{bmatrix}a_{{11}}+b_{{11}} &a_{{12}}+b_{{12}}&\cdots &a_{{1n}}+b_{{1n}}\\a_{{21}}+b_{{21}}&a_{{22}}+b_{{22}}&\cdots &a_{{2n}}+b_{{2n}}\\\vdots &\vdots &\ddots &\vdots \\a_{{m1}}+b_{{m1}}&a_{{m2}}+b_{{m2}}&\cdots &a_{{mn}}+b_{{mn}}\\\end{bmatrix}}\\\end{aligned}}\,\! A+B=a11a21am1a12a22am2a1na2namn+b11b21bm1b12b22bm2b1nb2nbmn=a11+b11a21+b21am1+bm1a12+b12a22+b22am2+bm2a1n+b1na2n+b2namn+bmn

矩阵乘法(Matrix multiplication)

1 Row vector 和 column vector相乘
A = ( a b c )   , B = ( x y z )   , \mathbf {A} ={\begin{pmatrix}a&b&c\end{pmatrix}}\,,\quad \mathbf {B} ={\begin{pmatrix}x\\y\\z\end{pmatrix}}\,, A=(abc),B=xyz,

A B = ( a b c ) ( x y z ) = a x + b y + c z   , \mathbf {AB} ={\begin{pmatrix}a&b&c\end{pmatrix}}{\begin{pmatrix}x\\y\\z\end{pmatrix}}=ax+by+cz\,, AB=(abc)xyz=ax+by+cz,

B A = ( x y z ) ( a b c ) = ( x a x b x c y a y b y c z a z b z c )   . \mathbf {BA} ={\begin{pmatrix}x\\y\\z\end{pmatrix}}{\begin{pmatrix}a&b&c\end{pmatrix}}={\begin{pmatrix}xa&xb&xc\\ya&yb&yc\\za&zb&zc\end{pmatrix}}\,. BA=xyz(abc)=xayazaxbybzbxcyczc.

2 Square matrix 和 column vector 相乘

A = ( a b c p q r u v w ) , B = ( x y z )   , \mathbf {A} ={\begin{pmatrix}a&b&c\\p&q&r\\u&v&w\end{pmatrix}},\quad \mathbf {B} ={\begin{pmatrix}x\\y\\z\end {pmatrix}}\,, A=apubqvcrw,B=xyz,

A B = ( a b c p q r u v w ) ( x y z ) = ( a x + b y + c z p x + q y + r z u x + v y + w z )   , \mathbf {AB} ={\begin{pmatrix}a&b&c\\p&q&r\\u&v&w\end{pmatrix}}{\begin{pmatrix}x\\y\\z\end{pmatrix}}={\begin{pmatrix}ax+by+cz\\px+qy+rz\\ux+vy+wz\end{pmatrix}}\,, AB=apubqvcrwxyz=ax+by+czpx+qy+rzux+vy+wz,

BA没有定义

3 square matrix和square matrix相乘
matrix的复数是metrices

A = ( a b c p q r u v w ) , B = ( α β γ λ μ ν ρ σ τ )   , \mathbf {A} ={\begin{pmatrix}a&b&c\\p&q&r\\u&v&w\end{pmatrix}},\quad \mathbf {B} ={\begin{pmatrix}\alpha &\beta &\gamma \\\lambda &\mu &\nu \\\rho &\sigma &\tau \\\end{pmatrix}}\,, A=apubqvcrw,B=αλρβμσγντ,

A B = ( a b c p q r u v w ) ( α β γ λ μ ν ρ σ τ ) = ( a α + b λ + c ρ a β + b μ + c σ a γ + b ν + c τ p α + q λ + r ρ p β + q μ + r σ p γ + q ν + r τ u α + v λ + w ρ u β + v μ + w σ u γ + v ν + w τ )   , \mathbf {AB} ={\begin{pmatrix}a&b&c\\p&q&r\\u&v&w\end{pmatrix}}{\begin{pmatrix}\alpha &\beta &\gamma \\\lambda &\mu &\nu \\\rho &\sigma &\tau \\\end{pmatrix}}={\begin{pmatrix}a\alpha +b\lambda +c\rho &a\beta +b\mu +c\sigma &a\gamma +b\nu +c\tau \\p\alpha +q\lambda +r\rho &p\beta +q\mu +r\sigma &p\gamma +q\nu +r\tau \\u\alpha +v\lambda +w\rho &u\beta +v\mu +w\sigma &u\gamma +v\nu +w\tau \end{pmatrix}}\,, AB=apubqvcrwαλρβμσγντ=aα+bλ+cρpα+qλ+rρuα+vλ+wρaβ+bμ+cσpβ+qμ+rσuβ+vμ+wσaγ+bν+cτpγ+qν+rτuγ+vν+wτ,

B A = ( α β γ λ μ ν ρ σ τ ) ( a b c p q r u v w ) = ( α a + β p + γ u α b + β q + γ v α c + β r + γ w λ a + μ p + ν u λ b + μ q + ν v λ c + μ r + ν w ρ a + σ p + τ u ρ b + σ q + τ v ; ρ c + σ r + τ w )   . \mathbf {BA} ={\begin{pmatrix}\alpha &\beta &\gamma \\\lambda &\mu &\nu \\\rho &\sigma &\tau \\\end{pmatrix}}{\begin{pmatrix}a&b&c\\p&q&r\\u&v&w\end{pmatrix}}={\begin{pmatrix}\alpha a+\beta p+\gamma u&\alpha b+\beta q+\gamma v&\alpha c+\beta r+\gamma w\\\lambda a+\mu p+\nu u&\lambda b+\mu q+\nu v&\lambda c+\mu r+\nu w\\\rho a+\sigma p+\tau u&\rho b+\sigma q+\tau v&;\rho c+\sigma r+\tau w\end{pmatrix}}\,. BA=αλρβμσγντapubqvcrw=αa+βp+γuλa+μp+νuρa+σp+τuαb+βq+γvλb+μq+νvρb+σq+τvαc+βr+γwλc+μr+νw;ρc+σr+τw.

对角矩阵 diagonal matrix
是一个主对角线之外的元素皆为0的矩阵。对角线上的元素可以为0或其他值
( a 0 0 0 b 0 0 0 c ) \left( \begin{array}{lll}{a} & {0} & {0} \\ {0} & {b} & {0} \\ {0} & {0} & {c}\end{array}\right) a000b000c

如果有n项这样表示
A = [ a 11 0 ⋯ 0 0 a 22 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ a n n ] A=\left[ \begin{array}{cccc}{a_{11}} & {0} & {\cdots} & {0} \\ {0} & {a_{22}} & {\cdots} & {0} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {0} & {0} & {\cdots} & {a_{n n}}\end{array}\right] A=a11000a22000ann
对角矩阵的逆(Inverse of Diagonal Matrix)
D = [ a 11 0 ⋯ 0 0 a 22 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ a n n ] \mathbf{D}=\left[ \begin{array}{cccc}{a_{11}} & {0} & {\cdots} & {0} \\ {0} & {a_{22}} & {\cdots} & {0} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {0} & {0} & {\cdots} & {a_{n n}}\end{array}\right] D=a11000a22000ann
D − 1 = [ 1 a 11 0 ⋯ 0 0 1 a 22 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 a n n ] \mathbf{D}^{-1}=\left[ \begin{array}{cccc}{\frac{1}{a_{11}}} & {0} & {\cdots} & {0} \\ {0} & {\frac{1}{a_{22}}} & {\cdots} & {0} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {0} & {0} & {\cdots} & {\frac{1}{a_{n n}}}\end{array}\right] D1=a111000a221000ann1

对称矩阵(symmetric matrix)
是一个方形矩阵,其转置矩阵和自身相等。
A = A T A=A^{\mathrm{T}} A=AT
a i j = a j i a_{i j}=a_{j i} aij=aji
A = ( a i j ) A=\left(a_{i j}\right) A=(aij)
3×3的对称矩阵
[ 1 2 3 2 4 − 5 3 − 5 6 ] \left[ \begin{array}{ccc}{1} & {2} & {3} \\ {2} & {4} & {-5} \\ {3} & {-5} & {6}\end{array}\right] 123245356

斜对称矩阵(skew-symmetric matrix)
其他名字 ,反对称矩阵(antisymmetric matrix):
反对称矩阵(或称斜对称矩阵)是一个方形矩阵,其转置矩阵和自身的加法逆元相等
A ⊤ = − A A^{\top}=-A A=A

[ 0 2 − 1 − 2 0 − 4 1 4 0 ] \left[ \begin{array}{ccc}{0} & {2} & {-1} \\ {-2} & {0} & {-4} \\ {1} & {4} & {0}\end{array}\right] 021204140
加法逆元的解释
对于一个任意数n,存在加法逆元(Additive Inverse,又称相反数),其与n的和为零(加法单位元)。n的加法逆元表示为-n。

在实数范围内,一个数x的相反数-x,被称为其加法逆元;相对地,一个数x的倒数1/x,则被称为其乘法逆元。

在线性代数中, n n n阶单位矩阵,是一个 n × n n\times n n×n的方形矩阵,其主对角线元素为1,其余元素为0。单位矩阵以 I n I_n In表示;如果阶数可忽略,或可由前后文确定的话,也可简记为 I(或者E)。(在部分领域中,如量子力学,单位矩阵是以粗体字的1表示,否则无法与 I作区别。)

I 1 = [ 1 ] , I 2 = [ 1 0 0 1 ] , I 3 = [ 1 0 0 0 1 0 0 0 1 ] , ⋯   , I n = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] I_{1}=[1], I_{2}=\left[ \begin{array}{cc}{1} & {0} \\ {0} & {1}\end{array}\right], I_{3}=\left[ \begin{array}{ccc}{1} & {0} & {0} \\ {0} & {1} & {0} \\ {0} & {0} & {1}\end{array}\right], \cdots, I_{n}=\left[ \begin{array}{cccc}{1} & {0} & {\cdots} & {0} \\ {0} & {1} & {\cdots} & {0} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {0} & {0} & {\cdots} & {1}\end{array}\right] I1=[1],I2=[1001],I3=100010001,,In=100010001

参考资料
《绕来绕去的向量法》- 作者:张景中 彭翕成

你可能感兴趣的:(深度学习基础)