动手学深度学习 - Dive into Deep Learning
Aston Zhang, Zachary C. Lipton, Mu Li, and Alexander J. Smola
https://zh.d2l.ai/
本书中的向量指的是列向量。一个 n n n 维向量 x \boldsymbol{x} x 的表达式可写成
x = [ x 1 x 2 ⋮ x n ] , \boldsymbol{x} = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix}, x=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤,
其中 x 1 , … , x n x_1, \ldots, x_n x1,…,xn 是向量的元素。我们将各元素均为实数的 n n n 维向量 x \boldsymbol{x} x 记作 x ∈ R n \boldsymbol{x} \in \mathbb{R}^{n} x∈Rn 或 x ∈ R n × 1 \boldsymbol{x} \in \mathbb{R}^{n \times 1} x∈Rn×1。
一个 m m m 行 n n n 列矩阵的表达式可写成
X = [ x 11 x 12 … x 1 n x 21 x 22 … x 2 n ⋮ ⋮ ⋱ ⋮ x m 1 x m 2 … x m n ] , \boldsymbol{X} = \begin{bmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{bmatrix}, X=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2……⋱…x1nx2n⋮xmn⎦⎥⎥⎥⎤,
其中 x i j x_{ij} xij 是矩阵 X \boldsymbol{X} X 中第 i i i 行第 j j j 列的元素 ( 1 ≤ i ≤ m , 1 ≤ j ≤ n 1 \leq i \leq m, 1 \leq j \leq n 1≤i≤m,1≤j≤n)。我们将各元素均为实数的 m m m 行 n n n 列矩阵 X \boldsymbol{X} X 记作 X ∈ R m × n \boldsymbol{X} \in \mathbb{R}^{m \times n} X∈Rm×n。向量是特殊的矩阵。
设 n n n 维向量 a \boldsymbol{a} a 中的元素为 a 1 , … , a n a_1, \ldots, a_n a1,…,an, n n n 维向量 b \boldsymbol{b} b 中的元素为 b 1 , … , b n b_1, \ldots, b_n b1,…,bn。向量 a \boldsymbol{a} a 与 b \boldsymbol{b} b 的点乘 (内积) 是一个标量:
a ⋅ b = a 1 b 1 + … + a n b n . \boldsymbol{a} \cdot \boldsymbol{b} = a_1 b_1 + \ldots + a_n b_n. a⋅b=a1b1+…+anbn.
设两个 m m m 行 n n n 列矩阵
A = [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 … a m n ] , B = [ b 11 b 12 … b 1 n b 21 b 22 … b 2 n ⋮ ⋮ ⋱ ⋮ b m 1 b m 2 … b m n ] . \boldsymbol{A} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix},\quad \boldsymbol{B} = \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \dots & b_{mn} \end{bmatrix}. A=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2……⋱…a1na2n⋮amn⎦⎥⎥⎥⎤,B=⎣⎢⎢⎢⎡b11b21⋮bm1b12b22⋮bm2……⋱…b1nb2n⋮bmn⎦⎥⎥⎥⎤.
矩阵 A \boldsymbol{A} A 的转置是一个 n n n 行 m m m 列矩阵,它的每一行其实是原矩阵的每一列:
A ⊤ = [ a 11 a 21 … a m 1 a 12 a 22 … a m 2 ⋮ ⋮ ⋱ ⋮ a 1 n a 2 n … a m n ] . \boldsymbol{A}^\top = \begin{bmatrix} a_{11} & a_{21} & \dots & a_{m1} \\ a_{12} & a_{22} & \dots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \dots & a_{mn} \end{bmatrix}. A⊤=⎣⎢⎢⎢⎡a11a12⋮a1na21a22⋮a2n……⋱…am1am2⋮amn⎦⎥⎥⎥⎤.
两个相同形状的矩阵的加法是将两个矩阵按元素做加法:
A + B = [ a 11 + b 11 a 12 + b 12 … a 1 n + b 1 n a 21 + b 21 a 22 + b 22 … a 2 n + b 2 n ⋮ ⋮ ⋱ ⋮ a m 1 + b m 1 a m 2 + b m 2 … a m n + b m n ] . \boldsymbol{A} + \boldsymbol{B} = \begin{bmatrix} a_{11} + b_{11} & a_{12} + b_{12} & \dots & a_{1n} + b_{1n} \\ a_{21} + b_{21} & a_{22} + b_{22} & \dots & a_{2n} + b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} + b_{m1} & a_{m2} + b_{m2} & \dots & a_{mn} + b_{mn} \end{bmatrix}. A+B=⎣⎢⎢⎢⎡a11+b11a21+b21⋮am1+bm1a12+b12a22+b22⋮am2+bm2……⋱…a1n+b1na2n+b2n⋮amn+bmn⎦⎥⎥⎥⎤.
我们使用符号 ⊙ \odot ⊙ 表示两个矩阵按元素做乘法的运算:
A ⊙ B = [ a 11 b 11 a 12 b 12 … a 1 n b 1 n a 21 b 21 a 22 b 22 … a 2 n b 2 n ⋮ ⋮ ⋱ ⋮ a m 1 b m 1 a m 2 b m 2 … a m n b m n ] . \boldsymbol{A} \odot \boldsymbol{B} = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \dots & a_{1n} b_{1n} \\ a_{21} b_{21} & a_{22} b_{22} & \dots & a_{2n} b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} b_{m1} & a_{m2} b_{m2} & \dots & a_{mn} b_{mn} \end{bmatrix}. A⊙B=⎣⎢⎢⎢⎡a11b11a21b21⋮am1bm1a12b12a22b22⋮am2bm2……⋱…a1nb1na2nb2n⋮amnbmn⎦⎥⎥⎥⎤.
定义一个标量 k k k。标量与矩阵的乘法也是按元素做乘法的运算:
k A = [ k a 11 k a 12 … k a 1 n k a 21 k a 22 … k a 2 n ⋮ ⋮ ⋱ ⋮ k a m 1 k a m 2 … k a m n ] . k\boldsymbol{A} = \begin{bmatrix} ka_{11} & ka_{12} & \dots & ka_{1n} \\ ka_{21} & ka_{22} & \dots & ka_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ ka_{m1} & ka_{m2} & \dots & ka_{mn} \end{bmatrix}. kA=⎣⎢⎢⎢⎡ka11ka21⋮kam1ka12ka22⋮kam2……⋱…ka1nka2n⋮kamn⎦⎥⎥⎥⎤.
其他标量与矩阵按元素相加、相除等运算与上式中的相乘运算类似。矩阵按元素开根号、取对数等运算也就是对矩阵每个元素开根号、取对数等,并得到和原矩阵形状相同的矩阵。
矩阵乘法和按元素的乘法不同。设 A \boldsymbol{A} A 为 m m m 行 p p p 列的矩阵, B \boldsymbol{B} B 为 p p p 行 n n n 列的矩阵。两个矩阵相乘的结果
A B = [ a 11 a 12 … a 1 p a 21 a 22 … a 2 p ⋮ ⋮ ⋱ ⋮ a i 1 a i 2 … a i p ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 … a m p ] [ b 11 b 12 … b 1 j … b 1 n b 21 b 22 … b 2 j … b 2 n ⋮ ⋮ ⋱ ⋮ ⋱ ⋮ b p 1 b p 2 … b p j … b p n ] \boldsymbol{A} \boldsymbol{B} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1p} \\ a_{21} & a_{22} & \dots & a_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ a_{i1} & a_{i2} & \dots & a_{ip} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mp} \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1j} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2j} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots & \ddots & \vdots \\ b_{p1} & b_{p2} & \dots & b_{pj} & \dots & b_{pn} \end{bmatrix} AB=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡a11a21⋮ai1⋮am1a12a22⋮ai2⋮am2……⋱…⋱…a1pa2p⋮aip⋮amp⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎡b11b21⋮bp1b12b22⋮bp2……⋱…b1jb2j⋮bpj……⋱…b1nb2n⋮bpn⎦⎥⎥⎥⎤
是一个 m m m 行 n n n 列的矩阵,其中第 i i i 行第 j j j 列 ( 1 ≤ i ≤ m , 1 ≤ j ≤ n 1 \leq i \leq m, 1 \leq j \leq n 1≤i≤m,1≤j≤n) 的元素为
a i 1 b 1 j + a i 2 b 2 j + … + a i p b p j = ∑ k = 1 p a i k b k j . a_{i1}b_{1j} + a_{i2}b_{2j} + \ldots + a_{ip}b_{pj} = \sum_{k=1}^p a_{ik}b_{kj}. ai1b1j+ai2b2j+…+aipbpj=k=1∑paikbkj.
设 n n n 维向量 x \boldsymbol{x} x 中的元素为 x 1 , … , x n x_1, \ldots, x_n x1,…,xn。向量 x \boldsymbol{x} x 的 L p L_p Lp 范数为
∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 / p . \|\boldsymbol{x}\|_p = \left(\sum_{i=1}^n \left|x_i \right|^p \right)^{1/p}. ∥x∥p=(i=1∑n∣xi∣p)1/p.
例如, x \boldsymbol{x} x 的 L 1 L_1 L1 范数是该向量元素绝对值之和:
∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ . \|\boldsymbol{x}\|_1 = \sum_{i=1}^n \left|x_i \right|. ∥x∥1=i=1∑n∣xi∣.
而 x \boldsymbol{x} x 的 L 2 L_2 L2 范数是该向量元素平方和的平方根:
∥ x ∥ 2 = ∑ i = 1 n x i 2 . \|\boldsymbol{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}. ∥x∥2=i=1∑nxi2.
我们通常用 ∥ x ∥ \|\boldsymbol{x}\| ∥x∥ 指代 ∥ x ∥ 2 \|\boldsymbol{x}\|_2 ∥x∥2。
设 X \boldsymbol{X} X 是一个 m m m 行 n n n 列矩阵。矩阵 X \boldsymbol{X} X 的 Frobenius 范数为该矩阵元素平方和的平方根:
∥ X ∥ F = ∑ i = 1 m ∑ j = 1 n x i j 2 , \|\boldsymbol{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}, ∥X∥F=i=1∑mj=1∑nxij2,
其中 x i j x_{ij} xij 为矩阵 X \boldsymbol{X} X 在第 i i i 行第 j j j 列的元素。
Frobenius 范数 (Euclid 范数,F-范数或者 E-范数):(A 全部元素平方和的平方根)。
对于一个 n n n 行 n n n 列的矩阵 A \boldsymbol{A} A,假设有标量 λ \lambda λ 和非零的 n n n 维向量 v \boldsymbol{v} v 使
A v = λ v , \boldsymbol{A} \boldsymbol{v} = \lambda \boldsymbol{v}, Av=λv,
那么 v \boldsymbol{v} v 是矩阵 A \boldsymbol{A} A 的一个特征向量,标量 λ \lambda λ 是 v \boldsymbol{v} v 对应的特征值。
假设函数 f : R → R f: \mathbb{R} \rightarrow \mathbb{R} f:R→R 的输入和输出都是标量。函数 f f f 的导数
f ′ ( x ) = lim h → 0 f ( x + h ) − f ( x ) h , f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h}, f′(x)=h→0limhf(x+h)−f(x),
且假定该极限存在。给定 y = f ( x ) y = f(x) y=f(x),其中 x x x 和 y y y 分别是函数 f f f 的自变量和因变量。以下有关导数和微分的表达式等价:
f ′ ( x ) = y ′ = d y d x = d f d x = d d x f ( x ) = D f ( x ) = D x f ( x ) , f'(x) = y' = \frac{\text{d}y}{\text{d}x} = \frac{\text{d}f}{\text{d}x} = \frac{\text{d}}{\text{d}x} f(x) = \text{D}f(x) = \text{D}_x f(x), f′(x)=y′=dxdy=dxdf=dxdf(x)=Df(x)=Dxf(x),
其中符号 D \text{D} D 和 d / d x \text{d}/\text{d}x d/dx 也叫微分运算符。
常见的微分演算有 D C = 0 \text{D}C = 0 DC=0 ( C C C 为常数)、 D x n = n x n − 1 \text{D}x^n = nx^{n-1} Dxn=nxn−1( n n n 为常数)、 D e x = e x \text{D}e^x = e^x Dex=ex、 D ln ( x ) = 1 / x \text{D}\ln(x) = 1/x Dln(x)=1/x 等。
如果函数 f f f 和 g g g 都可导,设 C C C 为常数,那么
d d x [ C f ( x ) ] = C d d x f ( x ) , d d x [ f ( x ) + g ( x ) ] = d d x f ( x ) + d d x g ( x ) , d d x [ f ( x ) g ( x ) ] = f ( x ) d d x [ g ( x ) ] + g ( x ) d d x [ f ( x ) ] , d d x [ f ( x ) g ( x ) ] = g ( x ) d d x [ f ( x ) ] − f ( x ) d d x [ g ( x ) ] [ g ( x ) ] 2 . \begin{aligned} \frac{\text{d}}{\text{d}x} [Cf(x)] &= C \frac{\text{d}}{\text{d}x} f(x),\\ \frac{\text{d}}{\text{d}x} [f(x) + g(x)] &= \frac{\text{d}}{\text{d}x} f(x) + \frac{\text{d}}{\text{d}x} g(x),\\ \frac{\text{d}}{\text{d}x} [f(x)g(x)] &= f(x) \frac{\text{d}}{\text{d}x} [g(x)] + g(x) \frac{\text{d}}{\text{d}x} [f(x)],\\ \frac{\text{d}}{\text{d}x} \left[\frac{f(x)}{g(x)}\right] &= \frac{g(x) \frac{\text{d}}{\text{d}x} [f(x)] - f(x) \frac{\text{d}}{\text{d}x} [g(x)]}{[g(x)]^2}. \end{aligned} dxd[Cf(x)]dxd[f(x)+g(x)]dxd[f(x)g(x)]dxd[g(x)f(x)]=Cdxdf(x),=dxdf(x)+dxdg(x),=f(x)dxd[g(x)]+g(x)dxd[f(x)],=[g(x)]2g(x)dxd[f(x)]−f(x)dxd[g(x)].
如果 y = f ( u ) y=f(u) y=f(u) 和 u = g ( x ) u=g(x) u=g(x) 都是可导函数,依据链式法则,
d y d x = d y d u d u d x . \frac{\text{d}y}{\text{d}x} = \frac{\text{d}y}{\text{d}u} \frac{\text{d}u}{\text{d}x}. dxdy=dudydxdu.
自然对数 (natural logarithm) 为以数学常数 e e e 为底数的对数函数,标记作 ln x \ln x lnx 或 log e x \log_{e}x logex,其反函数为指数函数 e x e^{x} ex。
自然对数的导数:
d d x ln ( x ) = 1 x . \frac{d}{dx} \ln(x) = \frac{1}{x}. dxdln(x)=x1.
d d x ln ( x ) = d d x ∫ 1 x 1 t d t = 1 x {\frac {d}{dx}}\ln(x) = {\frac {d}{dx}}\int_{1}^{x}{\frac {1}{t}}\,dt = {\frac {1}{x}} dxdln(x)=dxd∫1xt1dt=x1
properties:
ln 1 = 0 , ln e = 1 , ln ( x y ) = ln x + ln y for x > 0 and y > 0 , ln ( x y ) = y ln x for x > 0 , ln x < ln y for 0 < x < y . \begin{aligned} & {\ln 1=0},\\ & {\ln e=1},\\ & {\ln(xy)=\ln x+\ln y\quad {\text{for }}\;x>0\;{\text{and }}\;y>0},\\ & {\ln(x^{y})=y\ln x\quad {\text{for }}\;x>0}, \\ & {\ln x<\ln y\quad {\text{for }}\;0
函数 f f f 的泰勒展开式是
f ( x ) = ∑ n = 0 ∞ f ( n ) ( a ) n ! ( x − a ) n , f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x-a)^n, f(x)=n=0∑∞n!f(n)(a)(x−a)n,
其中 f ( n ) f^{(n)} f(n) 为函数 f f f 的 n n n 阶导数 (求 n n n 次导数), n ! n! n! 为 n n n 的阶乘。假设 ϵ \epsilon ϵ 是一个足够小的数,如果将上式中 x x x 和 a a a 分别替换成 x + ϵ x+\epsilon x+ϵ 和 x x x,可以得到
f ( x + ϵ ) = ∑ n = 0 ∞ f ( n ) ( x ) n ! ( x + ϵ − x ) n = ∑ n = 0 ∞ f ( n ) ( x ) n ! ( ϵ ) n , \begin{aligned} f(x + \epsilon) & = \sum_{n=0}^\infty \frac{f^{(n)}(x)}{n!} (x + \epsilon - x)^n \\ & = \sum_{n=0}^\infty \frac{f^{(n)}(x)}{n!} (\epsilon)^n, \end{aligned} f(x+ϵ)=n=0∑∞n!f(n)(x)(x+ϵ−x)n=n=0∑∞n!f(n)(x)(ϵ)n,
f ( x + ϵ ) ≈ f ( x ) + f ′ ( x ) ϵ + O ( ϵ 2 ) . f(x + \epsilon) \approx f(x) + f'(x) \epsilon + \mathcal{O}(\epsilon^2). f(x+ϵ)≈f(x)+f′(x)ϵ+O(ϵ2).
由于 ϵ \epsilon ϵ 足够小,上式也可以简化成
f ( x + ϵ ) ≈ f ( x ) + f ′ ( x ) ϵ . f(x + \epsilon) \approx f(x) + f'(x) \epsilon. f(x+ϵ)≈f(x)+f′(x)ϵ.
设 u u u 为一个有 n n n 个自变量的函数, u = f ( x 1 , x 2 , … , x n ) u = f(x_1, x_2, \ldots, x_n) u=f(x1,x2,…,xn),它有关第 i i i 个变量 x i x_i xi 的偏导数为
∂ u ∂ x i = lim h → 0 f ( x 1 , … , x i − 1 , x i + h , x i + 1 , … , x n ) − f ( x 1 , … , x i , … , x n ) h . \frac{\partial u}{\partial x_i} = \lim_{h \rightarrow 0} \frac{f(x_1, \ldots, x_{i-1}, x_i+h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}. ∂xi∂u=h→0limhf(x1,…,xi−1,xi+h,xi+1,…,xn)−f(x1,…,xi,…,xn).
以下有关偏导数的表达式等价:
∂ u ∂ x i = ∂ f ∂ x i = f x i = f i = D i f = D x i f . \frac{\partial u}{\partial x_i} = \frac{\partial f}{\partial x_i} = f_{x_i} = f_i = \text{D}_i f = \text{D}_{x_i} f. ∂xi∂u=∂xi∂f=fxi=fi=Dif=Dxif.
为了计算 ∂ u / ∂ x i \partial u/\partial x_i ∂u/∂xi,只需将 x 1 , … , x i − 1 , x i + 1 , … , x n x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n x1,…,xi−1,xi+1,…,xn 视为常数并求 u u u 有关 x i x_i xi 的导数。
假设函数 f : R n → R f: \mathbb{R}^n \rightarrow \mathbb{R} f:Rn→R 的输入是一个 n n n 维向量 x = [ x 1 , x 2 , … , x n ] ⊤ \boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top x=[x1,x2,…,xn]⊤,输出是标量。函数 f ( x ) f(\boldsymbol{x}) f(x) 有关 x \boldsymbol{x} x 的梯度是一个由 n n n 个偏导数组成的向量:
∇ x f ( x ) = [ ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , … , ∂ f ( x ) ∂ x n ] ⊤ . \nabla_{\boldsymbol{x}} f(\boldsymbol{x}) = \bigg[\frac{\partial f(\boldsymbol{x})}{\partial x_1}, \frac{\partial f(\boldsymbol{x})}{\partial x_2}, \ldots, \frac{\partial f(\boldsymbol{x})}{\partial x_n}\bigg]^\top. ∇xf(x)=[∂x1∂f(x),∂x2∂f(x),…,∂xn∂f(x)]⊤.
为表示简洁,我们有时用 ∇ f ( x ) \nabla f(\boldsymbol{x}) ∇f(x) 代替 ∇ x f ( x ) \nabla_{\boldsymbol{x}} f(\boldsymbol{x}) ∇xf(x)。
假设 x \boldsymbol{x} x 是一个向量,常见的梯度演算包括
∇ x A ⊤ x = A , ∇ x x ⊤ A = A , ∇ x x ⊤ A x = ( A + A ⊤ ) x , ∇ x ∥ x ∥ 2 = ∇ x x ⊤ x = 2 x . \begin{aligned} \nabla_{\boldsymbol{x}} \boldsymbol{A}^\top \boldsymbol{x} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} &= \boldsymbol{A}, \\ \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} &= (\boldsymbol{A} + \boldsymbol{A}^\top)\boldsymbol{x},\\ \nabla_{\boldsymbol{x}} \|\boldsymbol{x} \|^2 &= \nabla_{\boldsymbol{x}} \boldsymbol{x}^\top \boldsymbol{x} = 2\boldsymbol{x}. \end{aligned} ∇xA⊤x∇xx⊤A∇xx⊤Ax∇x∥x∥2=A,=A,=(A+A⊤)x,=∇xx⊤x=2x.
类似地,假设 X \boldsymbol{X} X 是一个矩阵,那么
∇ X ∥ X ∥ F 2 = 2 X . \nabla_{\boldsymbol{X}} \|\boldsymbol{X} \|_F^2 = 2\boldsymbol{X}. ∇X∥X∥F2=2X.
假设函数 f : R n → R f: \mathbb{R}^n \rightarrow \mathbb{R} f:Rn→R 的输入是一个 n n n 维向量 x = [ x 1 , x 2 , … , x n ] ⊤ \boldsymbol{x} = [x_1, x_2, \ldots, x_n]^\top x=[x1,x2,…,xn]⊤,输出是标量。假定函数 f f f 所有的二阶偏导数都存在, f f f 的海森矩阵 H \boldsymbol{H} H 是一个 n n n 行 n n n 列的矩阵:
H = [ ∂ 2 f ∂ x 1 2 ∂ 2 f ∂ x 1 ∂ x 2 … ∂ 2 f ∂ x 1 ∂ x n ∂ 2 f ∂ x 2 ∂ x 1 ∂ 2 f ∂ x 2 2 … ∂ 2 f ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ∂ x n ∂ x 1 ∂ 2 f ∂ x n ∂ x 2 … ∂ 2 f ∂ x n 2 ] , \boldsymbol{H} = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \dots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \dots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}, H=⎣⎢⎢⎢⎢⎢⎡∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f……⋱…∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f⎦⎥⎥⎥⎥⎥⎤,
其中二阶偏导数
∂ 2 f ∂ x i ∂ x j = ∂ ∂ x j ( ∂ f ∂ x i ) . \frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial }{\partial x_j} \left(\frac{\partial f}{ \partial x_i}\right). ∂xi∂xj∂2f=∂xj∂(∂xi∂f).
假设事件 A A A 和事件 B B B 的概率分别为 P ( A ) P(A) P(A) 和 P ( B ) P(B) P(B),两个事件同时发生的概率记作 P ( A ∩ B ) P(A \cap B) P(A∩B) 或 P ( A , B ) P(A, B) P(A,B)。给定事件 B B B,事件 A A A 的条件概率
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) . P(A \mid B) = \frac{P(A \cap B)}{P(B)}. P(A∣B)=P(B)P(A∩B).
也就是说,
P ( A ∩ B ) = P ( B ) P ( A ∣ B ) = P ( A ) P ( B ∣ A ) . P(A \cap B) = P(B) P(A \mid B) = P(A) P(B \mid A). P(A∩B)=P(B)P(A∣B)=P(A)P(B∣A).
当满足
P ( A ∩ B ) = P ( A ) P ( B ) P(A \cap B) = P(A) P(B) P(A∩B)=P(A)P(B)
时,事件 A A A 和事件 B B B 相互独立。
离散的随机变量 X X X 的期望 (或平均值) 为
E ( X ) = ∑ x x P ( X = x ) . E(X) = \sum_{x} x P(X = x). E(X)=x∑xP(X=x).
假设随机变量 X X X 服从 [ a , b ] [a, b] [a,b] 上的均匀分布,即 X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b)。随机变量 X X X 取 a a a 和 b b b 之间任意一个数的概率相等。