深度学习(花书)数学符号

数学符号

  • 数和数组
  • 集合和图
  • 索引
  • 线性代数中的操作
  • 微积分
  • 概率和信息论
  • 函数
  • 数据集合分布

数和数组

符号 含义
a a a 标量(整数或实数)
a \boldsymbol{a} a 向量
A \boldsymbol{\textit {A}} A 矩阵
A \boldsymbol{\mathrm{A}} A 张量
I n \boldsymbol{I}_n In n行n列的单位矩阵
I \boldsymbol{I} I 维度蕴含于上下文的单位矩阵
e ( i ) \boldsymbol{e}^{(i)} e(i) 标准基向量 [ 0 , … , 0 , 1 , 0 , … , 0 ] [0, \dots, 0, 1, 0, \dots,0] [0,,0,1,0,,0],其中索引I处值为1
d i a g ( a ) diag(\boldsymbol{a}) diag(a) 对角方阵,其中对角元素有 a \bold{a} a给定
a \mathrm{a} a 标量随机变量
a \boldsymbol{\mathrm{a}} a 向量随机变量
A A A 矩阵随机变量

集合和图

符号 含义
A \mathbb{A} A 集合
R \mathbb{R} R 实数集
{ 0 , 1 } \{0, 1\} {0,1} 包含0和1的集合
{ 0 , 1 , … , n } \{0, 1, \dots, n\} {0,1,,n} 包含0和n之间所有整数的集合
[ a , b ] [a, b] [a,b] 包含a和b的实数区间
( a , b ] (a, b] (a,b] 不包含a但包含b的实数区间
A ∖ B \mathbb{A}\setminus\mathbb{B} AB 差集,即其元素包含于 A \mathbb{A} A但不包含于 B \mathbb{B} B
G \mathcal{G} G
P a G ( x i ) Pa_\mathcal{G}(x_i) PaG(xi) G \mathcal{G} G x i x_i xi的父节点

索引

符号 含义
a i a_i ai 向量 a \bold{a} a的第 i i i个元素,其中索引从1开始
a − i a_{-i} ai 除了第 i i i个元素,向量 a \bold{a} a的所有元素
A i , j \boldsymbol{A}_{i,j} Ai,j 矩阵 A \boldsymbol{A} A i , j i,j i,j元素
A i , : \boldsymbol{A}_{i,:} Ai,: 矩阵 A \boldsymbol{A} A的第 i i i
A : , i \boldsymbol{A}_{:,i} A:,i 矩阵 A \boldsymbol{A} A的第 i i i
A i , j , k \boldsymbol{A}_{i,j,k} Ai,j,k 3维张量 A \boldsymbol{A} A的第 ( i , j , k ) (i,j,k) (i,j,k)元素
A : , : , k \boldsymbol{A}_{:,:,k} A:,:,k 3维张量 A \boldsymbol{A} A的2维切片
a \mathrm{a} a 随机向量 a \mathrm{a} a的第 i i i个元素,其中索引从1开始

线性代数中的操作

符号 含义
A ⊤ \boldsymbol{A}^{\top} A 矩阵 A \boldsymbol{A} A的转置
A + \boldsymbol{A}^+ A+ A \boldsymbol{A} A的Moore-Penrose伪逆
A ⊙ B \boldsymbol{A}\odot\boldsymbol{B} AB A \boldsymbol{A} A B \boldsymbol{B} B逐元素乘积(Hadamard乘积)
det ⁡ A \det\boldsymbol{A} detA A \boldsymbol{A} A的行列式

微积分

符号 含义
d y d x \frac{\mathrm{d}y}{\mathrm{d}x} dxdy y y y关于 x x x的导数
∂ y ∂ x \frac{\partial y}{\partial x} xy y y y关于 x x x的偏导
∇ x y \nabla_{x}y xy y y y关于 x x x的梯度
∇ X y \nabla_{\boldsymbol{X}}y Xy y y y关于 X \boldsymbol{X} X的矩阵导数
∇ X y \nabla_{\mathbf{X}}y Xy y y y关于 X \mathbf{X} X求导后的张量
∂ f ∂ x \frac{\partial f}{\partial x} xf f : R n → R m f:\mathbb R^n\rightarrow\mathbb R^m f:RnRm的Jacobian矩阵 J ∈ R m × n \boldsymbol{J}\in\mathbb R^{m\times n} JRm×n
∇ x 2 f ( x ) o r H ( f ) ( x ) \nabla_{x}^{2}f(x) or \boldsymbol{H}(f)(x) x2f(x)orH(f)(x) f f f在点 x \boldsymbol{x} x处的Hessian矩阵
∫ f ( x ) d x \int f(x)\mathrm{d}x f(x)dx x x x整个域上的定积分
∫ S f ( x ) d x \int_\mathbb{S} f(x)\mathrm{d}x Sf(x)dx 集合 S \mathbb{S} S上关于 x x x的定积分

概率和信息论

符号 含义
a ⊥ b a \perp b ab a a a b b b相互独立的随机变量
P ( a ) P(\mathrm{a}) P(a) 离散变量上的概率分布
p ( a ) p(\mathrm{a}) p(a) 连续变量(或变量类型未指定时)上的概率分布
a ∼ P \mathrm{a} \sim P aP 具有分布 P P P的随机变量 a \mathrm{a} a
E X ∼ P [ f ( x ) ] o r E f ( x ) \mathbb{E}_{X\sim P}[f(x)] or \mathbb{E}f(x) EXP[f(x)]orEf(x) f ( x ) f(x) f(x)关于 P ( x ) P(x) P(x)的期望
V a r ( f ( x ) ) Var(f(x)) Var(f(x)) f ( x ) f(x) f(x)在分布 P ( x ) P(x) P(x)下的方差
C o v ( f ( x ) , g ( x ) ) Cov(f(x),g(x)) Cov(f(x),g(x)) f ( x ) f(x) f(x) g ( x ) g(x) g(x)在分布 P ( x ) P(x) P(x)下的协方差
H ( x ) H(x) H(x) 随机变量 x x x的香农熵
D K L ( P ∥ Q ) D_{KL}(P\|Q) DKL(PQ) P P P Q Q Q K L KL KL散度
N ( x ; μ , Σ ) \mathcal{N}(\boldsymbol{x};\boldsymbol{\mu},\boldsymbol{\Sigma}) N(x;μ,Σ) 均值为 μ \boldsymbol{\mu} μ协方差为 Σ \boldsymbol{\Sigma} Σ x \boldsymbol{x} x上的高斯分布

下面因为单竖线不能加到表格中
a ⊥ b ∣ c a \perp b | c abc: 给定 c c c后条件独立

函数

符号 含义
f : A → B f:\mathbb{A}\rightarrow\mathbb{B} f:AB 定义域为 A \mathbb{A} A值域为 B \mathbb{B} B的函数 f f f
f ∘ g f \circ g fg f f f g g g的组合
f ( x ; θ ) f(\boldsymbol{x};\boldsymbol{\theta}) f(x;θ) θ \boldsymbol{\theta} θ参数化,关于 x x x的函数,有时为简化表示,我们忽略 θ \boldsymbol{\theta} θ记为 f ( x ) f(\boldsymbol{x}) f(x)
log ⁡ x \log x logx x x x的自然对数
σ ( x ) \sigma(x) σ(x) Logistic sigmoid, 1 1 + exp ⁡ ( − x ) \frac{1}{1+\exp(-x)} 1+exp(x)1
ζ ( x ) \zeta(x) ζ(x) Softplus, log ⁡ ( 1 + exp ⁡ ( − x ) ) \log({1+\exp(-x)}) log(1+exp(x))
∥ x ∥ p \lVert\boldsymbol{x}\rVert_p xp x x x L p L^p Lp范数
∥ x ∥ \lVert\boldsymbol{x}\rVert x x x x L 2 L^2 L2范数
x + x^+ x+ x x x的正数部分,即 max ⁡ ( 0 , x ) \max(0,x) max(0,x)
1 c o n d i t i o n 1_{condition} 1condition 如果条件为真则为1,否则为0

有时候我们使用函数 f f f,它的参数是一个标量,但应用到一个向量、矩阵或张量: f ( x ) f(x) f(x) f ( X ) f(X) f(X),or f ( X ) f(\boldsymbol{X}) f(X)。这表示逐元素地将 f f f应用于数组。例如, C = σ ( X ) \boldsymbol{C}=\sigma(\boldsymbol{X}) C=σ(X),则对于所有合法的 i , j i,j i,j k k k C i , j , k = σ ( X i , j , k ) C_{i,j,k}=\sigma(X_{i,j,k}) Ci,j,k=σ(Xi,j,k)

数据集合分布

符号 含义
p d a t a p_{data} pdata 数据生成分布
p ^ t r a i n \hat p_{train} p^train 由训练集定义的经验分布
X \mathbb{X} X 训练样本的集合
x ( i ) \boldsymbol{x}^{(i)} x(i) 数据集的第 i i i个样本(输入)
y ( i ) o r y ( i ) y^{(i)} or \boldsymbol{y}^{(i)} y(i)ory(i) 监督学习中与 x ( i ) \boldsymbol{x}^{(i)} x(i)关联的目标
X \boldsymbol{X} X m × n m\times n m×n的矩阵,其中行 X i , : \boldsymbol{X}_{i,:} Xi,:为输入样本 x ( i ) \boldsymbol{x}^{(i)} x(i)

你可能感兴趣的:(深度学习(花书)学习记录)