机器学习及深度学习中的符号说明

文章目录

  • 数和数组
  • 集合和图
  • 索引
  • 线性代数中的操作
  • 微积分
  • 概率和信息论
  • 函数
  • 数据集和分布

数和数组

a a a 标 量 ( 整 数 或 实 数 ) 标量(整数或实数)
a \boldsymbol{a} a 向 量 向量 编辑中用boldsymbol+小写字母
A \boldsymbol{A} A 矩 阵 矩阵 编辑中用boldsymbol+大写字母
A \sf{A} A 张 量 张量 编辑中用sf+大写字母
I n \boldsymbol{I}_n In n 行 n 列 的 单 位 矩 阵 n行n列的单位矩阵 nn
I \boldsymbol{I} I 维 度 蕴 含 于 上 下 文 的 单 位 矩 阵 维度蕴含于上下文的单位矩阵
e ( i ) \boldsymbol{e}^{(i)} e(i) 标 准 基 向 量 [ 0 , ⋯   , 0 , 1 , 0 , ⋯   , 0 ] , 其 中 索 引 i 处 值 为 1 标准基向量[0,\cdots,0,1,0,\cdots,0],其中索引i处值为1 [0,,0,1,0,,0]i1
diag ⁡ ( a ) \operatorname{diag}(\boldsymbol{a}) diag(a) 对 角 方 阵 其 中 对 角 元 素 由   a   给 定 对角方阵其中对角元素由\,\boldsymbol{a} \,给定 a
a \rm{a} a 标 量 随 机 变 量 标量随机变量 编辑中用rm+小写字母
a \bf{a} a 向 量 随 机 变 量 向量随机变量 编辑中用bf+小写字母
A \bf{A} A 矩 阵 随 机 变 量 矩阵随机变量 编辑中用bf+大写字母

集合和图

A \Bbb{A} A 集 合 集合 编辑中用Bbb+大写字母
R \Bbb{R} R 实 数 集 实数集 编辑中用Bbb字体
{ 0 , 1 } \{0,1\} {0,1} 包 含 0 和 1 的 集 合 包含0和1的集合 01
{ 0 , 1 , ⋯   , n } \{0,1,\cdots,n\} {0,1,,n} 包 含 0 和 n 直 接 所 有 整 数 的 集 合 包含0和n直接所有整数的集合 0n
[ a , b ] [a,b] [a,b] 包 含   a   和   b   的 实 数 区 间 包含\ a\ 和\ b\ 的实数区间  a  b 
( a , b ] (a,b] (a,b] 不 包 含    a    但 包 含    b    的 实 数 区 间 不包含\;a\;但包含\;b\;的实数区间 ab
A ∖ B \Bbb{A\setminus B} AB 差 集 , 即 其 元 素 包 含 于    A    但 不 包 含 于    B 差集,即其元素包含于\;\Bbb{A}\;但不包含于\;\Bbb{B} AB
G \mathcal{G} G 图 图 编辑中用mathcal+大写字母G
P a G ( x i ) Pa_\mathcal{G}({\rm{x}}_i) PaG(xi) 图    G    中    x i    的 父 节 点 图\;\mathcal{G}\;中\;\rm{x}_i\;的父节点 Gxi

索引

a i a_i ai 向 量    a    的 第    i    个 元 素 , 其 中 索 引 从    1    开 始 向量\;\boldsymbol{a}\;的第\;i\;个元素,其中索引从\;1\;开始 ai1
a − i a_{-i} ai 除 了 第    i    元 素 ,    a    的 所 有 元 素 除了第\;i\;元素,\;\boldsymbol{a}\;的所有元素 ia
A i , j \boldsymbol{A}_{i,j} Ai,j 矩 阵    A    的    i , j    元 素 矩阵\;\boldsymbol{A}\;的\;i,j\;元素 Ai,j
A i , : \boldsymbol{A}_{i,:} Ai,: 矩 阵    A    的 第    i    行 矩阵\;\boldsymbol{A}\;的第\;i\;行 Ai
A : , i \boldsymbol{A}_{:,i} A:,i 矩 阵    A    的 第    i    列 矩阵\;\boldsymbol{A}\;的第\;i\;列 Ai
A i , j , k A_{i,j,k} Ai,j,k 3    维 张 量    A    的    ( i , j , k )    元 素 3\;维张量\;{\sf{A}}\;的\;(i,j,k)\;元素 3A(i,j,k)
A : , : , i {\sf{A}}_{:,:,i} A:,:,i 3    维 张 量 的    2    维 切 片 3\;维张量的\;2\;维切片 32
a i \rm{a_i} ai 随 机 向 量    a    的 第    i    个 元 素 随机向量\;{\bf{a}}\;的第\;i\;个元素 ai

线性代数中的操作

A T \boldsymbol{A}^{\sf{T}} AT 矩 阵    A    的 转 置 矩阵\;\boldsymbol{A}\;的转置 A
A + \boldsymbol{A}^{+} A+ A    的    M o o r e − P e n r o s e    伪 逆 {\boldsymbol{A}}\;的\;Moore-Penrose\;伪逆 AMoorePenrose
A ⊙ B \boldsymbol{A}\odot\boldsymbol{B} AB A    和    B    的 逐 元 素 乘 积 ( H a d a m a r d    乘 积 ) {\boldsymbol{A}}\;和\;{\boldsymbol{B}}\;的逐元素乘积(Hadamard\;乘积) ABHadamard
det ⁡ ( A ) \det(\boldsymbol{A}) det(A) A    的 行 列 式 \boldsymbol{A}\;的行列式 A

微积分

d y d x \frac{dy}{dx} dxdy y    关 于    x    的 导 数 y\;关于\;x\;的导数 yx
∂ y ∂ x \frac{\partial y}{\partial x} xy y    关 于    x    的 偏 数 y\;关于\;x\;的偏数 yx
∇ x y \nabla_{\boldsymbol{x}}y xy y    关 于    x    的 梯 度 y\;关于\;\boldsymbol{x}\;的梯度 yx
∇ X y \nabla_{\boldsymbol{X}}y Xy y    关 于    X    的 矩 阵 导 数 y\;关于\;\boldsymbol{X}\;的矩阵导数 yX
∇ X y \nabla_{\sf{X}}y Xy y    关 于    X    求 导 后 的 张 量 y\;关于\;\sf{X}\;求导后的张量 yX
∂ f ∂ x \frac{\partial f}{\partial \boldsymbol{x}} xf f : R n → R m   的    J a c o b i a n    矩 阵    J ∈ R m × n f:\Bbb{R}^n\rightarrow\Bbb{R}^m\,的\;Jacobian\;矩阵\;\boldsymbol{J}\in \Bbb{R}^{m\times n} f:RnRmJacobianJRm×n
∇ x 2 f ( x ) o r H ( f ) ( x ) \nabla_{\boldsymbol{x}}^2f(\boldsymbol{x}) or \boldsymbol{H}(f)(\boldsymbol{x}) x2f(x)orH(f)(x) f    在 点    x    处 的    H e s s i a n    矩 阵 f\;在点\;\boldsymbol{x}\;处的\;Hessian\;矩阵 fxHessian
∫ f ( x ) d x \int f(\boldsymbol{x})d\boldsymbol{x} f(x)dx x    整 个 域 上 的 定 积 分 \boldsymbol{x}\;整个域上的定积分 x
∫ S f ( x ) d x \int_{\Bbb{S}}f(x)dx Sf(x)dx 集 合    S    上 关 于    x    的 定 积 分 集合\;\Bbb{S}\;上关于\;\boldsymbol{x}\;的定积分 Sx

概率和信息论

a ⊥ b \rm{a}\bot \rm{b} ab a    和    b    相 互 独 立 的 随 机 变 量 \rm{a}\;和\;\rm{b}\;相互独立的随机变量 ab
a ⊥ b ∣ c \rm{a}\bot b\mid c abc 给 定    c    后 条 件 独 立 给定\;c\;后条件独立 c
P ( a ) P(\rm{a}) P(a) 离 散 变 量 上 的 概 率 分 布 离散变量上的概率分布
p ( a ) p(\rm{a}) p(a) 连 续 变 量 ( 或 变 量 类 型 未 指 定 时 ) 上 的 概 率 分 布 连续变量(或变量类型未指定时)上的概率分布
a ∼ P \rm{a}\sim P aP 具 有 分 布    P    的 随 机 变 量    a 具有分布\;P\;的随机变量\;\rm{a} Pa
E x ∼ P [ f ( x ) ]    o r    E f ( x ) \Bbb{E}_{\rm{x}\sim P}[f(x)]\;or\;\Bbb{E}f(x) ExP[f(x)]orEf(x) f ( x )    关 于    P ( x )    的 期 望 f(x)\;关于\;P(\rm{x})\;的期望 f(x)P(x)
Var ⁡ ( f ( x ) ) \operatorname{Var}(f(x)) Var(f(x)) f ( x )    在 分 布    P ( x )    下 的 方 差 f(x)\;在分布\;P(\rm{x})\;下的方差 f(x)P(x)
Cov ⁡ ( f ( x ) , g ( x ) ) \operatorname{Cov}(f(x),g(x)) Cov(f(x),g(x)) f ( x )    和    g ( x )    在 分 布    P ( x )    下 的 协 方 差 f(x)\;和\;g(x)\;在分布\;P(\rm{x})\;下的协方差 f(x)g(x)P(x)
H ( x ) H(\rm{x}) H(x) 随 机 变 量    x    的 香 浓 熵 随机变量\;\rm{x}\;的香浓熵 x
D K L ( P ∥ Q ) D_{KL}(P\|Q) DKL(PQ) P    和    Q    的    K L    散 度 P\;和\;Q\;的\;KL\;散度 PQKL
N ( x ; μ , Σ ) \mathcal{N}(\boldsymbol{x;\mu,\Sigma}) N(x;μ,Σ) 均 值 为    μ , 协 方 差 为    Σ , x    上 的 高 斯 分 布 均值为\;\boldsymbol{\mu},协方差为\;\boldsymbol{\Sigma},\boldsymbol{x}\;上的高斯分布 μΣx

函数

f : A → B f:\Bbb{A}\rightarrow\Bbb{B} f:AB 定 义 域 为    A    值 域 为    B    的 函 数    f 定义域为\;\Bbb{A}\;值域为\;\Bbb{B}\;的函数\;f ABf
f ∘ g f\circ g fg f    和    g    的 组 合 f\;和\;g\;的组合 fg
f ( x ; θ ) f(\boldsymbol{x;\theta}) f(x;θ)    θ    参 数 化 , 关 于    x    的 函 数 ( 有 时 为 了 简 化 表 示 , 忽 略    θ    而 记 为    f ( x )    ) \;\boldsymbol{\theta}\;参数化,关于\;\boldsymbol{x}\;的函数(有时为了简化表示,忽略\;\boldsymbol{\theta}\;而记为\;f(\boldsymbol{x})\;) θ,x(,θf(x))
log ⁡ x \log x logx x    的 自 然 对 数 x\;的自然对数 x
σ ( x ) \sigma(x) σ(x) L o g i s t i c    s i g m o i d ,    1 1 + exp ⁡ ( − x ) Logistic\;sigmoid,\;\frac{1}{1+\exp(-x)} Logisticsigmoid,1+exp(x)1
ζ ( x ) \zeta(x) ζ(x) S o f t p l u s ,    log ⁡ ( 1 + exp ⁡ ( x ) ) Softplus,\;\log(1+\exp(x)) Softplus,log(1+exp(x))
∥ x ∥ p \|\boldsymbol{x}\|_p xp x    的    L p    范 数 \boldsymbol{x}\;的\;L^p\;范数 xLp
∥ x ∥ \|\boldsymbol{x}\| x x    的    L 2    范 数 \boldsymbol{x}\;的\;L^2\;范数 xL2
x + x^+ x+ x    的 正 数 部 分 , 即    m a x ( 0 , x ) x\;的正数部分,即\;max(0,x) x,max(0,x)
1 c o n d i t i o n \boldsymbol{1}_{condition} 1condition 如 果 条 件 为 真 则 为    1 , 否 则 为    0 如果条件为真则为\;1,否则为\;0 1,0

有 时 使 用 函 数    f 它 的 参 数 是 一 个 标 量 , 但 应 用 到 一 个 向 量 、 矩 阵 或 张 量 : 有时使用函数\;f它的参数是一个标量,但应用到一个向量、矩阵或张量: 使f,:
f ( x ) 、 f ( X ) 或 f ( X ) 。 这 表 示 逐 元 素 地 将    f    应 用 于 数 组 。 f({\boldsymbol{x}})、f({\boldsymbol{X}})或f({\sf{X}})。这表示逐元素地将\;f\;应用于数组。 f(x)f(X)f(X)f
例 如    C = σ ( X ) , 则 对 所 有 合 法 的    i , j , 和 k , C i , j , k = σ ( X i , j , k ) 例如\;\sf{C}=\sigma(\sf{X}),则对所有合法的\;i,j,和k,C_{i,j,k}=\sigma(X_{i,j,k}) C=σ(X),i,j,k,Ci,j,k=σ(Xi,j,k)

数据集和分布

p d a t a p_{data} pdata 数 据 生 成 分 布 数据生成分布
p ^ t r a i n \hat{p}_{train} p^train 由 训 练 集 定 义 的 经 验 分 布 由训练集定义的经验分布
X \Bbb{X} X 训 练 样 本 的 集 合 训练样本的集合
x ( i ) \boldsymbol{x}^{(i)} x(i) 数 据 集 的 第    i    个 样 本 ( 输 入 ) 数据集的第\;i\;个样本(输入) i()
y ( i )    或    y ( i ) y^{(i)}\; 或\; \boldsymbol{y}^{(i)} y(i)y(i) 监 督 学 习 中 与    x ( i )    关 联 的 目 标 监督学习中与\;\boldsymbol{x}^{(i)}\;关联的目标 x(i)
X \boldsymbol{X} X m × n    的 矩 阵 , 其 中 行    X i , :    为 输 入 样 本    x ( i ) m\times n\;的矩阵,其中行\;\boldsymbol{X}_{i,:}\;为输入样本\;\boldsymbol{x}^{(i)} m×n,Xi,:x(i)

你可能感兴趣的:(西瓜书学习笔记,花书学习笔记,深度学习,机器学习,数学,花书学习笔记)