内容提要
需要哪些数学知识
微积分
线性代数与矩阵论
概率论
信息论
最优化方法
随机过程
图论
需要哪些数学知识
现状分析
数学是给机器学习、 深度学习的初学者和进阶者造成困难的主要原因之一
国内本科数学教学方式、 学生学习质量上存在的不足-过于抽象,偏重于计算,忽视了对数学思维、 建模能力的培养-清华大学换用国外线性代数教材事件, 如果结合一些具体的例子来讲解会好很多
某些数学知识超出了本科一般理工科专业的范畴 - 矩阵论/矩阵分析,信息论,最优化方法,随机过程,图论
通常情况下, 高校、 其他机构在教《机器学习》 、《深度学习》 之前不会为学生把这些数学知识补齐学生普遍对数学存在一种恐惧心理, 数学自信的人只占少部分
究竟需要哪些数学知识?
1.微积分-一元函数微积分,多元函数微积分, 是整个高等数学的基石
2.线性代数与矩阵论-矩阵论本科一般不讲
3.概率论-内容基本已经覆盖机器学习的要求
4.信息论 - 一般专业不会讲,如果掌握了概率论, 理解起来并不难
5.最优化方法 - 学了这门课的学生非常少, 但对机器学习、深度学习非常重要,几乎所有算法归结为求解优化问题
6.随机过程-本科一般不学,但在机器学习中经常会使用,如马尔可夫过程,高斯过程,后者应用于贝叶斯优化
7.图论-计算机类专业本科通常会学,但没有学谱图理论
第1部分-微积分
为什么需要微积分?
研究函数的性质 - 单调性, 凹凸性
求解函数的极值
概率论、 信息论、 最优化方法等的基础
一元函数微积分
极限 - 微积分的基石, 数列的极限, 函数的极限
函数的连续性与间断点
上确界与下确界
Lipschitz连续性
导数,一阶导数,高阶导数,导数的计算-符号微分,数值微分,自动微分
导数与函数的性质,单调性,极值,凹凸性
泰勒公式
不定积分及其计算
定积分及其计算
广义积分及其计算
常微分方程的基本概念
常系数线性微分方程的求解
基本函数的求导公式
四则运算的求导公式
(f(g(x))){\prime}=f{\prime}(g) g^{\prime}(x)(f(g(x)))
′
=f
′
(g)g
′
(x)
复合函数的求导公式
激活函数的导数
f(x)=f(a)+\frac{f^{\prime}(a)}{1 !}(x-a)+\frac{1}{2} f^{\prime \prime}(a)(x-a)^{2}+\ldots+\frac{1}{n !} f{(n)}(a)(x-a){n}+R_{n}(x)f(x)=f(a)+
1!
f
′
(a)
(x−a)+
2
1
f
′′
(a)(x−a)
2
+…+
n!
1
f
(n)
(a)(x−a)
n
+R
n
(x)
一元函数的泰勒公式-连接一元函数微分学各知识点的桥梁
多元函数微积分
偏导数的定义与计算
梯度的定义与性质
方向导数的定义与性质
高阶偏导数的计算
链式法则 - 熟练计算多元函数的偏导数
雅克比矩阵 - 链式法则的矩阵形式
Hessian矩阵与多元函数的极值, 凹凸性
向量与矩阵求导公式
多元函数的泰勒公式
重积分 二重积分,三重积分,n重积分,多重积分的坐标变换
偏微分方程的基本概念
\begin{array}{l}{z=f\left(y_{1}, \ldots, y_{m}\right)} \ {y_{j}=g_{j}\left(x_{1}, \ldots, x_{n}\right), j=1, \ldots, m}\end{array}
z=f(y
1
,…,y
m
)
y
j
=g
j
(x
1
,…,x
n
),j=1,…,m
\left[\begin{array}{c}{\frac{\partial z}{\partial x_{1}}} \ {\cdots} \ {\frac{\partial z}{\partial x_{n}}}\end{array}\right]=\left[\begin{array}{c}{\sum_{j=1}^{m} \frac{\partial z}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{1}}} \ {\cdots} \ {\sum_{j=1}^{m} \frac{\partial z}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{n}}}\end{array}\right]=\left[\begin{array}{ccc}{\frac{\partial y_{1}}{\partial x_{1}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{1}}} \ {\cdots} & {\cdots} & {\cdots} \ {\frac{\partial y_{1}}{\partial x_{n}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{n}}}\end{array}\right]\left[\begin{array}{c}{\frac{\partial z}{\partial y_{1}}} \ {\cdots} \ {\frac{\partial z}{\partial y_{m}}}\end{array}\right]
⎣
⎡
∂x
1
∂z
⋯
∂x
n
∂z
⎣
⎢
⎡
∑
j=1
m
∂y
j
∂z
∂x
1
∂y
j
⋯
∑
j=1
m
∂y
j
∂z
∂x
n
∂y
j
⎣
⎡
∂x
1
∂y
1
⋯
∂x
n
∂y
1
⋯
⋯
⋯
∂x
1
∂y
m
⋯
∂x
n
∂y
m
⎦
⎤
⎣
⎡
∂y
1
∂z
⋯
∂y
m
∂z
⎦
⎤
=\left(\frac{\partial \mathbf{y}}{\partial \mathbf{x}}\right)^{\mathrm{T}}\left[\begin{array}{c}{\frac{\partial z}{\partial y_{1}}} \ {\cdots} \ {\frac{\partial z}{\partial y_{m}}}\end{array}\right]=(
∂x
∂y
)
T
⎣
⎡
∂y
1
∂z
⋯
∂y
m
∂z
⎦
⎤
链式法则的矩阵形式
重要的向量和矩阵求导公式
f(\mathbf{x})=f(\mathbf{a})+(\nabla f(\mathbf{a})){\mathrm{T}}(\mathbf{x}-\mathbf{a})+\frac{1}{2}(\mathbf{x}-\mathbf{a}){\mathrm{T}} \mathbf{H}(\mathbf{x}-\mathbf{a})+o\left(|\mathbf{x}-\mathbf{a}|^{2}\right)f(x)=f(a)+(∇f(a))
T
(x−a)+
2
1
(x−a)
T
H(x−a)+o(∥x−a∥
2
)
多元函数的泰勒公式-连接多元函数微分学各知识点的桥梁
第2部分-线性代数与矩阵论
为什么需要线性代数?
机器学习算法的输入、输出、中间结果,通常为向量,矩阵,张量
简化问题的表达
与微积分结合, 研究多元函数的性质, 也是概率论中随机向量的基础
在图论中亦有应用 - 图的拉普拉斯矩阵
在随机过程中同样有应用 - 状态转移矩阵
向量的定义与基本运算,向量的范数
线性相关性
向量空间
矩阵的定义及其运算
矩阵的范数
线性变换
行列式的定义与计算
线性方程组 齐次,非齐次
特征值与特征值向量
广义特征值
Rayleigh商
谱与条件数
二次型与标准型
Cholesky分解
特征值分解
奇异值分解
\begin{aligned} \mathbf{u}^{(l)} &=\mathbf{W}^{(l)} \mathbf{x}{(l-1)}+\mathbf{b}{(l)} \ \mathbf{x}^{(l)} &=f\left(\mathbf{u}^{(l)}\right) \end{aligned}
u
(l)
x
(l)
=W
(l)
x
(l−1)
+b
(l)
=f(u
(l)
)
正向传播算法
\begin{array}{l}{\boldsymbol{\delta}{(l)}=\left(\mathbf{W}{(l+1)}\right)^{\mathrm{T}} \boldsymbol{\delta}^{(l+1)} \odot f{\prime}\left(\mathbf{u}{(l)}\right)} \ {\nabla_{\mathbf{w}^{(l)}} L=\boldsymbol{\delta}{(l)}\left(\mathbf{x}{(l-1)}\right)^{\mathrm{T}}} \ {\nabla_{\mathbf{b}^{(l)}} L=\boldsymbol{\delta}^{(l)}}\end{array}
δ
(l)
=(W
(l+1)
)
T
δ
(l+1)
⊙f
′
(u
(l)
)
∇
w
(l)
L=δ
(l)
(x
(l−1)
)
T
∇
b
(l)
L=δ
(l)
反向传播算法
\mathbf{S e}=\lambda \mathbf{e}Se=λe
主成分分析
\mathbf{L} \mathbf{f}=\lambda \mathbf{D} \mathbf{f}Lf=λDf
拉普拉斯特征映射
\mathbf{X L X}^{\mathrm{T}} \mathbf{a}=\lambda \mathbf{X} \mathbf{D} \mathbf{X}^{\mathrm{T}} \mathbf{a}XLX
T
a=λXDX
T
a
局部保持投影
第3部分-概率论
为什么需要概率论?
将机器学习算法的输入、输出看作随机变量/向量, 用概率论的观点进行建模
对不确定性进行建模
挖掘变量之间的概率依赖关系
随机算法 - 蒙特卡洛算法, 遗传算法
随机数生成 - 基本随机数生成, 采样算法
随机事件与概率
条件概率
全概率公式
贝叶斯公式
条件独立
离散型随机变量
连续型随机变量
数学期望与方差,标准差
Jesen不等式
Hoeffding不等式
常用概率分布 均匀分布,伯努利分布,二项分布, 多项分布,正态分布,狄拉克分布, t分布
随机变量函数
逆变换算法
离散型随机向量
连续型随机向量
联合期望
协方差
常用概率分布 均匀分布,正态分布
分布变换
极限定理 切比雪夫不等式, 大数定律, 中心极限定理
参数估计 最大似然估计,最大后验概率估计, 贝叶斯估计,核密度估计
随机算法 基本随机数生成, 遗传算法, 蒙特卡洛算法
采样算法 拒绝采样,重要性采样
\begin{array}{l}{p(y | \mathbf{x})=\frac{p(\mathbf{x} | y) p(y)}{p(\mathbf{x})}} \ {\arg \max _{y} p(\mathbf{x} | y) p(y)}\end{array}
p(y∣x)=
p(x)
p(x∣y)p(y)
argmax
y
p(x∣y)p(y)
贝叶斯分类器
p(\mathbf{x})=\sum_{i=1}^{k} w_{i} N\left(\mathbf{x} ; \boldsymbol{\mu}{i}, \mathbf{\Sigma}{i}\right)p(x)=∑
i=1
k
w
i
N(x;μ
i
,Σ
i
)
高斯混合模型
第4部分-信息论
香浓熵
交叉熵
KL散度
JS散度
联合熵
互信息
条件熵
\prod_{i=1}{l}\left(\prod_{j=1}{k}\left(\frac{\exp \left(\boldsymbol{\theta}{j}^{\mathrm{T}} \mathbf{x}{i}\right)}{\sum_{t=1}^{k} \exp \left(\boldsymbol{\theta}{t}^{\mathrm{T}} \mathbf{x}{i}\right)}\right)^{y_{i j}}\right)∏
i=1
l
(∏
j=1
k
(
∑
t=1
k
exp(θ
t
T
x
i
)
exp(θ
j
T
x
i
)
)
y
ij
)
\sum_{i=1}^{l} \sum_{j=1}^{k}\left(y_{i j} \ln \frac{\exp \left(\boldsymbol{\theta}{j}^{\mathrm{T}} \mathbf{x}{i}\right)}{\sum_{t=1}^{k} \exp \left(\boldsymbol{\theta}{t}^{\mathrm{T}} \mathbf{x}{i}\right)}\right)∑
i=1
l
∑
j=1
k
(y
ij
ln
∑
t=1
k
exp(θ
t
T
x
i
)
exp(θ
j
T
x
i
)
)
softmax回归
L(y
i
)=
i=1
∑
l
KL(P
i
∣Q
i
)=
i=1
∑
l
j=1
∑
l
p
ji
log
q
ji
p
jl
∑
k
̸
=i
exp(−∥x
i
−x
k
∥
2
/2σ
i
2
)
exp(−∥x
i
−x
j
∥
2
/2σ
i
2
)
∑
k
̸
=i
exp(−∥y
i
−y
k
∥
2
)
exp(−∥y
i
−y
j
∥
2
)
流形学习-SNE降维
\min {G} \max {D} V(D, G)=\mathrm{E}{\mathbf{x} \sim p{\text {data}}(\mathbf{x})}[\ln D(\mathbf{x})]+\mathrm{E}{\mathbf{z} \sim p{\mathbf{z}}(\mathbf{z})}[\ln (1-D(G(\mathbf{z})))]min
G
max
D
V(D,G)=E
x∼p
data
(x)
[lnD(x)]+E
z∼p
z
(z)
[ln(1−D(G(z)))]
\begin{aligned} C(G) &=-\ln 4+\ln 4+\mathrm{E}{\mathrm{x}-p{\text {data }}(\mathrm{x})}\left[\ln \frac{p_{\text {data }}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right]+\mathrm{E}{\mathbf{z}-p{\mathbf{g}}(\mathbf{z})}\left[\ln \frac{p_{g}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right] \ &=-\ln 4+\mathrm{E}{\mathbf{x}-p{\text {data }}(\mathrm{x})}\left[\ln \frac{2 p_{\text {data }}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right]+\mathrm{E}{\mathbf{z}-p{\mathbf{g}}(\mathrm{z})}\left[\ln \frac{2 p_{g}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right] \ &=-\ln 4+D_{\mathrm{KL}}\left(p_{\text {data }} | \frac{p_{\text {data }}+p_{g}}{2}\right)+D_{\mathrm{KL}}\left(p_{g} | \frac{p_{\text {data }}+p_{g}}{2}\right) \ &=-\ln 4+2 D_{\mathrm{JS}}\left(p_{\text {data }} | p_{g}\right) \end{aligned}
C(G)
=−ln4+ln4+E
x−p
data
(x)
[ln
p
data
(x)+p
g
(x)
p
data
(x)
]+E
z−p
g
(z)
[ln
p
data
(x)+p
g
(x)
p
g
(x)
]
=−ln4+E
x−p
data
(x)
[ln
p
data
(x)+p
g
(x)
2p
data
(x)
]+E
z−p
g
(z)
[ln
p
data
(x)+p
g
(x)
2p
g
(x)
]
=−ln4+D
KL
(p
data
∥
2
p
data
+p
g
)+D
KL
(p
g
∣
2
p
data
+p
g
)
=−ln4+2D
JS
(p
data
∥p
g
)
生成对抗网络
第5部分-最优化方法
基本概念 问题定义, 迭代法的基本思想
梯度下降法
最速下降法
梯度下降法的各种改进 AdaGrad,AdaDelta, Adam
随机梯度下降法
牛顿法
拟牛顿法 DFP, BFGS, L-BFGS
分治法 坐标下降法, 分阶段优化
凸优化 定义与性质
拉格朗日乘数法
拉格朗日对偶
KKT条件
多目标优化 基本概念, 求解算法
泛函与变分
Euler-Lagrange方程
\begin{array}{l}{L(W)=\frac{1}{2 m} \sum_{i=1}{m}\left|h\left(\mathbf{x}_{i}\right)-\mathbf{y}_{i}\right|{2}} \ {W_{t+1}=W_{t}-\eta \nabla_{W} L\left(W_{t}\right)}\end{array}
L(W)=
2m
1
∑
i=1
m
∥h(x
i
)−y
i
∥
2
W
t+1
=W
t
−η∇
W
L(W
t
)
神经网络的训练
\begin{array}{l}{\max _{m} \operatorname{ACC}(m) \times\left[\frac{\operatorname{LAT}(m)}{T}\right]^{w}} \ {w=\left{\begin{array}{l}{\alpha, \operatorname{LAT}(m) \leq T} \ {\beta, \operatorname{LAT}(m)>T}\end{array}\right.}\end{array}
max
m
ACC(m)×[
T
LAT(m)
]
w
w={
α,LAT(m)≤T
β,LAT(m)>T
多目标神经结构搜索
\begin{array}{l}{F[y]=\int_{a}^{b} \sqrt{1+y^{2}} d x} \ {\frac{d}{d x} \frac{y{\prime}}{\sqrt{1+y{2}}}=0} \ {y(x)=\frac{C}{\sqrt{1-C^{2}}} x+C^{\prime}}\end{array}
F[y]=∫
a
b
1+y
2
dx
dx
d
1+y
2
y
′
=0
y(x)=
1−C
2
C
x+C
′
证明两点之间直线最短
第6部分-随机过程
马尔可夫性
马尔可夫链
平稳分布
细致平稳条件
马尔可夫链采样算法
Metropolis-Hastings算法
Gibbs采样
高斯过程
高斯过程回归
贝叶斯优化
隐马尔可夫模型
平稳分布
高斯过程
第7部分-图论
基本概念
图的矩阵表示
特殊的图 联通图, 二部图, 有向无环图
Dijkstra算法
拉普拉斯矩阵
归一化拉普拉斯矩阵
logistic回归的计算图
神经网络的拓扑结构图
概率图模型
《机器学习-原理、 算法与应用》官方购买链接