ccc-机器学习数学基础-2

偏向于理解,不涉及证明

一、向量、矩阵、张量

一个一维数组(行或者列)被称作为向量,同时满足具有大小和方向两个性质
向量的范数:

  • 0范数,即向量a中非零元素的个数,常表示为||a|| 0
  • 1范数,即向量a中所有元素绝对值之和,公式表示为 ∣ ∣ x ∣ ∣ 1 = ∑ i = 1 N ∣ x i ∣ ||x||_1 = \sum_{i=1}^N|x_i| ∣∣x1=i=1Nxi
  • 2范数,又称欧几里得范数,向量元素绝对值的平方和再开方,公式表示为 ∣ ∣ x ∣ ∣ 2 = ∑ i = 1 N x i 2 ||\textbf{x}||_2 =\sqrt{\sum_{i=1}^Nx_i^2} ∣∣x2=i=1Nxi2
  • p-范数,向量元素绝对值的p次方和的1/p次幂,公式表示为 ∣ ∣ x ∣ ∣ p = ( ∑ i = 1 N ∣ x i ∣ p ) 1 p ||\textbf{x}||_p = (\sum_{i=1}^N|x_i|^p)^{\frac{1}{p}} ∣∣xp=(i=1Nxip)p1

矩阵是数字(或其他数学对象)的矩形数组

  • 矩阵的逆:对于矩阵A,如果存在一个矩阵B,使得AB=BA=E,其中E为与A,B同维数的单位阵,就称A为可逆矩阵(或者称A可逆),并称B是A的逆矩阵
  • 矩阵的伪逆:Moore-Penrose广义逆的四个条件
    1.) A A g A = A A A g A = A {\displaystyle AA^{\mathrm {g} }A=A} {\displaystyle AA^{\mathrm {g} }A=A} AAgA=AAAgA=A
    2.) A g A A g = A g A g A A g = A g {\displaystyle A^{\mathrm {g} }AA^{\mathrm {g} }=A^{\mathrm {g} }} {\displaystyle A^{\mathrm {g} }AA^{\mathrm {g} }=A^{\mathrm {g} }} AgAAg=AgAgAAg=Ag
    3.) ( A A g ) T = A A g ( A A g ) T = A A g {\displaystyle (AA^{\mathrm {g} })^{\mathrm {T} }=AA^{\mathrm {g} }} {\displaystyle (AA^{\mathrm {g} })^{\mathrm {T} }=AA^{\mathrm {g} }} (AAg)T=AAg(AAg)T=AAg
    4.) ( A g A ) T = A g A ( A g A ) T = A g A {\displaystyle (A^{\mathrm {g} }A)^{\mathrm {T} }=A^{\mathrm {g} }A} {\displaystyle (A^{\mathrm {g} }A)^{\mathrm {T} }=A^{\mathrm {g} }A} (AgA)T=AgA(AgA)T=AgA
    如果一个矩阵有逆矩阵,那么其也是唯一的广义逆矩阵

张量是多维数组,暂时可理解为多个矩阵的叠加

二、线性方程组

线性方程组是一个或多个涉及相同变量的线性方程组的集合

二次型:含有n个变量的二次齐次多项式
二次型矩阵:xTAx,其中A为实对称矩阵

正定性

f ( x 1 , x 2 . . . x n ) = X T A X > 0 f(x_{1},x_{2}...x_{n})=X^{T}AX> 0 f(x1,x2...xn)=XTAX>0恒成立,则称f为一个正定二次型,称A为正定矩阵
f ( x 1 , x 2 . . . x n ) = X T A X ≥ 0 f(x_{1},x_{2}...x_{n})=X^{T}AX\geq 0 f(x1,x2...xn)=XTAX0恒成立,则称f为一个半正定二次型,称A为半正定矩阵
f ( x 1 , x 2 . . . x n ) = X T A X < 0 f(x_{1},x_{2}...x_{n})=X^{T}AX< 0 f(x1,x2...xn)=XTAX<0恒成立,则称f为一个负定二次型,称A为负定矩阵
f ( x 1 , x 2 . . . x n ) = X T A X ≤ 0 f(x_{1},x_{2}...x_{n})=X^{T}AX\leq 0 f(x1,x2...xn)=XTAX0恒成立,则称f为一个半负定二次型,称A为半负定矩阵

矩阵分解
矩阵分解是将矩阵分解为矩阵的乘积

特征分解:D是由 A 的特征值形成的对角矩阵,V的列是A的相应特征向量。适用于具有线性独立特征向量(不一定是不同的特征值)的方阵 A。
A = V D V − 1 {\displaystyle A=VDV^{-1}} A=VDV1
奇异值分解:D是非负对角矩阵, U和V满足 U ∗ U = I , V ∗ V = I {\displaystyle U^{*}U=I,V^{*}V=I} UU=I,VV=I。具有更大的通用性,因为所考虑的矩阵不必是正方形
A = U D V ∗ {\displaystyle A=UDV^{*}} A=UDV

二、概率论相关

随机变量与随机分布
随机变量是从样本空间中的可能结果到可测量空间的映射或函数,通常是实数。

概率分布是事件概率的数学描述,是样本空间的子集。样本空间,通常表示为 Ω

常见概率分布:

伯努利分布:一个离散型机率分布,是N=1时二项分布的特殊情况
f ( k ; p ) = p k ( 1 − p ) 1 − k for  k ∈ { 0 , 1 } {\displaystyle f(k;p)=p^{k}(1-p)^{1-k}\quad {\text{for }}k\in \{0,1\}} f(k;p)=pk(1p)1kfor k{0,1}
期望: E ⁡ ( X ) = p {\displaystyle \operatorname {E} \left(X\right)=p} E(X)=p
方差: D ⁡ [ X ] = p q = p ( 1 − p ) \operatorname {D} [X]=pq=p(1-p) D[X]=pq=p(1p)

二项分布:独立重复地进行 n 次试验中,成功 x 次的概率
f ( k , n , p ) = Pr ⁡ ( k ; n , p ) = Pr ⁡ ( X = k ) = ( n k ) p k ( 1 − p ) n − k {\displaystyle f(k,n,p)=\Pr(k;n,p)=\Pr(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}} f(k,n,p)=Pr(k;n,p)=Pr(X=k)=(kn)pk(1p)nk
期望: E ⁡ [ X ] = n p {\displaystyle \operatorname {E} [X]=np} E[X]=np
方差: D ⁡ ( X ) = n p q = n p ( 1 − p ) {\displaystyle \operatorname {D} (X)=npq=np(1-p)} D(X)=npq=np(1p)

泊松分布:给定数量的事件在固定的时间或空间间隔内发生的概率
 ⁣ f ( k ; λ ) = Pr ⁡ ( X = k ) = λ k e − λ k ! \!f(k; \lambda)= \Pr(X{=}k)= \frac{\lambda^k e^{-\lambda}}{k!} f(k;λ)=Pr(X=k)=k!λkeλ
期望: λ = E ⁡ ( X ) = Var ⁡ ( X ) \lambda =\operatorname {E} (X)=\operatorname {Var} (X) λ=E(X)=Var(X)
方差: λ = E ⁡ ( X ) = Var ⁡ ( X ) \lambda =\operatorname {E} (X)=\operatorname {Var} (X) λ=E(X)=Var(X)

贝叶斯定理:描述了事件的概率,它基于可能与事件相关的条件的先验知识
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) {\displaystyle P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}} P(AB)=P(B)P(BA)P(A)

期望、方差和条件数学期望
期望是加权平均的概括
方差是随机变量与其总体均值或样本均值的平方偏差的期望值
条件期望数学期望是在给定一组特定的“条件”的期望值

大数定律
描述多次执行相同实验的结果的定理。据规律,大量试验所得结果的平均值应接近预期值,并且随着试验次数的增加,趋于接近预期值。仅适用于平均值
lim ⁡ n → ∞ ∑ i = 1 n X i n = X ‾ {\displaystyle \lim _{n\to \infty }\sum _{i=1}^{n}{\frac {X_{i}}{n}}={\overline {X}}} nlimi=1nnXi=X
弱定律(也称为Khinchin定律)指出样本平均值以概率收敛于 期望值
lim ⁡ n → ∞ Pr ⁡  ⁣ (   ∣ X ‾ n − μ ∣ < ε   ) = 1. {\displaystyle \lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1.} nlimPr(Xnμ<ε)=1.
强定律(也称为Kolmogorov定律)表明样本平均值几乎肯定会收敛到期望值
Pr ⁡  ⁣ ( lim ⁡ n → ∞ X ‾ n = μ ) = 1. \Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1. Pr(nlimXn=μ)=1.

特征函数与中心极限定理
任何随机变量的特征函数完全定义了它的概率分布
中心极限定理确定,当对独立随机变量求和时,即使原始变量本身不是正态分布 ,它们适当归一化的总和也趋于正态分布

三、统计学部分

零假设
在统计显着性检验中被检验的陈述称为零假设。显着性检验旨在评估针对零假设的证据强度。通常,零假设是‘没有影响’或‘没有不同’

似然函数
似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性。

最大似然估计
最大似然估计是一种通过最大化似然函数来实现在给定一些观察数据的情况下估计假设概率分布参数的方法

最大后验估计
在贝叶斯统计中,最大后验概率估计是对未知量的估计,它等于后验分布的模式

蒙特卡洛方法
蒙特卡洛方法或蒙特卡洛实验是一类广泛的计算 算法,它依赖于重复随机抽样来获得数值结果

Bootstrap方法
使用随机抽样和替换(例如模拟抽样过程)的任何测试或度量,属于更广泛的重抽样方法类别,原理是中心极限定理

EM算法
EM 算法是一种迭代方法,用于查找统计模型中参数的(局部)最大似然或最大后验(MAP) 估计,其中模型依赖于未观察到的潜在变量。

参考资料

wiki-矩阵
wiki-线性方程组
wiki-矩阵分解
机器学习的线性代数基础
wiki-随机变量
wiki-概率分布
wiki-泊松分布
wiki-二次项分布
wiki-泊松分布
wiki-期望
wiki-方差
wiki-条件数学期望
wiki-大数定理
wiki-特征函数
wiki-中心极限定理
wiki-统计学
wiki-零假设
wiki-最大似然估计
wiki-最大后验估计
MLE、MAP、贝叶斯的理解
wiki-蒙特卡洛方法
wiki-Bootstrap方法
Bootstrap举例
wiki-EM算法
EM算法的理解

你可能感兴趣的:(机器学习数学基础,机器学习)