偏向于理解,不涉及证明
一个一维数组(行或者列)被称作为向量,同时满足具有大小和方向两个性质
向量的范数:
矩阵是数字(或其他数学对象)的矩形数组
张量是多维数组,暂时可理解为多个矩阵的叠加
线性方程组是一个或多个涉及相同变量的线性方程组的集合
二次型:含有n个变量的二次齐次多项式
二次型矩阵:xTAx,其中A为实对称矩阵
正定性
若 f ( x 1 , x 2 . . . x n ) = X T A X > 0 f(x_{1},x_{2}...x_{n})=X^{T}AX> 0 f(x1,x2...xn)=XTAX>0恒成立,则称f为一个正定二次型,称A为正定矩阵
若 f ( x 1 , x 2 . . . x n ) = X T A X ≥ 0 f(x_{1},x_{2}...x_{n})=X^{T}AX\geq 0 f(x1,x2...xn)=XTAX≥0恒成立,则称f为一个半正定二次型,称A为半正定矩阵
若 f ( x 1 , x 2 . . . x n ) = X T A X < 0 f(x_{1},x_{2}...x_{n})=X^{T}AX< 0 f(x1,x2...xn)=XTAX<0恒成立,则称f为一个负定二次型,称A为负定矩阵
若 f ( x 1 , x 2 . . . x n ) = X T A X ≤ 0 f(x_{1},x_{2}...x_{n})=X^{T}AX\leq 0 f(x1,x2...xn)=XTAX≤0恒成立,则称f为一个半负定二次型,称A为半负定矩阵
矩阵分解
矩阵分解是将矩阵分解为矩阵的乘积
特征分解:D是由 A 的特征值形成的对角矩阵,V的列是A的相应特征向量。适用于具有线性独立特征向量(不一定是不同的特征值)的方阵 A。
A = V D V − 1 {\displaystyle A=VDV^{-1}} A=VDV−1
奇异值分解:D是非负对角矩阵, U和V满足 U ∗ U = I , V ∗ V = I {\displaystyle U^{*}U=I,V^{*}V=I} U∗U=I,V∗V=I。具有更大的通用性,因为所考虑的矩阵不必是正方形
A = U D V ∗ {\displaystyle A=UDV^{*}} A=UDV∗
随机变量与随机分布
随机变量是从样本空间中的可能结果到可测量空间的映射或函数,通常是实数。
概率分布是事件概率的数学描述,是样本空间的子集。样本空间,通常表示为 Ω
常见概率分布:
伯努利分布:一个离散型机率分布,是N=1时二项分布的特殊情况
f ( k ; p ) = p k ( 1 − p ) 1 − k for k ∈ { 0 , 1 } {\displaystyle f(k;p)=p^{k}(1-p)^{1-k}\quad {\text{for }}k\in \{0,1\}} f(k;p)=pk(1−p)1−kfor k∈{0,1}
期望: E ( X ) = p {\displaystyle \operatorname {E} \left(X\right)=p} E(X)=p
方差: D [ X ] = p q = p ( 1 − p ) \operatorname {D} [X]=pq=p(1-p) D[X]=pq=p(1−p)
二项分布:独立重复地进行 n 次试验中,成功 x 次的概率
f ( k , n , p ) = Pr ( k ; n , p ) = Pr ( X = k ) = ( n k ) p k ( 1 − p ) n − k {\displaystyle f(k,n,p)=\Pr(k;n,p)=\Pr(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}} f(k,n,p)=Pr(k;n,p)=Pr(X=k)=(kn)pk(1−p)n−k
期望: E [ X ] = n p {\displaystyle \operatorname {E} [X]=np} E[X]=np
方差: D ( X ) = n p q = n p ( 1 − p ) {\displaystyle \operatorname {D} (X)=npq=np(1-p)} D(X)=npq=np(1−p)
泊松分布:给定数量的事件在固定的时间或空间间隔内发生的概率
f ( k ; λ ) = Pr ( X = k ) = λ k e − λ k ! \!f(k; \lambda)= \Pr(X{=}k)= \frac{\lambda^k e^{-\lambda}}{k!} f(k;λ)=Pr(X=k)=k!λke−λ
期望: λ = E ( X ) = Var ( X ) \lambda =\operatorname {E} (X)=\operatorname {Var} (X) λ=E(X)=Var(X)
方差: λ = E ( X ) = Var ( X ) \lambda =\operatorname {E} (X)=\operatorname {Var} (X) λ=E(X)=Var(X)
贝叶斯定理:描述了事件的概率,它基于可能与事件相关的条件的先验知识
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) {\displaystyle P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}} P(A∣B)=P(B)P(B∣A)P(A)
期望、方差和条件数学期望
期望是加权平均的概括
方差是随机变量与其总体均值或样本均值的平方偏差的期望值
条件期望数学期望是在给定一组特定的“条件”的期望值
大数定律
描述多次执行相同实验的结果的定理。据规律,大量试验所得结果的平均值应接近预期值,并且随着试验次数的增加,趋于接近预期值。仅适用于平均值
lim n → ∞ ∑ i = 1 n X i n = X ‾ {\displaystyle \lim _{n\to \infty }\sum _{i=1}^{n}{\frac {X_{i}}{n}}={\overline {X}}} n→∞limi=1∑nnXi=X
弱定律(也称为Khinchin定律)指出样本平均值以概率收敛于 期望值
lim n → ∞ Pr ( ∣ X ‾ n − μ ∣ < ε ) = 1. {\displaystyle \lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1.} n→∞limPr(∣Xn−μ∣<ε)=1.
强定律(也称为Kolmogorov定律)表明样本平均值几乎肯定会收敛到期望值
Pr ( lim n → ∞ X ‾ n = μ ) = 1. \Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1. Pr(n→∞limXn=μ)=1.
特征函数与中心极限定理
任何随机变量的特征函数完全定义了它的概率分布
中心极限定理确定,当对独立随机变量求和时,即使原始变量本身不是正态分布 ,它们适当归一化的总和也趋于正态分布
零假设
在统计显着性检验中被检验的陈述称为零假设。显着性检验旨在评估针对零假设的证据强度。通常,零假设是‘没有影响’或‘没有不同’
似然函数
似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性。
最大似然估计
最大似然估计是一种通过最大化似然函数来实现在给定一些观察数据的情况下估计假设概率分布参数的方法
最大后验估计
在贝叶斯统计中,最大后验概率估计是对未知量的估计,它等于后验分布的模式
蒙特卡洛方法
蒙特卡洛方法或蒙特卡洛实验是一类广泛的计算 算法,它依赖于重复随机抽样来获得数值结果
Bootstrap方法
使用随机抽样和替换(例如模拟抽样过程)的任何测试或度量,属于更广泛的重抽样方法类别,原理是中心极限定理
EM算法
EM 算法是一种迭代方法,用于查找统计模型中参数的(局部)最大似然或最大后验(MAP) 估计,其中模型依赖于未观察到的潜在变量。
wiki-矩阵
wiki-线性方程组
wiki-矩阵分解
机器学习的线性代数基础
wiki-随机变量
wiki-概率分布
wiki-泊松分布
wiki-二次项分布
wiki-泊松分布
wiki-期望
wiki-方差
wiki-条件数学期望
wiki-大数定理
wiki-特征函数
wiki-中心极限定理
wiki-统计学
wiki-零假设
wiki-最大似然估计
wiki-最大后验估计
MLE、MAP、贝叶斯的理解
wiki-蒙特卡洛方法
wiki-Bootstrap方法
Bootstrap举例
wiki-EM算法
EM算法的理解