机器学习 | 概率论

导数与数学度量

导数

当函数y=f(x)在自变量x=x0上产生一个增量Δx时,函数输出值的增量Δy和自变量增量Δx之间的比值在Δx趋近与0的时候存在极限值a,那么a即为函数在x0处的导数值

导数就是曲线的斜率,是曲线变化快慢的一个反应
二阶导数是斜率变化的反应,表现曲线是凹凸性

y=ax的导数axlna(特殊地ex的导数ex
y=logax的导数1/xlna(特殊地lnx的导数1/x

导数四则运算

导数加减运算

导数乘法运算

导数除法运算

梯度:梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取的最大值,当函数为一维函数的时候,梯度其实就是导数

排列:从n个不同元素中取出m(m≤n)个元素,按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列,记作A(n,m)

排列公式

组合:从n个不同元素中取出m(m≤n)个元素的所有组合个数,叫做从n个不同元素中取出m个元素的组合数,记作C(n,m)

组合公式

条件概率:指事件A在事件B发生的条件下发生的概率

条件概率

全概率公式P(B) = ∑P(Ai) * P(B|Ai)

全概率公式

贝叶斯公式P(Bi|A) = [ P(Bi) * P(A|Bi) ] / [ ∑P(Bj) * P(A|Bj) ]

贝叶斯公式

其中,事件Bi的概率为P(Bi),事件Bi已发生条件下事件A的概率为P(A|Bi),事件A发生条件下事件Bi的概率为P(Bi|A)

大数定律:随着样本容量n的增加,样本平均数将接近于总体平均数(期望μ)
大数定律的主要作用就是为使用频率来估计概率提供了理论支持

中心极限定理:中心极限定理就是一般在同分布的情况下,抽样样本值的规范和在总体数量趋于无穷时的极限分布近似于正态分布

中心极限定理

最大似然法(Maximum Likelihood Estimation,MLE):也称为最大概似估计、极大似然估计,是一种具有理论性的参数估计方法。基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大;

步骤

  • 写出似然函数;
  • 对似然函数取对数,并整理;
  • 求导数;
  • 解似然方程

数学度量

期望(mean):也就是均值,是概率加权下的“平均值”,是每次可能结果的概率乘以其结果的总和,反映的实随机变量平均取值大小

期望公式

假设C为一个常数,XY为两个随机变量,那么E(C)=CE(CX)=CE(X)E(X+Y)=E(X)+E(Y)
如果XY相互独立,那么E(XY)=E(X)E(Y)
如果E(XY)=E(X)E(Y),那么XY不相关

方差(variance):是衡量随机变量或一组数据时离散程度的度量,是用来度量随机变量和其数学期望之间的偏离程度。即方差是衡量数据原数据和期望/均值相差的度量值

方差公式

假设C为一个常数,XY为两个随机变量,那么D(C)=0D(CX)=C2D(X)D(C+X)=D(X)

协方差

如果XY不相关,那么D(X+Y)=D(X)+D(Y)

标准差(Standard Deviation):是离均值平方的算术平均数的平方根,用符号σ表示,其实标准差就是方差的算术平方根

协方差:常用于衡量两个变量的总体误差;当两个变量相同的情况下,协方差其实就是方差

协方差是两个随机变量具有相同方向变化趋势的度量:

  • Cov(X,Y) > 0, 则XY的变化趋势相同;
  • Cov(X,Y) < 0, 则XY的变化趋势相反;
  • Cov(X,Y) = 0,则XY不相关,也就是变化没有什么相关性

协方差矩阵:对于n个随机向量(X1,X2,X3....Xn), 任意两个元素XiXj都可以得到一个协方差,从而形成一个n*n的矩阵,该矩阵就叫做协方差矩阵

推荐

机器学习 | 高等数学
机器学习 | 线性代数
机器学习 | 概率论

你可能感兴趣的:(机器学习 | 概率论)