机器学习中的数学基础

DAY1

费马定理

若函数f(x)在(a,b)内一点x0取得极值,且f(x)在x0可微,则 f ( x0 ) = 0

泰勒展开

是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件,泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数。

泰勒公式的几何意义是利用多项式函数来逼近原函数,由于多项式函数可以任意次求导,易于计算,且便于求解极值或者判断函数的性质,因此可以通过泰勒公式获取函数的信息。

泰勒公式的余项有两类:一类是定性的皮亚诺余项,另一类是定量的拉格朗日余项。这两类余项本质相同,但是作用不同。一般来说,当不需要定量讨论余项时,可用皮亚诺余项(如求未定式极限及估计无穷小阶数等问题);当需要定量讨论余项时,要用拉格朗日余项(如利用泰勒公式近似计算函数值)

凸函数

所谓凸函数,就是函数在两点间图像一定在函数的弦下方。

机器学习中的数学基础_第1张图片

DAY2

偏导数

一个多变量的函数的偏导数,就是它关于其中一个变量的导数而保持其他变量恒定(相对于全导数,在其中所有变量都允许变化)

方向导数

方向导数是在函数定义域的内点对某一方向求导得到的导数,一般为二元函数和三元函数的方向导数。方向导数可分为沿直线方向和沿曲线方向的方向导数。

梯度

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。

Hessian矩阵

是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中,所列的目标函数往往很复杂,为了使问题简化,常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数,此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

拉格朗日乘数法

在数学最优问题中,拉格朗日乘数法(以数学家约瑟夫·路易斯·拉格朗日命名)是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数:约束方程的梯度(gradient)的线性组合里每个向量的系数。 此方法的证明牵涉到偏微分,全微分或链法,从而找到能让设出的隐函数的微分为零的未知数的值。

DAY3

向量矩阵张量

张量概念是矢量概念的推广,矢量是一阶张量。张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

矩阵的逆与伪逆

伪逆矩阵是逆矩阵的广义形式。由于奇异矩阵或非方阵的矩阵不存在逆矩阵,但在matlab里可以用函数pinv(A)求其伪逆矩阵。

函数返回一个与A的转置矩阵A' 同型的矩阵X,并且满足:AXA=A,XAX=X.此时,称矩阵X为矩阵A的伪逆,也称为广义逆矩阵。

二次型与正定性

二次型(quadratic form):n个变量的二次多项式称为二次型,即在一个多项式中,未知数的个数为任意多个,但每一项的次数都为2的多项式。

若对任何非零向量x,实二次型f(x)如果对任何x≠0都有f(x)>0,则称f为正定二次型,并称矩阵A是正定的,记之A>0

判定二次型(或对称矩阵)为正定的方法有如下两种

1、行列式法

对于给定的二次型,写出它的矩阵,根据对称矩阵的所有顺序主子式是否全大于零来判定二次型 (或对称矩阵)的正定性。

2、正惯性指数法

对于给定的二次型 ,先将化为标准形,然后根据标准形中平方项系数为正的个数是否等于来判定二次型的正定性。

通过正交变换,将二次型化为标准形后,标准形中平方项的系数就是二次型矩阵的特征值。因此,可先求二次型矩阵的特征值,然后根据大于零的特征值个数是否等于来判定二次型的正定性。

矩阵分解

矩阵分解 (decomposition, factorization)是将矩阵拆解为数个矩阵的乘积,可分为三角分解、满秩分解、QR分解、Jordan分解和SVD(奇异值)分解等,常见的有三种:1)三角分解法 (Triangular Factorization),2)QR 分解法 (QR Factorization),3)奇异值分解法 (Singular Value Decomposition)。

DAY4

贝叶斯定理

所谓贝叶斯公式,是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。

数学期望

(mathematic expectation [4] )(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。

大数定律

在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。大数定律表明,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。

特征函数

是指在概率论中,任何随机变量完全定义了它的概率分布的函数。

中心极限定理

极大似然估计

最大后验估计

蒙特卡罗方法

Bootstrap方法

EM算法

DAY5

你可能感兴趣的:(人工智能,python)