机器学习之数学基础篇

所需的高等数学基础：

变量；

系数；

函数；

似然函数；似然函数--百度百科

线性方程式：例如 y=b+w1x1+w2x2；

对数和对数方程式，例如 y=ln(1+ez)；

S型函数：Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0,1之间。

收敛：（函数收敛）收敛-百度百科

导数：（理解几何/代数含义，并能够进行计算）

导数定义如下：

反映的是函数y=f(x)在某一点处沿x轴正方向的变化率。再强调一遍，是函数f(x)在x轴上某一点处沿着x轴正方向的变化率/变化趋势。

偏导数：（理解几何/代数含义并能够进行计算）

由此可以看到，导数与偏导数本质是一致的，都是当自变量的变化量趋于0时，函数值的变化量与自变量变化量比值的极限。直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

区别在于：

　导数：指的是一元函数中，函数y=f(x)在某一点处沿x轴正方向的变化率；

　偏导数：指的是多元函数中，函数y=f(x1,x2,…,xn)在某一点处沿某一坐标轴（x1,x2,…,xn）正方向的变化率。

方向导数：

导数和偏导数的定义中，均是沿坐标轴正方向讨论函数的变化率。那么当我们讨论函数沿任意方向的变化率时，也就引出了方向导数的定义，即：某一点在某一趋近方向上的导数值。

通俗的解释是：

我们不仅要知道函数在坐标轴正方向上的变化率（即偏导数），而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。

梯度：

梯度的提出只为回答一个问题：函数在变量空间的某一点处，沿着哪一个方向有最大的变化率？

梯度定义如下：函数在某一点的梯度是这样一个向量，它的方向与取得最大方向导数的方向一致，而它的模为方向导数的最大值。

这里注意三点：

　1）梯度是一个向量，即有方向有大小；

　2）梯度的方向是最大方向导数的方向；

　3）梯度的值是最大方向导数的值。

梯度下降法：

既然在变量空间的某一点处，函数沿梯度方向具有最大的变化率，那么在优化目标函数的时候，自然是沿着负梯度方向去减小函数值，以此达到我们的优化目标。

　如何沿着负梯度方向减小函数值呢？既然梯度是偏导数的集合，如下：

同时梯度和偏导数都是向量，那么参考向量运算法则，我们在每个变量轴上减小对应变量值即可，梯度下降法可以描述如下：学习率为 a

所需的线性代数知识：

矩阵；矩阵相关知识-维基百科

特征值与特征向量；

转置矩阵；

逆矩阵；

矩阵相乘；

所需的概率和统计信息知识：

条件概率；条件概率-维基百科

均值；

中间值；

离群值；

标准偏差；

相关数学基础知识持续更新中。