2.机器学习基本数学基础

距离公式:

在这里插入图片描述
在这里插入图片描述

方差与标准差: 方差与标准差越小,说明样本数据越稳定

2.机器学习基本数学基础_第1张图片

向量

单位向量:
例如 向量PQ=(4,-3,12)
那么它的单位向量就等于(x/根号下x方+y方+z方,y/根号下x方+y方+z方,z/根号下x方+y方+z方)
单位向量有: x²+y²+z²=1

向量的投影:
2.机器学习基本数学基础_第2张图片

偏导数丶方向导数和梯度

总结:
1.导数定义: 导数代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。

注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。
(derivative)

2.偏导数: 既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y),从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
(partial derivative)

**3.方向导数: **在某点沿着某个向量方向上的方向导数,描绘了该点附近沿着该向量方向变动时的瞬时变化率。这个向量方向可以是任一方向。

方向导数的物理意义表示函数在某点沿着某一特定方向上的变化率。
注意:导数、偏导数和方向导数表达的是函数在某一点沿某一方向的变化率,也是具有方向和大小的。
(directional derivative)

4.梯度: 函数在给定点处沿不同的方向,其方向导数一般是不相同的。那么沿着哪一个方向其方向导数最大,其最大值为多少,这是我们所关心的,为此引进一个很重要的概念: 梯度。
梯度(数学名词):
“梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。”

5.梯度下降
在机器学习中往往是最小化一个目标函数 L(Θ),理解了上面的内容,便很容易理解在梯度下降法中常见的参数更新公式:

Θ = Θ − γ ∂ L ∂ Θ
通过算出目标函数的梯度(算出对于所有参数的偏导数)并在其反方向更新完参数 Θ ,在此过程完成后也便是达到了函数值减少最快的效果,那么在经过迭代以后目标函数即可很快地到达一个极小值。

何为梯度下降?
梯度下降的定义:随机选择一个方向,然后每次迈步都选择最陡的方向,直到这个方向上能达到的最低点。

总结:梯度下降用来做什么?
在机器学习算法中,有时候需要对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。而在求解机器学习参数的优化算法中,使用较多的就是基于梯度下降的优化算法。

6.In summary:
概念   物理意义
导数   函数在该点的瞬时变化率
偏导数  函数在坐标轴方向上的变化率
方向导数 函数在某点沿某个特定方向的变化率
梯度   函数在该点沿所有方向变化率最大的那个方向

sigmod函数:

2.机器学习基本数学基础_第3张图片

------说白了其实相当于用样本构建一个线性函数,然后添加一个sigmoid函数的激励,让其成为一个非线性函数,跟神经网络的的神经元原理相似。那为什么Logistic回归中要用sigmoid函数呢?那是因为原问题是二分类问题,分类结果可以看做是0,1。我们最终需要知道样本属于1类的概率是多少,既然是概率,那就需要一个函数将结果压缩至0~1的范围(概率定义),而sigmoid函数就具有这样的好处
2.机器学习基本数学基础_第4张图片

tanh双曲正切函数:

图像:

2.机器学习基本数学基础_第5张图片

常用于神经网络的激活函数来使用
2.机器学习基本数学基础_第6张图片
结论: 导数=1-(tanhx)平方
2.机器学习基本数学基础_第7张图片

凸函数:

常用于我们梯度下降法的确认局部最优解
2.机器学习基本数学基础_第8张图片
凸函数的结论:
2.机器学习基本数学基础_第9张图片

你可能感兴趣的:(机器学习算法,机器学习,人工智能,算法)