机器学习中的数学(1)

一、微积分
范式:
向量的1范数:向量的各个元素的绝对值之和
向量的2范数:向量的每个元素的平方和再开平方根

梯度:
梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
机器学习中的数学(1)_第1张图片
在这里X是一个矢量,f(X)的梯度就是一个1*i的一个矩阵。
Hessian矩阵:
机器学习中的数学(1)_第2张图片
这个Hessian矩阵时一个正定的矩阵。

那么为什么沿着梯度的方向下降最快呢?
这里我们引用泰勒公式
输入是标量的泰勒公式:
在这里插入图片描述
输入是矢量的泰勒公式:
在这里插入图片描述
对于标量来说,f‘(x)=0的点是极大值点,极小值点或者鞍点,那么我们求f‘(x)=0是很难求的,比如f‘(x)=sinx+cosx^2+ x^2让其为0,计算机运算量也极大;
那对于矢量来说,求梯度等于0也是一样的,及其难求。那么为什么梯度指向函数最快上升的方向呢,我们的δ要沿着某一个方向,当δ等于梯度的时候,梯度的转置和梯度点乘是什么呢?是不是2范式的平方!!这玩意是不是最大的啊。a.b=|a||b|cosΘ,当两个矢量反方向时,就是沿梯度下降最快的方向。

二、概率论:
我们用累计分布表示随机事件的数量表现。可是当x1与x2及其接近的时候,这时候累计分布就不是很直观了,那么我们此时就引入概率密度(累积分布的导数),因为概率密度是封闭的。

高斯分布(正态分布):
一维:
方差衡量的数据的扩散程度,越大越分散。
机器学习中的数学(1)_第3张图片
二维:
在这里插入图片描述
中心极限定理:
独立同分的随机变量求和依概率收敛于高斯分布。

贝叶斯公式:
P(A|B) = P(B|A).P(A)/P(B)
在这里在B已经发生的条件下A发生的概率P(A|B)就叫后验概率
我们已知的P(A)求P(A|B),已知的P(A)就叫做先验概率.

你可能感兴趣的:(神经网络学习,机器学习,概率论)