人工智能-数学基础-核函数变换,熵与激活函数

目录

核函数的目的

线性核函数

多项式核函数

核函数实例

高斯核函数(最常用的一种)

参数的影响

熵的概念

激活函数

Sigmoid函数

 Tanh函数

Relu函数(实际用得最多)

Leaky ReLU


核函数的目的

如果我的数据有足够多的可利用的信息,那么我可以直接做我喜欢的事了,但是现在如果没有那么多的信息,我可不可以在数学上进行一些投机呢?
低维(比如我只知道一个人的年龄,性别,那我能对她多了解吗?)高维(比如我知道他从出生开始,做过哪些事,赚过哪些钱等)
如果我们对数据更好的了解(是机器去了解他们,我们不需要认识啦)得到的结果不也会更好嘛
人工智能-数学基础-核函数变换,熵与激活函数_第1张图片

  • 将数据嵌入一个高维空间
  • 在该空间中寻求线性关系

如果映射关系选取适当,复杂关系可以被简化。 


线性核函数

Linear核函数对数据不做任何变换。

何时来使用呢?特征已经比较丰富了,样本数据量巨大,需要进行实时得出结果的问题

不需要设置任何参数,直接就可以用了。


多项式核函数

需要给定3个参数

一般情况下2次的更常见

γ(gama)对内积进行放缩,ζ(zeta)控制常数项,Q控制高次项。其特例就是线性核函数了(γ和ζ的取值要根据模型在测试集上的表现来调整,经过多项式核函数变换之后可能会带来计算量增大的问题,需要想办法规避)


核函数实例

在线性核函数中,低维做内积再平方的结果等于核变换后做内积。


高斯核函数(最常用的一种)

高斯函数

高斯核函数

X,Y代表两个样本点,两个样本点之间做欧氏距离,代表两个样本点的相似程度,如果X和Y很相似,那结果也就是趋近1了,如果很不相似那就是趋近0了。

人工智能-数学基础-核函数变换,熵与激活函数_第2张图片

参数的影响

用高斯核函数,计算选中样本点X0与其他所有M个样本点的高斯核函数计算结果值,结果值生成一个M维的向量。这样就实现了升维。

人工智能-数学基础-核函数变换,熵与激活函数_第3张图片

方差越小,数据越集中,图像越高越尖锐。

人工智能-数学基础-核函数变换,熵与激活函数_第4张图片

如图,分母σ取倒数放到分子位置了,可以看出σ越小,对训练数据划分就越准确,划分图像越复杂,但慢慢就过拟合了。

熵的概念

物体内部的混乱程度。(一件事发生的不确定性)

所有的概率值都是0-1之间,那么最终的H(X)必然也是一个正数。在混乱程度大的样本集中,选中其中某一个的概率小,-logP(x)很大(P(x)的影响相对于-logP(x)可以忽略不记)累加之后H(X)就很大,反之奕然。

比如对一个整齐的房间和一个混乱的房间求熵,整齐房间的整齐情况就那么几种,要么中式风格整理,要么西式风格整理。每种情况发生的概率大。反之,混乱房间中,混乱的样子千千万万,每一种情况发生的概率很小,比如短裤恰好放 蛋糕上,蛋糕恰好放窗帘上。

在分类任务中,如果划分得好,那么划分后的每一个子集中元素的出现概率接近1,熵值很小。 


激活函数

非线性:让模型表现能力更强。单调性,可微性,输出值范围是有限的。常见的激活函数:Sigmoid Tanh Relu 等

Sigmoid函数
 

人工智能-数学基础-核函数变换,熵与激活函数_第5张图片

Sigmoid 是常用的非线性的激活函数。能够把连续值压缩到0-1区间上。缺点:杀死梯度,非原点中心对称。

杀死梯度意思是在两边时候斜率趋近于零,会导致神经网络算法中间过程得到一个零值,以至于之后都是零值。

非原点中心对称输出值全为整数会导致梯度全为正或者全为负,优化更新会产生阶梯式情况。

 Tanh函数

原点中心对称。输出在-1到1之间。梯度消失现象依然存在

人工智能-数学基础-核函数变换,熵与激活函数_第6张图片

Relu函数(实际用得最多)

公式简单实用,解决了梯度消失现象,计算速度更快,大于零的等于自己,小于零的统一都是零。

人工智能-数学基础-核函数变换,熵与激活函数_第7张图片

Leaky ReLU

解决了Relu会杀死一部分神经元的情况,

人工智能-数学基础-核函数变换,熵与激活函数_第8张图片 小于零得部分乘以一个很小的数


 

你可能感兴趣的:(算法)