PS:一只正在学习机器学习的菜鸟。术语组成主要是深度学习(入门圣经)+维基百科+自己的理解。写这个主要是因为在自己学习过程中有一些术语查了又忘,忘了又查。。。所以写篇博客记录一下,术语不是按学习顺序记录的。都是基于自己的理解写出来的话,比较通俗易懂,错误的还请大家指正。同时会在文末放上自己学习上没弄明白的点,也希望大神能评论指出。
一.术语
1.凸集
在点集拓扑学与欧几里得空间中,凸集(convex set)是一个点集合,其中每两点之间的直线点都落在该点集合中。
2e.凸函数凸函数是一个定义在某个向量空间的凸子集 {\displaystyle C} C(区间)上的实值函数 {\displaystyle f} f,如果在其定义域 C上的任意两点
,以及
,有
则是凸函数,上述不等式中,左部分是介于x和y之间的一点,右部分是基于线性插值得到的f(x)的近似,因此如果任何两点的线性插值大于函数的值,那么该函数就是凸的。
3.凸优化
或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。
4.整流线性单元
或者称为 ReLU ,激活函数的一种,g(z) = max{0, z}。该激活函数是被推荐用于大多数前馈神经网络的默认激活函数。将此 函数用于线性变换的输出将产生非线性变换。然而,函数仍然非常接近线性,在这种意义上它是 具有两个线性部分的分段线性函数。由于整流线性单元几乎是线性的,因此它们保留了许多使得 线性模型易于使用基于梯度的方法进行优化的属性。它们还保留了许多使得线性模型能够泛化良 好的属性。计算机科学的一个公共原则是,我们可以从最小的组件构建复杂的系统。就像图灵机 的内存只需要能够存储 0 或 1 的状态,我们可以从整流线性函数构建一个万能函数近似器。
5.交叉熵
在信息论中,基于相同事件测度的两个概率分布 和
的交叉熵是指,当基于一个“非自然”(相对于“真实”分布
而言)的概率分布
进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数(bit)。
基于概率分布 和
的交叉熵定义为:
其中 是
的熵,
是从
到
的KL散度(也被称为p相对于q的相对熵)。
6.正则化
机器学习中防止过拟合最常用的方法之一,主要的思路是添加惩罚项。下式中最右的累加部分就是正则化部分。
7.代价函数
是用来衡量模型预测出来的值h(θ)与真实值y之间的差异的函数,用来评价我们的预测模型的好坏。贯穿神经网络设计的一个反复出现的主题是代价函数的梯度必须足够的大和具 有足够的预测性,来为学习算法提供一个好的指引。
8.饱和函数
简单来说就是这个函数在超过某个x值之后,即使x增加很大,y值也不怎么变化,趋于饱和。饱和(变得非常平)的函数把梯度变得非常小。这在很多情况下都会发生,因为用于产生隐藏单元或者输出单元的输出的激活函数会饱和。
9.泛函
我们可能有一个预测器 f(x;θ),我们想用它来预测 y 的均值。如果我 们使用一个足够强大的神经网络,我们可以认为这个神经网络能够表示一大类函 数中的任何一个函数 f,这个类仅仅被一些特征所限制,例如连续性和有界,而不 是具有特殊的参数形式。从这个角度来看,我们可以把代价函数看作是一个 泛函(functional)而不仅仅是一个函数。泛函是函数到实数的映射。我们因此可以将学习 看作是选择一个函数而不仅仅是选择一组参数。
10.正定矩阵
一个n×n的实对称矩阵是正定的,当且仅当对于所有的非零实系数向量z,都有zT
z > 0。其中zT表示z的转置。
意义:1.正定矩阵变化后(如求逆还是正定矩阵)
2.特征值全为正。
11.协方差矩阵
协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
在统计学与概率论中,协方差矩阵(也称离差矩阵、方差-协方差矩阵)是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。
二.问题
用于实现最大似然估计的交叉熵代价函数的特性:对于实值的输出变量,如果模型可以控制输出分 布的密度(例如,通过学习高斯输出分布的方差参数),那么它可能对正确的训练集 输出赋予极其高的密度,这将导致交叉熵趋向负无穷。
如果对正确的训练集有极高的密度,那么p(y|x)应该趋近于1,log函数应该比趋近于0要小才对,怎么会趋向负无穷呢?