透彻理解高斯过程Gaussian Process (GP)

透彻理解高斯过程Gaussian Process (GP)

一、整体说说

为了理解高斯过程,我们就首先需要了解如下预备知识,即:高斯分布(函数)、随机过程、以及贝叶斯概率等。明白了这些预备知识之后才能顺利进入高斯过程,了解高斯过程本质及其高斯过程描述方法。人们又将高斯过程与贝叶斯概率有机结合在一起,构造了强大的数学方法(或称模型),为人类提供解决日常生活和工作的问题。特别是在人工智能领域更是意义非凡。为什么呢?

  1. 高斯过程模型属于无参数模型,相对解决的问题复杂度及与其它算法比较减少了算法计算量。
  2. 高斯模型可以解决高维空间(实际上是无限维)的数学问题,可以面对负杂的数学问题。
  3. 结合贝叶斯概率算法,可以实现通过先验概率,推导未知后验输入变量的后验概率。由果推因的概率。
  4. 高斯过程观测变量空间是连续域,时间或空间。
  5. 高斯过程观测变量空间是实数域的时候,我们就可以进行回归而实现预测。
  6. 高斯过程观测变量空间是整数域的时候(观测点是离散的),我们就可以进行分类。结合贝叶斯算法甚至可以实现单类分类学习(训练),面对小样本就可以实现半监督学习而后完成分类。面对异常检测领域很有用,降低打标签成本(小样本且单类即可训练模型)。
    所以说,我们快点进入高斯过程-贝叶斯概率算法模型吧,功能非凡。
    接下来慢慢展开学习之旅吧。

二、高斯分布(高斯函数)

https://blog.csdn.net/jorg_zhao/article/details/52687448
https://blog.csdn.net/zyttae/article/details/41086773

(一)一维高斯函数

一维高斯函数定义

我们通常所说的标准正态分布是位置参数μ=0μ=0的正态分布(见下图中红色曲线)。
这里写图片描述

对于任意的实数a,b,ca,b,c

  • 为什么用概率密度函数表示高斯正态分布的函数:这种方法能够表示随机变量每个取值有多大的可能性。其它方法我们这里不在描述了,如:累积分布函数,cumulant、特征函数、动差生成函数以及cumulant-生成函数。
  • 正态分布中一些值得注意的现象(量):
    1. 密度函数关于平均值μμ对称。
    2. 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
    3. 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
    4. 95.449974%的面积在平均数左右两个标准差2 \sigma的范围内。
    5. 99.730020%的面积在平均数左右三个标准差3 \sigma的范围内。
    6. 99.993666%的面积在平均数左右四个标准差4 \sigma的范围内。

这里写图片描述

其中:
μ=1mmi=1x(i)σ2=1mmi=1(x(i)μ)2)μ=1m∑i=1mx(i)σ2=1m∑i=1m(x(i)−μ)2)是已知,而且不需要有标签,可以作为非监督学习训练。
高斯分布样例如下图(引自吴恩达课件):
一维高斯分布样例图(吴恩达)

注:机器学习中对于方差我们通常只除以mm其实区别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。

在异常检测中,利用如下策略判断异常

ifp(x){<ε,ε,ifp(x){<ε,异常≥ε,正常

  • 正态分布的一些性质:

  1. 如果XN(μ,σ2)X∼N(μ,σ2)服从自由度为n的卡方分布。
  • 中心极限定理
    正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。中心极限定理阐明了随着有限方差的随机变量数量增长,它们的和的分布趋向正态分布。

    • 1、参数为n和p的二项分布,在n相当大而且p接近0.5时近似于正态分布。
      (有的参考书建议仅在npnp,这些近似值是否完全充分正确取决于使用者的使用需求。
  • 相关的一些分布介绍

    • 1、RRayleigh(σ)R∼Rayleigh(σ)

    (二)二元高斯函数(多元中的特例)

    二维高斯函数形如:

    f(x,y)=Aexp(((xx0)22σ2x+(yy0)22σ

    你可能感兴趣的:(算法)