高斯分布

高斯分布又叫正态分布,是统计学中最重要的连续概率分布。研究表明,在物理科学和经济学中,大量数据的分布通常是服从高斯分布,所以当我们对数据潜在分布模式不清楚时,可以优先用高斯分布近似或精确描述。高斯分布分为一维高斯分布和多维高斯分布。

一维高斯分布

假设一维随机变量X服从高斯分布如下:

\mathrm{X} \sim \mathrm{N}\left(\mu, \sigma^{2}\right)

它的概率密度函数见公式为:

\mathrm{f}(\mathrm{x})=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{-\frac{1}{2}\left(\frac{\mathrm{x}-\mu}{\sigma}\right)^{2}}

以上高斯分布曲线取决于两个因素:均值和标准差。分布的均值决定了图形中心的位置,标准差决定了图像的高度和宽度。标准差大时,曲线呈现出“矮胖”,标准差小时,曲线呈现出“高瘦”。因此通过改变均值和标准差,根据其概率密度函数得到不同的高斯分布,见下图。\mu=0\sigma=1时,就得到了标准高斯分布。

高斯分布_第1张图片

高斯分布(一维)具有以下性质:

  • 曲线下的总面积为1。
  •  随机变量X等于任何特定值的概率为0。
  • X大于a的概率等于以a为界到正无穷大的曲线下的面积。
  • X小于a的概率等于从负无穷大到以a为界的曲线下的面积。
  • 大约0.68的曲线下面积落在平均值的 1 个标准偏差内;大约0.95的曲线下面积落在平均值的 2 个标准差内;大约0.997的曲线下面积落在平均值的 3 个标准差内。

多维高斯分布

多维高斯分布其变量为n维变量,每个变量之间可能会存在关系,为了描述这种关系,我们引入了协方差矩阵\sum。多维变量X=\left(x_{1}, x_{2}, \ldots x_{n}\right)的联合概率密度函数为下式:

f(X)=\frac{1}{\left.(2 \pi)^{d / 2} \Sigma\right|^{1 / 2}} \exp \left[-\frac{1}{2}(X-\mu)^{T} \Sigma^{-1}(X-\mu)\right]

其中:

  • d:变量维度。对于二维高斯分布,有d=2。
  • \mu=\left(\begin{array}{llll}\mu_{1} & \mu_{2} \ldots \mu_{n}\end{array}\right):各位变量的均值。
  • \sum:协方差矩阵,描述各维变量之间的相关度。对于二维高斯分布,有:

\Sigma=\left(\begin{array}{ll} \delta_{11} & \delta_{12} \\ \delta_{21} & \delta_{22} \end{array}\right)

后文主要分析均值和协方差矩阵对二维高斯分布的影响。

 在\mu=\left(\begin{array}{ll} 0 & 0 \end{array}\right), \Sigma=\left(\begin{array}{ll} 0.3 & 0 \\ 0 & 0.35 \end{array}\right)情况下,见二维高斯分布图,在XY坐标轴上形成的投影(等高图)见下图:

高斯分布_第2张图片

 高斯分布_第3张图片

 在\mu=\left(\begin{array}{ll} 2 & 2 \end{array}\right), \Sigma=\left(\begin{array}{ll} 0.3 & 0 \\ 0 & 0.3 \end{array}\right)情况下,见二维高斯分布图,在XY坐标轴上形成的投影(等高图)见下图:

高斯分布_第4张图片

 高斯分布_第5张图片

\mu=\left(\begin{array}{ll} 0 & 0 \end{array}\right), \Sigma=\left(\begin{array}{ll} 1 & 0 \\ 0 & 3 \end{array}\right)情况下,见二维高斯分布图,在XY坐标轴上形成的投影(等高图)见下图:

高斯分布_第6张图片

高斯分布_第7张图片 

\mu=\left(\begin{array}{ll} 0 & 0 \end{array}\right), \Sigma=\left(\begin{array}{ll} 1 & 0.3 \\ 0.3 & 1 \end{array}\right)情况下,见二维高斯分布图,在XY坐标轴上形成的投影(等高图)见下图:

高斯分布_第8张图片

高斯分布_第9张图片 

\mu=\left(\begin{array}{ll} 0 & 0 \end{array}\right), \Sigma=\left(\begin{array}{ll} 1 & -0.3 \\ -0.3 & 1 \end{array}\right)情况下,见二维高斯分布图,在XY坐标轴上形成的投影(等高图)见下图:

高斯分布_第10张图片

高斯分布_第11张图片 

 总结:

  • 均值表征的是各维变量的中心,其对二维高斯曲面的影响较好理解,它使得整个二维高斯曲面在xoy平面上移动。
  • 对于协方差矩阵,对角线上的两个元素,即\delta_{11}\delta_{22}表征的是x维和y维变量的方差,决定了整个高斯曲面在某一维度上的“跨度”,方差越大,“跨度”越大。
  • 协方差矩阵的斜对角线上面的两个元素,即\delta_{12}\delta_{21}\delta_{21}=\delta_{21})表征的是各维变量之间的相关性:\delta_{12}>0说明x与y呈正相关(x越大,y越大),其值越大,正相关程度越大;\delta_{12}<0呈负相关;否则不相关。

你可能感兴趣的:(算法,算法)