一些数学知识的记录

机器学习菜鸟,记录一些数学笔记,方便自己阅读和理解。

期望E的下标

地址一
地址二

  • 将下标符号中的变量作为条件

例子一:

例子二:

  • 将下标符号中的变量用作计算平均

例子一:

例子二:

例子三:

期望的一些公式

  • 离散型:
  • 连续性 :
  • 如果是连续型随机变量,那么随机变量函数 的数学期望是
  • 二维随机变量 的分布律为, 对于, 数学期望为
  • 二维随机变量 的密度函数, 数学期望为
  • 如果随机变量相互独立

条件分布

来自于这里

  • 连续性随机变量, 二维随机变量的联合密度函数为, 边缘密度函数分别为, 在的条件下, 的条件密度函数为. 在的条件下, 的条件密度函数为.
  • 从以上两个式子可知:,
  • 也就是说,连续场合下的全概率公式:,
  • 因此,连续场合下的贝叶斯公式是; . ,
  • 一些公式

    . 这是因为,我们可以将 看作是的函数,给定一个条件,就产生一个确定的的值, 说明该随机变量的概率依赖于, 则概率密度函数为, 从而,期望是变量和概率密度函数的积分。

-是离散型随机变量:

  • -是连续型随机变量:

条件期望

  • 在的条件下, 的期望.
  1. 和离散场合下:
  2. 是连续, 是离散场合下:
  3. 都是连续性随机变量, 联合密度函数为, 的密度函数为, 的条件密度函数概率, 则
  • 在的条件下, 的期望.
    离散场合下:
    连续场合下:

先验、后验、似然和贝叶斯

  • 首先, 我们熟知的贝叶斯是这样的;
    , 即
    .

我们可以把理解为原因(模型参数), 理解为结果(样本). 是似然分布, 是后验概率, 是证据, 是先验分布.

  • 一般来说, 先验代表的是人们抽样前对参数的认识(的估计), 后验代表的人们抽样之后对参数的认识,所以后验可以理解为根据抽样信息对先验的调整。

最大似然

这个写的好
这个写也很好

  • 首先区分概率和统计: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数

    1. 概率:已知一个模型和参数,预测模型产生结果的特性(均值、方差等)。 比如,我想研究养花(模型),然后想好了买啥化,怎么养(参数),最后这花养的到底怎么样(结果)
    2. 统计:利用数据推断模型的和参数。我有很多花,想根据品相判断咋样的。
  • : 表示一个具体的数据, 表示模型的参数。

    1. 如果 已知,是变量,这个叫做概率函数
    2. 如果 已知,是变量,这个叫做似然函数
  • 似然的本质是说,利用已知样本的信息,得到最大概率导致这些样本出现的模型参数。比如,我扔10次硬币,得到一组数据(),结果6次正面朝上,那根据最大似然,我模型的参数是最有可能得到6次正面朝上的参数, 即,
    我就求使这个函数的值最大就行. , 即

最大后验

  • 有人说,硬币正面朝上应该是0.5的概率,这就是我们引入了先验的思想。
  • 最大似然是求使得最大。 最大后验是求的使得 最大, 不止似然最大,而且是在先验的时候最大(这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而最大后验里是利用乘法)。 即

    这里面就是样本本身,是一个已知值。 当我们认为认为是均匀分布时(就是没提供啥有用的信息进来),似然=后验。

最大化似然的公式:

最大后验公式:

  • 由于 中的, 在给定任意的时总是常数, 对没有任何影响,所以不影响求极值。 最大化最大后验的公式为:

因此最大化后验就是在最大化似然函数之上加了一个先验分布, 所以当先验为均匀分布时(也就是信息确实),两者相等。

经验风险最小化和结构风险最小化

这个写的好

经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低;而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度,使其在训练数据集的损失降到最低的同时,模型不至于过于复杂,相当于在损失函数上增加了正则项,防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则:如无必要,勿增实体。

经验风险最小化可以看作是采用了极大似然的参数评估方法,更侧重从数据中学习模型的潜在参数,而且是只看重数据样本本身。这样在数据样本缺失的情况下,很容易管中窥豹,模型发生过拟合的状态;结构风险最小化采用了最大后验概率估计的思想来推测模型参数,不仅仅是依赖数据,还依靠模型参数的先验假设。这样在数据样本不是很充分的情况下,我们可以通过模型参数的先验假设,辅助以数据样本,做到尽可能的还原真实模型分布。

信息熵

  • 信息熵的定义:

    香农熵的本质是香农信息量的期望,代表了一个系统的不确定性,信息熵越大, 不确定性越大。 是一个事件的概率,概率越大,不确定性越小。

交叉熵

  • 为真实分布,为非真实分布,交叉熵越低,意味着约接近

相对熵(KL散度)

  • 衡量两个分布之间的差异,相对熵就是交叉熵减去信息熵

互信息

  • 互信息在信息论和机器学习中非常重要,其可以评价两个分布之间的距离,这主要归因于其对称性,假设互信息不具备对称性,那么就不能作为距离度量。即相对熵,由于不满足对称性,故通常说相对熵是评价分布的相似程度,而不会说距离。
  • 互信息的定义:一个随机变量由于已知另一个随机变量而减少的不确定性。

联合熵

条件熵

  • 条件熵的定义为:在X给定条件下,Y的条件概率分布的熵对X的数学期望。



因此,

变分推断

慢慢学。。。

你可能感兴趣的:(一些数学知识的记录)