2019-11-18

朴素贝叶斯

问题

输入空间:。
输出空间:
模型空间:而且可以当成生成模型也可以当成决策模型。
样本点损失函数:按决策模型来考虑,则
经验损失函数:从生成模型考虑,即得。从决策模型考虑,即得。
训练集上损失:根据经验损失函数,直接在训练集上估计就行了。

求解

,可以忽略,直接计算在训练集上的频率得出,至于则和假定的分布有关:

  • 多项伯努利分布:。取值为0或1,其关于的条件分布符合伯努利分布,通过计算频率得出。
  • 多项式分布:。取值为0或1,其关于的条件分布符合伯努利分布,通过计算频率得出。
  • 多项高斯分布:。
    需要注意到利用统计方法计算时对样本数量的巨大需求,而以上三种分布的条件独立性都解决了这一困难。

0概率处理: 通过取对数将累乘转化为累加,而为了处理前两种方法中为零的乘积项,可以在计算和时在分子上都加上一个正常量,分母则加上相应值。

你可能感兴趣的:(2019-11-18)