朴素贝叶斯-连续型变量的概率估计

0. 前言

上一篇博文中,留下的问题是对于连续型变量的处理,将会在此篇博客中进一步说明。

1. 两种方法

  1. 分箱处理
    把每一个连续的属性离散化,即把连续型变量分成j个箱,将每个箱中的均值 x i ‾ \overline{x_i} xi看成一个特征 X i X_i Xi上的取值,再计算箱j中Y=1所占的比例,即P( x i {x_i} xi|Y=1)。但这种方法不好控制箱子的大小,如果箱子太小,就会因为样本太少而不能对P(X|Y)作出可靠的估计;如果箱子太大,会失去正确的决策边界。所以一般不采用这种方法
  2. 高斯分布
    假设连续变量服从某种概率分布,接着使用训练样本估计分布的参数,高斯分布通常被用来表示连续属性的类条件概率分布。
    高斯分布有2个参数,均值 μ \mu μ和方差 σ 2 \sigma^2 σ2,对于每个类 y i y_i yi,属性 X i X_i Xi的类条件概率为:
    朴素贝叶斯-连续型变量的概率估计_第1张图片
    参数 μ i j {\mu_{ij}} μij可以用类 y i {y_i} yi的所有训练样本关于 X i {X_i} Xi的样本均值来估计;参数 σ i j 2 {\sigma_{ij}^2} σij2可以用训练样本的方差来估计。

在贝叶斯中,fit就是估计对应分布的参数,predict就是在该参数的分布中进行概率预测。

你可能感兴趣的:(机器学习)