朴素贝叶斯

朴素贝叶斯是基于贝叶斯定理和假设特征条件独立的分类方法。 from https://fangpin.github.io

贝叶斯定理

(p(y|x)=\frac{p(x,y)}{p(x)}=\frac{p(y)*p(x|y)}{\sum_{y}{}p(y)*p(x|y)})

条件独立

(p(X=x|Y=c_k)=\prod_{j=1}^{n}p(X^j=x^j|Y=c_k))

朴素贝叶斯

(y=\arg \max_{c_k} \frac{p(Y=c_k)*\prod_{j} p(X^j=x^j|Y=c_k)}{p(X=x)})

分母为定值,分子最大时取得最大值。

参数估计

上述公式中概率根据训练数据进行经验估计。

(p(Y=c_k)=\frac{\sum_{i=1}{N}I(y_i = c_k)}{N})

(p(X^j=a_j|y=c_k)=\frac{\sum_{i=1}^{n}I(x_{i}^{j}=a_j,y_i=c_k)}{\sumI(y_i=c_k)})

上式概率值可能为0,引起分类偏差。引入

(p(X^j=a_j|y=c_k)=\frac{\sum_{i=1}^{n}I(x_{i}^{j}=a_j,y_i=c_k)+\lambda}{\sum_{}I(y_i=c_k)+lambda})

λ=1时,又称为拉普拉斯平滑。

你可能感兴趣的:(机器学习)