在前一篇文章中,我们通过计算频率的方式来计算条件概率。对于未观测到的样本,其条件概率为0。这种假设看起来不太合理。现在我们要采用另一种方式来计算条件概率。
我们假设特征之间相互独立,并服从正态分布。所有分类为C的样本的集合为Dc,集合中第i个特征服从正态分布:Xi ~ N(0,1)。通过计算Dc中所有特征的条件概率,最终得到单个样本属于分类C的条件概率,从而达到分类的目的。
计算过程如下:
以上文的数据来演示贝叶斯分类算法:
import math
#是否985(0-否 1-是) 学历(1-本科 2-硕士 3-博士) 技能(1-C++ 2-JAVA) 是否录用(0-否 1-是)
samples = [[1, 1, 1, 0],
[1, 1, 2, 1],
[0, 2, 2, 1],
[0, 2, 1, 0],
[1, 1, 2, 1],
[0, 2, 1, 0],
[1, 2, 2, 1],
[1, 3, 1, 1],
[0, 3, 2, 1],
[0, 1, 2, 0]]
#分布参数
feature_cnt = 3
c_f_miu = {}
c_f_sigma = {}
def get_samples_by_class(c_value):
ret_samples = []
for sample in samples:
c_tmp = sample[feature_cnt]
if c_value == c_tmp:
ret_samples.append(sample)
return ret_samples
#计算类别C(不录用、录用)条件下,每个特征的正态分布参数(miu_c_i, sigma_c_i)
def calc_miu_sigma_for_C_F(c_samples, f_idx):
sample_cnt = len(c_samples)
if sample_cnt == 0:
return
f_value_sum = 0
for sample in c_samples:
f_value_sum += sample[f_idx]
miu = f_value_sum / sample_cnt
variance = 0
for sample in c_samples:
variance += ((sample[f_idx] - miu) * (sample[f_idx] - miu))
sigma = variance / sample_cnt
c_value = c_samples[0][feature_cnt]
key_str = 'c{c_val}_f{f_idx_val}'.format(c_val=c_value, f_idx_val=f_idx)
c_f_miu[key_str] = miu
c_f_sigma[key_str] = sigma
#计算一个分类、一个特征的条件概率
def calc_P_C_F(c_value, f_idx, f_value):
key_str = 'c{c_val}_f{f_idx_val}'.format(c_val=c_value, f_idx_val=f_idx)
miu = c_f_miu[key_str]
sigma = c_f_sigma[key_str]
p = (math.exp(-(f_value - miu) * (f_value - miu) / (2 * sigma))) / math.sqrt(math.pi * 2 * sigma)
return p
#计算一个样本的条件概率P(C|f1,f2,f3)
def calc_P_C_sample(c_value, p_c_val, f1_val, f2_val, f3_val):
p1 = calc_P_C_F(c_value, 0, f1_val)
p2 = calc_P_C_F(c_value, 1, f2_val)
p3 = calc_P_C_F(c_value, 2, f3_val)
p_c_sample = p_c_val * p1 * p2 * p3
return p_c_sample
if __name__ == "__main__":
samples0 = get_samples_by_class(0)
samples1 = get_samples_by_class(1)
calc_miu_sigma_for_C_F(samples0, 0)
calc_miu_sigma_for_C_F(samples0, 1)
calc_miu_sigma_for_C_F(samples0, 2)
calc_miu_sigma_for_C_F(samples1, 0)
calc_miu_sigma_for_C_F(samples1, 1)
calc_miu_sigma_for_C_F(samples1, 2)
#计算类别的概率P_C
cnt = len(samples)
p_c0 = len(samples0) / cnt
p_c1 = len(samples1) / cnt
#计算样本的条件概率
for sample in samples:
p0 = calc_P_C_sample(0, p_c0, sample[0], sample[1], sample[2])
p1 = calc_P_C_sample(1, p_c1, sample[0], sample[1], sample[2])
print('sample: (%d, %d, %d), result %d ===> p0 = %f, p1 = %f' %(sample[0], sample[1], sample[2], sample[3], p0, p1))
所有样本的预测结果如下:
sample: (1, 1, 1), result 0 ===> p0 = 0.031035, p1 = 0.008020
sample: (1, 1, 2), result 1 ===> p0 = 0.008181, p1 = 0.088405
sample: (0, 2, 2), result 1 ===> p0 = 0.031035, p1 = 0.088405
sample: (0, 2, 1), result 0 ===> p0 = 0.117735, p1 = 0.008020
sample: (1, 1, 2), result 1 ===> p0 = 0.008181, p1 = 0.088405
sample: (0, 2, 1), result 0 ===> p0 = 0.117735, p1 = 0.008020
sample: (1, 2, 2), result 1 ===> p0 = 0.008181, p1 = 0.187153
sample: (1, 3, 1), result 1 ===> p0 = 0.000568, p1 = 0.008020
sample: (0, 3, 2), result 1 ===> p0 = 0.000568, p1 = 0.041759
sample: (0, 1, 2), result 0 ===> p0 = 0.031035, p1 = 0.041759
貌似最后一个样本预测结果错误,正确率90%。
有一个疑问:所有分类为C的样本组成的集合为Dc,Dc中的每个特征相互独立且符合正态分布。以特征二(学历)为例,特征的取值为“1-本科 2-硕士 3-博士”。如果将特征取值改为“11-本科 21-硕士 31-博士”,得到的计算结果可能会不同。也就是说,不同的特征表示方法,虽然含义相同,但是概率计算结果可能不同。
这个问题想明白了,正态分布适用于连续特征变量的概率值计算,离散特征不能使用正态分布,可以统计频率作为概率。
上例中的特征都是离散变量,不能使用正态分布来模拟。上例使用了正态分布来计算条件概率是不合理的,不过代码演示了正态分布计算条件概率的方法,是可以参考的。