叶斯分类器的应用
(1)小组的主要任务描述
我们组主要从三个方面做贝叶斯分类器的应用领域大综述,分别是:贝叶斯分类算法在数据预测中的应用及综述、朴素贝叶斯分类器在智能导诊中的应用和贝叶斯分类在职业性格分析中的应用。
(2)自己工作的主要描述
查找贝叶斯分类算法在数据预测中的应用及综述部分的资料与文献。
1.2 应用综述:
贝叶斯在很多方面都有应用,文本分类/垃圾文本过滤/情感判别,这是朴素贝叶斯应用最多的地方,现在的分类器有很多,但是在文本分类的场景中,朴素贝叶斯依旧占据着一席之地,因为多分类很简单,同时在文本数据中,分布独立这个假设基本是成立的。然而像垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。多分类实时预测:这个不算场景吧,对于文本相关的多分类实时预测,它因为上面提到的优点,被广泛应用,简单又高效。推荐系统:朴素贝叶斯和协同过滤(Collaborative Filtering)是一对好搭档,协同过滤是强相关性,但是泛化能力略弱,朴素贝叶斯和协同过滤一起,能增强推荐的覆盖度和效果。
1.3 贝叶斯分类算法在数据预测中的应用
利用数据挖掘中的朴素贝叶斯分类技术来研究鸢尾花数据集中有关于鸢尾花分类问题。以鸢尾花数据集为对象, 尝试通过数据挖掘中的朴素贝叶斯分类技术对数据进行分析, 实现对鸢尾花所属分类进行预测, 发现鸢尾花所属分类与鸢尾花各项数据之间的联系, 有助于对鸢尾花的培养进行管理。
鸢尾花数据集中数据属性分为花萼长 、花萼宽 、花瓣长 、花瓣宽和所属分类 5 项。为了编程方便, 使用 calyx length 表示花萼长 、calyx width 表示花萼宽 、petal length 表示花瓣长 、petal width 表示花瓣宽 、category 表示所属分类如表1所示 。
1.3.1设计思想
利用鸢尾花数据集,实现前向传播、反向传播,可视化loss曲线
朴素贝叶斯分类算法的步骤如下:
(1)计算训练数据集中每个种类所占的比例。
(2)计算每个属性在训练数据集中的条件概率P(X/Ci) , (i =1, 2, 3)
(3)求最大后验概率 P(Ci/X)
(4)判断 P1 , P2 , P3的大小。
1.3.2 主要步骤
(1)计算训练数据集中每个种类所占的比例 。
P(setosa) =P(versicolor) =P(virginica) =1/ 3 。
(2)计算每个属性在训练数据集中的条件概率 P( X | Ci ) , (i =1, 2, 3)
(这里使用 calyx 表示花萼, petal 表示花瓣 )
P( calyx length =5 .4 | category =setosa) =0 .15 =a1
P( calyx width =3 .7 | category =setosa) =0 .20 =a2
P( petal leng th =1 .5 | catego ry =setosa) =0 .40 =a3
P( petal width =0.2 | category =setosa) =0 .60 =a4
P( calyx length =5 .4 | category =versicolor) =0 .10 = b1
P( calyx width =3 .7 | category =versicolor) =0 .05 = b2
P( petal leng th =1 .5 | category =versicolor) =0 .00 = b3
P( petal width =0 .2 | category =versicolor) =0 .00 = b4
P( calyx length =5 .4 | category =virginica) =0 .10 = c1
P( calyx width =3 .7 | category =virginica) =0 .15 =c2
P( petal leng th =1 .5 | catego ry =virginica) =0 .00=c3
P( petal width =0.2 | category =virginica) =0 .00 =c4
从每个预测属性值可以得到如下数据 :
P( X | category =setosa) =a1*a2*a3*a4 =0 .15*0 .20*0 .40*0 .60 =0 .0072
P( X | category =versicolor) =b1*b2*b3*b4 =0 .10*0 .05*0*0 =0
P( X | category =virginical) =c1*c2*c3*c4 =0 .10* 0 .15*0*0 =0
(3)求最大后验概率 P( Ci | X)
P( X | Ci ) * P( Ci )
P1 =P( X | category = setosa) *P( set osa) =0 .0072 * 0 .33 =0 .002376
P2 =P( X | category = versicolor) *P( versicolor) =0 * 0 .33 =0
P3 =P( X | category = virginical) *P( virginical) =0 * 0 .33 =0
(4) 判断 P1 , P2 , P3 的大小 :Max( P1 , P2 , P3 )。
Max( P1 , P2 , P3 ) =P1 , 分在 Iris-setosa 类别 。
Max ( P1 , P2 , P3 ) =P2 , 分在 versicolor 类,
Max( P1 , P2 , P3 ) =P3 ,分在 virginical 类 。
1.3.3 准确性测试
1.3.4运行结果分析
这个是运行结果,从运行结果中我们可以看到随着loss的减少,准确率在不断提高,最后达到百分百的正确,这样完成了
1.4 总结
随着计算机技术的发展, 数据挖掘越来越受到研究人员的关注,而分类算法中的朴素贝叶斯分类算法以其简单的算法思想、较高的精确度等优点成为挖掘领域热门的研究方向。朴素贝叶斯分类算法是建立在各个属性之间的相互独立性假设的前提下进行的, 这种假设在现实中是很少出现的。朴素贝叶斯分类算法在属性之间没有那么严格的条件下也能发挥比较好的性能, 所以朴素贝叶斯分类算法在证券、消费、教育、银行等行业中占有一席之地 。