贝叶斯分类方法

        贝叶斯分类方法是统计学分类方法。它们可以预测类隶属关系的概率,如一个给定元组属于一个特定类的概率。

       贝叶斯分类基于贝叶斯定理。分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也表现出高准确率和高速度。

        朴素贝叶斯分类法假定一个属性值在给定类上的影响独立于其他属性的值。这一假定称为类条件独立性。做此假定是为简化计算,并在此意义下称为“朴素的”。

贝叶斯定理

        贝叶斯定理用Thomas Bayes的名字命名。设X是数据元组。在贝叶斯的术语中,X看做“证据”。通常,X用n个属性集的测量值描述。令H为某种假设,如数据元组X属于某个特定类C。对于分类问题,希望确定给定“证据”或观测数据元组X,假设H成立的概率  P(H|X)。换言之,给定X的属性描述,找出元组X属于类C的概率。

        P(H|X)是后验概率(posterior probability),或在条件X下,H的后验概率。例如,假设数据元组世界限于分别由属性age和income描述的顾客,而X是一位35岁的顾客,其收入为四万美元。令H为某种假设,如顾客购买计算机。则 P(H|X)反映当我们知道顾客的年龄和收入的情况下,顾客X购买计算机的概率 ( P(H|X)其实就是已经发生X的情况下,发生H的概率,即顾客年龄35,收入四万美元的情况下,他购买计算机的概率)。

        相反,P(H)是先验概率(prior probability),或H的先验概率。对于我们改定的例子,他是任意给定顾客购买计算机的概率,而不管他们的年龄、收入或任何其他信息。后验概率P(H|X)比先验概率P(H)基于更多的信息(例如顾客的信息),P(H)独立于X。

        类似的P(X|H)是条件H下,X的后验概率。也就是说,他是已知顾客X将购买计算机,该顾客是35岁并且收入是四万美元的概率。

        P(X)是X的先验概率。

          如何估计这些概率?贝叶斯定理是有用的,它提供了一种由P(X),P(H),和P(X|H)计算后验概率P(H|X)的方法。贝叶斯的定理是:

                

证明如下:

你可能感兴趣的:(贝叶斯分类方法)