首先我们回顾一下前几节介绍的几个线性分类器
垂直平分分类器:未经优化,错误率通常较大;
感知器:优化(求线性可分样本集的解),最终错误率未知(条件苛刻,要求样本线性可分);
最小平方误差:优化(样本集MSE的解),最终错误率未知(条件相对比较宽松,取消样本线性可分的要求);
之前几节介绍的分类器错误率都属于未知情况,很难做一个量化的描述,所以提出了Bayes分类的概念,这里有必要将错误率的精确描述提一下。
错误率:几乎所有的分类器在识别时都有可能出现错误分类(简称错分/ 误判)的情况,这种错误分类的可能性称为分类器识别结果的错误概率,简称错误率/ 误判率。
寻求概率意义上的最小错误率的分类器,即具有最小错分概率的分类器。
概率论和数理统计
可能大家都觉得以下的概念都经常见,但是这些概念中的一些关键点还是会被我们忽略:
随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。--百度学术。
这是一句看似简单的定义,却包含着不简单的内涵:
1.可以在相同的条件下重复进行;
2.每个试验的可能结果不止一个,并且能事先预测试验的所有可能结果;
3.进行一次试验之前不能确定哪一个结果会出现;
在我理解中,像这种出门不小心骑车被车蹭了不可以叫做随机事件(不满足可预测和重复进行的条件,当然更不具有规律性了)最多叫不确定事件(发生什么无法预知)。
那么我们为什么要关于随机事件的定义讨论这么久这么细呢?
没错,闲的。当然非要说有什么正经的意义,可以锻炼自己严谨的科研态度,虽然大部分人已经不是很关注了。
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B)。
贝叶斯公式是关于随机事件A和B的条件概率和边缘概率的。
有一个非常直观的例子
一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?
我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20*365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058
所以狗想叫就让他叫吧,小偷该偷偷他的,你该睡睡你的。
随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
同样举个生动的例子:
在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以小写标记。
连续型的随机变量取值在任意一点的概率都是0。作为推论,连续型随机变量在区间上取值的概率与这个区间是开区间还是闭区间无关。要注意的是,概率P{x=a}=0,但{X=a}并不是不可能事件。
概率密度函数f(x)的性质:
已知条件:
两类问题:ω1和ω2
先验概率:P(ω1) 和P(ω2)
类条件概率密度函数:p(x|ω1) 和p(x|ω2)
发生了一个随机事件,其观察值为:特征向量x
求解:
最小错误率分类器
p(x|ω1) P(ω1) = p(x) P(ω1|x)
p(x|ω2) P(ω2) = p(x) P(ω2|x)
P(ω1|x) = p(x|ω1) P(ω1) / p(x)
P(ω2|x) = p(x|ω2) P(ω2) / p(x)
p(X) =p(x|ω1) P(ω1) + p(x|ω2) P(ω2)
1. 对于未知样本x,
若P(ω1|x) >P(ω2|x),则x∈ω1;
若P(ω1|x) <P(ω2|x),则x∈ω2;
2. 对于未知样本x,
若p(x|ω1) P(ω1) >p(x|ω2) P(ω2) ,则x∈ω1;
若p(x|ω1) P(ω1) <p(x|ω2) P(ω2) ,则x∈ω2;
3. 定义似然比函数l(x) = p(x|ω1) /p(x|ω2)
对于未知样本x,
若l(x) >P(ω2) / P(ω1),则x∈ω1;
若l(x) <P(ω2) / P(ω1),则x∈ω2;
4. 定义负对数似然比函数h(x) = -ln l(x) = -ln p(x|ω1) + ln p(x|ω2)
对于未知样本x,
若h(x) <ln [ P(ω2) / P(ω1) ],则x∈ω1;
若h(x) >ln [ P(ω2) / P(ω1) ],则x∈ω2;
这些决策规则花里胡哨的,记住一个足矣。
讨论前提:(C=2,D=1)
首先我们应该讨论错误率P(e)的定义:
接下来,问题就变得很简单了,我们只需要找到在当前先验概率前提下两类的x取值分界点t,
就可以计算出最小的错误率了。
已知条件:
L类M维问题:ω1,ω2,…,ωC;
先验概率:P(ω1),P(ω2),…,P(ωC);
类条件概率密度函数:p(x | ω1),p(x | ω2),…,p(x | ωC);
发生了一个随机事件,其观察值为:特征向量x;求解问题:最小错误率分类器
判别函数
P(ωi|x) = p(x|ωi) P(ωi) / p(x) , i= 1, …, C;
决策规则
对于未知样本x,若P(ωj|x) = max P(ωi|x),则x∈ωj。
最小错误率Bayes决策特点
1. 已知条件多——各类概率分布
2. 最小错误率——概率意义上最优
3. 设计过程复杂
这是关于最小错误率贝叶斯分类器,下届我们会介绍最小风险贝叶斯分类器。