贝叶斯公式的机器学习理解视角

继续分析例题

吸毒者检测
假设一个吸毒检测器的准确率为99%,也就是说,当被检者吸毒时,每次检测呈阳性(+)的概率为99%。而被检者不吸毒时,每次检测呈阴性(-)的概率为99%。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位检测呈阳性的雇员吸毒的概率有多高?令 D 为雇员吸毒事件,~D 为雇员不吸毒事件,+为检测呈阳性事件。

用离散贝叶斯定理对一个例子的分析 这篇文章,我们是通过贝叶斯公式的视角来分析的,下面做一个映射,将其转化为机器学习问题。

已知在机器学习算法中,我们有样本数据 ( X , y ) (X, y) (X,y),其中 X X X 表示输入, y y y表示输出,学习的目标,是找到一个模型 M,适中地拟合 X 和 y(不过拟合,也不欠拟合),从而在将来遇到新的输入数据 X 时,能较好地预测输出 y。

下面进行映射过程:

雇员吸毒与否,是我们需要预测的目标,对应样本数据中的 y y y,阴阳性,则是我们的观察结果,对应样本数据中的 X,即贝叶斯视角和机器学习视角的对应关系如下:

贝叶斯视角 机器学习视角
阴阳性 X
是否吸毒 Y

由于检测结果只有 阴性和阳性,所以 X 的取值为 0 或 1,Y 表示是否吸毒,取值也为 0 或 1,所以贝叶斯视角和机器学习视角的样本空间的对应关系如下:

贝叶斯视角 机器学习视角
雇员吸毒,检测为阳性 (1,1)
雇员吸毒,检测为阴性 (0,1)
雇员没有吸毒 ,检测为阳性 (1, 0)
雇员没有吸毒,检测为阴性 (0, 0)

在吸毒者检测中,我们没有具体的样本数据,有的只是样本数据的统计概率。但是不影响,我们可以根据概率,生成一些样本数据。我们已知雇员吸毒的概率为 0.5%,所以我们可以生成100, 000个 ( x , y ) (x,y) (x,y)数据,其中500个 ( x , 1 ) (x, 1) (x,1),99, 500个 ( x , 0 ) (x, 0) (x,0)。已知雇员吸毒的情况下,阳性的概率为 0.99,即在500个为(x,1)的样本中,有495个为 (1,1),5个为(0,1)。已知雇员不吸毒的情况下,阳性的概率为0.01,即在99500个为(x,0)的样本中,有995个为(1,0),有98505个为(0,0)。整理表格如下

样本 个数
(0,1) 5
(1,1) 495
(1,0) 995
(0,0) 98505

有了上面的数据,我们便可以用机器学习算法,对数据进行拟合。回到题干的问题:每位检测呈阳性的雇员吸毒的概率有多高,我们可以用训练好的模型,对 100 个,或者 1000 个 输入x=1的样本进行预测,得到预测集合中 y ^ = 1 \hat{y}=1 y^=1结果的占比即为检测呈阳性的雇员吸毒的概率。

你可能感兴趣的:(算法)