3.2 机器学习 --- 朴素贝叶斯作业

3.2 机器学习 — 朴素贝叶斯作业

  1. 口述朴素贝叶斯的条件概率公式和全概率公式

    image-20221108181248743
    • 条件概率分布:相当于事件B发生的情况下事件A发生的概率等于事件A发生的情况下事件B发生的概率乘以事件A发生的概率除以事件B发生的概率。

    • 全概率公式

      image-20221108181458591

      相当于是对样本空间Ω进行划分,划分成B1,B2,B3,…Bn, 也说B1,B2,B3,…Bn, 是一个完备的事件组, 对任意一个事件C,事件C发生的概率就是在各个划分空间下C 发生的概率与各个BI发生的概率的乘积的和

    • 朴素贝叶斯的条件概率分布

      • 与全概率解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率,设B1,B2… 是样本空间Ω的划分,那么对任意UI个事件A,有

        image-20221108190509804

    上式子是为贝叶斯公式,贝叶斯公式就是条件概率,乘法公式、全概率公式的组合。

    Bi常被视为导致试验A发生的原因,P(Bi)表示各种原因发生的可能性大小,故称为先验概率。

    P(Bi|A)(i=1,2,…)则反应当试验产生了结果A之后,再对各种原因概率的新认识,故称为后验概率。

  2. 正则化项L1,L2的朴素贝叶斯角度理解

    正则化(regularization)是防止模型过拟合(overfitting)的 有效方式之一。常用的正则化包括L1正则和L2正则,我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归,使得参数稀疏化,倾向于产生稀疏模型,是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。而L2正则化对应岭回归,倾向于选择使各个参数尽可能小的模型,L2正则化更平滑,在可解释性方面差于L1正则化,但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。在假设了数据集的误差服从Gaussian分布的条件下,通过最大似然估计(MLE)最大化似然函数(3)等价于最小化平方损失(1),进一步地我们可以得到一个普遍的结论:最小化经验损失(empirical loss)对应于贝叶斯框架下最大化似然函数。上述分析是在没有假设参数先验的情况下进行的,很容易产生过拟合,下面我们对参数w引入先验分布,以此来降低模型的复杂度。

    通过计算发现,L2正则化等价于对参数引入Gaussian先验分布。ridge regression 并不具有产生稀疏解的能力,也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关,L2正则倾向于综合两者的影响,给影响大的特征赋予高的权重;而L1正则倾向于选择影响较大的参数,而舍弃掉影响较小的那个。实际应用中 L2 正则表现往往会优于 L1正则,但 L1 正则便于产生稀疏模型,便于进行特征选择。正则化参数等价于对参数引入 先验分布,使得 模型复杂度 变小(缩小解空间),对于噪声以及outliers的鲁棒性增强(泛化能力)。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中 正则化项 对应后验估计中的 先验信息 ,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式。

    L2正则化相当于为参数w加入了高斯分布的先验

你可能感兴趣的:(人工智能)