机器学习——生成模型与判别模型 知识点总结

通俗的解释:
1)生成模型 (先对数据的联合分布建模,再通过贝叶斯公式计算样本属于各个类别的后验概率) 由数据学习联合概率p(x,y),然后求出后验概率p(y|x)作为预测的模型,即:P(y|x)=p(x,y)/p(x)。
特点:可以从统计的角度表示数据的分布情况,能反映同类数据本身的相似度。但 不关心各类的边界在哪。 学习收敛速度更快。存在隐变量时,仍适用。
2)判别模型 (直接对条件概率建模,不关心背后的数据分布) 在有限样本下建立判别函数,不考虑样本的生成模型,直接研究预测模型。
特点:直接学习的是条件概率分布,不能反映训练数据本身的特性;寻找不同类别之间的最优分界面,反映异类数据之间的差异,学习的准确率高。

判别模型会生成一个表示P(Y|X)的判别函数(或预测模型),而生成模型先计算联合概率p(Y,X)然后通过贝叶斯公式转化为条件概率。简单来说,在计算判别模型时,不会计算联合概率,而在计算生成模型时,必须先计算联合概率。或者这样理解:生成算法尝试去找到底这个数据是怎么生成的(产生的),然后再对一个信号进行分类。基于你的生成假设,那么那个类别最有可能产生这个信号,这个信号就属于那个类别。判别模型不关心数据是怎么生成的,它只关心信号之间的差别,然后用差别来简单对给定的一个信号进行分类。
常见的判别模型有:KNN、SVM、LR、SVM、KNN....
常见的生成模型有:朴素贝叶斯,隐马尔可夫模型、Gaussians....
两个模型的对比
机器学习——生成模型与判别模型 知识点总结_第1张图片

eg: 经典提问:Navie Bayes和Logistic回归区别是什么?
前者是生成式模型, 后者是判别式模型,二者的区别就是生成式模型与判别式模型的区别。
1)首先,Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例,计算联合概率,进而求出后验概率。也就是说,它尝试去找到底这个数据是怎么生成的(产生的),然后再进行分类。哪个类别最有可能产生这个信号,就属于那个类别。
优点: 样本容量增加时,收敛更快;隐变量存在时也可适用。
缺点: 时间长;需要样本多;浪费计算资源
2)相比之下,Logistic回归不关心样本中类别的比例及类别下出现特征的概率,它直接给出预测模型的式子。设每个特征都有一个权重,训练样本数据更新权重w,得出最终表达式。梯度法。
优点: 直接预测往往准确率更高;简化问题;可以反应数据的分布情况,类别的差异特征;适用于较多类别的识别。
缺点: 收敛慢;不适用于有隐变量的情况。

你可能感兴趣的:(机器学习,机器学习,生成模型,判别模型)