李航第一章 机器学习与监督学习概论

1.5 正则化 数学原理及扩展

 

为什么正则化能够解决过拟合的问题?

为什么L1正则更具有稀疏性?

答:【机器学习 面试题】为什么正则化可以防止过拟合?为什么L1正则化具有稀疏性?_哔哩哔哩_bilibili

1.6 泛化能力

常用泛化误差上界来表示泛化能力,公式是重点,可以等后面具体例子中结合一下理解

1.7 生成模型与判别模型

直观理解:判别式模型关心边界,生成式模型关心数据本身特点

李航第一章 机器学习与监督学习概论_第1张图片

简单实例:

李航第一章 机器学习与监督学习概论_第2张图片

生成式模型估计的是联合概率分布,强调数据本身的特点,所有可能情况的概率加起来是1

判别式模型估计的是条件概率分布,强调数据边界,在同一个x下y分布的概率之和为1

当存在隐变量时,仍可使用生成方法,但不可使用判别方法。因为生成模式同时对x和y建立概率模型,如果x中有出现没有观察到的量或者只有部分y的时候,就可以很自然的使用EM算法进行处理

EM算法理解:https://www.jianshu.com/p/1121509ac1dc

生成式模型VS判别式模型

生成式模型 判别式模型
优点

1.收敛速度更快,当样本量增加时,生成模型可更快收敛于真实模型;

2.隐变量存在时也可以使用

1.关注数据边界,准确率相对较高;

2.计算量较小,需要样本数也较小

缺点

1.学习和计算过程复杂,计算量大;

2.准确率较差

3.往往需要对特征进行假设(先验模型),如果不符合则影响生成模型的性能

1.不能反映训练数据本身的特性;

2.收敛速度较慢

代表算法

朴素贝叶斯

隐马尔可夫模型

k近邻、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、条件随机场

第一章课后题讲解

【机器学习】李航《统计学习方法 第二版》 第一章 课后习题 讲解_哔哩哔哩_bilibili

你可能感兴趣的:(李航机器学习方法,机器学习,学习,人工智能)