《机器学习》读书笔记--1

今天开始研读周志华老师的《机器学习》,看了第一章绪论和第二章模型评估与选择的一部分,之前看过一些相关视频课程,所以读起来还算顺利,没遇到太大的阻碍。(概率论部分的知识还是要再回头看看- -!)

以下是对今天所看内容的一些小结:
1. 预测的是离散值,例如:“好瓜”“坏瓜”,此类学习任务称为“分类”(classification);若预测的是连续值,例如西瓜的成熟度为0.95、0.8等,此类学习任务称为“回归”(regression)。
2. 任何一个有效的机器学习算法必有其归纳偏好
3. 奥卡姆剃刀(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”(然而值得注意的是,判断哪个假设更简单这件事本身并不简单!~~有趣)
4. 由没有免费的午餐定理,可以知道:没有最好的学习算法,只有最合适的学习算法
5. 过拟合无法彻底避免,是机器学习面临的关键障碍
6. 测试集应尽可能与训练集互斥,即测试集和训练集不应包含相同的样本
7. 在分类问题中,采样的数据类别比例应该相似,称为“分层采样”。
8. 评估方法:留出法(常见的做法是2/3~4/5的样本用于训练,剩余的用于测试)、交叉验证法(10折交叉验证,看下图)、自助法( b o o t s t r a p p i n g )
《机器学习》读书笔记--1_第1张图片
9. 查准率和查全率是一对矛盾的度量:一般来说,查准率高时,查全率往往偏低,反之也是如此。查准率(打比方):检测所得的结果有多少是好的;查全率:好的结果有多少被检测出。
10. ROC和AUC(ROC围成的面积),ROC:站在角度->“一般情况下”泛化性能的好坏(综合考虑学习器在不同任务下的“期望泛化性能”的好坏)。AUC:考虑的是样本预测的排序质量
11. “代价敏感”(cost-sensitive)错误率,考虑了不同的错误会造成不同程度的后果
12. 代价曲线与期望总体代价
13. P38页 式子有些难理解,回头再看看。

在 https://blog.csdn.net/u012566895/article/details/51220127 补了一些概率论的知识,明天继续看。

你可能感兴趣的:(机器学习读书笔记)