《西瓜书》学习笔记第一章、第二章

《西瓜书》个人笔记

  • 绪论

1.1 概念

     机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习的主要内容:关于在计算机上从数据中产生“模型”的算法,即学习算法。

1.2 术语

  数据集:记录的集合

  示例:关于一个事件或对象的描述

  属性:反映事件或对象在某方面的表现或性质的事项

  属性值:属性上的取值

  学习:从数据中学得模型的过程

  训练数据:训练过程中使用的数据

  测试:学得模型后,使用其进行预测的过程

  监督学习——分类和回归

  无监督学习——聚类

  泛化:学得模型适用于新样本的能力

1.3 假设空间

  归纳:从特殊到一般的泛化

  演绎:从一般到特殊的泛化

1.4 归纳偏好

  归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

  学习算法必须有某种偏好才能产出它认为正确的模型

 第一章中还介绍了机器学习的发展历程、应用现状和阅读材料。

  •  模型评估与选择

2.1 经验误差与过拟合

 错误率:分类错误的样本数占样本总数的比例

2.2 评估方法

 测试集

 留出法、交叉验证法、自助法

2.3性能度量

 均方误差

错误率与精度、查准率、查全率、ROC、代价敏感错误率与代价曲线

2.4 比较检验

 假设检验、交叉验证t检验

2.5 偏差与方差

 偏差-方差分解:对学习算法的期望泛化错误率进行拆解

 偏差与方差的冲突:偏差-方差窘境

你可能感兴趣的:(算法,机器学习,人工智能)