机器学习第一章

第一章主要对机器学习的基本术语,目的及原理做了简单阐述

1.

机器学习的目的:通过经验对新情况做出预判

机器学习研究如何通过计算(产生模型)的手段,利用经验(数据)来改善系统自身的性能

基于数据产生模型

研究 学习算法(给定数据和参数空间上的实例化)

对经验进行学习

模型: 从数据中学的的结果

训练: 从数据中学的模型的过程


2.基本术语

对对象的描述 :数据集 (事例,样本集合)

对对象某方面的描述 :属性

属性上的取值 :属性值

属性张成的空间里:属性空间(一个属性一条坐标轴,每个样本可以找到一个坐标)

模型(假设)(学习器)对应数据(训练数据 训练样本 训练集)的规律(真相),包含训练样本的数据和结果

对于(x,y) ,y是实例x的标记,Y是所有标记的集合(标记空间,输出空间)

{(X1' Y1) , (X2 , Y2) ,..., (Xm , Ym)} 是一个训练集


监督学习(训练数据拥有标志信息(结果))

  分类 预测离散值

      二分类(正类,反类)Y = {-1 ,十 1} 或 {O, l};

      多分类 IYI >2

    回归 预测连续值(程度)Y= R,R 为实数集

无监督学习(训练数据无标志信息):聚类


学得模型后,使用其预测的过程称为"测试" ,被预测的样本 称为测试样本" .y = f(x).


机器学习的目标是使学得的模型能很好地适用于"新样本”(泛化能力),而不是仅仅在训练样本上工作得很好


3.假设空间

归纳 :泛化过程 从特殊事例到一般规律

演绎 :特化过程 从公理推导出定理


狭义的归纳学习 概念学习

学习过程:在所有假设中进行搜索的过程


一个假设:"好瓜:(色泽= *) ^(根蒂=蜷缩)^(敲声=浊响)"

假设空间的规模大小:所有属性的可能取值数量相乘加一(不存在这个标记,属性可能取值为空集)


对假设空间进行搜索,删除与正例不一致的假设(得不到是的结果),获得与训练集一致的假设。

假设空间存在多个与训练集一致的集合(版本空间)(某一属性的可能取值换成通配值也成立)

假设空间是所有可能取值的集合,版本空间是假设空间内所有与训练集一致的集合。


4.归纳偏好

由于算法对模型(属性取值的选择)的偏好作出不同的选择 对结果造成影响

如果没有偏好,算法会随机抽取等效假设,产生不稳定的结果

"奥卡姆剃刀" 是一种常用的、自然科学 研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个。

模型的选择应该关注正在解决的问题,而对是否能在相似的问题上成为好方案不关心,要考虑具体的问题,即学习算法的偏好是否与问题相匹配。

你可能感兴趣的:(机器学习第一章)