机器学习读书笔记——第一章 绪论(一)

       今天是第一次开始在csdn上面写博客,也是开始记录周志华《机器学习》、李航《统计学习方法》等书籍的读书笔记,让自己养成良好的读书习惯,通过写笔记进一步加深理解。
       周志华《机器学习》中用西瓜的例子贯穿始终。判断西瓜是否是好瓜的依据:色泽,根蒂,敲声、文理、脐部、触感等。
       周志华《机器学习》中(,,,,)表示行向量,(;;;;)表示列向量,注意区分。

一、机器学习定义

       机器学习致力于研究如何通过计算手段利用经验改善系统自身的性能
  Mitchell给出的更具体的定义:假设用P来估计计算机程序在某项任务类T上的性能,若一个程序通过利用经验E(经验通常以数据形式存在)在T中任务上获得了性能改善,则我们说关于T和P,该程序对E进行了学习
  例1:比如说挑西瓜,假设任务T定义为挑到好西瓜,性能P定义为挑到好西瓜的正确率,经验E是已知的好瓜和坏瓜的西瓜数据。在学习过程中,一个程序要的任务是挑选好西瓜,这就是任务T,如果先不给程序使用经验E,而是随便基于什么规则挑西瓜,则挑到的西瓜可能是好瓜也可能是坏瓜,这时的性能P(在本例中是正确率)往往不好,之后该程序利用经验E(好瓜,坏瓜的数据),最终挑到一个西瓜,如果挑到的西瓜是好瓜的概率比原来大,也就是性能P提升了,我们就说关于挑瓜的任务T和性能P,该程序对E进行了学习。

二、基本术语

       第一章会这几大量机器学习专用术语,刚开始学习的时候很容易搞混,看着就晕,没事的,多看几次就好了。

1.记录

       上面提到,在计算机系统中,经验E往往以数据的形式存在。在西瓜书中,用到的是关于西瓜的数据。比如说这里收集到了三个数据(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),则每对括号内就是一条记录。
       注意: 这里的“=”是赋值符号,表示“取值为”

2.数据集(data set)

       这些记录的集合是数据集(因为下面可能会用到样本A,所以写成这种格式可以更方便查看。格式是丑了点,哈哈)。

假设
A=(色泽=青绿;根蒂=蜷缩;敲声=浊响),
B=(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
C=(色泽=浅白;根蒂=硬挺;敲声=清脆),
则这个数据集可以写成{A,B,C}

3.样本(sample)或示例(instance)

       每一条记录都是关于一个事件或某对象(这里是西瓜)的描述,称为一个“示例”或“样本”。比如A就是一个示例,也可以称为样本。

4.属性(arrtibute)或特征(feature),属性值(arrtibute value)

       反应事件或对象某方面表现或性质事项为“属性”或“特征”。比如色泽、根蒂、敲声都反映的是西瓜的表现或性质,则色泽、根蒂、敲声就是属性,也称特征。属性的取值就是属性值,比如样本A中,属性”色泽“的属性值是”青绿“,属性”根蒂“的属性是”蜷缩“。

5.样本空间(sample space)

       属性张成的空间称为”属性空间“或”样本空间“或”输入空间“。比如如果把”色泽“,”根蒂“,”敲声“这三个属性作为三个坐标轴,他们就张成一个三维空间。这个三维空间可以描述西瓜,每个西瓜都可以在这个空间中找到自己的坐标。由于该空间中每个点都对应一个坐标向量,所以一个示例也可以称为一个”特征向量“
        设数据集D包含m各样本,则数据集D可以写成 D = { x 1 , x 2 , x 3 , . . . , x m } D=\left \{ x_{1},x_{2},x_{3},...,x_{m}\right \} D={ x1,x2,x3,...,xm} x i x_{i} xi表示第i个样本,每个样本有d个属性(比如说上面样本A,有三个属性”色泽“,”根蒂“,”敲声“),那么第i个样本 x i x_{i} xi就可以写成 x i = { x i 1 ; x i 2 ; x i 3 ; . . . ; x i d } = { x i 1 , x i 2 , x i 3 , . . . , x i d } T x_{i}=\left \{ x_{i1};x_{i2};x_{i3};...;x_{id}\right \}=\left \{ x_{i1},x_{i2},x_{i3},...,x_{id}\right \}^{T} xi={ xi1;xi2;xi3;...;xid}={ xi1xi2xi3...xid}T,因为 x i x_{i} xi有d个属性,也称 x i x_{i} xi为d维(列)向量,那么D还可以写成

D = { x 1 , x 2 , x 3 , . . . , x m } = [ x 11 x 21 . . . x m 1 x 12 x 22 . . . x m 2 . . . . . . . . . x 1 d x 2 d . . . x m d ] D=\left \{ x_{1},x_{2},x_{3},...,x_{m}\right \}=\begin{bmatrix} x_{11}& x_{21} &... x_{m1}\\ x_{12}&x_{22} &... x_{m2} \\ . & . & . \\ . & . & . \\ . & . & . \\ x_{1d}&x_{2d} & ... x_{md} \end{bmatrix} D={ x1,x2,x3,...,xm}=x11x12...x1dx21x22...x2d...xm1...xm2......xmd

数据集D(在后面的学习过程中常常会用转置表示的形式)的每行表示一个属性,每列表示一个样本, x i j x_{ij} xij表示第i个样本在第j个属性上的取值,比如样本集D={A,B,C} , x 11 x_{11} x11表示第一个样本A上的第一个属性“色泽”。

6.训练集(training set)

       从数据中学得模型的过程称为“学习”或“训练”,这个过程是通过执行某个学习算法来完成的。训练过程中使用的数据称为“训练数据”,其中的每个样本称为训练样本训练样本组成的集合称为训练集。

7.标记 (label),样例(example)

       到目前为止,我们有了数据集D={A,B,C},但是这些数据只是描述西瓜了属性,并没有让我们知道样本A,B,C哪个瓜是好瓜,哪个是坏瓜,而为了完成挑选好西瓜的任务T,我们需要获得训练样本的“结果”信息(也就是好瓜,坏瓜,对一个具体的样本而言,这个“结果”只能是唯一的),比如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)=(A,好瓜),这个“好瓜”就是样本A的标记,也就是说把样本A标记为好瓜,拥有了标记的样本称为“样例”。可以看出来,样例就是样本加了标记后形成的。

8.标记空间(label space)

       用 y i y_{i} yi是样本 x i x_{i} xi的标记,则可用 ( x i , y i ) \left ( x_{i},y_{i} \right ) (xi,yi)表示第i个样例,标记 y i y_{i} yi集合称为“标记空间”或“输出空间”。在西瓜判断中,西瓜要么是好瓜,要么是坏瓜,如果在某个数据集中,好瓜坏瓜都有,那么标记空间是 {好瓜,坏瓜},如果给定样本集的样本标记只有好瓜,标记空间就是 {好瓜}

9.机器学习的种类

       1.是否在人类监督下训练分为:监督学习、无监督学习、半监督学习、强化学习。
                     注:监督学习与无监督学习主要以是否有标记信息区分。前者代表:分类、回归,后者代表:聚类
       2.是否动态地进行增量学习分为:在线学习、批量学习
       3.是简单地将新的数据点和已知数据点进行匹配,还是像科学家那样,对训练数据进行模式检测,然
        后建立一个预测模型分为:基于实例的学习和基于模型的学习

10.分类与回归

       1.预测的是离散值,此类学习任务称为“分类”只有两个类的分类称为”二分类“,通常一个称为正类,一个为反类;多于两个类的一般称为多分类。比如预测西瓜的好坏就属于分类,而且只用分为好瓜还是坏瓜,所以也是二分类任务。预测第二天的天气如何,因为第二天可能下雨,可能晴天,可能阴天,也可能下雪,所以称为多分类任务。
       2.预测的是连续值,此类学习任务称为“回归”。比如预测西瓜的成熟度是0.95,0.5。
       一般而言,分类任务希望通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \} { (x1,y1),(x2,y2),...,(xm,ym)}进行学习,建立起一个从输入空间 χ \chi χ到输出空间 υ \upsilon υ的映射 χ → υ \chi\rightarrow \upsilon χυ,对于二分类任务而言,习惯写成 υ = { − 1 , + 1 } 或 { 0 , 1 } \upsilon=\left \{-1,+1 \right \}或\left \{0,1 \right \} υ={ 1,+1}{ 0,1},对于多分类任务, ∣ υ ∣ > 2 \left | \upsilon \right |>2 υ>2 , ∣ υ ∣ \left | \upsilon \right | υ表示该空间所包含的元素个数,所以二分类 ∣ υ ∣ = 2 \left | \upsilon \right |=2 υ=2.

11.测试样本(testing sample)

       通过学习数据得到了模型后,要进行预测,该过程称为”测试“,被预测的样本称为“测试样本”。比如,通过训练样本,学得了模型f,对于测试样本x,得到预测标记 y = f ( x ) y=f(x) y=f(x) . (注:这个标记后面会用来计算模型的优劣)

12.泛化

       机器学习的目标是使得学到的模型能够很好地适用于“新样本”,而不仅仅是在训练样本上做的很好。学得模型适用于新样本的能力称为“泛化”能力
       通常假设样本空间中全体样本服从一个“未知”分布,每个样本独立同分布。一般而言,训练样本数越多,获得的关于“未知”分布的信息越多,学到的模型泛化能力越可能好。

你可能感兴趣的:(机器学习,机器学习,基本术语,第一章,绪论)