周志华西瓜书笔记 1.2 基本术语

我原本想着一边读一边删减一些以后好复习的,谁知这书一句废话没有,一晚上敲了个寂寞

1.2 基本术语

关于西瓜的数据:
(色泽 = = =青绿; 根蒂 = = =蜷缩; 敲声 = = =浊响)
(色泽 = = =乌黑; 根蒂 = = =稍蜷; 敲声 = = =沉闷)
(色泽 = = =浅白; 根蒂 = = =硬挺; 敲声 = = =清脆)

  一对括号内是一条记录," = = =“意思是"取值为”.

  一组记录的集合称为一个"数据集"(data set), 每条记录是关于一个事件或对象(这里是一个西瓜)的描述, 成为一个"示例"(instance)或"样本"(sample). 反映事件或对象在某方面的表现或性质的事项, 例如"色泽", 称为"属性值"(attribute value). 属性张成的空间称为"属性空间"(attribute space)、“样本空间”(sample space)或 “输入空间”. 把"色泽" “根蒂” “敲声"作为三个坐标轴, 则它们张成一个用于描述西瓜的三维空间, 每个西瓜都可在这个空间中找到自己的坐标位置. 由于空间中的每个点对应一个坐标向量, 因此也把一个示例称为一个"特征向量”(feature vector).

  一般地, 令 D = { x 1 , x 2 , . . . , x m } D=\bf \{x_1,x_2,...,x_m\} D={x1,x2,...,xm}表示包含 m m m 个示例的数据集, 每个示例由 d d d 个属性描述, 则每个示例 x i \bf x_i xi = ( x i 1 ; x i 2 ; . . . ; x i d ) =(x_{i1};x_{i2};...;x_{id}) =(xi1;xi2;...;xid) d d d 维样本空间 X X X中的一个向量, x i ∈ X \bf x_i\in X xiX, 其中 x i j x_{ij} xij x i x_i xi j j j 个属性上的取值, d d d 称为样本 x i x_i xi 的"维数"(dimensionality).

  从数据中学得模型的过程称为"学习"(learning)或"训练"(training), 这个过程通过执行某个学习算法来完成. 训练过程中使用的数据称为"训练数据"(training data), 其中每个样本称为一个"训练样本"(training sample), 训练样本组成的集合称为"训练集"(training set). 学得模型对应了关于数据的某种潜在的规律, 因此亦称"假设"(hypothesis); 这种潜在规律自身, 则称为"真相"或"真实"(ground-truth), 学习过程就是为了找出或逼近真相. 书本有时将模型称为"学习器"(learner).

  要建立关于"预测"(prediction)的模型, 需要获得训练样本的"结果"信息, 例如"((色泽=青绿; 根蒂=蜷缩; 敲声=浊响), 好瓜)". 这里关于示例结果的信息"好瓜", 称为"标记"(label); 拥有了标记信息的示例, 则称为"样例"(example). 一般地, 用 ( x i , y i ) (x_i,y_i) (xi,yi)表示第 i i i个样例, 其中 y i ∈ Y y_i\in Y yiY是示例 x i x_i xi的标记, Y Y Y是所有标记的集合, 亦称"标记空间"(label space)或"输出空间".

  若预测的是离散值, 如"好瓜" “坏瓜”,此类学习任务称为"分类"(classification); 若预测的是连续值, 如西瓜成熟度0.95、0.37, 此类学习任务称为"回归"(regression). 只涉及两个类别的"二分类"(binary classification)任务, 称其中一个类为"正类"(positive class), 另一个为"反类"(negative class); 涉及多个类别称为"多分类"(multi-class classification)任务. 一般预测任务是希望通过对训练集 { ( x i , y i ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(x_i,y_i),(x_2,y_2),...,(x_m,y_m)\} {(xi,yi),(x2,y2),...,(xm,ym)}进行学习, 建立一个从输入空间 χ \chi χ到输出空间 Y Y Y的映射 f : X ↦ Y f:X\mapsto Y f:XY. 对二分类任务, 通常令 Y = { − 1 , + 1 } Y=\{-1,+1\} Y={1,+1} { 0 , 1 } \{0,1\} {0,1}; 对多分类任务, ∣ Y ∣ > 2 \left|Y\right|>2 Y>2;对回归任务, Y = R Y=\Bbb R Y=R, R \Bbb R R 为实数集.

  使用学得模型进行预测的过程称为"测试"(testing), 被预测的样本称为"测试样本"(testing sample).

  还可以对西瓜做"聚类"(clustering), 即将训练集中的西瓜分成若干组, 每组称为一个"簇"(cluster); 这些自动形成的簇可能对应一些潜在的概念划分, 例如"浅色瓜" “深色瓜”. 学习过程有助于我们了解数据内在的规律, 能为更深入地分析数据建立基础. 聚类学习中, “浅色瓜” "深色瓜"这样的概念我们事先是不知道的.

  根据训练数据是否拥有标记信息, 学习任务可划分为两大类: “监督学习”(supervised learning)和"无监督学习"(unsuperviser learning), 分类和回归是前者的代表, 聚类是后者的代表.

  注意, 机器学习的目标是使学得的模型能很好地适用于"新样本". 这种能力, 称为"泛化"(generalization)能力. 具有强泛化能力的模型能很好地适用于整个样本空间.通常假设样本空间中全体样本服从一个未知的"分布"(distribution) D D D, 获得的每个样本都是独立地从这个分布上采样获得的, 即"独立同分布"(independent and identically distributed, 简称 i . i . d . i.i.d. i.i.d.).

你可能感兴趣的:(西瓜书笔记)