西瓜书《学习笔记》-第一章绪论

基本术语

数据集:就是描述一个事物的相关数据的集合。
    例如: 西瓜1——绿色——三斤——清脆
       西瓜2——暗绿——两斤——沉闷
   上面两条描述西瓜的特点就是有关西瓜的数据集。
示例:其中的一条描述事物的数据称为示例,也叫作样本。
属性值:其中的每个特性都叫作属性值。如:绿色、三斤、清脆...
训练集:训练样本组成的集合

分类classification:若我们预测的是离散值,例如“好瓜”“坏瓜”。
回归regression:若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”。
二分类:只涉及两个类别。
多分类:涉及多个分类。

监督学习:分类问题和回归问题是监督学习的代表
无监督学习:聚类是无监督学习的代表
泛化能力generalization:用来形容训练出的模型在新样本上适用的程度。具有强泛化能力的模型能很好地适用于整个样本空间。

假设空间

归纳:从特殊到一般的泛化,从具体的事实总结出一般性规律。
演绎:从一般到特殊的“特化”,从基础原理推演出具体状况。

归纳偏好

偏好:就是我们希望这个模型为我们找出什么样的东西。比如:我们一个西瓜能不能吃的问题:假设它只有部分坏,我们的模型要必须好,就会判断为不能吃;我们的模型要不全坏,就会判断为能吃。这个过程简称为偏好。

你可能感兴趣的:(笔记,机器学习)