第六章 机器学习三要素之数据、模型、算法

三者之间的关系总结成一句话就是 :运用某种算法对数据进行运算的到模型。

第六章 机器学习三要素之数据、模型、算法_第1张图片
0dda27f0-07eb-11e8-bc59-a900ae7da972.jpeg

一 数据

原始数据

向量空间模型VSM(Vector Space Model)

就是将格式(文字、图片、音频、视频)的数据转化为向量。
(怎么转换的? 特征工程,后面会讲)
如前一章中的6匹小马:


第六章 机器学习三要素之数据、模型、算法_第2张图片
f19bee70-07ea-11e8-bc59-a900ae7da972.jpeg

我们要用独角和翅膀这两个特征来给她们做聚类,那么我们就可以定义一个二维的向量 A=[a_1,a_2]。a_1 表示是否有独角,有则 a_1 = 1, 否则 a_1 = 0。而 a_2 表示是否有翅膀。

那么按照这个定义,我们的6匹小马最终就会被转化为下面6个向量

    X_1 = [1,0]
    X_2 = [0,0]
    X_3 = [0,0]
    X_4 = [0,1]
    X_5 = [0,1]
    X_6 = [1,0]

这六个向量也叫这份数据的特征向量(Feature Vector)

二 模型

模型就是机器学习的结果,学习的过程称为训练,训练好的模型可以理解为一个函数y=f(x)(这个函数描述了某种规律)。
我们把数据(对应其中的 x)输入进去,得到输出结果(对应其中的 y)。

这个输出结果可能是一个数值(回归),也可能是一个标签(分类),它会告诉我们一些事情。
类似打标签的任务就是分类,求值的任务就是回归。

什么是回归

回归就是从数据中得到事物的真实值。
比如一张桌子的真实高度,由于测量是存在误差的,在有限的次数下我们永远无法测得桌子的真实高度,只能测出很多近似值,从这些近似值中得到真实值,叫做回归。回归事物本质的意思。
(其实只能无限接近真实值,细想起来桌子也没有固定的真实高度,不同温度下膨胀程度不同,高度也就不同。再进一步说:其实我们接触的所有事物的属性数值都是近似值,因为都是不固定的)

什么是训练

根据已经被指定的 f(x) 的具体形式——模型类型(如y=f(x)=ax2+bx+c),结合训练数据,计算出其中各个参数的具体取值的过程。
就是已知函数类型和一些输入输出数据求参数。

算法

损失函数(Loss Function)

有监督学习的目标就是:让训练数据的所有 x 经过 f(x) 计算后,获得的 y’ 与它们原本对应的 y 的差别尽量小。
用一个函数来描述 y’ 与 y 之间的差别,这个函数叫做损失函数(Loss Function)L(y, y’)= L(y, f(x))。

代价函数(Cost Function)

Loss 函数针对一个训练数据,对于所有的训练数据,我们用代价函数(Cost Function)来描述整体的损失

你可能感兴趣的:(第六章 机器学习三要素之数据、模型、算法)