Machine Learning 机器学习主要术语

问题构建 (Framing)：机器学习主要术语

什么是（监督式）机器学习？简单来说，它的定义如下：

下面我们来了解一下机器学习的基本术语。

特征是输入变量，即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定：

{x1,x2,...xN}

在垃圾邮件检测器示例中，特征可能包括：

样本是指数据的特定实例：x。（我们采用粗体 x 表示它是一个矢量。）我们将样本分为以下两类：

有标签样本 同时包含特征和标签。即：

labeled examples: {features, label}: (x, y)

我们使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中，有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。

例如，下表显示了从包含加利福尼亚州房价信息的数据集中抽取的 5 个有标签样本：

housingMedianAge （特征）	totalRooms （特征）	totalBedrooms （特征）	medianHouseValue （标签）
15	5612	1283	66900
19	7650	1901	80100
17	720	174	85700
14	1501	337	73400
20	1454	326	65500

无标签样本 包含特征，但不包含标签。即：

unlabeled examples: {features, ?}: (x, ?)

在使用有标签样本训练了我们的模型之后，我们会使用该模型来预测无标签样本的标签。在垃圾邮件检测器示例中，无标签样本是用户尚未添加标签的新电子邮件。

模型定义了特征与标签之间的关系。例如，垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段：

推断表示将训练后的模型应用于无标签样本。也就是说，您使用训练后的模型来做出有用的预测 (y)。例如，在推断期间，您可以针对新的无标签样本预测 medianHouseValue。

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：