机器学习 - 1. 基本术语

** 样例 ** :我们收集了一批西瓜的数据
(色泽=青绿;根蒂=蜷缩;敲声=浑浊),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅白;根蒂=硬挺;敲声=清脆)
每对括号是一条记录

数据集 :这组记录的集合

示例/样本 :每条记录(对事件或对象的描述)

属性(attribute)/ 特征(feature):反应事件或对象在某方面的表现或者性质的事项,例如“色泽” ,“敲声” 。

属性值 :属性的取值

属性空间 / 样本空间 / 输入空间 :属性张成的空间

特征向量:例如我们将色泽 ,根蒂 ,敲声作为三个坐标轴 ,则他们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置 ,由于空间中的每个店对应一个坐标向量 ,因此我们也把衣挂 示例称为一个特征向量 。

举例 :一般令 D={x1,x2,...,xm}表示m个示例的数据集 ,每个示例 xi = (xi1 ,xi2,.... xid)是d维样本空间X中的一个向量,xi∈X ,其中xij是xi在第j个属性的取值(例如上述第3个西瓜在第2个属性上的值是“硬挺”),d称为样本xi的维数

如果希望学得一个能帮助我们判断 一个没有剖开的西瓜是不是 “好瓜” 的模型 , 仅仅有前面的示例数据是不够的, 要简历这样的关于 “预测”(prediction)的模型 , 我们需要获得训练样本的 "结果"信息 ,
例如 : “((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”。

这里关于示例结果的信息 , 例如 “好瓜” , 称为“标记”(label) ; 拥有了标记信息的示例 , 则称为“样例”(example)
一般的 , 用(xi,yi)表示第i个样例 , 其中 yi∈Y是示例xi的标记 , Y是所有标记的集合 , 亦称 “标记空间”(label space) 或 “输出空间”

若我们想要预测的是离散值 , 例如 “好瓜” “坏瓜” , 此类学习任务称为“分类”(classification)
若我们想要预测的是连续值 , 例如 西瓜的成熟度 0.95,0.37 , 此类学习任务称为“回归”(regression)

对只涉及两个“二分类”(binary classification) , 通常称其中一个类为“正类”(positive class) , 领一个类为 “反类”(negative class) ;涉及多个类别时 , 则称为“多分类”(multi-class classification)任务。
一般的 ,预测任务是希望通过对训练集 {(x1,y1),(x2,y2),...,(xm,ym)}进行学习 , 建立一个从输入空间X到输出空间Y的映射 f:X->Y。对二分类任务,通常令 Y={-1 , +1} 或 {0,1};对多分类任务 , |Y| > 2; 对回归任务 , Y=R , R= 实数集。

学得模型后 , 使用其进行预测的过程称为** “测试” (testing)** ,被预测的样本称为 ** 测试样本 (testing sample)**。例如在学得 f 后

你可能感兴趣的:(机器学习 - 1. 基本术语)