此处介绍的机器学习主要为归纳学习,包括监督学习和无监督学习两类,我们有这样一个非常经典的定义
Tom Mitchell (1998) Well-posed LearningProblem: A computer program is said to learn from experience E with respect to some task Tand some performance measure P, if itsperformance on T, as measured by’, improves with experience E.
监督学习(supervised learning)
又叫有监督学习,监督式学习,是机器学习的一种方法,可以由训练资料中学到或建立一个模式(learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
无监督学习(unsupervised learning)
是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的资料进行分类或分群
从数据中学得模型的过程称为学习 (learning)或训练 (training),这个过程通过执行某个学习算法来完成
若干组数据记录的集合,称为数据集
每条数据记录关于一个事件或研究对象的描述,称为一个示例 (instance) 或样本 (samp1e),示例在某方面的表现或性质,称为属性 (attribute) 或特征 (feature); 属性对应的取值称为属性值 (attribute va1ue). 属性张成的空间称为属性空间 (attribute space) 、样本空间 (samp1e space)或输入空间(input space), 由于空间中的每个点对应一个坐标向量,因此我们也把…个示例称为一个特征向量 (feature vector).
一般地,令 D = x 1 , x 2 , . . . , x m D = {x_1, x_2,...,x_m} D=x1,x2,...,xm 表示包含m 个示例的数据集,每个示例由 d d d个属性描述,则每个示例 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i = (x_{i1}; x_{i2}; . . . ; x_{id}) xi=(xi1;xi2;...;xid) 是d 维样本空间X 中的一个向量, x i ε X x_i ε X xiεX , 其中 X i j X_{ij} Xij 是凯在第j 个属性上的取值, d 称为样本的维数 (dimensionality).
训练过程中使用的数据称为训练数据 (training data) ,其中每个样本称为一个训练样本(training samp1e), 训练样本组成的集合称为训练集 (training set).
学得模型对应了关于数据的某种潜在的规律,因此亦称**“假设” (hypothesis); 这种潜在规律自身,则称
为"真相"或"真实" (ground-truth)**
这里关于示例结果的信息,称为"标记" (labe1); 拥有了标记信息的示例,则称为"样例" (examp1e),我们可以用 ( x i , y i ) (x_i, y_i) (xi,yi)表示第 i i i个样例, y i ∈ Y y_i∈Y yi∈Y是样例 i i i的标记,则我们称 Y Y Y为标记空间或**“标记空间” (label space)或"输出空间**
若我们想要预测离散的值,我们称这样的任务为分类(classfication),若为连续值,则称为回归(regression)
学得模型后,使用其母行预测的过程称为测试 (testing) ,被预测的样本称为测试样本"(testing sample).
当学习器去预测其未遇到过的输入的结果时,会做一些假设(Mitchell, 1980)。而学习算法中的**归纳偏置(inductive bias)**则是这些假设的集合。
归纳偏置有点像一种”价值观“,任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看
似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果