机器学习(machine learning): 研究如何通过计算的手段,利用经验来改善系统自身的性能。(也可以说是研究构建学习算法的一门方法学)
数据集(data set): 一组数据记录的集合
示例(instance) 或 样本(sample): 每条记录是关于一个事件或对象的描述
属性(attribute): 反映事件或对象在某方面的表现或性质的事项
属性值(atribute value): 属性上的取值
属性空间(attribute space)、样本空间(sample space)或 输入空间: 属性张成的空间。例:设xyz三种属性,我们将它们作为坐标轴张成一个三维空间
特征向量(feature vector): 在上述张开空间中每个样本都能找到自己对应的点,而每一个点都对应一个向量坐标所以样本等价于特征向量
属性值(atribute value): 属性上的取值
学习(learning)或 训练(training): 从数据中学得模型的过程
训练数据(training data): 这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为
训练样本(training sample): 训练数据中的每个样本
训练集(training set): 训练样本组成的集合
假设(hypothesis): 学得模型对应了关于数据的某种潜在的规律
真相 或 真实(ground-truth): 潜在规律自身学习过程就是为了找出或逼近真相
学习器(learner): 模型可看作学习算法在给定数据和参数空间上的实例化
如果希望学得一个能帮助我们判断所得目标的模型,还需要要建立预测(prediction)模型,我们需获得训练样本的结果
信息,例如:((a= 1;b= 2;c=3),目标)
标记(label): 示例结果的信息例如 “目标”
样例(example): 拥有了标记信息的示例
标记空间(label space) 或 输出空间: 一般地用(xi,yi)表示第i个样例,其中yi∈Y ,是示例Xi的标记,Y是所有标记的集合
测试(testing): 学习得模型后,使用其进行预测的过程
测试样本(testing sample): 被预测的样本例如:在学得了后,对测试例x,可得到其预测标记y = f(x)
分类(classification): 此类学习任务预测的是离散值,例如“好” “坏”
对只涉及两个类别的二分类" (binary classifcation)任务
,通常称其中一个类为正类(positive class),另一个类为反类(negative c la ss);涉及多个类别时,则 称为多分类(multi-class classification)任务
回归(reg ression): 此类学习任务预测的是连续值,例如温度23、34
输出与输入空间的设定:
一般地,预测任务是希望通过对训练集{(x1,y1),(x2,y2),… ,(xm,ym)}进行学习,建立一个从输入空间χ到输出空间γ的映射ʃ:χ → γ
我们还可以对样本做聚类
聚类(clustering): 将训练集中的样本分成若干组,每组称为一个簇(cluster)
;这些自动形成的簇可能对应一些潜在的概念划分,
例如:“本地人” “外地人"甚至“黄种人” “白种人”
有助于了解内在规律,便于建立分析基础
1.需说明的是,在聚类学习中,“本地人” “外地人"这样的概念我们事先是不知道的
2. 学习过程中使用的训练样本通常不拥有标记信息
一般两种:
监督学习(supervised learning): 训练数据拥有标记信息分类和回归是代表
无监督学习(unsupervised learning): 训练数据未拥有标记信息聚类则是代表
泛化(generalization)能力: 学得模型适用于新样本的能力具有强泛化能力的模型能很好地适用于整个样本空间
独立同分布(independent and distribution,简称:i.i.d): 通常假设样本空间中全体样本服从一个未知分布(distribution)D
.
训练样本越多,得到的关于 D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型
归纳(induction): 是从特殊到一般的泛化(generalization)过程
,即从具体的事实归结出一般性规律“ 从样例中学习 ”显然是一个归纳的过程,因此亦称“ 归纳学习 ”(inductive learning).
广义的归纳学习
大体相当于从样例中学习
狭义的归纳学习
则要求从训练数据中学得概念(concept),因此亦称为“概念学习”或 “概念形成”
概念学习技术目前研究、应用都比较少,学得泛化性能好且语义明确的概念困难,现实常用的技术大多是产生“黑箱”模型。
演绎(deduction): 则是从一般到特殊的特化(specialization)
过程,从基础原理推演出具体状况例如: 在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理
整体的学习过程是用不同的方法对假设空间进行搜索,过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致的假设,就是学得结果。
但是一般现实的问题会有一个巨大的假设空间,而拥有的训练集有限或过小,得到多个假设与训练集重合,得到一个假设集合,就是所谓的版本空间(version space)
假设在下图中,每个训练样本是图中的一个点(x,y),要学得一个与训练一致的模型,相当于找到一条穿过所有的点的一条曲线,注意,下图中穿过这些样本点的曲线可以有很多种,这就相当于我们的上面所述训练的集合对应的不同的假设,而我们的归纳偏好,就是基于一种偏好选择一种适当的假设。
例:如果我们以最终的曲线要尽量的简洁
为一个偏好,那么直观上肯定选择下面的曲线A
,而不选择曲线B.
奥卡姆剃刀(Occam’s razor)原则: 若有多个假设与观察一致,则选最简单的那个
没有免费的午餐定理(No Free Lunch Theorem,简称NFL定理): 无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能是相同的。
以下是一个简单证明:
所以由NFL定理可以清晰地得到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,而是应该尽可能的去思考学习算法自身的归纳偏好
与问题
是否相配
,找到最佳的模型。