机器学习——基本术语

令D={X1,X2,X3.......Xm},则D表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例Xi=(Xi1;Xi2;....... Xid)是d维空间的一个向量,d维空间的每个坐标轴称为“属性”,属性的取值称为“属性值”,所形成的d维空间称为“属性空间”、“样本空间”、“输入空间”,d称为样本Xi的“维度”。


从数据中学得的模型的过程称为“ 学习”或是“ 训练”,这个过程通过执行某个学习算法来完成,训练过程中用到的数据称为“训练数据”,其中的每一个样本称为一个“ 训练样本”,训练样本组成的集合称为“ 训练集”。

学得模型对应了关于数据的某种潜在规律,称为“ 假设”,这种潜在规律本身,称为“ 真相”或是“ 真实”,机器学习的目的就是为了找出真相或逼近真相。

如果是为了得出一个关于“ 预测”的模型,我们需要获得训练样本的“ 结果”信息。即满足这些属性所对应的结果是什么,例如有气质、漂亮,有思想的女生就是女神,其中的气质、漂亮、思想就是属性,满足这些,对应的结果就是女神,结果被称为是“标记”,拥有了标记信息的示例称为“ 样例”,所有的结果构成“ 标记空间”或是“ 输出空间”。

若我们想要预测的结果是离散值,例如“漂亮的女生”和“不漂亮的女生”,此类学习任务称为是“ 分类”,若欲预测的是连续值,此类学习任务称为“ 回归”,对涉及到两个类别的“ 二分类”任务,通常称其中一个为“ 正类”,另一个为“ 反类”,涉及多多个类别时,则称为“ 多分类”任务,一般情况下,预测任务是希望通过对训练集的联系,建立从输入空间到输出空间的映射,对于二分类任务,通常令输出空间为{0,1},对多分类任务,输出空间大小大于2,对回归空间,输出空间为实数集。

学得模型后,使用其进行预测的过程称为“ 测试”,被测试的样本称为“ 测试样本”,可以对样本空间做“ 聚类”,即将训练集中的样本进行分组,每组称为一个“ ”。 在聚类学习中,究竟分组会是什么样我们事先并不清楚,而且学习过程中使用的训练样本通常不拥有标记信息

监督学习:训练数据具有标记。
无监督学习:训练数据不具有标记。

泛化能力:学得的模型适应新样本的能力。

假设空间:所有的假设组成的空间,假设的表示一旦确定,假设空间及其规模大小就确定了,可以把学习过程看作一个所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能得出结果的假设,要注意机器学习并不是单纯的把训练集中的数据记住,而是通过训练集中数据的训练来进行“预测”。

版本空间:可能有多个假设与 训练集一致,所有的假设构成版本空间。

归纳偏好
通过学习得到的模型对应了假设空间中的一个假设,但一个训练集可以有多个假设(模型),机器学习过程中对某种类型假设的偏好,就称为归纳偏好。

有没有一般性的原则来引导算法确立正确的偏好呢?“奥卡姆剃刀”是一种原则,即“若有多个假设,则选择最简单的那个”,怎样才算“简单”呢?这需要借助其他机制。

“没有免费的午餐”定理(NFL):所有学习算法的期望性能是一样的。

那么是否意味着可以随便选择一个学习算法呢?不是
NFL有一个重要前提:所有“问题”出现的机会、或所有问题同等重要,但实际情况并不是这样,很多时候,我们只关心自己试图解决的问题,希望得出一个好的解决方案,至于这个解决方案在别的问题上是否为好方案,我们并不在意。



你可能感兴趣的:(机器学习)