机器学习——《西瓜书》

《西瓜书》–机器学习 第一二章学习笔记(初识机器学习)

*我i什么看到微湿路面、感到春风、看到晚霞,就认为明天是好天呢?这是因为在我们的生活经验中已经遇见过很多类似的情况,这是我们基于经验做出的判断。“机器学习”-----正是一门这样的学科,它研究如何通过计算的手段,利用“经验”(计算机中通常以“数据”的形式存在)改善自身的性能。下面将介绍一些基本的概念:

  1. 基本术语
    数据集(data set):D={x1,x2,…,xm} 表示包含m个示例的数据集。
    记录:数据集中关于一个事件或对象的描述,也称“示例”(instance)或“样本”(sample)。
    属性(attribute)或特征(feature):反应事件或对象在某方面的表现或性质的事项。
    属性值(attribute value):属性上的取值。
    属性空间(attribute space)、样本空间(sample space)或输入空间:属性涨成的空间。

    我们将描述事件或对象的属性分别作为不同的坐标轴,即空间中的每一个点对应一个坐标向量,因此一个示例也被称作一个“特征向量”。
    学习(learning)或训练(training):从数据中学得模型(学习器(learner))的过程。训练过程中使用的数据称为“训练数据(training data)”,其中每一个样本称为一个“训练样本(training sample)”,训练样本组成的集合称为“训练集(training set)”。
    标记(label):关于示例结果的信息。
    样例(example):拥有标记信息的示例。
    根据预测值的离散或连续将预测任务分成了两类:分类(classification)和回归(regression)。同时又根据涉及类别的个数将学习任务分为二分类任务和多分类任务。
    聚类(clustering):将训练集中的对象分为若干组,每组称为一个簇(cluster)。
    根据训练数据中是否有标记信息,学习任务可大致划分为两大类:监督学习和无监督学习。
    泛化(generation):泛化能力指的是学习模型适用于新样本的能力。训练样本越多,得到的关于D的信息越多,越有可能通过学习获得具有强泛化能力的模型。由特殊到一般。
    泛化误差(generation error):新样本的误差。

  2. 对数据集D做适当处理得到训练集和测试集的方法
    留出法(hold-out):
    D=S ∪ T, S ∩ T=空集
    若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

    交叉验证法(cross validation):
    D=D1 ∪ D2 ∪,…, ∪ Dk,Di ∩ Dj =空集(i不等于j)
    每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集,最终返回k次测试结果的平均值。

    自助法(bootstrapping):
    对有m个样本的D进行采样得到D‘,具体得到D’的方法为:每次从D中挑一个样本放到D‘中,然后再将该样本放回D中,重复执行上述过程m次,得到的D’也是包含了m个样本的数据集。

你可能感兴趣的:(机器学习,人工智能)