学习日记(一)机器学习(西瓜书)——基础概念部分

学习日记(一)机器学习(西瓜书)——基础概念部分

基本术语

​ 例如:假定我们收集了一批关于细化的数据

​ 西瓜1(色泽=青绿;根蒂=蜷缩;敲声=浊响)

​ 西瓜2(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)

​ 西瓜3(色泽=浅白;根蒂=硬挺;敲声=清脆)

​ …

基本术语 概念
数据集(data set) 这组记录的集合称为一个“数据集”
示例(instance) 数据集中每条记录是关于一个事件或者对象(这里是一个西瓜)的描述
属性(attribute)或者 特征(feature) 反应事件或者对象在某方面的表现或性质的事项(这里是“色泽”“根蒂”“敲声”)
属性空间(attribute space) 或者 样本空间(sample space) 或者 输入空间 属性张成的空间
特征向量(feature vector) 每个示例在样本空间中都能找到自己的坐标位置,空间中的每个点对应一个坐标向量,所以我们把一个示例称为一个特征向量

​ 从数据中学得模型的过程称为“学习”( learning)或“训练”( training),这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为“训练数据”( training data),其中每个样本称为一个“训练样本”( training sample),训练样本组成的集合称为“训练集”( training set).学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”( hypothesis;这种潜在规律自身,则称为“真相”或“真实”( ground- truth),学习过程就是为了找出或逼近真相.

机器学习的目标

​ 机器学习的目标是使学得的模型能很好地适用于“新样本”而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力,称为“泛化”( generalization)能力.具有强泛化能力的模型能很好地适用于整个样本空间.于是,尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作得很好.通常假设样本空间中全体样本服从一个未知“分布”( distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”( independent and identically distributed,简称id.).一般而言,训练样本越多,我们得到的关于D的信息

归纳与演绎

​ 归纳 (induction)与演绎( deduction)是科学推理的两大基本手段.

  • 归纳是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律

  • 演绎则是从一般到特殊的“特化”( specialization))过程,即从基础原理推演出具体状况

你可能感兴趣的:(学习日记(一)机器学习(西瓜书)——基础概念部分)