机器学习及监督学习的重要概念理解

机器学习(machine learning)

关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

  1. 机器学习的主要特点

    • 以计算机及网络为平台
    • 以数据为研究对象
    • 目的是 对数据进行 预测与分析
    • 以方法(算法)为中心,机器学习算法构建模型并应用模型进行预测与分析
    • 机器学习是一门交叉学科(是概率论、统计学、信息论、计算理论、最优化理论及计算机科学)
  2. 机器学习的基本假设

    • 同类数据具有一定的统计规律性,这是机器学习的前提
  3. 机器学习的方法,基于数据构建统计模型从而对数据进行预测与分析。

    • 具体分为以下四类:

      • 监督学习(supervised learning)
      • 非监督学习(unsupervised learning)
      • 半监督学习(semi-supervised learning)
      • 强化学习(reinforcement learning)
      • 主动学习(initiative learning)
    • 机器学习方法的三要素:

      • 模型(model)、策略(strategy)、算法(algorithm)
    • 机器学习方法的步骤:

      (1)得到一个有限的训练数据(training data)集合;
      (2)确定包含所有可能的模型的假设空间(hypothesis space),即学习模型(model)的集合;
      (3)确定模型选择的评价准则(evaluation criterion),即学习的策略(strategy);
      (4)实现求解最优模型的算法,即学习的算法(algorithm);
      (5)通过学习方法选择最优模型;
      (6)利用学习的最优模型对新数掘进行预测或分析。

  4. 机器学习的重要性

    • 是处理海量数据的有效方法;
    • 是计算机智能化的有效手段;
    • 是计算机科学发展的一个重要组成部分。
      • 计算机科学由三维组成:系统、计算、信息。机器学习主要属于信息这一维,并在其中起着核心作用。

监督学习的概念理解

  • 监督学习:利用训练集学习一个模型, 再用模型对测试集进行预测,由于训练集一般是由人来标注的,所以称为监督学习。

  • 输入空间(input space):输入所有可能取值的集合

    • 输入空间内的某个实例,通常由特征向量表示

      维 度 ≠ 实 例 个 数 , 维 度 = 特 征 向 量 中 特 征 的 个 数 维度\neq实例个数,维度=特征向量中特征的个数 ̸==

  • 输出空间(output space):输出所有可能取值的集合

    • 输入空间与输出空间可以是同一个空间,也可以是不同的空间,但通常输出空间远远小子输入空间。
  • 特征空间(feature space):所有特征向量存在的空间

    • 有时假设输入空间与特征空间为相同的空间,对它们不于区分;
    • 有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间;
    • 模型实际上都是定义在特征空间上的。
  • 输入变量 X X X :定义在输入(特征)空间上的随机变量

    • 输入变量 X X X 的取值,用小写字母 x x x 表示

    • 输入变量(实例) x x x 的特征向量记作: x = ( x ( 1 ) , x ( 2 ) , . . . x ( i ) , . . . x ( n ) ) T x=(x^{(1)},x^{(2)},...x^{(i)},...x^{(n)})^{T} x=(x(1),x(2),...x(i),...x(n))T

    • 多个输入变量(实例)中第 i i i 个实例的特征向量: x = ( x i ( 1 ) , x i ( 2 ) , . . . x i ( i ) , . . . x i ( n ) ) T x=(x^{(1)}_{i},x^{(2)}_{i},...x^{(i)}_{i},...x^{(n)}_{i})^{T} x=(xi(1),xi(2),...xi(i),...xi(n))T

      注: x i ( i ) x^{(i)}_{i} xi(i)公式中的上标表示维度编号,下标表示实例编号。

  • 输出变量 Y Y Y :定义在输出空间上的随机变量

    • 输出变量 Y Y Y 的取值,用小写字母 y y y 表示
  • 训练集 T T T :由输入(或特征向量)与输出对组成。又可称为样本或样本点的集合

    • T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{2},y_{2}),...(x_{N},y_{N})\} T={(x1,y1),(x2,y2),...(xN,yN)}
  • 回归问题:输入变量与输出变量均为连续变量的预测问题

  • 分类问题:输出变量为有限个离散变量的预测问题

  • 标注问题:输入变量与输出变量均为变量序列的预测问题

  • 监督学习的基本假设: X X X Y Y Y 具有联合概率分布

  • 模型:一个由输入到输出的映射。换句话说,学习的目的就在于找到最好的模型(映射)。

  • 假设空间:由输入到输出的映射的集合,即模型的集合

  • 监督学习流程:
    机器学习及监督学习的重要概念理解_第1张图片

模型分类

  1. 概率模型与非概率模型

    • 监督学习
      • 概率模型:由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 表示,对具体的输入进行相应的输出预测时,写作 P ( y ∣ x ) P(y|x) P(yx) ,是生成模型。
      • 非概率模型:由决策函数 Y = f ( X ) Y = f(X) Y=f(X) 表示,对具体的输入进行相应的输出预测时,写作 y = f ( x ) y = f(x) y=f(x) ,是判别模型。
    • 无监督学习
      • 概率模型: P ( z ∣ x ) P(z|x) P(zx) P ( x ∣ z ) P(x|z) P(xz)
      • 非概率模型: z = g ( x ) z= g(x) z=g(x)
      • 其中 x x x 是输入, z z z 是输出
  2. 线型模型和非线性模型

    • 机器学习模型中的非概率模型,可分为线型模型和非线性模型
      • 如果函数 y = f ( x ) y = f(x) y=f(x) z = g ( x ) z= g(x) z=g(x) 是线性函数,则称为线性模型,反之为非线性模型
  3. 参数化模型和非参数化模型

    • 参数化模型:假设模型参数的维度固定,模型可以由有限维参数全刻画。
    • 非参数化模型:假设模型参数的维度不固定或无穷大,随着训练数据量的增加而增大
  4. 生成模型和判别模型

    • 生成方法:由数据学习联合概率分布 P ( X , Y ) P(X ,Y) P(X,Y) ,然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 作为预测的模型,即生成模型 P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X ,Y)}{P(X )} P(YX)=P(X)P(X,Y)
      • 生成方法的特点
        • 可以还原出联合概率分布 P ( X , Y ) P(X ,Y) P(X,Y) ,而判别方法则不能:
        • 收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;
        • 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
    • 判别方法:由数据直接学习决策函数 f ( X ) f(X) f(X),或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 作为预测的模型,即判别模型
      • 判别方法的特点
        • 直接学习的是条件概率 P ( Y ∣ X ) P(Y|X) P(YX) 或决策函数 f ( X ) f(X) f(X),直接面对预测, 往往学习的准确率更高;
        • 由于直接学习 P ( Y ∣ X ) P(Y|X) P(YX) f ( X ) f(X) f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
  5. 模型分类表

    模型分类 概率模型 非概率模型 线型模型 非线性模型 参数化模型 非参数化模型 贝叶斯学习 核方法 生成模型 判别模型
    感知机
    k近邻
    k均值
    核k均值
    AdaBoost
    朴素贝叶斯
    决策树
    支持向量机
    线型支持向量机
    核函数支持向量机
    逻辑斯谛回归
    隐马尔可夫模型
    条件随机场
    主成分分析
    潜在语义分析
    概率潜在语义分析
    潜在狄利克雷分配
    马尔可夫链蒙特卡罗法
    高斯混合模型
    神经网络
    核PCA
    最大熵模型
    提升方法

你可能感兴趣的:(machine,learning)