机器学习-(1)概论

基于目前我的学习,给出我所认为比较重要的点吧,不喜勿喷


1 统计学习

统计学习方法基于数据来说,主要分为监督学习,半监督学习,无监督学习,及强化学习。

实现统计学习方法步骤如下:

    (1)得到一个有限的训练数据集合

    (2)确定包含所有可能的模型的假设空间,即学习模型的集合

    (3)确定模型选择的准则,即学习的策略

    (4)实现求解最优模型的算法,即学习的算法

    (5)通过学习方法选择最优模型

    (6)利用学习的最优模型对新数据进行预测和分析

统计学习三要素:模型,策略,算法

    (1)模型:在监督学习过程中,模型就是所要学习的条件概率分布或决策函数,模型的假设空间包含所有可能的条件概率分布或决策函数,如P(Y|X)或y=f(x)

    (2)策略:按照什么样的准则学习,从假设空间中选取最优模型。损失函数可以度量模型一次预测的好坏,风险函数可以度量平均意义下模型预测的好坏。损失函数:输出的预测值f(x)与真实值Y之间的差异,记做L(Y,f(X)).常见损失函数有以下几种:

      风险函数/期望损失:理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失


    经验风险/经验损失:模型f(X)关于训练数据集的平均损失


    经验风险最小化:

                                                    min(Remp)

    结构风险最小化:

       解决经验风险最小化产生的“过拟合”现象,在经验风险上加上表示模型复杂度的正则化项或者惩罚项


    则结构风险最小化为:

                                                        min(Rsrm)

    (3)算法:学习模型的具体计算方法,求解最优模型的方法

2 监督学习

监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据由输入与输出对组成。训练集通常可以表示为T={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}.

下面主要介绍监督学习中的几个概念

    (1)输入空间:监督学习中输入所有可能取值的集合

    (2)特征空间:特征空间与输入空间可以在同一空间,也可以不在,特征空间的每一维度对应于一个特征

    (3)输出空间:监督学习中输出所有可能取值的集合

    (4)联合概率分布:统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设

    (5)假设空间:模型属于由输入空间到输出空间的映射的集合

3 模型评估与模型选择

(1)泛化能力:学习方法对未知数据的预测能力

(2)过拟合:指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好,但对位置数据预测的很差的现象

(3)常用防止过拟合的模型选择方法:正则化与交叉验证

    正则化:在经验风险上加一个正则化项或惩罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大,正则化项可以是模型参数向量的范数,正则化的作用是选择经验风险与模型复杂度同时较小的模型                                         交叉验证:随机地将数据集切分成三部分:训练集,验证集,测试集,包括三种验证方法:简单交叉验证,S折交叉验证,留一交叉验证。

你可能感兴趣的:(机器学习-(1)概论)