统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计机器学习(statistical machine learning)。
监督学习(supervised learning )即在机械学习过程中提供对错指示。一般实在是数据组中包含最终结果(0,1)。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测 (regression & classify)。监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
首先现在的机器学习强调了特征数据的重要性,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。重新定义一下机器学习要素:方法 = 模型 + 策略 + 算法 + 数据特征 ,Looking for a function from data 。在做整个机器学习的过程中,模型的选择常见不过十几种,真正使我们结果不同是,模型参数的调优选择和特征工程。当然对于工业界来说,还要考虑到是否易于部署,时间,价格成本等等。在这些考虑下,我们部署的项目一定是最性价比而不是最优的。有落地才会有机器学习。
模型的选择同模型的评估一致,因为有评估才会有模型好坏的评判标准。不同的场地我们使用不同的评估函数。如:回归问题中,常使用MSE,RMSE,MAE,R方;分类问题中,常使用Accuracy,Precision,Recall等。关于这类评估模型的话,详情了解sklearn.metrics 下相关的函数。
正则化的处理是基于使我们的模型较没有正则化的模型更加平滑,简单。在模型学习的过程中,为了某些数据而过分学习会使我们的模型更加容易过拟合。基于这些,常见的正则化有L1,L2正则化,其表现形式如下:
泛化能力用来表征学习模型对于未知数据的预测能力。 很显然,我们没有办法对所有的数据进行预测然后判断来计算一个模型的模型的泛华能力,所以在实际应用当中,我们一般还是用的测试集中的数据来近似泛化能力。
但是,我们大统计学习也在理论上试图对学习方法的泛化能力进行了分析,首先给出泛化误差的定义:
泛化误差越小,学习模型的泛化能力越好。可以看到,泛化误差实际上就是统计学三要素的风险函数
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:
典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
判别方法由数据之间学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应当预测什么样的输出Y,典型的判别模型包括:k近邻,感知机,决策树,支持向量机等
分类问题是监督学习的一个核心问题。在监督学习中,当输出变量取有限个离散值时,预测问题便成为分类问题。监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输入进行输出的预测,这个过程称为分类。 分类问题包括学习与分类两个过程。在学习的过程中,根据已知的训练样本数据集利用有效的学习方法学习一个分类器;在分类中,利用学习的分类器对新的输入实例进行分类。
标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。 标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
回归问题也属于监督学习中的一类。回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线,使其很好地拟合已知数据且很好地预测未知数据。 回归问题按照输入变量的个数,可以分为一元回归和多元回归;按照输入变量与输出变量之间关系的类型,可以分为线性回归和非线性回归。