统计机器学习综述

#记录学习心得

 

一、什么是机器学习(统计学习)

    统计学习就是根据数据来构建概率统计模型并用该模型对数据进行预测与分析。那么其中可以看出,数据是基础,目的是对数据进行预测与分析。

    根据定义可以提出几个问题:需要什么样的数据?构建什么样的模型?以什么方法构建?如何评价构建出来的模型的好坏?

    1、需要什么样的数据

        需要的数据必须是同类的,统计学习的前提是假设同类数据具有一定的统计规律性(模型就是来体现这一规律性的),输入变量和输出变量具有联合概率分布。同类数据指的是具有某种共同性质的数据。

    2、模型的选择

        所谓模型,可以理解为函数。假设所有模型的集合是FS,我们希望得到的是某一个确定的模型f(即最优的模型),那么统计学习就是要从集合FS中选出来这个模型f。假如f属于某个函数的集合F,则称F为假设空间。在进行监督学习时,假设空间需要预先确定,假设空间的确定意味着学习范围的确定。

    3、以什么方法构建

        统计学习的方法分为监督学习、半监督学习、无监督学习和强化学习等。这里只讨论监督学习,监督学习的任务就是学得一个模型,之后只要给这个模型一个输入(即数据),就会得到一个很好的输出(即预测).。若输入和输出均为连续变量,则称为回归问题,学得的模型称为回归模型。若输出为离散变量,则称为分类问题,学得的模型称为分类模型(概率模型)。

        既然需要从F挑选出一个最优的模型,那么就需要知道怎么样去挑,这就需要对假设空间里的所有模型定义一个通用评价标准,然后由最优化的算法根据评价准则从F中选出最优的f。

 

一句话总结:在假设空间中,按照模型的评价准则,将最优的模型选出来。这三步,分别对应了统计学习三要素:模型、策略、算法。

你可能感兴趣的:(机器学习笔记)