统计学习方法李航
统计学习方法的三要素:
(1)模型
(2)策略
(3)算法
实现统计学习的步骤:
(1)得到用来训练模型和测试模型的数据集(输入和输出(实际值)+需要进行预测的输入数据)
(2)确定包含所有可能的模型的假设空间(模型的假设空间就是确定的带参的函数族,之所以说是有无数个是因为参数的选取相对来说是任意的),就是学习模型的集合
(3)确定怎么样在假设空间中的带参的无限多个函数中间来选取最终模型的准则(就是说应该给予什么约束来确定最终模型),这种准则就是学习的策略。
一般是用代价函数最为准则(策略)来确定最终模型的。代价函数指的就是带参的模型的估计值和实际值之间的差距(一般用以度量的代价函数就是平方损失,概率估计等),代价函数的选取就是确定学习的策略,还要加上规范化项(正则项)来约束这个模型(中的权重系数,使得权重系数不至于过大,因为权重系数过大可能会出现模型的过拟合,过拟合就是模型在训练样本中的估计情况比较好但是在测试样本中的表现就不行了)
(4)有上述第三步确定了是由代价函数和规范化项来约束模型参数的选取的,最优模型当然是约束下的代价函数和规范化项取得最小值时候的参数了,这里如何求得代价函数和规范化项的最小值的算法就是学习的算法了(学习的意思就是通过算法求解模型的参数)
学习的算法有梯度下降法,正规矩阵求解等多元函数求导方法
(5)通过学习方法(求解系数的算法)来求解最优模型
(6)利用求得的最优模型来对新数据(测试数据或者是需要进行预测的数据)进行模型的检验或者是用模型进行预判
监督学习(重点):具有输出数据(标签)(可以根据输入数据和输出数据的离散还是连续来分为分类,回归和标注)
无监督学习:不具有输出数据,仅具有输入数据(一般是聚类分析)
半监督学习:由于标签的成本比较高,只能给一部分的数据进行标签操作。
强化学习:是一种自主学习的模式
监督学习:将数据集(输入数据和输出标签)通过统计机器学习来得到输入数据和输出数据之间的函数映射(不知道的实际的f是黑盒子,我们要用学习得到的模型去逼近/近似模拟f黑盒子)关系,得到这个模型之后再将这个模型去应用于其他未知标签的数据的标签的预测。
监督学习中的一些基本概念:
(1)输入空间,特征空间和输出空间
输入空间:输入变量xi(x1,x2,...)的所有i对应的x的取值构建起来的集合叫做输入空间(从形式上来看输入空间是矩阵形式的)
输出空间:输出变量yi的所有可能的情况构建起来的集合就叫做输出空间(从形式上来看输出空间应该是列向量形式的)
输入空间和输出空间可以在同一个空间中,也可以在不同的空间中,通常输出空间要比输入空间来的小(就是输出的情况比输入的情况来的少)
特征空间:输入变量xi(x1,x2,...)中的各个x1,x2,...来表征xi,这些x1,x2,...就是输入变量xi对应的属性/特征,这些不同的属性/特征构建起来的空间就是特征空间(从形式上来看特征空间是列向量形式的)
输入空间就是在特征空间中的不同取值的集合,列向量(特征空间)的转置的列向量组合就是输入空间的矩阵
一些约定:
1.输入,输出变量的所有情况用大写X,Y表示;
2.输入,输出变量的某一种取值状况用小写x,y表示;
3.变量可以是标量(如输出变量y)也可以是向量(如输入向量x)
4.xi表示的是输入空间中的第i个输入变量,但是这个输入变量是一个具有多属性的向量;而x(i)表示的是输入空间中的第i个属性/特征,就是输入空间的某个属性列
监督学习的一些细分:
输入变量x和输出变量y都是连续的模型叫做回归分析
输入变量为连续的,输出变量时离散的情形叫做分类问题
输入变量和输出变量都为离散的叫做标注
(2)联合概率分布
1.什么是概率分布?什么是联合概率分布?
概率分布p(y|x):指的是练习样本数据中的一条数据(一个样本点)的模型估计和实际值之间的取值相等的概率(模型在这个样本点之上的准确度)
概率分布指的就是在一定条件下面出现的不同情况的概率的情况
形式有如p(y|x)表示的是在x的情形下发生y的概率。
其中的y|x指的是在随机变量x(输入的一个数据)的情形下面发生y的概率
联合概率分布P(Y|X):指的是练习样本数据中的所有数据根据模型计算的估计值和实际值全部相等的概率(练习样本数据集中所有数据输入后的估计值和实际值一样的概率当然就是所有的单条数据经过模型估计后的估计值和实际值相等的概率的乘积,当然是将单个的概率分布做连乘处理,就是采用似然函数来估计总体的情况)(模型在练习数据集上面的准确度)
联合概率分布指的是在X的条件下面事件Y发生的概率。
其中的X指的是随机变量x在输入空间中的集合,就是在这些输入空间中的随机变量共同输入的情况下事件Y发生的概率。
似然估计:(总体概率的估计(联合概率分布),就是将单个个体的概率的估计(概率分布)做连乘处理)
由上面可知联合概率分布(总体)可以采用似然估计来将概率分布(个体)相乘的前提就是各个个体服从独立同分布(各个个体是相互独立的而且这些个体的概率分布是相同的)
独立同分布:
对象是练习数据集中的单条数据
因为数据集中的元素(一条条的数据)的数据结构是相同的,所以应该是满足同分布的,但是这些数据独立吗???
(3)假设空间
假设空间是带参的模型,是对练习数据集上面的输入到输出的映射关系,假设空间的确定意味着模型范围的确定,就是确定了带参的函数,接下去的任务就是计算出最优的模型
假设空间中带参的模型函数的建立
这个模型的对象是练习数据集中的样本点。因此这个带参的函数模型如果是概率的话就是概率分布了
学习的三要素:
模型,策略,算法
模型就是选取合适的带参的函数(假设空间),有可能是条件概率分布函数p(y|x)也有可能是决策函数
(1)由决策函数定义的模型叫做非概率模型
(2)由条件概率分布函数定义的模型叫做概率模型。
策略就是采取何种约束(规则)来计算带参的函数(模型)(代价函数,规则化项来制约,代价函数和规则化项的选取的不同就是策略的不同)(对整体模型的准确性的一种约束,最小二乘法,联合概率分布)
非概率模型的损失函数一般是平方损失函数(估计值和实际值之间的差距的平方):对应于损失最小
概率模型的损失函数一般考虑用联合概率分布(对条件概率分布函数来构造似然函数):对应于联合概率分布最大
算法就是对策略产生的代价函数和正则项的综合函数进行最值的计算来使得这个模型的参数最优化(使得代价最小或者是模型的估计值和实际值相等的概率最大),用梯度下降法或者正规矩阵的方法来计算得到最佳参数。