回归问题和评估分类器准确率

线性回归问题可以利用最小二乘法来确定误差,通过使误差最小化来确定线性方程的系数,而最小化可以通过求导来确定。

非线性方程可以通过变量替换等方式转化为线性方程

广义线性模型可以用于对离散取值变量进行回归建模,在广义线性模型中,因变量Y的变化速率是Y均值的一个函数,常见的广义线性模型有:

对数回归:利用一些实际发生的概率作为自变量所建立的线性回归模型

泊松回归模型:主要是描述数据出现次数的模型,因为它们常常表现为泊松分布


在分类器准确性估计中,利用训练数据归纳学习获得一个分类器并利用训练数据对所得的分类器预测准确率进行估计,将会得到一个(有关该分类器准确性的)过分乐观且具有误导性的评估结果。

holdout和交叉验证是两个常用的评估分类器预测准确率的技术,它们均是在给定数据集中随机取样划分数据。

holdout:将所给定的数据集随机划分成两个独立部分:一个座位训练数据集,而另一个作为测试数据集,通常训练数据集包含初始数据集中的三分之二的数据,而其余的三分之一则作为测试数据集的内容。利用训练集数据学习获得一个分类器,然后使用测试数据集对该分类器预测准确率进行评估,由于仅使用初始数据集中的一部分进行学习,因此对所得分类器预测准确性的估计应该是悲观的估计。随机取样是holdout方法的一种变化,在随机取样方法中,重复利用holdout方法进行预测准确率估计k次,最后对这k次所获得的预测准确率求平均,以便获得最终的预测准确率。

k-交叉验证:将初始数据集随机分为k个互不相交的子集,S1,S2,...,Sk,每个子集大小基本相同。学习和测试分别进行k次,在第i次循环中,子集Si作为测试集,其他子集则合并到一起构成一个大训练数据集并通过学习获得相应的分类器,也就是第一次循环,使用S2....Sk作为训练数据集,S1作为测试数据集;而在第二次循环时,使用S1,S3,...,Sk作为训练数据集,S2作为测试数据集;如此下去等等。而对整个初始数据所得分类器的准确率估计则可用k次循环中所获得的正确分类数目之和除以初始数据集的大小来获得。在分层交叉验证中,将所划分的子集层次化以确保每个子集中的各类别分布与初始数据集中的类别分布基本相同。


改进分类器准确性的2种常用的方法:bagging & boosting

如图所示

回归问题和评估分类器准确率_第1张图片

bagging和boosting两种方法,可以将学习所获的T个分类器结合起来,以便最终获得一个组合分类器,借以提高整个数据集所获得的分类器的预测准确性。

bagging:给定s样本集合,对于循环t(t=1,2,...,T),从初始数据集S中使用替换法方式采样获得一个训练集合St,由于采用替换方法,S中的一些样本数据可能不会在St中出现。对于每个训练数据集St学习获得一个分类器Ct,为了对一个未知样本X进行分类,每个分类器Ct返回一个类别作为一票,且最终所获得的分类器C‘,将得票最多的类别赋给X。利用bagging方法还可用于对连续值进行预测,这时就需要求取每个得票值的平均值而不是取多数。

boosting:每个训练样本赋予一个权值,通过学习获得一系列分类器;在学习获得一个分类器Ct之后,对其权值进行更新以便使下一个分类器Ct+1能够将注意力集中到由分类器Ct所发生的预测错误上;最后所获得的分类器C',则将多个(单独)分类器组合起来,每个分类器投票的权值为分类器C'准确率的一个函数,同样boosting方法也可以扩展用于连续值的预测。

你可能感兴趣的:(DM)