K-fold Cross Validation——交叉验证

         交叉验证(Cross-validation)主要用于建模应用中,例如PCR 、PLS 回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predicted Error Sum of Squares)。
        常用的精度测试方法主要是交叉验证,例如10折交叉验证(10-fold cross validation),将数据集分成十份,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10折交叉验证求均值,例如:10次10折交叉验证,以求更精确一点。

        N折交叉验证——主要用于统计通过数据挖掘手段进行预测的精度。当然N等于样本的数量时,该方法也被成为Leave-One-Out。十折交叉验证根据数据分割的不同,得到的精确度也不一致,而Leave-One-Out则总能得到正确的结果。缺点在于一是计算成本较高,二是可能出现不够层次化。比如所有数据中只有一个是有效的,其他都是无效的时候,这样测出来的精度误差较大?不太理解。适用于数据量较小的集合。

        Kappa Statistic——验证一个分类器的正确性。P(c)是分类器赞同(agreement)的比率,P(r)是随机分类赞同(agreement)的比率。K=1的时候表明分类器的决策时完全与随机分类相异的(正面),K=0时表明分类器的决策与随机分类相同(即分类器没有效果),K=-1时表明分类器

K-fold Cross Validation——交叉验证

的决策比随机分类还要差。一般来说,Kappa指标的结果是与分类器的AUC指标以及正确率成正相关的。







你可能感兴趣的:(K-fold Cross Validation——交叉验证)