机器学习之路02——模型评估之“交叉验证法(cross )”

先将数据集D划分为k个大小相似的互斥子集,即D=D~1∪D~2...∪D~k,D~i∩D~j=⊙(i≠j).每个子集D~i都尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后,每次用k—1个子集的并集作为训练集,剩余的那个子集作为测试集(k组训练/测试集),从而可进行k次训练和测试,最终返回的就是这k个测试结果的均值
注意:
1.常见的为“10折交叉验证”
2.为减小因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终结果是这p次k折交叉验证结果的均值
3.假定数据集D中包含m个样本,若另k=m,=>得到一个特例:留一法(Leave-One-Out,LOO),留一法不受随机样本划分方式的影响,因为m个样本只有唯一方式划分为m个子集——每个子集包含一个样本;留一法使用的训练集与初始数据集相比只少了一个样本,这就使得在绝大多数情况下,留一法中被实际评估的模型与期望评估的用D训练出的模型很相似,因此,留一法的评估往往被认为比较准确,其缺陷是:在数据集较大时,训练m个模型的计算开销很大,也并不一定比其他评估方法准确

你可能感兴趣的:(大数据)