吃瓜教程 task1

2.2.1 留出法

“留出法”将数据集D划分为两个互斥的集合,D=S∪T 		S∩T = 空集 
注意:训练/测试集的划分要尽可能保持数据分布的一致性,
如果从采样的角度来看,类似于”分层采样"
一般情况下训练/测试集的划分比例是将2/3~4/5的样本用做训练,
剩余样本用作测试

2.2.2 交叉验证法

D划分为k个大小近似的互斥子集,D=D1∪D2∪D3∪...∪Dk,Di∩Dj = 空集 (i ≠ j)
每个Di保持数据分布的一致性
用k-1个子集的并集作为训练集,余下的子集作为测试集,
从而进行k轮测试,最终返回K个测试结果的均值,
被称为"k折交叉验证"

2.2.3 自助法

对于数据集D,对其采样产生数据集D',
每次从D中随机挑选一个样本呢拷贝后放入D',
再将该样本放回到初始数据集D中,
使得该样本在下次采样时仍可能被采到
样本在m次采样中始终不被采到的概率是(1-1/m)^m 取极限得到概率值约为0.368,
D中约有36.8%的样本未出现在采样数据集D'中,
我们将D‘用作训练集,D用作测试集,这样的测试结果亦称”包外估计”。
注意:自助法产生的数据集改变了初始数据集的分布,会引入估计偏差。

2.3.2 查准率、查全率与F1

 混淆矩阵
真实情况		   预测结果
		    正例      反例
正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)
查准率P与查全率R的定义为:
P=TP/(TP+FP)  查准率
R=TP/(TP+FN)  查全率
度量学习器的好坏:
(1)平衡点 “查准率=查全率”时的点
(2)F1度量:
	F1 =  2×P×R/(P+R) = 2×TP / (样例总数+TP-TN)

内容来源:《机器学习》周志华

你可能感兴趣的:(机器学习)