分类和预测 2

预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。

预测和分类的异同
1. 相同点
  两者都需要构建模型
  都用模型来估计未知值
  预测当中主要的估计方法是回归分析
     线性回归和多元回归
     非线性回归
2. 不同点
  分类法主要是用来预测类标号(分类属性值)
  预测法主要是用来估计连续值(量化属性值)

1. 评估分类法的准确性

导出分类法后,再使用训练数据评估分类法,可能错误的导致乐观的估计
保持方法:
给定数据随机划分为2个集合,训练集(2/3)和测试集(1/3)
训练集导出分类法,测试集对其准确性进行评估
随机子选样:保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值
k-折交叉确认
初始数据被划分为k个不相交的,大小大致相同的子集S1, S2, Sk
进行k次训练和测试,第i次时,以Si做测试集,其他做训练集
准确率为k次迭代正确分类数除以初始数据集样本总数

2. 提高分类法的准确性
Bagging技术和boosting技术都通过将T个学习得到的分类法C1, C2, ..., CT组合起来,从而创造一个改进的分类法C*
Bagging技术
对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct
对于未知样本X,每个分类法返回其类预测,作为一票
C*统计得票,并将得票最高的预测赋予X

Boosting技术
每个训练样本赋予一个权值
Ct的权值取决于其错误率

你可能感兴趣的:(c,测试)