周志华 机器学习

盗用weka


绪论

1.2基本术语

  • 学习任务大致分为两类:
    • 监督学习:分类、回归
    • 无监督学习:聚类
  • 泛化:训练得到的模型适用于新样本的能力
  • 机器学习领域最重要的国际学术会议是国际机器学习会议 (ICML)、国际 神经信息处理系统会议 (NIPS)和国际学习理论会议 (COLT),重要的区域性会 议主要有欧洲机器学习会议(ECML)和亚洲机器学习会议(ACML); 最重要的 国际学术期刊是 Journal of Machine Learning Research 和 Machine Learning. 人工智能领域的重要会议如 IJCAI、 AAAI 以及重要期刊如 Art侨c归1 Intelli- gence、 Journal of Art听cial Intelligence Reseαrch, 数据挖掘领域的重要会议 如 KDD、 ICDM 以及重要期刊如 ACM Transactions on Knowledge Discovery fromDα归、 Dαtα Mining and Knowledge Discovery,计算机视觉与模式识别领域的重要会议如 CVPR 以及重要期刊如 IEEE Transactions on Pattem Analysis and Machine Intelligence, 神经网络领域的重要期刊如 Neural Com- putation、 IEEE Transaιtions on Neural Networks αηd Leαming 8ystems 等 也经常发表机器学习方面的论文.

模型评估与选择

2.1经验误差与过拟合

  • 过拟合:学习能力过于强大,把训练样本所包含的不太一般的特性都学到了
  • 欠拟合:学习能力低下(可通过例如在决策树中扩展分支、在神经网络学习中增加训练轮数等)
  • 选择泛化误差最小的那个模型来防止过拟合

2.2评估方法

  • 使用测试集来测试学习器对新样本的判别能力。假设测试样本是从真实分布中独立同分布采样取得的。注意:测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集出现、未在训练过程中使用过。
留出法
  • “留出法” (hold-out)直接将数据集D划分为两个互斥的集合?其中一个 集合作为训练集5,另一个作为测试集T,即D=BUT,5门T=正~.在S上训 练出模型后,用T来评估其测试误差,作为对泛化误差的估计.
  • 保留类别比例的采样方式通常称为"分层采样"
  • 常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试.
交叉验证法
  • 交叉验证法先将数据集D划分为k个大小相似的互斥子集,即D=D1 U D2 U … U Dk,Di n Dj = ø (í! = j). 每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到.然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值显然,交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,为强调这一点,通常把交叉验证法称为"k折交叉验证"。k最常用的取值是10,此时称为10折交叉验证; 其他常用的k值有5、20等.
自助法
  • 自助法:给定包含m个样本的数据集D,我们对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果.显然,D中有一部分样本会在D’中多次出现,而另一部分样本不出现.样本在m次采样中始终不被采到的概率是(1 一 1/m) ^ m即通过自助来样,初始数据集D中约有36.8%的样本未出现在采样数据集D’中.于是我们可将D’用作训练集,D\D’用作测试集;这样,实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有数据总量约1/3的、没在训练集中出现的样本用于测试.这样的测试结果,亦称"包外估计"
  • 自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法 能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处. 然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差.因此,在初始数据量足够时,留出法和交叉验证法更常用一些.
调参与最终模型
  • 计算开销和性能估计之间进行折中

2.3性能度量

  • 回归任务最常用的性能度量是“均方误差”
错误率与精度
查准率、查全率与F1
  • 对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划 分为真正例、假正例、真反倒、假反例四种情形,令TP、 FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数.
真实情况 预测结果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)
  • 查准率P和查全率R:
    • P = TP / (TP + FP)
    • R = TP / (TP + FN)
  • F1度量 = 2 * P * R / (P + R) = 2 * TP / (样例总数 + TP - TN)
  • 查全率和查准率重视不同的情况
    • F lanmuda = (1 + lanmuda^2) * P * R / ((lanmuda^2 * P) + R)
    • lanmuda > 1 时查全率影响更大
    • lanmuda < 1 时查全率影响更大
ROC与AUC
  • ROC (曲线)是 “受试者工作特征”
    • 纵坐标:“真正例率” TPR = TP / (TP + FN)
    • 横坐标:“假正例率” FPR = FP / (TN + FP)

线性模型

3.1基本形式

  • 线性模型 f(x) = w1 * x1 + w2 * x2 + …… + wn * xn + b
  • 向量形式 f(x) = w^t * x + b

3.2线性回归

  • 均方误差最小化

3.4 线性判别分析

  • 简称LDA,线性学习方法

94页

你可能感兴趣的:(书-总结)