吃瓜教程 task 1

西瓜书_第一章 绪论

  • 基本术语

数据集 data set 一组记录的集合
示例/样本/特征向量 instance/sample/feature vector 一条记录(对对象的描述)
属性/特征 attribute/feature 对象的表现或性质
属性值 attribute value 属性上的取值
属性空间/样本空间/输入空间 attribute space/sample space 属性张成的空间
标记 label 示例“结果”的信息
样例 example 拥有标记信息的示例
分类 classification 预测离散值
回归 regression 预测连续值
聚类 clustering 不拥有标记信息的分类
簇 cluster 聚类分成的每一个组

  • 机器学习基本概念

机器(machine)当然是代指计算机了,那么学习(learning)是什么?心理学里对学习的定义是获得新的理解、知识、行为、技能、价值观、态度和偏好的过程,对于机器来说,学习也是一个过程,只不过这个过程是*基于数据(data)的用来获得一种模型(model)的过程*。这个过程也叫训练(train)。

  • 假设空间:学得模型对应了关于数据的某种潜在规律,因此称为“假设”。我们可以把学习的过程看作一个在所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集“匹配”假设。在现实问题中,我们常面临很大的假设空间,但是学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,我们称之为“版本空间”。

第二章 模型评估与选择

误差

  • 经验误差/训练误差:学习器(模型)在训练集上的误差。
  • 泛化误差:在新样本上的误差。
  • 过拟合:学习器把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,导致泛化能力下降。过拟合问题无法彻底避免,是机器学习面临的关键问题。
  • 欠拟合:学习器对训练样本的一般性质尚未学好。

评估方法

通过“测试集”来测试学习器对新样本的判断能力,测试集上的“测试误差”作为泛化误差的近似。其中,测试集里的样本应尽量不在训练集中出现。

  • 评估方法
    • 留出法:将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,通常数据集D中2/3~4/5的样本用于训练,剩余用于测试。训练集和测试集的划分要尽可能保持数据分布的一致性。并且,单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,往往采用若干次随机划分,重复实验评估后取平均值作为留出法的结果。
    • k折交叉验证:先将数据集D划分为k个大小相似的互斥子集,每个子集尽可能保持数据集分布的一致性,然后每次用k-1个子集的并集作为训练集,剩下那个子集作为测试集,这样就获得k组训练集和测试集,从而进行k次训练和测试,最终返回k个测试结果的均值。“留一法”是其中一个特例,其不受随机样本划分方式的影响,但是当数据集比较大时,计算开销也很大。
    • 自助法:针对m个样本的数据集进行采样,每次抽样后放回,重复m次后,将未取到的样本作为测试集,通常用于数据量太小,难以划分训练/测试集的情况,但因为改变了数据分布,可能引入估计误差,并不常用

性能度量

衡量模型泛化能力的评价标准称之为“性能度量”。模型的"好坏"是相对的,判断一个模型的结果取决于任务需求,而性能度量反映了任务需求,所以使用不同的性能度量往往导致不同的评判结果。

  • 错误率与精度:错误率是分类错误的样本数占样本总数的比例,精度是分类正确的样本数占样本总数的比例。
  • **查准率、查全率和F1:**查准率指被分类器判定正样本中的实际正样本的比重。查全率指正样本中被正确预测的比重。F1 是分类问题的一个衡量指标。它是查准率和查全率的调和平均数,最大为1,最小为 0,数值越大,实验结果越理想。

均方误差(mean squared error)-回归任务最常用的性能度量
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f ; D)=\frac{1}{m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} E(f;D)=m1i=1m(f(xi)yi)2
积分形式:
E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x E(f ; D)=\int_{x \sim D}(f(x)-y)^{2} p(x) d x E(f;D)=xD(f(x)y)2p(x)dx

  • 性能度量

    • 错误率与精度
    • 查重率、查全率与F1
    • ROC 与AOC
    • 代价敏感错误率与代价曲线
  • 比较检验

    • 假设检验
    • 交叉验证t检验
    • McNemar检验
    • Friedman检验与Nemenyi检验

你可能感兴趣的:(机器学习,机器学习,聚类,数据挖掘)