【吃瓜教程 CH1&CH2 绪论&模型评估与选择】

吃瓜教程&Datawhale开源学习教程

CH1&CH2 绪论&模型评估与选择


文章目录

  • 吃瓜教程&Datawhale开源学习教程
  • 一、前言
  • 二、熟悉概念
  • 三、模型评估与选择
  • 四、总结


一、前言

之前的课外知识学习中已经渗透不少,一些基础的机器学习概念已经满大街都是,不再赘述了。直奔《机器学习》中感兴趣的几个点讲一讲:


二、熟悉概念

  1. 归纳偏好(induction preference)
    指的是机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。例如,在我们选瓜的过程中应当选择特征鲜明一些的瓜,还是简单明显的瓜——即学习算法得到的模型应该更倾向于“尽可能特殊”的模型,还是“尽可能一般”的模型。
  2. 一般性的原则:
    既然模型算法需要有一定的偏好,“偏好”的选取也应当有规矩可依。
    o 奥卡姆剃刀Occam’s razor:
    若有多个假设与观察,则选择最简单的那个。(PS:难点在于什么“假设”是更简单的假设?这需要借助其他的机制才能解决)
    o 多释原则Principe of multiple explanation:
    主张保留与经验观察一致的所有假设(契合集成学习ensemble learning的研究)

三、模型评估与选择

同一任务可能存在多种学习算法,而对于某种特定的算法,不同的参数配置会产生不同的模型——模型的好坏(适用程度)的常用评估方法有:
o 留出法:
从数据集中选出互不相关的样本集合分别作为训练集S和测试集T,并且采样过程需尽量满足数据分布的一致性,然后进行若干次随机取样,重复进行实验评估后取平均值。
o 交叉验证法:
将D分成k个互不相关的子集Di(k 通常取10)且Di应当尽量保证数据分布的一致性,每次将k-1个子集的并集作为训练集,剩余1个作为测试集,共进行k次测试/训练,最终返回k个测试结果均值。
o 留一法:
特别地,当k = m时,划分出m个子集——此时,训练集样本数为m - 1,测试集样本数为1,实际评估模型的结果在大多情况下与用期望评估的用D训练处的模型相似,但是存在“数据量大时,计算开销大”的问题。
o 自助法:常应用在数据集小的场景
每次随机从D中挑选一个样本,将其拷贝放入样本集D‘中,重复执行m次后,分别得到样本数为m的训练集,和约1/3的、没有在训练集的样本集作为测试集,而后我们将D’作为训练集,D\D’作为测试集,这样实际评估的模型应用在“难以有效划分训练\测试集”的情况

四、总结

本次《机器学习》的第一二章学习过程比较顺利,主要以知识概念的学习为主,从中我发现的道理是“再复杂的算法也需要基础结构的支撑,再复杂的问题也需要基础理论的论据。”扎实基础,慢慢来~

你可能感兴趣的:(Datawhale,机器学习,机器学习)