吃瓜教程 | Datawhale 打卡(Task 01)

第1章 绪论

1.1 引言

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

“经验”通常以“数据”的形式存在。

机器学习研究的主要内容: 在计算机上从数据中产生“模型”(model)的算法,即“学习算法”。(learning alorithm)

机器学习是研究“学习算法”的学问。

1.2 基本术语

记录 属性 属性值 属性空间(样本空间、输入空间)特征向量 维数 学习(训练)标记(带有结果信息) 样例 标记空间(输出空间) 分布 独立同分布

学习的过程是为了逼近真相

分类:对于离散值的预测。(二分类任务和多分类任务)
回归:对于连续值的预测 。(回归任务)

聚类: 我们不给他一个标记信息,直接进行分组(“簇”),由其自己学习,最后反应出信息。
而根据是否有标记信息,可以分为监督学习无监督学习

1.3 假设空间

归纳:特殊到一般 泛化 从具体事实得到一般性规律。 狭义上还有概念学习
演绎:一般到特殊 特化 从基础原理推出具体状况。

目标:我们通过实例(样本)得到的一般性结论,能够用来去预测具体状况的某一结果。

假设空间(所有假设情况组成的空间) 还要考虑特殊的取值什么都可以
西瓜书为例:(3+1)^ 3 + 1 = 64
此外对于别的情况可能还要考虑“好瓜根本就不存在”。

结果:对于假设空间可以使用不同的搜索模式进行搜索,不断删改最终就能得到与训练集一致的假设

版本空间:存在着一个与训练集一致的“假设集合”
(理解:一种训练集同时能满足多种我们构想的假设空间中的情况。)

其余内容

(暂时跳过

第2章 模型评估与选择

2.1经验误差与过拟合

过拟合:把部分样本独有的特征打错是全部个体的特 难以克服且无法彻底避免
欠拟合:没有能够学习到本质特征 易克服

机器学习面临的问题难度是NP以上的。
有效的学习算法要在多项式时间内运行完成。
如果能简化为P问题(构造性的证明),我们就可以通过经验误差最小化以获得最优解。

NP的英文全称是Non-deterministic Polynomial的问题,即多项式复杂程度的非确定性问题。
P类问题:所有可以在多项式时间内求解的判定问题构成P类问题。 判定问题 :判断是否有一种能够解决某一类问题的能行算法的研究课题。
NP类问题:所有的非确定性多项式时间可解的判定问题构成NP类问题。 非确定性算法:非确定性算法将问题分解成猜测和验证两个阶段。
NPC问题:NP中的某些问题的复杂性与整个类的复杂性相关联.这些问题中任何一个如果存在多项式时间的算法,那么所有NP问题都是多项式时间可解的.这些问题被称为NP-完全问题(NPC问题)。

2.2 评估方法

以测试误差作为泛化误差的近似。
测试样本也是从样本真实分布中独立同分布采样得来,测试样本要尽量与训练样本不同。

即测试模型“举一反三”的能力。

留出法
交叉验证法
(注意的是划分方式的不同可能会对结果造成比较大的影响,采样一般采取分层采样,一般会使用多次取均值)

自助法

2.3 性能度量

衡量模型的泛化能力的评价标准。

Reference
《机器学习》 周志华著

你可能感兴趣的:(机器学习)