机器学习-绪论

绪论一章对机器学习的基本概念和发展历史进行了介绍。

一、基本概念

1.1 机器学习

研究内容:在计算机上从数据中产生“模型”的算法;
定义:使用性能评估指标P来进行评估,优化目标时任务T,利用经验E来进行任务T关于P指标的优化;
核心要素:任务T、性能P,经验E。

1.2 经验E

属性—属性值—属性空间
数据集:经验E中的记录的组合。其中一条经验称为一个“示例”或“样本”;
属性:示例所包含的表现维度;
属性空间:属性所张成的空间;

样本在属性空间标识为一个特征点/特征向量。

训练集—测试集
训练集:用于算法学习的数据集合。
测试集:用于算法评估的数据集合。

标识空间
标识空间:训练样本的"结果"信息属性所张成的空间;

1.3 模型

机器学习分类
可分为分类、回归和聚类,或者按是否有标定值分为监督学习和无监督学习。

假设空间
所构建算法模型所有自定义参数所张成的空间。

泛化能力
算法在非训练集样本的判断准确能力。

归纳偏好
机器学习的基本假设为样本的独立同分布原则。这样才可以通过推测样本的分布来确定整体的分布。训练样本越多,越准确。
但往往,在一个假设空间内,有不止一个假设满足。但机器学习,必须确定出一个算法。因此,他会根据设定或默认的方式来收敛出一个他认为的最优假设。
归纳偏好最典型的一个名词就是奥卡姆剃刀。

但我们要注意,就算法而言,我们必须了解NFL原理,即在没有假设偏好的前提下,任何算法的误差均是一样的。我们机器学习的过程,往往就是针对特定问题,进行算法及假设空间的优化。

二、发展历程

| -二十世纪五十年代到七十年代-|-推理期 - |
|-二十世纪七十年代中期-|-知识期-|
| -八十年代- | -机器学习称为独立的学科领域- |

机器学习被划分为:从样例中学习,在问题求解和规划汇总学习,通过观察和发现学习,从指令中学习。

在从样例中学习的范围内,按照实现方式不同,分为符号主义学习(决策树以及基于逻辑的学习)、连接主义学习(神经网络)及统计学习(支持向量机)。

你可能感兴趣的:(机器学习,决策树,算法)