【机器学习】入门1-基本概念理解

1.什么是机器学习

机器学习的一个正式定义是由计算机科学家Tom M. Mitchell提出的:如果机器能够获取经验并且利用它们,并在以后的类似经验中能够提高它的表现,这就称为机器学习。

2.机器如何学习
学习过程可以分解为4步:
1)数据存储:即收集和存储数据。
2)抽象化:即建立模型来概括存储的数据。

  • 常见的模型有:数学方程、像树或图这样的关系图、逻辑上的如果/否则等关系、把数据分组为类等等。
  • 模型的选择是由学习任务和可用的数据类型来决定的。
  • 用模型来拟合数据集的过程称为训练

3)一般化:把抽象化的知识转换成可以用于未来行动的一种形式的过程,这些行动针对和以前类似但不完全相同的任务。
4)评估:判断模型的成功性--在初始数据集上训练模型后对模型进行评估,再在一个新数据集上对模型进行检验,从而判断从训练数据集得到的特征推广到新的未知数据的好坏程度。
机器学习的过程中,数据中的噪声或无法解释的波动会导致模型不能完美的一般化。试图用模型拟合噪声就会导致过度拟合。具体来说:如果一个模型在训练时表现得很好,但是当用新的数据集评估时就表现很差的现象,就是过度拟合了训练数据集。
3.机器学习算法的类型
机器学习算法可以根据目的分为以下3类:
1)预测模型:通过发现并且对目标特征(需要预测的特征)和其他特征之间的关系建模,来实现利用数据集中的其他数值来预测另一个值。因为预测模型对于“学什么”和“怎么学”有清晰的指导,所以训练一个预测模型的过程也称为有监督学习。监督并不是指需要人为干预,而是指让目标值担任监督的角色,让它告诉算法要学习的任务是什么。

有监督学习的常见任务有预测分类和预测数值数据两种。但其实数值可以很容易的转换为类别,比如通过取阈值18,将大于18岁的定义为成年人,小于等于18岁的定义为未成年人,从而将一组数值数据转换为有两个分组的类别数据。

在预测模型中被应用最广泛的是回归模型。因为它用表达式准确地量化了输入数据和目标值之间的关系,其中包括该关系的大小和不确定性。

2)描述性模型:算法没有特定的学习任务,而专注于总结和洞察数据。因为没有学习目标,训练描述性模型的过程被称为无监督学习。描述性模型常见的任务是聚类。
3)元学习:不与具体学习任务相关联,而专注于如何更有效的学习。这种算法应用某些学习的结果来指示其他的学习。


机器学习的三种主要类型

要学习的任务决定算法的选择。机器学习首先要确定的就是算法的学习任务属于下面四种类型的哪一种:分类?数值预测?模式识别?还是聚类?然后再根据输入数据匹配合适的算法。常见的机器学习算法见下图:
常见的机器学习算法

--end--

你可能感兴趣的:(【机器学习】入门1-基本概念理解)