机器学习简介

什么是机器学习?

Tom Mitchell给出的机器学习的定义是:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

这里说一下我自己的理解:首先计算机程序要完成一个任务T,这个任务T的完成情况用性能P去衡量;在完成任务T的过程得到一个经验E,再通过经验E提高完成任务的性能P。
这个循环往复的过程使得经验E积累增加,从而提升了完成任务T的性能P,这个过程就是机器学习。

机器学习的分类

  • 有监督学习(supervised learning)
  • 回归问题 (regression)
  • 分类问题 (classification)
  • 无监督学习(unsupervised learning)

有监督学习(supervised learning)

有监督学习可以说是做机器的老师,你要告诉机器目前已知的东西,并且也告诉他希望输出什么样的结果。这里说的机器可以理解为算法,已知的东西可以理解为已知的数据机,而希望输出的结果往往就是机器学习的目标。
比如,你要教机器去识别猫,但是猫的种类多种多样,通过传统的编程算法很难做到,这时候就可以用到机器学习,让机器自己去学习如何识别猫:你拿1000张各种各样猫的图片给机器,并且告诉他这些图片都是猫,输出的结果都应该是猫,机器会从这1000张图片提取特征,找到其中的关系,通过不断对图片特征的学习,提高自己对猫的认知。这时候你再拿出一些他从未见过的猫的图片,他也能够通过自己对猫的认知,而识别出来这些也是猫。
当然,1000张这个数据量只是举个例子,实际上机器要学习的数据量要远远超过这些。

回归问题(regression)

什么是回归问题,比如你要预测一个地区的房价,房价会根据面积,地理位置,使用期限,建造时间的不同而不同,这里的输出是一个连续的值,他可以是任何值,所以当我们的机器学习算法是预测一个连续区间上的值的时候,我们就可以称这是一个回归问题。

分类问题(classification)

什么是分类问题,刚才说的回归问题是为了预测一个连续区间上的值,那么分类问题则是预测离散区间上的值。比如我们给定一张图片,我们要判断这张图片上的动物是不是猫,那么结果就只有两种可能:是猫;不是猫。因为结果是在离散区间上的,所以我们称之为分类问题。

如何判断一个可监督学习的问题是回归问题还是分类问题?

其实最简单的一个依据就是看他最后的结果是连续的还是分散的。根据一个人的图片预测体重,体重可以是一个连续区间(如 0-300 kg)的任何值,这就是一个回归问题。根据一个人的图片预测性别,性别就只有男或女,那么这就是一个分类问题。

无监督学习

无监督学习可以说是机器自学的过程。我们不知道机器学到了什么,没有基于预测结果的反馈。比如我们给出很多张不同种类的动物的图片,我们并没有标示数据这是什么动物,但我们可以让机器学习算法将他认为具有相同或相似特征的图片归为一类。

总结

机器学习是人工智能领域一个非常重要的分支,也是目前非常热的一个话题,这篇文章主要是自己对机器学习概念的理解,同时,也是给想了解机器学习的同学提供一个参考。以上仅仅是个人理解,如有纰漏,请多多包涵。

你可能感兴趣的:(机器学习简介)