机器学习入门简介------R(1)

机器学习简介:

什么是机器学习?我们每天可能都使用它上百次而不自知。

每次我们使用百度搜索实际上它背后也是有复杂的机器学习系统在努力地进行这个跟我们目标关键词相关的检索、排序工作;

当我们使用美图、美拍这样的照相软件时,它也是使用了机器学习来识别面部并进行一定程度的美化;当我们使用email,我们都会看见垃圾箱里躺着一堆垃圾邮件,而它们都不是我们主动拖拽移动进去的,这实际上也是机器学习帮我们自动地识别了垃圾邮件;当我们在京东、天猫购物时,它们都常常向我们推荐一些我们感兴趣的商品促成我们更加便捷地购买,这实际上也是机器学习在发挥作用。

我们的生活中充满了机器学习!

机器学习实际上是一门”教会”计算机学习而不需要明确地进行编程的科学。比如,扫地机器人,他应该怎样帮助我们清扫我们的房子呢?一种办法是让它学习我们如何清扫,让它看看我们都捡起了什么东西,然后把它们又放到什么地方,而不需要编写固定的程序让它们识别垃圾,并将它们移动到固定的垃圾桶。

机器学习,实际上在很多问题上都是一种通用解决方案,它只需要通过大量的实例就可以以很高的精度逼近准确的解决方案。它带来的好处是不需要严格地去分析具体问题并构造精确解,它以一种通用的解决方案框架来对问题进行抽象建模,并通过大量的实例来纠正模型中的参数,并最终以该模型来逼近精确解,最终达到应用标准。

塞缪尔在上世纪50年代写了一个跳棋程序,虽然塞缪尔自己不是一个优秀的棋手,但是他让这个程序自己对弈上万盘,最终使得程序能够轻松地将塞缪尔击败。这在当时让人非常惊讶,是一个很了不起的成就。

塞缪尔的程序并没有被告知应该怎么下棋,而是通过大量的与自己的对弈掌握了在不同情况下不同行为致使最终输赢的概率,并以此使得最终能够轻松打败人类。

现今,我们拥有非常多种类的学习算法。最主要的两种是监督学习和无监督学习。我们在后续的课程中将对它们进行形式化的定义。不过直观上,监督学习就是我们教计算机如何做事,而无监督学习则是让计算机自己做。

监督学习

监督学习这个词的含义是:我们向算法提供了标识了"正确答案"的数据。比如在我们这个房价例子中,每一个样本都具有确定的价格。这些价格都是已经挂牌的价格,那么对于后续需要挂牌的房子,我们的算法需要给出合适的价格。

首先,监督学习的思想就是,对于数据集中的每一个样本,我们的学习算法都被告知了对应的"正确答案",比如房价、肿瘤是否良性等,并且我们希望学习算法能够学习到样本特征和这些正确答案之间的关系。一旦完成这项工作,我们就能对于新的没有"正确答案"的新样本进行有把握的预测了。

无监督学习

它是机器学习中仅次于监督学习的一个类型。

前面我们讨论了监督学习,比如这样一个二分类问题的数据。每一个样本均被标示为正样本或负样本。比如这里的原型标志,以及红叉标志。

在监督学习中,我们的算法被明确地告知了每一个样本对应的"正确答案",比如肿瘤是否为良性。而在无监督学习中,我们面对的数据则有所不同,我们的样本并没有被标识它们属于什么类,或者它们的目标取值应该是什么样子。

所以我们拿到了数据集,但是我们并没有被告知应该怎么处理它,我们仅仅知道样本的一些属性或者特征而已。我们面临仅仅是这么一堆数据罢了。那么我们是否能够从这些数据中找到什么潜在的结构么?

比如给定了这个数据集,一个无监督学习算法可能能够认识到,这些数据实际上属于两个簇,是一个簇,这是另一个簇。

在无监督学习中,这种算法被称为聚类算法。而且这种算法会在很多地方都被使用。

你可能感兴趣的:(机器学习)