吴恩达机器学习笔记(一)引言

一、 引言(Introduction)

1.1 欢迎参加《机器学习》吴恩达机器学习笔记(一)引言_第1张图片

机器学习早已成为我们的日常。

每当使用 Google 或 Bing 等搜索引擎时,它能给出非常满意的结果,原因之一就是 Google 或微软使用的学习算法,学会了如何给网页排序。

每当使用 Facebook 或苹果的相片分类功能,它能够识别出朋友的照片,也是机器学习。

每当阅读邮件时,垃圾邮件过滤器会帮助我们过滤大量的垃圾邮件,这也是学习算法。

在本课程中,我们将学习最先进的技术,并且在实践中实现和应用这些算法。
吴恩达机器学习笔记(一)引言_第2张图片
实际上机器学习是从AI即人工智能发展出来的一个领域,我们想建造智能机器,然后我们发现我们可以通过编程,让机器做一些基本的事情,比如如何找到从A到B的最短路径。

但大多数情况下,我们不知道如何编写AI程序来做更有趣的事情,如网页搜索、相片标记、反垃圾邮件,人们认识到做到这些事情唯一的方法就是使机器自己学习如何去做。因此,机器学习使为计算机开发的一项新功能,如今它涉及工业和基础科学中的许多领域。

除此之外,还有其他一些例子:

比如说数据挖掘,机器学习如此普遍的原因之一就是网络和自动化技术的发展,这意味着我们拥有了前所未有的大量的数据集。

机器学习应用的第二个领域是我们无法手动编写的程序,例如我已经在自动直升飞机领域研究了很多年,我们就是不知道如何编写程序使直升飞机自己飞行,唯一可行的是让计算机自己学习驾驶直升飞机。

学习算法还广泛应用于私人定制程序中,每次当你使用亚马逊或Netflix等时,它就会推荐电影,产品或者音乐给你,这就是学习算法。

最后,学习算法还用来理解人类的学习过程和大脑,我们将会讨论研究者是如何使用这些来朝着AI梦前进的。

1.2 什么是机器学习?

吴恩达机器学习笔记(一)引言_第3张图片
Arthur Samuel 和 Ton Mitchell 分别在1959年和1998年对机器学习做了以下定义:吴恩达机器学习笔记(一)引言_第4张图片
Arthur Samuel认为:机器学习是在没有明确设置的情况下使计算机具有学习能力的研究领域。

Ton Mitchell认为一个适当的学习问题定义如下:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。

吴恩达机器学习笔记(一)引言_第5张图片
目前有各种不同类型的学习算法,其中最主要的两类是监督学习和无监督学习,简单来说,监督学习就是我们会教会计算机做某件事情,然而在无监督学习中,我们让计算机自己学习。

1.3 监督学习吴恩达机器学习笔记(一)引言_第6张图片

在给出监督学习正式的定义之前,我们先从例子开始解释。

例1、预测房价吴恩达机器学习笔记(一)引言_第7张图片

假设你想要预测房价,而你绘制了一个数据集,就像上图一样,横轴是不同房屋的平方英尺数,纵轴是不同房子的价格。吴恩达机器学习笔记(一)引言_第8张图片
有了这些数据,假设你朋友有一栋750平方英尺的房子,他想要卖掉这个房子,想知道能卖多少钱。那么学习算法就可以根据数据画一条直线,或者说用一条直线拟合数据,基于此,看上去房子大概可以卖15万美元。
吴恩达机器学习笔记(一)引言_第9张图片
但是,这可能不是你能使用的唯一的学习算法,可能有一个更好的。例如除了用一条直线拟合数据,可能用二次函数或者二阶多项式来拟合数据会更好。假设这么做了,在这做了一个预测,看上去房子能卖接接近20万美元。

后面我们要讨论的是如何选择,如何决定是用直线拟合数据,还是用二次函数拟合数据。

这是监督学习算法的一个例子。它也被称为回归问题,这里的回归问题指的是,我们想要预测连续的数值输出,也就是价格,技术上而言,价格能够被圆整到分,因此价格实际上是一个离散值,但通常我们认为房价是一个实数,标量或是连续值。回归这个术语是指我们设法预测连续值的属性。

监督学习是指我们给算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案。

例2、预测肿瘤是良性的还是恶性的

吴恩达机器学习笔记(一)引言_第10张图片
假设某人发现了一个乳腺肿瘤,恶性肿瘤就是有害的并且危险的,良性肿瘤就是无害的。

我们来看搜集到的数据集,假设在你的数据集中,横轴是肿瘤的尺寸,纵轴画了1或0,代表是或否,即我们看到的肿瘤样本是否是恶性的,恶性的对应1,良性的对应0。

假设我们某人的乳腺肿瘤的大小在箭头所指的值附近,机器学习的问题就是,你能否估计出肿瘤是良性的还是恶性的概率。

这是一个分类问题,分类是指我们设法预测一个离散值输出,0或1,恶性或良性,实际上在分类问题中有时也有两个以上的可能的输出值。

在分类问题中,还有另一种方法来绘制这些数据。
吴恩达机器学习笔记(一)引言_第11张图片
如果肿瘤大小是用来预测良性或恶性的特征,我们也可以这样绘制数据,用不同的符号来表示良性或恶性,例如用O表示良性肿瘤,用X表示恶性肿瘤,然后将上面的数据集对应下来,在这个例子中,我们只使用了一个特征或者说属性,即肿瘤的大小来预测肿瘤是恶行的还是良性的。在其他机器学习的例子中,我们会有多个特征,多个属性。吴恩达机器学习笔记(一)引言_第12张图片
例如假设我们不仅知道肿瘤的大小,还知道病人的年纪,在这种情况下,我可能有一组病人,年龄和肿瘤大小是这样的,数据集就是上图这样的。

因此在给定的数据集上,学习算法能做的就是在数据上画一条直线,设法将恶性瘤和良性瘤分开。吴恩达机器学习笔记(一)引言_第13张图片
在这个例子中我们有两种特征,即病人的年纪和肿瘤的大小,在其他的机器学习算法中,往往会有更多的特征。

1.4 无监督学习吴恩达机器学习笔记(一)引言_第14张图片

在上一节中,我们讲到了监督学习,我们的数据集每个样本都被标明为阳性样本或者阴性样本。我们被清楚的告知了什么是所谓的正确答案,即它们是良性还是恶性。
吴恩达机器学习笔记(一)引言_第15张图片
在无监督学习中,我们所用的数据和之前不同,看上去是这样的,没有任何标签,都具有相同的标签或者都没有标签。我们得到一个数据集,我们不知道要拿它来做什么,也不知道每个数据点究竟是什么,我们只被告知这里有一个数据集,如下图所示:
吴恩达机器学习笔记(一)引言_第16张图片
对于给定的数据集,无监督学习算法可能判定该数据集包含两个不同的族, 无监督学习算法可以把这些数据分成两个不同的族,这就是聚类算法

因为我们没有把例子中数据集中的正确答案给算法,所以这就是无监督学习。无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。

聚类算法就是无监督学习的一种,在以下领域有大量应用:

1、被用来组织大型的计算机集群,并试图找出哪些机器趋向于协同工作; 2、用于社交网络的分析,通过某人的社交网络,可以自动识别同属一个圈子的好友,并且判断哪些人相互认识;
3、在市场细分中的应用;
4、用于天文数据分析。

你可能感兴趣的:(机器学习,机器学习)