吴恩达机器学习笔记——第一章

每学完一章都来写一篇博客,用来总结回顾和反思。

一、机器学习的一些简单应用

我们可以利用计算机实现基础的功能:例如计算A到B的最短路径。

但是 网页搜索、垃圾邮件的过滤、图片识别 等功能需要应用机器学习的技术,总体来说分成五个方面

  1、数据挖掘,例如分析用户的点击量来分析用户习惯,更好的了解用户

  2、对于某些无法直接编写代码的场景,例如无人机自动驾驶

  3、NLP 自然语言处理

  4、个性推荐

  5、AI,像人的大脑一样

二、什么是机器学习

     Arthur Samuel对机器学习的定义:在没有明确设置的情况下,使计算机具有学习能力的研究领域(有些陈旧,不正确)。

    Tom Mitchell:计算机程序从经验E中学习解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。

    机器学习算法分类:

    1. 监督学习:我们教计算机做某件事情

    2. 无监督学习:我们让计算机自己学习

    3. 强化学习

    4. 推荐系统

三、监督学习(supervised learning)

监督学习:就是我们给算法一个数据集,其中包含了正确答案。也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格即这个房子实际卖价,算法的目的就是给出更多的正确答案,例如为你朋友想要卖掉的这所新房子给出估价。

回归问题:结果是线性的(我们设法预测出一个连续值的结果)。

分类问题:结果是离散的(我们设法预测出一个离散值得结果)。

四、无监督学习(unsupervised learning)

无监督学习:就是我们已知的数据,不同于监督学习的数据一样,无监督学习中是没有任何标签的。针对数据集,无监督学习就可能判断出数据有两个不同的聚集簇。这是一个,这是另外一个,二者不同。这就叫聚类算法。

聚类应用的一个例子就是在谷歌新闻中。如果你以前从来没见过它,你可以到这个 URL 网址 news.google.com 去看看。谷歌新闻每天都在收集非常多非常多的网络的新闻内容。 它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件, 自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,并会显示到一起。

所以这个就是无监督学习,因为我们没有提前告知算法一些信息。我们只是说,是的,这是有一堆数据。我不知道这些数据是什么。我不知道谁是什么类型。我甚至不知道有哪些不同的类型,你能自动地找到数据中的结构吗?就是说你要自动地聚类那些个体到各个类,我没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据,所以这就是无监督学习。

聚类和分类的区别:
分类:已知数据的类型,即在没有输入的时候,就知道输出的结果(如:肿瘤良性还是恶性)。
聚类:不知道数据的类型,只给数据一些特征,机器根据特征,将数据分开。

无监督学习或者聚类的一些应用:

1、它用于组织大型计算机集群。我有些朋友在大数据中心工作,那里有大型的计算机集群,他们想解决什么样的机器易于协同地工作,如果你能够让那些机器协同工作,你就能让你的数据中心工作得更高效。

2、第二种应用就是社交网络的分析。所以已知你朋友的信息,比如你经常发 email 的,或是你 Facebook 的朋友、谷歌+圈子的朋友,我们能否自动地给出朋友的分组呢?即每组里的人们彼此都熟识,认识组里的所有人?

3、还有市场分割。许多公司有大型的数据库,存储消费者信息。所以,你能检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,你才能自动并更有效地销售或不同的细分市场一起进行销售。这也是无监督学习,因为我们拥有所有的顾客数据,但我们没有提前知道是什么的细分市场,以及分别有哪些我们数据集中的顾客。我们不知道谁是在一号细分市场,谁在二号市场,等等。那我们就必须让算法从数据中发现这一切。

4、最后,无监督学习也可用于天文数据分析,这些聚类算法给出了令人惊讶、有趣、有用的理论,解释了星系是如何诞生的。

这些都是聚类的例子,但是聚类只是无监督学习中的一种。

Fighting!!!

 


 

 

你可能感兴趣的:(机器学习,机器学习,吴恩达,监督学习,无监督学习,笔记)