监督学习和无监督学习的区别

从前有一个叫小明的小男孩,他很喜欢吃苹果,为了让他认识苹果,他的妈妈找来一个大苹果、一个小苹果和一个青苹果。妈妈拿起大苹果告诉小明说这是苹果,接着拿起小苹果,告诉小明说这也是苹果,拿起青苹果说不管大小、颜色如何变化,圆圆的、有把的就是苹果。现在小明知道什么是苹果了。

在人类和动物感知中,这通常被称为“概念学习”。在人工智能领域,这个过程被称为“监督学习”。

几年后,小明不仅认识了苹果,还认识了西红柿、红色的小皮球,小明觉得这三样东西有非常相似的地方。草莓、红色的领带、红色的餐盘,也有同样的相似之处。妈妈告诉她,这种相似之处是“红色”。

在人类行为中,我们将这个过程称为“归纳推理”,在人工智能的领域,我们称它为“无监督学习”。

我们再从另外一些例子来理解:

有监督:

假设你想要预测房价,现在有一个收集到的数据集。横轴是不同房屋的平方英尺数,纵轴是不同房子的价格。

有了这些数据,假设你的朋友有一栋750平方英尺的房子,他想知道卖掉这栋房子可以卖多少钱。监督学习是指,我们给算法一个数据集,其中包含了“正确答案”,也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格,算法的目的就是给出更多的正确答案,例如为你朋友想要卖掉的这所房子给出估价。用更专业的术语来定义,它也被称为回归问题

假设你想预测乳腺癌是恶性的还是良性的。假设在我们收集到的数据集中,横轴是肿瘤的尺寸,纵轴是1或0,代表“是”或“否”。恶性的对应1,良性的对应0。我们对良性的肿瘤标记为“蓝色”,对恶性的肿瘤标记为“红色”。假设我们有一个朋友的乳腺癌肿瘤的大小,我们就可以估计出良性和恶性的概率分别是多少。用更专业的术语讲,这个属于分类问题

无监督:

在有监督的数据集中,每个样本都被标记为良性或恶性肿瘤。对于有监督学习中的每一个样本,我们已经清楚的告知了什么是所谓的正确答案,即它们是良性还是恶性。

在无监督的学习中,我们使用的数据和之前的不同,没有任何标签(都具有相同的标签或者都没有标签)。我们得到一个数据集,我们不知道要拿它来做什么,也不知道每个数据点究竟是什么。我们只被告知这里有一个数据集,你能在其中找到某种结构吗?对于给定的数据集,无监督学习算法可能判定该数据集包含两个不同的簇,无监督学习算法可以把这些数据分为两个不同的簇。这就是聚类算法。

聚类算法的一个应用的例子就是谷歌新闻。谷歌新闻所做的就是每天去网络上收集十几万条新闻,然后将它们组成一个个新闻专题。

你可能感兴趣的:(python,机器学习,人工智能,人工智能,深度学习,数据挖掘,聚类)