前沿科普丨黄涌铭:机器学习三大分类

前沿科普丨黄涌铭:机器学习三大分类_第1张图片
文章來源:涂乐30分
机器学习的对象是数据,根据数据是否有标签可以分成三类

一、监督学习(supervised learning)

监督学习的工作,就是通过有标签的数据训练,获得一个模型,然后通过构建的模型,给新数据添加上特定的标签。其对象主要是带有标签的数据。

其实,监督学习就是分类(classification)的代名词。它从有标签的训练数据中学习,然后给定某个新数据,预测它的标签(given data, predict labels)。这里的标签(label),其实就是某个事物的分类。

例如,小时候父母告诉你那那就是一只小狗,见多听的多了,你的大脑中就形成不断训练出识别狗的模型,下次你见到一个动物就会根据大脑中的模型判断它是狗还是猫。所以不断的见识某种对象的过程,就是不断在训练大脑中的模型,同时也是在不断输出判断,给目标对象加识别标签。

二、无监督学习(unsupervised learning)

相对监督学习,无监督学习主要针对的是无标签数据。可以认为无监督学习主要是聚类(cluster)的代名词。

给定数据,从数据中学,能学到什么,就看数据本身具备什么特性了(given data, learn about that data)。我们常说的“物以类聚,人以群分”就是“无监督学习”。

例如我们把某些具备相似特征的动物汇纳定义为同一类,例如狗(注意,未归类定义之前,我们并不知道它们叫什么),我们完成归类并输出定义就是训练出模型了,这时候再来一个具备类似特征的动物,我们通过模型判断可将其归到狗类中。

三、半监督学习(semi-supervised learning)

这类学习方式,既用到了标签数据,又用到了非标签数据。兼具监督学习和无监督学习。

例如,我们从小有父母教,有老师教,有人告诉我们事物的对与错(即对事物打了标签),然后我们可据此改善自己的认知和性情,慢慢把自己调教得更有“教养”,这个过程大脑主要通过监督学习来训练。大学毕业走上社会走上工作岗位,接触新知识,进入新环境,我们需要独立自立,没有人告诉你对与错,一切都要基于自己早期已获取的知识为基础,从社会中学习,自己汇纳演绎,扩大并更新自己的认知体系,这个过程大脑主要通过无监督学习来训练。

又例如,A同学和B同学是DBA,C同学经常跟他们讨论数据库技术,参加数据库技术大会,通过这些特征信息,可以给C同学打个标签也是DBA。

半监督学习就是以“已知之认知(标签化的分类信息)”,扩大“未知之领域(通过聚类思想将未知事物归类为已知事物)”。但这里隐含了一个基本假设——“聚类假设(cluster assumption)”,其核心要义就是:“相似的样本,拥有相似的输出”。



Everything just begins.

你可能感兴趣的:(前沿科普丨黄涌铭:机器学习三大分类)