无监督学习

引言

前文已经讲到,ChatGPT的训练过程使用了无监督学习、监督学习和强化学习等多种机器学习方式。其中GPT大语言模型使用了海量的互联网文本进行训练,这样规模的数据不可能用人工方式进行标注,因此无监督学习也就成为必然选择。可以这样说,没有无监督学习就没有ChatGPT。

监督学习

监督学习是通过人工标注数据对模型进行训练的机器学习方式。监督学习就像小朋友常用的看图识字卡片,每个图片是什么物体已经提前标注好,就像有老师在教学。监督学习是十年来深度学习最常用和成效最大的机器学习方式。

无监督学习_第1张图片

看图识字

图片来自网络

监督学习最大的问题是标注好的数据非常稀缺,或者因为标注量太大,或者因为标注需要专家资源,都会造成成本太高。

随着互联网的兴起和数字设备的普及,数据呈爆炸式增长,如果能够从没有标注的数据中学习,将极大提升机器学习的效果。另外,人类大脑具备很强的自学能力,这也给机器学习提供了重要参考。

无监督学习

数据本身就蕴含知识和规律,例如下图左边众多的数据点可以分为三类,在右图中用三种颜色来表示,无监督学习就可以直接学习到数据中的这种规律,因此无监督学习也称为知识发现。

无监督学习_第2张图片

数据聚类

图片来自网络

无监督学习的历史可以追溯到1930年,已经有很长的发展历程。无监督学习比监督学习要困难很多,直到近年来取得了很大的突破,包括ChatGPT,也成为目前最有潜力和热门的机器学习方式。自编码器(AutoEncoder)是无监督学习中最常见的模型。

无监督学习_第3张图片

自编码器

图片来自网络

自编码器的训练只需要使用未标注的数据x,它由两部分组成,左半部分会将输入x转换到一个中间状态z,右半部分将z再转换为x',学习的标准就是未标注数据x自身,即x=x',这就是无监督学习的模式之一。无监督学习让利用互联网海量数据成为可能,模型的参数量也可以随之越来越大,能力越来越强。

海量无标注数据和少量标注数据可以结合起来形成半监督学习(Semi-supervised learning),训练更准确的模型。ChatGPT就是先通过无监督学习使用海量数据进行预训练,再通过监督学习使用少量标注数据进行进一步训练以提高精度。

总结

无监督学习可以让模型自己从数据中学习到蕴含的规律和知识,已经成为越来越重要的机器学习方式。ChatGPT只是无监督学习产生的硕果之一,相信会越来越精彩。

https://zhuanlan.zhihu.com/p/609424984?utm_id=0

你可能感兴趣的:(学习)