非监督学习初探

导读

非监督学习,就如同字面意思,没有人监督的,也就是机器自学。

非监督学习的定义

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

——摘自百度百科:无监督学习

这个定义似乎比监督学习更简单,最起码而言没有涉及过多的理科专有词汇。不过这个定义依然比较抽象,我们来举个例子看看:

你是一个大老板,能赚很多钱,但是除了赚钱一无所知。这一天,你拿到了一车黑色液体,里面有酱油,有生抽,有可乐,甚至有枇杷膏。你知道这些是你能够发财致富的东西,可你却完全不知道它们之间的区别是什么。于是你请了一队人工具人来帮你鉴定分类,他们都是各种菜系的国家级厨师,能够很快根据自己的经验捕捉到这瓶黑色液体的显著特点,并鉴定出这到底是什么;然后给你分好类、装好箱、上好架。最后,你根据他们分好的类别去货架上贴好标签,你的店铺就被整理得整整齐齐的了。

听起来这个例子无论是机器还是学习都扯不上半点关系,但这个例子确实说明了无监督学习的几个特点

  • 缺乏足够的先验知识,因此你没有办法直接给这些黑色液体标注类别;

  • 因为量太大,自己标注所需要花费的时间成本太高,只好交给别人,而且是极其有耐心的工具人

那么,我们在这两条特点的基础上继续整理出无监督学习的使用条件

  • 庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练;

  • 先将所有样本自动分为不同的类别,再由人类对这些类别进行标注

  • 无类别信息情况下,寻找好的特征;

也就是说,只要这组数据并没有明确分类,只是整个数据集一股脑地全扔给了程序,那就需要使用非监督学习。而如果你已经明确知道了这一大串数据集中哪些是第一类,哪些是第二类,就像是垃圾邮件和星标邮件的明显区别,就是监督学习

同时,监督学习和非监督学习另外一个区别则是数据的认定。在监督学习中数据将会被认定为“正确”,而非监督学习只会当成单纯的数据进行分类,不问对错,只给结果。

你可能感兴趣的:(机器学习,机器学习)