各种类型的机器学习问题。
不同类型的输出空间。
二元分类问题。
前几章一种用来作为实例的银行发信用卡问题就是一个典型的二元分类问题,其输出空间只包含两个标记+1或者-1,分别对应着发开或者不发卡。
当然二元分类问题包含多种情况,如2.3节中提到过,如图3-1所示。
图3-1 a) 线性可分 b) 线性不可分包含噪音 c) 多项式可分
图3-1a为线性可分(linear binary separable),如可以使用PLA求解;b是包含噪音可以使用pocket求解,而c会在后面章节中详细叙述,属于多项式可分解。当然解决以上三种二元分类问题机器学习方法很多,因为二元分类问题是机器学习中很重要、核心的问题。
多元分类。
有二元分类,我们就不难想到多元分类的问题,就是输出空间的标签分为很多的问题{1,2,…,K}。这在人们的生活中非常常见,比如给水果图像分类,自动分类时什么硬币等等,其主要啊的应用场景就是模式识别。
回归分析。
这种情况的输出空间在整个实数集上或者在一个实数范围内,这和前面讲的分类问题完全不一样,踏的输出不是一种毫无意义的标记,而是有实际意义的输出值。比如给定一个大气数据可以推到出明天的天气等等之类的问题。在统计学习中包含很多这样的问题已经研究的比较成熟。
结构学习。
当然还有其他更为复杂的问题,比如很多很多类型的分类问题。
不同的数据标示。
监督学习。
知道数据的输入的同时还知道数据的标示。就相当于告诉你题目同时还告诉你答案,让你在这种环境下学习,称之为监督学习或者叫有师学习,之前讨论的一些算法都是这类问题。举个例子,硬币分类问题,如图3-2所示。
图3-2 有监督的多类别分类问题
其中这几种类别的硬币已经被各种不同的颜色所标示好。
无监督学习。
这是一种没有标示(就是没有输出y)的问题,就是不告诉你题目的正确答案让你自己去寻找,再次以硬币分类的问题来描述,如图3-3所示。
图3-3 无监督的多类别分类问题
这种类型的问题最常见到的是聚类或者分群(clustering),从图中不难看出这种聚类的难度明显加大,而且极有可能犯错,但是这种问题却有这广泛的应用场景,如将新闻按照不同的主题将其聚类,按用户的属性将其聚成不同类型等等。
除了聚类之外还有其他的无监督学习,如密度评估(density estimation)和离群点检测(outlier detection)等等。
半监督学习。
是否能在监督式学习和无监督学习之间取一个中庸的方法呢?答案是可以的就是半监督学习,它就是给少量有标记的训练点和大量无标记的训练点来做学习。还是以硬币的例子,如图3-4所示。这种类型的例子也有很多,比如图像的识别,很多情况下我们不可能把每种类型的图片都做上标记(因为做这种标记需要耗费大量的人力物力是一种昂贵的行为),此时使用半监督学习是一种不错的选择。
图3-4 半监督学习
强化学习。
前面三个是机器学习中最传统的三种方式,除此之外还有一种方式是通过奖励或者惩罚一个获得的输出来进行学习的,这种学习方式称之为强化学习。
一般可以表示为(,其中向量还是为输入向量,表示一种输出,并不一定是最佳输出,而最后一项是对这个输出做出的评判。比如一个广告系统可以写成如下形式(。
不同方式获取数据。
这一章节的内容简单阐述下就是在不同的协议中可以将机器学习分为三大类:
不同的输入空间。
输入又可以称之为特征(features),其主要分为三种:
抽象特征(Abstract Features),如一些ID之类的看似无意义的数据,这就更需要特征的转换提取等工作(相对于原始特征而言),几乎没有实用性。