文章原创,最近更新:2018-07-17
学习链接:
3.1 Types of Learning - Learning with Different Output Space
学习参考链接:
1、台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning
今天主要讲的是除了之前讲的是非题,还有哪些各式各样的机器学习问题?有什么区别?
上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。而对于线性不可分的情况,可以使用Pocket Algorithm来处理。本节课将主要介绍一下机器学习有哪些种类,并进行归纳。
像这种是非题,要与不要的,叫二元分类.是非题运用非常广泛,像类似下面的截图,提供给电脑资料,用一条线,电脑会分成两个区域,一个区域是蓝色的,一个区域是红色的.以后会学到各种方式,但并不一定是直线.可以用更加复杂的区域分隔区域.
我们在上节课引入的银行根据用户个人情况判断是否给他发信用卡的例子,这是一个典型的二元分类(binary classification)问题。也就是说输出只有两个,一般y={1,+1},1代表不发信用卡(负类),+1代表发信用卡(正类)。
二元分类的问题很常见,包括信用卡发放、垃圾邮件判别、患者疾病诊断、答案正确性估计等等。二元分类是机器学习领域非常核心和基本的问题。二元分类有线性模型也有非线性模型,根据实际问题情况,选择不同的模型。
除了二元分类,也有多元分类(Multiclass Classification)问题。可以想象为单选题,有1,2,3,4,5...k个选项.顾名思义,多元分类的输出多于两个,y={1, 2, ... , K}, K>2. 一般多元分类的应用有数字识别、图片内容识别(识别是否苹果,橘子或草莓)等等。
比如饮料机,把硬币塞进去后,可以分成好多个不同的类别.这里拿美国的硬币做例子(有1c,5c,10c,25c),按美国硬币的大小/重量进行划分.能不能训练出电脑自动识别美国的硬币是哪一种.现在的输出不再是2种而是4种.
二元分类和多元分类都属于分类问题,它们的输出都是离散值。二对于另外一种情况,比如训练模型,预测房屋价格、股票收益多少等,这类问题的输出y=R,即范围在整个实数空间,是连续的。这类问题,我们把它叫做回归(Regression)。最简单的线性回归是一种典型的回归模型。
比如在医院,二元分类以及多元分类的应用.
- 二元分类:判断一个人是否生病
- 多元分类:判断病人得了哪一种癌症
- 回归分析:病人还有多少天可以出院
回归分析应用在如下方面:
- 公司的数据,可以预测公司的股票数据
- 天气的资料,预测明天的气温
回归分析的输出需要是个实数.
统计有些非常好用的工具,也可以运用在机器学习上面.
除了分类和回归问题,在自然语言处理等领域中,还会用到一种机器学习问题:结构化学习(Structured Learning)。结构化学习的输出空间包含了某种结构在里面,它的一些解法通常是从多分类问题延伸而来的,比较复杂。本系列课程不会详细介绍Structured Learning,有兴趣的读者可以自行对它进行更深入的研究。
下面是个自然语言的案例,如果我写下一句话,是否机器可以判断词的词性.比如I是主语,love是动词,ML(机器学习)是名词.这个可以看成是多类别的分类问题.这里的输入不是以单个单词为单位,而是以句子为单位.句子是有结构的,以句子为单位是比较不容易判断一个词的词性.love在常用的语法中,有可能是动词也有可能是名词,是根据句子的结构而变化的.这样的输出很复杂.但是应用也不少.
- 比如提供蛋白质资料,电脑会提供蛋白质的3D立体样子.
- 将一段话,会提供关键字的关系
以上都是结构化的学习.
简单总结一下,机器学习按照输出空间划分的话,包括二元分类、多元分类、回归、结构化学习等不同的类型。其中二元分类和回归是最基础、最核心的两个类型,也是我们课程主要介绍的部分。
练习题目:
在体育馆有个门禁系统,这个系统可以判断四种不同的访客,想要机器学习自动的分析脸部辨识.答案是2,是典型的多类型的分类.