分不清机器学习的种类,看看这篇你会明白了!(上)

上周我们针对人工智能、机器学习、深度学习做了一个相对比较宏观的解释。

相信广大从事算法类岗位的招聘的人力从业者小伙伴已经有了初步的理解。

 

看过1000份算法简历,才明白人工智能、机器学习、深度学习!!!》所述,深度学习其实只能算是机器学习算法的类别。

只是因为这个类别稍微有些特殊,且这几年随着硬件设备的性能发展迅速,深度学习发展的热度也跟着水涨船高。

 

接下来,我们一起看看

  • 机器学习到底是什么?

  • 它有哪些分类?

 

机器学习到底是什么?

 

分不清机器学习的种类,看看这篇你会明白了!(上)_第1张图片     

跳棋的棋盘

 

程序员编写一段跳棋的程序,如果我们把程序当成一个人。

接下来,我们让这个程序(人)和程序(人),自我对战。

 

当他们对战了上万次之后,通过观察哪些布局更容易胜利,哪些布局更容易失败。

过了一段时间之后,这个程序就知道根据棋局的情况判断和计算接下来走哪一步,怎样下棋更容易获得胜利。

 

这个过程,和我们人类刚开始学下棋是类似的。

很多下棋的高手可以通过计算你下棋的位置,直接计算出你接下来很多步的下法,从而一步一步的战胜你。

 

但人类大脑的计算能力终归有限,所以不大可能算无遗策。

 

为什么谷歌那个下棋的AI可以战胜李世石?

原因有2个:

  • 它已经下了几万、几十万、几亿次棋,其大脑中存储的各种关于胜负的棋局布置或者说棋局策略数不胜数;

  • 在与人类对弈时,电脑基本上有无限的计算能力,它可以计算出无数种下一步、下下步、下N步人类的下棋策略,从而顺利地引导整个棋局走向自己胜利的那个状态。

 

更正式的定义:

机器学习是计算机程序从经验E从学习,解决某一任务T进行某一性能试题P。通过P测定在T上的表现因经验E而提高。

 

经验E:程序与自己下了几万次跳棋。

任务T:下跳棋。

性能P:与对手下棋时胜的概率。

 

假设有一个程序在监控你对垃圾邮件的标注操作,请分别指出下列3个选项所描述的内容,分别指的是P、E、T。

  • 将邮件分类为邮件及垃圾邮件,为T;

  • 监控和分析你对邮件的标签处理,来判定你觉得哪些邮件是垃圾邮件,哪些不是,为E;

  • 被准确的分类邮件数量或比例,为P。

 

其实,我们生活中有非常多类似的情境。

举一个更稍微复杂的生活例子,如考驾照

T:

通过驾驶考试为T,它由多个t组成。

如笔试题为t1,单边桥为t2,弯道行驶为t3,斜坡起停为t3,侧方位停车为t4,倒车入库为t5,路面驾驶为t6,当然还有很多tn的任务。

 

E:

各种驾校的训练为E,它由多个e组成。

不断的刷笔试题为e1,不断的训练单边桥项目为e2,不断的训练斜坡起停为e3,不断的训练侧方位停车项目为e4,不断地训练倒车入库项目为e5,不断的进行路面驾驶训练为e6,还有更多训练为en。

 

P:

拿到驾照的概率为P,它由多个p组成。

p1是至少要得到90分。你通过各种模拟考试,从原先的p1为80分一步步将p1的分数提高到90分以上;

p2是你通过训练单边桥项目,判断轮胎与办内的位置,保证轮胎不掉下来;

p3是你不断地在斜坡起步和停车,最终保证你在那个场景下不会熄火以及溜车;

p4是你不断地训练侧方面停车,训练到你只要大约看一下位置,就知道怎样可以一把倒进旁边的停车位置且不压线;

p5是你不断地训练,训练到你可以一次进不踩刹车可以进入停车位里,且不压线;

p6是你通过一些常见的路面训练,达到能够在各种常见路况下安全行驶。

 

整个过程是通过驾校的训练E,从而拿到一个靠谱的P,从而完成通过驾校考试的T。

 

当然,如果你在广州早晚高峰上下班的话。

要达到安全、快速地不迟到上班T,

则需要每天不断地训练自己

在新光大桥上如何加塞e1,

在猎德大桥上如何加塞e2,

在天河东路如何加塞e3,

从而达到从祈福新村到天河上班的时间为40分钟的P。

 

开玩笑啦!

开车还是要注意安全,尽量能够安全行驶,减少无效变道,尽量少加塞。

 

机器学习的分类

 

还记得这张图吗?

 

       

分不清机器学习的种类,看看这篇你会明白了!(上)_第2张图片

       

机器学习的种类有非常多,但我们日常见到比较多的主要是2类:监督学习(Supervised Learning)和监督学习(Unsupervised Learning)。

 

监督学习

 

回归问题

 

分不清机器学习的种类,看看这篇你会明白了!(上)_第3张图片

     

我朋友Simon在广州有4套房子,但最近老家需要建别墅,于是想着是不是能够将手头上的房子出手一套。

他想了解一下,其目前手头上的那套准备出售的房子可以卖多少钱?

 

他收集了其周边各种不同面积的房子的售价。

50平米的,售价是200万。

75平米的,售价是300万

........

当他把这些数据收集起来之后,发现其周边房子的售价是随面积增加呈正比上升的。

(大家都知道的一个事实,哈哈,难道越大越便宜么)

 

他画了一条直线。

这条直线,大约是解释这些数据的规律。

在机器学习领域里面,这叫拟合。

有时候你会看到过拟合(over-fitting)或欠拟合(Underfitting)之类的说法。

 

分不清机器学习的种类,看看这篇你会明白了!(上)_第4张图片

    

过拟合

比如,我们要建立一个识别猫的模型,但遗憾的是,我们用来做训练的猫的种类全部是黑猫,而且训练之后整个模型都表现非常棒,准确度高达99.999999%。

这时候,我们来了一条花猫。

 

结果模型认为花猫不是猫。

 

这个内容,相信看过上一期内容(点击)的小伙伴肯定会有印象。

我们当时有说明,一般训练的数据(猫),尽量要保证数据来源的均衡。

这其实也是算法工程师前期需要做的数据清洗工作的一部分。

所以,大家应该明白过拟合通常会发生在哪种情况了吧。

 

欠拟合

反过来,欠拟合的意思就是,这个模型连猫都识别不了。

别说黑猫、花猫、白猫了。

本质上说明是特征工程没有做好。

 

术语解释完了我们再回过头来看看,我的好朋友Simon画了这么一条直线,就是所谓的模型-房价销售预测模型。

如果你还记得当年的一些数学知识。

你一定知道,这条直线的函数是y = ax + b。

y 为 房总价,a为房单价,x为房面积,b 为 0。

 

分不清机器学习的种类,看看这篇你会明白了!(上)_第5张图片

    

如果按这个模型来计算,Simon那套135平的房子,总售价是550万。

 

显然这个价格并不能真正准确预测到Simon那套135平房子的真实售价。

如果他按这个价格放出去的话,估计买方会特别开心。

 

分不清机器学习的种类,看看这篇你会明白了!(上)_第6张图片

    

这条线,可能会更好的解释Simon收集的关于房价预测的数据。

 

分不清机器学习的种类,看看这篇你会明白了!(上)_第7张图片

     

这时,你会发现实际上他家135平的房子售价应该是将近800万。

 

算法模型的准确与否,有可能会给个人和商业机构带来更多的利益和损失。

优秀的算法工程师,真的是非常有商业价值的。

 

因此,不论最终用的是直线拟合还是曲线拟合,只要我们给出房子的面积,就可以得出一个相对可靠的销售价格(数据)。

我们可以给出不同的面积,得出不同的销售价格(数据)。

 

类似这种类型的问题,在机器学习领域叫做回归问题。

这只是对这种可以输出连续数据的一类问题,起了一个普通人觉得很牛逼的名字罢了。

 

分类问题

 

当然在监督学习里面,还有很多情况并不是类似回归问题可以通过连续线型来总结规律做研究。

有很多数据的分布是呈离散型分布的,这类数据我们一般需要做分类处理。

 

术语解释

离散型分布的数据:

数据的分布呈现的是独立个体,不可分割。

与之对应的就是前面的回归问题中的连续型数据。

 

房子面积数据,是连续型数据。100平、101平、102平、103平、104平、105平。

它实际上可以再被细节成100.1平、100.2平,最终可以无穷细分下去,最终会以无穷个点形成一条线;

 

不同小区生活的人数,是离散型数据。A小区1000人,B小区1001人,C小区1002人。这种数据你不可能说还有1000.1人和1000.2人。

 

还记得大学时代的自习室吗?

我们大学期末考试前,是不是各大自习室都是满满的,连平常冷冷清清的图书馆都人满为患。

因为我们考试若是低于60分,就要挂科补考。因此,许多同学都会选择在考试前一段时间疯狂学习,抱个佛脚。

 

假设考试结果只有2个:Pass/Fail。

这个结果可能跟考试复习的时间有关。

 

分不清机器学习的种类,看看这篇你会明白了!(上)_第8张图片

     

很显然,不是考试前抱佛脚的时间越长通过率就越高的。

没准儿那些复习时间久的同学,因为用脑过度,导致考试时脑袋能量不足考坏了。

 

而且很显然,单纯以考试时间这一个维度来研究考试通过率,显然过于片面了。

 

我们给这个模型增加一些维度。

我们分析考试通过率的维度变为:复习的天数、智商水平。

用X表示考试未通过,用O表示考试通过。

 

     

用这条红线,将考试的离散结果进行分类,从而进一步分析得出一个规律:

智商高的人,相对花费较短的复习时间就可以通过考试(这不是常识么,哈哈)

 

     

班上同学Jack(智商100)问你,

他只复习了一天,这次考试通过的概率高吗?

答案是:

Fail的概率比较高,如红色虚线所画。它至少得复习3天,才有机会。

 

班上同学Robin(智商130)问你,

他只复习了一天,这次考试通过率高吗?

答案是:

Pass的概率比较高,如绿色虚线所画。他其实复习一天足够了,当然多复习2天可能更保险。

 

我们对一次考试结果预测,可能相对考量的维度比较少。

现实世界中,我们对某些事物的判断,规律的总结归纳,可不只是基于1-2个维度。

这个维度可能是无穷无尽的。

这样才足够解释现实世界的多样性。

 

因此,有些人说连续型数据和离散型数据本质上是回归问题和分类问题,涉及到的算法就是回归算法和分类算法。

2者的区别是:

前者为定量输出(预测连续结果),后者为定性输出(考试结果P或F)。

 

请问,这2问题是分类问题还是回归问题?可以留言告诉我们:

 

  • 你是库克的助理,你电脑中存储了过去3个月Iphone X 的销量,请做出未来3个月的销量预测。

  • 你是一名骨科医生,观察病人的骨头X光片,判断出病人是否存在骨折。

你可能感兴趣的:(TechHR)