1952年,阿瑟•塞缪尔(ArthurSamuel)研发出了一个跳棋程序,这个程序奇妙的地方在于,阿瑟自己并不会下跳棋,他是通过让程序不停的和自己下跳棋,慢慢的让这个程序自己称为一个跳棋高手。它是世界上第一个可以自主学习的程序。
问题:
如果上面的跳棋程序,只和自己玩过10场游戏(而不是好几万场),它的表现会如何呢?
A.会更好
B.会更差
答案是B会更差。
filed of study that gives computers the ability to learn without being explicity programed
阿瑟•塞缪尔对人工智能的定义,很不正式的,在后面的课程中我们会,给出更加正式的定义。
机器学习算法:
本课程有三节课,1,2节课介绍有监督的学习;3节关注无监督的学习。
算法就像是工具,技能就像是如何盖房子。
如果有人给你一把个锤子和一个电钻,然后和你说,你已经掌握了如何盖房子,去盖房子吧。你肯定会觉得他在胡扯。
机器学习也是这样,如果只告诉你算法,但是不告诉你如何应用这些算法的技巧,你也很难搭建出自己的项目。
本节课程不仅会介绍算法,更会告诉你应用他们的技巧。
是指学习 x 到y的映射,或者说input 到output label的映射。
定义的关键是,你给你的程序有正确答案(正确的label y)的样例,然后通过学习,输入参数x和正确的回答 y,让算法最终能,只给输入x,就能给出正确的回答y。
例如:
如果预测的的结果,是一个数字,如房屋价格(比如输入是房屋面积,输出是价格)。那么这种算法,就称为回归(regression)
更准确的定义是,从无穷的数字中,预测出一个具体的数字。
例如,根据肿瘤大小确定是否良性;根据图片,判断是 什么动物(猫、狗、兔子。。。等等)
根据输入,从有限的正确答案结果集合中,选出一个正确的答案。
现实中,机器学习问题的输入往往是多维的,比如,判断肿瘤是否良性的输入,除去大小,还有患者的年龄 ,如下图
我们用年龄作为纵坐标,肿瘤大小作为横坐标 ,圈代码良性,叉代表恶性。那么机器学习的目的就是找到一条线(可以是曲线)来分开良性和不良的结果。
如果输入是三个参数,就是在三维空间中找到一个平面 分开,三个参数描述的点。
如果是超过三个参数的超空间,就是一个超平面来来分开这些超空间。
这里只是给大家一个感性的认识,代表的数学知识,并不是本课程要探讨的,如果不了解相关概念,可以跳过。 只用感受上面的二维图像,也是ok的。
在无监督的学习中,例如上图,我们给出 患者年龄和肿瘤大小,但是不会给出肿瘤是否良性,我们也不会让算法帮我们推算是否良性,而是让算法自己,寻找这些据中有趣的东西如,数据的结构和模式。
并且把结构,或者模式,或者其他方面有相似性的数据放到一起,这种叫做聚类(clustering)
无监督学习的另外一种应用是异常检测,比如金融诈骗检测。这在金融活动中非常重要。
1. 我们介绍了机器学习的第一个程序,以及作者对机器学习的定义。
2.我们介绍了目前机器学习的常见分类。
3.记住机器学习的算法和技巧同样重要,后面的学习中要同样重视。