1
智能抓取
有人跟机器人说:
“嗨,机器人,我想要吃东西。”机器人去桌上拿起一个水果。
“嗨,机器人,我想要看书。”机器人又拿来一本书。
“嗨,机器人,我想要喝水”机器人递给我一瓶水。
看看个人服务机器人的视频:
这是目前美国近年来正在研究的PR2个人服务机器人,它具有智能抓取的特点,能够听人说话,知道你的意图,给你拿来相应的物品。
视觉与图像技术是智能的重要组成部分。
视觉细胞的数量是人类听觉细胞数量的三千多倍,是皮肤感觉细胞的100多倍。
人的视觉信息处理是分级的:视网膜获得图像,之后从低层到高层,先在V1区看到物体的边缘特征,再到V2区看到局部和简单形状,再到高层整体,最后是更高层前额叶皮层(PFC),在那里做判断和分类。
大脑的理解实物也是从低到高,越往上越抽象,大脑也如此,从战术层面到战略层面,从局部到整体,从单个现象的认识到多个现象的整合。
前不久,清华大学iCenter人工智能创新创业辅修专业和清华大学学生科协都在征集各专业领域的比较重要的科学问题。
我想起来我们实验室正在开发的智能抓取研究方向,这也是目前机器人领域的重要研究方向:
机器人如何更好地抓取?
来看看机器人智能抓取实验情况:
(清华大学硕士生梁达尧2016年开发)
这样的抓取任务是我们期待的,机器人能够很好地抓取不同的物体。
来看看台湾清华大学的智能抓取实验情况:
看来大家都在研究智能抓取问题。其实在人工智能技术近些年来兴起以来,智能抓取问题就成为了一个研究的热点。
2
人工智能
1948年,美国诺伯特·维纳(Norbert Wiener)出版了《控制论——关于在动物和机器中控制和通信的科学》,标志着控制论的诞生。
1948年,美国克劳德·香农在《Bell System Technical Journal》(贝尔系统技术学报)上发表了重要论文:
“A Mathematical Theory of Communication”(通讯的数学原理),
标志着信息论的诞生。
1950年,美国《时代》杂志就刊登文章提出了机器会给人们带来某种威胁。
“现代人已经适应了拥有超人肌肉的机器,不过拥有超人大脑的机器将更加吓人。设计这些机器的人试图否认他们正在创造像他们自己一样拥有智慧的竞争者。”
——Time, 1950年1月23日
1956年在美国达特茅斯学院召开了一次会议(称为达特茅斯会议)。会议首次提出了人工智能(Artificial Intelligence, AI)的概念,标志着人工智能诞生。
参会学者:麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、罗切斯特(Nathaniel Rochester)、克劳德·香农(Claude E. Shannon)……
2006年,会议50年后,当事人重聚达特茅斯。
左起:摩尔、麦卡锡、明斯基、赛弗里奇、所罗门诺夫
几十年来,人工智能技术经历了多次起伏。
1957年,心理学家罗森布拉特发明Perception感知机,神经网络模型被提出来。人工智能处于起步阶段。
1969年,贝尔实验室(Bell Lab)Willard S. Boyle和George E. Smith发明了数字图像传感器:电荷耦合器件(CCD)。几十年后,图像传感器给人类带来了巨大且深远的影响。2009年他们获得诺贝尔物理奖。
CCD上植入的微小光敏物质称作像素(Pixel),CCD上有许多排列整齐的电容,能感应光线,并将影像转变成数字信号。经由外部电路的控制,每个小电容能将其所带的电荷转给它相邻的电容。
1970年,马文·明斯基指出当前一段时间内将无法解决XOR异或问题,受限于计算能力,人工智能陷入第一个寒冬。
1975年柯达美国分公司申请了拜尔滤镜发明专利(US3971065),1976年获得授权,数码相机走入彩色的世界。未来人人皆使用的手机拍照催生了对于海量图像信息的挖掘和实时处理。
拜尔滤镜(Bayer filter)
70年代,伯克利教授Jitendra Malik。Jitendra把计算机视觉这个领域从图像处理带进了AI。Jitendra是最早一批看到了视觉本身在智能这个问题上的重要性。
1979年hill和park提出了视觉伺服(visual servo)的概念。通过光学的装置和非接触的传感器自动地接收和处理一个真实物体的图像,通过图像反馈的信息,来让机器系统对机器做进一步控制或相应的自适应调整的行为。
1982年,霍普菲尔德神经网络提出,递归(复发型)网络算法出现。1986年,Rumelhar、Hinton等人提出了反向传播BP算法,解决了两层神经网络所需要的复杂计算量问题,基于BP方法的神经网络方法开始兴起。
20世纪90年代,DARPA(美国国防部高级研究计划署)人工智能计算机研究失败。
SVM(Support Vector Machines,支持向量机)算法诞生,迅速打败了传统的神经网络算法成为主流,神经网络方法跌入低谷。SVM算法也为后来的卷积神经网络的出现奠定了基础。
2006年,Hinton发表了论文,首次提出了“深度学习”神经网络。
2010年,斯坦福教授李飞飞建立了ImageNet数据库,并发起了ImageNet图像识别大赛。2012年,Hinton和其研究生 Alex Krizhevsky、 Illya Sutskever 开发的基于卷积神经网络的深度学习算法用到 ImageNet图像识别大赛上,赢得第一名,同时超过第二名10个百分点,赢得空前成功,引发全球热潮。神经网络使得人工智能再次兴起。
2013年,深度学习再图像识别和语音识别方面均取得历史性的突破。霍金与埃隆·马斯克展开AI大讨论,各执一词。霍金主张大力发展AI技术,马斯克认为AI未来将毁灭人类,极度危险。
2018年3月27日,ACM(美国计算机协会)宣布,Yoshua Bengio、Yann LeCun、Geoffrey Hinton共同获得2018年图灵奖。
三位科学家被称为“深度学习三巨头”。
随时芯片硬件和计算机性能的不断提升,软件及算法研究的不断深入,数字化、信息化、大数据、云计算、智能制造、非工业环境的服务机器人与特种机器人市场需求的不断高涨,美国、欧盟、日本、韩国和中国政府纷纷出台人工智能研发计划,大量的资金涌入人工智能技术公司,人工智能领域得到了突飞猛进的发展。
还有人工智能语音识别也方兴未艾,大量具有语音识别功能的机器人成功开发出来,走进了日常生活之中。
尽管目前有人将人工智能理解为“人工”+“智能”,开玩笑说,没有人工,就没有智能。但是,人工智能的这一次兴起,很难会像前几次兴起一样也会跌入低谷。
这次的人工智能技术虽属于“弱人工智能”,存在严重弱点(不可解释,有后门,难以稳定可靠),已经遇到了技术更进一步发展的重大瓶颈,但是与前几次跌落低谷的技术相比,这次有了很大的不同,能够在相当长的时间内不断改变几乎所有的产业。
就像计算机、互联网给人类的影响一般,人工智能技术的发展是一个通用的技术基础,大量学者和相关工程师正在逐渐将深度学习、增强学习等人工智能方法应用和转化落地在各行各业中……
据估计到2050年,世界范围内将有50%的工作由机器和人工智能替代,而这一数字在中国将是70%。
3
抓取问题
不少学者将人工智能的突破算法放在机器人抓取问题上来研究。
期望在机器人抓取上取得突破,已有一些进展,但是还远远没有彻底解决这个问题。我相信,前方一定有一个巨大的成果等着我们。
抓取是机器人的基本和重要的任务之一。
目前上海正在推行垃圾分类,其他的地区也快要开展了。垃圾分类就有无数的物体需要由机器人分拣出来,可是这些物体的种类繁多,物体的形状、大小、位置、方位各异,需要的抓取方式也不一样,难倒了目前水平的自动化机器,包括机器人。
如何开发出能够轻松进行垃圾分类的机器人这是一个比较具体的设备开发领域。其中潜藏着最大的难题就是怎样突破抓取这些物体。
抓取是需要视觉配合,还有力觉触感,此外需要有一个机械手爪以及一个机械臂。
目前机械臂就是工业机器人,已经有了几十年成熟的应用,大量在汽车、消费电子产品生产制造流水线上使用着。
机器视觉和图像处理技术有了长足的进步,加之人工智能方法的进步,机器人开始能够轻松的辨识物体的颜色、大小,能够轻松将物体从图像上与周围的环境分割开来,这个技术也将逐步走进各种设备当中。
机械手爪(也称为机器人手、机器手)是末端执行器的一种,开展着人手的作用。已经开发出来很多的种类:
1)多指仿生机器人手具有多个手指和多个关节,能够实现跟人手相似的灵巧动作,用手套进行控制。
比如,美国Utah/MIT手、美国Robonaut手、英国Shadow手、哈工大DLR/HIT-II手、日本Gifu-III手、北航BH-III手、日本高速三指手、华盛顿仿生多指手等。
2)欠驱动机器人手具有少量电机驱动多个手指的多个关节,可以实现平行开合抓取和自适应包络抓取等抓取模式。
比如,用于人工假肢的德国Openbionics假手、德国Bebionics手、英国iLimb手、上交大人工假手、哈工大欠驱动手、日本Double手、等。
比如,用于工业生产的加拿大Robotiq手、因时机器人手、深圳大寰自适应手等。
3)软体手指,具有多个手指,手指为柔性,弯曲抓取各种物体具有自适应特性,而且对物体的损伤小,自身很轻便,利用流体驱动。
比如,北航SRT手、康奈尔球形手
4)在物流行业抓取纸箱常用的吸盘阵列手,具有多个吸盘,气动驱动,能够较好吸取表面为平面的物体以及各种局部平面的塑料袋软包装。
要实现抓取桌面上的一杯水,我们人是如何做到的,首先眼睛看到水杯,然后去拿去水杯,臂部多个关节同时协调运动,当手到达物体的边上时,伸开手指,靠近水杯,再闭合手指,接触到物体,并稍加用力,臂部多关节运动,拿回水杯,此时,手指还是保持用力的状态。
如何让机器来达到这个动作?
核心是反馈的机制。
首先摄像机观察的场景中有水杯,通过图像处理算法,将物体与周围的环境分割开来,计算出物体的位置和姿态,将手指对于该物体的抓取方式估计出来,将手在抓取的最终位置和姿态作为目标,规划出一个可行的末端执行路径,分解为臂部各个关节的执行路径,开动臂部电机协调运动,于是重复出与人的手臂执行动作类似的移动抓取等动作。
当有人将物体的位置移动了一下位置,人手也可以随时调整目标,最终可以拿到水杯。
在过程之中,人们是如何把水杯拿到的呢?在人眼的一瞥之中,就已经电光火石之中将物体在脑海里面成了像,该像能够迅速在脑海里提取出物体在哪里,物体是什么,物体怎么抓,抓取路径是怎样的……然后,人手去抓取的过程中,人其实可以稍微休息一下视觉,在大范围移动手臂的过程中就是如此,在靠近物体的小范围内时,局部精细的抓取动作开展之前,视觉才稍微又一瞥,接触的手感从很多方面印证了这次抓取是否成功,物体是不是视觉观察所了解的那个物体。
就在人手接近物体的过程中,人会有一种内在的估算,这个物体与人手的距离在缩小。
当物体被人中途挪动时,视觉就会被突然增强一下,因为有情况发生,视觉就会突然加强。于是会进行一个补充的计算,但是它会忘记(不再关心)手臂从以前的位置是怎么动作到现在这个位置的,它会思考从当下怎么到达未来——抓取物体并完成拿回物体的任务。
这个未来只跟现在开始的状态和时间相关的现象称为马尔可夫现象。
马尔可夫过程(Markov process)指这样一种随机过程,在已知它目前状态(现在)条件下,它未来的演变(将来)不依赖于它以往的演变(过去)。这种已知“现在”的条件下,“将来”与“过去”无关的特性称为马尔可夫性。
抓取物体的过程就具有马尔可夫性。
我们人的大脑也具有很多这样的工作特性,比如一段时间以来的事情很清楚,但是很久以前的事情大量的都忘记了。只有反复的记忆,方能形成一种长久的记忆,长久的记忆也可能被动大量地想起,最终形成了潜意识,连自己都不知道的一种感觉。
机器执行的过程中,如果物体在手臂执行的过程中发生的变动(比如有人将物体移动了位置),手臂不能及时发现和调整,就会抓取失败。
尽管现有的工业机器人已经能够抓取物体,并能够很好的适应物体可能会被移动的情形,但是上述人手与机器所进行的抓取这两个过程,仍然存在着巨大的本质不同。
人是非常模糊的,但是却能够电光火石之间进行着无数的计算。人的方式并没有精确量化地计算,但是最终却抓取物体成功,执行得很好。钱学森在1950年代写的《工程控制论》一书中提到,人是一个不好的系统,但是因为有了某种控制策略,可以执行得很好。比如人走路,如果没有这个控制策略,单单靠机械装置的运动会走到路外,走到沟里,但是因为有了传感与控制,我们能一直保持走在马路上而不离开马路,也不会撞向墙壁。
机器的方式处处在量化地计算,但是最终却依然抓取物体失败。
有人觉得是因为人能够认识物体。
人是如何认识物体的呢?
如果搞清楚了,机器就能够模仿出来,于是能够做得跟人一样好,甚至更好。这正是科学家们梦寐以求的事情。
据说人的大脑的神经元有870亿个,目前比较好的大型计算机也很难赶上,关键是还这么小的体积,这么小的能耗,这么高的可靠性,这样的一种——生物的方式。
因此,有人说21世纪是脑科学的世纪,这里面有生命科学、神经科学、心理学、人工智能、软科学、机器人、自动控制、电子学、量子学……等许多个交叉学科的工作要做。
尽管在短时间内没有可能突破这个世界难题,但是想一想,现在相比远古时候,更有条件解决这个问题,也是最接近解决这个难题的关键时代了。
-END-
﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌﹌
免责声明:本文转自网络,版权归原作者所有,如涉及作品版权问题,请及时与我们联系,谢谢!
往期好文合集
他说他是具有文学气息的工科屌丝男(900字文言文,硕士论文致谢)
清华博士告诉你 “0Ω电阻”的系列应用
干货 | 双目摄像头实现手势识别,完美还原人体运动手势。
这篇文章后,不要再问我怎么做一台智能车了。
群体智能,多个机器人协同搬运!
最 后
若觉得文章不错,转发分享,也是我们继续更新的动力。
5T资源大放送!包括但不限于:C/C++,Linux,Python,Java,PHP,人工智能,PCB、FPGA、DSP、labview、单片机、等等!
在公众号内回复「更多资源」,即可免费获取,期待你的关注~
长按识别图中二维码关注