近日,Google的最新研究可能会使这种学习过程变得更加简单。
谷歌,加州大学伯克利分校和佐治亚理工学院的研究人员联合发表了一篇论文,构建了一个通过AI自学走路的四足机器人,并将它取名为“RainbowDash”。
RainbowDash只需要几个小时就可以完全独立的向前走和向后走,以及左右转弯。
研究人员在学习如何在三种不同地形上行走的任务上测试了这个系统:
平坦的地面,柔软的床垫和带有缝隙的门垫。
根据论文中的测试数据显示,RainbowDash在坚硬平坦的地面上学习走路需要1.5个小时,在由记忆海绵材质的床垫上大约需要5.5个小时,在镂空的地毯上大约需要4.5个小时。
总结起来:RainbowDash平均只需要大约3.5小时来学习向前、向后和左右转弯等运动。
而根据世界纪录,婴儿从爬行到学会行走的最快速度是6个月。
具体来说,RainbowDash结合了深度学习和强化学习两种不同类型的AI技术。通过深度学习,系统可以处理和评估来自其身处环境的原始输入数据;通过强化学习,算法可以反复试验,以学习如何执行任务,并根据完成的程度来获得奖励和惩罚。
也就是说,通过上述的这种方式,机器人便可以在其不了解环境中实现自动控制策略。
在以往的此类实验中,研究人员最初都会让机器人通过模拟来学习真实世界的环境。在仿真环境中,机器人的虚拟体首先与虚拟环境进行交互,然后,算法接收这些虚拟数据,直到系统有能力应对这些数据,一个搭载系统的物理形态的机器人才会被放置到现实环境中进行实验。
这种方法有助于避免在试错过程中对机器人及其周围环境造成损害。
不过,环境虽然容易建模,但通常耗时长,而且现实环境中充满了各种意想不到的情况,因此,在模拟环境中训练机器人的意义有限。毕竟,此类研究的最终目标恰恰是让机器人为现实世界的场景做好准备。
Google和佐治亚理工学院以及加州大学伯克利分校的研究人员则在一开始就在真实环境中对Rainbow Dash进行训练,这样一来,机器人不仅能够很好地适应自己所处的环境,也能够更好地适应相似的环境。
尽管研究团队将RainbowDash的学习能力归功于它自己,但人为干预仍在实现该目标方面发挥了重要作用。
例如研究人员必须创建边界,机器人可以在该边界内学习走路,以防止机器人离开该区域。他们还必须设计特定的算法来防止机器人摔倒,其中一些算法集中在限制机器人的运动上。
为了防止诸如坠落损坏之类的事故,通常在数字环境中进行机器人强化学习,然后再将算法转移到物理机器人上以保持其安全性。
据悉,研究人员希望他们的算法能适用于不同种类的机器人,或适用于多个机器人在同一环境中同时进行学习。研究人员相信,破解机器人的运动能力将是解锁更多实用机器人的关键。
最后放上论文下载地址:https://arxiv.org/pdf/2002.08550.pdf
-END-
猜你喜欢
真人出镜,微信视频号第一期视频来了!<<戳这里
机器人是如何群居生活的?<<戳这里
带你深入浅出学STM32。<<戳这里
最 后
若觉得文章不错,转发分享,也是我们继续更新的动力。
5T资源大放送!包括但不限于:C/C++,Linux,Python,Java,PHP,人工智能,PCB、FPGA、DSP、labview、单片机、等等!
在公众号内回复「更多资源」,即可免费获取,期待你的关注~
长按识别图中二维码关注