学术分享丨机器人学习的思考

2020-12-01 21:15:31

学术分享丨机器人学习的思考_第1张图片

 

随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。今年以来,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,本期与大家分享《机器人学习的思考》。

近期,在《Science》期刊中刊登了《The foundation of efficient robot learning》文章。在智能机器人方面,我们的目标是创造出能够在各种环境中执行常规任务且具有一般人类水平的机器人。然而过去10年中机器学习领域中取得的巨大突破尚未给智能机器人领域带来革命性的变化,困难在于机器人学习所依赖的数据只能来自于机器人在各种现实环境中的行动。因为在通用机器人必须应对的情况中存在巨大的可变性,获取这些数据的成本很高。因此,需要结合新技术、自然界的灵感和多层次的机器学习来实现具有通用智能的机器人技术革命。

 

在深度学习应用中,大多数成功的例子都是基于监督学习方法,在这种情况下,学习算法被给予成对的输入和期望输出的例子,然后学会输入输出的对应关系。而对于机器人执行的动作序列,更合适的是强化学习(RL),agent通过环境奖励行为时的信号来学会选择采取的动作。监督学习和RL之间的一个本质区别是,主体的行为对它所获得的数据有实质性的影响。

学术分享丨机器人学习的思考_第2张图片

图1 通用型机器人用来做家务。然而,开发让机器人承担简单的任务学习应用也极具挑战性。

RL的最初灵感来自于利用奖惩机制来进行动物行为学习的模型。如果RL要应用于现实世界中的问题,它必须被扩展到能够处理非常大的输入和动作空间,而且在做出关键动作很久之后才可能获得奖励。深度强化学习(DRL)方法,使用复杂的多层神经网络,包括解决国际象棋的游戏和用机械手解决Rubik’s Cube。在这些成功的基础上,人们很容易想象,RL可能会完全取代机器人或其他具有复杂行为的物理世界系统的传统工程方法。

然而,设想一个机器人被设计用来帮助老年人做家务,这个机器人必须具备相当多的先验知识和能力,并且它还需要能够在工作中学习。这种学习必须是高效采样的(需要相对较少的训练实例),可泛化的(适用于许多情况,而不是它学习的情况),组合的(以一种形式表示,允许它与以前的知识相结合),增量的(能够随着时间的推移增加新的知识和能力)。大多数当前的DRL方法没有这些特性:它们可以学习新能力,但通常它们需要大量的经验,不能很好地泛化,并且在训练和执行过程中是统一的(既不是增量的,也不是组合的)。

如何在智能系统中实现样本效率、通用性、组合性和增量?现代神经网络已被证明是有效的在插值:给定大量的参数,它能够记住训练数据和对相似的例子做出可靠预测。要获得泛化能力,有必要提供以内置的形式或结构知识的归纳偏差给学习算法。一般来说,归纳偏差提高采样效率和泛化性。组合性和增量性可以通过构建特定类型的结构化归纳偏差来获得,其中通过学习获得的知识被分解为具有独立语义的因子,这些因子可以组合起来解决指数级的新问题。

建立先验知识或结构的想法有些令人担忧。RL先驱者Richard Sutton,主张人类不应该试图在一个学习系统中建立任何先前的知识。他指出了系统设计中的关键问题:什么样的归纳偏差可以构建到一个学习系统中,使其从合理数量的数据中学习可归纳的知识,而不会因不准确或过度约束而使其丧失能力呢?

有两种策略来寻找合适的偏差,有不同时间尺度和权衡,可以一起使用来发现强力和灵活的学习主体先验结构。一种策略是在“元”层次上使用机器学习技术—也就是在系统设计中离线使用机器学习时间发现结构、算法和先验知识,这使其能够有效地在线学习。

元学习的基本思想在20世纪80年代就已经出现在机器学习和统计学中。其基本思想是,学习过程可以获得许多系统在部署时可能面临的任务或环境的样本,而不是试图在单一环境中学习有益策略,甚至是在所有的环境中都适用的策略。当面对一个新的任务,一个meta-learner则是试图将学习尽可能有效。它可以通过诱导训练任务之间的共性,并利用它们形成一种强烈的先验或归纳偏差,从而使个体学习新任务与训练任务之间的差异。

元学习可以形式化为一种分层贝叶斯概率推理,另一种方法是明确地将元学习描述为两个嵌套优化问题。元优化试图找到内部学习过程本身的参数,使学习能够在新环境中很好地工作,这些新环境来自于与元学习使用的相同分布的环境。

最近,报道了一种名为模型不确定元学习(MAML)模式 。MAML是一个嵌套优化框架,其中外部优化选择一些内部神经网络权值的初值,这些权值将通过标准的梯度下降优化方法在wild进一步调整。RL2算法使用factory中的DRL来学习在wild运行的通用小程序,但不一定具有机器学习程序的形式。

自然界的进化过程可以被认为是元学习的一个极端,即大自然为动物寻找一个高度不受约束的可能的学习算法空间(当然,在自然界,动物的生理机能也会发生变化),机器人在生命周期内所解决的内部优化问题的灵活性越强,就需要更多的资源,包括factory中的实例环境、wild中坏掉的机器人,以及两个阶段的计算能力。在某种程度上,这又回到了最初的问题。标准RL被拒绝的原因是,尽管它是一种通用的学习方法,但它需要大量的wild经验。然而,meta-RL需要大量的factory经验,这可能会使开发变得极其缓慢和昂贵。因此,元学习可能也不是一个好的解决方案。

剩下的是什么?有很多好的方向可以探索,包括由人类进行教学,与其他机器人进行协作学习,以及在软件的同时改变机器人的硬件。在所有这些情况下,设计一种有效的开发机器人软件的方法仍然很重要。应用从计算机科学和工程中获得的见解,再加上从认知神经科学中获得的灵感,可以帮助找到可以构建到学习代理中的算法和结构,并为在factory和wild学习提供杠杆作用。

卷积神经网络的发展是这种方法的一个典型例子。我们的想法是设计一个神经网络来处理图像,这样它就可以在整个图像上使用相同的计算模式对局部图像块进行卷积处理。该设计同时编码了物体无论在图像中的哪个位置都具有基本相同外观的先验知识(平移不变性)和相邻像素组共同提供了图像内容信息的先验知识(空间局部性)。用这种方式设计神经网络意味着它需要的参数要少得多,因此比不使用卷积结构设计的神经网络需要的训练也少得多。图像卷积的想法来自于工程师和大自然。这是早期信号处理和计算机视觉中的一个基本概念,哺乳动物视觉皮层中的细胞似乎也在进行类似的计算。

有必要来发现更多像卷积这样的想法,也就是说,基本的结构或算法约束为学习提供了实质性的杠杆作用,但不会阻止机器人发挥其潜力实现一般智能行为。其他的想法包括使用行为影响的心智模型做某种形式的前向搜索的能力,类似于计划或推理能力;学习和表达知识的能力,从个体对象中抽象出来的,但可以更广泛地应用;以及对三维空间进行推理的能力,包括在其中规划和执行动作。还有许多其他问题需要解决,包括如何开发factory和wild的训练,以及帮助人类确定奖励和维护安全的方法。它将结合工程原理、生物灵感、学习机制最终创造出一般智能的机器人。

本文由CAAI认知系统与信息处理专委会供稿

你可能感兴趣的:(人工智能)