随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)

随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)

概述

Lifelong learning和适应性是生物行为的两个定义方面。现代强化学习(RL)方法已显示出在解决复杂任务方面的重大进步,但是,一旦训练结束,找到的解决方案通常是静态的,并且无法适应新的信息或应对干扰。尽管仍不能完全理解生物大脑如何从经验中学习和有效适应,但据信突触可塑性在此过程中起着重要作用。受到这种生物学机制的启发,我们提出了一种搜索方法,不直接优化神经网络的权重参数,而仅搜索特定于突触的赫布学习规则(Hebb Rule),该规则使网络可以在生命周期内不断自我组织其权重。我们展示了我们在几种具有不同感知模式和超过450K可训练塑性参数的强化学习任务中的方法。我们发现,从完全随机的权重开始,发现的Hebbian规则使代理能够在动态2D像素环境中导航。同样,它们还允许模拟的3D四足机器人在不超过100个时间步长的情况下,在(未经历过的)形态损伤以及缺少明确奖罚信号的情况下学习如何行走。
随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)_第1张图片

1.简介

由神经网络控制并通过强化学习(RL)训练的智能体已被证明能够解决复杂的任务[1-3]。 但是,一旦经过训练,这些神经网络的权重通常是固定的,因此它们不够灵活,对未知条件或信息的适应性有限。 这些解决方案,无论是通过基于梯度的方法还是黑盒优化算法找到的,通常都是固定的,并且对于它们经过训练的问题高度专业化[4,5]。 当将这些网络应用于其他任务时,需要对其进行重新训练,这需要进行许多额外的迭代计算。
与人工神经网络不同,生物个体表现出显著的适应性并且可以快速学习[6,7]。 尽管尚未完全理解其潜在机制,但可以充分确定的是突触可塑性起着重要作用[8,9]。 例如,许多动物出生后可以快速行走,而无需任何明确的监督或奖励信号,可以无缝地适应它们的身体。目前已经提出许多了不同的(模拟)可塑性调节机制,这些机制主要可以划分为两个大的家族:自上而下反馈传播误差的端到端的机制[10],以及仅依赖于局部活动就能产生变化,调节突触连接的局部机制。最早提出的纯局部机制的版本被称为Hebbian可塑性,它以最简单的形式表明神经元之间的突触强度与它们之间的活动相关性成比例地变化[11]。
非塑性网络的僵化以及其一旦训练就无法继续学习的部分原因可能是它们传统上既具有固定的神经体系结构,又具有一组固定的突触权重。 因此,在这项工作中,我们对寻找可塑性机制的算法感兴趣,这些机制可让智能个体在终身不断适应[12-15]。 尽管该领域的最新工作集中于确定网络的权重和可塑性参数,但我们对机器学习[16-18]和神经科学[19]中随机初始化的网络的有趣特性特别感兴趣。 因此,我们建议仅基于自组织过程来搜索可用于随机初始化网络的可塑性规则。
为实现此目的,我们针对特定连接的Hebbian学习规则进行了优化,该规则允许代理为非平凡的强化学习任务找到高性能的权重,而在其整个生命周期中无需任何明确的奖励。 我们演示了我们在两个连续控制任务上的方法,并表明在基于视觉的RL任务中,这种网络比固定权重的网络具有更高的性能。 在3-D运动任务中,Hebbian网络能够适应训练过程中未见过的模拟四足机器人的形态损害,而固定权重网络则无法做到。 与固定权重网络相反,Hebbian网络的权重在代理的生存期内不断变化。 演化的可塑性规则在权重相空间中引起吸引子的出现,这导致网络迅速收敛到高性能动态权重。
我们希望我们对随机Hebbian网络的演示将激发更多神经可塑性方面的工作,这挑战了当前在强化学习中的假设。我们提倡使用更具动态性的神经网络,而不是使用经过微调和冻结的权重开始部署,这样可以使动态性更接近其生物学对应物。 有趣的是,我们发现已发现的Hebbian网络非常健壮,甚至可以在其大部分权重清零后恢复。
在本文中,我们着重于探索赫布可塑性在强化学习问题方面的潜力。 同时,人工神经网络(ANN)已经成为神经科学家感兴趣的对象,因为它能够解释一些神经生物学数据[20],同时能够在人的层面上执行某些视觉认知任务。 同样,展示随机网络(仅通过局部规则进行优化)如何能够在复杂任务中做到有竞争力,可能有助于建立合理的模型库,以了解大脑中的学习方式。 最后,我们希望这一系列研究将进一步帮助促进基于ANN的RL框架,以研究生物个体如何学习[21]。

2.相关工作

元学习(Meta-Learning)

元学习[22,23]的目的是或的人可以从不断积累的经验中快速学习的模型。元学习已有多种不同的方法[24-29]。例如,Wang等[27]表明,一个递归的LSTM网络[30]可以学习强化学习。在他们的工作中,策略网络连接在整个生命周期中保持不变,并且通过更改LSTM的隐藏状态来学习。虽然大多数方法,例如Wang等人的工作[27],将环境的奖励作为元学习算法的内部循环中的输入(作为对神经网络的输入或调整网络的权重),在本文的工作中,我们没有在代理生命周期内给出明确的奖励这里。
通常,在元训练期间,对网络进行许多不同任务的训练,然后对它们学习新任务的能力进行测试。元学习的最新趋势是找到良好的初始权重(例如,通过梯度下降[28]或进化[29]),可以从中进行几次迭代。一种这样的方法是模型不可知的元学习(MAML)[28],它允许模拟的机器人快速适应不同的目标方向。混合方法将基于梯度的学习与无监督的Hebbian规则结合在一起,也已被证明可以改善监督学习任务的性能[31]。
较少研究的元学习方法是**可塑网络(plastic networks)**的演变,该网络在各种时间尺度上都会发生变化,例如在经历感觉反馈时其神经连通性。这些不断发展的可塑性网络受到发现神经系统适应、学习和记忆原理的前景的鼓舞[13]。它们使个体能够通过生命周期中不断变化的,可以存储激活模式的递归网络进行适应[32]或通过演化形式的局部Hebbian学习规则来进行某种元学习,该规则基于神经元的相关激活来改变网络的权重。早期的工作[14]不是依靠Hebbian学习规则,而是尝试探索适用于网络中所有连接的参数化学习规则的参数优化。与我们的方法最相关的是Floreano和Urzelai [33]的早期工作,他们探索了使用随机权重启动网络然后应用Hebbian学习的想法。这种方法展示了不断发展的Hebbian规则的希望,但仅限于四种不同类型的Hebbian规则和应用于简单机器人导航任务的小型网络(12个神经元,144个连接)。
代替通过进化算法来训练获得局部学习规则,最近的工作表明,还可以通过梯度下降来优化单个突触连接的可塑性[15]。但是,尽管可训练参数的工作仅决定每个连接的可塑性,但本文采用的黑盒优化方法允许每个连接实现自己的Hebbian学习规则。

自组织(Self-organization)

自组织在许多自然系统中起着至关重要的作用[34],并且是复杂系统研究的活跃领域。 它最近在机器学习中也越来越突出,图神经网络就是一个值得注意的例子[35]。 Mord-vintsev等人的最新著作。 [36]关于通过神经网络编码的局部规则来增长细胞自动机,与我们在此提出的工作有相似之处。 在他们的工作中2D图像的增长依赖于自组织,而在我们的工作中,网络的权重本身就是自组织的。 自组织系统的好处是它们非常健壮和自适应。 我们提出的方法的目标是迈向基于神经网络的RL代理相似的鲁棒性水平。

神经科学

在生物神经系统中,通过突触可塑性减弱和增强突触被认为是长期学习的关键机制之一[8,9]。进化在很长的时间范围内塑造了这些学习机制,从而使我们的生活变得高效。显而易见的是,大脑可以根据我们一生中的经历来自我重塑[37]。另外,动物生来具有高度结构化的大脑连通性,这使它们能够从出生开始就迅速学习[38]。但是,人们对生物大脑中随机连接的重要性了解得很少。例如,随机连通性似乎在前额叶皮层中起着至关重要的作用[39],从而增加了神经表征的维度。有趣的是,直到最近才表明,当随机网络与简单的Hebbian学习规则结合时,这些理论模型与实验数据更匹配[19]。
在生物脉冲网络中发生的最著名的突触可塑性是脉冲时变依赖性可塑性(spike-timing-dependent plasticity, STDP)。另一方面,人工神经网络具有连续输出,通常将其解释为脉冲网络的抽象形式,其中每个神经元的连续输出表示一个神经元在较长时间内的脉冲速率编码平均值(而不是脉冲定时编码)时间窗口或等效的短时间窗口内的脉冲神经元子集;在这种情况下,突触前和突触后活动的相对时机不再发挥中心作用[40,41]。穗状率依赖性可塑性(SRDP)是生物学大脑中有据可查的现象[42,43]。我们从这项工作中获得了启发,表明随机网络与Hebbian学习相结合也可以实现更强大的元学习方法。

3.通过不断发展的局部学习规则进行元学习

我们的方法的主要步骤可以概括如下:(1)创建每个突触都有特定随机学习规则的初始神经网络种群;(2)使用随机权重初始化每个网络,并根据任务的累积对其进行评估情景奖励,网络权重会随着发现的学习规则而在每个时间步长变化,并且(3)通过进化策略[44]创建新的群体,将学习规则参数移向具有更高累积奖励的规则。然后该算法再次从(2)开始,目标是逐渐发现越来越多的有效学习规则,这些规则可以与任意初始化的网络一起使用。
更详细地讲,本文中针对突触的学习规则是受生物学的Hebbian规则启发的。我们使用广义的Hebbian ABCD模型[45,46]来控制相对简单前馈网络的人工神经元之间的突触强度。具体来说,个体的权重会在其生存期内的以下每个时间步进行随机初始化和更新:
Δ w i j = η w ⋅ ( A w o i o j + B w o i + C w o j + D w ) \Delta w_{i j}=\eta_{w} \cdot\left(A_{w} o_{i} o_{j}+B_{w} o_{i}+C_{w} o_{j}+D_{w}\right) Δwij=ηw(Awoioj+Bwoi+Cwoj+Dw)
其中wij是神经元i和j之间的权重,ηw是进化计算产生的学习率,进化的相关项Aw,进化的突触前项Bw,进化的突触后项Cw,其中oi和oj分别是突触前和突触后激活。 虽然系数A,B,C明确确定了网络权重的局部动态,但演化的系数D可以解释为网络中每个连接的单个抑制/兴奋性偏差。 与以前的工作相比,我们的方法不仅限于统一的可塑性[47、48](即每个连接具有相同的可塑性),也不限于仅优化特定于连接的可塑性值[15]。 取而代之的是,基于最近的进化策略实现可扩展到大量参数的能力[44],我们的方法允许网络中的每个连接都具有不同的学习规则和学习率。
我们假设这种Hebbian可塑性机制应该在权重相空间中导致吸引子的出现,这会导致网络的随机初始权重在环境感官反馈的引导下迅速收敛到高性能值。

3.1 优化细节

我们采用的基于种群的优化算法是一种进化策略(ES)[49,50]。与其他深度强化学习方法相比,ES在各种不同任务上的竞争能力最近有所提高[44]。这些黑盒优化方法的优点是不需要反向传播梯度,并且可以处理稀疏奖励和密集奖励。在这里,我们采用Salimans等人的ES算法。 [44]不是直接优化权重,而是根据环境的输入找到一组Hebbian系数,以在网络生命周期内动态控制网络的权重。为了制定最佳的本地学习规则,我们分别通过从均匀分布w∈U [-0.1,0.1]和h∈U [0,1]中采样,随机初始化策略网络的权重w和Hebbian系数h。随后,我们让ES算法演化h,进而通过等式1确定每个时间步长对策略网络权重的更新。在每个演化步长t上,我们计算代理F(ht)的任务相关适应性,通过采样法从噪声ε= N(0,1)获得样本,并将其添加到当前最佳解ht中来设置n个候选解的集合,随后我们基于i∈n个候选解中每个解的适应性评估来更新解的参数:
h t + 1 = h t + α n σ ∑ i = 1 n F i ⋅ ( h t + σ ϵ i ) \mathbf{h}_{\mathbf{t}+\mathbf{1}}=\mathbf{h}_{\mathbf{t}}+\frac{\alpha}{n \sigma} \sum_{i=1}^{n} F_{i} \cdot\left(\mathbf{h}_{\mathbf{t}}+\sigma \epsilon_{i}\right) ht+1=ht+nσαi=1nFi(ht+σϵi)
其中,α控制每一代更新多少参数,而σ控制在候选解中引入的噪声量。 重要的是要注意,个体在其生命周期内无法获得此奖励。
我们将Hebbian方法与标准的固定权重方法进行比较,使用相同的ES算法分别直接优化权重或学习规则参数。 https://github.com/enajx/HebbianMetaLearning 提供了使用ES算法发展Hebbian网络和静态网络所需的所有代码。
随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)_第2张图片

4.实验设置

我们在两种具有不同感觉模式的连续控制环境中展示了我们的方法(图2)。 第一项是具有挑战性的基于视觉的RL任务,其目标是尽可能快地驾驶赛车通过程序生成的轨道。 虽然看起来不太复杂,但任务只是在最近才解决(在100次随机展示中,平均得分超过900)[52-54]。 第二个领域是控制4足机器人的复杂3D运动任务[55]。 在此,环境信息被表示为一维状态向量。

基于视觉的环境作为基于视觉的环境

我们使用通过Box2D物理引擎构建的CarRacing-v0域[51]。 调整了环境的输出状态并对其进行了归一化,从而形成了3个通道(RGB)的观察空间,每个通道84×84像素。 该策略网络由两个卷积层组成,这些卷积层由双曲正切激活,并由池化层插入,池化层馈入3层前馈网络,每层具有[128、64、3]个节点,且无偏差。 该网络具有92,690个权重参数,其中1,362个对应于卷积层,而91,328个对应于完全连接的层。 三个网络输出控制三个连续动作(左/右转向,加速,中断)。 在ABCD机制下,这将得出456,640个Hebbian系数,其中包括终身学习率η。
在这种环境中,只有完全连接的层的权重由Hebbian可塑性机制控制,而卷积层的1,362个参数在个体的生命周期内保持静态。 原因是对于卷积过滤器的突触前和突触后活动可能没有什么自然定义,因此使对卷积层的Hebbian可塑性的解释具有挑战性。 此外,先前对人类视觉皮层的研究表明,腹侧流早期区域中视觉刺激的表示与训练用于图像识别的卷积层的表示兼容[56],因此表明卷积参数的可变性 层数应受到限制。 进化适应度计算为每帧-0.1,访问的每个轨道图块为+ 1000 / N,其中N是所生成轨道中图块的总数。

3-D运动任务

对于四足动物,我们使用3层前馈网络,每层具有[128、64、8]个节点,没有偏置和双曲正切作为激活函数。这种架构选择导致具有12288个突触的网络。在ABCD可塑性机制下,每个突触具有5个系数,这转化为包括终生学习率η在内的61,440个Hebbian系数集。对于状态向量环境,我们使用开源的Bullet物理引擎及其pyBullet python包装器[57],其中包括“蚂蚁”机器人,四足动物,13条刚性连杆(包括四个腿和一个躯干)以及8个关节。 [58]。它以MuJoCo仿真器[59]中的蚂蚁机器人为模型建模,并构成RL [28]中的通用基准。机器人的输入大小为28,包括代理的位置和速度信息以及8个维度的动作空间,控制8个关节中每个关节的运动。四足智能体的适应度功能选择了1,000个时间步长内的行进距离。
用于ES算法以优化Hebbian网络和静态网络的参数如下:CarRacing-v0域的种群大小为200,四足动物的种群大小为500,反映了该域的更高复杂性。其他参数对于这两个域都是相同的,并且反映了典型的ES设置(与其他RL方法相比,ES算法对不同的超参数通常更健壮[44]),学习速率为α= 0.2,α衰减= 0.995,σ= 0.1和σ衰减= 0.999。这些超参数是通过反复试验发现的,并且在先前的实验中效果最佳。

4.1结果

对于这两个域的每一个,我们针对静态方法和赫布方法进行了三个独立的进化过程(具有不同的随机种子)。我们对广义赫布规则的受限形式进行了其他消融研究,可在附录中找到。

基于视觉的环境

为了测试不断发展的解决方案的综合程度,我们比较了性能最高的基于Hebbian的方法和传统的固定权重方法在100次部署中平均获得的累积奖励。 ES算法发现的一组局部学习规则产生870±13的奖励,而静态权重解决方案的性能仅达到711±16。 Hebbian网络的数量略低于该领域最新方法的性能,该方法依赖于其他神经注意机制(914±15 [54]),但与深度RL方法(如PPO)性能类似(865±159 [54])。 Hebbian学习代理的竞争表现令人惊讶,因为它以完全不同的随机权重开始了100个部署中的每个部署,但通过调整后的学习规则,它能够快速适应。虽然Hebbian网络需要稍长的时间才能达到较高的训练效果,这可能是因为参数空间增加了(请参阅附录),但是,如果对在训练过程中看不到的程序生成的轨迹进行测试,则好处是具有更高的通用性。

3-D运动任务

对于运动任务,我们创建了4足机器人的三种变体,以模拟对其一只腿的部分损坏的影响(图2)。这些形态的选择旨在创建一个任务,对于无法适应的神经网络将很难掌握。在训练过程中,静态权重和Hebbian塑料网络都遵循相同的设置:在每个训练步骤中,策略均按照第3.1节中所述的ES算法进行优化,其中适应度函数包括两种形态的平均行走距离,标准的一个和右前腿损坏的一个。第三形态(在左前腿上受损)被排除在训练循环之外,以便随后评估网络的泛化。
对于四足动物,我们将解决任务定义为从其初始位置单向离开至少100个长度的单位。在五个进化运行过程中,Hebbian网络和静态网络都找到了针对所有运行中可见形态的解决方案。另一方面,静态权重网络无法找到能够解决看不见的损坏形态的单一解决方案,而Hebbian网络却设法找到了损坏的看不见的形态的解决方案。但是,在看不见的形态上评估的Hebbian网络的性能差异很大。理解为什么某些Hebbian解决方案具有普遍性,而另一些却没有为进一步的研究铺平道路;我们假设,为了获得能够可靠地泛化的解决方案,需要对试剂进行具有随机损伤的多种形态学训练。为了测试演进的解决方案的总体效果,我们比较了Hebbian和静态权重网络在100个卷展栏上的平均步行距离。我们通过一次进化运行报告了每种形态中性能最高的解决方案(表1)。
随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)_第3张图片

由于静态权重网络无法适应环境,因此它可以有效地解决训练过程中出现的形态学问题,而看不见的形态学则无法解决。另一方面,Hebbian网络能够适应新的形态,从而有效地自组织网络的突触权重(图1)。此外,我们发现网络的初始随机权重甚至可以从发现Hebbian系数期间使用的分布(例如N(0,0.1))之外的其他分布中采样,并且该代理仍然可以达到可比的性能。
有趣的是,即使在生命周期中不存在任何奖励反馈,基于Hebbian的网络也能够为这三种形态中的每一种找到表现良好的权重。仅传入的激活模式就足以使网络适应,而无需明确知道当前正在模拟的形态。但是,对于静态权重网络确实能够解决的形态,它比基于Hebbian的方法获得了更高的回报。可能有几个原因可以解释这一点,包括需要额外的时间来学习或参数空间更大,这可能需要更长的训练时间才能找到更有效的可塑性规则。
为了确定权重在个体生命周期内从随机收敛到最佳所需的最小时间步长,我们研究了在不同时间步长后冻结权重的Hebbian更新机制,并检查了结果集的累积奖励。我们观察到权重仅需要30到80个时间步(即Hebbian更新)即可收敛到一组最佳值(图3,左)。此外,我们通过将网络的所有输出饱和到1.0的100个时间步,测试了网络对外部干扰的恢复能力,有效地冻结了个体。右图3显示,经过改进的Hebbian规则允许网络在几个时间步内恢复到最佳权重。此外,Hebbian网络能够从其连接的部分丢失中恢复,我们通过在一个时间步中将子集的突触权重归零来进行仿真(图4,左)。我们观察到代理行为的短暂中断,但是,网络能够在几个时间步骤内重新收敛到最佳解决方案(图4,右上方)。
随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)_第4张图片
随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)_第5张图片

为了更好地了解发现的可塑性规则的效果以及权重模式在Hebbian学习期间的发展,我们通过主成分分析(PCA)进行了降维,该降维投影了网络权重的高维空间,在每个时间步上都以3维表示,因此大多数差异可以用此低维表示来最好地解释(图5)。对于汽车环境,我们观察到大部分权重都存在的U型二维歧管的存在,这与将Hebbian系数(Eq.1)设置为随机值的网络形成了对比。这里的权重轨迹缺少任何结构,并且在零附近振荡。在三个四足形形态的情况下,Hebbian网络的轨迹遵循具有振荡特征的3维曲线。在具有随机Hebbian系数的情况下,网络不会在其权重轨迹中产生任何明显的结构。

5.讨论和未来工作

在这项工作中,我们引入了一种新颖的方法,允许具有随机权重的个体快速适应任务。有趣的是,终身适应是在没有任何明确提供的奖励信号的情况下发生的,并且仅基于不断发展的赫布局部学习规则。与典型的静态网络方法不同,在典型的静态网络方法中,网络的权重在代理程序的生命周期中不发生变化,而基于Hebbian的网络中的权重在其生命周期内自行组织并收敛到权重空间中的吸引子。
快速适应体重的能力对于适应诸如受损机器人形态等任务非常重要,这对于诸如持续学习之类的任务可能很有用[60]。从最初的随机权重收敛到高性能权重的能力令人惊讶地强大,并且最佳网络设法在CarRacing域中的100个部署中的每一个上做到这一点。 Hebbian网络更通用,但特定任务/机器人形态的性能可能更低,这不足为奇:学习通常会花费时间,但会导致更大的泛化[61]。
有趣的是,随机初始化的网络最近在不同的域中显示出特别有趣的特性[16-18]。我们通过证明随机权重是快速适应某些复杂RL域所需要的,从而为这一最新趋势锦上添花,因为它们与表达神经可塑性机制配对。
未来一个有趣的工作方向是用神经调节可塑性来扩展该方法,该方法已被证明可以改善正在发展的可塑性神经网络[62]和通过反向传播训练的可塑性网络[63]的性能。除其他特性外,神经调节还允许某些神经元调节神经网络中连接的可塑性水平。此外,复杂的神经调节系统在动物大脑中对于更精细的学习形式似乎至关重要[64]。当给网络一个额外的奖励信号作为基于目标的适应的输入时,这种能力尤其重要。这里介绍的方法开拓了其他有趣的研究领域,例如也发展了个体神经结构[65]或通过更间接的基因型到表型映射[66,38]编码学习规则。
在神经科学界,关于动物行为的哪些部分已经天生,通过学习获得哪些部分的问题引起了激烈的争论[38]。有趣的是,这些生物网络的连通性中的随机性可能比以前认识的更为重要。例如,随机反馈连接可以使生物大脑进行某种反向传播[67],并且最近有证据表明前额叶皮层实际上可以结合使用随机连接性和Hebbian学习[19]。据我们所知,这是第一次将随机网络和Hebbian学习相结合应用于复杂的强化学习问题,我们希望该方法能够在未来激发神经科学和机器学习之间思想的进一步交叉融合[ 20]。
与当前试图尽可能通用的强化学习算法相反,进化使得动物神经系统有倾向性,因此能够通过将学习限制在对生存至关重要的方面来快速学习[38]。 本文提出的结果(其中个体的先天知识正是进化算法得来的学习规则)朝这个方向迈出了一步。 提出的方法打开了有趣的未来研究方向,建议不要强调网络权重所扮演的角色,而应将重点更多地放在学习规则本身上。 关于两个复杂且不同的强化学习任务的结果表明,这种方法值得进一步探索。

广阔影响

这项工作的道德和未来社会后果很难预测,但可能类似于处理更多适应性代理和机器人的其他工作。 特别是,通过赋予机器人受伤时仍能正常运行的能力,可以使机器人更容易部署在对社会既有正面影响又有负面影响的地区。 从长远来看,可以适应的机器人可以帮助工业自动化或帮助照顾老年人。 另一方面,更多的自适应机器人也可以更容易地用于军事应用。 本文介绍的方法远未在这些领域中部署,但重要的是尽早讨论其潜在的长期后果。

你可能感兴趣的:(深度学习,人工智能,神经网络,强化学习)