转载自 凌空的桨https://blog.csdn.net/baidu_36669549/article/details/85986628
翻译稿---链接
参考---Social GAN:利用GAN来帮助预测行人运动轨迹 或者 http://grayxu.cn/2018/10/06/Social-GAN/
源码---sgan
可视化--Visual-of-Social-GAN
可视化博客---Social GAN——可视化
了解人体运动行为对于自动移动平台(如自动驾驶汽车和社交机器人)来说至关重要,如果他们要驾驭以人为中心的环境。 这具有挑战性,因为人体运动本质上是多模态的:考虑人在过去一段时间的路径,可以在将来采取许多社交合理的方式选择路径。 我们通过组合序列预测和生成对抗网络的工具来解决这个问题:循环序列到序列模型观察运动历史并预测未来行为,使用新的汇集机制来汇总人们的信息。 我们通过对抗经常性的鉴别者来对抗,从而预测社交可信的未来,并通过新的多样性损失鼓励多样化的预测。 通过对几个数据集的实验,我们证明了我们的方法在准确性,多样性,碰撞避免和计算复杂性方面优于先前的工作。
预测行人的运动行为对于自动驾驶汽车或社交机器人等自动驾驶平台至关重要,这些平台将与人类共享相同的生态系统。 人类可以有效地协商复杂的社交互动,这些机器也应该能够做到这一点。 为此目的,一项具体而重要的任务如下:给定观察到的行人运动轨迹(过去的坐标,例如3.2秒),预测所有可能的未来轨迹(图1)。 由于拥挤场景中人体运动的固有属性,预测人类的行为具有挑战性:
图1:两个行人想要相互避开的情景图示。 有许多可能的方法可以避免潜在的碰撞。 我们提出了一种给出相同观察过去的方法,预测在拥挤的场景中多个社交可接受的输出。
轨迹预测的开创性工作已经解决了上述一些挑战。 基于手工制作的特征的传统方法已经详尽地解决了人际关系[2,17,41,46]。 最近,基于递归神经网络(RNN)的数据驱动技术重新考虑了社交可接受性[1,28,12,4]。 最后,在给定静态场景(例如,在交叉点采取哪些街道[28,24])的路线选择的背景下研究了问题的多模态方面。 Robicquet等。 [38]已经表明,行人在拥挤的场景中具有多种导航风格,具有温和或激进的导航风格。 因此,预测任务需要输出不同的可能结果。
虽然现有方法在应对具体挑战方面取得了很大进展,但它们受到两个限制。 首先,他们在进行预测时为每个人周围的局部邻域建模。 因此,他们没有能力以计算有效的方式模拟场景中所有人之间的交互。 其次,他们倾向于学习“平均行为”,因为常用的损失函数可以最小化标签和预测输出之间的欧氏距离。 相反,我们的目标是学习多种“良好行为”,即多种社交可接受的轨迹。
为了解决以往工作的局限性,我们建议利用最近的生成模型(GAN)进展。 最近开发了生成性对抗网络(GAN)以克服近似难以处理的概率计算和行为推理的困难[14]。 虽然它们已被用于产生照片般逼真的信号,如图像[34],但我们建议使用它们在给定观察过去的情况下产生多个社交可接受的轨迹。 一个网络(生成器)生成候选者,另一个(鉴别器)评估它们。 对抗性损失使我们的预测模型超越了L2损失的限制,并可能学习可以欺骗鉴别器的“良好行为”的分布。 在我们的工作中,这些行为在拥挤的场景中被称为社交接受的运动轨迹。
我们提出的GAN是RNN编码器 - 解码器生成器和基于RNN的编码器鉴别器,具有以下两个新颖性:(i)我们引入了各种损失,鼓励我们的GAN的生成网络扩展其分布并覆盖可能路径的空间,同时与观察到的输入一致。 (ii)我们提出了一种新的汇集机制,它可以学习一个“全局”汇集向量,该向量对场景中所有参与者的微妙线索进行编码。 我们将我们的模型称为“社交GAN”。 通过对几个公开的现实世界人群数据集的实验,我们展示了最先进的准确性,速度并证明我们的模型能够产生各种社交可接受的轨迹。
预测人类行为的研究可以分为学习预测人 - 空间相互作用或人类人类交互。 前者学习场景特定的运动模式[3,9,18,21,24,33,49]。 后者模拟场景的动态内容,即行人如何相互作用。 我们工作的重点是后者:学习预测人类的人际互动。 我们讨论了有关该主题的现有工作以及RNN中用于序列预测和生成模型的相关工作。
人与人之间的互动。人类行为已经从宏观模型中的人群视角或微观模型中的个体视角(我们工作的重点)进行了研究。微观模型的一个例子是Helbing和Molnar的社交力量[17],其模拟行人行为,吸引力引导他们朝向目标,排斥力量鼓励避免碰撞。在过去的几十年中,这种方法经常被重新考虑[5,6,25,26,30,31,36,46]。还使用了经济学中流行的工具,例如Antonini等人的Discrete Choice框架。 [2]Treuille等。[42]使用连续动力学,Wang等。 [44],Tay等。人。 [41]使用高斯过程。这些功能也被用于研究静止组[35,47]。然而,所有这些方法都使用基于相对距离和特定规则的手工制作的能量势。相比之下,在过去两年中,基于RNN的数据驱动方法已被用于表现优于上述传统方法。
用于序列预测的RNN。 递归神经网络是一类丰富的动态模型,它扩展了前馈网络,用于不同领域的序列生成,如语音识别[7,8,15],机器翻译[8]和图像字幕[20,43,45,39]。 然而,它们缺乏高水平和时空结构[29]。 已经进行了多次尝试以使用多个网络来捕获复杂的相互作用[1,10,40]。 Alahi等人。 [1]使用社交池层来模拟附近的行人。 在本文的其余部分,我们表明使用多层感知器(MLP),然后使用最大池,计算效率更高,并且与[1]中的社交池方法一样好或更好。 李等人。 [28]介绍了一种RNN编码器 - 解码器框架,该框架使用变分自动编码器(VAE)进行轨迹预测。 然而,他们没有在拥挤的场景中模拟人与人之间的互动。
生成建模。 像变分自动编码器[23]这样的生成模型是通过最大化训练数据可能性的下限来训练的。 Goodfellow等人。 [14]提出了一种替代方法,即生成对抗网络(GAN),其中训练过程是生成模型和判别模型之间的极小极大博弈(game); 这克服了近似难以处理的概率计算的困难。 生成模型已经在诸如超分辨率[27],图像到图像转换[19]和图像合成[16,34,48]之类的任务中显示出有希望的结果,其具有给定输入的多个可能输出。 然而,它们在诸如自然语言处理之类的序列生成问题中的应用已经滞后,因为从这些生成的输出中采样以馈送到鉴别器是不可微分的操作。
考虑到周围的人,人类具有直观的导航能力。 我们计划我们的路径,牢记我们的目标,同时考虑周围人的运动,如他们的运动方向,速度等。但是,通常在这种情况下存在多种可能的选择。 我们需要的模型不仅可以理解这些复杂的人类交互,还可以捕捉各种选项。 目前的方法集中在预测平均未来轨迹,该轨迹最小化距离真实标签未来轨迹的L2距离,而我们想要预测多个“好”轨迹。 在本节中,我们首先介绍基于GAN的编码器 - 解码器架构来解决这个问题,然后我们描述我们的新型汇集层,它模拟了人与人之间的相互作用,最后我们介绍了我们的变种,它鼓励网络产生多种不同的未来轨迹。 相同的观察序列。
图2:系统概述。 我们的模型由三个关键组件组成:Generator(G),Pooling Module和Discriminator(D)。 G将轨迹Xi作为输入,并将人i的历史编码为Ht i。 pooling module将所有Htobs i作为输入,并为每个人输出汇集的矢量Pi。 解码器生成以Htobs i和Pi为条件的未来轨迹。 D将Treal或Tfake作为输入,并将它们分类为社交可接受或不是(参见图3中的PM)。
我们的目标是共同推理和预测场景中涉及的所有代理人的未来轨迹。 我们假设我们接收场景中人物的所有轨迹作为输入
并预测未来的轨迹同时所有人都是同时的。 人i的输入轨迹从时间步长t = 1到t = tobs定义为
,未来轨迹(标签)可以类似地定义为 ,时间从t=tobs+1,…,tpred。 我们将预测表示为。
生成性对抗网络(GAN)由两个相互对立的神经网络组成[14]。 两个经过对侧训练的模型是:捕获数据分布的生成模型G,以及估计样本来自训练数据而不是G的概率的判别模型D.生成器G将潜在变量z作为输入,并且 输出样本G(z)。 鉴别器D将样本x作为输入并输出D(x),其表示它是真实的概率。 训练程序类似于具有以下目标功能的双人最小 - 最大博弈:(公式1)
GAN可以通过为生成器和鉴别器提供额外的输入c来使用条件模型,从而产生G(z,c)和D(x,c)
如第1节所述,轨迹预测是一个多模态问题。 生成模型可以与时间序列数据一起使用来模拟可能的未来。 我们利用这种洞察力设计SGAN,使用GAN解决问题的多模态(参见图2)。 我们的模型由三个关键部分组成:生成器(G),汇集模块(PM)和鉴别器(D)。 G基于编码器 - 解码器框架,其中我们通过PM链接编码器和解码器的隐藏状态。 G作为输入Xi并输出预测轨迹^ Yi。 D输入包括输入轨迹Xi和未来预测^ Yi(或Yi)的整个序列,并将它们分类为“真/假”。
生成器:这些嵌入在t时用作编码器的lstm单元的输入,引入以下循环:
其中φ()是具有ReLU非线性的嵌入函数,Wee是嵌入权重。 LSTM权重(Wencoder)在场景中的所有人之间共享。
每人使用一个LSTM无法捕捉人与人之间的互动。 编码器学习人的状态并存储他们的运动历史。 但是,正如Alahi等人所示。 [1]我们需要一个紧凑的表示,它结合了来自不同编码器的信息,以有效地推理社交互动。 在我们的方法中,我们通过池模块(PM)模拟人与人之间的交互。 在tobs之后,我们汇集了场景中所有人的隐藏状态,以便为每个人获得一个合并的张量Pi。 传统上,GAN将输入噪声视为输入并生成样本。 我们的目标是制作与过去一致的未来情景。 为了实现这一点,我们通过初始化解码器的隐藏状态来调节输出轨迹的生成:
其中,γ()是具有ReLU非线性的多层感知器(MLP),Wc是嵌入权重。 我们在轨迹预测的两个重要方面偏离了先前的工作:
·先前的工作[1]使用隐藏状态来预测双变量高斯分布的参数。 然而,这在训练过程中引入了难度,因为通过不可微分的采样过程进行反向传播。 我们通过直接预测坐标来避免这种情况。
·“社交”背景通常作为LSTM细胞的输入[1,28]。 相反,我们仅将汇集的上下文作为输入提供给解码器。 与S-LSTM [1]相比,这也使我们能够选择在特定时间步骤进行汇集,并且速度提高16倍(参见表2)。
在如上所述初始化解码器状态之后,我们可以获得如下预测:
其中φ()是具有ReLU非线性的嵌入函数,其中Wed作为嵌入权重。 LSTM权重由Wdecoder表示,并且是MLP。
鉴别器:
鉴别器由一个单独的编码器组成。 具体来说,它需要输入 或 并将它们归类为真/假。 我们在编码器的最后隐藏状态上应用MLP以获得分类分数。 理想情况下,鉴别者将学习微妙的社交交往规则,并将不被社交接受的轨迹分类为“假”。
损失函数:
除了对抗性损失之外,我们还在预测轨迹上应用L2损失,该轨迹测量生成的样本与实际标签的距离。
为了共同推理多个人,我们需要一种在LSTM之间共享信息的机制。 但是,方法应该解决几个挑战:
·场景中的变量和(可能)大量人物。 我们需要一个紧凑的表示,它结合了所有人的信息。
·分散的人与人之间的互动。 本地信息并不总是足够的。 远方的行人可能会互相影响。 因此,网络需要对全局配置进行建模。
图3:红人的汇集机制(红色虚线箭头)和社交池[1](红色虚线格)之间的比较。 我们的方法计算红色和所有其他人之间的相对位置; 这些位置与每个人的隐藏状态连接,由MLP独立处理,然后汇集元素以计算红人的汇集向量P1。 社交池只考虑网格内的人,并且不能模拟所有人之间的交互。
社交池[1]通过提出基于网格的池化方案解决了第一个问题。 但是,这种手工制作的解决方案很慢,无法捕捉全局背景。 齐等人。 [37]表明,通过在输入点集的变换元素上应用学习的对称函数,可以实现上述属性。 如图2所示,这可以通过将输入坐标传递给MLP,然后是对称函数(我们使用Max-Pooling)来实现。 汇集的向量Pi需要总结一个人做出决定所需的所有信息。 因为,我们使用相对坐标来进行平移不变性,我们使用每个人相对于人i的相对位置来增加对池化模块的输入。
由于有限的过去历史,模型必须推理出多种可能的结果,因此轨迹预测具有挑战性。 到目前为止所描述的方法产生了良好的预测,但是这些预测试图在可以存在多个输出的情况下产生“平均”预测。 此外,我们发现输出对噪声的变化不是非常敏感,并且产生了非常相似的预测。
我们提出了一种variety loss function,可以鼓励网络生成各种样本。 对于每个场景,我们通过从N(0,1)中随机采样z并选择L2意义上的“最佳”预测作为我们的预测来生成k个可能的输出预测。
其中k是超参数。
通过仅考虑最佳轨迹,这种损失促使网络对冲(hedge避免正面回答)其预计(bet)并覆盖符合过去轨迹的输出空间。 损失在结构上类似于最小N(MoN)损失[11],但据我们所知,这并未在GAN的背景下用于鼓励生成样本的多样性。
表1:跨数据集的所有方法的定量结果。 我们报告了以米为单位的tpred = 8和tpred = 12(8/12)的两个误差度量平均位移误差(ADE)和最终位移误差(FDE)。 我们的方法始终优于最先进的S-LSTM方法,尤其适用于长期预测(越低越好)。
我们在解码器和编码器模型中使用LSTM作为RNN。 编码器隐藏状态的大小为16,解码器为32.我们将输入坐标嵌入为16维向量。 我们使用Adam [22]迭代地训练批量大小为64的发生器和鉴别器200个时期,初始学习率为0.001。
在本节中,我们在两个公开可用的数据集上评估我们的方法:ETH [36]和UCY [25]。 这些数据集由具有丰富的人类交互场景的真实世界人类轨迹组成。 我们将所有数据转换为真实世界坐标并进行插值以获得每0.4秒的值。 总共有5组数据(ETH - 2,UCY-3),有4个不同的场景,由拥挤的环境中的1536名行人组成,具有挑战性的场景,如群体行为,人们相互交叉,避免碰撞以及群体形成和分散。
评估指标。 类似于先前的工作[1,28]我们使用两个误差指标:
1.平均位移误差(ADE):真实标签与我们对所有预测时间步长的预测之间的平均L2距离。
2.最终位移误差(FDE):在预测周期Tpred结束时预测的最终目的地与真实最终目的地之间的距离。
基线:我们与以下基线进行比较:
1.线性:线性回归量,通过最小化最小平方误差来估计线性参数。
2. LSTM:没有池化机制的简单LSTM。
3. S-LSTM:Alahi等人提出的方法。[1]。 每个人都通过LSTM建模,隐藏状态在每个时间步骤使用社交池层进行合并。
我们还使用不同的控制设置对我们的模型进行消融研究。 我们在本节中将我们的完整方法称为SGAN-kVP-N,其中kV表示模型是否使用品种损失进行培训(k = 1实质上意味着没有品种损失),P表示我们提出的汇集模块的使用。 在测试时,我们从模型中多次采样并选择L2意义上的最佳预测进行定量评估。 N指的是我们在测试时间内从模型中采样的时间。
评估方法。 我们遵循与[1]类似的评估方法。 我们使用留一法,在4组训练并测试剩下的一组。 我们观察8个步骤(3.2秒)的轨迹并显示8(3.2秒)和12(4.8秒)时间步长的预测结果。
我们将两个指标ADE和FDE的方法与表1中的不同基线进行比较。正如预期的那样,线性模型只能对直线路径进行建模,并且在预测时间较长时(tpred = 12)尤其糟糕。 LSTM和S-LSTM都比线性基线表现更好,因为它们可以模拟更复杂的轨迹。 然而,在我们的实验中,S-LSTM并不优于LSTM。 我们尽力重现论文的结果。 [1]在合成数据集上训练模型,然后在真实数据集上进行微调。 我们不使用合成数据来训练任何可能导致性能下降的模型。
图4:品种损失的影响。 对于SGAN-1V-N,我们训练单个模型,在训练期间为每个序列绘制一个样本,在测试期间绘制N个样本。 对于SGAN-NV-N,我们在训练和测试过程中使用N个样本训练多个模型以减少变种。 多样性损失的训练显性提高了准确性。
SGAN-1V-1比LSTM表现更差,因为每个预测样本可以是多个可能的未来轨迹中的任何一个。 模型生成的条件输出表示可能与标签预测不同的许多合理的未来预测之一。 当我们考虑多个样本时,我们的模型优于确定问题的多模态性质的基线方法。 GAN面临模式崩溃问题,其中生成器用于生成少量样本,这些样本由鉴别器分配高概率。 我们发现由SGAN-1V-1生成的样本没有捕获所有可能的情况。 然而,SGAN-20V-20明显优于所有其他模型,因为品种损失促使网络生产多样化的样品。 尽管我们提出的池化层的完整模型表现稍差,但我们在下一节中展示了池化层有助于模型预测更“社交”合理的路径。
速度。 速度对于在诸如自动驾驶车辆的现实世界环境中使用的方法是至关重要的,其中您需要关于行人行为的准确预测。 我们将我们的方法与两个基线LSTM和S-LSTM进行比较。 简单的LSTM执行速度最快但无法避免碰撞或进行准确的多模态预测。 我们的方法比S-LSTM快16倍(见表2)。 提高速度是因为我们不会在每个时间步进行汇集。 此外,与需要为每个行人计算占用网格的S-LSTM不同,我们的池化机制是简单的MLP,然后是最大池。 在实际应用中,我们的模型可以在S-LSTM进行1次预测的同时快速生成20个样本。
评估多样性的影响。 人们可能想知道如果我们只是从我们的模型中抽取更多样本而没有品种损失会发生什么? 我们比较了SGAN-1V-N与SGAN-NV-N的性能。 作为提醒,SGAN-NV-N指的是在k = N的情况下训练有各种损失并且在测试期间绘制N个样本的模型。 如图4所示,在所有数据集中,简单地从模型(trained without variety loss)中抽取更多样本,这不会带来更好的准确性。 相反,我们看到显着的性能提升,因为我们增加k,模型平均表现好了33% with k = 100。
表2:与S-LSTM的速度(以秒为单位)比较。 与S-LSTM相比,我们获得了16倍的加速,允许我们在同一时间内绘制16个样本,S-LSTM进行单次预测。 与S-LSTM不同,我们不会在每个时间步骤执行汇集,从而导致显着的减速,而不会影响精度。 所有方法都基于Tesla P100 GPU进行基准测试
在多智能体(人)场景中,必须模拟一个人的行为如何影响其他人的行为。用于活动预测和人类轨迹预测的传统方法关注于手工制作的能量势能,其模拟吸引力和排斥力以模拟这些复杂的相互作用。我们使用纯粹的数据驱动方法,通过新的汇集机制模拟人与人之间的相互作用。在其他人面前行走的人类计划他们的路径,考虑到他们的个人空间,感知碰撞的可能性,最终目的地和他们自己的过去动作。在本节中,我们首先评估汇集层的影响,然后分析我们的网络在三种常见的社交互动场景中所做的预测。即使我们的模型对场景中的所有人进行联合预测,我们也会为了简单而显示子集的预测。我们通过图中颜色的第一个字母(例如,人B(黑色),人R(红色)等)来引用场景中的每个人。同样为了简单起见,我们将SGAN-20VP-20称为SGAN-P,将SGAN-20V-20称为SGAN。
图5:我们的模型没有汇集(SGAN,顶部)和汇集(SGAN-P,底部)在四个避碰场景中的比较:两个人见面(1),一个人遇到一个组(2),一个人在另一个人之后 (3),和两个人在某个角度(4)会面。 对于每个例子,我们从模型中抽取300个样本并可视化它们的密度和平均值。 由于汇集,SGAN-P预测社交可接受的轨迹,避免碰撞。
4.2.1 Pooling Vs No-Pooling
在量化指标上,两种方法的表现相似,SGAN略微优于SGAN-P(见表1)。但是,从质量上我们发现汇集实施全球一致性和符合社交规范。我们比较了SGAN和SGAN-P在四种常见社交互动中的表现场景(见图5)。我们想强调的是,即使这些场景是人工创建的,我们也使用了在真实世界数据上训练得到的模型。此外,这些场景是为了评估模型而创建的,我们的设计中没有任何东西使这些场景特别 容易或困难 ,我们绘制300个样本并绘制轨迹的近似分布以及平均轨迹预测。
场景1和2通过改变方向描绘了我们模型的碰撞避免能力。在两个人朝同一方向前进的情况下汇集使模型能够预测一种社交接受的产生右路通行权的方式。然而,SGAN预测导致碰撞类似地,与SGAN不同,SGAN-P能够模拟群体行为并预测避免,同时保留夫妻一起行走的概念(情景2)。人类也倾向于改变节奏以避免碰撞。场景3描绘了一个人G走在人B后面虽然更快。如果他们都继续保持他们的步伐和方向,他们就会发生碰撞。我们的模型预测人G从右边超车。 SGAN无法预测社交可接受的路径。在场景4中,我们注意到该模型预测人B减慢并屈服于人G.
4.2.2 Pooling in Action
我们考虑三种真实场景,人们必须改变他们的路线以避免碰撞(见图6)。
人们合并People Merging。 (第1行)在走廊或道路上,来自不同方向的人们通常会合并并走向共同的目的地。人们使用各种方式避免在继续前往目的地时发生碰撞。例如,一个人可能会放慢速度,稍微改变他们的路线,或者根据周围环境和其他周围人的行为使用两者的组合。我们的模型能够预测人的速度和方向的变化,以有效地导航情况。例如,模型预测人B减速(第2列)或人B和R都改变方向以避免碰撞。最后的预测(第4栏)特别有趣,因为该模型预测了人R的突然转向,但也预测人B在响应中显着减慢;从而进行全球一致的预测。
集团避免Group Avoiding。 (第2行)人们在相反方向移动时相互避开是另一种常见情况。这可以表现为各种形式,例如避开一对夫妇,一对夫妇避开一对夫妇等。为了在这种情况下做出正确的预测,一个人需要提前计划并超越它的直接邻居。我们的模型能够识别出人们在群体中移动并模拟群体行为。该模型预测任一组的方向变化作为避免碰撞的方式(第3,4栏)。与图5相反,即使惯例可能是在这种特殊情况下让位于右边而导致碰撞。因此,我们的模型可以预测夫妻走向左边的位置。
人跟随Person Following。 (第3行)另一种常见情况是当一个人走在某人后面。人们可能想要保持步伐或者可能超过前面的人。我们想提请注意这种情况与现实生活方式之间的细微差别。实际上,一个人的决策能力受到他们视野的限制。相比之下,我们的模型可以在汇集时访问场景中涉及的所有人的标签位置。这表现在一些有趣的案例中(见第3栏)。该模型理解人R在人B之后并且移动得更快。因此,它预测人B通过改变他们的方向让路,而人R保持他们的方向和速度。该模型还能够预测超车(匹配基础事实)。
图6:我们模型中不同预测的例子。每一行都显示了一组不同的观测轨迹;列显示了来自我们的模型的四个不同的例子,每个场景展示了不同类型的社会可接受行为。最好是最接近事实的样本;在慢速和快速的样本中,人们改变速度以避免碰撞;在DIR样本中,人们改变方向以避免彼此。我们的模型以数据驱动的方式学习这些不同的回避策略,并联合预测场景中所有人的全球一致和社会可接受的轨迹。在补充材料中也给出了一些失效案例。
在这个实验中,我们试图了解潜在空间z的景观。 走在学习的流形上可以让我们深入了解模型如何生成不同的样本。 理想情况下,可以预期网络在潜在空间中施加的一些结构。 我们发现潜在空间中的某些方向与方向和速度有关(图7)。
图7:潜在空间探索。 潜在流形中的某些方向与方向(左)和速度(右)相关联。 观察相同的过去但沿不同方向改变输入z导致模型预测平均 向右/向左或快/慢的轨迹。
在这项工作中,我们解决了人类交互建模的问题,并共同预测场景中所有人的轨迹。 我们提出了一种新颖的基于GAN的编码器解码器框架,用于捕获未来预测问题的多模态的轨迹预测。 我们还提出了一种新的汇集机制,使网络能够以纯数据驱动的方式学习社交规范。 为了鼓励预测样本之间的多样性,我们提出了一种简单的品种损失,它与汇集层相结合,促使网络产生全球连贯,符合社交要求的多样化样本。 我们展示了我们的方法在几个复杂的现实生活场景中的功效,其中必须遵循社交规范。