行人可沿不同的轨道行走,以避开障碍物及方便其他行人。在这样的场景中行驶的任何自动驾驶车辆都应该能够预见行人未来的位置,并相应地调整其路径以避免碰撞。轨迹预测问题可以看作是一个序列生成任务,我们感兴趣的是根据人们过去的位置来预测他们未来的轨迹。在递归神经网络(RNN)模型用于情景预测任务的基础上,我们提出了一种学习一般人体运动并预测未来运动轨迹的LSTM模型。这与使用手工制作的功能(如社会力量)的传统方法形成了对比。我们在几个公共数据集上演示了我们的方法的性能。我们的模型在一些数据集上比最先进方法表现得更好。我们还分析了模型预测的轨迹,以证明模型学习的运动行为。
图1 这篇论文的目的是预测在拥挤的场景下的运动,然而,这是一个具有挑战性的任务,因为每个人的运动通常都受到他们附近空间中相邻的人的影响。我们提出了一个新的模型,我们称之为Social- LSTM,它可以通过考虑人类在共享环境中行进时通常使用的常识规则和社会惯例来联合预测场景中所有人的路径。 热图显示了它们未来轨迹的预测分布。
人类有与生俱来的相互理解的能力。当人们走在拥挤的公共空间,如人行道、机场候机楼或购物中心,他们遵守大量的(不成文的)常识规则,并与社会习俗紧密相连。例如,当他们考虑下一步该移动到哪里时,他们会尊重个人空间并让出通行权。建立这些规则的模型,并利用它们来理解和预测人类在复杂的现实世界环境中的运动,这种能力对于广泛的应用非常有价值——从部署具有社会意识的机器人[41],到设计智能环境中的智能跟踪系统[43]。
然而,在考虑此类常识行为的同时预测人类目标的运动是一个极具挑战性的问题。这需要了解在拥挤的空间中人们之间发生的复杂而微妙的互动。计算机视觉的最新研究已成功解决了其中一些挑战。 Kitani等。等文献[32]证明了关于静态环境语义的推断知识(例如人行道的位置,草地的延伸等)比忽略场景信息的模型更准确地预测了未来瞬间行人的轨迹。 [24,50,35]的开拓性工作还提出了建立人与人互动(通常称为“社会力量”)模型的方法,以提高多目标跟踪问题的鲁棒性和准确性。但是,大多数这些工作受到以下两个假设的限制:
i)他们使用手工制作的功能为设置的特定 “交互”建模,而不是以数据驱动的方式进行推断。这导致产生了偏向于捕获简单交互信息的模型,并且可能无法针对更复杂的拥挤环境进行概括。
ii)他们着重于对彼此接近的人之间的交互进行建模(以避免直接碰撞)。但是,他们没有预料到在更遥远的将来会发生相互作用。
在这项工作中,我们提出了一种方法,可以通过一个新的数据驱动的架构来预测未来人类的轨迹。受近期成功的长短时记忆网络(LSTM)用于不同的序列预测任务(如手写[20]和语音[21]生成)的启发,我们将其扩展到人类轨迹预测。尽管LSTM 具有学习和复制长序列的能力,但它们不能捕获多个相关序列之间的依赖关系。
我们通过一种新的架构来解决这个问题,这种架构将LSTMs与邻近序列相连接。特别地,我们引入了一个“社会汇聚层(social-pooling)”,该体系结构将与附近序列相对应的LSTM连接起来,从而共享它们的隐藏状态。这种结构,我们称之为 Social-LSTM,可以自动学习发生在时间重合的轨迹之间的典型交互行为。该模型利用现有的人类数据集,不需要任何额外的 “人为注释(annotation)操作” 来学习人类在社会空间中观察到的常识规则和惯例。
最后,我们证明了我们的 Social-LSTM 预测行人轨迹的能力比最先进的方法在两个公共数据集:ETH[49]和UCY[39]上更精确。我们还分析了由我们的模型生成的轨迹模式,以理解从轨迹数据集中学习到的社会性的约束。
(这里删减了那些无关紧要的相关性工作,只翻译了与主题有关的、有启发性的相关工作部分)
不同于那些 “大量使用静态场景信息来预测人类的运动或活动”的工作。在我们的工作中,我们专注于对动态人群交互进行建模以进行路径预测
最近的很多工作也试图预测未来的人类行为。特别是Ryoo等。[55、8、71、67、44、58]等预测流视频中的动作。与我们的工作更相关的是:使用RNN模型预测视频中未来事件的想法[53、57、66、56、31]。按照类似的思路,我们可以预测场景中的未来轨迹。
最近,递归神经网络(RNN)及其变体(包括长期短期记忆(LSTM)[25]和门控递归单元[12])已被证明对于序列预测任务非常成功:语音识别[21、11、13],字幕生成[64、29、75、15、72],机器翻译[4],图像/视频分类[7、22、70、47],人类动力学[18]等。 RNN模型也已被证明对于密集连接的数据任务是有效的,例如语义分割[76],场景解析[51],甚至可以替代卷积神经网络[65]。这些工作表明,RNN模型能够学习空间相关数据(例如图像像素)之间的依赖性。这促使我们扩展了Graves[20]等人的序列生成模型到我们的工作中。特别是Graves [20]预测孤立的手写顺序;而在我们的工作中,我们共同预测与人类轨迹相对应的多个相关序列。
人们在拥挤的场景中移动时,会根据周围其他人的行为调整自己的动作。例如,一个人可以完全改变他/她的路径或暂时停下来适应一群人向他移动。这种轨迹上的偏差不能通过单独观察一个人来预测。同样地,也不能用简单的“排斥”或“吸引”模型(传统的社会力量模型[24,43,73,50])来预测
这促使我们建立一个模型,该模型可以解释一个比较大的范围内其他人的行为,同时预测一个人的路径。在本节中,我们描述了基于 pooling 的LSTM模型(图2),该模型可以共同预测场景中所有人的轨迹。我们将此称为“社交” LSTM模型。
图2 我们的Social-LSTM方法概述。 我们为场景中的每个轨迹使用单独的 LSTM 网络。 然后,LSTM通过社交池(S-pooling)层相互连接。 与传统的 LSTM不同,此池化层允许在空间上相邻的 LSTM彼此共享信息。 图中的变量在等式 2中说明.图2底部显示了场景中某一个人的 S池。 将特定半径内所有 LSTM的隐藏状态将汇总在一起,并在下一个时间步作为输入。
每个人都有不同的运动模式:他们以不同的速度、加速度运动,有着不同的步态。我们需要一个模型,它可以从一组有限的初始观察中理解和学习这些特定于人的运动特性。
长短时记忆(LSTM)网络已被证明能够成功地学习和推广孤立序列(isolated sequence)的性质,如手写[20]和语音[21]。受此启发,我们也开发了一个基于LSTM的轨迹预测模型。特别是,我们为每个场景中的每个人提供一个LSTM。这个LSTM学习人的状态并预测他们未来的位置,如图2所示。LSTM权值在所有序列之间共享。
然而,对每个人使用一个LSTM模型的简单做法并没有捕捉到相邻行人之间的交互。Vanilla LSTM对其他序列的行为是不可知的。我们通过图3 和图2 所示的新的池策略来连接相邻的LSTMs来解决这个限制。
图3 我们显示了用黑点表示的人的 Social pooling。 我们在一定的空间距离内合并相邻序列的隐藏状态(以黄色,蓝色和橙色显示)。 如最后两个步骤所示,池化部分保留了相邻行人的空间信息。
【Social pooling of hidden states(隐藏状态的社会池)】
个体通过对相邻行人的运动进行推理来调整自己的路径。这些相邻的行人同样地又会受到周围即时调整的环境的循环影响,并随着时间的推移而改变他们的行为。我们期望LSTM的隐藏状态能够捕获这些时变的运动属性。为了在多人之间共同推理,我们在相邻的 LSTM 之间共享状态。这也带来了一个新的挑战: 每个人都有不同数量的相邻对象,在非常密集的人群中,这个数字可能会非常地高。
因此,我们需要一个紧凑的表示形式,它将来自所有相邻状态的信息组合在一起。 我们通过引入图2所示的“社交”池层来处理此问题。在每个时间步,LSTM单元都会从相邻的LSTM单元接收池化的隐藏状态信息。 合并信息时,我们尝试通过基于网格的合并来保留空间信息,如下所述。
LSTM在时间 t t t 的隐藏状态 h t − 1 h^{t-1} ht−1 捕获了该时刻场景中第 i i i 个人的潜在表示。 我们通过构建“社会”隐藏状态张量 H t i H^i_t Hti 与相邻 LSTM分享这种表示。 给定一个隐藏状态维数 D D D 和邻域大小 N o N_o No,我们为第 i i i个轨迹构造一个 N o × N o × D N_o×N_o×D No×No×D 维的张量 H t i H^i_t Hti:
H t i ( m , n , : ) = ∑ j ∈ N i 1 m n [ x t j − x t i , y t j − y t i ] h t − 1 j H_t^i(m,n,:)=\sum_{j∈N_i}1_{mn}[x_t^j-x_t^i,y_t^j-y_t^i]h^j_{t-1} Hti(m,n,:)=∑j∈Ni1mn[xtj−xti,ytj−yti]ht−1j (公式1)
其中 h t − 1 j h^j_{t-1} ht−1j是对应于第 j j j 个人在 t − 1 t-1 t−1处的LSTM的隐藏状态, 1 m n [ x , y ] 1 _{mn} [x,y] 1mn[x,y]是一个指标函数,用于检查 ( x , y ) (x,y) (x,y)是否在 ( m , n ) (m,n) (m,n) 单元格中, N i N_i Ni 是与人 i i i 对应的相邻对象的集合。 图3中显示了该合并操作。
我们将合并的“社交隐藏状态张量”嵌入到向量 a i t a^t_i ait中,将坐标嵌入 e i t e^t_i eit 中。这些嵌入被连接起来,并用作时间 t t t 对应轨迹的LSTM单元的输入,这就引入了如下的循环:
e t i = ϕ ( x t i , y t i ; W e ) e_t^i=\phi(x_t^i,y_t^i;W_e) eti=ϕ(xti,yti;We)
a i t = ϕ ( H t i ; W a ) a^t_i=\phi(H_t^i;W_a) ait=ϕ(Hti;Wa) (公式2)
h i t = L S T M ( h i t − 1 , e i t , a t i ; W l ) h^t_i=LSTM(h^{t-1}_i,e^t_i,a_t^i;W_l) hit=LSTM(hit−1,eit,ati;Wl)
其中 ϕ ( ⋅ ) \phi(·) ϕ(⋅)是具有具有ReLU非线性的嵌入函数, W e W_e We 和 W a W_a Wa 是嵌入权重。LSTM权重由 W l W_l Wl 表示。
【位置估计】
时间 t t t 的隐藏状态用于预测在下一时间步 t + 1 t+1 t+1 处的轨迹位置 ( x ^ , y ^ ) t + 1 i (\hat{x},\hat{y})_{t+1}^i (x^,y^)t+1i 的分布。我们假设按照二元高斯分布参数,均值为: μ t + 1 i = ( μ x , μ y ) t + 1 i μ^i_{t+1}=(μ_x,μ_y)^i_{t+1} μt+1i=(μx,μy)t+1i,标准差为: σ t + 1 i = ( σ x , σ y ) t + 1 i σ^i_{t+1}=(σ_x,σ_y)^i_{t+1} σt+1i=(σx,σy)t+1i相关系数: ρ t + 1 i ρ^i_{t+1} ρt+1i,这些参数由具有 5 × D 5×D 5×D 权重矩阵 W p W_p Wp 的线性层预测。 在时间 t t t 的预测坐标 ( x ^ t i , y ^ i t ) (\hat{x}^i_t,\hat{y}^t_i) (x^ti,y^it) 由下式给出:
( x ^ t i , y ^ i t ) − N ( μ t i , σ t i , ρ t i ) (\hat{x}^i_t,\hat{y}^t_i)-N(μ^i_t,σ^i_t,ρ^i_t) (x^ti,y^it)−N(μti,σti,ρti) (公式3)
通过最小化负对数似然损失(第 i i i 个轨迹的 L i L^i Li)来学习LSTM模型的参数:
[ μ t i , σ t i , ρ t i ] = W p h i t − 1 [μ^i_t,σ^i_t,ρ^i_t]=W_ph_i^{t-1} [μti,σti,ρti]=Wphit−1 (公式4)
L i ( W e , W l , W p ) = − ∑ t = T o b s + 1 T p r e d l o g ( P ( x t i , y t i ∣ σ t i , μ t i , ρ t i ) ) L^i(W_e,W_l,W_p)=-\sum_{t=T_{obs+1}}^{T_{pred}}log( \mathbb{P}(x_t^i,y_t^i|σ_t^i,μ^i_t,ρ^i_t)) Li(We,Wl,Wp)=−∑t=Tobs+1Tpredlog(P(xti,yti∣σti,μti,ρti))
我们通过最小化训练数据集中所有轨迹的损失来训练模型。 请注意,我们的“社交”池层不会引入任何其他参数。
与传统LSTM的一个重要区别是,多个LSTM的隐藏状态由我们的“社交”池层耦合,并且我们在每个时间步长共同通过场景中的多个LSTM进行反向传播。
【占用映射池(occupancy map pooling)】
Social-LSTM可以用来合并来自相邻轨迹的任何特性。 为简化起见,我们还使用仅合并相邻坐标这一特性的模型进行实验(在实验第4节中称为O-LSTM)。这是原始模型的简化,不需要在训练过程中跨所有轨迹进行联合反向传播。该模型仍然可以学习重新定位轨迹,以避免与相邻行人之间即时的碰撞。然而,在缺乏来自邻近人群的更多信息的情况下,该模型将无法平滑地改变路径以避免未来的碰撞。
对于人 i i i ,我们修改了一下张量 H t i H^i_t Hti 的定义,改为在 t t t 时刻在人的位置中心的 N o × N o N_o×N_o No×No 的矩阵,我们称他为occupany map O t i O_t^i Oti,该地图汇总了所有邻居的位置。 映射的 m , n m,n m,n 元素可以简单地由下式给出:
O t i ( m , n ) = ∑ j ∈ N i 1 m n [ x t j − x t i , y t j − y t i ] O_t^i(m,n)=\sum_{j∈N_i}1_{mn}[x_t^j-x_t^i,y_t^j-y_t^i] Oti(m,n)=∑j∈Ni1mn[xtj−xti,ytj−yti] (公式5)
其中 1 m n [ ⋅ ] 1_{mn}[·] 1mn[⋅] 是前面定义的指标函数,这也可以看作是公式1中定义的社会张量(social-tensor)的简化,即:隐藏状态向量(hidden state vector)被一个常数值代替,该常数值表示在相应的单元中是否存在相邻的对象。
向量化的 occupancy map被用来在简化的模型中代替公式2中 H t i H_t^i Hti 的位置
【路径预测推理】
路径预测推断 在测试期间,我们使用训练有素的Social-LSTM模型来预测第 i i i 个人的未来位置 ( x ^ t i , y ^ i t ) (\hat{x}^i_t,\hat{y}^t_i) (x^ti,y^it),从时间步 T o b s + 1 T_{obs+1} Tobs+1 到 T p r e d T_{pred} Tpred,我们使用前一个Social-LSTM单元格的预测位置 ( x ^ t i , y ^ i t ) (\hat{x}^i_t,\hat{y}^t_i) (x^ti,y^it) 代替(公式2)中的真实坐标 ( x t i , y t i ) (x^i_t,y^i_t) (xti,yti)。在构造(公式1)中的“社交隐藏状态(social hidden state)”张量 H t i H^i_t Hti 或(公式5)中的 occupancy map O t i O^i_t Oti时,预测位置还用于替换实际坐标。
在将空间坐标用作LSTM的输入之前,我们使用 64 的嵌入维数(embedding dimension)。我们将空间池(spatial pooling size)大小 N o N_o No设置为 32 32 32,并使用 8 x 8 8x8 8x8 的总池窗口(sum pooling window)大小不重叠。对于所有LSTM模型,我们都使用 128 128 128 的固定隐藏状态维(hidden state dimension)。此外,在将其用于计算隐藏状态张量 H t i H^i_t Hti之前,我们还使用具有ReLU(整流线性单位)非线性的嵌入层。基于合成数据集上的交叉验证选择超参数。该合成是使用 “实现社会力量模型(social forces model)” 的模拟生成的。该合成数据包含数百个场景的轨迹,每帧平均人群密度为 30 30 30。我们使用了 0.003 0.003 0.003 的学习率和 RMS-prop [14] 来训练模型。 Social-LSTM模型在具有Theano [5]实现的单个GPU上进行了训练。
在本节中,我们介绍两个公开的人类轨迹数据集上的实验:ETH [49]和UCY [39]。 ETH数据集包含两个场景,每个场景有750个不同的行人,并被分为两组(ETH and
Hotel)。UCY数据集包含两个场景,共786人。 该数据集具有3个分支:ZARA-01,ZARA-02和UCY。总之,我们基于5组数据评估了我们的模型。 这些数据集代表了具有数千个非线性轨迹的现实世界的拥挤模式。 如[49]所示,这些数据集还涵盖了具有挑战性的群体行为,例如,情侣走在一起,群体之间的行人相互穿插以及群体在某些场景中的分散和聚集。
我们用三种不同的指标报告预测误差。 与Pellegrini等 [49]类似,我们使用:
① Average displacement error 平均位移误差
轨迹的所有估计点和真实点的均方误差(MSE)。 这是Pellegrini等人[49]提出的。
② Final displacement error 最终位移误差
在预测周期 T p r e d T_{pred} Tpred 结束时,预测的最终目的地和真实的最终目的地之间的距离。
③ Average non-linear displacement error 平均非线性位移误差
是轨迹的非线性区域的MSE。 由于轨迹预测中的大多数错误发生在人与人之间的交互行为而引起的非线性转弯期间,因此我们明确评估了这些区域周围的误差。 我们在二阶导数的范数上设置启发式阈值来识别非线性区域。
为了在训练模型时充分利用数据集,我们使用了留一法(leave-one-out)。 我们在4套模型上训练和验证模型,并在其余模型上进行测试。 我们对所有5组重复此操作。 对于其他用于比较的 baseline 方法,我们也使用相同的培训和测试程序。
在测试期间,我们观察了3.2秒的轨迹,并预测了接下来4.8秒的轨迹。 以0.4的帧速率,这相当于观察8帧并预测接下来的12帧。 这类似于[49,39]所使用的设置。 在表4中,我们将模型的性能与最新方法以及多种控制设置进行比较:
• Linear model (Lin.) 我们使用现成的卡尔曼滤波器在假定线性加速度的情况下推断轨迹。
• Collision avoidance (LTA)。我们报告了社会力量[73]模型的简化版本的结果,该模型仅使用避免碰撞能量(通常称为线性轨迹避免)。
• Social force (SF) 我们使用[73]中的社会力量模型的实现,其中已经建模了几个因素,例如群体亲和力和预测的目的地。
• Iterative Gaussian Process (IGP) 我们使用[61]中的IGP的实现。与其他基准不同,IGP还使用有关人的最终目的地的其他信息。
• Our Vanilla LSTM (LSTM) 这是我们模型的简化设置,其中我们删除了“社交”池层,并将所有轨迹视为彼此独立。
• Our LSTM with occupancy maps (O-LSTM) 我们展示了模型简化版本(在第3.1节中介绍)的性能。提醒一下,该模型仅在每个时间实例中汇总相邻行人的坐标。
朴素线性模型预测误差较大,从平均非线性位移误差来看,非线性区域预测误差较大。Vanilla LSTM的性能优于这个线性基线,因为它可以推断非线性曲线,如Graves等人的[20]所示。然而,这个简单的,明确地建模人与人之间交互的LSTM明显比Social Force和IGP模型更糟糕。
我们基于社会池的LSTM和O-LSTM在几乎所有数据集中表现都超过了精心设计的“社会力量(social force)”和“IGP”模型。特别是,当UCY数据集与ETH比较时,误差降低更为显著。这可以用两个数据集中不同的人群密度来解释:UCY包含了更多的拥挤区域,总共有32K个非线性区域,而较少人口的ETH场景只有15K个非线性区域。
在比较拥挤的UCY场景中,与线性路径的偏离更多地由人与人之间的交互作用决定。因此,我们的“捕获邻域交互的模型”在UCY数据集中达到了更好的效果。行人到达某个目的地的意图在ETH数据集中起着更主要的作用。因此,在测试过程中知道真实最终目标的IGP模型在该数据集的某些部分中实现了较低的误差。
对于ETH来说,我们还观察到占用率(occupancy)和Social LSTM误差彼此相等,并且总体上优于Social force模型。同样,在更为拥挤的UCY数据集中,我们的Social-LSTM优于O-LSTM。这显示了整合了所有隐藏状态以捕获密集人群中复杂交互特征的优势。
我们在第二段中的定量评估。图4显示,学习到的Social-LSTM模型优于标准数据集上的最新方法。在本节中,我们尝试获得更多有关不同人群设置中模型实际行为的见解。我们定性地研究了我们的Social-LSTM方法在社交场景上的效果,在社交场景中,个人以特定的方式进行交互。
我们在图4中展示了一个由四个人占据的示例场景。我们可视化了模型在不同时间即时预测的路径分布。图4中的第一行和第三行显示了每个人的当前位置以及他们的真实轨迹(实线代表将来的路径,虚线代表过去的路径)。第二和第四行显示了我们对下一个12.4秒的Social-LSTM预测。在这些场景中,我们观察到三个人(2,3,4)彼此靠近走,而第四人(1)彼此走得更远。
图4 我们可视化了4个人在一个场景中跨越 6个时间步长的预测路径的概率分布。图中的注释描述了我们的模型所预测的。 在每个时间步长:第1、3行中的实线表示基于事实(ground-truth)的未来轨迹,虚线表示直到该时间步长为止的观察位置,圆点表示该时间步长时的位置。我们注意到,我们的模型经常能够正确地预测具有挑战性的非线性运动的未来路径。 我们将在第4.1节中更详细地分析这些数字。 注意,T代表时间,id(1到 4)表示人物的 id。 补充材料中提供了更多示例。
在第3步和第4步,我们注意到,Social-LSTM预测了person(3)的“停止”,以便给person(1)让步。有趣的是,在第4步,(haling point)的位置被更新,以匹配路径中的真正转折点。在下一步的时间步,随着更多的观察,该模型能够正确地预测在该点上的整个转弯。
在图5中,我们在一个ETH数据集上说明了我们的Social-LSTM,SF模型[49]和线性基线的预测结果。当人们成群结对地行走时,我们的模型能够共同预测他们的轨迹。有趣的是,与“社会力量[73](social-force)”的方式不同,我们没有明确模拟群体行为。但是,我们的模型更擅长以整体方式预测分组轨迹。在图5的最后一行中,我们显示了一些失败的情况,即当我们的预测比以前的工作差的一些表现。导致这些结果的原因要么是预测一个线性路径(第二列),要么图中的行人比需要的时间更早地减速(第一列和第三列)。尽管在这些情况下产生的这些轨迹与实际情况不符,但我们的Social-LSTM仍会输出“合理的”轨迹,即人类可能采取的轨迹。例如,在第一列和第三列中,我们的模型放慢速度,以避免与前方人员发生潜在冲突。
图5 我们的 Social-LSTM方法预测轨迹的图示。 在前三行中,我们显示了一些示例,其中我们的模型成功地预测了具有小误差(就位置和速度而言)的轨迹。 我们还展示了其他方法,例如社会力量[73]和线性方法。 最后一行代表我们的失败案例,例如,人放慢脚步或走直线路。 但是,我们的 Social-LSTM方法可以预测一条可行的道路。 结果显示在 ETH数据集[49]上。
我们提出了一个基于LSTM的模型,该模型可以跨多个个体联合推理来预测场景中的人类特征。我们为每个轨迹使用一个LSTM,并通过引入一个新的"社会池(social-pooling)"层来共享LSTM之间的信息。我们把这种结果模型称为Social-LSTM。我们提出的方法在两个可公开使用的数据集上优于最先进的方法。此外,我们定性地证明,我们的Social-LSTM成功地预测了社交互动(例如一群人一起移动)所引起的各种非线性行为。未来的工作我们将把模型扩展到多类设置,其中多个对象,如自行车、滑板、手推车和行人共享同一个空间。每个对象在 occupancy map(占用映射)中都有自己的标签。此外,通过将本地静态场景图像作为LSTM的额外输入,可以在我们的框架中对人-空间交互进行建模。这样就可以在同一个框架中对“人与人”和“人与空间”之间的相互作用进行联合建模。
[1] A. Alahi, V. Ramanathan, and L. Fei-Fei. Socially-aware
large-scale crowd forecasting. In CVPR, 2014. 2, 3
[2] G. Antonini, M. Bierlaire, and M. Weber. Discrete choice
models of pedestrian walking behavior. Transportation Re-
search Part B: Methodological, 40(8):667–687, 2006. 2
[3] J. Azorin-Lopez, M. Saval-Calvo, A. Fuster-Guillo, and
A. Oliver-Albert. A predictive model for recognizing hu-
man behaviour based on trajectory representation. In Neural
Networks (IJCNN), 2014 International Joint Conference on,
pages 1494–1501. IEEE, 2014. 2
[4] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine
translation by jointly learning to align and translate. arXiv
preprint arXiv:1409.0473, 2014. 2
[5] J. Bergstra, O. Breuleux, F. Bastien, P. Lamblin, R. Pascanu,
G. Desjardins, J. Turian, D. Warde-Farley, and Y. Bengio.
Theano: A cpu and gpu math compiler in python. 5
[6] E. Bonabeau. Agent-based modeling: Methods and tech-
niques for simulating human systems. Proceedings of
the National Academy of Sciences, 99(suppl 3):7280–7287,
2002. 2
[7] C. Cao, X. Liu, Y. Yang, Y. Yu, J. Wang, Z. Wang, Y. Huang,
L. Wang, C. Huang, W. Xu, et al. Look and think twice: Cap-
turing top-down visual attention with feedback convolutional
neural networks. ICCV, 2015. 2
[8] Y. Cao, D. Barrett, A. Barbu, S. Narayanaswamy, H. Yu,
A. Michaux, Y. Lin, S. Dickinson, J. M. Siskind, and
S. Wang. Recognize human activities from partially ob-
served videos. In Computer Vision and Pattern Recogni-
tion (CVPR), 2013 IEEE Conference on, pages 2658–2665.
IEEE, 2013. 2
[9] W. Choi and S. Savarese. A unified framework for multi-
target tracking and collective activity recognition. In Com-
puter Vision–ECCV 2012, pages 215–230. Springer, 2012.
2
[10] W. Choi and S. Savarese. Understanding collective activ-
itiesof people from videos. Pattern Analysis and Machine
Intelligence, IEEE Transactions on, 36(6):1242–1257, 2014.
2
[11] J. Chorowski, D. Bahdanau, K. Cho, and Y. Bengio. End-
to-end continuous speech recognition using attention-based
recurrent nn: First results. arXiv preprint arXiv:1412.1602,
2014. 2
[12] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio. Empirical
evaluation of gated recurrent neural networks on sequence
modeling. arXiv preprint arXiv:1412.3555, 2014. 2
[13] J. Chung, K. Kastner, L. Dinh, K. Goel, A. C. Courville, and
Y. Bengio. A recurrent latent variable model for sequential
data. CoRR, abs/1506.02216, 2015. 2
[14] Y. N. Dauphin, H. de Vries, J. Chung, and Y. Bengio. Rm-
spropandequilibratedadaptivelearningratesfornon-convex
optimization. CoRR, abs/1502.04390, 2015. 5
[15] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach,
S. Venugopalan, K. Saenko, and T. Darrell. Long-term recur-
rent convolutional networks for visual recognition and de-
scription. arXiv preprint arXiv:1411.4389, 2014. 2
[16] J. Elfring, R. Van De Molengraft, and M. Steinbuch.
Learning intentions for improved human motion prediction.
Robotics and Autonomous Systems, 62(4):591–602, 2014. 2
[17] D. F. Fouhey and C. L. Zitnick. Predicting object dynam-
ics in scenes. In Computer Vision and Pattern Recogni-
tion (CVPR), 2014 IEEE Conference on, pages 2027–2034.
IEEE, 2014. 2
[18] K. Fragkiadaki, S. Levine, P. Felsen, and J. Malik. Recurrent
network models for human dynamics. 2
[19] H. Gong, J. Sim, M. Likhachev, and J. Shi. Multi-hypothesis
motion planning for visual object tracking. In Proceedings
of the 2011 International Conference on Computer Vision,
ICCV ’11, pages 619–626, Washington, DC, USA, 2011.
IEEE Computer Society. 2
[20] A. Graves. Generating sequences with recurrent neural net-
works. arXiv preprint arXiv:1308.0850, 2013. 2, 3, 4, 5
[21] A. Graves and N. Jaitly. Towards end-to-end speech recog-
nition with recurrent neural networks. In Proceedings of the
31st International Conference on Machine Learning (ICML-
14), pages 1764–1772, 2014. 2, 3
[22] K. Gregor, I. Danihelka, A. Graves, and D. Wierstra. Draw:
A recurrent neural network for image generation. arXiv
preprint arXiv:1502.04623, 2015. 2
[23] K. P. Hawkins, N. Vo, S. Bansal, and A. F. Bobick. Prob-
abilistic human action prediction and wait-sensitive plan-
ningforresponsivehuman-robotcollaboration. InHumanoid
Robots (Humanoids), 2013 13th IEEE-RAS International
Conference on, pages 499–506. IEEE, 2013. 2
[24] D. Helbing and P. Molnar. Social force model for pedestrian
dynamics. Physical review E, 51(5):4282, 1995. 1, 2, 3
[25] S. Hochreiter and J. Schmidhuber. Long short-term memory.
Neural computation, 9(8):1735–1780, 1997. 2
[26] W. Hu, D. Xie, Z. Fu, W. Zeng, and S. Maybank. Semantic-
based surveillance video retrieval. Image Processing, IEEE
Transactions on, 16(4):1168–1181, 2007. 2
[27] C. Huang, B. Wu, and R. Nevatia. Robust object tracking
by hierarchical association of detection responses. In ECCV,
2008. 2
[28] D.-A. Huang and K. M. Kitani. Action-reaction: Forecasting
the dynamics of human interaction. In Computer Vision–
ECCV 2014, pages 489–504. Springer, 2014. 2
[29] A. Karpathy et al. Deep fragment embeddings for bidirec-
tional image sentence mapping. In NIPS, 2014. 2
[30] K. Kim, D. Lee, and I. Essa. Gaussian process regression
flow for analysis of motion trajectories. In Computer Vi-
sion (ICCV), 2011 IEEE International Conference on, pages
1164–1171. IEEE, 2011. 2
[31] K. Kitani, T. Okabe, Y. Sato, and A. Sugimoto. Fast unsu-
pervised ego-action learning for first-person sports videos.
In Computer Vision and Pattern Recognition (CVPR), 2011
IEEE Conference on, pages 3241–3248, June 2011. 2
[32] K. M. Kitani, B. D. Ziebart, J. A. Bagnell, and M. Hebert.
Activity forecasting. In Computer Vision–ECCV 2012, pages
201–214. Springer, 2012. 1, 2
[33] Y. Kong, D. Kit, and Y. Fu. A discriminative model with
multiple temporal scales for action prediction. In Computer
Vision–ECCV 2014, pages 596–611. Springer, 2014. 2
[34] J. F. P. Kooij, N. Schneider, F. Flohr, and D. M. Gavrila.
Context-based pedestrian path prediction. In Computer
Vision–ECCV 2014, pages 618–633. Springer, 2014. 2
[35] H. Koppula and A. Saxena. Anticipating human activities
using object affordances for reactive robotic response. 2013.
1
[36] H. Kretzschmar, M. Kuderer, and W. Burgard. Learning to
predict trajectories of cooperatively navigating agents. In
Robotics and Automation (ICRA), 2014 IEEE International
Conference on, pages 4015–4020. IEEE, 2014. 2
[37] L. Leal-Taixé, M. Fenzi, A. Kuznetsova, B. Rosenhahn, and
S. Savarese. Learning an image-based motion context for
multiple people tracking. In CVPR, pages 3542–3549. IEEE,
2014. 2
[38] L. Leal-Taixe, G. Pons-Moll, and B. Rosenhahn. Everybody
needs somebody: Modeling social and grouping behavior
on a linear programming multiple people tracker. In ICCV
Workshops, 2011. 2
[39] A. Lerner, Y. Chrysanthou, and D. Lischinski. Crowds by
example. In Computer Graphics Forum, volume 26, pages
655–664. Wiley Online Library, 2007. 2, 5, 6
[40] K. Li and Y. Fu. Prediction of human activity by discovering
temporal sequence patterns. Pattern Analysis and Machine
Intelligence, IEEE Transactions on, 36(8):1644–1657, 2014.
2
[41] M. Luber, J. A. Stork, G. D. Tipaldi, and K. O. Arras. People
tracking with human motion predictions from social forces.
In Robotics and Automation (ICRA), 2010 IEEE Interna-
tional Conference on, pages 464–469. IEEE, 2010. 1, 2, 3
[42] D. Makris and T. Ellis. Learning semantic scene models
from observing activity in visual surveillance. Systems, Man,
andCybernetics, PartB:Cybernetics, IEEETransactionson,
35(3):397–408, 2005. 2
[43] R. Mehran, A. Oyama, and M. Shah. Abnormal crowd be-
havior detection using social force model. In Computer Vi-
sion and Pattern Recognition, 2009. CVPR 2009. IEEE Con-
ference on, pages 935–942. IEEE, 2009. 1, 2, 3
[44] B. Minor, J. R. Doppa, and D. J. Cook. Data-driven ac-
tivity prediction: Algorithms, evaluation methodology, and
applications. In Proceedings of the 21th ACM SIGKDD In-
ternational Conference on Knowledge Discovery and Data
Mining, pages 805–814. ACM, 2015. 2
[45] B. T. Morris and M. M. Trivedi. A survey of vision-based
trajectory learning and analysis for surveillance. Circuits
and Systems for Video Technology, IEEE Transactions on,
18(8):1114–1127, 2008. 2
[46] B.T.MorrisandM.M.Trivedi. Trajectorylearningforactiv-
ity understanding: Unsupervised, multilevel, and long-term
adaptive approach. Pattern Analysis and Machine Intelli-
gence, IEEE Transactions on, 33(11):2287–2301, 2011. 2
[47] J. Y.-H. Ng, M. Hausknecht, S. Vijayanarasimhan,
O. Vinyals, R. Monga, and G. Toderici. Beyond short snip-
pets: Deep networks for video classification. arXiv preprint
arXiv:1503.08909, 2015. 2
[48] H. S. Park and J. Shi. Social saliency prediction. 2
[49] S. Pellegrini, A. Ess, K. Schindler, and L. Van Gool. You’ll
never walk alone: Modeling social behavior for multi-target
tracking. In Computer Vision, 2009 IEEE 12th International
Conference on, pages 261–268. IEEE, 2009. 2, 5, 6, 7, 8
[50] S. Pellegrini, A. Ess, and L. Van Gool. Improving data as-
sociation by joint modeling of pedestrian trajectories and
groupings. InComputerVision–ECCV2010, pages452–465.
Springer, 2010. 1, 2, 3
[51] P. H. Pinheiro and R. Collobert. Recurrent convolu-
tional neural networks for scene parsing. arXiv preprint
arXiv:1306.2795, 2013. 2
[52] H. Pirsiavash, C. Vondrick, and A. Torralba. Inferring the
why in images. arXiv preprint arXiv:1406.5472, 2014. 2
[53] M. Ranzato et al. Video (language) modeling: a baseline for
generative models of natural videos. arXiv:1412.6604, 2014.
2
[54] M. Rodriguez, J. Sivic, I. Laptev, and J.-Y. Audibert. Data-
driven crowd analysis in videos. In Computer Vision (ICCV),
2011 IEEE International Conference on, pages 1235–1242.
IEEE, 2011. 2
[55] M. Ryoo. Human activity prediction: Early recognition of
ongoing activities from streaming videos. In Computer Vi-
sion (ICCV), 2011 IEEE International Conference on, pages
1036–1043. IEEE, 2011. 2
[56] M. Ryoo, T. J. Fuchs, L. Xia, J. Aggarwal, and
L. Matthies. Early recognition of human activities from first-
person videos using onset representations. arXiv preprint
arXiv:1406.5309, 2014. 2
[57] N. Srivastava, E. Mansimov, and R. Salakhutdinov. Un-
supervised learning of video representations using lstms.
arXiv:1502.04681, 2015. 2
[58] A. Surana and K. Srivastava. Bayesian nonparametric in-
verse reinforcement learning for switched markov decision
processes. In Machine Learning and Applications (ICMLA),
2014 13th International Conference on, pages 47–54. IEEE,
2014. 2
[59] M. K. C. Tay and C. Laugier. Modelling smooth paths using
gaussian processes. In Field and Service Robotics, pages
381–390. Springer, 2008. 2
[60] P. Trautman and A. Krause. Unfreezing the robot: Navi-
gation in dense, interacting crowds. In Intelligent Robots
and Systems (IROS), 2010 IEEE/RSJ International Confer-
ence on, pages 797–803. IEEE, 2010. 6
[61] P.Trautman, J.Ma, R.M.Murray, andA.Krause. Robotnav-
igation in dense human crowds: the case for cooperation. In
Robotics and Automation (ICRA), 2013 IEEE International
Conference on, pages 2153–2160. IEEE, 2013. 5
[62] A. Treuille, S. Cooper, and Z. Popovi´ c. Continuum crowds.
In ACM Transactions on Graphics (TOG), volume 25, pages
1160–1168. ACM, 2006. 2
[63] M. W. Turek, A. Hoogs, and R. Collins. Unsupervised learn-
ing of functional categories in video scenes. In ECCV, 2010.
2
[64] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show
and tell: A neural image caption generator. arXiv preprint
arXiv:1411.4555, 2014. 2
[65] F. Visin, K. Kastner, K. Cho, M. Matteucci, A. Courville,
and Y. Bengio. Renet: A recurrent neural network
based alternative to convolutional networks. arXiv preprint
arXiv:1505.00393, 2015. 2
[66] C. Vondrick, H. Pirsiavash, and A. Torralba. Anticipat-
ing the future by watching unlabeled video. arXiv preprint
arXiv:1504.08023, 2015. 2
[67] T.-H.Vu, C.Olsson, I.Laptev, A.Oliva, andJ.Sivic. Predict-
ing actions from static scenes. In Computer Vision–ECCV
2014, pages 421–436. Springer, 2014. 2
[68] J. Walker, A. Gupta, and M. Hebert. Patch to the future:
Unsupervised visual prediction. In CVPR, 2014. 2
[69] J. M. Wang, D. J. Fleet, and A. Hertzmann. Gaussian pro-
cess dynamical models for human motion. Pattern Analysis
andMachineIntelligence, IEEETransactionson, 30(2):283–
298, 2008. 2
[70] T. Xiao, Y. Xu, K. Yang, J. Zhang, Y. Peng, and Z. Zhang.
The application of two-level attention models in deep convo-
lutional neural network for fine-grained image classification.
arXiv preprint arXiv:1411.6447, 2014. 2
[71] D. Xie, S. Todorovic, and S.-C. Zhu. Inferring” dark matter”
and” dark energy” from videos. In Computer Vision (ICCV),
2013 IEEE International Conference on, pages 2224–2231.
IEEE, 2013. 2
[72] K. Xu, J. Ba, R. Kiros, A. Courville, R. Salakhutdinov,
R. Zemel, and Y. Bengio. Show, attend and tell: Neural im-
age caption generation with visual attention. arXiv preprint
arXiv:1502.03044, 2015. 2
[73] K. Yamaguchi, A. C. Berg, L. E. Ortiz, and T. L. Berg. Who
are you with and where are you going? In Computer Vision
and Pattern Recognition (CVPR), 2011 IEEE Conference on,
pages 1345–1352. IEEE, 2011. 2, 3, 5, 6, 7, 8
[74] S. Yi, H. Li, and X. Wang. Understanding pedestrian be-
haviors from stationary crowd groups. In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recogni-
tion, pages 3488–3496, 2015. 2
[75] D. Yoo, S. Park, J.-Y. Lee, A. Paek, and I. S. Kweon. At-
tentionnet: Aggregating weak directions for accurate object
detection. arXiv preprint arXiv:1506.07704, 2015. 2
[76] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet,
Z. Su, D. Du, C. Huang, and P. Torr. Conditional ran-
dom fields as recurrent neural networks. arXiv preprint
arXiv:1502.03240, 2015. 2
[77] B. Zhou, X. Wang, and X. Tang. Random field topic model
for semantic region analysis in crowded scenes from track-
lets. In Computer Vision and Pattern Recognition (CVPR),
2011 IEEE Conference on, pages 3441–3448. IEEE, 2011. 2
[78] B. D. Ziebart, N. Ratliff, G. Gallagher, C. Mertz, K. Pe-
terson, J. A. Bagnell, M. Hebert, A. K. Dey, and S. Srini-
vasa. Planning-based prediction for pedestrians. In Intelli-
gent Robots and Systems, 2009. IROS 2009. IEEE/RSJ In-
ternational Conference on, pages 3931–3936. IEEE, 2009.
2