论文解读笔记:基于深度学习的行为分析综述

大行为:深度行为分析新时代的挑战和机遇

  摘要

  对啮齿动物行为的评估构成了神经科学研究中临床前评估的基石。然而,直到最近,行为分析的真正和几乎无限的潜力才被科学家们所接触到。现在,在机器视觉和深度学习的时代,有可能提取和量化几乎无限数量的行为变量,将行为分解为子类别,甚至分解为小的行为单位、音节或图案。然而,快速发展的行为神经生态学领域正经历着分娩的痛苦。该社区尚未整合其方法,新的算法在实验室之间的转移很差。基准实验以及所需的大型、注释良好的行为数据集都没有。同时,大数据问题已经开始出现,我们目前缺乏共享大型数据集的平台–类似于基因组学的测序库。此外,一般的行为研究实验室无法获得最新的提取和分析行为的工具,因为它们的实施需要先进的计算技能。即便如此,这个领域还是充满了兴奋和无限的机会。这篇综述旨在强调行为分析领域的最新发展潜力,同时试图引导人们对行为分析领域的共识。

简介

  衡量行为–过去

  首先是计算机化,然后是商业平台介入了某些测量的自动化,主要是通过提供动物运动路径或鼻尖的精确跟踪,或通过计算机械事件(断梁、压杆等)。早期活动能力的测量依赖于手工计算进入网格地板分区的数量。虽然自动化可以说伤害了行为的伦理学方面,但现在看来,机器视觉和深度学习工具的出现可能会使天平倾向于伦理学。

  测量行为–未来

  基于深度学习/神经网络的软件包(DeepLabCut)可以对多个手工挑选的身体点进行无标记追踪,性能惊人[19-24]。
从数据的角度来看,鼠标不再仅仅是一个身体中心和鼻子,而是变成了一个复杂的、由运动矢量组成的三维骨架。
这项技术现在已经和有监督的机器学习工具融合在一起,能够轻松地对复杂的、与伦理学相关的行为序列进行检测和量化,并且具有类似人类的准确性[25-29]。
并总结了最近利用无监督和有监督的计算方法来绘制动物行为空间的尝试所取得的进展[37, 38]。
这里提出的发现、局限性和可能的解决方案将对更加雄心勃勃的努力产生重要影响,例如解构社会互动或分析捕食者-猎物动态。

  从人类注释到机器学习

  有监督的机器学习

监督下的机器学习需要两个初步步骤。
  第一步,视频或图像数据被用来生成一些特征,作为分类器的输入(图1(a))最常见的是,来自商业软件包的动物追踪数据被用来计算特征,如 “动物长度”、“动物方向”、"动物速度 "或 “与喂食者的距离”。这些特征通常是手工定义的,用手工制作的算法来计算,通常是基于鼻子和尾巴底部的点跟踪数据。在这种情况下,"动物长度 "由鼻子和尾巴底部之间的距离定义,"动物方向 "由相应矢量的相对角度定义,"动物速度 "由身体中心在连续帧中的位置变化定义,而 "到喂食者的距离 "由鼻子点和喂食者之间的距离定义。
  第二步,视频或图像数据由人类评判员进行人工注释,为个体行为分配标签(分类)。视频或图像数据由人类评判员进行人工注释,为个体行为分配标签(分类)。
  要确定一个分类器是否只 "记住 "了初始数据(过拟合),有多种方法可以提高泛化能力,最常用的是正则化(惩罚模型使用更强的参数权重)和放弃(迭代训练分类器,同时在每个步骤中省略随机参数)。
  最后,混淆矩阵经常被用来可视化所有分析行为的配对误差[46]。混淆矩阵不仅包含每个行为的准确性,而且还显示哪些行为在评分者之间经常被误认为是彼此的行为。
论文解读笔记:基于深度学习的行为分析综述_第1张图片

行为研究中使用的机器学习方法家族。 a 监督式机器学习方法首先用于训练人工定义的行为的分类器,然后根据新视频中的特征数据识别这些行为。b 无监督的机器学习方法被用来在没有人类互动的情况下直接从视频数据中找到类似行为音节的集群。c 姿势估计算法追踪视频中的动物身体点。

  2010年的一项研究使用了小鼠在其家庭笼子里的侧视视频记录[27],并计算了位置特征(即到喂食器的距离)、基于速度的特征(即身体中心的速度),以及包含时间信息的基于运动的特征(即可以识别运动方向的过滤器)。他们使用由10.6小时的注释记录组成的广泛训练集,训练他们的分类器来识别八种不同的行为。对于分类,他们使用了一个基于支持向量机(SVM)的模型,该模型在任何时候都会返回最可能的行为,并结合隐马尔可夫模型(HMM),它将行为之间的过渡概率考虑在内。
  然而,这种类型的自动识别有一些明显的限制。首先,一些特征依赖于位置数据(即与喂食器的距离),这高度依赖于设置。环境配置的任何变化都会使这些模型无法使用。此外,这些视频都是从侧面录制的,因此将其应用于具有不同角度视频的测试装置将需要收集和标记大量的新数据集。在过去的十年里,出现了许多其他值得注意的研究,使用不同类型的特征和机器学习方法(见下表的概述)
论文解读笔记:基于深度学习的行为分析综述_第2张图片
  所报道的研究(表1)表明,少数几个特征可以包含足够的信息来可靠地检测一些行为,当包括更多的特征时,性能可能会有边际的提高。然而,还需要注意的是,包含许多手动定义的特征需要大量的开发时间,并且增加了包含不具信息性/相关的特征的机会,这些特征可能对模型的准确性产生负面影响,这意味着大未必是好事[49]。
  追踪多种动物。在同时记录多只动物的情况下(如社会互动),预分割能够将两只动物分开。预分割使用图像处理实践中的既定算法,如分水岭算法,可以检测物体/动物之间的边界[50]。然而,一些富有想象力的方法已经证明了可靠的无标记动物识别,可用于追踪长相相似的动物群体,如斑马鱼,在动物重叠经常发生的环境下[51]。
  值得注意的是,这一领域的进展正在迅速发生。就在我们写这篇评论的时候,流行的免费姿势估计软件DeepLabCut[19, 20]的新版本刚刚发布,能够在简单和复杂的舞台上跟踪多种动物(包括蚂蚁、啮齿动物和灵长类动物),显然具有令人惊讶的可靠性。鉴于该软件包的广泛使用,这样的进步将产生重大影响,多动物追踪很可能很快成为该领域的新标准。
  新的机器学习方法
  近年来,研究人员开始采用视频识别软件的新兴技术,采用三维卷积神经网络(3D-CNN),在端到端的基础上对时间-空间信息进行完全的预过滤和编码,不需要使用自定义算法或过滤器来定义特征,这些网络直接依赖于视频信息。在一份报告中[52],与使用相同数据的原始研究相比,该算法的表现略差,后者使用了人工选择的特征[27]。另一项研究[53]的表现优于使用相同数据的旧研究[40]。人们还开发了监督机器学习方法。以根据超声波发声模式自动识别小鼠的社会互动[55],并从小鼠的面部特征识别情绪状态[56]。
  进入壁垒
  姿势估计算法的最新进展(图1c)导致了优雅的、易于使用的软件包的发展,如DeepLabCut[19,20]。这些工具使实验室能够设计出他们自己的点跟踪数据,这可以作为高质量的输入基础,人们可以在此基础上定义特征并训练机器学习算法。诸如www.openbehavior.com这样的开源平台是这些快速进步的重要推动力[58]。

  无监督学习

  在行为研究中使用监督机器学习解决方案的关键弱点之一是人为因素。近年来,数据驱动的无监督机器学习方法(不需要人类标记的例子)的进步改变了这一领域,现在已经成为行为学创新的前沿[30, 59, 60]。它们的固有优势在于,它们从数据的角度来处理问题。它们不是通过在跟踪行为之前定义行为,而是观察整个数据集并寻找过度代表的模式。关于在不同物种中解决这一问题的各种计算方法的出色描述,我们请读者参阅[38]。在这里,我们重点讨论啮齿类动物的文献,其中最突出的研究是利用三维摄像机与自回归隐马尔科夫模型(AR-HMM)相结合,找到短行为序列的亚秒级集群,通常被称为音节或主题,作为大多数行为的最小构建块[30]。其他涉及姿势估计数据的无监督分析的研究[59]发现了长达2s的长音节。他们进一步证明,姿势估计数据与t分布的随机邻接嵌入(tSNE)和高斯混合模型(GMM)聚类相结合,足以解决行为音节。本研究的一个关键因素是降维,这也被纳入了几个早期的研究中[31-33, 61]。

大数据、大问题、小解决方案

  许多不同的监督行为识别方法已经被设计出来,以准确检测复杂的啮齿动物行为。带有预定义特征的方法目前已相当成熟,而监督学习和无监督方法的端到端方法非常有前途,但仍处于起步阶段。目前的一些主要瓶颈是:(a)缺乏足够多的公开可用的、注释良好的行为数据集来衡量和比较不同的算法,(b)在该领域缺乏关于设置、相机定位和行为识别的最佳特征的共识,以及(c)缺乏分类器和数据的可转移性。在此,我们将讨论这些问题并提出解决方案。
  人是有极限的
  由于所有有监督的机器学习分类器都是在人类评判员注释的数据上训练的,这些分类器只能和人类的同类产品一样好。人类在跟踪动物行为方面远非完美,诸如高度的测评者之间和测评者之间的变异性、观察者偏见和观察者漂移等问题是众所周知的[20, 42, 62-65]。
  一旦无监督的方法报告了一个被实验操作改变的行为类别列表,它又需要人类的直觉来得出有意义的行为解释。因此,人类实验者必须直观地检查被改变的类别的例子,并将它们与已知的行为读数联系起来。对于不能与任何已知读数相联系的短的行为音节来说,这可能是特别棘手的。在这种情况下,我们该如何处理无法与文献中的任何先前观察结果相联系的改变的音节?我们如何确保它们是重要的读数,而不是由于更简单的解释而导致的简单的相关观察,如运动/活动减少,这可以用简单的质心跟踪来记录?这与时间分割的问题有关,很难决定在哪一点上应该将音节区分为独立的实体,或者是否应该将多个音节聚为一个行为。此外,类似的行为应该被归类还是分开(例如,低位与高位后退)?如果这两个表示相同的表型,对它们进行独立分析不仅会增加变异性,而且会增加测试的行为变量的数量(从而损害统计能力,见 "多重测试问题 "部分)。尽管有这些理论上的困难,使用无监督方法解构开放性野外行为的首次尝试表明,出现了众所周知的行为类别,如饲养和梳理,而且可以检测到梳理中更细微的差别(脸部梳理、头部梳理、身体舔、爪子舔),其中一些携带生物相关信息,对脑回路干预有选择性反应[30, 34, 59]
  多重测试问题
  有监督的方法可以在给定的测试中跟踪大量复杂的行为,无监督的方法可以识别许多新的意外行为类别(如梳理的几个子类别或行为之间的过渡模式)。随着因变量数量的增加,多重测试的考虑变得极为重要,以防止高度的假阳性(I型错误),然而这些考虑往往被忽视[66-68]。如果我们在开放场地测试中评估五个独立的行为,并在两组小鼠之间发现一个显著的差异(P = 0.05),那么这就是一个错误的发现的机会不再是5%,而是~23%(1-0.955)。必须应用数学工具来校正多重检验,这可能是相当严格的,如Bonferroni调整,从而大大降低了检验的力量。每组必须使用更多的动物来揭示统计学上的显著差异,这违反了尽可能减少动物数量的准则[69, 70]。错误发现率(FDR)校正[71]通过分析多个观测值的P值分布,在减少I型和II型错误方面要好得多,然而这种类型的分析是假设所有测试都是独立的。对于许多行为读数来说,情况显然不是这样的,因为许多行为有很强的相关性(如距离和速度)。适当的多重测试校正,如精炼的Benjamini-Yekutieli程序,假定被测变量可以相互关联[72]。然而,即使是正确的统计方法也不能解决关键问题:我们分析的因变量越多,我们需要更多的力量来检测差异。这就说明,在使用监督模型时,要事先仔细决定分析哪些行为,或者在采用无监督方法时,要限制检测到的聚类数量。

  数据和模型的可转移性
  尽管人们对端到端系统寄予厚望,但最近的研究表明,它们的可转移性似乎更低[53]。这种端到端方法的一个问题可能是 "数据空间 "比只考虑几个选定的特征时要大得多(见 "数据和模型可转移性 "一节)。当呈现的数据看起来与以前遇到的数据不同时(如不同的光照、不同的镜头效果、不同外观的啮齿动物品系),分类器在归纳时有困难。
  可转移性似乎也是无监督方法的一个主要问题。一项直接建立像素数据模型的开创性研究发现,他们的方法在很大程度上取决于老鼠的大小和形状[30]。观察到的音节的数量和类型取决于这些和其他可变条件。在一个环境中观察到的音节与在第二个环境中观察到的相同音节有何不同,目前尚不清楚。我们如何确保每次都能通过算法找到类似音节之间的相同 “分界点”?此外,如果来自不同设置的多个实验数据被包括在无监督分析中,我们如何防止算法将两个设置中的相同行为视为独立的音节(例如 "疏导实验1 "和 “疏导实验2”)?即使使用更多来自同一设置的数据,无监督方法也必然会增加发现的音节数量[30]。

  解决可转移性问题的一个办法
  强大的新姿势估计工具现在能够以非常高的精度对多个身体点进行必要的三维点跟踪[19-23, 73]。它们很容易实现和调整,创建一个新的模型来追踪新环境中自由移动的鼠标上的多个点大约需要12个小时[26]。我们建议从原始视频数据中生成一个可转移的动物骨架表示,这种方法的主要优点是,产生的三维骨架表示完全独立于动物的位置和方向,也独立于环境因素,如光照和背景。骨架包含由点对构成的向量。这些向量可以用来生成一些特征,并将其输入到有监督的机器学习算法中[26],或者这些特征可以直接形成无监督聚类的输入,正如最近所证明的那样[59]。绝对距离将是第一类特征,向量-向量对之间的角度和与Z平面(=地面)的角度可以作为第二和第三类特征。其优点是,角度在本质上是无标度的,而距离则可以为数据增殖而线性缩放或有效地归一化(见方框2)。这可能是对自由行为的动物最可转移的描述,应该能够用在完全不同的数据集上训练的分类器进行分析。此外,与竞技场数据(如多边形、兴趣点等)相结合,这些点跟踪数据保留了动物行为的任何重要信息,这些信息取决于具体的设置。
  尽管三维骨骼表示法很吸引人,但它也有几个需要解决的注意事项。首先,数据必须以不失真的格式呈现(方框1),并且必须充分地标准化(方框2)。此外,跟踪中包含的点必须是合理的,并尽可能多地保留信息。例如,跟踪鼻子、头中心、头基、身体中心和尾基可以对脊柱进行相当精确的硅建模。这可以通过脊柱矢量之间的角度拾取行为音节,如头部方向或身体曲度,并通过脊柱点之间的距离拾取伸展/驼背。如果我们从二维跟踪到三维跟踪,进一步的音节,如饲养,可以通过观察脊柱向量和Z平面之间的角度相当准确地确定。然而,完美的跟踪身体点集(如果对啮齿动物存在这样的普遍描述)需要进一步调查。由于从点数据产生的特征不一定要包括所有的点(图2d,e),追踪超过要求的点对机器学习并无害处,但需要更多的人为标记[26]。

方框1:处理镜头失真问题
  来自点跟踪算法的坐标取决于视频图像中的x-和y-像素。许多镜头都有失真,有时明显可见,有时不太明显,但仍然存在。畸变是有问题的,因为它们改变了矢量的长度和方向,特别是在外围(见图2b),因此稍微改变了姿势描述。从数据的角度来看,同样的行为在外围看起来与在场地中心不同。扭曲的视频仍可用于训练分类器,但需要更多的训练数据来达到高精确度。长焦镜头解决了这个问题,因为它们的镜头失真几乎可以忽略不计。然而,它们必须放在更远的地方,使设置更加麻烦。广角镜头可以放得更近,但会有很强的失真。对于广角镜头来说,软件解决方案可以在视频被用作点跟踪的输入之前对其进行消除扭曲(图2b)。另外,也可以直接从数据中去除失真。这需要用相同的装置对一个或多个校准帧进行成像。复杂的点跟踪方法,如deeplabcut,幸运的是包含了消除扭曲的解决方案[19]

方框2:从点数据生成的特征的规范化和标准化
  为了确保模型的可转移性,用于训练分类器的特征必须与设置无关。如果 "身体长度 "这一特征是根据点跟踪数据(如从鼻子到尾巴的距离)计算出来的,那么得出的长度将取决于相机相对于动物的位置。这个特征不能轻易转移,需要进行规范化或标准化处理。相比之下,诸如角度(以弧度为单位)或真/假检查等特征是完全可以转移的。有两种常用的机器学习方法:最小-最大归一化和Z-分数标准化。最小-最大规范化对数据进行线性转换,使其落入[0,1]范围,将最大值设为1,最小值设为0。对于跨数据集的比较,这可能是危险的,因为异常值将定义范围,并对特定特征的数据平均值产生强烈影响。Z-score标准化是基于正态分布重新划分的,其中0被设置为给定特征的平均值,一个标准差被重新划分为±1.标准化数据有两个优点。首先,它在不同的设置之间更具有可比性,因为它将纠正任何设置的特定比例变化(即缩放系数或鼠标大小系数)。其次,它优化了大多数使用梯度下降等迭代过程的分类器类型的训练速度,因为升级函数可以对所有特征使用相同的学习速率。

方框3:机器学习方法对量化行为的实际好处
  虽然目前实验室之间算法的可转移性仍然是一个问题(见 "数据和模型的可转移性 "一节),但肯定很快就可以在实验室之间转移经过充分训练的(最好是社区策划的)分类器。突出的例子包括成功量化(1)无支撑与有支撑的后退[26]和(2)小鼠开放场地测试中的梳理活动[42],3)两只啮齿动物之间复杂的社会互动[29],以及(4)多种苍蝇行为,成功地将它们与成千上万的遗传目标神经元群的激活联系起来[57]。关于大数据在弥合受限和非受限行为测试之间的差距方面的详细讨论,我们请读者参阅Gomez-Marin等人的一篇出色的观点文章[35]。

论文解读笔记:基于深度学习的行为分析综述_第3张图片
  图2 高保真、可转移行为记录的拟议工作流程 a 选择一个高保真的点集,以最少的存储空间保留大部分动物信息。 b 用同步摄像机从多个角度记录行为测试。姿势估计算法,如DeepLabCut,用于跟踪定义的点。c 追踪的点数据被用来创建一个行为追踪数据对象,该对象包含关于行为测试的所有基本信息,可用于任何事后分析。d 行为跟踪数据对象可用于创建一个特征数据对象,该对象包含所有对识别选定行为很重要的特征。e 特征对象与现有的分类器结合使用,以自动跟踪行为,或者与人工注释的训练数据结合训练一个新的分类器。 f 示例数据将建议的工作流程与商业解决方案(Ethovision XT 14, TSE Systems)和人类进行比较。当使用从二维(俯视)点跟踪数据产生的特征时,支持的饲养行为被识别为人类的准确度(改编自参考文献。[g 同一研究中三个人类评分员、机器学习分类器和商业系统之间的相关性。

  一个合理的优化点的方法是,从广泛选择身体的点开始,然后陆续放弃一些点,并评估所产生的分类器的准确性。一个总体的分析可以揭示出哪些点对最大的行为群体是最重要的。自动选择特征的类型(Guyon 2003)可以在整个点集上使用,并放弃与大多数冗余/无信息的特征相关的点。为了便于转移,点数据应该与点集的代表性和明确的描述以及用于设置它们的标准一起存储和共享。在这里,我们提出了一个包含鼻子、头顶、头基、身体中心和尾基(脊柱点),以及耳朵、臀部、肩膀和爪子的点集(见图2a)。这些结合起来,应该能够描述最重要的运动轴,并被证明能够有效地识别和分离有支撑的和无支撑的后退,这是在开放场地测试中两种非常相似的行为[26]。在最近一次将点跟踪与无监督行为识别结合起来的努力中,只有六个身体点足以区分不同形式的梳理活动(这对人类来说是难以评分的)[59]
  数据存储、内存和计算要求
  数据存储。尽管存储介质的成本呈指数级下降,但长期存储原始视频数据仍然是一个具有挑战性的问题。如果要保留原始视频数据,基于磁带的存储是最经济的解决方案,使其他研究人员无法获得原始视频记录。转向高分辨率、高帧率和多角度的记录进一步增加了内存需求。使用三个摄像机角度进行一整天(24小时)的3D记录将需要近45GB的数据存储(全高清,mp4压缩)。存储这些数量的数据在今天是没有问题的,但如果每天或每周都收集这样的数据流,存储将成为大多数实验室的挑战(发表的数据需要归档多年)。我们提出的使用点数据进行跟踪、训练和分配的方法(见 "可转移性问题的一个解决方案 "一节),解决了这个问题。数据大小随着跟踪点的数量线性增长,并保持在一个可管理的量级。一天的连续三维跟踪将达到每个跟踪点35MB(假设25 fps,每个点有4个值:X、Y、Z和可能性,都是单精度)。因此,20个点将导致每天连续记录的3D数据描述达到700MB。增加更多的点是很便宜的,可以实现相当复杂的动物三维时间分辨重建。
  工作内存。端到端系统已被证明在数据增强的情况下效果最好[53]。
从多个角度上传视频,实现运动的三维重建
  视频会有不同的分辨率、帧率、角度、亮度等,这使得它们依赖于数据,因此很难用一般的数据处理管道进行分析。此外,单个视频的信息量不大,因为它们受视角的影响而有偏差。从多个角度上传视频,实现运动的三维重建,可以解决这个问题,但仍然无法使其他人将这些数据输入标准化的管道。一个基于点跟踪数据的解决方案是分享经过处理的高质量参考点集的三维姿态估计。这些数据将包含单个动物的时间分辨姿态数据,并能进行快速有效的元分析,其优点是数据压缩和简化,但代价是不完全独立于数据。这种规定性的数据格式也将解决缺乏大型的、有良好注释的和标准化的行为数据集的问题,因为它将使研究人员能够合作产生良好的数据集,其中包含来自许多不同设置、小鼠品系和小鼠模型的注释实例。

 未来方向和临床应用

  行为评估是临床前研究的基石之一,因为动物行为的变化是新化合物进入临床试验前的主要读数。因此,我们在实验室啮齿动物和其他物种中可靠地检测和量化行为图的能力的进步将最终影响人类健康。行为研究领域目前正经历着新技术的快速创新和实施。这些进展具有令人难以置信的潜力,不仅可以实现大规模和完全自动化的分析,而且还可以提高数据的质量和从单一行为实验中提取信息的深度(见方框3)。尽管如此,该领域仍面临重大挑战。首先,大量的新型变量使得解释实验结果更加困难,需要更复杂的统计工具进行分析。第二,这些新方法产生了大量的复杂数据,分析这些数据需要高性能的计算资源和计算机科学和深度学习架构的高级知识。第三,随着这些方法开始由不同的团体实施,许多新的问题出现了:分享原始行为数据的资料库以及必要的联盟和指南都不存在,缺乏标准化导致可转移性问题(不同的实验室、测试或设置之间),缺乏基准数据集使得质量评估变得困难。最后,虽然有几个研究小组在技术上突破了界限,但对于大多数研究实验室来说,部署这些工具的入门门槛仍然太高,这就产生了两个平行的行为分析世界。展望未来,行为科学家将不得不适应新的技能来实施新的技术,我们迫切需要组成联盟,及时建立标准和指导方针,以实现数据共享和促进可重复性。作为一个团体,我们需要向基因组学等领域学习,以释放行为组学的全部潜力。

你可能感兴趣的:(论文笔记,深度学习,机器学习)