论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛

Instance Segmentation with Mask R-CNN Applied to Loose-Housed Dairy Cows in a Multi-Camera Setting

简介

Simple Summary

由于牛的群居性是一种良好的畜牧业,本研究为基于摄像机的奶牛群活动自动分析系统提供了技术基础。8个监控摄像头记录了36头正在哺乳的黑白花奶牛训练Mask R-CNN模型,确定视频材料中奶牛的像素级分割掩码。对于给定的IOU阈值为0.5的边界盒(0.91)和分割掩码(0.85),动物被成功分割,达到较高的“平均精度分数”
由于为深度学习模型提供训练数据既耗时又乏味,本文还处理了“我需要注释多少张图片?”,并根据所使用的训练数据集的大小分析模型的性能。

Abstract

随着畜群规模的增加,对自动化系统的需求也在增加,以支持农民监测牲畜的健康和福利状况。牛是一种高度群居的物种,群结构对动物福利有着重要的影响。由于动物的行为和它们的社会互动可能会受到人类观察者的影响,一种基于摄像头的自动检测动物的系统将有助于分析奶牛群的活动。在目前的研究中,在德国北部富特坎普的农业商会,8个监控摄像头安装在一组36头正在哺乳的黑白花荷斯坦奶牛的谷仓区域上方。使用Mask R-CNN,训练卷积神经网络的最先进模型,以确定视频材料中奶牛的像素级分割掩码。该模型以上下文数据集中的Microsoft公共对象为对象进行预训练,并以标注的图像材料作为训练数据集进行迁移学习。此外,还分析了迁移学习后训练数据集的大小与模型性能之间的关系。训练后的模型对奶牛的包围盒和分割掩码检测的平均精度(交集over union, IOU = 0.5)分别达到91%和85%,为奶牛群活动的自动化分析和散居资源利用奠定了坚实的技术基础。

论文创新点

  • 对36头奶牛进行了采集数据集。
  • 使用了Mask R-CNN进行了训练

论文投稿期刊

出版社:mdpi
投稿期刊:animals
出版时间:对稿件进行同行评审,并在投稿后约19.7天向作者提供第一份决定;接受发表在2.5天内进行(2022年上半年在该期刊上发表的论文的中位数)。
等级:JCR-Q1,中科院二区
论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛_第1张图片

正文

introduction

通过精确畜牧业(PLF)领域,传感器和摄像机的使用以及机器学习和图像处理技术已经进入农业科学。随着世界人口的快速增长,PLF正在解决这个问题,以提供可持续的粮食生产[1]。随着畜群规模的不断扩大,农民受益于支持他们监测动物健康或福利状况的技术解决方案[2,3]。相机是一个从动物身上收集数据的非侵入性方法,在过去的几年里,PLF进行了许多基于摄像机的研究。因此,各种类型的相机的应用范围很广。2D摄像机[4,5]和3D深度摄像机[6-9]开始用于跛行检测。[10]利用热感摄像机成功地解决了人体状态确定的问题,而[11]以及尤其是3D摄像机项目也成功地解决了这一问题[12-15]。最近基于摄像机的研究主题是群体活动的监测[16],构象记录[17],动物识别[18],动物行为[19,20]和动物对谷仓空间的使用[21]

在本文中,用8个监控摄像头记录了一群在松散的畜棚中哺乳的奶牛。为了监测羊群的行为,设计的环境使动物不能离开监测区域。由于牛天生群居,对陪伴有强烈的需求,所以奶牛通常是群居的。牛会形成小团体,喜欢一起行动,因此,当动物有机会表达他们的自然行为模式时,松散的住所群可以减少压力。参考文献[22]表明半野生牛的群体社会结构以母系氏族家庭为基础,而群体行为和社会结构受群体个体的影响[23,24]。参考文献[25]指出,畜群中的动物数量并不是衡量农场动物福利水平的可靠指标,但住房和管理对福利状况的影响大于畜群规模。此外,人们还知道,社会行为和群体活动的表达会影响奶牛的健康[26]和生产力[27]。因此,深入了解奶牛的群体活动关系到动物的福利和良好的饲养,对这一课题的研究也越来越多。Šárová等人通过视觉观察[28]分析了群体活动的同步性,Nelson等人将视觉观察与定位传感器[29]结合起来进行活动监测和发情检测。通常,来自全球定位系统(GPS)、室内定位系统(例如Ubisense)或邻近记录器的数据被用于研究群体活动。Davis等人使用GPS传感器分析出行距离[30]。在[31]中,使用Ubisense室内定位系统处理行走行为,Boyland等人使用接近记录器分析社交网络和群体结构[32]。然而,无线传感器在动物相关研究中的应用存在一些不足。首先,不能完全排除动物受到附加传感器的干扰。此外,无线传感器容易被动物破坏,也容易受到湿度或金属的干扰,如[33]所示。此外,在[30]中,我们证明了数据采样频率和电池寿命之间的必要权衡会显著影响研究结果。因此,相机数据的一个缺点是,需要使用复杂的图像处理技术和机器学习来从图像或视频材料中计算出与动物有关的信息,以实现自动化。

人工神经网络[34]起源于对人类神经系统[35]的神经活动进行建模的尝试。与人类大脑相似,人工神经网络能够通过重复处理数字数据来学习底层模式。除了全连接神经网络,Ref.[36]还引入了第一个卷积神经网络(convolutional neural network, CNN),将部分全连接层替换为卷积层。这意味着层的输入与一个滑动点积[37]卷积。由于计算成本较高,CNN应用的突破是在GPU (graphic processing unit,图形处理单元)上实现的,可以加快训练速度[38,39]。CNNs也被用于农业科学,例如Ref.[40]比较了几种基于转向运动数据训练的神经网络模型,以区分像喂食、撒谎、反刍、舔盐、移动、社交舔和头部撞击等行为。然而,大多数cnn被用于图像处理。在[41]中,cnn在深度图像上训练以估计身体状况。

本文采用cnn对视频材料中的奶牛进行检测。将物体识别应用于自由移动的动物是一个具有挑战性的话题,因为动物的设置和方向只能在一定程度上被控制,设置往往会受到不同的光照条件的影响而家畜相对来说比较大,这就导致了一个相机的视野通常不足以捕捉到一群动物的问题。[42]已经接近了动物识别,他成功地用多个延时相机拍摄的图像训练cnn,以指定有边界的牧场上山羊的位置。用于检测可以自由移动的奶牛的多摄像头系统已经在[43,44]中提出。[43]使用Viola-Jones算法对15头在其独立谷仓中的奶牛进行测试,[44]中,cnn接受训练,以检测自动挤奶系统等待中的奶牛。cnn的训练需要大量高质量的训练数据[45],而这些训练数据的生成往往非常耗时。计算机视觉挑战提供了几种公开可用的数据集,如PASCAL VOC (PASCAL Visual Object Classes[46])、ILSVRC (ImageNet Large Scale Visual Recognition Challenge[47])和MS COCO (Microsoft Common Objects in Context[48]),可用于CNN模型的训练。这些数据集包含了大量标有标签或注释的图像,其中包含了“人”、“房子”、“汽车”等多种日常生活对象。此外,具有出色性能的模型(部分是上述挑战的获胜模型)——涉及到对SSD和YOLO9000等几类对象的检测[49,50]。

本文利用MS COCO数据集[52]进行预训练的Mask R-CNN模型(Mask -CNN region-based CNN[51])来确定视频材料中的奶牛Faster R-CNN (Faster region-based CNN[53])的特性不仅可以为感兴趣的对象提供包围盒,还可以提供像素级分割掩码。这就是所谓的实例分割,它不仅需要对所有对象进行正确的检测,还需要对每个实例进行精确的分割。[54]在最近发表的一篇文章中证实了Mask R-CNN在放牧牲畜计数方面比其他先进模型的优越性。与本文的方法不同,Ref.[54]使用无人机的视频材料在户外环境中检测牛。即使自动化系统的开发可以基于预先训练的模型,特别是农业科学应用的室内记录设置往往是罕见的,与模型所基于的数据集相比。因此,从各自的设置中生成训练数据集对迁移学习是有益的。

这篇文章的目的是提供一个工作的实例分割为一个完整的监测一组奶牛在一个室内松散的住房设置。对于许多关于群体活动自动化分析的应用,视频材料中动物的跟踪是必不可少的,而本文提出的奶牛个体实例检测奠定了重要的技术基础。然而,实例分割本身已经可以用于有价值的分析,正如本文中基于Mask R-CNN实例分割的空间使用可视化示例所示。[55]中引入的目标检测评估指标平均精度和平均召回率用于评估我们训练后的Mask R-CNN模型的性能,并强调与预训练版本相比的进步。此外,它的目标是给出一个问题的答案,因为很多图像的注释是耗时和繁琐的,需要从分析的设置中得到多少图像来进行迁移学习。因此,本研究还评估了自注释图像的数量如何反映迁移学习后模型的性能。

数据

设备

使用了8台由瑞典AXIS Communications公司生产的带有1/300级渐进式扫描RGB CMOS图像传感器的AXIS M3046-V互联网协议(IP)圆顶相机。mp4格式的视频文件以分辨率为1920 × 1080像素,2帧s−1交付,AXIS特定压缩参数设置为0[56]。2.4毫米焦距透镜提供128◦水平视野(FOV)和72◦垂直视野。这些摄像头被分配了固定的IP地址和密码,用于保护动物2020,10,2402,19个数据中的4个,个人隐私以及参与农场的内部流程,并由PoE供电。用Python语言[57]实现的录音软件,使用AXIS提供的用于软件集成的开放应用程序编程接口(V APIX R?[58])。对于这个应用程序,打开的V APIX R?版本3视频流API (www.axis.com)使用[58]

在华硕CSM公司稳定Prime B360-Plus主板上使用Intel i5-8600六核CPU,时钟为3.1 GHz,内存为16gb(三星DDR4-2400),用于相机操作、记录和数据处理。这台机器后来配备了图形处理单元(华硕8GB D6 RTX 2080 Turbo Evo),并用于训练卷积神经网络(章节2.3)

实验

论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛_第2张图片
论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛_第3张图片
论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛_第4张图片

论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛_第5张图片

论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛_第6张图片
论文阅读笔记(四)——实例分割与掩模R-CNN应用于多摄像机设置中松散的奶牛_第7张图片

你可能感兴趣的:(笔记,cnn,深度学习,神经网络)