PhenoBench —A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Dom

PhenoBench -农业领域语义图像解释的大型数据集和基准
数据集介绍:PhenoBench,提供了密集的语义植物级实例注释(由不同的颜色显示)的甜菜作物和杂草(绿色和红色的语义)和叶级实例注释的作物(不同的颜色对应于不同的实例)与无人机记录的高分辨率图像。
虽然其他领域的大型数据集和基准很容易获得,并且已经在更可靠的视觉系统方面取得了重大进展,但农业数据集和基准比较罕见。
在本文中,我们提出了一个大的数据集和基准的语义解释图像的真实的农业领域。我们的数据集记录与无人驾驶飞行器提供高质量,密集的注释作物和杂草,但也细粒度的注释作物叶片在同一时间,这使得新的算法的发展视觉感知在农业领域。
这些任务包括作物和杂草的语义分割、植物的全景分割、叶子实例分割、植物和叶子的检测,以及用于联合识别植物和叶子的分层全景分割的新任务。
分层全景分割任务:其目标是分割单独的叶子,并将它们分配给相关的植物实例,以预测每个植物的叶子总数。

任务1:语义分割

我们提供带注释的真实标记的图像数据,将每个像素分配给类土壤、作物或杂草
在农业领域,大多数方法[62,63,67]遵循发展趋势,采用管道来考虑行结构[62],或者利用额外的背景知识来处理较少标注的数据[67]

  • 基线
    我们选择了已建立的通用方法,如DeepLabV3+[11]和ERFNet[85]在不同的模型容量末端。
    PhenoBench —A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Dom_第1张图片
    我们展示了所选基线的定量结果。所研究的现成语义分割方法在mIoU方面已经显示出了良好的整体性能。然而,我们观察到杂草的IoU相对较低,这些IoU经常被错误地分配到作物的像素上。在模型容量方面,不同的研究方法表现非常相似,表明模型的容量不能解决上述问题。ERFNet (2.1 M params)的性能与DeepLabV3+ (39.8 M params)模型相当,后者通常在自动驾驶环境下表现更好。

任务二:全景分割

全光分割[44]解决了联合估计像素级语义标签和区分实例的任务
这个任务区分所谓的“东西”和“东西”类。前者对应于无实例的类,即soil,后者指的是具有明显可分离对象的类,即crop和weed。因此,实现此任务的方法需要生成语义掩码,将每个像素分配给作物、杂草或土壤,并对作物和杂草进行实例分割。
在农业领域,大多数方法采用全光分割管道进行作物和杂草检测[8,34],以在真实的田间条件下促进可持续的作物生产和有针对性的杂草管理。
我们使用Panoptic DeepLab[14]和Mask RCNN[37]。此外,我们展示了基于基于Transformer方法的Mask2Former[15]性能。
PhenoBench —A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Dom_第2张图片
我们分别计算作物(PQcrop)和杂草(PQweeds)的预测实例面具的全景质量[44]。在评估过程中,我们将与部分可见实例相关联的预测实例,例如,一个少于50%的像素位于图像内的植物,作为不影响评分的“不关心”区域。此外,我们报告的IoU的语义分割土壤(IoUsoil)考虑预测相关的“东西”。在我们最终的度规中,我们计算所有三个值的平均值,并将其表示为PQ†,这是Porzi等人提出的[77]。
在表4中,我们可以看到Mask2Former[15]获得了最佳的整体性能。然而,定性结果显示,在重叠较大的情况下,农作物的实例分割特别次优,而在实例中,分割良好的农作物可以得到更好的分割效果。这表明,特定领域的模型可以潜在地利用植物结构。

任务三:检测

对于植物的检测,我们区分作物和杂草的种类。
与COCO[60]类似,我们从实例级的植物和叶子注释中提取包围框注释,以便对目标检测方法进行培训。用于植物或叶子检测的方法需要为每个检测到的实例提供边界框和置信度得分。
在农业领域,大多数方法使用探测器来识别作物或杂草[34,35],或建议区域特异性适应,如用于水果检测[66]。
我们选择了成熟的目标检测方法,如Faster RCNN[83]、Mask R-CNN[37]和YOLOv7[102]等,这些都是常用的方法。由于这个任务涉及到植物或叶子的检测,我们分别为每个任务训练模型。虽然Mask RCNN也提供了一个实例分割,但是在这个任务中我们并不考虑这些预测,而是依赖于它所预测的边界框。
PhenoBench —A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Dom_第3张图片
在表5中,我们展示了植物检测的结果,我们看到更现代的方法比其他方法有明显的优势。显然,杂草的检测比作物的检测更困难,这可能是因为植物的尺寸更小。在表6中,我们总结了叶子检测的结果,与植物检测相比,所有方法的性能都较低,表明需要特定领域的方法。

任务四:叶子实例分割

叶片实例分割是估算植株[50]生长期的关键,也是叶病检测的基础[71]。这些方法涉及到表型活动,以研究作物新品种[69]。对这些特征进行自动的、基于视觉的评估有可能在高时间频率下得到可重复的、客观的测量结果。因此,该任务的方法需要预测每个可见作物叶片的实例掩码。
PhenoBench —A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Dom_第4张图片
表7显示了调查基线的结果。在这种情况下,在植物冠层非常密集且包含许多重叠叶片的大重叠情况下,这些方法通常难以分离叶片。我们再次怀疑,更具体的领域方法可以诱导先验知识,以实现更好的分离。

任务五:叶子实例分割

叶片实例分割是估算植株[50]生长期的关键,也是叶病检测的基础[71]。这些方法涉及到表型活动,以研究作物新品种[69]。对这些特征进行自动的、基于视觉的评估有可能在高时间频率下得到可重复的、客观的测量结果。因此,该任务的方法需要预测每个可见作物叶片的实例掩码。
PhenoBench —A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Dom_第5张图片
我们计算作物叶片预测实例掩模的全景质量[44],记作PQleaf。与前面一样,与部分可见实例关联的任何实例预测都不会影响分数。
表7显示了调查基线的结果。在这种情况下,在植物冠层非常密集且包含许多重叠叶片的大重叠情况下,这些方法通常难以分离叶片。我们再次怀疑,更具体的领域方法可以诱导先验知识,以实现更好的分离。

任务六:分层全景分割

层次式全景分割目标对象模型,可以表示为单个部分的集合,如植物可以表示为叶子的并集[106]。因此,这些方法同时提供了整个目标和每个部分的实例分割。因此,它们能够提供关于每个目标的更详细的信息,例如,单个叶子与特定植物的关联允许获得每个植物的叶子总数,这与它的生长阶段[50]相关。我们提供了所有作物及其相关叶子的注释实例掩码。由于杂草没有叶子注释,所以我们不会在层次结构的幌子下考虑它们。因此,我们也将杂草视为这项任务的“材料”。
我们选择Weyler等[106]和Roggiolani等[84]的方法(称为HAPT)作为同时对作物及其相关叶片进行实例分割的基线。第一种方法是自底向上的方法,它首先预测叶子,然后将叶子关联到一个植物实例。相比之下,HAPT使用从植物开始的分层特征聚合,并提供植物层面的特征,然后联合预测叶子。
PhenoBench —A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Dom_第6张图片
在表8中,我们展示了分层方法的结果。在这里,我们可以看到,这两种方法都没有获得一致的预测植物在大生长阶段,即单个植物和它们的叶子重叠。特别是,在植物实例分割中,叶子的实例分离似乎是最具挑战性的。因此,针对这些场景的方法可以提高性能。

你可能感兴趣的:(目标检测,论文)