面向电网巡检的多尺度目标检测算法研究-蛮不错的工作

面向电网巡检的多尺度目标检测算法研究

  • 电网是国民经济发展的重要基础。为确保电网安全稳定运行,需定期开展电网巡检,及时发现并排除输电线路异常。随着无人机技术发展日渐成熟,已经可以支持从不同距离采集到高分辨率的电网巡检图像,再结合目标检测算法,就能让巡检工作事半功倍。不过,从较远距离采集到的输电线路图像包含的多种目标尺度跨越较大,直接使用现有目标检测算法,难以实现多尺度目标的均衡检测。并且,在巡检设备中部署目标检测算法还涉及到模型的轻量化问题。

  • 截至 2022年底,中国电力总装机容量达到了 2.24 亿千瓦,全国电网总长超过 170 万公里。电网发展所带来的影响小至人民生活,大至国家经济。为了确保电网的安全性和可靠性,电力公司需要定期对架空输电线路开展巡检,及时定位并处理需要维护和更换的部件。传统的巡检方式主要依赖人工的方式进行,存在着成本较高、效率较低、易出现漏检和误检等问题。得益于计算机视觉技术的快速发展,利用目标检测算法实现自动化电网巡检已成为研究热点。目标检测算法可以对电网图像进行分析和识别,自动化地检测出电网中存在的各种缺陷和隐患。相比于人工巡检,借助目标检测算法进行电网巡检的优势主要体现在以下几个方面:

    • 降低巡检成本:人工巡检的方式需要耗费大量人力和物理资源,成本较高。部署目标检测算法不需要投入太多人力,只需架设好图像采集设备并配备有足够计算能力的计算机设备,就可以较低的成本去持续性地开展自动化巡检,能够降低巡检成本,提升电网运行的经济效益。

    • 提高巡检效率和准确度:依靠人工方式进行巡检需要由专业的工作人员重复多次爬上几百米高空对架空输电线路部件进行检修,属于劳动密集型工作,效率低且易出现漏检和误检的情况。借助目标检测算法实现电网巡检自动化,不仅能够大幅度提高巡检效率,缩短巡检时间,还能够降低人为因素对巡检结果的影响,提高巡检的准确度。

    • 降低事故风险:部分输电线路架设在高山、丘陵、野外等复杂恶劣的地理环境中,工作人员在高空进行巡检任务时,生命安全无法得到完全保障。使用无人机、摄像头等图像采集设备预先收集到相关地带的实际图像,应用目标检测算法检测到故障后再采取检修措施,可以避免大量的危险作业,在一定程度上降低在巡检工作中发生安全事故的风险。

    • 推动智能电网建设:目标检测算法作为计算机视觉技术的重要分支,能够为智能电网的建设提供重要支持。通过目标检测算法实现电网巡检自动化后,工作人员可以实时掌握电网的运行情况,及时处理异常情况并对巡检数据进行分析,为电网运行管理提供更加精准的决策支持,推动电网的智能化建设。

  • 传统的目标检测算法通常会利用人为设计的特征描述子,来提取待检测对象在颜色、纹理、形状、边缘等方面的特征,然后再使用级联分类器、支持向量机(Support Vector Machine, SVM)等分类器对目标进行分类和定位。

    • 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

    • SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示, w ⋅ x + b = 0 \boldsymbol{w}\cdot x+b=0 wx+b=0 即为分离超平面,对于线性可分的数据集来说,这样的超平面有无穷多个(即感知机),但是几何间隔最大的分离超平面却是唯一的。

    • 几何间隔:对于给定的数据集 T 和超平面 w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0,定义超平面关于样本点 ( x i , y i ) \left( x_i,y_i \right) (xi,yi) 的几何间隔为

      • γ i = y i ( w ∣ ∣ w ∣ ∣ ⋅ x i + b ∣ ∣ w ∣ ∣ ) \gamma_i=y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||}) γi=yi(∣∣w∣∣wxi+∣∣w∣∣b)

      • 超平面关于所有样本点的几何间隔的最小值为 γ = m i n ( γ i ) , i ∈ ( 1 : N ) \gamma = min(\gamma_i),i\in(1:N) γ=min(γi),i(1:N),实际上这个距离就是我们所谓的支持向量到超平面的距离。根据以上定义,SVM模型的求解最大分割超平面问题可以表示为以下约束最优化问题。

      • m a x   γ s . t .   y i ( w ∣ ∣ w ∣ ∣ ⋅ x i + b ∣ ∣ w ∣ ∣ ) ≥ γ max~\gamma\\ s.t. ~ y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||})\geq\gamma max γs.t. yi(∣∣w∣∣wxi+∣∣w∣∣b)γ

  • 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机

  • 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机

  • 当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机

  • 目前被广泛使用的基础算法主要分为两大类别,一类是以 SSD、RetinaNet、YOLOv1-YOLOv5等为代表的单阶段目标检测算法,运用此类算法可以直接输出目标类别及其定位;另一类是以 R-CNN、Fast R-CNN、Faster R-CNN等为代表的两阶段目标检测算法,此类算法先通过区域生成算法在图像中定位可能包含目标的候选区域,再对候选区域进行分类以及位置精修后确定目标所在位置。

  • 本文从电网巡检任务中的多尺度目标检测以及检测模型轻量化这两个需求出发,分别进行了融合高效注意力的多尺度输电线路目标检测方法研究与基于轻量级 MG-YOLOv5 的输电线路目标检测方法研究。针对第一个研究内容,所使用的数据集是PLAD 高分辨率架空输电线路数据集,同时包含跨越较大的多尺度目标;针对第二个研究内容,构建了聚焦于单一种类目标的输电线路异物数据集和输电线路绝缘子缺陷数据集以拓宽研究对象尺度,并且同时在第一个研究内容的数据集上进行了测试分析。论文的研究内容主要包括以下几个方面:

    • 提出了一种融合高效注意力的多尺度输电线路目标检测方法。首先,融合高效注意力 ECBAM 改进 YOLOv5 算法,提升网络的特征提取能力。其次,使用滑动窗口切片检测高分辨率图像并进行拼接,提升中小尺度目标检测精度。同时,对原图进行检测,保障大尺度目标检测精度。最后,集成模型检测结果,全面提升多尺度目标检测精度。实验证明,该方法检测效果较现有目标检测算法提升显著,漏检率较小,可准确检测出高分辨率图像中较为隐蔽的目标。

    • 提出了一种轻量级的 MG-YOLOv5 算法,用以进行输电线路中的目标检测。首先,使用 CA 注意力改进 MobileNetv3 网络,以此替换 YOLOv5 算法 Backbone 部分,轻量化特征提取网络。其次,使用 Ghost 卷积替代 YOLOv5 网络 Neck 部分传统卷积,轻量化特征融合网络。最后,将目标回归损失升级为 EIoU Loss,适当平衡轻量化结构损失的检测精度。在三个包含不同尺度目标的输电线路数据集上的实验结果表明,MG-YOLOv5 可以在大幅轻量化算法模型的情况下,较好的保持对于输电线路多尺度目标的检测精度

  • CNN 的基本流程为:1)对于输入的原始数据,通过反复使用卷积层、激活函数、池化层的组合形式提取出其中所有的有用特征信息;2)使用全连接层对提取到的特征信息进行处理后得到预测值,并将其与目标值进行对比;3)对预测值与目标值的差值进行修复,重新训练模型直到模型收敛,得到最终的训练结果。

  • 卷积运算可以具象化表达为使用卷积核大小的窗口,在输入数据上从左到右、从上到下地滑动,每次取一个窗口的值进行计算。卷积核的深度与输入数据的通道数等同。同时使用不同的卷积核就能够得到多个代表图像不同意义的特征图,因此在每个卷积层都有一整个集合的卷积核,卷积核的数量与输出特征图的通道数相等,输出特征图是将卷积操作结果进行堆叠后形成的完整结果。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第1张图片
  • 通道数为 R、G、B 三通道的输入图像为例,使用 1 个3×3 大小,深度为 3 的卷积核对各通道进行卷积操作。3 个通道的像素值与对应卷积核通道中的数值分别进行像素级卷积运算,所获得的数值是对应位置像素值与卷积核每个像素的值相乘再求和的结果,每进行完一次计算,卷积核就按照设定的步长向右滑动,直到与所有输入数据都完成计算为止。因此,单通道产生的特征图大小为:

    • W o u t = ( W i n − F + 2 P ) / S + 1 H o u t = ( H i n − F + 2 P ) / S + 1 W_{out}= (W_{in}-F+2P)/S+1\\ H_{out} = (H_{in}-F+2P)/S+1 Wout=(WinF+2P)/S+1Hout=(HinF+2P)/S+1

    • Wout 、Hout 分别表示卷积所得特征图的宽、高,Win 、Hin 分别表示输入图像的宽、高, F 为卷积核尺寸大小, S 为卷积核移动步长,P为对输入图像像素周围添加全 0 像素值的圈数,设置P值可以加强对输入图像边缘信息的提取,且在S =1时,将 P值设为( F-1) / 2能够保证输入与输出的尺寸相同。

  • 全连接层的作用是将输入数据映射到低维空间,提取出数据的抽象特征,从而实现分类、回归等任务。通过此种层结构,可将卷积层或池化层的输出特征图转换为一维向量,并将其与权重矩阵进行相乘,最后加入偏置项,从而形成一个最终的输出向量,以此表示对于每个分类的置信度。

  • 在处理高分辨率图像和大规模数据集时,全连接层需要耗费较大的计算资源,容易导致模型过拟合。因此,在处理一些较大规模的数据集时,CNN 会采用全局平均池化层来取代全连接层对特征图进行降维,以此缓解过拟合问题的产生。

  • R-CNN 网络在 2014 年由 Girshick 等人提出并在公开的目标检测数据集 PASCALVOC 2012 上大放异彩,一举获得了 53.3%的平均精度均值(Mean Average Precision,mAP),相比以往算法的最优结果提升了 30%。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第2张图片
  • R-CNN 的处理流程主要有四步:1)采用选择性搜索算法,生成海量候选框,数量通常在 2000 个左右;2)裁剪并提取候选框框定区域,将其大小统一缩放至相同尺寸后输入 CNN 中提取深度特征;3)使用深度特征和类别标签训练机器学习分类器,识别出目标类别;4)使用深度特征和位置标签训练线性回归器,完成目标位置边框的预测。

  • R-CNN 网络通过引入 CNN 来提取图像的深度特征,使目标检测的精度有了极大提升。不过,R-CNN 在运行时需要对每个候选区域都进行一次卷积运算,其中存在着大量冗余候选框,拖慢了整体网络的运行速度。

  • 相比 R-CNN 网络,Fast R-CNN 主要在以下几个方面进行了提升:1)摒弃了将所有候选框作为输入的做法,只通过映射操作将候选区域映射到 CNN 对整幅图像提取的特征图中;2)提出了感兴趣区域(Region of Interest, RoI)池化方法,以此来调整所有候选区域的大小,使其与全连接层的维度保持一致;3)提出了多任务损失函数,以此统一了分类和回归的过程。

  • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第3张图片

  • 虽然 Fast R-CNN 可以显著提高模型性能,但仍受限于传统的选择性搜索算法,从而限制了计算的效率,无法实现真正的快速检测。

  • 鉴于 Fast R-CNN 网络在实现实时性目标检测时仍具有一定的困难,Ren 等人在2015 提出了 Faster R-CNN。通过使用区域建议网络 RPN,能够有效生成较为准确的候选区域,解决了拖慢算法的根源问题。Faster R-CNN 利用多个具有不同宽高比例、不同面积的先验框提取候选区域,将其映射至 CNN 提取的特征图中,再依次通过 RoI 池化层、全连接层、分类器来实现目标分类及位置预测。

  • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第4张图片

  • RPN 网络是其中的核心部分,其工作流程为:1)在底层卷积层使用滑动窗口对 CNN所得特征图进行区域划分,使用多个不同大小规格的先验框来产生候选区域;2)在中间层将每个候选区域的特征压缩为低维向量;3)将压缩后的低维向量并列输入至子分类层和子回归层,分类层负责利用该向量预测目标的类别概率,回归层负责利用该向量对候选区域的具体位置进行调整并输出。RPN 的结构示意图。

  • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第5张图片

  • 从 R-CNN 到 Faster R-CNN,两阶段目标检测算法发展迅速。但是由于生成候选框和对候选框进行分类定位这两个阶段都需要耗费一定的计算资源,因此两阶段目标检测模型并不适合部署于资源受限的边缘设备,需要寻求到更为轻便简单的模型,于是单阶段的目标检测算法应运而生。

  • 与双阶段目标检测算法相比,单阶段目标检测算法可以省去生成候选区域的繁琐步骤,可以直接进行端到端的目标检测,因此具有简单、快速、高效等优点,在工业领域得到了更为广泛的应用。

  • 单阶段目标检测算法主要由骨干网络(Backbone)、瓶颈块(Neck)、预测头(Head)和损失函数组成。骨干网络通常使用 VGG、ResNet、MobileNet等经典的卷积神经网络,主要用于提取输入图像中的特征信息;瓶颈块同样也由卷积神经网络结构组合而成,主要用于融合骨干网络中提取到的特征;预测头则是由全连接层或者卷积层结合输出层组成,主要负责对骨干网络及瓶颈块输出的特征图进行解码,输出包含目标类别、位置、置信度等信息的预测结果;损失函数主要用于衡量检测结果与真实标注之间的差距,并及时更新模型参数。

  • YOLOv5 首先在输入端将图像缩放至模型定义的统一输入尺寸,并完成一系列的图像预处理操作;其次在 Backbone 对输入图片进行特征提取,并针对提取到的特征提炼出三个有效特征层作为 Neck 部分的输入;然后在 Neck 部分进一步提取特征,通过 FPN和像素聚合网络(Pixel Aggregation Network, PAN)结构融合不同尺度的特征信息;最终在 Head 部分对深度提炼的特征进行分类与回归,完成对于输入图像的目标检测。

  • 相比之前的 YOLO 系列算法,YOLOv5 主要有如下几点创新:1)增加了 Focus 操作,将高分辨率的输入图片进行拆分,再将宽高信息统一集中到通道信息中,以减少信息丢失;2)将 YOLOv4 版本 Backbone 中的 CSP 结构拓展到了 Neck 结构中;3)使用 SPPF 结构替代了 YOLOv3 中的 SPP 结构,两种结构的对比主要区别在于把原来的最大池化操作由并行改为了串行,利用不同大小的池化核同时对多尺度特征进行提取,相比串行而言,并行的效率更高,耗时更低。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第6张图片
  • YOLOv5 共有 s、m、l 和 x 四个尺寸的模型,可以通过调整深度和宽度来进行选择使用,以适应不同的应用场景。其中,YOLOv5s 最小,速度最快,检测精度也最低,往后 m、l、x 这三个模型的结构依次加深加宽,检测精度依次递增,速度依次递减。

  • 在目标检测方面常用的有空间注意力、通道注意力、位置注意力和尺度注意力等。这些注意力机制可以从不同维度对特征图进行加权,增强特征图中重要区域的表达能力,从而提升模型的检测性能。

  • 通道注意力机制主要用于学习特征图中特征通道之间的关系,帮助模型自动地选择出重要的特征通道,从而提高模型的性能。通道注意力机制中最为常见的SENet(Squeeze and Excitation Networks)。在 SENet 中,对于每个特征图,先对其进行全局池化操作,得到全局特征描述向量。然后,使用多层感知机(Multi-Layer Perceptron,MLP)对该向量进行处理,获得一个通道权重向量,其中的每个元素都表示相应通道的重要程度。最后,通过将通道权重向量与原始特征图相乘,得到一个加权后的特征图,从而达到对通道进行选择和加权的目的。

  • 空间注意力机制主要用于学习特征图中不同空间位置之间的关系,帮助模型自动地选择重要的空间位置,从而提高模型的性能。在空间注意力机制中,对于每个特征图,首先通过一个卷积操作生成一个注意力图,注意力图的每个元素表示对应位置的重要性,其中重要性高的位置会得到更大的权重。通过将注意力图与原始特征图进行点乘操作,可以生成一个加权的特征图,从而实现对空间位置的精确定位和加权。

  • 通道注意力和空间注意力可以被结合使用,以提高模型的性能。CBAM(Convolutional Block Attention Module)就是一个典型代表,通过将通道注意力和空间注意力进行结合,在目标检测和图像分类等任务中都取得了很好的表现

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第7张图片
  • 评估检测精度的指标包括:平均精度均值(Mean Average Precision, mAP)、查准率(Precision, P)及查全率(Recall, R)等。经过计算各类别的平均精度(Average Precision,AP),对其求平均可以得到 mAP.AP 是通过积分计算得出的查准率-查全率(Precision -Recall, P-R)曲线与坐标轴所围成的封闭图形的面积

    • P = p r e = T P T P + F P R = r e c a l l = T P T P + F N P=pre=\frac{TP}{TP+FP}\\ R=recall=\frac{TP}{TP+FN} P=pre=TP+FPTPR=recall=TP+FNTP

    • TP是预测为正的正样本,代表预测正确; FP 是预测为正的负样本,代表误检;TN 是预测为负的正样本,代表漏检。

  • 在电网巡检领域进行目标检测时,需要充分考虑模型的计算成本以适应边缘端的计算能力。目前常用于衡量模型计算成本的有两大指标,其一是模型参数量,其二是每秒浮点运算次数(Floating Point Operations, FLOPs)。

  • 模型参数量是指模型中需要学习的参数数量,通常用于衡量模型的复杂度和存储需求。模型参数量越大,模型的表达能力和灵活性通常会更强,但同时也会增加训练和推理的计算成本。因此在选择深度学习模型时,需要平衡模型的参数量和性能之间的关系,以确保模型能够在可接受的时间和计算资源内达到预期的性能水平。

  • FLOPs 是指模型进行单次推理所需要的浮点数乘法和加法运算次数,通常用于衡量在硬件加速场景中的模型计算复杂度和推理速度。对于一个给定的深度神经网络,可以通过对每一层的计算量进行计算,然后将所有层的计算量相加,得到该网络的总 FLOPs。通过 FLOPs 指标,可以比较出不同深度神经网络之间的计算复杂度和推理速度,从而根据应用场景选择出最适合的模型。

  • 本方法首先使用滑动窗口对原始的高分辨率图像进行切片,其次使用基于精度最高的 YOLOv5x 版本改进后的 YOLOv5 算法分别对切片前后的图像训练两个模型进行检测,最后在拼合切片检测结果后集成两个模型的检测结果并输出。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第8张图片

    • 高分辨图像的切片方法、切片检测结果拼合策略以及模型检测结果集成策略。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第9张图片

    • ECBAM 的主体结构与 CBAM 相似,同样将通道注意力和空间注意力两个模块进行了串联联通,并且均可在 CNN 中实现即插即用,赋予输入特征图中的特征自适应细化的能力,最终以较小的计算成本来提升模型的特征提取性能。

    • CBAM 中的多层感知机(MLP)模块相当于一个用来实现全通道交互的共享层结构,至少有三层组成,层与层间均为全连接,在计算时会产生大量冗余计算。考虑到一维卷积操作的参数共享性质,在 ECBAM中使用一维卷积特征聚合操作替代 CBAM 中的多层感知机,可以只选择性的进行一些适当的跨通道交互,提高整体注意力机制模块的计算效率。

  • 为放大小尺度目标的细节特征,使其在输入网络训练时仍然保留可被检测到的特征信息,使用滑动窗口对高分辨率图像进行切片(简称滑窗切片)操作。在此过程中,不可避免地会将大尺度目标切分开,大尺度目标的检测效果可由另一专门负责检测大尺度目标的模型来保证,因此无需担心切片图像中大尺度目标的检测效果,只需重点考虑其中中小尺度目标的检测效果,在切片时既要求能够检测到小尺度目标的同时,又不能过度切分中等尺度目标。

  • 采用固定大小的滑动窗口从左到右,从上到下按照固定的步长依次划过整幅图像,相邻两个滑动窗口设定有一定的重叠面积,用以保证各个切片边缘的平滑度,降低切片与切片之间的边缘不平滑特性。当窗口滑动到图像边界或者有超出时,从所触碰边界向前切片作为收尾,保证切片覆盖到整幅图像。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第10张图片
  • 对于不同位置关系,统一采用如下切片机制对当前滑动窗口中的目标进行筛选保留:

    • 设定目标保留阈值比例,当待切目标与滑动窗口交叠部分的长或宽之比超过这个阈值时,在滑动窗口边沿处截断目标并将其保留至当前滑动窗口;

    • 经机制(1)筛选后,当待切目标与滑动窗口交叠部分的长或宽不足 64 个像素点,即小于数据集最小目标框尺寸时,在当前滑动窗口中舍弃该目标。

    • 由于本切片方法涉及滑动窗口大小、横向滑动重叠率、纵向滑动重叠率、目标保留比例阈值等较多的静态参数,因此使用控制变量法来设置对照实验并测试检测效果,目的是选出最为合适的参数来对高分辨率图像进行切片。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第11张图片

    • 得出将滑动窗口大小设置为 1400×1000 像素,将滑动时的横向重叠率设置为 20%、纵向重叠率设置为 15%,将目标保留比例阈值设置为 1/3 时,整体检测效果最佳

    • 对切片所得的图像进行训练,相邻图像中可能会检测出同一目标的不同部分,因此需要将这些部分重新拼合起来形成一个完整的检测结果。在拼合时,首先根据滑窗切片时所采用的横向 20%及纵向 15%的滑动重叠率,计算出横向和纵向的滑动步距长度均为200 像素左右,给予检测结果一定的范围浮动来设定预测框拼合时的像素阈值。若在待拼合图像中,同种类预测框相交区域的长度或者宽度超过了这个阈值,或者两预测框的交并比超过了一定比例,则判定这两个预测框所属同一个目标,将其进行拼合。

  • 对拼合时如何选取像素阈值及交并比值进行了深入探讨,给出了切片检测结果拼合参数的灵敏度分析。表中一共设置了 5 组不同像素阈值与交并比值,通过观察实验后获得的 mAP 值可以发现,将像素阈值设为 150、交并比值设为 0.5 时,检测准确率最高,拼合效果最佳。

    • 面向电网巡检的多尺度目标检测算法研究-蛮不错的工作_第12张图片

    • 在设定好预测框拼合的参数阈值之后,分别取待拼合预测框左上角点的横纵坐标最小值作为拼合预测框的左上角点坐标,取待拼合预测框右下角点横纵坐标最大值作为拼合预测框的右下角点坐标。同时,将拼合之后的预测目标得分设置为待拼合目标的最高得分。

  • 由于前期对于切片前后的图像分别进行了模型训练,同一幅图像相当于被检测了两次,若将两次检测结果直接整合起来,可能会存在一些因为重复检测而产生的冗余预测框,因此需要选择合适的集成策略来对整合后的检测结果再进行一次筛选保留

  • 经过对两个模型的检测结果进行初步统计,可以发现能够同时被两个模型都检测到的只有电线杆塔、间隔棒和绝缘子这些中等尺度以上类别的目标,因此在模型检测结果集成时不再对塔号牌和防震锤这两类小尺度目标进行筛选,直接将这两类的检测结果进行合并,减少集成步骤的工作量。

  • 对于中等尺度以上目标的筛选条件是预测框的交并比大小。由于在滑窗切片时不满足保留条件的目标会被窗口舍弃,一个稍大尺寸的目标在被切片时可能在多个相邻的滑动窗口都有出现,但是仅在一个滑动窗口中满足条件而被保留。这样就会出现同一个目标在其中一个模型中被完整检测,而在另一个模型中仅被检测出很小一部分的情况,这样在集成时就会产生比较小的交并比。基于对此种情况的考虑,在经过反复多次实验后发现将交并比阈值设置为 0.1 时,集成效果最佳,能够尽可能的保留下检测准确的预测框且不产生过多冗余。因此,选取值为 0.1 的交并比来作为集成时筛选预测框的条件,在相同类别预测框的交并比超过 0.1 时,比较两者置信度得分并保留下得分较高的预测框,对另外冗余的预测框予以舍弃

  • MS-PAD 也采用了切片的思想来提升对高分辨率图像中小尺度目标的检测精度。不过,MS-PAD 只是以 2×2 的形式单纯的将原始图像平均切分成了四块,使用 SSD 算法来单独检测切片中的防震锤类目标,并采用同样的算法对原始图片中除防震锤类之外其他类别的目标进行检测,最终将两次检测结果直接整合起来作为输出,整体方法设计较为简单。

  • 本研究参照《架空输电线路巡检影像标注规范》(征求意见稿)这一由中国电力企业联合会所发布的标准,按照如下规定对图像进行标注:

    • 标注必须精准到每个目标的边界细节;

    • 应使用最小外接矩形框来标记目标,并确保标记框与目标边缘的偏差不超过10 像素或 1%;

    • 标注样本尽量纯粹,仅允许存在不超过 10%的遮挡情况。

  • YOLOv5 模型中,损失函数由三个部分组成:目标类别概率损失、置信度损失和边界框回归损失。前两个损失函数均通过二值交叉熵损失函数来进行计算,最后在计算边界框回归损失时采用了 CIoU loss(Complete-IoU Loss).EIoU 将 CIoU 中对于宽高比例的回归改为了对于宽高值的回归,其表达式如公式

    • 在这里插入图片描述

    • p 2 ( w , w g t ) , p 2 ( h , h g t ) p^2(w,w^{gt}),p^2(h,h^{gt}) p2(w,wgt),p2(h,hgt)分别代表预测框与真实框宽度和高度之间的欧氏距离,cw和ch 分别代表两框之间最小外接矩形的宽度的高度, c 2 = c w 2 + c h 2 c^2=c_w^2+c_h^2 c2=cw2+ch2  。EIoU loss 的计算方式相比 CIoU loss 而言更为合理且全面。

你可能感兴趣的:(电网异物检测,目标检测,算法)