项目参考AAAI Association for the Advancement of Artificial Intelligence
研究背景与意义
随着油气管道设备的广泛应用,油气泄露问题已经成为一个严重的环境和安全隐患。油气泄露不仅会造成环境污染,还可能引发火灾、爆炸等严重事故,对人们的生命财产安全造成威胁。因此,开发一种高效准确的油气管道设备泄露检测系统具有重要的现实意义。
目前,深度学习在计算机视觉领域取得了巨大的成功,特别是目标检测方面。YOLO(You Only Look Once)是一种非常流行的实时目标检测算法,其快速准确的特点使其在许多应用中得到广泛应用。然而,YOLO算法在处理小目标和密集目标时存在一定的困难,这在油气管道设备泄露检测中尤为突出。
为了解决这个问题,本研究提出了一种改进的YOLOv8算法,该算法融合了可变形大核注意力D-LKA-Attention。可变形大核注意力是一种新颖的注意力机制,可以自适应地调整感受野的大小和形状,从而更好地适应不同大小和形状的目标。通过引入D-LKA-Attention,改进的YOLOv8算法可以更好地处理小目标和密集目标,提高油气管道设备泄露检测的准确性和效率。
本研究的意义主要体现在以下几个方面:
首先,改进的YOLOv8算法能够提高油气管道设备泄露检测的准确性。传统的YOLO算法在处理小目标和密集目标时容易出现漏检和误检的问题,而引入D-LKA-Attention后,改进的算法可以更好地适应不同大小和形状的目标,提高检测的准确性。
其次,改进的YOLOv8算法能够提高油气管道设备泄露检测的效率。由于油气管道设备泄露检测需要实时性,因此算法的速度至关重要。改进的算法通过引入可变形大核注意力,可以更好地适应不同大小和形状的目标,减少不必要的计算量,提高检测的速度。
此外,改进的YOLOv8算法还具有较强的泛化能力和适应性。油气管道设备泄露检测场景复杂多变,目标的大小和形状各异,传统的目标检测算法往往难以适应。而改进的算法通过引入可变形大核注意力,可以自适应地调整感受野的大小和形状,更好地适应不同场景下的目标检测需求。
综上所述,改进的YOLOv8算法融合可变形大核注意力D-LKA-Attention的油气管道设备泄露检测系统具有重要的现实意义。它可以提高油气管道设备泄露检测的准确性和效率,具有较强的泛化能力和适应性,对保障人们的生命财产安全具有重要的意义。
【改进YOLOv8】融合可变形大核注意力D-LKA-Attention的油气管道设备泄露检测系统_哔哩哔哩_bilibili
首先,我们需要收集所需的图片。这可以通过不同的方式来实现,例如使用现有的公开数据集OilDatasets。
labelImg是一个图形化的图像注释工具,支持VOC和YOLO格式。以下是使用labelImg将图片标注为VOC格式的步骤:
(1)下载并安装labelImg。
(2)打开labelImg并选择“Open Dir”来选择你的图片目录。
(3)为你的目标对象设置标签名称。
(4)在图片上绘制矩形框,选择对应的标签。
(5)保存标注信息,这将在图片目录下生成一个与图片同名的XML文件。
(6)重复此过程,直到所有的图片都标注完毕。
由于YOLO使用的是txt格式的标注,我们需要将VOC格式转换为YOLO格式。可以使用各种转换工具或脚本来实现。
下面是一个简单的方法是使用Python脚本,该脚本读取XML文件,然后将其转换为YOLO所需的txt格式。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import xml.etree.ElementTree as ET
import os
classes = [] # 初始化为空列表
CURRENT_DIR = os.path.dirname(os.path.abspath(__file__))
def convert(size, box):
dw = 1. / size[0]
dh = 1. / size[1]
x = (box[0] + box[1]) / 2.0
y = (box[2] + box[3]) / 2.0
w = box[1] - box[0]
h = box[3] - box[2]
x = x * dw
w = w * dw
y = y * dh
h = h * dh
return (x, y, w, h)
def convert_annotation(image_id):
in_file = open('./label_xml\%s.xml' % (image_id), encoding='UTF-8')
out_file = open('./label_txt\%s.txt' % (image_id), 'w') # 生成txt格式文件
tree = ET.parse(in_file)
root = tree.getroot()
size = root.find('size')
w = int(size.find('width').text)
h = int(size.find('height').text)
for obj in root.iter('object'):
cls = obj.find('name').text
if cls not in classes:
classes.append(cls) # 如果类别不存在,添加到classes列表中
cls_id = classes.index(cls)
xmlbox = obj.find('bndbox')
b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
float(xmlbox.find('ymax').text))
bb = convert((w, h), b)
out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
xml_path = os.path.join(CURRENT_DIR, './label_xml/')
# xml list
img_xmls = os.listdir(xml_path)
for img_xml in img_xmls:
label_name = img_xml.split('.')[0]
print(label_name)
convert_annotation(label_name)
print("Classes:") # 打印最终的classes列表
print(classes) # 打印最终的classes列表
我们需要将数据集整理为以下结构:
-----data
|-----train
| |-----images
| |-----labels
|
|-----valid
| |-----images
| |-----labels
|
|-----test
|-----images
|-----labels
确保以下几点:
所有的训练图片都位于data/train/images目录下,相应的标注文件位于data/train/labels目录下。
所有的验证图片都位于data/valid/images目录下,相应的标注文件位于data/valid/labels目录下。
所有的测试图片都位于data/test/images目录下,相应的标注文件位于data/test/labels目录下。
这样的结构使得数据的管理和模型的训练、验证和测试变得非常方便。
Epoch gpu_mem box obj cls labels img_size
1/200 20.8G 0.01576 0.01955 0.007536 22 1280: 100%|██████████| 849/849 [14:42<00:00, 1.04s/it]
Class Images Labels P R [email protected] [email protected]:.95: 100%|██████████| 213/213 [01:14<00:00, 2.87it/s]
all 3395 17314 0.994 0.957 0.0957 0.0843
Epoch gpu_mem box obj cls labels img_size
2/200 20.8G 0.01578 0.01923 0.007006 22 1280: 100%|██████████| 849/849 [14:44<00:00, 1.04s/it]
Class Images Labels P R [email protected] [email protected]:.95: 100%|██████████| 213/213 [01:12<00:00, 2.95it/s]
all 3395 17314 0.996 0.956 0.0957 0.0845
Epoch gpu_mem box obj cls labels img_size
3/200 20.8G 0.01561 0.0191 0.006895 27 1280: 100%|██████████| 849/849 [10:56<00:00, 1.29it/s]
Class Images Labels P R [email protected] [email protected]:.95: 100%|███████ | 187/213 [00:52<00:00, 4.04it/s]
all 3395 17314 0.996 0.957 0.0957 0.0845
class DetectionPredictor(BasePredictor):
def postprocess(self, preds, img, orig_imgs):
preds = ops.non_max_suppression(preds,
self.args.conf,
self.args.iou,
agnostic=self.args.agnostic_nms,
max_det=self.args.max_det,
classes=self.args.classes)
if not isinstance(orig_imgs, list):
orig_imgs = ops.convert_torch2numpy_batch(orig_imgs)
results = []
for i, pred in enumerate(preds):
orig_img = orig_imgs[i]
pred[:, :4] = ops.scale_boxes(img.shape[2:], pred[:, :4], orig_img.shape)
img_path = self.batch[0][i]
results.append(Results(orig_img, path=img_path, names=self.model.names, boxes=pred))
return results
这个程序文件是一个名为predict.py的文件,它是一个用于预测基于检测模型的类DetectionPredictor的定义。这个类继承自BasePredictor类,用于基于检测模型进行预测。
这个文件使用了Ultralytics YOLO库,它是一个基于AGPL-3.0许可的开源项目。
这个文件中的DetectionPredictor类有一个postprocess方法,用于对预测结果进行后处理,并返回一个Results对象的列表。在postprocess方法中,预测结果经过了非最大抑制(non_max_suppression)处理,同时进行了一些其他的处理操作,如将预测框的坐标进行缩放等。
这个文件还包含了一个示例代码,展示了如何使用DetectionPredictor类进行预测。示例代码中使用了yolov8n.pt模型,并指定了输入数据的来源。
总之,这个程序文件是一个用于预测基于检测模型的类DetectionPredictor的定义,它使用了Ultralytics YOLO库,并提供了一个示例代码来演示如何使用这个类进行预测。
from copy import copy
import numpy as np
from ultralytics.data import build_dataloader, build_yolo_dataset
from ultralytics.engine.trainer import BaseTrainer
from ultralytics.models import yolo
from ultralytics.nn.tasks import DetectionModel
from ultralytics.utils import LOGGER, RANK
from ultralytics.utils.torch_utils import de_parallel, torch_distributed_zero_first
class DetectionTrainer(BaseTrainer):
def build_dataset(self, img_path, mode='train', batch=None):
gs = max(int(de_parallel(self.model).stride.max() if self.model else 0), 32)
return build_yolo_dataset(self.args, img_path, batch, self.data, mode=mode, rect=mode == 'val', stride=gs)
def get_dataloader(self, dataset_path, batch_size=16, rank=0, mode='train'):
assert mode in ['train', 'val']
with torch_distributed_zero_first(rank):
dataset = self.build_dataset(dataset_path, mode, batch_size)
shuffle = mode == 'train'
if getattr(dataset, 'rect', False) and shuffle:
LOGGER.warning("WARNING ⚠️ 'rect=True' is incompatible with DataLoader shuffle, setting shuffle=False")
shuffle = False
workers = 0
return build_dataloader(dataset, batch_size, workers, shuffle, rank)
def preprocess_batch(self, batch):
batch['img'] = batch['img'].to(self.device, non_blocking=True).float() / 255
return batch
def set_model_attributes(self):
self.model.nc = self.data['nc']
self.model.names = self.data['names']
self.model.args = self.args
def get_model(self, cfg=None, weights=None, verbose=True):
model = DetectionModel(cfg, nc=self.data['nc'], verbose=verbose and RANK == -1)
if weights:
model.load(weights)
return model
def get_validator(self):
self.loss_names = 'box_loss', 'cls_loss', 'dfl_loss'
return yolo.detect.DetectionValidator(self.test_loader, save_dir=self.save_dir, args=copy(self.args))
def label_loss_items(self, loss_items=None, prefix='train'):
keys = [f'{prefix}/{x}' for x in self.loss_names]
if loss_items is not None:
loss_items = [round(float(x), 5) for x in loss_items]
return dict(zip(keys, loss_items))
else:
return keys
def progress_string(self):
return ('\n' + '%11s' *
(4 + len(self.loss_names))) % ('Epoch', 'GPU_mem', *self.loss_names, 'Instances', 'Size')
def plot_training_samples(self, batch, ni):
plot_images(images=batch['img'],
batch_idx=batch['batch_idx'],
cls=batch['cls'].squeeze(-1),
bboxes=batch['bboxes'],
paths=batch['im_file'],
fname=self.save_dir / f'train_batch{ni}.jpg',
on_plot=self.on_plot)
def plot_metrics(self):
plot_results(file=self.csv, on_plot=self.on_plot)
def plot_training_labels(self):
boxes = np.concatenate([lb['bboxes'] for lb in self.train_loader.dataset.labels], 0)
cls = np.concatenate([lb['cls'] for lb in self.train_loader.dataset.labels], 0)
plot_labels(boxes, cls.squeeze(), names=self.data['names'], save_dir=self.save_dir, on_plot=self.on_plot)
这个程序文件是一个用于训练检测模型的程序。它使用了Ultralytics YOLO库,并继承了BaseTrainer类。以下是该程序文件的主要功能:
在主程序中,首先定义了一些参数,然后创建了一个DetectionTrainer对象,并调用其train方法进行模型训练。
import torch
import torch.nn as nn
import torch.nn.functional as F
from timm.models.layers import trunc_normal_, DropPath
class LayerNorm(nn.Module):
def __init__(self, normalized_shape, eps=1e-6, data_format="channels_last"):
super().__init__()
self.weight = nn.Parameter(torch.ones(normalized_shape))
self.bias = nn.Parameter(torch.zeros(normalized_shape))
self.eps = eps
self.data_format = data_format
if self.data_format not in ["channels_last", "channels_first"]:
raise NotImplementedError
self.normalized_shape = (normalized_shape, )
def forward(self, x):
if self.data_format == "channels_last":
return F.layer_norm(x, self.normalized_shape, self.weight, self.bias, self.eps)
elif self.data_format == "channels_first":
u = x.mean(1, keepdim=True)
s = (x - u).pow(2).mean(1, keepdim=True)
x = (x - u) / torch.sqrt(s + self.eps)
x = self.weight[:, None, None] * x + self.bias[:, None, None]
return x
class GRN(nn.Module):
def __init__(self, dim):
super().__init__()
self.gamma = nn.Parameter(torch.zeros(1, 1, 1, dim))
self.beta = nn.Parameter(torch.zeros(1, 1, 1, dim))
def forward(self, x):
Gx = torch.norm(x, p=2, dim=(1,2), keepdim=True)
Nx = Gx / (Gx.mean(dim=-1, keepdim=True) + 1e-6)
return self.gamma * (x * Nx) + self.beta + x
class Block(nn.Module):
def __init__(self, dim, drop_path=0.):
super().__init__()
self.dwconv = nn.Conv2d(dim, dim, kernel_size=7, padding=3, groups=dim)
self.norm = LayerNorm(dim, eps=1e-6)
self.pwconv1 = nn.Linear(dim, 4 * dim)
self.act = nn.GELU()
self.grn = GRN(4 * dim)
self.pwconv2 = nn.Linear(4 * dim, dim)
self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
def forward(self, x):
input = x
x = self.dwconv(x)
x = x.permute(0, 2, 3, 1)
x = self.norm(x)
x = self.pwconv1(x)
x = self.act(x)
x = self.grn(x)
x = self.pwconv2(x)
x = x.permute(0, 3, 1, 2)
x = input + self.drop_path(x)
return x
class ConvNeXtV2(nn.Module):
def __init__(self, in_chans=3, num_classes=1000,
depths=[3, 3, 9, 3], dims=[96, 192, 384, 768],
drop_path_rate=0., head_init_scale=1.
):
super().__init__()
self.depths = depths
self.downsample_layers = nn.ModuleList()
stem = nn.Sequential(
nn.Conv2d(in_chans, dims[0], kernel_size=4, stride=4),
LayerNorm(dims[0], eps=1e-6, data_format="channels_first")
)
self.downsample_layers.append(stem)
for i in range(3):
downsample_layer = nn.Sequential(
LayerNorm(dims[i], eps=1e-6, data_format="channels_first"),
nn.Conv2d(dims[i], dims[i+1], kernel_size=2, stride=2),
)
self.downsample_layers.append(downsample_layer)
self.stages = nn.ModuleList()
dp_rates=[x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]
cur = 0
for i in range(4):
stage = nn.Sequential(
*[Block(dim=dims[i], drop_path=dp_rates[cur + j]) for j in range(depths[i])]
)
self.stages.append(stage)
cur += depths[i]
self.norm = nn.LayerNorm(dims[-1], eps=1e-6)
self.head = nn.Linear(dims[-1], num_classes)
self.apply(self._init_weights)
self.channel = [i.size(1) for i in self.forward(torch.randn(1, 3, 640, 640))]
def _init_weights(self, m):
if isinstance(m, (nn.Conv2d, nn.Linear)):
trunc_normal_(m.weight, std=.02)
nn.init.constant_(m.bias, 0)
def forward(self, x):
res = []
for i in range(4):
x = self.downsample_layers[i](x)
x = self.stages[i](x)
res.append(x)
return res
该程序文件是一个用于构建ConvNeXt V2模型的Python代码文件。该文件定义了多个类和函数,用于构建不同规模的ConvNeXt V2模型。
文件中定义的类和函数包括:
这些类和函数的具体实现细节可以参考代码文件中的注释。
class CSWinTransformer(nn.Module):
def __init__(self, img_size=224, patch_size=4, in_chans=3, num_classes=1000, embed_dim=96, depths=[2, 2, 6, 2], num_heads=[3, 6, 12, 24], mlp_ratio=4., qkv_bias=True, qk_scale=None, drop_rate=0., attn_drop_rate=0., drop_path_rate=0., norm_layer=nn.LayerNorm):
super().__init__()
self.num_classes = num_classes
self.depths = depths
self.num_features = self.embed_dim = embed_dim
self.patch_embed = PatchEmbed(
img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim)
self.pos_drop = nn.Dropout(p=drop_rate)
dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))] # stochastic depth decay rule
self.blocks = nn.ModuleList([
CSWinBlock(
dim=embed_dim, reso=img_size // patch_size, num_heads=num_heads[i], mlp_ratio=mlp_ratio,
qkv_bias=qkv_bias, qk_scale=qk_scale, drop=drop_rate, attn_drop=attn_drop_rate,
drop_path=dpr[sum(depths[:i]):sum(depths[:i + 1])], norm_layer=norm_layer,
last_stage=(i == len(depths) - 1))
for i in range(len(depths))])
self.norm = norm_layer(embed_dim)
self.feature_info = [dict(num_chs=embed_dim, reduction=0, module='head')]
self.head = nn.Linear(embed_dim, num_classes) if num_classes > 0 else nn.Identity()
trunc_normal_(self.head.weight, std=.02)
self.head.bias.data.fill_(0.)
def get_classifier(self):
return self.head
def reset_classifier(self, num_classes, global_pool=''):
self.num_classes = num_classes
self.head = nn.Linear(self.embed_dim, num_classes) if num_classes > 0 else nn.Identity()
def forward_features(self, x):
x = self.patch_embed(x)
x = self.pos_drop(x)
for blk in self.blocks:
x = blk(x)
x = self.norm(x) # B L C
return x
def forward(self, x):
x = self.forward_features(x)
x = x[:, 0] # B C
x = self.head(x)
return x
这个程序文件是一个用于图像分类的CSWin Transformer模型。它定义了CSWinBlock类和Mlp类,以及一些辅助函数。CSWinBlock类是CSWin Transformer的基本构建块,它包含了多头注意力机制和多层感知机。Mlp类是多层感知机的实现。这个程序文件还定义了一些辅助函数,如img2windows和windows2img,用于图像的分割和合并。最后,还定义了一个Merge_Block类,用于将图像特征映射到较低维度的特征。
根据以上分析,对程序的整体功能和构架进行概括如下:
该油气管道设备泄露检测系统使用了多种深度学习模型和算法,包括可变形大核注意力D-LKA-Attention、ConvNeXt V2、EfficientFormerV2、EfficientViT、Fasternet、LSKNet、RepVIT、RevCol、SwinTransformer、VanillaNet等。程序包含了训练、预测、导出模型、用户界面等功能。
下表整理了每个文件的功能:
文件 | 功能 |
---|---|
export.py | 导出模型的脚本 |
predict.py | 模型预测的脚本 |
train.py | 模型训练的脚本 |
ui.py | 图形用户界面的脚本 |
backbone\convnextv2.py | ConvNeXt V2模型的构建 |
backbone\CSwomTramsformer.py | CSwomTramsformer模型的构建 |
backbone\EfficientFormerV2.py | EfficientFormerV2模型的构建 |
backbone\efficientViT.py | EfficientViT模型的构建 |
backbone\fasternet.py | Fasternet模型的构建 |
backbone\lsknet.py | LSKNet模型的构建 |
backbone\repvit.py | RepVIT模型的构建 |
backbone\revcol.py | RevCol模型的构建 |
backbone\SwinTransformer.py | SwinTransformer模型的构建 |
backbone\VanillaNet.py | VanillaNet模型的构建 |
extra_modules\afpn.py | AFPN模块的实现 |
extra_modules\attention.py | 注意力模块的实现 |
extra_modules\block.py | 基础块模块的实现 |
extra_modules\dynamic_snake_conv.py | 动态蛇卷积模块的实现 |
extra_modules\head.py | 模型头部模块的实现 |
extra_modules\kernel_warehouse.py | 卷积核仓库模块的实现 |
extra_modules\orepa.py | OREPA模块的实现 |
extra_modules\rep_block.py | RepBlock模块的实现 |
extra_modules\RFAConv.py | RFAConv模块的实现 |
models\common.py | 通用模型的实现 |
models\experimental.py | 实验性模型的实现 |
models\tf.py | TensorFlow模型的实现 |
models\yolo.py | YOLO模型的实现 |
ultralytics… | Ultralytics库的实现 |
utils… | 工具 |
YOLOv8是一种最新的SOTA算法,提供了N/S/M/L/X尺度的不同大小模型,以满足不同场景的需求。本章对算法网络的新特性进行简要介绍。
1)骨干网络和Neck
开发者设计了C2f模块对CSPDarkNet 53和PAFPN进行改造。相比C3模块,C2f模块拥有更多的分支跨层链接,使模型的梯度流更加丰富,显著增强了模型的特征提取能力。
2)Head部分
Head部分采用无锚框设计,将分类任务和回归任务进行了解耦,独立的分支将更加专注于其所负责的特征信息。
3)损失计算
模型使用CIOU Loss作为误差损失函数,并通过最小化DFL进一步提升边界框的回归精度。同时模型采用了TaskAlignedAssigner样本分配策略,以分类得分和IOU的高阶组合作为指标指导正负样本选择,实现了高分类得分和高IOU的对齐,有效地提升了模型的检测精度。
自2010年代中期以来,卷积神经网络(CNNs)已成为许多计算机视觉应用的首选技术。它们能够从原始数据中自动提取复杂的特征表示,无需手动进行特征工程,这引起了医学图像分析社区的极大兴趣。许多成功的CNN架构,如U-Net、全卷积网络、DeepLab或SegCaps(分割胶囊),已经被开发出来。这些架构在语义分割任务中取得了巨大成功,先前的最新方法已经被超越。
在计算机视觉研究中,不同尺度下的目标识别是一个关键问题。在CNN中,可检测目标的大小与相应网络层的感受野尺寸密切相关。如果一个目标扩展到超出这个感受野的边界,这可能会导致欠分割结果。相反,与目标实际大小相比使用过大的感受野可能会限制识别,因为背景信息可能会对预测产生不必要的影响。
解决这个问题的一个有希望的方法涉及在并行使用具有不同尺寸的多个Kernel,类似于Inception块的机制。然而,由于参数和计算要求的指数增长,将Kernel大小增加以容纳更大的目标在实践中受到限制。因此,出现了各种策略,包括金字塔池化技术和不同尺度的扩张卷积,以捕获多尺度的上下文信息。
另一个直观的概念涉及将多尺度图像金字塔或它们的相关特征表示直接纳入网络架构。然而,这种方法存在挑战,特别是在管理训练和推理时间方面的可行性方面存在挑战。在这个背景下,使用编码器-解码器网络,如U-Net,已被证明是有利的。这样的网络在较浅的层中编码外观和位置,而在更深的层中,通过神经元的更广泛的感受野捕获更高的语义信息和上下文信息。
一些方法将来自不同层的特征组合在一起,或者预测来自不同尺寸的层的特征以使用多尺度的信息。此外,出现了从不同尺度的层中预测特征的方法,有效地实现了跨多个尺度的见解整合。然而,大多数编码器-解码器结构面临一个挑战:它们经常无法在不同尺度之间保持一致的特征,并主要使用最后一个解码器层生成分割结果。
语义分割是一项任务,涉及根据预定义的标签集为图像中的每个像素预测语义类别。这项任务要求提取高级特征同时保留初始的空间分辨率。CNNs非常适合捕获局部细节和低级信息,尽管以忽略全局上下文为代价。视觉Transformer(ViT)架构已经成为解决处理全局信息的视觉任务的关键,包括语义分割,取得了显著的成功。
ViT的基础是注意力机制,它有助于在整个输入序列上聚合信息。这种能力使网络能够合并远程的上下文提示,超越了CNN的有限感受野尺寸。然而,这种策略通常会限制ViT有效建模局部信息的能力。这种局限可能会妨碍它们检测局部纹理的能力,这对于各种诊断和预测任务至关重要。这种缺乏局部表示可以归因于ViT模型处理图像的特定方式。
ViT模型将图像分成一系列Patch,并使用自注意力机制来模拟它们之间的依赖关系。这种方法可能不如CNN模型中的卷积操作对感受野内提取局部特征有效。ViT和CNN模型之间的这种图像处理方法的差异可能解释了CNN模型在局部特征提取方面表现出色的原因。
近年来,已经开发出创新性方法来解决Transformer模型内部局部纹理不足的问题。其中一种方法是通过互补方法将CNN和ViT特征结合起来,以结合它们的优势并减轻局部表示的不足。TransUNet是这种方法的早期示例,它在CNN的瓶颈中集成了Transformer层,以模拟局部和全局依赖关系。HiFormer提出了一种解决方案,将Swin Transformer模块和基于CNN的编码器结合起来,生成两个多尺度特征表示,通过Double-Level Fusion模块集成。UNETR使用基于Transformer的编码器和CNN解码器进行3D医学图像分割。CoTr和TransBTS通过Transformer在低分辨率阶段增强分割性能,将CNN编码器和解码器连接在一起。
增强局部特征表示的另一种策略是重新设计纯Transformer模型内部的自注意力机制。在这方面,Swin-Unet在U形结构中集成了一个具有线性计算复杂性的Swin Transformer块作为多尺度 Backbone 。MISSFormer采用高效Transformer来解决视觉Transformer中的参数问题,通过在输入块上进行不可逆的降采样操作。D-Former引入了一个纯Transformer的管道,具有双重注意模块,以分段的方式捕获细粒度的局部注意和与多元单元的交互。然而,仍然存在一些特定的限制,包括计算效率低下,如TransUNet模型所示,对CNN Backbone 的严重依赖,如HiFormer所观察到的,以及对多尺度信息的忽略。
此外,目前的分割架构通常采用逐层处理3D输入 volumetric 的方法,无意中忽视了相邻切片之间的潜在相关性。这一疏忽限制了对 volumetric 信息的全面利用,因此损害了定位精度和上下文集成。此外,必须认识到,医学领域的病变通常在形状上发生变形。因此,用于医学图像分析的任何学习算法都必须具备捕捉和理解这些变形的能力。与此同时,该算法应保持计算效率,以便处理3D volumetric数据。
为了解决上述提到的挑战,作者提出了一个解决方案,即可变形大卷积核注意力模块(Deformable LKA module),它是作者网络设计的基本构建模块。这个模块明确设计成在有效处理上下文信息的同时保留局部描述符。作者的架构在这两个方面的平衡增强了实现精确语义分割的能力。
值得注意的是,参考该博客引入了一种基于数据的感受野的动态适应,不同于传统卷积操作中的固定滤波器Mask。这种自适应方法使作者能够克服与静态方法相关的固有限制。这种创新方法还扩展到了D-LKA Net架构的2D和3D版本的开发。
在3D模型的情况下,D-LKA机制被量身定制以适应3D环境,从而实现在不同 volumetric 切片之间无缝信息交互。最后,作者的贡献通过其计算效率得到进一步强调。作者通过仅依靠D-LKA概念的设计来实现这一点,在各种分割基准上取得了显著的性能,确立了作者的方法作为一种新的SOTA方法。
在本节中,作者首先概述方法论。首先,作者回顾了由Guo等人引入的大卷积核注意力(Large Kernel Attention,LKA)的概念。然后,作者介绍了作者对可变形LKA模块的创新探索。在此基础上,作者介绍了用于分割任务的2D和3D网络架构。
大卷积核提供了与自注意力机制类似的感受野。可以通过使用深度卷积、深度可扩展卷积和卷积来构建大卷积核,从而减少了参数和计算量。构建输入维度为和通道数的卷积核的深度卷积和深度可扩展卷积的卷积核大小的方程如下:
具有卷积核大小和膨胀率。参数数量和浮点运算(FLOPs)的计算如下:
FLOPs的数量与输入图像的大小成线性增长。参数的数量随通道数和卷积核大小的增加而呈二次增长。然而,由于它们通常都很小,因此它们不是限制因素。
为了最小化对于固定卷积核大小K的参数数量,可以将方程3对于膨胀率的导数设定为零:
例如,当卷积核大小为时,结果是。将这些公式扩展到3D情况是直接的。对于大小为和通道数C的输入,3D情况下参数数量和FLOPs 的方程如下:
利用大卷积核进行医学图像分割的概念通过引入可变形卷积得以扩展。可变形卷积可以通过整数偏移自由调整采样网格以进行自由变形。额外的卷积层从特征图中学习出变形,从而创建一个偏移场。基于特征本身学习变形会导致自适应卷积核。这种灵活的卷积核形状可以提高病变或器官变形的表示,从而增强了目标边界的定义。
负责计算偏移的卷积层遵循其相应卷积层的卷积核大小和膨胀。双线性插值用于计算不在图像网格上的偏移的像素值。如图2所示,D-LKA模块可以表示为:
其中输入特征由表示,。表示为注意力图,其中每个值表示相应特征的相对重要性。运算符 表示逐元素乘法运算。值得注意的是,LKA不同于传统的注意力方法,它不需要额外的规范化函数,如或。这些规范化函数往往忽视高频信息,从而降低了基于自注意力的方法的性能。
在该方法的2D版本中,卷积层被可变形卷积所替代,因为可变形卷积能够改善对具有不规则形状和大小的目标的捕捉能力。这些目标在医学图像数据中常常出现,因此这种增强尤为重要。
然而,将可变形LKA的概念扩展到3D领域会带来一定的挑战。主要的约束来自于需要用于生成偏移的额外卷积层。与2D情况不同,由于输入和输出通道的性质,这一层无法以深度可分的方式执行。在3D环境中,输入通道对应于特征,而输出通道扩展到,其中是卷积核的大小。大卷积核的复杂性导致沿第3D的通道数扩展,导致参数和FLOPs大幅增加。因此,针对3D情况采用了另一种替代方法。在现有的LKA框架中,深度卷积之后引入了一个单独的可变形卷积层。这种战略性的设计调整旨在减轻扩展到3D领域所带来的挑战。
2D网络的架构如图1所示。第一变种使用MaxViT作为编码器组件,用于高效特征提取,而第二变种则结合可变形LKA层进行更精细、卓越的分割。
在更正式的描述中,编码器生成4个分层输出表示。首先,卷积干扰将输入图像的维度减小到。随后,通过4个MaxViT块的4个阶段进行特征提取,每个阶段后跟随降采样层。随着过程进展到解码器,实施了4个阶段的D-LKA层,每个阶段包含2个D-LKA块。然后,应用Patch扩展层以实现分辨率上采样,同时减小通道维度。最后,线性层负责生成最终的输出。
2D D-LKA块的结构包括LayerNorm、可变形LKA和多层感知器(MLP)。积分残差连接确保了有效的特征传播,即使在更深层也是如此。这个安排可以用数学方式表示为:
其中输入特征,层归一化LN,可变形LKA注意力,深度卷积,线性层和GeLU激活函数。
3D网络架构如图1所示,采用编码器-解码器设计进行分层结构化。首先,一个Patch嵌入层将输入图像的维度从()减小到()。在编码器中,采用了3个D-LKA阶段的序列,每个阶段包含3个D-LKA块。在每个阶段之后,通过降采样步骤将空间分辨率减半,同时将通道维度加倍。中央瓶颈包括另一组2个D-LKA块。解码器结构与编码器相对称。
为了将特征分辨率加倍,同时减少通道数,使用转置卷积。每个解码器阶段都使用3个D-LKA块来促进远距离特征依赖性。最终的分割输出由一个卷积层产生,后面跟随一个卷积层以匹配特定类别的通道要求。
为了建立输入图像和分割输出之间的直接连接,使用卷积形成了一个跳跃连接。额外的跳跃连接根据简单的加法对来自其他阶段的特征进行融合。最终的分割图是通过和卷积层的组合产生的。
3D D-LKA块包括层归一化,后跟D-LKA注意力,应用了残差连接的部分。随后的部分采用了一个卷积层,后面跟随一个卷积层,两者都伴随着残差连接。这个整个过程可以总结如下:
带有输入特征 、层归一化 、可变形 LKA 、卷积层 和输出特征 的公式。是指一个前馈网络,包括2个卷积层和激活函数。
表7显示了普通卷积和构建卷积的参数数量比较。尽管标准卷积的参数数量在通道数较多时急剧增加,但分解卷积的参数总体较低,并且增长速度不那么快。
与分解卷积相比,可变形分解卷积增加了大量参数,但仍然明显小于标准卷积。可变形卷积的主要参数是由偏移网络创建的。在这里,作者假设可变形深度卷积的Kernel大小为(5,5),可变形深度空洞卷积的Kernel大小为(7,7)。这导致了21×21大小的大Kernel的最佳参数数量。更高效地生成偏移量的方法将大大减少参数数量。
值得注意的是,引入可变形LKA确实会增加模型的参数数量和每秒的浮点运算次数(FLOPS)。然而,重要的是强调,这增加的计算负载不会影响作者模型的整体推理速度。
相反,对于Batch-size > 1,作者甚至观察到推理时间的减少,如图7所示。例如,基于作者的广泛实验,作者观察到对于Batch-size为16,具有可变形卷积和没有可变形卷积的推理时间分别为8.01毫秒和17.38毫秒。作者认为这是由于在2D中对可变形卷积的高效实现所致。为了测量时间,使用了大小为()的随机输入。在GPU热身周期50次迭代之后,网络被推断了1000次。测量是在NVIDIA RTX 3090 GPU上进行的。
为了充分利用性能与参数之间的权衡关系,作者在图8中可视化了在Synapse 2D数据集上报告的DSC和HD性能以及基于参数数量的内存消耗。D-LKA Net引入了相当多的参数,约为101M。这比性能第二好的方法ScaleFormer使用的111.6M参数要少。
与更轻量级的DAEFormer模型相比,作者实现了更好的性能,这证明了参数增加的合理性。大多数参数来自于MaxViT编码器;因此,将编码器替换为更高效的编码器可以减少模型参数。值得注意的是,在此可视化中,作者最初将HD和内存值都归一化到[0, 100]范围内。随后,作者将它们从100缩小,以增强更高值的表示。
训练损失趋势:观察box_loss, obj_loss, cls_loss随着epoch的变化情况,以了解模型训练过程中损失函数的优化情况。
精确度和召回率:分析模型的precision和recall随epoch的变化,以评估模型对正类样本的检测能力。
平均精度(mAP):分析mAP_0.5和mAP_0.5:0.95随epoch的变化,这是衡量模型整体性能的关键指标。
验证损失趋势:检查val/box_loss, val/obj_loss, val/cls_loss的变化,以评估模型在未见数据上的泛化能力。
学习率变化:观察x/lr0, x/lr1, x/lr2随epoch的变化,理解学习率调整策略对训练过程的影响。
现在,我将生成这些图表并对每个部分进行简要分析。
import matplotlib.pyplot as plt
# Setting up the plot style
plt.style.use('seaborn-darkgrid')
palette = plt.get_cmap('Set1')
# Function to plot the data
def plot_data(data, columns, title, ylabel):
plt.figure(figsize=(12, 6))
for i, column in enumerate(columns, 1):
plt.plot(data['epoch'], data[column], marker='', color=palette(i), linewidth=2.5, alpha=0.9, label=column)
plt.title(title, loc='left', fontsize=12, fontweight=0, color='orange')
plt.xlabel("Epoch")
plt.ylabel(ylabel)
plt.legend(loc='upper right', ncol=2)
# Plotting Training Loss Trends
plot_data(data, ['train/box_loss', 'train/obj_loss', 'train/cls_loss'], 'Training Loss Trends', 'Loss')
# Plotting Precision and Recall
plot_data(data, ['metrics/precision', 'metrics/recall'], 'Precision and Recall Trends', 'Value')
# Plotting Mean Average Precision (mAP)
plot_data(data, ['metrics/mAP_0.5', 'metrics/mAP_0.5:0.95'], 'Mean Average Precision (mAP) Trends', 'mAP')
# Plotting Validation Loss Trends
plot_data(data, ['val/box_loss', 'val/obj_loss', 'val/cls_loss'], 'Validation Loss Trends', 'Loss')
# Plotting Learning Rate Trends
plot_data(data, ['x/lr0', 'x/lr1', 'x/lr2'], 'Learning Rate Trends', 'Learning Rate')
plt.show()
训练损失趋势:在这张图中,我们可以看到 box_loss、obj_loss、cls_loss 随着训练周期的增加而逐渐下降。这表明模型在学习过程中逐渐改善,损失函数值在减小,这是一个良好的训练指标。
精确度和召回率:精确度(precision)和召回率(recall)是评估分类模型性能的重要指标。理想情况下,随着训练的进行,这两个指标都应该提高。在您的模型中,我们可以看到这两个指标随着时间的推移都有所提高,尽管波动较大,这表明模型在某种程度上能够正确识别正类样本。
平均精度(mAP):mAP 是衡量对象检测模型性能的关键指标,尤其是在不同的IoU阈值下。mAP_0.5 和 mAP_0.5:0.95 的提高表明您的模型在检测精度方面表现良好,适应不同程度的严格度。
验证损失趋势:验证损失(val/box_loss, val/obj_loss, val/cls_loss)的趋势也是判断模型泛化能力的重要指标。理想情况下,这些损失值应该随着训练周期的增加而减小。在您的模型中,验证损失呈下降趋势,这表明模型在未见数据上的表现也在提高。
学习率变化:学习率(x/lr0, x/lr1, x/lr2)的调整对模型的训练过程有重要影响。您的模型中学习率的逐渐提高可能是采用了某种适应性学习率调整策略,以帮助模型更好地适应训练过程。
下图完整源码&数据集&环境部署视频教程&自定义UI界面
参考博客《【改进YOLOv8】融合可变形大核注意力D-LKA-Attention的油气管道设备泄露检测系统》
[1][佟淑娇](http
s://s.wanfangdata.com.cn/paper?q=%E4%BD%9C%E8%80%85:%22%E4%BD%9F%E6%B7%91%E5%A8%87%22),王如君,李应波,等.基于VPL的输油管道实时泄漏检测系统[J].中国安全生产科学技术.2017,(4).DOI:10.11731/j.issn.1673-193x.2017.04.019 .
[2]刘兴华,苏盈盈,李景哲,等.基于KICA的石油管道泄漏检测方法研究[J].西南师范大学学报(自然科学版).2016,(6).DOI:10.13718/j.cnki.xsxb.2016.06.021 .
[3]李健,陈世利,黄新敬,等.长输油气管道泄漏监测与准实时检测技术综述[J].仪器仪表学报.2016,(8).DOI:10.3969/j.issn.0254-3087.2016.08.006 .
[4]刘炜,刘宏昭.应用模糊熵和相似度的管道泄漏检测与定位[J].机械科学与技术.2016,(3).DOI:10.13433/j.cnki.1003-8728.2016.0320 .
[5]石岗,孙良.恒压型边界液体管道泄漏信号检测仿真研究[J].计算机仿真.2016,(7).DOI:10.3969/j.issn.1006-9348.2016.07.098 .
[6]刘志勇,刘梅清,蒋劲,等.基于瞬变流频率响应分析的输水管道泄漏检测[J].水利学报.2015,(11).DOI:10.13243/j.cnki.slxb.20141408 .
[7]龚骏,税爱社,包建明,等.多工况下基于RBF神经网络的管道泄漏检测[J].油气储运.2015,(7).DOI:10.6047/j.issn.1000-8241.2015.07.017 .
[8]郝永梅,徐明,邢志祥,等.广义回归神经网络在燃气管道泄漏检测中的应用[J].消防科学与技术.2015,(7).DOI:10.3969/j.issn.1009-0029.2015.07.035 .
[9]刘喆,周建伟,施志雄,等.塘燕复线泄漏检测系统检测精度改进方法[J].油气储运.2015,(7).DOI:10.6047/j.issn.1000-8241.2015.07.025 .
[10]杨凯,陈勇,刘焕淋.基于FBG传感网络的输油管道泄漏检测方法[J].半导体光电.2016,(5).DOI:10.16818/j.issn1001-5868.2016.05.032 .