浅冲一下

目标检测第三篇：基于SSD的目标检测算法

文章目录

SSD简介
网络搭建
- 卷积块
- 下采样块
- 主干网
- 多层特征提起层
- 输出头
数据处理
- 形成训练TXT
- Dataset
- DataLoader
- Anchors
- - 生成先验框
  - 匹配先验框
  - 位置 offset
损失函数
训练
代码及参考

SSD简介

SSD，全称Single Shot MultiBox Detector，是Wei Liu在ECCV 2016上提出的一种目标检测算法，截至目前是主要的检测框架之一，相比Faster RCNN有明显的速度优势，相比YOLO又有明显的mAP优势，是在 RCNN 系列和 YOLO 系列之外属于单阶段的另外一系列的奠基之作。
论文链接：https://arxiv.org/pdf/1512.02325.pdf
官方代码：https://github.com/weiliu89/caffe/tree/ssd

SSD的主要设计理念：根据不同的特征层设置不同大小的先验框，在不同的特征层上建立检测头和分类头，以满足大、小目标检测的需求。关于SSD的具体的技术细节，网上大神给出的解释很多，这里不再赘述。
网络架构如下：

本文主要是使用 pytorch 对 SSD 进行简单的实现。包括各个模块的讲解、数据的前、后处理、训练参数解释等。

网络搭建

论文中以 VGG16 为主干网络，替换了 VGG16 5_3 层和后面的部分，换成了 3*3 的卷积，再加上多尺度特征层，来实现多个检测和分类头。

卷积块

论文中以卷积 + 激活函数为一个卷积标准模块，这里实现的时候加上了 BatchNorm，具体实现如下：

def conv_blk(in_channels, out_channels, stride=1, padding=1):
    """卷积块"""
    return nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride,padding=padding),
                         nn.BatchNorm2d(out_channels),
                         nn.ReLU())

下采样块

论文中以池化层作为下采样层，来实现特征层的大小减半，这里实现的时候，将卷积 + 池化层作为一个标准下采样模块，具体实现如下：

def down_sample_blk(in_channels, out_channels, ceil_mode = False):
    """下采样块"""
    return nn.Sequential(conv_blk(in_channels, out_channels),
                         nn.MaxPool2d(2, ceil_mode=ceil_mode))

主干网

使用上面两个模块，按照 VGG16 网络的基本架构实现主干网：具体实现代码如下：

def backbone(input_shape):
    """搭建vgg16主干网络"""
    return nn.Sequential(
        conv_blk(input_shape[0], 64),
        down_sample_blk(64, 64),
        conv_blk(64, 128),
        down_sample_blk(128, 128),
        conv_blk(128, 256),
        conv_blk(256, 256),
        down_sample_blk(256, 512, ceil_mode=True),
        conv_blk(512, 512),
        conv_blk(512, 512),
        conv_blk(512, 512) # vgg16 4-3层
    )

多层特征提起层

主干网仅仅到 vgg16 4-3层，后面的我们需要加上特征提取层，来实现输出不同特征层的需求，具体实现代码如下：

class extra_feature(nn.Module):
    """根据backbone输出的特征图，生成额外的特征图"""
    def __init__(self, input_shape) -> None:
        super().__init__()
        # (3, 300, 300) -> (512, 38, 38)
        self.out_layer1 = backbone(input_shape)

        # (512, 38, 38) -> (512, 19, 19)
        self.out_layer2 = nn.Sequential(
            nn.MaxPool2d(2, stride=1, padding=1),
            conv_blk(512, 512),
            conv_blk(512, 512),
            down_sample_blk(512, 521),
            conv_blk(521, 1024),
            conv_blk(1024, 1024)
        )

        # (512, 19, 19) -> (256, 10, 10)
        self.out_layer3 = nn.Sequential(
            conv_blk(1024, 256),
            conv_blk(256, 512, stride=2)
        )

        # (256, 10, 10) -> (256, 5, 5)
        self.out_layer4 = nn.Sequential(
            conv_blk(512, 128),
            conv_blk(128, 256, stride=2)
        )

        # (256, 5, 5) -> (256, 3, 3)
        self.out_layer5 = nn.Sequential(
            conv_blk(256, 128),
            conv_blk(128, 256, stride=2)
        )

        # (256, 3, 3) -> (256, 1, 1)
        self.out_layer6 = nn.Sequential(
            conv_blk(256, 128),
            nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=0)
        )
    def forward(self, x):
        out1 = self.out_layer1(x)
        out2 = self.out_layer2(out1)
        out3 = self.out_layer3(out2)
        out4 = self.out_layer4(out3)
        out5 = self.out_layer5(out4)
        out6 = self.out_layer6(out5)
        return out1, out2, out3, out4, out5, out6

经过 extra_feature 层，我们将会得到六层特征层的输出，对应上面图片的六层输出层，特征层的大小依次为：（38, 38）、（19， 19）、（10， 10）、（5， 5）、（3， 3）、（1， 1）。

输出头

得到六个输出层之后，我们需要对六层输出的通道数目进行调整，使其为我们需要分类的数目和需要输出的检测框的数目的大小。具体代码如下：

def mutiboxhead(num_classes):
    """搭建SSD多尺度检测头"""
    num_anchors = [4, 6, 6, 6, 4, 4] # 每个尺度的锚框数量
    num_channels = [512, 1024, 512, 256, 256, 256] # 每个尺度的通道数量
    cls_predictors = [] # 类别预测器
    bbox_predictors = [] # 边界框预测器
    for i in range(6):
        cls_predictors.append(nn.Conv2d(num_channels[i], num_anchors[i] * (num_classes + 1), kernel_size=3, padding=1))
        bbox_predictors.append(nn.Conv2d(num_channels[i], num_anchors[i] * 4, kernel_size=3, padding=1))
    cls_predictors = nn.ModuleList(cls_predictors)
    bbox_predictors = nn.ModuleList(bbox_predictors)
    return cls_predictors, bbox_predictors

根据上面构建的所有东西来实现我们的SSD网络，实现代码如下：

class SSD(nn.Module):
    def __init__(self, input_shape=(3, 300, 300), num_classes=20, **kwargs):
        super(SSD, self).__init__(**kwargs)
        self.num_classes = num_classes
        self.input_shape = input_shape
        self.extra_feature = extra_feature(input_shape)
        self.cls_predictors, self.bbox_predictors = mutiboxhead(num_classes)
    
    def forward(self, x):
        x = self.extra_feature(x)
        cls_preds = []
        bbox_preds = []
        for i, feature in enumerate(x):
            cls_preds.append(self.cls_predictors[i](feature).permute(0, 2, 3, 1)) # (batch_size, num_classes, h, w) -> (batch_size, h, w, num_classes)
            bbox_preds.append(self.bbox_predictors[i](feature).permute(0, 2, 3, 1)) # (batch_size, 4, h, w) -> (batch_size, h, w, 4)
        
        bbox_preds = torch.cat([pred.reshape(pred.shape[0], -1, 4) for pred in bbox_preds], dim=1) # (batch_size, num_anchors, 4)
        cls_preds = torch.cat([pred.reshape(pred.shape[0], -1, self.num_classes + 1) for pred in cls_preds], dim=1) # (batch_size, num_anchors, num_classes + 1)
        return bbox_preds, cls_preds # (batch_size, num_anchors, 4), (batch_size, num_anchors, num_classes + 1)

如果对搭建的网络参数或者输出的形状不是很放心的话，可以输出和跟踪一下看看具体的网络的架构。

if __name__ == "__main__":
    x = torch.randn(1, 3, 300, 300)
    ssd = SSD((3, 300, 300), 20)
    cls_preds, bbox_preds = ssd(x)
    print(cls_preds[0].shape, bbox_preds[0].shape)

数据处理

一般情况下，我们使用 COCO 或者 VOC 数据集进行训练，这里以 VOC 数据进行讲解，如何加载数据。

形成训练TXT

VOC 的标签为 XML 文件，在网络加载数据的时候，不是很方便，这里将其处理为 TXT 文件，方便我们读取。处理的结果如下：

每一行分别为：图片的路径，x_min y_min x_max y_max label … x_min y_min x_max y_max label
在后面加载数据的时候，直接读取即可，稍微方便一点。
处理的代码如下;

# 从 voc 数据集中读取数据，并生成可用于训练、验证和测试txt文件
import os
try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

def get_class_names(class_names_path):
    """
    获取数据集的类别名字
    Args:
        class_names_path (str): 数据集路径
    Returns:
        class_names (list): 类别名字列表
    """
    with open(class_names_path, "r") as f:
        class_names = f.readlines()
    class_names = {c.strip(): i  for i, c in enumerate(class_names)}

    return class_names, len(class_names)

def write_txt(txt_path, JPEGImages_path, annotation_path, txt_f, name_dict):
    """
    将txt文件写入到txt_path
    Args:
        txt_path (str): txt文件保存路径
        txt_f (list): txt文件内容
    """
    with open(txt_path, "r") as f:
        img_name_lists = f.readlines()
        train_name_lists = [img_name.strip() for img_name in img_name_lists]
        for train_name in train_name_lists:
            txt_f.write(os.path.join(JPEGImages_path, train_name + ".jpg").replace('\\', '/'))
            xml_name = train_name + ".xml"
            xml_path = os.path.join(annotation_path, xml_name)
            tree = ET.parse(xml_path)
            root = tree.getroot()
            for obj in root.iter("object"):
                cls = name_dict[obj.find("name").text]
                xmlbox = obj.find("bndbox")
                xmin = xmlbox.find("xmin").text
                ymin = xmlbox.find("ymin").text
                xmax = xmlbox.find("xmax").text
                ymax = xmlbox.find("ymax").text
                txt_f.write(f",{xmin} {ymin} {xmax} {ymax} {cls}")
            txt_f.write("\n")

def convert_annotation_2_txt(dataset_path, txt_path):
    """
    将voc数据集的xml标注转换为txt格式
    Args:
        dataset_path (str): 数据集路径
        txt_path (str): txt文件保存路径
    """
    annotation_path = os.path.join(dataset_path, "Annotations")
    ImageSets_path = os.path.join(dataset_path, "ImageSets/Main")
    JPEGImages_path = os.path.join(dataset_path, "JPEGImages")

    train_txt_f = open(os.path.join(txt_path, "train.txt"), "w")
    val_txt_f = open(os.path.join(txt_path, "val.txt"), "w")
    test_txt_f = open(os.path.join(txt_path, "test.txt"), "w")

    name_dict, _ = get_class_names(os.path.join(txt_path, "voc_classes.txt"))

    write_txt(os.path.join(ImageSets_path, "train.txt"), JPEGImages_path, annotation_path, train_txt_f, name_dict)
    train_txt_f.close()

    write_txt(os.path.join(ImageSets_path, "val.txt"), JPEGImages_path, annotation_path, val_txt_f, name_dict)
    val_txt_f.close()

    write_txt(os.path.join(ImageSets_path, "test.txt"), JPEGImages_path, annotation_path, test_txt_f, name_dict)
    test_txt_f.close()
    
if __name__ == "__main__":
    convert_annotation_2_txt("你的\VOC07+12", "输出txt想要保存的地点")

运行完以上程序，会形成 train.txt, test.txt val.txt，分别对应训练集、验证集和测试集。训练的时候读取对应的txt即可。

Dataset

获得完上面的 txt，我们就可以编写自己的 Dataset 函数，形成自己在网络训练时候的数据加载方式。具体代码如下：

# 加载数据集的函数
class SSDDataset(Dataset):
    """
    定义自己的数据集加载方式
    """
    def __init__(self, data_lines, transform=None):
        """
        初始化文件路径和数据增强所需的信息
        Args:
            data (list): 文件路径列表
            transform: torchvision.transforms
        """
        self.data_lines = data_lines
        self.transform = transform

    def __len__(self):
        """
        返回数据集的总长度
        Returns:
            length (int): 数据集的总长度
        """
        return len(self.data_lines)
    
    def __getitem__(self, index):
        """
        通过索引返回一个数据
        Args:
            index (int): 索引
        Returns:
            img (Tensor): 图像数据
            label (Tensor): 标签数据
        """
        data_line = self.data_lines[index].split(",")
        image       = np.array((Image.open(data_line[0]).convert("RGB")))
        bboxes      = np.array([list(map(int, box.split(' '))) for box in data_line[1:]])

        if self.transform is not None:
            augmentations = self.transform(image=image, bboxes=bboxes)
            image = augmentations["image"]
            bboxes = augmentations["bboxes"]

        return image, bboxes

也就是通过输入的 index，来获取图片和对应的标签信息， transform 是是否采用数据增强，数据增强的具体代码如下：

train_transforms = A.Compose(
    [
        # 保持图片的比例进行图片的放大
        A.LongestMaxSize(max_size=300),
        # 不保证图片比例进行放大，需要的时候会对图片添加 0 
        A.PadIfNeeded(
            min_height=300, min_width=300, border_mode=cv2.BORDER_CONSTANT
        ),
        # 进行正则化
        A.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010], max_pixel_value=255,),
        # 转变为 tensor
        ToTensorV2(),
    ],
    # 对检测框进行调整
    bbox_params=A.BboxParams(format="pascal_voc", label_fields=[],check_each_transform=False),
) 

val_transforms = A.Compose(
    [
        # 保持图片的比例进行图片的放大
        A.LongestMaxSize(max_size=300),
        # 不保证图片比例进行放大，需要的时候会对图片添加 0 
        A.PadIfNeeded(
            min_height=300, min_width=300, border_mode=cv2.BORDER_CONSTANT
        ),
        # 进行正则化
        A.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010], max_pixel_value=255,),
        # 转变为 tensor
        ToTensorV2(),
    ],
    # 对检测框进行调整
    bbox_params=A.BboxParams(format="pascal_voc", label_fields=[], check_each_transform=False),
)

因为我们使用的格式为 pascal_voc 的格式，所以这里的我们选择的增强方式为 pascal_voc，如果使用的为 coco 的话，换成 coco 即可。
一般情况下，在训练的时候和在验证的时候采用的数据增强手段是不一样的，训练的时候，我们强调数据的多样性，会使用较多的数据增强的手段，为反转、随机剪裁、色域变换等，但是在验证的时候，我们强调当前网络的性能，一般采取较少的数据增强手段。

注意：我们在对图片进行数据增强的时候，要保证检测的一致性。

DataLoader

刚刚只是定义了如何获取图片，但是如何设置为可以供 pytorch 使用，需要放到 DataLoader 中，形成迭代器，来实现不间断的拿取 batch_size 的图片。
具体代码如下：

def load_data(root_path, batch_size=8, num_workers=0):
    # 第一步：加载数据集
    with open(os.path.join(root_path, "train.txt"), "r") as f:
        train_lines = f.readlines()
    with open(os.path.join(root_path, "train.txt"), "r") as f:
        val_lines = f.readlines()

    train_dataset = SSDDataset(train_lines, train_transforms)
    val_dataset = SSDDataset(val_lines, val_transforms)
    
    train_iter = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=num_workers, collate_fn=collate_fn)
    test_iter = DataLoader(val_dataset, batch_size=batch_size, shuffle=True, num_workers=num_workers, collate_fn=collate_fn)
    return train_iter, test_iter

def collate_fn(batch):
    """
    自定义一个函数，将一个batch的数据拼接起来
    Args:
        batch (list): batch数据
    Returns:
        images (Tensor): 图像数据
        bboxes (list): 边界框数据
    """
    images = []
    bboxes = []
    for image, bbox in batch:
        images.append(image)
        bboxes.append(torch.tensor(bbox))
    return torch.stack(images, dim=0), bboxes

Anchors

生成先验框

SSD 网络需要生成在不同的特征层生成先验框，以满足对不同大、小物体检测的需求；具体实现代码如下：

# SSD 生成 anchors 的方式, 中心宽高的方式
def generate_anchors(feature_maps_size=[38, 19, 10, 5, 3, 1], image_size=300, steps=[8, 16, 32, 64, 100, 300], 
                    min_sizes=[30, 60, 111, 162, 213, 264], max_sizes=[60, 111, 162, 213, 264, 315], 
                    aspect_ratios=[[2], [2, 3], [2, 3], [2, 3], [2], [2]], clip=True):
    mean = []
    for k, f in enumerate(feature_maps_size): #[38, 19, 10, 5, 3, 1],
        for i, j in product(range(f), repeat=2):
            f_k = image_size / steps[k]
            # unit center x,y
            cx = (j + 0.5) / f_k
            cy = (i + 0.5) / f_k

            # aspect_ratio: 1
            # rel size: min_size
            s_k = min_sizes[k] / image_size
            mean += [cx, cy, s_k, s_k]

            # aspect_ratio: 1
            # rel size: sqrt(s_k * s_(k+1))
            s_k_prime = sqrt(s_k * (max_sizes[k]/image_size))
            mean += [cx, cy, s_k_prime, s_k_prime]

            # rest of aspect ratios
            for ar in aspect_ratios[k]:
                mean += [cx, cy, s_k*sqrt(ar), s_k/sqrt(ar)]
                mean += [cx, cy, s_k/sqrt(ar), s_k*sqrt(ar)]
    # back to torch land
    prior_anchors = torch.Tensor(mean).view(-1, 4)  # * image_size ##[8732,4]

    # 对于超出边界的先验框进行裁剪到边界内
    if clip:
        prior_anchors.clamp_(max=1, min=0)
	# 返回的时候转化为 corner 的数据格式，并且乘上 图片 对应的尺度获取真实大小
    return box_center_to_corner(prior_anchors) * image_size

匹配先验框

在训练的时候，我们需要将真实的标签框和先验框进行匹配，来获取训练的正样本。也就是先确保每个标签框有一个先验框负责预测，完成一对一的匹配。如果其他的先验框没有被分配，且和其中某个标签框的 iou 也很大，也将对列为正样本，完成先验框 -> 标签框的多对一的匹配。具体技术细节，请参考：沐神的动手学深度学习的 13.4. 锚框的章节。
具体实现代码如下：

def assign_anchor_to_bbox(ground_truth, anchors, device, iou_threshold=0.5):
    """ 为锚框分配边界框

    Args:
        ground_truth (Tensor): 边界框，形状为 (n, 4)
        anchors (Tensor): 锚框，形状为 (k, 4)
        device (torch.device): 用于分配张量的设备
        iou_threshold (float): 阈值
    Returns:
        Tensor: 所分配的边界框，形状为 (k, 4)
    """
    num_anchors, num_gt_boxes = anchors.shape[0], ground_truth.shape[0]

    # 计算锚框和边界框的交并比
    anchors_boxes_iou = box_iou(anchors, ground_truth)

    # 为每个锚框分配边界框的索引, 形状为 (k, ), 默认为 -1
    anchor_to_bbox_map = torch.full((num_anchors,), -1, dtype=torch.long, device=device)

    # 找到每个 anchors 对应的最大 iou 值和索引
    max_ious, indices = torch.max(anchors_boxes_iou, dim=1)
    
    # 将交并比大于阈值的锚框分配给边界框
    anchor_to_bbox_map[max_ious >= iou_threshold] = indices[max_ious >= iou_threshold]

    # 找到应该丢弃的行和列，也就是找到每一个 gt 真实值匹配的 anchor 所以对应的行和列
    col_discard = torch.full((num_anchors, ), -1)
    row_discard = torch.full((num_gt_boxes,), -1)
    # 每个 iou 较大的 anchor只保留一个gt对应
    for _ in range(num_gt_boxes):
        # 找到目前 iou 最大的位置，因为没有指定维度的话，默认将所有维度参与
        # anchors_boxes_iou 的维度为 ： [num_anchors, num_gt_boxes]
        max_idx = torch.argmax(anchors_boxes_iou)
        # 找到对应的列
        box_idx = (max_idx % num_gt_boxes).long()
        # 找到对应的行
        anc_idx = (max_idx / num_gt_boxes).long()
        # 将对应的 gt 作为 anchor 的真值
        anchor_to_bbox_map[anc_idx] = box_idx
        
        # 取出对应的行和列
        anchors_boxes_iou[:, box_idx] = col_discard
        anchors_boxes_iou[anc_idx, :] = row_discard
    
    return anchor_to_bbox_map

位置 offset

网络并不是直接预测标签的中心点和宽高，那样会增加网络预测的难度，我们预测的时候，先验框相对于标签框的偏移量，包括中心点的偏移量和宽高的偏移量。参考沐神动手学深度的讲解如下;

具体代码如下：

def offset_boxes(c_anc, assigned_bbox, eps=1e-6):
    """根据所分配的边界框来调整锚框

    Args:
        c_anc (Tensor): 锚框，形状为 (n, 4) center 形状
        assigned_bbox (Tensor): 所分配的边界框，形状为 (n, 4) corner 形状
        eps (float): 一个极小值，防止被零整除
    Returns:
        Tensor: 调整后的锚框，形状为 (n, 4)
    """
    c_anc = box_corner_to_center(c_anc)
    c_assigned_bbox = box_corner_to_center(assigned_bbox)
    offset_xy = 10.0 * (c_assigned_bbox[:, :2] - c_anc[:, :2]) / (c_anc[:, 2:] + eps)
    offset_wh = 5.0 * torch.log((c_assigned_bbox[:, 2:] + eps) / (c_anc[:, 2:] + eps))
    offset = torch.cat([offset_xy, offset_wh], axis=1)
    return offset

这些偏移量将作为训练的时候，真正的标签。

损失函数

有了网络的输出和真正的偏移量的标签，我们就可以定义我们的损失函数了。
关于 SSD 损失讲解，可以参考大神的解释：链接
简单来说，分为两个部分：

前面是置信度损失函数，后面是位置损失函数，中间为权重因子。再详细划分如下：

根据上面公式，定义损失函数如下：

def loc_loss(self, loc_preds, bbox_labels, bbox_masks):
        """计算位置损失

        Args:
            loc_preds (Tensor): 预测的位置结果，形状为 (batch_size, num_anchors, 4)
            bbox_labels (Tensor): 真实的位置标签，形状为 (batch_size, num_anchors, 4)
            bbox_masks (Tensor): 真实的位置标签的掩码，形状为 (batch_size, num_anchors, 4)
        Returns:
            Tensor: 位置损失
        """
        # 第一步：计算损失
        return  F.l1_loss(loc_preds * bbox_masks, bbox_labels * bbox_masks, reduction='sum')
    
    def conf_loss(self, conf_preds, cls_labels):
        """计算分类损失

        Args:
            conf_preds (Tensor): 预测的分类结果，形状为 (batch_size, num_anchors, num_classes)
            cls_labels (Tensor): 真实的分类标签，形状为 (batch_size, num_anchors, 1)
        Returns:
            Tensor: 分类损失
        """
        # 第一步：计算正样本的损失
        # 获取正样本的索引
        pos_mask = cls_labels > 1
        # 获取正样本的数量
        num_pos = pos_mask.long().sum(dim=1, keepdim=True) # (batch_size, 1)
        # 计算正样本的损失, 交叉熵损失函数的输入为 (N, C) 和 (N, )，其中 N 为样本数量，C 为类别数量，会自动找到(N, C)中的对应的值，计算损失
        pos_loss = F.cross_entropy( conf_preds.reshape(-1, conf_preds.shape[-1])[pos_mask.reshape(-1)], cls_labels[pos_mask])

        # 第二步：计算负样本的损失
        # 获取负样本的索引
        neg_mask = cls_labels == 0
        # 计算负样本的损失
        neg_loss = F.cross_entropy(conf_preds.reshape(-1, conf_preds.shape[-1])[neg_mask.reshape(-1)], cls_labels[neg_mask])
        # 第三步：计算损失
        loss = pos_loss +  neg_loss
        # 返回损失
        return loss

根据上面的损失函数，可以定义我们训练的总的损失函数类：具体代码如下：

class MultiBoxLoss():
    """根据预测的结果计算损失函数"""
    def __init__(self, num_classes, device, alpha=1) -> None:
        super().__init__()
        self.num_classes   = num_classes
        self.image_size    = 300
        self.prior_anchors = generate_anchors()
        self.device        = device
        self.alpha         = alpha

    def __call__(self, net_output, labels):
        """计算损失函数

        Args:
            net_output (tuple): 网络输出，包含回归预测和分类预测，
            形状为 loc_preds:(batch_size, num_anchors, 4), conf_preds: (batch_size, num_anchors, 21)
            
            labels (Tensor): 标签，形状为 (n, 5)，其中 n 是所有边界框的数量, 5 表示 (类别, x, y, w, h)
        Returns:
            Tensor: 损失值
        """
        # 第一步：获取网络输出 (batch_size, num_anchors, 4), (batch_size, num_anchors, 21)
        loc_preds, conf_preds = net_output
        batch_size, device = len(labels), loc_preds.device
        
        num_anchors = self.prior_anchors.shape[0] # self.prior_anchors (num_anchors, 4)

        # 第二步：为不同大小的特征层生成对应的 anchors 找到对应 target 标号, 并且将其转换为相对于 anchor 的偏移量
        bbox_labels, bbox_masks, cls_labels = multibox_target(self.prior_anchors, labels)
        cls_labels = cls_labels.to(device)
        bbox_labels = bbox_labels.to(device)
        bbox_masks = bbox_masks.to(device)

        num_prior_anchors = bbox_masks[:,:, 0].sum() # (batch_size, 1)

        # 第三步：计算损失
        # 将预测的结果转换为 (batch_size, num_anchors, num_classes + 1)， + 1 为背景类
        conf_preds = conf_preds.view(batch_size, num_anchors, self.num_classes + 1)
        
        # 计算分类损失
        cls_loss = self.conf_loss(conf_preds, cls_labels)
        # 计算位置损失
        loc_loss = self.loc_loss(loc_preds, bbox_labels, bbox_masks)

        all_loss = (cls_loss + self.alpha * loc_loss) / num_prior_anchors

        return all_loss
    
    def loc_loss(self, loc_preds, bbox_labels, bbox_masks):
        """计算位置损失

        Args:
            loc_preds (Tensor): 预测的位置结果，形状为 (batch_size, num_anchors, 4)
            bbox_labels (Tensor): 真实的位置标签，形状为 (batch_size, num_anchors, 4)
            bbox_masks (Tensor): 真实的位置标签的掩码，形状为 (batch_size, num_anchors, 4)
        Returns:
            Tensor: 位置损失
        """
        # 第一步：计算损失
        return  F.l1_loss(loc_preds * bbox_masks, bbox_labels * bbox_masks, reduction='sum')
    
    def conf_loss(self, conf_preds, cls_labels):
        """计算分类损失

        Args:
            conf_preds (Tensor): 预测的分类结果，形状为 (batch_size, num_anchors, num_classes)
            cls_labels (Tensor): 真实的分类标签，形状为 (batch_size, num_anchors, 1)
        Returns:
            Tensor: 分类损失
        """
        # 第一步：计算正样本的损失
        # 获取正样本的索引
        pos_mask = cls_labels > 1
        # 获取正样本的数量
        num_pos = pos_mask.long().sum(dim=1, keepdim=True) # (batch_size, 1)
        # 计算正样本的损失, 交叉熵损失函数的输入为 (N, C) 和 (N, )，其中 N 为样本数量，C 为类别数量，会自动找到(N, C)中的对应的值，计算损失
        pos_loss = F.cross_entropy( conf_preds.reshape(-1, conf_preds.shape[-1])[pos_mask.reshape(-1)], cls_labels[pos_mask])

        # 第二步：计算负样本的损失
        # 获取负样本的索引
        neg_mask = cls_labels == 0
        # 计算负样本的损失
        neg_loss = F.cross_entropy(conf_preds.reshape(-1, conf_preds.shape[-1])[neg_mask.reshape(-1)], cls_labels[neg_mask])
        # 第三步：计算损失
        loss = pos_loss +  neg_loss
        # 返回损失
        return loss

    #-------------------------------#
    #   计算预测结果
    #-------------------------------#
    def eval(self, net_output, labels, show_img_flag=False):
        """计算准确率

        Args:
            net_output (tuple): 网络输出，包含回归预测和分类预测，形状为 (loc_preds (1, num_anchors, 4), conf_preds (1, num_anchors, 21))
            labels (Tensor): 标签，形状为 (n, 5)，其中 n 是所有边界框的数量, 5 表示 (类别, x, y, w, h)
        Returns:
            Tensor: 损失值
        """
        # 第一步：获取网络输出 (1, num_anchors, 4), (1, num_anchors, 21)
        loc_preds, conf_preds = net_output

        batch_size, device = len(labels), loc_preds.device
        # self.prior_anchors (num_anchors, 4)
        num_anchors = self.prior_anchors.shape[0]

        # 第二步：为不同大小的特征层生成对应的 anchors 找到对应 target 标号, 并且将其转换为相对于 anchor 的偏移量
        bbox_labels, bbox_masks, cls_labels = multibox_target(self.prior_anchors, labels)
        cls_labels = cls_labels.to(device)
        bbox_labels = bbox_labels.to(device)
        bbox_masks = bbox_masks.to(device)
		
		num_prior_anchors = bbox_masks[:,:, 0].sum() # (1,)

        # 第三步：计算准确度
        # 计算分类准确度
        cls_acc = self.cls_eval(conf_preds, cls_labels) / (batch_size * num_anchors)
        #计算分类损失
        cls_loss = self.conf_loss(conf_preds, cls_labels) # / (batch_size * num_anchors)
        # 计算位置损失
        bbox_loss = self.bbox_eval(loc_preds, bbox_labels, bbox_masks) #  / (batch_size * num_anchors)
        # 返回准确度
        return cls_acc, cls_loss / num_prior_anchors , bbox_loss / num_prior_anchors 
        
    def cls_eval(self, cls_preds, cls_labels):
        # 由于类别预测结果放在最后一维，argmax需要指定最后一维。
        return float((cls_preds.argmax(dim=-1).type(cls_labels.dtype) == cls_labels).sum())

    def bbox_eval(self, bbox_preds, bbox_labels, bbox_masks):
        return float((torch.abs((bbox_labels - bbox_preds) * bbox_masks)).sum())

其中 multibox_target 函数的作用为：为不同大小的特征层生成对应的 anchors 找到对应 target 标号, 并且将其转换为相对于 anchor 的偏移量

def multibox_target(anchors, labels):
    """ 使用真实边界框标记锚框

    Args:
        anchors (Tensor): 先验框，对应的大小为，(num_anchors, 4)
        labels (Tensor): 多个图片的真实标签，(batch_size, num_labels, 4)  都是 corner 的形式 
    Returns:
        bbox_offset  (batch_size, num_boxes, 4)
        bbox_mask    (batch_size, num_boxes, 4)
        class_labels (batch_size, num_boxes, 1)
    """
    # labels 为多个图片的box的标签合集，维度为 [batch_size, num_gt, 4 + 1]， 其中 1 为类别
    batch_size, anchors = len(labels), anchors.squeeze(0)
    batch_offset, batch_mask, batch_class_labels = [], [], []
    device, num_anchors = anchors.device, anchors.shape[0]
    
    for i in range(batch_size):
        # 取出第 i 张图片对应的 box 的 gt
        label = labels[i]
        # 找到和标签 box 最接近的真实标签框，作为训练的正样本
        anchor_bbox_map = assign_anchor_to_bbox(label[:, :4], anchors, device)
        # 构造 mask 矩阵，大于零的我们认为找打了相应的gt，扩展到4维的目的是为了后面bbox的四个点的mask
        bbox_mask = ((anchor_bbox_map >= 0).float().unsqueeze(-1)).repeat(1, 4)
        # 将类标签和分配的边界框坐标初始化为0
        class_labels = torch.zeros(num_anchors, dtype=torch.long, device=device)
        assigned_bbox = torch.zeros((num_anchors, 4), dtype=torch.float32, device=device)
        
        # 使用真实边界框来标记锚框的类别
        # 如果一个锚框没有被分配，标记为背景，值为零
        indices_true = torch.nonzero(anchor_bbox_map >= 0)
        # 拿出已经分配好的锚框对应的 gt bbox
        bbox_idx = anchor_bbox_map[indices_true]
        # 将类别和对应的标签进行赋值。label + 1 的原因是为了和 0 进行区别。
        class_labels[indices_true] = label[bbox_idx, 4].long() + 1
        assigned_bbox[indices_true] = label[bbox_idx, :4].float()

        # 偏移量的转换，得到真实框和对应anchor之间的位置偏移
        offset = offset_boxes(anchors, assigned_bbox) * bbox_mask
        # 记录一下对应的关系
        batch_offset.append(offset)
        batch_mask.append(bbox_mask)
        batch_class_labels.append(class_labels)
        
    bbox_offset = torch.stack(batch_offset)
    bbox_mask = torch.stack(batch_mask)
    class_labels = torch.stack(batch_class_labels)
    
    return bbox_offset, bbox_mask, class_labels

训练

定义相关的优化器、学习率等，我们就可以开始我们的训练了；具体训练代码如下;

if __name__ == "__main__":

    # -------------------超参数-------------------#
    batch_size = 32
    num_workers = 4
    input_size = (3, 300, 300)
    num_classes = 20 
    learning_rate = 1e-2
    epochs = 100
    weight_decay = 5e-4
    root_path = "./data"
    # -------------------超参数-------------------#

    # 设置使用的设备
    # device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    device = torch.device("cuda:1" if torch.cuda.is_available() else "cpu")
    
    # 第一步：加载数据集
    train_iter, test_iter = load_data(root_path, batch_size, num_workers)

    # 第二步：定义模型
    net = SSD(input_size, num_classes)
    net.to(device)
    # summary(net,input_size=(3, 300, 300))

    # 第三步：定义损失函数
    Loss = MultiBoxLoss(num_classes, device)

    # 第四步：定义优化器
    optimizer = torch.optim.SGD(net.parameters(), lr=learning_rate, momentum=0.9, weight_decay=weight_decay)

    # 第五步：训练模型
    train_day = datetime.now().strftime("%Y_%m_%d_%H_%M_%S")

    print("#", "-"*30, "训练参数", "-"*30, "#")
    print("训练日期:{0:>65}".format(train_day))
    print("训练设备:{0:>65}".format(str(device)))
    print("训练数据集大小:{0:>59}".format(len(train_iter) * batch_size))
    print("测试数据集大小:{0:>59}".format(len(test_iter) * batch_size))
    print("训练批次大小:{0:>61}".format(batch_size))
    print("训练轮次:{0:>65}".format(epochs))
    print("学习率:{0:>67}".format(learning_rate))
    print("权重衰减:{0:>65}".format(weight_decay))
    print("#", "-"*30, "训练开始", "-"*30, "#")

    train_file = "./log/train_log_" + train_day
    os.makedirs(train_file, exist_ok=True)

    min_loss = 1e+10
    for epoch in range(epochs):
        net.train()
        phgr = tqdm(train_iter, total=len(train_iter), desc="Train epoch " + str(epoch + 1) + "/" + str(epochs))
        epoch_train_losses = []
        for i, (images, labels) in enumerate(phgr):
            # 将数据转换为 cuda 的 tensor
            images = images.to(device)

            # 前向传播
            net_output = net(images)

            # 计算损失
            net_loss = Loss(net_output, labels)
            loss = net_loss.item()
            epoch_train_losses.append(loss)
            # 反向传播
            optimizer.zero_grad()
            net_loss.backward()
            optimizer.step()

            phgr.set_postfix({"loss": loss})
        
        # 保存最优模型
        epoch_train_loss = (sum(epoch_train_losses) / len(epoch_train_losses))
        print("epoch_train_loss:", epoch_train_loss, " min_loss:", min_loss)
        if epoch_train_loss < min_loss:
            min_loss = epoch_train_loss
            save_weight_path = train_file + f"/ssd_best_loss.pth"
            torch.save(net.state_dict(), save_weight_path) 

        if epoch % 5 == 0 or epoch == epochs - 1:
            net.eval()
            epoch_test_losses = []
            show_img_flag = True
            with torch.no_grad():
                phgr_test = tqdm(test_iter, total=len(test_iter), desc="Test epoch " + str(epoch + 1) + "/" + str(epochs))
                for images, labels in phgr_test:
                    # 将数据转换为 cuda 的 tensor
                    tensor_images = images.to(device)

                    # 前向传播
                    net_output = net(tensor_images)

                    if show_img_flag:
                        # 显示第一张图片的预测结果作为显示
                        # decoder_out = decoder(net_output, Loss.prior_anchors)
                        # out_frame = draw_infer_box(images[0], decoder_out[0], decoder_out[1], decoder_out[2], class_names, colors)
                        # cv2.imwrite("train_eval_result.png", out_frame)
                        show_img_flag = False

                    # 计算准确度
                    cls_acc, cls_loss, bbox_loss = Loss.eval(net_output, labels)
                    epoch_test_losses.append(cls_loss + bbox_loss)
                    phgr_test.set_postfix({"cls_acc": cls_acc," cls_loss": cls_loss.item(), " bbox_loss": bbox_loss})

            epoch_test_loss = (sum(epoch_test_losses) / len(epoch_test_losses))
            save_weight_path = train_file + f"/ssd_epoch_{epoch + 1}_testloss_{0:.3f}_trainloss_{0:.3f}.pth".format(epoch_test_loss, epoch_train_loss)

代码及参考

完整包含预测的代码地址为：
参考
1、沐神的动手学深度学习

你可能感兴趣的:(手撕目标检测,深度学习之算法学习,学习pytorch,目标检测,算法,深度学习)

畅远正面管教【爱的52种习惯】之21天践行打卡Day13~ 零花钱雪_8316
最早开始给孩子零花钱，主要目的是延迟满足，控制他每天路过好邻居都想买一个奇趣蛋的冲动。于是我们商定，每周有15元零花钱。他可以自己安排如何花，如果都用来买奇趣蛋，就只能买两次，如果用来买其他的小物件，也许有机会买更多东西。当然一开始很快把钱花光，会讨价还价，不行，我就要！这个时候是对父母的考验，尤其是有社会压力的情况下。让他从错误设想结果中学习的唯一方式，就是认可他们的感受，等待他平静下来，利用启
Zuul的用法——限流 HmilyMing
因为所有的对外提供的接口都是要经过Zuul的转发，所以在这里的Pre过滤器里面做限流是最好的。常用的限流算法有1.计数器法，可以看做是低精度的滑动窗口算法2.滑动窗口，需要更多的存储空间3.漏桶算法，4.令牌桶算法，运行流量在一定程度上的突发，实践简单，对用户更友好，采用得更多。我这里采用的就是令牌桶算法，其原理如下令牌桶算法guava里面有令牌桶算法的实现在浏览器多刷几次就会被限流给禁止访问了代
学点心理学，生活更健康上山打老虎_9cc7
心理学为我种下了一颗生命力的种子,那种感觉像有一颗绿色的种子在思想中疯狂地生长，长出枝干，长出绿叶，周围水气弥漫，给荒漠的心灵带来了水源和野性，原来光秃秃的山峦被一个个巨大的绿色触须拦腰穿过，暴风雨后，生机勃勃。这是学习《武志红的心理学课》后，我闭上眼睛脑中想到的画面。直观而震撼，心理学给了我很多地道、刁钻的角度来看待自己、看待生活、看待关系。我知道了过去我性格形成的原因，也知道了我那“含蓄”表达
如何从热恋走向婚姻结婚，并一直幸福？有才有闲
↑推荐阅读↑如何在荷尔蒙降低后还能保持甜蜜？爱情中的甜言蜜语和承诺，能不能在婚姻中兑现和延续，取决于双方会不会经营婚姻。只要会经营，还有可能超额完成任务。当然，还有个前提是双方都愿意并且会经营婚姻。（提示：婚姻经营是一门需要学习的学问）这里需要提到在一段关系中我们常说的四个时期：相爱期：大家用尽各种方法得到对方。热恋期：荷尔蒙爆发，粘在一起，什么都没法分开，越反对反而粘的越紧。磨合期：大多数人进入
易效能亲子时间管理践行第9天彼岸花践行日记
高效率慢生活就寝10:00早起6:30要有多自律就有多自由今日早起外面雾气漫天图片发自App第一个30天目标：孩子第一个30天目标：学会看清单妈妈第一个30天目标：每天写【今日青蛙】‍♀️早起写‍♀️参加天使班入门营毕业班会周打卡记录显示的起床时间比之前要早这个点早起时间还是不够用【健康】一杯五谷粉【学习】樊登读书会听书图片发自App【小确幸】由于开学初期较忙，新生还没有开始报名入园，只能先把宝贝
6月25日（第38天）三省吾身快乐姐星球
一.观人善（阳红梅老师）工作认真负责，性格直爽，有啥说啥，没心计，每天阳光灿烂，与人为善，对孩子很用心，很随和，很乐意助人二.察己过：天热心情烦躁三.日行一善：给朋友分享学校四.为学日益：学习临终安宁缓和医疗课程五.为道日损：天热对学生多一点耐心六.感恩:感恩秀田的自然万物,感恩学校的学生让我有机会种福田,感恩梁老师做了好吃的凉粉
Java:实现朴素模式匹配算法（附带源码） Katie。 Java算法完整教程算法 java python
1.项目背景详细介绍在文本处理、信息检索和生物序列分析等领域，“字符串模式匹配”是最基础也是最核心的操作之一。朴素模式匹配（NaiveStringMatching）算法，作为最直观的实现方式，通过逐个字符对比，查找模式串在目标文本中出现的位置。虽然现代应用中普遍采用更高效的KMP、Boyer–Moore、Sunday算法等，但理解并掌握朴素算法有助于：打牢基础：从最简单的实现入手，帮助初学者理解匹
洪武四大案之胡惟庸案鹤舞春风
朱元璋力战陈友谅，在实力悬殊的情况下以少胜多，以弱胜强，奇迹般的取得了胜利，再往后消灭张士诚，拿下日薄西山的元朝统治者，反而越来越轻松了。然后农民出身的和尚朱元璋一不小心当了皇帝。朱元璋是个伟大的开国皇帝，天下一统之后，他励精图治，开拓疆土，征讨大漠，鼓励种田，恢复生产，让这个国家很快从战乱中又变得生机勃勃，走上了强盛之路。朱元璋又是一位残暴的皇帝，这与他的出身和性格密不可分。国家稳定之后，朱元璋
新年舞步学习录迎恩
图片发自App听说过“鬼步舞”吧，是不是觉得是小青年的运动，动感的节奏配上烗酷的舞步，踢、点、旋转，跳起来极具喧染力，关健是能减肥。为了减掉爱人的大肚腩，终于在再次去市政府广场散步的时候报名加入。第一天，老师教我们基本小步，一开始就夸我俩姿势正确，学的快。嘿嘿，她不知道这之前我俩已在家就着视频自学了几次。抢跑了，当然上手比较快。只是步伐显的很笨重，好像全身的重量都压在腿上，一小会便会气喘吁吁，汗流
近期书法学习心得德凝
1、看完钱老师视频+做笔记2、微博上看到的书法博主好的内容做笔记3、看黄简老师的视频+做笔记4、不着急写、交作业、完成任务5、掌握方法，重在质量，前面写的慢一点的话技术上来了，后面自然应该会快一点吧
java并发编程LockSupport之park/unpark jmysql java java
【尚学堂】Java300集零基础适合初学者视频教程_Java300集零基础教程_Java初学入门视频基础巩固教程_Java语言入门到精通_哔哩哔哩_bilibili一、简介1.1主要方法Park/UnPark方法是LockSupport当中的方法。其常用方法有如下：park()：暂停当前线程。park(Objectblocker)：暂停当前线程，并指定负责此线程停放的同步对像。parkNanos(
测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
Julia视频教程 Bounce_aaba
在网易云课堂上直接搜索：Julia教程，就可以找到，教程的全名是：Julia教程从入门到进阶这是国内第一个免费的完整的Julia视频教程，非常适合Julia的入门。有兴趣的朋友可以去学习一下。教程链接：https://study.163.com/course/courseMain.htm?share=2&shareId=480000001854445&courseId=1208959805&_tr
《诗经》204-2小雅•谷风之什•四月（2）无色生香
《四月》，遭祸被逐士大夫写的抒愤诗。冬日烈烈，飘风发发。民莫不穀，我独何害？冬日天冷刺骨寒，疾风呼呼似利剑。天下人儿都好命，为何独我遭受不幸？山有嘉卉，侯栗侯梅。废为残贼，莫知其尤！山上长有名贵木，既有栗树也有梅。如今却遭大残害，没人知道谁之罪。烈烈：即“冽冽”，严寒的样子。飘风：疾风。发发：状狂风呼啸的象声词。榖：善、好。何：通“荷”，承受。侯：有。废：大。残贼：残害。尤：错，罪过。《诗经》是中
Linux基础学习---文件相关命令
文件操作命令命令作用语法格式参数案例touch创建文件touch文件名-t时间：手动指定时间戳（格式：YYMMDDhhmm[.ss]）touchfile1.txt:在当前目录下创建file1.txttouchfile1.txtfile2.txtfile3.txt:创建多个文件touch-t202501011230.45file.txt:指定时间戳（设为2025年1月1日12:30:45）cp（co
同治皇帝对于学校的几道圣旨 gdlyz
同治皇帝对于学校的几道圣旨图片发自App伐木工狗狗15:26同治朝实录卷之五十二同治元年。壬戌。十二月十三日。庚寅条。谕内阁、我朝自列圣以来。于御极之初。令各直省督抚选举孝廉方正。原以振拔幽滞。用端风俗。典至钜也。朕于上年御极后。即诏各直省督抚秉公选举。并因知县黎庶昌条陈。复谕各督抚等迅速选举。现距上年颁诏之日。已阅年余。而各省选举者甚属寥寥。十室之邑。必有忠信。今各州县大者不下数万户。小者亦万余
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
网易云音乐会员优惠大揭秘，网友：太值了！氧惠佣金真的高
在数字音乐时代，拥有一款高品质的音乐APP是音乐爱好者的必备之选。作为中国音乐市场的佼佼者，网易云音乐凭借其丰富的曲库、出色的推荐算法以及浓厚的社区氛围，吸引了大量用户。近日，网易云音乐推出了一系列会员优惠活动，让我们一起来了解一下吧！大家好，我是氧惠联合创始人七言导师，给大家推荐一款省钱更加赚钱的app——氧惠。氧惠是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主
『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！ AI大模型前沿研究大模型笔记大模型人工智能 Hinton llya 大语言模型多模态大脑工作方式
GeoffreyHinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！文章目录一.整个访谈内容1.1.起点：理解大脑的工作方式以及隐藏层命名的由来1.2.谈Ilya：他有很好的直觉1.3.预测下一个词也需要推理1.4.模型能从语言中学到很多，但从多模态中学习会更容易1.5.关于认知的三种观点1.6.黄仁勋送了我一块GPU1.7.数字系统有人类无法比拟的优势1.8.需要得到重视的快速权
《道德经》第七十三章的疑问与猜想旭日老师
我们先看《道德经》第73章的原文：勇于敢则杀，勇于不敢则活。此两者，或利或害。天之所恶，孰知其故？是以圣人犹难之。天之道，不争而善胜，不言而善应，不召而自来，繟然而善谋。天网恢恢，疏而不失。对于这一章的翻译，比较通行的是这样翻译的：勇于坚强就会死，勇于柔弱就可以活，这两种勇的结果，有的得利，有的受害。天所厌恶的，谁知道是什么缘故？有道的圣人也难以解说明白。自然的规律是，不斗争而善于取胜；不言语而善
微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化 MicroTech2025 量子计算区块链
随着量子计算技术的发展，传统加密算法面临被量子计算机破解的风险，LSQb算法也需考虑应对未来可能的量子攻击。微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化。格密码在面对量子攻击时具有较高的安全性，通过这种融合，能为LSQb算法提供更强大的抗攻击能力，确保信息在复杂的量子计算环境下的安全性。格密码是一种基于数学格结构的密码学方法，具有在量子计算环境
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
浪漫与性感兼具｜Julie Vino 2019婚纱系列服装设计禅言
以色列设计师婚纱品牌JulieVino释出2019「Paris巴黎」婚纱系列，本季婚纱以巴黎城市为拍摄背景和主题诉求，打造浪漫与性感兼具的现代礼服。来源|CFW服装设计最懂得穿衣服的是哪个职业？——设计师有穿不完的衣服是哪个职业？——设计师走在时装最顶端的职业是？没错还是设计师，想学习服装设计成为设计师，可以私信小编，免费带粉丝入门！
思维导图——梳理岗位职责平常辛
继续学习《思维导图法高效职场应用》（张蕾、孙易新著），如何用思维导图梳理岗位职责。一、岗位职责常见的3方面问题岗位职责太过笼统抽象，无法明确执行程度和考核。不清楚岗位各事项间的关联。不知如何讲岗位职责与行业发展衔接并及时相应调整。二、构建岗位职责的五个步骤1.明确岗位名称2.制定岗位目标。3.分析岗位环境。4.梳理岗位职责内容。5.界定职责内容中的主要职责和辅助职责。
历史上的今天·孟子山石老人的平静
在2393年前的今天，公元前372年4月2日，中国古代著名思想家、教育家，孟子的诞辰。齐鲁大地壮志满怀峥嵘岁月中倚马万言恻隐之心羞恶之心辞让之心是非之心仁义礼智的四端学说犹如拨开云雾的万丈光芒闪烁着孟轲大爱担当的清澈王道…善政得民财善教得民心民贵君轻的思想深邃而又使人大彻大悟明晰让人不得不欢之惜之中华的文明一条荡涤旧迹的坦途留下了一本大义的《孟子》穿越时间河流的精华拨云驱雾之光明媚万丈儒家的思想孔
PyTorch数据加载与预处理飘若随风 PyTorch pytorch 人工智能 python
数据加载与预处理详解1.数据集类(Dataset和DataLoader)1.1Dataset基类PyTorch中的Dataset是一个抽象类，所有自定义的数据集都应该继承这个类，并实现以下两个方法：__len__():返回数据集的大小__getitem__():根据索引返回一个样本概念解析：Dataset类提供了统一的数据访问接口通过继承Dataset，我们可以轻松地将数据集成到PyTorch的生
【世纪龙科技】智能网联汽车环境感知系统教学难题的创新实践江苏世纪龙科技智能网联汽车汽车仿真教学软件汽车
在职业院校智能网联汽车专业教学中，环境感知系统的教学长期面临三大核心挑战：设备成本高昂导致实训资源不足、抽象原理难以直观呈现、传统教学模式难以满足产业需求。如何让学生在有限的教学条件下，深入理解激光雷达、毫米波雷达等核心部件的工作原理，并掌握实际应用能力？江苏世纪龙科技研发的《智能网联汽车环境感知系统VR教学软件》，为这一教学痛点提供了创新解决方案。聚焦教学痛点，重构学习体验传统实训室中，传感器设
详解NIO Channel类沧澜sincerely Java 高并发 nio
目录什么是NIOChannel？为什么要学习NIOChannel？FileChannelSocketChannelDatagramChannel本篇文章内容的前置知识为NIOBuffer类，如果不了解，可点击链接学习详解NIOBuffer类及其属性和方法-CSDN博客什么是NIOChannel？在JavaNIO中，Channel（通道）是一种广义的I/O抽象，用于表示与数据源或数据目的地之间的连接
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，