woshicver

计算机视觉与物体检测

第一次通过Tensorflow对象检测API了解对象检测。它很容易使用。传入了一张海滩的图片，作为回报，API在它识别的对象上绘制了方框。这似乎很神奇。

很好奇，想剖析API，了解它到底是如何在幕后工作的。这很难，我失败了。Tensorflow对象检测API支持经过数十年研究的最先进模型。它们被复杂地编织成代码，就像钟表匠如何将微小的齿轮组合在一起，它们可以连贯地移动。

然而，目前大多数最先进的模型都建立在Faster RCNN模型的基础之上，即使在今天，该模型仍然是计算机视觉领域被引用最多的论文之一。因此，理解它至关重要。

在本文中，我们将分解Faster RCNN论文，了解其工作原理，并在PyTorch中部分构建它，以了解其中的细微差别。

Faster R-CNN概述

对于物体检测，我们需要建立一个模型，并教它学会识别和定位图像中的物体。

Faster R-CNN模型采用以下方法：图像首先通过主干网络获得输出特征图，主干网络通常是卷积网络，如ResNet或VGG16。输出特征图是表示图像的学习特征的空间密集张量。接下来，我们生成多个不同大小和形状的框。这些定位框的目的是捕获图像中的对象。

我们使用1x1卷积网络来预测所有锚盒的类别和偏移。在训练期间，我们对与标签重叠最多的锚框进行采样。这些被称为阳性或正锚框。我们还对与标签锚框几乎没有重叠的负锚框进行了采样。

网络学习使用二进制交叉熵损失对锚盒进行分类。现在，正锚框可能与标签锚框不完全对齐。因此，我们训练了一个类似的1x1卷积网络，以学习从标签锚框预测偏移。当应用于锚框时，这些偏移会使它们更接近标签锚框。

我们使用L2回归损失来学习偏移。使用预测的偏移来变换锚框，并将其称为区域建议，并且上述网络称为区域提议网络。这是探测器的第一阶段。Faster RCNN是一个两级检测器。还有另一个阶段。

第2阶段的输入是从第1阶段生成的区域建议。在第2阶段，我们学习使用简单的卷积网络预测区域建议中的对象类别。现在，建议的框大小不同，因此我们使用一种称为ROI池的技术在通过网络之前调整它们的大小。该网络学习使用交叉熵损失来预测多个类别。

我们使用另一个网络来预测来自标签锚框的区域提议的偏移量。这一网络进一步试图使预测的框与标签锚框保持一致。这使用L2回归损失。最后，我们对两种损失进行加权组合，以计算最终损失。在第二阶段，我们学习预测类别和偏移量。这被称为多任务学习。

所有这些都发生在训练期间。在推断过程中，我们通过主干网络传递图像并生成锚框-与之前相同。然而，这一次我们只选择在第一阶段中获得高分类分数的前300个框，并使它们有资格进入第二阶段。

在第二阶段，我们预测最终类别和偏移量。此外，我们还执行了一个额外的后处理步骤，使用一种称为非最大抑制的技术来删除重复的边界框。如果一切按预期运行，探测器会识别并在图像中的对象上绘制方框，如下所示：

这是两阶段Faster RCNN网络的简要概述。在接下来的部分中，我们将深入探讨每个部分。

设置环境

使用的所有代码都可以在此GitHub存储库中找到。我们不需要很多依赖项，因为我们将从头开始构建。仅在标准anaconda环境中安装PyTorch库就足够了。

https://github.com/wingedrasengan927/pytorch-tutorials/tree/master/Object%20Detection

这是我们要使用的主要笔记本

https://gist.github.com/wingedrasengan927/3d5eb6f1b0d4fb3acbf2550f9db8daf0#file-faster-r-cnn-ipynb

%load_ext autoreload
%autoreload 2

import numpy as np
from skimage import io
from skimage.transform import resize
import matplotlib.pyplot as plt
import random
import matplotlib.patches as patches
from utils import *
from model import *
import os

import torch
import torchvision
from torchvision import ops
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, Dataset
from torch.nn.utils.rnn import pad_sequence

准备和加载数据

首先，我们需要使用一些示例图像。这里我从这里下载了两张高分辨率图像。

接下来，我们需要标记这些图像。CVAT是目前流行的开源标签工具之一。

你只需将图像加载到工具中，在相关对象周围绘制框，并标记其类别，如下所示：

完成后，可以将注释导出为首选格式。在这里，我已经将它们导出为CVAT for images 1.1 xml格式。

注释文件包含有关图像、标记类和边界框坐标的所有信息。

PyTorch数据集和DataLoader

在PyTorch中，创建一个继承自PyTorch的Dataset类的类来加载数据被认为是最佳实践。这将使我们对数据有更多的控制，并有助于保持代码模块化。此外，我们可以从数据集实例创建PyTorch DataLoader，它可以自动处理数据的批处理、混洗和采样。

class ObjectDetectionDataset(Dataset):
    '''
    A Pytorch Dataset class to load the images and their corresponding annotations.
    
    Returns
    ------------
    images: torch.Tensor of size (B, C, H, W)
    gt bboxes: torch.Tensor of size (B, max_objects, 4)
    gt classes: torch.Tensor of size (B, max_objects)
    '''
    def __init__(self, annotation_path, img_dir, img_size, name2idx):
        self.annotation_path = annotation_path
        self.img_dir = img_dir
        self.img_size = img_size
        self.name2idx = name2idx
        
        self.img_data_all, self.gt_bboxes_all, self.gt_classes_all = self.get_data()
        
    def __len__(self):
        return self.img_data_all.size(dim=0)
    
    def __getitem__(self, idx):
        return self.img_data_all[idx], self.gt_bboxes_all[idx], self.gt_classes_all[idx]
        
    def get_data(self):
        img_data_all = []
        gt_idxs_all = []
        
        gt_boxes_all, gt_classes_all, img_paths = parse_annotation(self.annotation_path, self.img_dir, self.img_size)
        
        for i, img_path in enumerate(img_paths):
            
            # skip if the image path is not valid
            if (not img_path) or (not os.path.exists(img_path)):
                continue
                
            # read and resize image
            img = io.imread(img_path)
            img = resize(img, self.img_size)
            
            # convert image to torch tensor and reshape it so channels come first
            img_tensor = torch.from_numpy(img).permute(2, 0, 1)
            
            # encode class names as integers
            gt_classes = gt_classes_all[i]
            gt_idx = torch.Tensor([self.name2idx[name] for name in gt_classes])
            
            img_data_all.append(img_tensor)
            gt_idxs_all.append(gt_idx)
        
        # pad bounding boxes and classes so they are of the same size
        gt_bboxes_pad = pad_sequence(gt_boxes_all, batch_first=True, padding_value=-1)
        gt_classes_pad = pad_sequence(gt_idxs_all, batch_first=True, padding_value=-1)
        
        # stack all images
        img_data_stacked = torch.stack(img_data_all, dim=0)
        
        return img_data_stacked.to(dtype=torch.float32), gt_bboxes_pad, gt_classes_pad

在上面的类中，我们定义了一个名为get_data的函数，该函数加载注释文件并解析它以提取图像路径、标记类和边界框坐标，然后将其转换为PyTorch的Tensor对象。图像将被重塑为固定大小。

注意，我们正在填充边界框。这与调整大小相结合，允许我们将图像批处理在一起。

我们可以从DataLoader中获取一些图像并将其可视化，如下所示：

主干网络

这里我们将使用ResNet 50作为主干网络。记住，ResNet 50中的单个块由瓶颈层的堆栈组成。在沿空间维度的每个块之后，图像会减少一半，而通道的数量会增加一倍。瓶颈层由三个卷积层以及跳跃连接组成，如下所示：

我们将使用ResNet 50的前四个块作为主干网络。

一旦图像通过主干网络，它就会沿着空间维度向下采样。输出是图像的特征丰富的表示。

如果我们通过主干网络传递大小（640、480）的图像，我们将得到大小（15、20）的输出特征图。因此，图像已缩小（32，32）。

生成锚点

我们将特征图中的每个点视为锚点。因此，锚点将只是表示沿宽度和高度维度的坐标的数组。

def gen_anc_centers(out_size):
    out_h, out_w = out_size
    
    anc_pts_x = torch.arange(0, out_w) + 0.5
    anc_pts_y = torch.arange(0, out_h) + 0.5
    
    return anc_pts_x, anc_pts_y

为了可视化这些锚点，我们可以简单地通过乘以宽度和高度比例因子将它们投影到图像空间上。

生成锚框

对于每个锚点，我们生成九个不同形状和大小的边界框。我们选择这些框的大小和形状，以便它们包围图像中的所有对象。锚框的选择通常取决于数据集。

def gen_anc_base(anc_pts_x, anc_pts_y, anc_scales, anc_ratios, out_size):
    n_anc_boxes = len(anc_scales) * len(anc_ratios)
    anc_base = torch.zeros(1, anc_pts_x.size(dim=0) \
                              , anc_pts_y.size(dim=0), n_anc_boxes, 4) # shape - [1, Hmap, Wmap, n_anchor_boxes, 4]
    
    for ix, xc in enumerate(anc_pts_x):
        for jx, yc in enumerate(anc_pts_y):
            anc_boxes = torch.zeros((n_anc_boxes, 4))
            c = 0
            for i, scale in enumerate(anc_scales):
                for j, ratio in enumerate(anc_ratios):
                    w = scale * ratio
                    h = scale
                    
                    xmin = xc - w / 2
                    ymin = yc - h / 2
                    xmax = xc + w / 2
                    ymax = yc + h / 2

                    anc_boxes[c, :] = torch.Tensor([xmin, ymin, xmax, ymax])
                    c += 1

            anc_base[:, ix, jx, :] = ops.clip_boxes_to_image(anc_boxes, size=out_size)
            
    return anc_base

调整图像大小的另一个优点是可以在所有图像上复制锚框。

再次，为了可视化锚框，我们通过乘以宽度和高度比例因子将其投影到图像空间。

如果我们将所有锚点的所有锚框可视化，会出现以下情况：

数据准备

在本节中，我们将讨论训练的数据准备。

正负锚箱

我们只需要抽样几个锚盒进行训练。我们对正和负锚框进行采样。

正框包含对象，负框不包含对象。为了对正锚框进行采样，我们选择IoU大于0.7的锚框和任何标签锚框。当锚框生成不好时，条件1失败，因此条件2会出现问题，因为它为每个标签锚框选择一个正框。为了对负锚框进行采样，我们选择IoU小于0.3的锚框。通常，阴性样本的数量将远远高于阳性样本。所以我们随机抽取一些样本，以匹配阳性样本的数量。IoU是度量两个边界框之间重叠的度量。

def get_iou_mat(batch_size, anc_boxes_all, gt_bboxes_all):
    
    # flatten anchor boxes
    anc_boxes_flat = anc_boxes_all.reshape(batch_size, -1, 4)
    
    # get total anchor boxes for a single image
    tot_anc_boxes = anc_boxes_flat.size(dim=1)
    
    # create a placeholder to compute IoUs amongst the boxes
    ious_mat = torch.zeros((batch_size, tot_anc_boxes, gt_bboxes_all.size(dim=1)))

    # compute IoU of the anc boxes with the gt boxes for all the images
    for i in range(batch_size):
        gt_bboxes = gt_bboxes_all[i]
        anc_boxes = anc_boxes_flat[i]
        ious_mat[i, :] = ops.box_iou(anc_boxes, gt_bboxes)
        
    return ious_mat

上面的函数计算IoU矩阵，其中包含图像中所有标签锚框的每个锚框的IoU。它将形状为（B，w_amap，h_amap，n_anc_boxes，4）的锚框和形状为（a，max_objects，4））的标签锚框作为输入，并返回一个形状矩阵（B，anc_boxes_tot，max_oobjects），其中符号如下：

B - Batch Size
w_amap - width of the output activation map
h_wmap - height of the output activation map
n_anc_boxes - number of anchor boxes per an anchor point
max_objects - max number of objects in a batch of images
anc_boxes_tot - total number of anchor boxes in the image i.e, w_amap * h_amap * n_anc_boxes

该函数基本上使所有锚框变平，并使用每个标签锚框计算IoU，如下所示：

投影标签锚框

重要的是要记住，IoU是在生成的锚框和投影的标签锚框之间的特征空间中计算的。要将标签锚框投影到特征空间，我们只需将其坐标除以比例因子，如下函数所示：

def project_bboxes(bboxes, width_scale_factor, height_scale_factor, mode='a2p'):
    assert mode in ['a2p', 'p2a']
    
    batch_size = bboxes.size(dim=0)
    proj_bboxes = bboxes.clone().reshape(batch_size, -1, 4)
    invalid_bbox_mask = (proj_bboxes == -1) # indicating padded bboxes
    
    if mode == 'a2p':
        # activation map to pixel image
        proj_bboxes[:, :, [0, 2]] *= width_scale_factor
        proj_bboxes[:, :, [1, 3]] *= height_scale_factor
    else:
        # pixel image to activation map
        proj_bboxes[:, :, [0, 2]] /= width_scale_factor
        proj_bboxes[:, :, [1, 3]] /= height_scale_factor
        
    proj_bboxes.masked_fill_(invalid_bbox_mask, -1) # fill padded bboxes back with -1
    proj_bboxes.resize_as_(bboxes)
    
    return proj_bboxes

现在，当我们将坐标除以比例因子时，我们将值舍入为最接近的整数。这本质上意味着我们正在将标签锚框“捕捉”到特征空间中最近的网格。因此，如果图像空间和特征空间的尺度差异很大，我们将无法获得准确的投影。因此，在目标检测中使用高分辨率图像非常重要。

计算偏移量

正锚框与标签锚框不完全对齐。因此，我们计算正锚框和标签锚框之间的偏移，并训练神经网络来学习这些偏移。偏移量的计算方法如下：

tx_ = (gt_cx - anc_cx) / anc_w
ty_ = (gt_cy - anc_cy) / anc_h
tw_ = log(gt_w / anc_w)
th_ = log(gt_h / anc_h)

Where:

gt_cx, gt_cy - centers of ground truth boxes
anc_cx, anc_cy - centers of anchor boxes
gt_w, gt_h - width and height of ground truth boxes
anc_w, anc_h - width and height of anchor boxes

以下函数可用于计算相同值：

def calc_gt_offsets(pos_anc_coords, gt_bbox_mapping):
    pos_anc_coords = ops.box_convert(pos_anc_coords, in_fmt='xyxy', out_fmt='cxcywh')
    gt_bbox_mapping = ops.box_convert(gt_bbox_mapping, in_fmt='xyxy', out_fmt='cxcywh')

    gt_cx, gt_cy, gt_w, gt_h = gt_bbox_mapping[:, 0], gt_bbox_mapping[:, 1], gt_bbox_mapping[:, 2], gt_bbox_mapping[:, 3]
    anc_cx, anc_cy, anc_w, anc_h = pos_anc_coords[:, 0], pos_anc_coords[:, 1], pos_anc_coords[:, 2], pos_anc_coords[:, 3]

    tx_ = (gt_cx - anc_cx)/anc_w
    ty_ = (gt_cy - anc_cy)/anc_h
    tw_ = torch.log(gt_w / anc_w)
    th_ = torch.log(gt_h / anc_h)

    return torch.stack([tx_, ty_, tw_, th_], dim=-1)

如果你注意到，我们正在教网络了解锚框与标签锚框的距离。我们没有强迫它预测锚盒的确切位置和规模。因此，网络学习的偏移和变换是位置和尺度不变的。

代码演练

让我们浏览一下数据准备代码。这可能是整个存储库中最重要的函数。

def get_req_anchors(anc_boxes_all, gt_bboxes_all, gt_classes_all, pos_thresh=0.7, neg_thresh=0.2):
    '''
    Prepare necessary data required for training
    
    Input
    ------
    anc_boxes_all - torch.Tensor of shape (B, w_amap, h_amap, n_anchor_boxes, 4)
        all anchor boxes for a batch of images
    gt_bboxes_all - torch.Tensor of shape (B, max_objects, 4)
        padded ground truth boxes for a batch of images
    gt_classes_all - torch.Tensor of shape (B, max_objects)
        padded ground truth classes for a batch of images
        
    Returns
    ---------
    positive_anc_ind -  torch.Tensor of shape (n_pos,)
        flattened positive indices for all the images in the batch
    negative_anc_ind - torch.Tensor of shape (n_pos,)
        flattened positive indices for all the images in the batch
    GT_conf_scores - torch.Tensor of shape (n_pos,), IoU scores of +ve anchors
    GT_offsets -  torch.Tensor of shape (n_pos, 4),
        offsets between +ve anchors and their corresponding ground truth boxes
    GT_class_pos - torch.Tensor of shape (n_pos,)
        mapped classes of +ve anchors
    positive_anc_coords - (n_pos, 4) coords of +ve anchors (for visualization)
    negative_anc_coords - (n_pos, 4) coords of -ve anchors (for visualization)
    positive_anc_ind_sep - list of indices to keep track of +ve anchors
    '''
    # get the size and shape parameters
    B, w_amap, h_amap, A, _ = anc_boxes_all.shape
    N = gt_bboxes_all.shape[1] # max number of groundtruth bboxes in a batch
    
    # get total number of anchor boxes in a single image
    tot_anc_boxes = A * w_amap * h_amap
    
    # get the iou matrix which contains iou of every anchor box
    # against all the groundtruth bboxes in an image
    iou_mat = get_iou_mat(B, anc_boxes_all, gt_bboxes_all)
    
    # for every groundtruth bbox in an image, find the iou 
    # with the anchor box which it overlaps the most
    max_iou_per_gt_box, _ = iou_mat.max(dim=1, keepdim=True)
    
    # get positive anchor boxes
    
    # condition 1: the anchor box with the max iou for every gt bbox
    positive_anc_mask = torch.logical_and(iou_mat == max_iou_per_gt_box, max_iou_per_gt_box > 0) 
    
    # condition 2: anchor boxes with iou above a threshold with any of the gt bboxes
    positive_anc_mask = torch.logical_or(positive_anc_mask, iou_mat > pos_thresh)
    
    positive_anc_ind_sep = torch.where(positive_anc_mask)[0] # get separate indices in the batch
    # combine all the batches and get the idxs of the +ve anchor boxes
    positive_anc_mask = positive_anc_mask.flatten(start_dim=0, end_dim=1)
    positive_anc_ind = torch.where(positive_anc_mask)[0]
    
    # for every anchor box, get the iou and the idx of the
    # gt bbox it overlaps with the most
    max_iou_per_anc, max_iou_per_anc_ind = iou_mat.max(dim=-1)
    max_iou_per_anc = max_iou_per_anc.flatten(start_dim=0, end_dim=1)
    
    # get iou scores of the +ve anchor boxes
    GT_conf_scores = max_iou_per_anc[positive_anc_ind]
    
    # get gt classes of the +ve anchor boxes
    
    # expand gt classes to map against every anchor box
    gt_classes_expand = gt_classes_all.view(B, 1, N).expand(B, tot_anc_boxes, N)
    
    # for every anchor box, consider only the class of the gt bbox it overlaps with the most
    GT_class = torch.gather(gt_classes_expand, -1, max_iou_per_anc_ind.unsqueeze(-1)).squeeze(-1)
    
    # combine all the batches and get the mapped classes of the +ve anchor boxes
    GT_class = GT_class.flatten(start_dim=0, end_dim=1)
    GT_class_pos = GT_class[positive_anc_ind]
    
    # get gt bbox coordinates of the +ve anchor boxes
    
    # expand all the gt bboxes to map against every anchor box
    gt_bboxes_expand = gt_bboxes_all.view(B, 1, N, 4).expand(B, tot_anc_boxes, N, 4)
    # for every anchor box, consider only the coordinates of the gt bbox it overlaps with the most
    GT_bboxes = torch.gather(gt_bboxes_expand, -2, max_iou_per_anc_ind.reshape(B, tot_anc_boxes, 1, 1).repeat(1, 1, 1, 4))
    # combine all the batches and get the mapped gt bbox coordinates of the +ve anchor boxes
    GT_bboxes = GT_bboxes.flatten(start_dim=0, end_dim=2)
    GT_bboxes_pos = GT_bboxes[positive_anc_ind]
    
    # get coordinates of +ve anc boxes
    anc_boxes_flat = anc_boxes_all.flatten(start_dim=0, end_dim=-2) # flatten all the anchor boxes
    positive_anc_coords = anc_boxes_flat[positive_anc_ind]
    
    # calculate gt offsets
    GT_offsets = calc_gt_offsets(positive_anc_coords, GT_bboxes_pos)
    
    # get -ve anchors
    
    # condition: select the anchor boxes with max iou less than the threshold
    negative_anc_mask = (max_iou_per_anc < neg_thresh)
    negative_anc_ind = torch.where(negative_anc_mask)[0]
    # sample -ve samples to match the +ve samples
    negative_anc_ind = negative_anc_ind[torch.randint(0, negative_anc_ind.shape[0], (positive_anc_ind.shape[0],))]
    negative_anc_coords = anc_boxes_flat[negative_anc_ind]
    
    return positive_anc_ind, negative_anc_ind, GT_conf_scores, GT_offsets, GT_class_pos, \
         positive_anc_coords, negative_anc_coords, positive_anc_ind_sep

首先，我们使用上述函数计算IoU矩阵。然后从这个矩阵中，我们得到每个标签锚框的最重叠锚框的IoU。这是对正极锚盒进行采样的条件1。我们还应用条件2并选择IoU大于图像中任何标签锚框阈值的锚框。我们将条件1和条件2与所有图像的正锚框样本相结合。

每个图像将具有不同数量的阳性样本。为了避免训练过程中的这种差异，我们将批次压平并组合所有图像中的阳性样本。此外，我们可以使用torch.where跟踪每个阳性样本的来源。

接下来，我们需要计算来自标签样本的偏移量。为此，我们需要将每个阳性样本映射到其对应的标签锚框。需要注意的是，一个正锚框只能映射到一个标签锚框，而多个正锚盒可以映射到同一个标签锚框。

为了进行映射，我们首先使用Tensor.expand扩展标签锚框以匹配总的锚框。然后，对于每个锚框，我们选择其重叠最多的标签锚框。

为此，我们从IoU矩阵中获取所有锚框的最大IoU索引，然后使用torch.collect对这些索引进行“聚集”。最后，我们将批次压平并过滤阳性样本。该过程如下所示：

将每个锚框映射到其重叠最多的标签锚框

我们对类别执行相同的过程，为每个阳性样本分配一个类别。

现在我们已经为每个阳性样本映射了标签锚框，我们可以使用上述函数计算偏移量。

最后，我们通过使用所有标签锚框对IoU小于给定阈值的锚框进行采样来选择阴性样本。由于阴性样本的数量远远超过阳性样本，我们随机选择其中的一些样本来匹配计数。

下面是正负锚框的外观：

我们现在可以使用采样的正负锚框进行训练。

建立模型

建议模块

让我们先从建议模块开始。正如我们所讨论的，特征图中的每个点都被视为锚点，每个锚点都会生成不同大小和形状的框。我们希望将这些框中的每一个分类为对象或背景。

此外，我们希望从相应的标签锚框中预测它们的偏移量。我们怎么能做到这一点？解决方案是使用1x1卷积层。现在，1x1卷积层不会增加感受野。它们的功能不是学习图像级特征。它们相当于用来改变过滤器的数量，或者用作回归或分类头。

因此，我们采用两个1x1卷积层，并使用其中一个将每个锚框分类为对象或背景。我们称之为信心头。因此，给定大小为（B，C，w_amap，h_amap）的特征图，我们用卷积大小为1x1的核以获得大小为（B，n_anc_boxes，w_amap，h_amp）的输出。本质上，每个输出表示锚框的分类分数。

以类似的方式，另一个1x1卷积层获取特征图并产生大小（B，n_anc_boxes*4，w_amap，h_amap）的输出，其中输出滤波器表示锚框的预测偏移。这被称为回归头。

class ProposalModule(nn.Module):
    def __init__(self, in_features, hidden_dim=512, n_anchors=9, p_dropout=0.3):
        super().__init__()
        self.n_anchors = n_anchors
        self.conv1 = nn.Conv2d(in_features, hidden_dim, kernel_size=3, padding=1)
        self.dropout = nn.Dropout(p_dropout)
        self.conf_head = nn.Conv2d(hidden_dim, n_anchors, kernel_size=1)
        self.reg_head = nn.Conv2d(hidden_dim, n_anchors * 4, kernel_size=1)
        
    def forward(self, feature_map, pos_anc_ind=None, neg_anc_ind=None, pos_anc_coords=None):
        # determine mode
        if pos_anc_ind is None or neg_anc_ind is None or pos_anc_coords is None:
            mode = 'eval'
        else:
            mode = 'train'
            
        out = self.conv1(feature_map)
        out = F.relu(self.dropout(out))
        
        reg_offsets_pred = self.reg_head(out) # (B, A*4, hmap, wmap)
        conf_scores_pred = self.conf_head(out) # (B, A, hmap, wmap)
        
        if mode == 'train': 
            # get conf scores 
            conf_scores_pos = conf_scores_pred.flatten()[pos_anc_ind]
            conf_scores_neg = conf_scores_pred.flatten()[neg_anc_ind]
            # get offsets for +ve anchors
            offsets_pos = reg_offsets_pred.contiguous().view(-1, 4)[pos_anc_ind]
            # generate proposals using offsets
            proposals = generate_proposals(pos_anc_coords, offsets_pos)
            
            return conf_scores_pos, conf_scores_neg, offsets_pos, proposals
            
        elif mode == 'eval':
            return conf_scores_pred, reg_offsets_pred

在训练期间，我们选择正锚框并应用预测的偏移量来生成区域建议。区域建议的计算方法如下：

其中上标p表示区域建议，上标a表示锚框，t表示预测偏移。

以下函数实现上述转换并生成区域建议：

def generate_proposals(anchors, offsets):
   
    # change format of the anchor boxes from 'xyxy' to 'cxcywh'
    anchors = ops.box_convert(anchors, in_fmt='xyxy', out_fmt='cxcywh')

    # apply offsets to anchors to create proposals
    proposals_ = torch.zeros_like(anchors)
    proposals_[:,0] = anchors[:,0] + offsets[:,0]*anchors[:,2]
    proposals_[:,1] = anchors[:,1] + offsets[:,1]*anchors[:,3]
    proposals_[:,2] = anchors[:,2] * torch.exp(offsets[:,2])
    proposals_[:,3] = anchors[:,3] * torch.exp(offsets[:,3])

    # change format of proposals back from 'cxcywh' to 'xyxy'
    proposals = ops.box_convert(proposals_, in_fmt='cxcywh', out_fmt='xyxy')

    return proposals

区域建议网络

区域建议网络是检测器的第一阶段，它获取特征图并产生区域建议。

在这里，我们将主干网络、采样模块和建议模块组合成区域建议网络。

class RegionProposalNetwork(nn.Module):
    def __init__(self, img_size, out_size, out_channels):
        super().__init__()
        
        self.img_height, self.img_width = img_size
        self.out_h, self.out_w = out_size
        
        # downsampling scale factor 
        self.width_scale_factor = self.img_width // self.out_w
        self.height_scale_factor = self.img_height // self.out_h 
        
        # scales and ratios for anchor boxes
        self.anc_scales = [2, 4, 6]
        self.anc_ratios = [0.5, 1, 1.5]
        self.n_anc_boxes = len(self.anc_scales) * len(self.anc_ratios)
        
        # IoU thresholds for +ve and -ve anchors
        self.pos_thresh = 0.7
        self.neg_thresh = 0.3
        
        # weights for loss
        self.w_conf = 1
        self.w_reg = 5
        
        self.feature_extractor = FeatureExtractor()
        self.proposal_module = ProposalModule(out_channels, n_anchors=self.n_anc_boxes)
        
    def forward(self, images, gt_bboxes, gt_classes):
        batch_size = images.size(dim=0)
        feature_map = self.feature_extractor(images)
        
        # generate anchors
        anc_pts_x, anc_pts_y = gen_anc_centers(out_size=(self.out_h, self.out_w))
        anc_base = gen_anc_base(anc_pts_x, anc_pts_y, self.anc_scales, self.anc_ratios, (self.out_h, self.out_w))
        anc_boxes_all = anc_base.repeat(batch_size, 1, 1, 1, 1)
        
        # get positive and negative anchors amongst other things
        gt_bboxes_proj = project_bboxes(gt_bboxes, self.width_scale_factor, self.height_scale_factor, mode='p2a')
        
        positive_anc_ind, negative_anc_ind, GT_conf_scores, \
        GT_offsets, GT_class_pos, positive_anc_coords, \
        negative_anc_coords, positive_anc_ind_sep = get_req_anchors(anc_boxes_all, gt_bboxes_proj, gt_classes)
        
        # pass through the proposal module
        conf_scores_pos, conf_scores_neg, offsets_pos, proposals = self.proposal_module(feature_map, positive_anc_ind, \
                                                                                        negative_anc_ind, positive_anc_coords)
        
        cls_loss = calc_cls_loss(conf_scores_pos, conf_scores_neg, batch_size)
        reg_loss = calc_bbox_reg_loss(GT_offsets, offsets_pos, batch_size)
        
        total_rpn_loss = self.w_conf * cls_loss + self.w_reg * reg_loss
        
        return total_rpn_loss, feature_map, proposals, positive_anc_ind_sep, GT_class_pos
    
    def inference(self, images, conf_thresh=0.5, nms_thresh=0.7):
        with torch.no_grad():
            batch_size = images.size(dim=0)
            feature_map = self.feature_extractor(images)

            # generate anchors
            anc_pts_x, anc_pts_y = gen_anc_centers(out_size=(self.out_h, self.out_w))
            anc_base = gen_anc_base(anc_pts_x, anc_pts_y, self.anc_scales, self.anc_ratios, (self.out_h, self.out_w))
            anc_boxes_all = anc_base.repeat(batch_size, 1, 1, 1, 1)
            anc_boxes_flat = anc_boxes_all.reshape(batch_size, -1, 4)

            # get conf scores and offsets
            conf_scores_pred, offsets_pred = self.proposal_module(feature_map)
            conf_scores_pred = conf_scores_pred.reshape(batch_size, -1)
            offsets_pred = offsets_pred.reshape(batch_size, -1, 4)

            # filter out proposals based on conf threshold and nms threshold for each image
            proposals_final = []
            conf_scores_final = []
            for i in range(batch_size):
                conf_scores = torch.sigmoid(conf_scores_pred[i])
                offsets = offsets_pred[i]
                anc_boxes = anc_boxes_flat[i]
                proposals = generate_proposals(anc_boxes, offsets)
                # filter based on confidence threshold
                conf_idx = torch.where(conf_scores >= conf_thresh)[0]
                conf_scores_pos = conf_scores[conf_idx]
                proposals_pos = proposals[conf_idx]
                # filter based on nms threshold
                nms_idx = ops.nms(proposals_pos, conf_scores_pos, nms_thresh)
                conf_scores_pos = conf_scores_pos[nms_idx]
                proposals_pos = proposals_pos[nms_idx]

                proposals_final.append(proposals_pos)
                conf_scores_final.append(conf_scores_pos)
            
        return proposals_final, conf_scores_final, feature_map

在训练和推理过程中，RPN为所有锚框生成分数和偏移。然而，在训练期间，我们只选择正和负锚框来计算分类损失。为了计算L2回归损失，我们只考虑阳性样本的偏移。最终损失是这两种损失的加权组合。

在推断过程中，我们选择得分高于给定阈值的锚框，并使用预测的偏移量生成建议。我们使用S形函数将原始模型逻辑转换为概率分数。

在这两种情况下生成的建议被传递到检测器的第二阶段。

分类模块

在第二阶段，我们接收区域建议，并预测建议中对象的类别。这可以通过一个简单的卷积网络来实现，但有一个缺点：所有建议的大小都不相同。

现在，你可能会考虑在将建议输入模型之前调整大小，就像我们通常在图像分类任务中调整图像大小一样，但问题是调整大小不是一个可区分的操作，因此不能通过该操作进行反向传播。

这里有一个更聪明的调整大小的方法：我们将建议分成大致相等的子区域，并对每个子区域应用最大池操作，以产生相同大小的输出。这称为ROI池，如下所示：

最大池是一种可微操作，我们一直在卷积神经网络中使用它们。

我们不需要从头开始实施ROI池，torchvisio.ops库为我们提供了它。

一旦使用ROI池调整了建议的大小，我们将其通过卷积神经网络，该网络由卷积层、平均池层和产生类别分数的线性层组成。

在推理过程中，我们通过对原始模型逻辑应用softmax函数并选择具有最高概率得分的类别来预测对象类别。在训练期间，我们使用交叉熵计算分类损失。

class ClassificationModule(nn.Module):
    def __init__(self, out_channels, n_classes, roi_size, hidden_dim=512, p_dropout=0.3):
        super().__init__()        
        self.roi_size = roi_size
        # hidden network
        self.avg_pool = nn.AvgPool2d(self.roi_size)
        self.fc = nn.Linear(out_channels, hidden_dim)
        self.dropout = nn.Dropout(p_dropout)
        
        # define classification head
        self.cls_head = nn.Linear(hidden_dim, n_classes)
        
    def forward(self, feature_map, proposals_list, gt_classes=None):
        
        if gt_classes is None:
            mode = 'eval'
        else:
            mode = 'train'
        
        # apply roi pooling on proposals followed by avg pooling
        roi_out = ops.roi_pool(feature_map, proposals_list, self.roi_size)
        roi_out = self.avg_pool(roi_out)
        
        # flatten the output
        roi_out = roi_out.squeeze(-1).squeeze(-1)
        
        # pass the output through the hidden network
        out = self.fc(roi_out)
        out = F.relu(self.dropout(out))
        
        # get the classification scores
        cls_scores = self.cls_head(out)
        
        if mode == 'eval':
            return cls_scores
        
        # compute cross entropy loss
        cls_loss = F.cross_entropy(cls_scores, gt_classes.long())
        
        return cls_loss

在一个全面的实现中，我们还将背景类别包括在第二阶段，但让我们将其留在本教程中。

在第二阶段，我们还添加了一个回归网络，该网络进一步为区域建议生成偏移量。然而，由于这需要额外的记录，我没有将其包含在本教程中。

非最大抑制

在推理的最后一步，我们使用一种称为非最大抑制的技术来删除重复的边界框。在该技术中，我们首先考虑具有最高分类分数的边界框。然后，我们用这个框计算所有其他框的IoU，并删除具有高IoU分数的框。这些是与“原始”边界框重叠的重复边界框。我们对剩余的框也重复此过程，直到删除所有重复项。

同样，我们不必从头开始实现它。torchvisio.ops库为我们提供了它。NMS处理步骤在上述第1阶段回归网络中实现。

Faster RCNN模型

我们将区域建议网络和分类模块结合起来，构建最终的端到端Faster RCNN模型。

class TwoStageDetector(nn.Module):
    def __init__(self, img_size, out_size, out_channels, n_classes, roi_size):
        super().__init__() 
        self.rpn = RegionProposalNetwork(img_size, out_size, out_channels)
        self.classifier = ClassificationModule(out_channels, n_classes, roi_size)
        
    def forward(self, images, gt_bboxes, gt_classes):
        total_rpn_loss, feature_map, proposals, \
        positive_anc_ind_sep, GT_class_pos = self.rpn(images, gt_bboxes, gt_classes)
        
        # get separate proposals for each sample
        pos_proposals_list = []
        batch_size = images.size(dim=0)
        for idx in range(batch_size):
            proposal_idxs = torch.where(positive_anc_ind_sep == idx)[0]
            proposals_sep = proposals[proposal_idxs].detach().clone()
            pos_proposals_list.append(proposals_sep)
        
        cls_loss = self.classifier(feature_map, pos_proposals_list, GT_class_pos)
        total_loss = cls_loss + total_rpn_loss
        
        return total_loss
    
    def inference(self, images, conf_thresh=0.5, nms_thresh=0.7):
        batch_size = images.size(dim=0)
        proposals_final, conf_scores_final, feature_map = self.rpn.inference(images, conf_thresh, nms_thresh)
        cls_scores = self.classifier(feature_map, proposals_final)
        
        # convert scores into probability
        cls_probs = F.softmax(cls_scores, dim=-1)
        # get classes with highest probability
        classes_all = torch.argmax(cls_probs, dim=-1)
        
        classes_final = []
        # slice classes to map to their corresponding image
        c = 0
        for i in range(batch_size):
            n_proposals = len(proposals_final[i]) # get the number of proposals for each image
            classes_final.append(classes_all[c: c+n_proposals])
            c += n_proposals
            
        return proposals_final, conf_scores_final, classes_final

训练模型

首先，让我们在一小部分数据样本上拟合网络，以确保一切都按预期工作。我们使用Adam优化器的标准训练循环，学习率为1e-3。

以下是结果：

由于我们在一小部分数据上进行了训练，所以模型还没有学习到图像级别的特征，因此结果并不准确。这可以通过在大型数据集上进行训练来改善。

结论

在实现中，我们在标准数据集（如MS-COCO或PASCAL VOC）上训练网络，并使用平均精度或ROC曲线下面积等指标评估结果。然而，本教程的目的是了解Faster RCNN模型，因此我们将离开评估部分。

多年来，该领域取得了重大进展，并开发了许多新的网络。示例包括YOLO、EfficientDet、DETR和Mask RCNN。然而，它们中的大多数都建立在我们在本教程中讨论过的Faster RCNN模型所奠定的基础之上。

我希望你喜欢这篇文章。代码在GitHub中可用。

https://github.com/wingedrasengan927/pytorch-tutorials/tree/master/Object%20Detection

数据集

本文中使用的两幅图像来自DIV2K数据集。数据集在CC0:公共域下获得许可。

@InProceedings{Agustsson_2017_CVPR_Workshops,
 author = {Agustsson, Eirikur and Timofte, Radu},
 title = {NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study},
 booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops},
 month = {July},
 year = {2017}
}

图像学分

除非标题中明确引用了源代码，否则本教程中的所有图像均由作者提供。

参考引用

Deep learning for Computer Vision, UMich(https://web.eecs.umich.edu/~justincj/teaching/eecs498/WI2022/)
Faster-RCNN paper(https://arxiv.org/abs/1506.01497)

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 woshicver」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓

你可能感兴趣的:(计算机视觉,深度学习,目标检测,人工智能,神经网络)

千万年薪招揽AI大牛！罗福莉加盟小米，将如何改变其大模型战略？前端
近年来，人工智能(AI)领域发展迅速，其中大模型技术的突破更是引领着新一轮科技浪潮。AI代码生成器作为AI技术的重要应用，也正逐渐改变着软件开发的模式。1月18日，一则重磅消息震惊业界：DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米，并可能领导小米大模型团队，年薪高达千万级别。这一举动不仅体现了小米对AI大模型技术的重视，也预示着小米在大模型领域的战略布局将迎来新
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
【AIGC半月报】AIGC大模型启元：2024.07（上） LeeZhao@ AIGC 人工智能 AI Agent
AIGC大模型启元：2024.07（上）(1)AIGVBench-T2V（文生视频基准测评）(2)Gen-3Alpha（Runway）(3)Step-2、Step-1.5V、Step-1X（阶跃星辰开源大模型）(4)InternVL2.0“书生·万象”（上海人工智能实验室）(5)CodeGeeX4-ALL-9B（智谱AI）(6)TTT（全新LLM架构）(1)AIGVBench-T2V（文生视频基准
认知的形式化：数学是建立在明确的公设定理体系之上的高级语言形态 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知形式化，数学语言，公设理体系，高级语言，人工智能，逻辑推理，算法设计1.背景介绍在当今数据爆炸和人工智能飞速发展的时代，如何有效地理解和处理信息成为了一个至关重要的课题。认知科学、人工智能和计算机科学等领域都在积极探索如何将人类的认知能力形式化，并将其转化为可计算的模型。数学作为一种高度抽象和形式化的语言，在认知科学和人工智能领域扮演着至关重要的角色。它为我们提供了描述和推理世界的逻辑框架，并
【cs.AI】25.1.11 arxiv更新速递 hinmer arxiv cs.AI每日更新 chatgpt gpt 人工智能自然语言处理自动驾驶深度学习 aigc
25.1.1012:00-25.1.1112:00共更新75篇—第1篇----=====MultilingualPerformanceofaMultimodalArtificialIntelligenceSystemonMultisubjectPhysicsConceptInventories关键词:多语言,多模态,人工智能,GPT-4,物理教育,物理概念清单链接1摘要:我们研究了一种基于大型语言
【LLM】25.1.11 Arxiv LLM论文速递 hinmer arxiv LLM每日更新 chatgpt gpt 人工智能自然语言处理 ai aigc 深度学习
25.1.1012:00-25.1.1112:00共更新36篇—第1篇----=====Supervisionpoliciescanshapelong-termriskmanagementingeneral-purposeAImodels关键词:通用型人工智能，风险管理，监督政策，模拟框架PDF链接摘要:通用型人工智能（GPAI）模型，包括大型语言模型（LLM）的快速普及和部署，给AI监管实体带来
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
AI需要的基础数学知识大囚长机器学习大模型人工智能
AI（人工智能）涉及多个数学领域，以下是主要的基础数学知识：1.线性代数矩阵与向量：用于表示数据和模型参数。矩阵乘法：用于神经网络的前向传播。特征值与特征向量：用于降维和主成分分析（PCA）。奇异值分解（SVD）：用于数据压缩和降维。2.微积分导数与偏导数：用于优化算法（如梯度下降）。链式法则：用于反向传播算法。积分：在概率和统计中有应用。3.概率与统计概率分布：如高斯分布、伯努利分布等。贝叶斯定
云游戏一二事大囚长运维人生游戏世界游戏
云游戏让CDN边缘计算加速发展，边缘计算节点越来越类似于神经网络的终端节点，AI人类大脑正在加速形成。云游戏就是元宇宙的前站和先锋。云游戏解决了哪些痛点：1.终端成本高玩家购买高端主机设备来适应游戏不断提升的硬件要求，极大程度地加重了玩家成本2.游戏包越来越大，下载安装成本高游戏画面越来越精细的同时也带来了不断膨胀的游戏包体，给游戏存储与推广都带来了更大的压力和成本3.游戏无法在多种终端间自由切换
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
人工智能与人工计算的发展——孙凝晖院士一位安分的码农大语言模型人工智能
人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日，OpenAI公司推出一款人工智能对话聊天机器人ChatGPT，其出色的自然语言生成能力引起了全世界范围的广泛关注，2个月突破1亿用户，国内外随即掀起了一场大模型浪潮，Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现，2022年也被誉为大模型元年。当前信息时代
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
AI时代，需要怎样的架构师？腾讯云架构师峰会来了！架构
引言架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能等前沿技术的蓬勃发展，一系列创新解决方案如微服务架构、AI大模型、自动化运维工
基于Hough变换与分数阶变分PDE的图像去雨算法实现（附带Matlab源码）心之飞翼算法 matlab 计算机视觉 Matlab
基于Hough变换与分数阶变分PDE的图像去雨算法实现（附带Matlab源码）图像去雨是计算机视觉领域的一个重要问题，它的目标是从雨滴造成的图像中恢复出原始的清晰图像。本文将介绍一种基于Hough变换和分数阶变分PDE（PartialDifferentialEquation）的图像去雨算法，并提供相应的Matlab源代码。算法步骤如下：导入图像首先，我们需要导入包含雨滴的图像。可以使用Matlab
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
算法中的时间复杂度和空间复杂度 CM莫问人工智能算法常见概念算法人工智能 python 时间复杂度空间复杂度
一、背景随着人工智能的纵深发展，我们会发现现在做算法很多时候都是通过掉包来解决问题了。Torch或者Tensorflow之类的深度学习库大大减少了算法工程师的工作量，而且在张量运算、反向传播等环节，这些深度学习库的模块设计也尽最大可能地降低了计算的时间和空间复杂度，从而不需要我们额外进行过多的干预。如果不是科班读计算机相关专业的，相信不少朋友第一次听说时间复杂度和空间复杂度的概念是在找工作刷lee
Anthropic 正计划为其聊天机器人 Claude 推出“双向语音模式”和一个新的记忆功能新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/Anthropic正计划为其聊天机器人Claude推出“双向语音模式”和一个新的记忆功能
DeepMind的新突破：GenCast 新加坡内哥谈技术人工智能大数据语言模型
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/如今，人工智能（AI）在天气预报领域的表现已经可以与传统计算方法媲美。然而，AI模型的训
AI跟踪报道第62期-本周AI新闻: 微软推出Copilot的AI Agent和Computer Control 新加坡内哥谈技术人工智能 copilot 大数据
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/油管视频:https://youtu.be/_Egli1MlVWk?si=DIjVm2l
使用神经网络做二分类预测 weixin_33816300 人工智能 python matlab
不想整理代码了。先给个结果图：train0loss:1838.0616train100loss:1441.5283train200loss:1299.4546train300loss:934.36536train400loss:506.06702train500loss:322.9782train600loss:271.5825train700loss:360.091train800loss:23
360智算中心万卡GPU集群架构分析科技互联人生科技数码人工智能硬件架构系统架构人工智能
360智算中心：万卡GPU集群落地实践 360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨3
ARM Cortex-M3与Cortex-M4权威指南胡妃意
ARMCortex-M3与Cortex-M4权威指南【下载地址】ARMCortex-M3与Cortex-M4权威指南ARMCortex-M3与Cortex-M4权威指南欢迎阅读《ARMCortex-M3与Cortex-M4权威指南（第3版）》，这是一本针对嵌入式系统开发者量身打造的深度学习手册项目地址:https://gitcode.com/Open-source-documentation-tu
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
AI赋能电商：从个性化推荐到智能化运营 w(ﾟДﾟ)w吓洗宝宝了当下编程领域的分析大数据人工智能
引言随着互联网技术的飞速发展，电子商务已经成为人们日常生活的重要组成部分。然而，在激烈的市场竞争中，如何提升销售效率和用户体验成为了电商平台面临的主要挑战。近年来，人工智能（AI）技术的迅猛发展为这一挑战提供了新的解决方案。从个性化推荐到会员分类，从商品定价到供应链管理，AI技术的应用不仅提高了电商平台的运营效率，还极大地提升了用户的购物体验。本文将深入探讨AI技术在电商领域的多种应用场景，分析其
Neural Architecture Search (NAS) 原理和应用 weixin_58349913 python
NeuralArchitectureSearch(NAS)原理和应用NeuralArchitectureSearch(NAS)是一种自动化设计神经网络架构的技术。它通过搜索空间中的不同架构配置来找到最优或接近最优的神经网络结构，从而减少人工设计网络结构的工作量。NAS的目标是通过自动化的方式获得比手工设计更高效、准确的模型架构，特别适用于对网络架构要求较高的任务。1.NAS的基本原理NAS的核心思
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代 Echo_Wish 前沿技术人工智能 python 人工智能 gpt
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代随着人工智能技术的迅猛发展，基于深度学习的对话模型在各个领域中得到了广泛应用。其中，GPT-4对话模型在客服系统中的应用尤为引人注目。本文将探讨GPT-4在客服中的应用与未来发展前景，并结合具体代码示例进行说明。一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞 Echo_Wish 前沿技术人工智能人工智能 gan python
用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞随着人工智能技术的飞速发展，生成对抗网络（GenerativeAdversarialNetworks，GANs）在图像生成、视频生成、音频合成等领域展现出了惊人的创造力。特别是在艺术创作方面，GANs以其独特的生成能力，为艺术家和创作者提供了新的灵感和工具。本文将探讨GANs在艺术作品生成中的应用与创新，并通过具体代码示例展示其实现过程。一
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
模型压缩与优化技术——神经架构搜索（Neural Architecture Search, NAS） DuHz 轻量化模型机器学习计算机视觉人工智能神经网络深度学习数据挖掘语音识别
模型压缩与优化技术中的神经架构搜索（NeuralArchitectureSearch,NAS）技术1.引言在深度学习领域，神经网络的架构设计对模型的性能至关重要。传统的手动设计网络架构的过程费时费力，且通常依赖于经验和直觉。为了提升效率与效果，神经架构搜索（NeuralArchitectureSearch,NAS）作为一种自动化的方法，能够通过算法寻找和优化最佳的神经网络架构。NAS可以在图像识别
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多