Zannnne

Make your own Pytorch-YOLOv3

1.主干网络(backbone)

YOLOv3主干网络是darknet53,主要是由基本的模块ResBlock连接而成，没有网络分支，前向传播较为简单。
基本的ResBlock模块代码如下所示，主要是交替完成1x1和3x3的卷积,每个卷积之后都应用了BN层和LeakyReLU层。

# 本文注释的数字都是以416x416的图像作为输入，类别参考VOC共20个类别。
class BasicBlock(nn.Module):
def __init__(self, channels):
    """
    1x1卷积 与 3x3卷积 交替的网络结构
    :param channels: List，对应于整个残差块的输入输出通道，例如[32,64]，[64,128]
    """
    super(BasicBlock, self).__init__()
    # 64x64 --> 32x32
    # 128x128 --64x64
    self.conv1 = nn.Conv2d(in_channels=channels[1], out_channels=channels[0], kernel_size=1, stride=1, padding=0, bias=False)
    self.bn1 = nn.BatchNorm2d(channels[0])
    self.relu1 = nn.LeakyReLU(0.1)

    # 32x32 --> 64x64
    # 64x64 --> 128x128
    self.conv2 = nn.Conv2d(in_channels=channels[0], out_channels=channels[1], kernel_size=3, stride=1, padding=1, bias=False)
    self.bn2 = nn.BatchNorm2d(channels[1])
    self.relu2 = nn.LeakyReLU(0.1)

def forward(self, x):
    """
    生成ResNet结构
    :param x: 网络输入特征图
    :return: 经过处理后的特征图
    """
    # 残差边 shortcut
    residual = x

    # 减少通道数的卷积
    out = self.conv1(x)
    out = self.bn1(out)
    out = self.relu1(out)

    # 增加通道数的卷积
    out = self.conv2(out)
    out = self.bn2(out)
    out = self.relu2(out)

    # 残差边和卷积边连接
    out += residual
    return out

下面代码是DarkNet类，表示darknet网络的基本结构，其中传入的layers参数用来控制网络的层数，比如darknet53中layers = [1, 2, 8, 8, 4],darkent21中layers = [1, 1, 2, 2, 1]可以提高代码的重用。

class DarkNet(nn.Module):
    def __init__(self， layers):
        super(DarkNet, self).__init__()
        # [1, 2, 8, 8, 4]
        self.layers = layers
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(32)
        self.relu1 = nn.LeakyReLU(0.1)

        # res_blockn表示基本的残差模块，n表示该残差模块循环了几次，实际循环中使用num_blocks进行控制
        # 416,416,32 -> 208,208,64
        self.res_block1 = self._make_layer([32, 64], layers[0])
        # 208,208,64 -> 104,104,128
        self.res_block2 = self._make_layer([64, 128], layers[1])
        # 104,104,128 -> 52,52,256
        self.res_block3 = self._make_layer([128, 256], layers[2])
        # 52,52,256 -> 26,26,512
        self.res_block4 = self._make_layer([256, 512], layers[3])
        # 26,26,512 -> 13,13,1024
        self.res_block5 = self._make_layer([512, 1024], layers[4])

    def _make_layer(self, in_out_channels, num_blocks):
        """
        stride=2的降采样卷积，提高通道数，并生成残差块
        :param in_out_channels:网络的输入输出通道，例[32,64]，[64,128]
        :param num_blocks:残差块个数，即BasicBlock循环次数
        :return:[1，2，8，8，4]对应数量的残差块网络
        """
        layers = []
        # 下采样，步长为2，卷积核大小为3
        layers.append(("ds_conv", nn.Conv2d(in_channels=in_out_channels[0], out_channels=in_out_channels[1], kernel_size=3, stride=2, padding=1, bias=False)))
        layers.append(("ds_bn", nn.BatchNorm2d(in_out_channels[1])))
        layers.append(("ds_relu", nn.LeakyReLU(0.1)))
        # 加入残差结构
        for i in range(0, num_blocks):
            layers.append(("residual_{}".format(i), BasicBlock(in_out_channels)))
        return nn.Sequential(OrderedDict(layers))

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu1(x)

        x = self.res_block1(x)
        x = self.res_block2(x)
        # 52x52x256
        out3 = self.res_block3(x)
        # 26x26x512
        out4 = self.res_block4(out3)
        # 13x13x1024
        out5 = self.res_block5(out4)
        print("out3:")

        return out3, out4, out5

然后我们可以使用tensorboard模块将网络结构进行可视化检查

from torch.utils.tensorboard import SummaryWriter

if __name__ == '__main__':
    darknet53 = DarkNet([1, 2, 8, 8, 4])
    writer = SummaryWriter(log_dir='logs_net', flush_secs=1)
    inputs = torch.rand(1, 3, 416, 416)
    writer.add_graph(darknet53, inputs)
    writer.close()
    # 在logs_net路径下会生成event文件，在bash中`tensorboard --logdir=logs_net`可以显示

tensorboard中显示的网络结构可以不断放大，只到最基础的结构。

小结
一般主干网络的结构较为简单，没有较多的分支连接，逻辑较为清晰。github上有较多的开源代码可以使用，这部分一般只需看懂，在开源代码的基础上修改即可。

2.YOLOv3多尺度融合网络(YOLOv3 detect Header)

这部分主要完成YOLOv3的多尺度融合部分代码，由于多尺度融合网络结构较为复杂，分支和连接较多，只看代码容易晕，需保持逻辑清晰。下图较为清晰的展示了YOLOv3的网络结构，我们在这部分只关注多尺度融合部分即可。与代码结合着学习，可以清晰的了解网络结构和实现原理。

这部分还是使用由小到大的策略，从图中可以看出DBL模块(代码中定义的CBL模块)使用较多，先实现这个小模块，代码如下：

# CBL模块
# Conv+BN+LeakyReLU
class CBL(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, padding, stride=1):
        """
        Conv+BN+LeakyReLU子模块
        :param in_channels:
        :param out_channels:
        :param kernel_size:
        :param padding:
        :param stride:
        """
        super(CBL, self).__init__()
        self.cbl = nn.Sequential(
            nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=kernel_size, padding=padding, stride=stride, bias=False),
            nn.BatchNorm2d(out_channels),
            nn.LeakyReLU(0.1),
        )

    def forward(self, x):
        return self.cbl(x)

其中由3处使用了5次DBL模块，这里也将其当做一个小模块实现，代码如下：

# CBL*5模块，由5个CBL模块组成
# 在YOLOv3中使用了三次该模块，分别是13x13, 26x26, 52x52
class CBL_5(nn.Module):
    def __init__(self, in_channels, channels_large, channels_small):
        """
        :param channels_large: CBL*5模块中较大的通道数
        :param channels_small: CBL*5模块中较小的通道数
        """
        super(CBL_5, self).__init__()
        self.cal_5 = nn.Sequential(
            CBL(in_channels=in_channels, out_channels=channels_small, kernel_size=1, padding=0),
            CBL(in_channels=channels_small, out_channels=channels_large, kernel_size=3, padding=1),
            CBL(in_channels=channels_large, out_channels=channels_small, kernel_size=1, padding=0),
            CBL(in_channels=channels_small, out_channels=channels_large, kernel_size=3, padding=1),
            CBL(in_channels=channels_large, out_channels=channels_small, kernel_size=1, padding=0),
        )

    def forward(self, x):
        return self.cal_5(x)

YOLOv3的结构图中最后输出时为DBL+conv,我们将这两个合为一个模块进行实现，代码如下：

class CBL_CONV(nn.Module):
    def __init__(self, in_channels, middle_channels, out_channels):
        """
        CBL_CONV:CBL(Conv+BN+LeakyReLU子模块)+卷积模块
        CBL_CONV用于最后一层输出
        :param in_channels:输入通道
        :param middle_channels:CBL输出通道，Conv2d的输入通道
        :param out_channels:输出通道，VOC为75 3x(20+1+4)，COCO为255 3x(80+1+4)
        """
        super(CBL_CONV, self).__init__()
        self.cbl_conv = nn.Sequential(
            CBL(in_channels, middle_channels, kernel_size=3, padding=1),
            nn.Conv2d(middle_channels, out_channels, kernel_size=1, padding=0, bias=True)
        )

    def forward(self, x):
        return self.cbl_conv(x)

现在多尺度融合部分还剩下上采样和Concat这两个模块没有，Concat部分功能简单，只需将两个特征图拼接即可，torch中自带了torch.cat()可以实现。YOLOv3作者使用的是最近邻插值上采样算法，上采样率为2，也就是输入特征图的每个元素复制4份进行输出。上采样部分代码实现如下：

class CBL_UpSample(nn.Module):
    def __init__(self, in_channels, out_channels):
        """
        CBL_UpSample：CBL+上采样子模块模块
        CBL_UpSample一般用于torch.cat之前
        上采样算法有：nearest, linear(3D - only), bilinear(4D - only), bicubic (4D-only), trilinear(5D - only) .只有4D可用
        最近邻、线性、双线性, 双三次(bicubic)和三线性(trilinear)插值算法
        :param in_channels:对应于小尺寸的通道数
        :param out_channels:输出通道数
        """
        super(CBL_UpSample, self).__init__()
        self.cbl_conv = nn.Sequential(
            CBL(in_channels, out_channels, kernel_size=1, padding=0),
            nn.Upsample(scale_factor=2, mode="nearest")
        )

    def forward(self, x):
        return self.cbl_conv(x)

至此，我们已经完成了组成多尺度融合网络的所有组件的代码实现，接下来只需要像搭积木一样把我们已经完成的组件按照网络结构搭建起来即可。多尺度融合代码如下：

class YOLOv3(nn.Module):
    def __init__(self):
        super(YOLOv3, self).__init__()
        # 主干网络
        self.backbone = darknet53()

        COCO_CLASS = (80 + 5) * 3
        VOC_CLASS = (20 + 5) * 3
        # 13尺度，CBL*5模块
        self.cbl_5_13 = CBL_5(1024, 1024, 512)
        # 13尺度，CBL+Conv模块
        self.cbl_conv_13 = CBL_CONV(512, 1024, VOC_CLASS)

        # 26尺度, CBL+上采样模块
        self.cbl_upsample_26 = CBL_UpSample(512, 256)
        # 26尺度, CBL*5模块
        self.cbl_5_26 = CBL_5(768, 512, 256)
        # 26尺度, CBL+Conv模块
        self.cbl_conv_26 = CBL_CONV(256, 512, VOC_CLASS)

        # 52尺度, CBL+上采样模块
        self.cbl_upsample_52 = CBL_UpSample(256, 128)
        # 52尺度, CBL*5模块
        self.cbl_5_52 = CBL_5(384, 256, 128)
        # 52尺度, CBL+Conv模块
        self.cbl_conv_52 = CBL_CONV(128, 256, VOC_CLASS)

    def forward(self, x):
        # 获取主干网络的三个输出
        # x2:52x52x256
        # x1:26x26x512
        # x0:13x13x1024
        x2, x1, x0 = self.backbone(x)
        # 13x13x1024 --> 13x13x512 --> 13x13x1024 --> 13x13x512 --> 13x13x1024 --> 13x13x512
        #    卷积核：        1x1     -->    3x3    -->   1x1      -->   3x3     -->    1x1
        out0_branch = self.cbl_5_13(x0)
        # 13x13x512 --> 13x13x1024 --> 13x13x75
        out0 = self.cbl_conv_13(out0_branch)

        # CBL+UpSample
        # 13x13x512 --> 13x13x256 --> 26x26x256
        out1_branch = self.cbl_upsample_26(out0_branch)
        # [26x26x256, 26x26x512] --> 26x26x768
        out1_branch = torch.cat([out1_branch, x1], 1)
        # 26x26x768 --> 26x26x256 --> 26x26x512 --> 26x26x256 --> 26x26x512 --> 26x26x256
        out1_branch = self.cbl_5_26(out1_branch)
        # 26x26x256 --> 26x26x512 --> 26x26x75
        out1 = self.cbl_conv_26(out1_branch)

        # out2_branch 为了保持和前文形式统一
        # 26x26x256 --> 26x26x128 --> 52x52x128
        out2_branch = self.cbl_upsample_52(out1_branch)
        # [52x52x128, 52x52x256] --> 52x52x384
        out2_branch = torch.cat([out2_branch, x2], 1)
        # 52x52x384 --> 52x52x128 --> 52x52x256 --> 52x52x128 --> 52x52x256 --> 52x52x128
        out2_branch =self.cbl_5_52(out2_branch)
        # 52x52x128 --> 52x52x256 --> 52x52x75
        out2 = self.cbl_conv_52(out2_branch)

        # out0:13x13x75
        # out1:26x26x75
        # out2:52x52x75
        return out0, out1, out2

代码最后返回的out0, out1, out2是YOLOv3最终输出的三个尺度特征图(feature map)。至此完成了YOLOv3网络模型的搭建。同样，也可以使用tensorboard查看网络结构。也可以使用pytorch自带的summary模块查看网络参数，代码实现如下：

import torch
from torchsummary import summary
from yolov3 import YOLOv3

if __name__ == "__main__":
    # 需要使用device来指定网络在GPU还是CPU运行
    # summary显示网络结构
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model = YOLOv3().to(device)
    summary(model, (3, 416, 416))

运行成功后输出内容如图所示：

3.损失函数

3.1 锚框(anchor)

YOLOv3中锚框的尺寸是通过k-means聚类得到的。具体实现：初始花k(= 9)个锚框尺寸，计算数据集中每一个bounding box与这9个anchor box的IoU,然后找出IoU最大的anchor box,把这bounding box归类到这个IoU最大的anchor box中，遍历完所有的bounding box后，对每个anchor box的尺寸进行更新，更新策略有使用bounding box中值更新，也有均值更新。直到anchor box的尺寸不再变化，或者说每个anchor box中的bounding box不再变化。
YOLOv3中得到的9个anchor box尺寸为：[10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326]。
在训练自己的网络时anchor box尺寸数值一般不做更改，因为用自己的数据集通过k-means聚类产生的anchor box效果不一定会有提升。主要是因为自己的数据集一般不够丰富，Label中标注框（真实框）的大小往往差不多，尺寸大小比较集中，这时通过k-means聚类产生的anchor box自然就很集中，几乎相差不大，反而体现不出模型的多尺度输出的优势，检测效果自然就变差了。

3.2 交并比计算（IoU）

IoU原理较为简单，实际代码实现时需要考虑较多的情况，比如两框不相交，两框左斜相交、右斜相交，一个小框包含在另一个框里面等情况。

IoU的计算计算，代码如下：

def calculate_iou(self, _box_a, _box_b):
    """
    :param _box_a:真实框
    :param _box_b:先验框
    :return:IoU
    """
    # 计算真实框的左上角和右下角
    # _box_a = [cx, cy, w, h]
    b1_x1, b1_x2 = _box_a[:, 0] - _box_a[:, 2] / 2, _box_a[:, 0] + _box_a[:, 2] / 2
    b1_y1, b1_y2 = _box_a[:, 1] - _box_a[:, 3] / 2, _box_a[:, 1] + _box_a[:, 3] / 2

    # 计算先验框获得的预测框的左上角和右下角
    # _box_b = [cx, cy, w, h]
    b2_x1, b2_x2 = _box_b[:, 0] - _box_b[:, 2] / 2, _box_b[:, 0] + _box_b[:, 2] / 2
    b2_y1, b2_y2 = _box_b[:, 1] - _box_b[:, 3] / 2, _box_b[:, 1] + _box_b[:, 3] / 2

    # 将真实框和预测框都转化成左上角右下角的形式
    # 真实框:box_a = [x1, y1, x2, y2]
    # 预测框:box_b = [x1, y1, x2, y2]
    box_a = torch.zeros_like(_box_a)
    box_b = torch.zeros_like(_box_b)
    box_a[:, 0], box_a[:, 1], box_a[:, 2], box_a[:, 3] = b1_x1, b1_y1, b1_x2, b1_y2
    box_b[:, 0], box_b[:, 1], box_b[:, 2], box_b[:, 3] = b2_x1, b2_y1, b2_x2, b2_y2

    # A为真实框的数量，B为先验框的数量
    A = box_a.size(0)
    B = box_b.size(0)

    # 计算交的面积
    # torch.clamp(input,min,max),将输入input张量的每个元素夹紧到区间 [min,max],这里只限制了最小值，把负数拉回到0，应该是解决两框不相交的情况，计算面积时，0与任何数相乘得到交面积为0
    # max_xy相当于图中的BBox1的（x2,y2）
    # min_xy相当于图中的BBox2的（x1,y1）
    max_xy = torch.min(box_a[:, 2:].unsqueeze(1).expand(A, B, 2), box_b[:, 2:].unsqueeze(0).expand(A, B, 2))
    min_xy = torch.max(box_a[:, :2].unsqueeze(1).expand(A, B, 2), box_b[:, :2].unsqueeze(0).expand(A, B, 2))
    inter = torch.clamp((max_xy - min_xy), min=0, )
    # 交面积,如果不相交的话，torch.clamp会使inter两项产生一个0。从图形上讲就是不相交时长或宽为负，为了避免计算出负面积，clamp设置长宽小于0时即为0，从而下试计算的交面积为0。交面积为0时，IoU=0
    inter = inter[:, :, 0] * inter[:, :, 1]

    # 计算预测框和真实框各自的面积
    # (x2 - x1) * （y2 - y1）
    area_a = ((box_a[:, 2] - box_a[:, 0]) * (box_a[:, 3] - box_a[:, 1])).unsqueeze(1).expand_as(inter)  # [A,B]
    area_b = ((box_b[:, 2] - box_b[:, 0]) * (box_b[:, 3] - box_b[:, 1])).unsqueeze(0).expand_as(inter)  # [A,B]

    # 计算并的面积
    union = area_a + area_b - inter
    # 求IOU
    return inter / union  # [A,B]

3.3 真实值（target）的编码

在计算损失函数之前首先是对于13x13x75 26x26x75 52x52x75的输出进行解码的过程，转换为在特征图上的位置信息，然后才能基于特征图的尺寸根据先验框与真实框之间的位置信息（这里指的是x y w h,都是相对于特征图的，非相对于原图尺寸）计算位置损失函数，另外还有类别损失。以13x13的特征图为例，在VOC（20类）数据集中，该特征图需要产生13x13x(4+1+20)x3 = 12675 个anchor box。

class YOLOLoss(nn.Module):
    def __init__(self, anchors, num_classes, input_shape, cuda, anchors_mask=[[6, 7, 8], [3, 4, 5], [0, 1, 2]]):
        super(YOLOLoss, self).__init__()
        # 以下锚框尺寸是相对与416x416的原始图像而言的
        # 13x13的特征层对应的anchor是[116,90],[156,198],[373,326]
        # 26x26的特征层对应的anchor是[30,61],[62,45],[59,119]
        # 52x52的特征层对应的anchor是[10,13],[16,30],[33,23]
        self.anchors = anchors
        self.num_classes = num_classes
        self.bbox_attrs = 5 + num_classes
        self.input_shape = input_shape
        self.anchors_mask = anchors_mask

        self.ignore_threshold = 0.5
        self.cuda = cuda

    def clip_by_tensor(self, t, t_min, t_max):
        """
        这个函数的作用就是抑制小数和大数
        若t < t_min, t = t_min
        若t > t_max, t = t_max
        若t in [t_min, t_max], t = t 
        """
        t = t.float()
        result = (t >= t_min).float() * t + (t < t_min).float() * t_min
        result = (result <= t_max).float() * result + (result > t_max).float() * t_max
        return result

    def MSELoss(self, pred, target):
        # 均方损失函数，一般没必要自己重写，直接用torch.nn
        return torch.pow(pred - target, 2)

    def BCELoss(self, pred, target):
        """
        官方的nn.BCELoss是二分类任务时的交叉熵计算函数。相当于nn.CrossEntropyLoss函数的特例，其分类限定为二分类，y必须是{0， 1}。还需注意的是，input应为概率分布的形式，这样才符合交叉熵的应用。所以在BCELoss之前，input一般为sigmoid激活层的输出。
        """
        epsilon = 1e-7
        # 小于0的数置为epsilon，大于0的数置为（1.0 - epsilon）
        # clip_by_tensor把pred确保在（0-1）的取值范围
        pred = self.clip_by_tensor(pred, epsilon, 1.0 - epsi lon)
        output = - target * torch.log(pred) - (1.0 - target) * torch.log(1.0 - pred)
        return output

    def forward(self, l, input, targets=None):
        """
        :param l: 当前输入进来的有效特征层，是第几个有效特征层
        :param input: input的shape为 
                                    bs, 3*(5+num_classes), 13, 13
                                    bs, 3*(5+num_classes), 26, 26
                                    bs, 3*(5+num_classes), 52, 52
        :param targets: 真实框
        :return: 
        """
        bs = input.size(0)
        in_h = input.size(2)
        in_w = input.size(3)

        # 计算步长(缩放比例)，也就是YOLOv3最终输出的特征图上的每一个特征点(像素)对应原来的图片上多少个像素点(对应原图上多大的感受野)
        # 如果特征层为13x13的话，一个特征点就对应原来的图片上的32个像素点
        # 如果特征层为26x26的话，一个特征点就对应原来的图片上的16个像素点
        # 如果特征层为52x52的话，一个特征点就对应原来的图片上的8个像素点
        # stride_h = stride_w = 416/13 = 32、416/26 = 16、416/52 = 8
        stride_h = self.input_shape[0] / in_h
        stride_w = self.input_shape[1] / in_w

        # 此时获得的scaled_anchors大小是相对于特征层(feature map)的
        # 13x13的特征层对应的anchor是[116,90],[156,198],[373,326] --> scaled_anchors:(3.625, 2.8125), (4.875, 6.1875), (11.65625, 10.1875)
        # 26x26的特征层对应的anchor是[30,61],[62,45],[59,119] --> scaled_anchors:(1.875, 3.8125), (3.875, 2.8125), (3.6875, 7.4375)
        # 52x52的特征层对应的anchor是[10,13],[16,30],[33,23] --> scaled_anchors:(1.25, 1.625), (2.0, 3.75), (4.125, 2.875)
        # 实际上这里代码是计算了每个尺度是特征层的9个anchor，不过有用的数据仅有以上三行，全部计算仅是为了代码方便
        scaled_anchors = [(a_w / stride_w, a_h / stride_h) for a_w, a_h in self.anchors]

        # 对于(N C H W)的顺序调整为(N 3 H W cls)
        # 输入的input一共有三个，他们的shape分别是
        # batch_size, 3*(5+num_classes), 13, 13 => 
        # batch_size, 3, 13, 13, 5 + num_classes
        # batch_size, 3, 26, 26, 5 + num_classes
        # batch_size, 3, 52, 52, 5 + num_classes
        # (0, 1, 3, 4, 2)顺序变换 --> (bs, len(self.anchors_mask[l]), in_h, in_w, self.bbox_attrs), self.bbox_attrs = 5 + num_classes
        # eg: prediction.shape: torch.Size([4, 3, 13, 13, 25])
        prediction = input.view(bs, len(self.anchors_mask[l]), self.bbox_attrs, in_h, in_w).permute(0, 1, 3, 4, 2).contiguous()

        # 先验框的中心位置的调整参数, 从(5 + num_classes)中取出x y
        # 用sigmoid函数，把x,y的值归一化到（0，1）的范围，避免调整量过大，同时避免影响其他anchor
        # x.shape: [4, 3, 13, 13]
        x = torch.sigmoid(prediction[..., 0])
        y = torch.sigmoid(prediction[..., 1])

        # 先验框的宽高调整参数, 从(5 + num_classes)中取出w h, shape: [4, 3, 13, 13]
        w = prediction[..., 2]
        h = prediction[..., 3]

        # 获得置信度，是否有物体, 从(5 + num_classes)中取出conf, shape: [4, 3, 13, 13]
        conf = torch.sigmoid(prediction[..., 4])

        # 种类置信度, VOC有20个， COCO80个， pothole数据集1个, shape: [4, 3, 13, 13, 20]
        pred_cls = torch.sigmoid(prediction[..., 5:])

        # //获得网络应该有的预测结果, 进入get_target()
        # targets是大小为8的列表,表示输入的bs=8的8张图片，targets[1]表示第2张图片中包含的目标，[cx,cy,w,h,class]，targets[1]*13变换到13x13的特征图上的坐标
        # y_true是 tx,ty,tw,th,conf,cls; noobj_mask是一个全是1的矩阵，但除了有目标的那个位置是0，即没有目标的位置全是1；
        # box_loss_scale是调整loss大小的权重，大目标loss权重小，小目标loss权重大（大目标调整幅度大，需要抑制） in_h = 13
        y_true, noobj_mask, box_loss_scale = self.get_target(l, targets, scaled_anchors, in_h, in_w)

        # 将预测结果进行解码，判断预测结果和真实值的重合程度
        # 如果重合程度过大则忽略，因为这些特征点属于预测比较准确的特征点
        # 作为负样本不合适
        '''
        noobj_mask是一个全为1的矩阵，把IoU大于0.5的预测框去除掉，因为IoU大于0.5说明这些框已经预测的比较准确了，虽然不是最大的，但也不错了，不作为负样本
        get_ignore返回的noobj_mask就全都是负样本了（不是最大的并且与真实框的IoU<0.5）
        '''
        noobj_mask = self.get_ignore(l, x, y, h, w, targets, scaled_anchors, in_h, in_w, noobj_mask)

        if self.cuda:
            y_true = y_true.cuda()
            noobj_mask = noobj_mask.cuda()
            box_loss_scale = box_loss_scale.cuda()

        # reshape_y_true[...,2:3]和reshape_y_true[...,3:4]
        # 表示真实框的宽高，二者均在0-1之间
        # 真实框越大，比重越小，小框的比重更大。
        box_loss_scale = 2 - box_loss_scale

        # 计算中心偏移情况的loss，使用BCELoss效果好一些
        # y_true[..., 0]是真实框的位置在单元格内的小数位的值，x是输出的25个神经元之一，x已经通过sigmoid归一化到了（0，1）区间
        # 为什么x可以只预测小数值：因为锚点的位置已经确定，在通过计算最大IoU的哪一步，找到了最合适的锚框，而锚框的位置是我们预先设置好的，是已知的。
        loss_x = torch.sum(self.BCELoss(x, y_true[..., 0]) * box_loss_scale * y_true[..., 4])
        loss_y = torch.sum(self.BCELoss(y, y_true[..., 1]) * box_loss_scale * y_true[..., 4])

        # 计算宽高调整值的loss
        loss_w = torch.sum(self.MSELoss(w, y_true[..., 2]) * 0.5 * box_loss_scale * y_true[..., 4])
        loss_h = torch.sum(self.MSELoss(h, y_true[..., 3]) * 0.5 * box_loss_scale * y_true[..., 4])

        # 计算置信度的loss，对于有目标的锚框，他们的第二项为0
        loss_conf = torch.sum(self.BCELoss(conf, y_true[..., 4]) * y_true[..., 4]) + \
                    torch.sum(self.BCELoss(conf, y_true[..., 4]) * noobj_mask)

        # 这个是怎么计算的？？？
        loss_cls = torch.sum(self.BCELoss(pred_cls[y_true[..., 4] == 1], y_true[..., 5:][y_true[..., 4] == 1]))

        loss = loss_x + loss_y + loss_w + loss_h + loss_conf + loss_cls
        num_pos = torch.sum(y_true[..., 4])
        num_pos = torch.max(num_pos, torch.ones_like(num_pos))
        return loss, num_pos

    def get_target(self, l, targets, anchors, in_h, in_w):
        # 计算一共有多少张图片 bs:4
        bs = len(targets)

        # 用于选取哪些先验框不包含物体 [4, 3, 13, 13]
        noobj_mask = torch.ones(bs, len(self.anchors_mask[l]), in_h, in_w, requires_grad=False)

        # 让网络更加去关注小目标 [4, 3, 13, 13]
        box_loss_scale = torch.zeros(bs, len(self.anchors_mask[l]), in_h, in_w, requires_grad=False)

        # batch_size, 3, 13, 13, 5 + num_classes  [4, 3, 13, 13, 25]
        y_true = torch.zeros(bs, len(self.anchors_mask[l]), in_h, in_w, self.bbox_attrs, requires_grad=False)
        for b in range(bs):
            # 判断该图中是否包含目标，不包含目标就直接跳过
            if len(targets[b]) == 0:
                continue
            # 生成一个和targets[b]一样的列表list
            # targets[7]:               tensor([[ 0.1683,  0.6731,  0.0721,  0.4183,  4.0000],[ 0.4663,  0.5156,  0.3606,  0.7043, 14.0000]], device='cuda:0')
            # targets[7]*13: [  2.1875,   8.7500,   0.9375,   5.4375,  4],[  6.0625,   6.7031,   4.6875,   9.1562, 14]
            # targets[7][:, [0, 2]]:    tensor([[0.1683,            0.0721],                  [0.4663,            0.3606]], device='cuda:0')
            batch_target = torch.zeros_like(targets[b])
            # [0, 2]，纵向拉伸（x方向），从归一化尺寸(真实尺寸/416)还原到13x13的特征图上
            """
            tensor([
            [2.1875, 0.9375],
            [6.0625, 4.6875]], device='cuda:0')
            13x13特征图：[cx, w]
            """
            batch_target[:, [0, 2]] = targets[b][:, [0, 2]] * in_w
            # [1, 3]，横向拉伸（y方向），从归一化尺寸还原到13x13的特征图上
            """
            tensor([[8.7500, 5.4375],
            [6.7031, 9.1562]], device='cuda:0')
            13x13特征图：[cy, h]
            """
            batch_target[:, [1, 3]] = targets[b][:, [1, 3]] * in_h
            # 类别序号
            # tensor([ 4., 14.], device='cuda:0')
            batch_target[:, 4] = targets[b][:, 4]
            batch_target = batch_target.cpu()
            # batch_target [cx*13, cy*13, w*13, h*13, class ]

            """
            tensor([[0.0000, 0.0000, 0.9375, 5.4375],
                    [0.0000, 0.0000, 4.6875, 9.1562]])
            """
            # gt_box的第一项和第二项是0，第三项和第四项是从batch_target中取出的w*13, h*13
            gt_box = torch.FloatTensor(torch.cat((torch.zeros((batch_target.size(0), 2)), batch_target[:, 2:4]), 1))

            """
            anchor_shapes: 9个先验框，9行, 4列,后两列来自anchors
            tensor([[ 0.0000,  0.0000,  0.3125,  0.4062],
                    [ 0.0000,  0.0000,  0.5000,  0.9375],
                    [ 0.0000,  0.0000,  1.0312,  0.7188],
                    [ 0.0000,  0.0000,  0.9375,  1.9062],
                    [ 0.0000,  0.0000,  1.9375,  1.4062],
                    [ 0.0000,  0.0000,  1.8438,  3.7188],
                    [ 0.0000,  0.0000,  3.6250,  2.8125],
                    [ 0.0000,  0.0000,  4.8750,  6.1875],
                    [ 0.0000,  0.0000, 11.6562, 10.1875]])
            ---------------------------------------
            anchors: 是k-means得到的anchors/32的数值，相当于把anchors缩放到13x13的特征图上的位置
            [(0.3125, 0.40625), (0.5, 0.9375), (1.03125, 0.71875), (0.9375, 1.90625), (1.9375, 1.40625), (1.84375, 3.71875), (3.625, 2.8125), (4.875, 6.1875), (11.65625, 10.1875)]
            """
            # 思考：这里 gt_box只有长和宽的信息，anchor_shapes也是只有长和宽的原因
            # 解答：应该是为了后续计算锚框与真实框的IoU，这里的计算方法有一点意外，前两项置为0相当于先将真实框和锚框左上角再计算IoU（有的地方是通过对齐中心后再计算IoU的，与左上角对齐效果一样）
            # 对齐再计算IoU的好处：可以找到大小最合适的锚框，后面通过损失函数再调整中心位置的偏移。非常巧妙
            anchor_shapes = torch.FloatTensor(
                torch.cat((torch.zeros((len(anchors), 2)), torch.FloatTensor(anchors)), 1))

            # 计算交并比
            # self.calculate_iou(gt_box, anchor_shapes) = [num_true_box, 9]每一个真实框和9个先验框的重合情况
            # best_ns:anchors的索引值，tensor([5, 7])
            # 每个真实框最大的重合度max_iou, 每一个真实框最重合的先验框的序号
            """
            tensor([[0.0456, 0.1684, 0.1895, 0.4834, 0.2492, 0.4059, 0.2038, 0.0923, 0.0234], #这个对应5号框
                    [0.0053, 0.0197, 0.0311, 0.0750, 0.1144, 0.2879, 0.4281, 0.7894, 0.2005]]) #这个对应7号框
                    
            """
            best_ns = torch.argmax(self.calculate_iou(gt_box, anchor_shapes), dim=-1)

            # t=0, best_n=8
            '''
            anchors_mask[0]:[[6, 7, 8], 
            anchors_mask[1]:[3, 4, 5], 
            anchors_mask[2]:[0, 1, 2]]
            '''
            for t, best_n in enumerate(best_ns):
                # 如果IoU得分最大的锚框的序号best_n在预设的该尺度下的3个锚框的序号anchors_mask[l]中，继续。否则跳过
                if best_n not in self.anchors_mask[l]:
                    continue

                # 判断这个先验框是当前特征点的哪一个先验框
                # anchors_mask[l] = [6, 7, 8]
                # anchors_mask[l].index(6) = 0 
                # anchors_mask[l].index(7) = 1
                # anchors_mask[l].index(8) = 2】
                # k=2
                k = self.anchors_mask[l].index(best_n)

                # 获得真实框属于哪个网格点
                # torch.floor()向下取整，long()将tensor投射为long类型
                # i=8 j=5
                # batch_target[0]=tensor([ 8.2813,  5.7656,  6.6250, 11.5312, 14.0000])
                i = torch.floor(batch_target[t, 0]).long()
                j = torch.floor(batch_target[t, 1]).long()

                # 取出真实框的种类 14
                c = batch_target[t, 4].long()

                # noobj_mask代表无目标的特征点, 把有目标的位置noobj_mask[7, 2, 5, 8]=0
                noobj_mask[b, k, j, i] = 0

                # tx、ty代表中心调整参数的真实值
                # 竖直方向，中心点：0.2813表示的是真实框映射在在13*13尺度上，单个网格内的尺寸
                y_true[b, k, j, i, 0] = batch_target[t, 0] - i.float()
                # 水平方向，中心点：0.7656
                y_true[b, k, j, i, 1] = batch_target[t, 1] - j.float()
                # anchors[best_n][0] = 11.65625  y_true[b, k, j, i, 2] = tensor(-0.5650)
                # 竖直方向，宽度
                y_true[b, k, j, i, 2] = math.log(batch_target[t, 2] / anchors[best_n][0])
                # 水平方向，高度
                y_true[b, k, j, i, 3] = math.log(batch_target[t, 3] / anchors[best_n][1])
                # 这个是啥意思？？ 暂且当做置信度 conf
                # 确实是置信度，真实框的在该锚点内有目标，所有置信度是1，这时真实框
                y_true[b, k, j, i, 4] = 1
                # 类别 c+5: 19
                y_true[b, k, j, i, c + 5] = 1

                '''
                tensor([ 0.2813,  0.7656, -0.5650,  0.1239,  1.0000,  0.0000,  0.0000,  0.0000,
                        0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,
                        0.0000,  0.0000,  0.0000,  1.0000,  0.0000,  0.0000,  0.0000,  0.0000,
                        0.0000])
                '''

                # 用于获得xywh的比例
                # 大目标loss权重小，小目标loss权重大
                # w*h/32/32    box_loss_scale[b, k, j, i]:tensor(0.4520)
                box_loss_scale[b, k, j, i] = batch_target[t, 2] * batch_target[t, 3] / in_w / in_h
        return y_true, noobj_mask, box_loss_scale

    def get_ignore(self, l, x, y, h, w, targets, scaled_anchors, in_h, in_w, noobj_mask):
        # 计算一共有多少张图片batch_size
        bs = len(targets)

        # 改变数据类型
        FloatTensor = torch.cuda.FloatTensor if x.is_cuda else torch.FloatTensor
        LongTensor = torch.cuda.LongTensor if x.is_cuda else torch.LongTensor

        # 生成网格，先验框中心，网格左上角
        # torch.linspace(0, 13 - 1, 13) 生成0-12的13个数构成等差数列 13
        # repeat(13,1)扩充 13*13
        # repeat(24，1,1)扩充 24*13*13
        # x.shape:[8,3,13,13]
        # grid_x是如何调整x的？？？ 随机值？
        grid_x = torch.linspace(0, in_w - 1, in_w).repeat(in_h, 1).repeat(
            int(bs * len(self.anchors_mask[l])), 1, 1).view(x.shape).type(FloatTensor)
        grid_y = torch.linspace(0, in_h - 1, in_h).repeat(in_w, 1).t().repeat(
            int(bs * len(self.anchors_mask[l])), 1, 1).view(y.shape).type(FloatTensor)

        # 生成先验框的宽高
        # [w,h]: [[ 3.625    2.8125 ], [ 4.875    6.1875 ], [11.65625 10.1875 ]]
        scaled_anchors_l = np.array(scaled_anchors)[self.anchors_mask[l]]
        # index_select(行列，[a,b])  1表示取列，[a,b]表示取a列和b列
        anchor_w = FloatTensor(scaled_anchors_l).index_select(1, LongTensor([0]))
        anchor_h = FloatTensor(scaled_anchors_l).index_select(1, LongTensor([1]))

        # anchor_w.shape [8,3,13,13]
        anchor_w = anchor_w.repeat(bs, 1).repeat(1, 1, in_h * in_w).view(w.shape)
        anchor_h = anchor_h.repeat(bs, 1).repeat(1, 1, in_h * in_w).view(h.shape)

        # 计算调整后的先验框中心与宽高
        pred_boxes_x = torch.unsqueeze(x.data + grid_x, -1)
        pred_boxes_y = torch.unsqueeze(y.data + grid_y, -1)
        pred_boxes_w = torch.unsqueeze(torch.exp(w.data) * anchor_w, -1)
        pred_boxes_h = torch.unsqueeze(torch.exp(h.data) * anchor_h, -1)
        pred_boxes = torch.cat([pred_boxes_x, pred_boxes_y, pred_boxes_w, pred_boxes_h], dim=-1)

        for b in range(bs):
            # 将预测结果转换一个形式
            # pred_boxes_for_ignore      num_anchors, 4
            pred_boxes_for_ignore = pred_boxes[b].view(-1, 4)

            # 计算真实框，并把真实框转换成相对于特征层的大小
            # gt_box      num_true_box, 4
            if len(targets[b]) > 0:
                batch_target = torch.zeros_like(targets[b])

                #   计算出正样本在特征层上的中心点
                batch_target[:, [0, 2]] = targets[b][:, [0, 2]] * in_w
                batch_target[:, [1, 3]] = targets[b][:, [1, 3]] * in_h
                batch_target = batch_target[:, :4]

                # 计算交并比
                # anch_ious       num_true_box, num_anchors
                anch_ious = self.calculate_iou(batch_target, pred_boxes_for_ignore)

                # 每个先验框对应真实框的最大重合度
                # anch_ious_max   num_anchors
                anch_ious_max, _ = torch.max(anch_ious, dim=0)
                # [3,13,13]
                anch_ious_max = anch_ious_max.view(pred_boxes[b].size()[:3])
                # 只把阈值大于ignore_threshold（0.5）的noobj_mask设为0，也就是保留他们
                noobj_mask[b][anch_ious_max > self.ignore_threshold] = 0
        # [8,3,13,13]
        return noobj_mask

4.网络训练

待更新

5.结语

共同学习，共同交流，共同进步！

参考文章：https://blog.csdn.net/weixin_44791964/article/details/105310627

你可能感兴趣的:(深度学习,pytorch,深度学习,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts