有温度的AI

SSD网络模型详解

一、主干网络为VGG16

步骤理解
下面算一下每一层的像素值计算：
输入：300 * 300 * 3
conv3-64(卷积核的数量)----------------------------------------kernel size:3 stride:1 padding:1
像素：（300 + 2 * 1 – 1 * （3 - 1）- 1 ）/ 1 + 1=300 ---------------------输出尺寸：300 * 300 * 64
参数：（3 * 3 * 3）* 64 =1728
conv3-64-------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（300 + 2 * 1 – 2 - 1）/ 1 + 1=300 ---------------------输出尺寸：300 * 300 * 64
参数：（3 * 3 * 64） * 64 =36864
pool2 ----------------------------------------------------------------kernel size:2 stride:2 padding:0
像素：（300 - 2）/ 2 = 112 ----------------------------------输出尺寸：150 * 150 * 64
参数： 0
conv3-128(卷积核的数量)--------------------------------------------kernel size:3 stride:1 padding:1
像素：（150 + 2 * 1 - 2 - 1） / 1 + 1 = 150 -------------------输出尺寸：150 * 150 * 128
参数：（3 * 3 * 64） * 128 =73728
conv3-128------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（150 + 2 * 1 -2 - 1） / 1 + 1 = 150 ---------------------输出尺寸：150 * 150 * 128
参数：（3 * 3 * 128） * 128 =147456
pool2------------------------------------------------------------------kernel size:2 stride:2 padding:0
像素：（150 - 2） / 2 + 1=75 ----------------------------------输出尺寸：75 * 75 * 128
参数：0
conv3-256(卷积核的数量)----------------------------------------------kernel size:3 stride:1 padding:1
像素：（75 + 2 * 1 - 2 - 1）/ 1+1=75 -----------------------------输出尺寸：75 * 75 * 256
参数：（3 * 3* 128）*256=294912
conv3-256-------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（75 + 2 * 1 - 2 - 1） / 1 + 1=75 --------------------------输出尺寸：75 * 75 * 256
参数：（3 * 3 * 256） * 256=589824
conv3-256------------------------------------------------------------ kernel size:3 stride:1 padding:1
像素：（75 + 2 * 1 - 2 - 1） / 1 + 1=75 -----------------------------输出尺寸：75 * 75 * 256
参数：（3 * 3 * 256）*256=589824
pool2------------------------------------------------------------------kernel size:2 stride:2 padding:0
像素：（75 - 2） / 2 + 1 = 38-------------------------------------输出尺寸： 38 * 38 * 256
参数：0
conv3-512(卷积核的数量)------------------------------------------kernel size:3 stride:1 padding:1
像素：（38 + 2 * 1 - 2 - 1） / 1 + 1=38 ----------------------------输出尺寸：38 * 38 * 512
参数：（3 * 3 * 256） * 512 = 1179648
conv3-512-------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（38 + 2 * 1 - 2 - 1） / 1 + 1=38 ----------------------------输出尺寸：38 * 38 * 512
参数：（3 * 3 * 512） * 512 = 2359296
conv3-512-------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（38 + 2 * 1 - 2 - 1） / 1 + 1=38 ------------输出尺寸：38 * 38 * 512第一个预测特征层

***Conv_4_3 第一个预测特征层
参数：（3 * 3 * 512） * 512 = 2359296
pool2------------------------------------------------------------------ kernel size:2 stride:2 padding:0
像素：（38 - 2） / 2 + 1=19 -------------------------------------输出尺寸：19 * 19 * 512
参数： 0
conv3-512(卷积核的数量)----------------------------------------------kernel size:3 stride:1 padding:1
像素：（19 + 2 * 1 - 2 - 1） / 1 + 1=19 ---------------------------输出尺寸：19 * 19 * 512
参数：（3 * 3 * 512） * 512 = 2359296
conv3-512-------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（19 + 2 * 1 - 2 - 1） / 1 + 1=19 ---------------------------输出尺寸：19 * 19 * 512
参数：（3 * 3 * 512） * 512 = 2359296
conv3-512-------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（19 + 2 * 1 - 2 - 1） / 1 + 1=19 ---------------------------输出尺寸：19 * 19 *512 ***Conv_5_3
参数：（3 * 3 * 512） * 512 = 2359296

以上对应VGG16网络虚线以左的部分

pool2------------------------------------------------------------------kernel size:3 stride:1 padding:1

***注意这里的池化层将原VGG16模型的kernel size:2 stride:2 padding:0变为了kernel size:3 stride:1 padding:1
像素：19 +2-2-1 / 1 + 1=19 ----------------------------------------输出尺寸：19 * 19 * 512
参数：0

conv3-1024-------------------------------------------------------------kernel size:3 stride:1 padding:1
像素：（19 + 2 * 1 - 2 - 1） / 1 + 1=19 ---------------------------输出尺寸：19 * 19 * 1024
参数：（3 * 3 * 512） * 1024 = 4718592

得到Conv6(FC6)

conv1-1024-------------------------------------------------------------kernel size:1 stride:1 padding:0
像素：（19 + 0 - 0 - 1） / 1 + 1=19 ----------输出尺寸：19 * 19 *1024 第二个预测特征层
参数：（1 * 1 * 1024） * 1024 = 1048576

得到Conv7(FC7) 第二个预测特征层

--------------------------------------从这里往前都是VGG的结构--------------------------------------------

'''
该代码用于获得VGG主干特征提取网络的输出。
输入变量i代表的是输入图片的通道数，通常为3。

300, 300, 3 -> 300, 300, 64 -> 300, 300, 64 -> 150, 150, 64 -> 150, 150, 128 -> 150, 150, 128 -> 75, 75, 128 ->
75, 75, 256 -> 75, 75, 256 -> 75, 75, 256 -> 38, 38, 256 -> 38, 38, 512 -> 38, 38, 512 -> 38, 38, 512 -> 19, 19, 512 ->
19, 19, 512 -> 19, 19, 512 -> 19, 19, 512 -> 19, 19, 512 -> 19, 19, 1024 -> 19, 19, 1024

38, 38, 512的序号是22
19, 19, 1024的序号是34
'''
base = [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'C', 512, 512, 512, 'M',
            512, 512, 512]

def vgg(pretrained = False):
    layers = []
    in_channels = 3
    for v in base:
        if v == 'M': #最大池化
            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
        elif v == 'C': #开启ceil_mode的最大池化
            layers += [nn.MaxPool2d(kernel_size=2, stride=2, ceil_mode=True)]
        else: #卷积加激活函数
            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
            layers += [conv2d, nn.ReLU(inplace=True)]
            in_channels = v
    # 19, 19, 512 -> 19, 19, 512 
    pool5 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1) #步距为1的最大池化，不会进行高和宽的压缩
    # 19, 19, 512 -> 19, 19, 1024
    conv6 = nn.Conv2d(512, 1024, kernel_size=3, padding=6, dilation=6)
    # 19, 19, 1024 -> 19, 19, 1024
    conv7 = nn.Conv2d(1024, 1024, kernel_size=1)
    layers += [pool5, conv6, nn.ReLU(inplace=True), conv7, nn.ReLU(inplace=True)] #conv6，conv7卷积后都跟有激活函数

    model = nn.ModuleList(layers)
    if pretrained:
        state_dict = load_state_dict_from_url("https://download.pytorch.org/models/vgg16-397923af.pth", model_dir="./model_data")
        state_dict = {k.replace('features.', '') : v for k, v in state_dict.items()}
        model.load_state_dict(state_dict, strict = False)
    return model

if __name__ == "__main__":
    net = vgg()
    for i, layer in enumerate(net): # i对应的是层名称，layer对应的是层结构
        print(i, layer)

打印vgg各层，21层对应的是预测特征层1，33层对应的是预测特征层2

0 Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
1 ReLU(inplace=True)
2 Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
3 ReLU(inplace=True)
4 MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
5 Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
6 ReLU(inplace=True)
7 Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
8 ReLU(inplace=True)
9 MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
10 Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
11 ReLU(inplace=True)
12 Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
13 ReLU(inplace=True)
14 Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
15 ReLU(inplace=True)
16 MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=True)
17 Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
18 ReLU(inplace=True)
19 Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
20 ReLU(inplace=True)
21 Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
22 ReLU(inplace=True)
23 MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
24 Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
25 ReLU(inplace=True)
26 Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
27 ReLU(inplace=True)
28 Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
29 ReLU(inplace=True)
30 MaxPool2d(kernel_size=3, stride=1, padding=1, dilation=1, ceil_mode=False)
31 Conv2d(512, 1024, kernel_size=(3, 3), stride=(1, 1), padding=(6, 6), dilation=(6, 6))
32 ReLU(inplace=True)
33 Conv2d(1024, 1024, kernel_size=(1, 1), stride=(1, 1))
34 ReLU(inplace=True)

conv1-256-------------------------------------------------------------kernel size:1 stride:1 padding:0
像素：（19 + 0 - 0 - 1） / 1 + 1=19 ---------------------------输出尺寸：19 * 19 * 256
参数：（1 * 1 * 1024） * 256 = 262144
conv3-512-------------------------------------------------------------kernel size:3 stride:2 padding:1
像素：（19 + 2 * 1 - 2 - 1） / 2 + 1=10 ------输出尺寸：10 * 10 * 512 第三个预测特征层
参数：（3 * 3 * 256） * 512 = 1179648

得到Conv8-2 第三个预测特征层

conv1-128-------------------------------------------------------------kernel size:1 stride:1 padding:0
像素：（10 + 0 - 0 - 1） / 1 + 1=10 ---------------------------输出尺寸：10 * 10 * 128
参数：（1 * 1 * 512） * 128 = 65536
conv3-256-------------------------------------------------------------kernel size:3 stride:2 padding:1
像素：（10 + 2 * 1 - 2 - 1） / 2 + 1=5 ------输出尺寸：5 * 5 *256 第四个预测特征层
参数：（3 * 3 * 128） * 256 = 294912

得到Conv9-2 第四个预测特征层

conv1-128-------------------------------------------------------------kernel size:1 stride:1 padding:0
像素：（5 + 0 - 0 - 1） / 1 + 1=5 ---------------------------输出尺寸：5 * 5 * 128
参数：（1 * 1 * 256） * 128 = 32768
conv3-256-------------------------------------------------------------kernel size:3 stride:1 padding:0
像素：（5 + 0 - 2 - 1） / 1 + 1=3 ------输出尺寸：3 * 3 *256 第五个预测特征层
参数：（3 * 3 * 128） * 256 = 294912

得到Conv10-2 第五个预测特征层

conv1-128-------------------------------------------------------------kernel size:1 stride:1 padding:0
像素：（3 + 0 - 0 - 1） / 1 + 1=3 ---------------------------输出尺寸：3 * 3 * 128
参数：（1 * 1 * 256） * 128 = 32768
conv3-256-------------------------------------------------------------kernel size:3 stride:1 padding:0
像素：（3 + 0 - 2 - 1） / 1 + 1=1 ------输出尺寸：1 * 1 *256 第六个预测特征层
参数：（3 * 3 * 128） * 256 = 294912

得到Conv11-2 第六个预测特征层

def add_extras(in_channels, backbone_name): # 构建额外卷积层（预测特征层）
    layers = []
    if backbone_name == 'vgg':
        # Block 6
        # 19,19,1024 -> 19,19,256 -> 10,10,512 预测特征层3
        layers += [nn.Conv2d(in_channels, 256, kernel_size=1, stride=1)] #通过1*1卷积降低通道数，减少运算量
        layers += [nn.Conv2d(256, 512, kernel_size=3, stride=2, padding=1)] #获得特征层10,10,512

        # Block 7
        # 10,10,512 -> 10,10,128 -> 5,5,256 预测特征层4
        layers += [nn.Conv2d(512, 128, kernel_size=1, stride=1)] #通过1*1卷积降低通道数，减少运算量
        layers += [nn.Conv2d(128, 256, kernel_size=3, stride=2, padding=1)] #获得特征层5,5,256

        # Block 8
        # 5,5,256 -> 5,5,128 -> 3,3,256 预测特征层5
        layers += [nn.Conv2d(256, 128, kernel_size=1, stride=1)] #通过1*1卷积降低通道数，减少运算量
        layers += [nn.Conv2d(128, 256, kernel_size=3, stride=1)] #获得特征层3,3,256
        
        # Block 9
        # 3,3,256 -> 3,3,128 -> 1,1,256 预测特征层6
        layers += [nn.Conv2d(256, 128, kernel_size=1, stride=1)] #通过1*1卷积降低通道数，减少运算量
        layers += [nn.Conv2d(128, 256, kernel_size=3, stride=1)] #获得特征层1,1,256
     return nn.ModuleList(layers)

SSD整体网络结构（VGG16）

class SSD300(nn.Module):
    def __init__(self, num_classes, backbone_name, pretrained = False):
        super(SSD300, self).__init__()
        self.num_classes    = num_classes
        if backbone_name    == "vgg":
            self.vgg        = add_vgg(pretrained) #对应vgg主干网络
            self.extras     = add_extras(1024, backbone_name) #对应四个额外添加层
            self.L2Norm     = L2Norm(512, 20)
            mbox            = [4, 6, 6, 6, 4, 4]
            
            loc_layers      = []
            conf_layers     = []
            backbone_source = [21, -2]
            #---------------------------------------------------#
            #   在add_vgg获得的特征层里
            #   第21层和-2层对应预测特征层38, 38, 512和19, 19, 1024
            #   分别是conv4-3(38,38,512)和conv7(19,19,1024)的输出
            #   第21层和-2层可以用来进行回归预测和分类预测。
            #   k=0,v=21;k=1,v=-2; self.vgg[v].out_channels代表vgg中第v层的out_channels
            for k, v in enumerate(backbone_source): #可获取前两个预测特征层
                # 回归预测结果，输出通道数为mbox[k] * 4
                loc_layers  += [nn.Conv2d(self.vgg[v].out_channels, mbox[k] * 4, kernel_size = 3, padding = 1)]
                # 分类预测结果，输出通道数为mbox[k] * num_classes
                conf_layers += [nn.Conv2d(self.vgg[v].out_channels, mbox[k] * num_classes, kernel_size = 3, padding = 1)]
            #-------------------------------------------------------------#
            #   在add_extras获得的特征层里
            #   第1层、第3层、第5层、第7层可以用来进行回归预测和分类预测（注意是从零开始数的）。
            #   shape分别为(10,10,512), (5,5,256), (3,3,256), (1,1,256)
            #   [1::2]代表从第2个元素起，步长为2取元素；也就是取第1、3、5、7层
            #   enumerate(self.extras[1::2], 2)后面这个2表示k从2开始
            #   k=2对应extras的第一层，k=3对应extras的第三层，k=4对应extras的第五层，k=5对应extras的第七层
            #   v.out_channels分别表示extras的第1、3、5、7层的out_channels
            for k, v in enumerate(self.extras[1::2], 2): #每隔两个卷积获得预测特征层，可获取后四个预测特征层
                # 回归预测结果，输出通道数为mbox[k] * 4
                loc_layers  += [nn.Conv2d(v.out_channels, mbox[k] * 4, kernel_size = 3, padding = 1)]
                # 分类预测结果，输出通道数为mbox[k] * num_classes
                conf_layers += [nn.Conv2d(v.out_channels, mbox[k] * num_classes, kernel_size = 3, padding = 1)]

        self.loc            = nn.ModuleList(loc_layers)
        self.conf           = nn.ModuleList(conf_layers)
        self.backbone_name  = backbone_name
        
    def forward(self, x): #正向传播过程
        #---------------------------#
        #   x是300,300,3
        #---------------------------#
        sources = list()
        loc     = list()
        conf    = list()

        #---------------------------#
        #   获得conv4_3的内容
        #   shape为38,38,512
        #---------------------------#
        if self.backbone_name == "vgg":
            for k in range(23): #循环vgg网络的前22层，也就是获取对应38,38,512特征层
                x = self.vgg[k](x)
        
        #---------------------------#
        #   conv4_3的内容
        #   需要进行L2标准化
        #---------------------------#
        s = self.L2Norm(x) #进行L2标准化
        sources.append(s) #加入sources

        #---------------------------#
        #   获得conv7的内容
        #   shape为19,19,1024
        #---------------------------#
        if self.backbone_name == "vgg":
            for k in range(23, len(self.vgg)): #获取19,19,1024特征层
                x = self.vgg[k](x)

        sources.append(x) #加入sources
        #-------------------------------------------------------------#
        #   在add_extras获得的特征层里
        #   因为是从第0层开始算的，所以我们需要获取第1，3，5，7层
        #   第1层、第3层、第5层、第7层可以用来进行回归预测和分类预测
        #   shape分别为(10,10,512), (5,5,256), (3,3,256), (1,1,256)
        #-------------------------------------------------------------#      
        for k, v in enumerate(self.extras): #获取四个额外预测特征层
            x = F.relu(v(x), inplace=True)
            if self.backbone_name == "vgg":
                if k % 2 == 1: #获取第1层、第3层、第5层、第7层
                    sources.append(x) #将这四个特征层加入sources
            

        #-------------------------------------------------------------#
        #   为获得的6个有效特征层添加回归预测和分类预测
        #-------------------------------------------------------------#      
        for (x, l, c) in zip(sources, self.loc, self.conf):
            loc.append(l(x).permute(0, 2, 3, 1).contiguous())
            conf.append(c(x).permute(0, 2, 3, 1).contiguous())

        #-------------------------------------------------------------#
        #   进行reshape方便堆叠
        #-------------------------------------------------------------#  
        loc     = torch.cat([o.view(o.size(0), -1) for o in loc], 1)
        conf    = torch.cat([o.view(o.size(0), -1) for o in conf], 1)
        #-------------------------------------------------------------#
        #   loc会reshape到batch_size, num_anchors, 4
        #   conf会reshap到batch_size, num_anchors, self.num_classes
        #-------------------------------------------------------------#     
        output = (
            loc.view(loc.size(0), -1, 4),
            conf.view(conf.size(0), -1, self.num_classes),
        )
        return output

在上述六个预测特征层上分别预测不同大小的目标，38 * 38 * 512负责预测相对较小的目标，1 * 1 *256负责预测相对较大的目标

特征层一、五、六，这三个预测特征层采用4个default box

特征层二、三、四，这三个预测特征层采用6个default box

二、主干网络为Resnet50

Resnet50主干网络（只用了layer3及其之前层）

class Bottleneck(nn.Module):
    expansion = 4

    def __init__(self, in_channel, out_channel, stride=1, downsample=None,):
        super(Bottleneck, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=out_channel,
                               kernel_size=1, stride=1, bias=False)  # squeeze channels
        self.bn1 = nn.BatchNorm2d(out_channel)
        # -----------------------------------------
        self.conv2 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel,
                               kernel_size=3, stride=stride, bias=False, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channel)
        # -----------------------------------------
        self.conv3 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel*self.expansion,
                               kernel_size=1, stride=1, bias=False)  # unsqueeze channels
        self.bn3 = nn.BatchNorm2d(out_channel*self.expansion)
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.stride = stride
        
    def forward(self, x):
        identity = x
        if self.downsample is not None:
            identity = self.downsample(x)

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)

        out = self.conv3(out)
        out = self.bn3(out)
        
        out += identity
        out = self.relu(out)

        return out

class ResNet(nn.Module):

    def __init__(self, block, blocks_num, num_classes=1000, include_top=True):
        super(ResNet, self).__init__()
        self.include_top = include_top
        self.in_channel = 64

        self.conv1 = nn.Conv2d(3, self.in_channel, kernel_size=7, stride=2,
                               padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(self.in_channel)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        self.layer1 = self._make_layer(block, 64, blocks_num[0])
        self.layer2 = self._make_layer(block, 128, blocks_num[1], stride=2)
        self.layer3 = self._make_layer(block, 256, blocks_num[2], stride=2)
        self.layer4 = self._make_layer(block, 512, blocks_num[3], stride=2)
        if self.include_top:
            self.avgpool = nn.AdaptiveAvgPool2d((1, 1))  # output size = (1, 1)
            self.fc = nn.Linear(512 * block.expansion, num_classes)

        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')

    def _make_layer(self, block, channel, block_num, stride=1):
        downsample = None
        if stride != 1 or self.in_channel != channel * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.in_channel, channel * block.expansion, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(channel * block.expansion))

        layers = []
        layers.append(block(self.in_channel, channel, downsample=downsample, stride=stride))
        self.in_channel = channel * block.expansion

        for _ in range(1, block_num):
            layers.append(block(self.in_channel, channel))

        return nn.Sequential(*layers)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        if self.include_top:
            x = self.avgpool(x)
            x = torch.flatten(x, 1)
            x = self.fc(x)

        return x

def resnet50(num_classes=1000, include_top=True):
    return ResNet(Bottleneck, [3, 4, 6, 3], num_classes=num_classes, include_top=include_top)

class Backbone(nn.Module):
    def __init__(self, pretrain_path=None):
        super(Backbone, self).__init__()
        net = resnet50() #实例化resnet50
        self.out_channels = [1024, 512, 512, 256, 256, 256] #对应每个预测特征层的channel

        if pretrain_path is not None: #是否传入了与训练模型权重
            net.load_state_dict(torch.load(pretrain_path))

        # 构建特征提取部分，提取net.children()中0到6层，分别是conv1 bn1 relu maxpool layer1 layer2 layer3
        self.feature_extractor = nn.Sequential(*list(net.children())[:7])

        # 对feature_extractor中的最后一层也就是conv4_block1中的第一个残差块修改步距
        conv4_block1 = self.feature_extractor[-1][0]

        # 修改conv4_block1的步距，从2->1
        conv4_block1.conv1.stride = (1, 1) #这一行可以不要，因为本来步距就为1
        conv4_block1.conv2.stride = (1, 1)
        conv4_block1.downsample[0].stride = (1, 1)

    def forward(self, x):
        x = self.feature_extractor(x)
        return x


class SSD300(nn.Module):
    def __init__(self, backbone=None, num_classes=21):
        super(SSD300, self).__init__()
        if backbone is None:
            raise Exception("backbone is None")
        if not hasattr(backbone, "out_channels"):
            raise Exception("the backbone not has attribute: out_channel")
        self.feature_extractor = backbone #将backbone赋给变量feature_extractor

        self.num_classes = num_classes
        # out_channels = [1024, 512, 512, 256, 256, 256] for resnet50
        self._build_additional_features(self.feature_extractor.out_channels)
        self.num_defaults = [4, 6, 6, 6, 4, 4] #每一个预测特征层上每个网格所生成预测框的数量
        location_extractors = [] #位置预测
        confidence_extractors = [] #置信度预测

        # feature_extractor.out_channels = [1024, 512, 512, 256, 256, 256] for resnet50
        for nd, oc in zip(self.num_defaults, self.feature_extractor.out_channels):
            # nd is number_default_boxes, oc is output_channel
            location_extractors.append(nn.Conv2d(oc, nd * 4, kernel_size=3, padding=1))
            confidence_extractors.append(nn.Conv2d(oc, nd * self.num_classes, kernel_size=3, padding=1))

        self.loc = nn.ModuleList(location_extractors)
        self.conf = nn.ModuleList(confidence_extractors)
        self._init_weights() #对额外的添加层结构和预测器进行权重初始化

        default_box = dboxes300_coco()
        self.compute_loss = Loss(default_box)
        self.encoder = Encoder(default_box)
        self.postprocess = PostProcess(default_box)

    def _build_additional_features(self, input_size): #input_size就是这六个预测特征层的channels
        """
        为backbone(resnet50)添加额外的一系列卷积层，得到相应的一系列特征提取器
        :param input_size:
        :return:
        """
        additional_blocks = []
        # input_size = [1024, 512, 512, 256, 256, 256] for resnet50
        middle_channels = [256, 256, 128, 128, 128] #后五个额外添加层中第一个卷积层的channels
        # input_ch=[1024, 512, 512, 256, 256]
        # output_ch=[512, 512, 256, 256, 256]
        for i, (input_ch, output_ch, middle_ch) in enumerate(zip(input_size[:-1], input_size[1:], middle_channels)):
            padding, stride = (1, 2) if i < 3 else (0, 1)
            layer = nn.Sequential(
                # layer1，2，3，4，5中的第一个卷积padding=0, stride=1
                nn.Conv2d(input_ch, middle_ch, kernel_size=1, bias=False),
                nn.BatchNorm2d(middle_ch),
                nn.ReLU(inplace=True),
                # layer1，2，3中的第二个卷积padding=1, stride=2；layer4，5中的第二个卷积padding=0, stride=1
                nn.Conv2d(middle_ch, output_ch, kernel_size=3, padding=padding, stride=stride, bias=False),
                nn.BatchNorm2d(output_ch),
                nn.ReLU(inplace=True),
            )
            additional_blocks.append(layer) #添加进列表additional_blocks = []中
        self.additional_blocks = nn.ModuleList(additional_blocks)

    def _init_weights(self): #对额外的添加层结构和预测器进行权重初始化
        layers = [*self.additional_blocks, *self.loc, *self.conf]
        for layer in layers:
            for param in layer.parameters():
                if param.dim() > 1:
                    nn.init.xavier_uniform_(param)

    # Shape the classifier to the view of bboxes
    def bbox_view(self, features, loc_extractor, conf_extractor):
        locs = []
        confs = []
        # f对应每一个预测特征层，l对应每一个Feature Map的location特征预测器，c对应每一个Feature Map的confidence特征预测器
        # 通过下面这个for循环，得到了所有预测特征层上的locs和confs回归参数
        for f, l, c in zip(features, loc_extractor, conf_extractor):
            # [batch, n*4, feat_size, feat_size] -> [batch, 4, -1]
            locs.append(l(f).view(f.size(0), 4, -1)) #通过view方法调整格式，-1表示自动推理
            # [batch, n*classes, feat_size, feat_size] -> [batch, classes, -1]
            confs.append(c(f).view(f.size(0), self.num_classes, -1)) #通过view方法调整格式，-1表示自动推理

        # 将locs, confs都在维度2上拼接
        locs, confs = torch.cat(locs, 2).contiguous(), torch.cat(confs, 2).contiguous()
        return locs, confs

    def forward(self, image, targets=None): #正向传播过程
        x = self.feature_extractor(image) #conv_4得到的预测特征层38x38x1024

        # Feature Map 38x38x1024, 19x19x512, 10x10x512, 5x5x256, 3x3x256, 1x1x256
        detection_features = torch.jit.annotate(List[Tensor], [])  # [x]
        detection_features.append(x) #将Feature Map 38x38x1024加入detection_features中
        for layer in self.additional_blocks:
            x = layer(x) #将Feature Map 38x38x1024依次通过五个额外添加层
            detection_features.append(x) #并把每一层输出添加进detection_features中

        # Feature Map 38x38x4, 19x19x6, 10x10x6, 5x5x6, 3x3x4, 1x1x4
        locs, confs = self.bbox_view(detection_features, self.loc, self.conf)

        # For SSD 300, shall return nbatch x 8732 x {nlabels, nlocs} results
        # 38x38x4 + 19x19x6 + 10x10x6 + 5x5x6 + 3x3x4 + 1x1x4 = 8732

        if self.training:
            if targets is None:
                raise ValueError("In training mode, targets should be passed")
            # bboxes_out (Tensor 8732 x 4), labels_out (Tensor 8732)
            bboxes_out = targets['boxes']
            bboxes_out = bboxes_out.transpose(1, 2).contiguous()
            # print(bboxes_out.is_contiguous())
            labels_out = targets['labels']
            # print(labels_out.is_contiguous())

            # ploc, plabel, gloc, glabel
            loss = self.compute_loss(locs, confs, bboxes_out, labels_out)
            return {"total_losses": loss}

        # 将预测回归参数叠加到default box上得到最终预测box，并执行非极大值抑制虑除重叠框
        # results = self.encoder.decode_batch(locs, confs)
        results = self.postprocess(locs, confs)
        return results

reference

2.2 SSD源码解析(Pytorch)_哔哩哔哩_bilibili
Pytorch 搭建自己的SSD目标检测平台（Bubbliiiing 深度学习教程）_哔哩哔哩_bilibili

Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
从图形处理到通用计算的进化之路绿算技术 GPU架构介绍科技 gpu算力
图形处理单元，作为现代计算机中不可或缺的一部分，已经从最初的图形渲染专用处理器，发展成为强大的并行计算引擎，广泛应用于人工智能、科学计算、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。GPU架构的演变：从固定功能到可编程流水线早期的GPU采用固定功能流水线架构，专为图形渲染任务而设计。这种架构将图形渲染流程划分为一系列固定的阶段，例如顶点处理、光栅化、纹
高效快速教你deepseek如何进行本地部署并且可视化对话 chatgpt
随着最近一个新的人工智能deepseek的爆火，很多大佬都开始了在本地进行deepseek的部署操作，并且离线也可以使用，这里的话我就一步一步带你们部署本地的deepseek,说实话这个人工智能的实力不亚于openai的gpt安装ollama我们需要先安装ollama，安装地址ollama,我们直接点击下载，我们在下载的时候尽量使用我们的谷歌浏览器，有魔法的最好带上魔法，不然安装的时候可能会出问题
useblackbox黑箱AI编码助理百态老人 python 开发语言
黑箱AI是一个人工智能的编码助理可以让代码快10倍。它使您能够把任何问题变成代码和功能,如从任何视频提取代码和代码自动完成。它有以下几个特点：可以从视频、图片、PDF等格式中复制代码。可以将任何问题转换成代码。可以快速找到任何代码片段，并开始编码。支持20多种编程语言的代码自动补全。有Chrome扩展和VSCode扩展。这个网站有不同的收费方案，根据你需要的功能和使用量而定。它有以下几种选择：好开
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
【AI热点】MCP协议深度洞察报告碣石潇湘无限路人工智能 php 开发语言
摘要人工智能技术飞速发展，大型语言模型（LLM）如何高效、安全地利用外部数据和工具成为关键问题。模型上下文协议（ModelContextProtocol，简称MCP）是一种由Anthropic于2024年底提出的开放标准协议。它通过统一的客户端-服务器架构，为AI应用与文件系统、数据库、第三方API等外部资源之间提供标准化、安全的双向通信接口。本文将深入解析MCP协议的基本概念和背景、架构设计（通
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
从零开始大模型开发与微调：PyTorch 2.0深度学习环境搭建 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch2.0深度学习环境搭建作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，大模型开发与微调成为了当前研究的热点。大模型能够学习到丰富的知识，并在各个下游任务上取得优异的性能。然而，大模型开发与微调需要强大的计算资源和专业的知识背景，这对于许多初学者和研究
仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播 KangkangLoveNLP 手撕系列 #transformer pytorch transformer 人工智能深度学习架构机器学习 python
仅仅使用pytorch来手撕transformer架构(2)：编码器模块和编码器类的实现和向前传播往期文章：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播#Transformer编码器模块
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
模型可解释性：基于博弈论的SHAP值计算与特征贡献度分析（附PyTorch/TensorFlow实现）燃灯工作室 Ai pytorch tensorflow 人工智能
一、技术原理与数学推导（含典型案例）1.1Shapley值基础公式SHAP值基于合作博弈论中的Shapley值，计算公式为：ϕi=∑S⊆F∖{i}∣S∣!(∣F∣−∣S∣−1)!∣F∣![f(S∪{i})−f(S)]\phi_i=\sum_{S\subseteqF\setminus\{i\}}\frac{|S|!(|F|-|S|-1)!}{|F|!}[f(S\cup\{i\})-f(S)]ϕi=S
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
【深度学习与大模型基础】第3章-张量 lynn-66 深度学习与大模型基础深度学习人工智能
大家好！今天我们来聊聊张量（Tensor）。别被这个词吓到，其实它没那么复杂。什么是张量？简单来说，张量就是一个多维数组。你可以把它看作是一个装数据的容器，数据的维度可以是一维、二维，甚至更高。标量（0维张量）：就是一个单独的数字，比如3。向量（1维张量）：一串数字，比如[1,2,3]。矩阵（2维张量）：一个表格，比如[[1,2],[3,4]]。更高维张量：比如[[[1,2],[3,4]],[[5
AI人工智能对前端的冲击？理想不理想v 人工智能前端
‌AI人工智能对前端开发的冲击主要体现在以下几个方面‌：‌代码生成与自动化‌：AI工具如GPT-4和GitHubCopilot能够自动生成高质量的前端代码，从简单的组件到复杂的应用程序，这不仅提高了开发效率，还降低了人为错误的可能性。自动化代码生成工具可以显著减少开发者编写重复性代码的时间，使他们能够专注于创新和解决复杂问题‌。‌跨平台开发支持‌：AI可以帮助生成适用于不同平台的代码，简化跨平台开
从人工智能窥见网络安全的重要性 He_Donglin 人工智能 web安全网络
“人工智能”一词在上世纪五十年代被提出，在当时，计算机正处于萌芽阶段，同时期的人类第一台电子计算机“ENIAC”诞生了，但是埃尼亚克有很多缺点：庞大的占地面积、庞大的质量、单一的功能、较小的内存等，这主要受制于其他领域的发展，但当时的人们对计算机寄予厚望，希望在未来某一天它能够拥有足够强大的“power”，帮助人们解决诸多问题。于是乎，经过无数科学家数十年来的努力，计算机“长大了”，它的功能不再单
《今日AI-人工智能-编程日报》-源自2025年2月28日小亦编辑部每日AI-人工智能-编程日报人工智能
技术突破OpenAI发布GPT-4.5：OpenAI正式推出新一代大模型GPT-4.5，语言理解、情商及逻辑推理能力显著增强，幻觉问题大幅减少，计算效率较GPT-4提升超10倍，已逐步向用户开放试用。国产模型Kimi发布k1.6版本：国产模型Kimi发布的k1.6版本，在编程任务评测中超越GPTo3-mini，首次登顶榜首。其“快思考”架构使响应速度提升至秒级，部署成本下降40%。企业动态贵州广电
《今日AI-人工智能-编程日报》-源于2025年3月11日小亦编辑部每日AI-人工智能-编程日报人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
pytorch训练权重转化为tensorflow模型的教训小枫小疯深度学习部署模型转移 pytorch tensorflow 人工智能
模型构建时候有时候在工程量比较大的时候，不可避免使用迭代算法，迭代算法本身会让错误的追踪更加困难，因此掌握基本的框架之间的差异非常重要。以下均是在模型转换过程中出现的错误。shuffleoperation(shuffle操作)这个操作原本是用来将各个通道之间的信息进行打乱后，此时面临重要的问题就是，如果将通道打乱，在pytorch里面与tensorflow中间，两种通道排序是不一样的，是采用不同的
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
深度学习中的 blob 格式：与普通 image 的区别及转换原因白.夜深度学习人工智能
在深度学习模型推理过程中，我们经常会用到cv2.dnn.blobFromImage函数将普通图像转换为blob格式。那么，blob格式到底是什么？它和普通image有什么区别？为什么在模型推理中需要这种转换？本文将用通俗的语言为你解答这些问题。1.什么是blob格式？blob是OpenCV中用于深度学习模型输入的一种特殊数据格式，全称为BinaryLargeObject。它本质上是一个多维数组（通
DeepSeek多语言智能创作引擎解析智能计算研究中心其他
内容概要在人工智能技术加速演进的背景下，DeepSeek系列产品通过混合专家架构（MoE）与670亿参数的协同设计，构建了多模态智能创作引擎的核心竞争力。该系统依托动态路由机制，将视觉语言理解模块与多语言处理单元进行深度耦合，使模型在解析图文混合信息时展现出超越单一模态的认知能力。尤为突出的是，其分层参数激活策略将推理成本降低至传统密集模型的38%，同时维持了95%以上的任务完成精度。行业分析机构
通义千问：阿里巴巴的AI大模型深度解析俊星学长人工智能
通义千问：阿里巴巴的AI大模型深度解析在人工智能（AI）技术日新月异的今天，大型语言模型作为其中的佼佼者，正逐步改变着我们的生活与工作方式。阿里巴巴推出的通义千问，作为这一领域的佼佼者，以其卓越的性能和广泛的应用场景，引起了业界的广泛关注。本文将从通义千问的简介、模型架构、技术特点与优势、应用场景以及未来发展等多个方面，对其进行全面解析。一、通义千问简介通义千问是由阿里云开发的一款大型语言模型，旨
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
谷歌Gemini 3大模型发布，AI领域再掀波澜！广拓科技人工智能
在人工智能的浩瀚宇宙中，每一次重大突破都如同一颗璀璨的新星，照亮我们对未来的想象。而近期，谷歌发布的Gemini3大模型，无疑是其中最为耀眼的存在，它在AI领域激起的波澜，迅速蔓延至全球科技圈，引发了广泛关注与热烈讨论。随着AI技术的迅猛发展，我们已经见证了众多令人惊叹的创新成果。从智能语音助手到图像识别技术，从自动驾驶汽车到医疗诊断辅助系统，AI正以前所未有的速度改变着我们的生活和工作方式。在这
使用DeepSeek自动生成PPT：高效办公的终极指南点我头像干啥 Ai 人工智能信息可视化深度学习
引言在现代职场中，PPT（PowerPoint演示文稿）已经成为沟通、展示和分享想法的重要工具。然而，制作一份高质量的PPT往往需要耗费大量时间和精力，尤其是在内容整理、排版设计和样式调整方面。幸运的是，随着人工智能技术的发展，像DeepSeek这样的工具可以帮助我们自动化生成PPT，极大地提升工作效率。本文将详细介绍如何使用DeepSeek自动生成PPT，并分享一些实用技巧，帮助你快速上手。一、
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
（大模型微调大模型学习路线大模型入门）_大模型学习，吹爆！2025最详细的大模型学习路线已整理！手把手带你高效入门，大模型论文全打通！大模型老炮学习人工智能大模型学习 AI 大模型大模型微调大模型教程
一、初聊大模型1、什么是大模型？大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问
国产 DeepSeek V3 被秒成“前浪“？谷歌开放最强 Gemini 2.0 全家桶：速度快60倍，上下文还长16倍！ Bryan Ding 人工智能深度学习
谷歌向所有人发布了Gemini2.0——迄今为止谷歌“功能最强大”的人工智能模型套件。1谷歌Gemini2.0向所有人开放去年12月，谷歌发布Gemini2.0Flash的实验版本，正式开启了代理型AI的新时代。Gemini2.0Flash是谷歌为开发者群体打造的高效主力模型，具有低延迟、高性能等优势。今年早些时候，谷歌在GoogleAIStudio中更新了2.0FlashThinkingExpe
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &