dddlli

中国软件杯——行人检测与跟踪（GitHub地址：https://github.com/dddlli/Swin-Transformer-Object-Detection-PaddlePaddle）

一、算法设计

(一)行人检测部分

1.Swin-Transformer作为Faster—RCNN和YOLOV3的backbone，作为特征提取的主干网络，在一定程度上替换了传统卷积神经网络Resnet和DarkNet等这些backbone作为的特征提取网络。

自从Transformer[1]在NLP任务上取得突破性的进展之后，业内一直尝试着把Transformer用于在CV领域。之前的若干尝试，例如iGPT[2]，ViT[3]都是将Transformer用在了图像分类领域，目前这些方法都有两个非常严峻的问题

受限于图像的矩阵性质，一个能表达信息的图片往往至少需要几百个像素点，而建模这种几百个长序列的数据恰恰是Transformer的天生缺陷；
目前的基于Transformer框架更多的是用来进行图像分类，理论上来讲解决检测问题应该也比较容易，但是对实例分割这种密集预测的场景Transformer并不擅长解决。

本文提出的Swin Transformer [4]解决了这两个问题，并且在分类，检测，分割任务上都取得了SOTA的效果。Swin Transformer的最大贡献是提出了一个可以广泛应用到所有计算机视觉领域的backbone，并且大多数在CNN网络中常见的超参数在Swin Transformer中也是可以人工调整的，例如可以调整的网络块数，每一块的层数，输入图像的大小等等。该网络架构的设计非常巧妙，是一个非常精彩的将Transformer应用到图像领域的结构，值得每个AI领域的人前去学习。

在Swin Transformer之前的ViT和iGPT，它们都使用了小尺寸的图像作为输入，这种直接resize的策略无疑会损失很多信息。与它们不同的是，Swin Transformer的输入是图像的原始尺寸，例如ImageNet的224*224。另外Swin Transformer使用的是CNN中最常用的层次的网络结构，在CNN中一个特别重要的一点是随着网络层次的加深，节点的感受野也在不断扩大，这个特征在Swin Transformer中也是满足的。Swin Transformer的这种层次结构，也赋予了它可以像FPN[6]，U-Net[7]等结构实现可以进行分割或者检测的任务。Swin Transformer和ViT的对比如图1。

[外链图片转存中…(img-ok6vty7D-1626145809577)]图1：Swin Transformer和ViT的对比

本文将结合它的pytorch源码对这篇论文的算法细节以及代码实现展开详细介绍，并对论文中解释模糊的地方具体分析。读完此文，你将完全了解清楚Swin Transfomer的结构细节以及设计动机，现在我们开始吧。

1. 算法详解

1.1 网络框架

Swin Transformer共提出了4个网络框架，它们从小到大依次是Swin-T，Swin-S, Swin-B和Swin-L，为了绘图简单，本文以最简单的Swin-T作为示例来讲解，Swin-T的结构如图2所示。Swin Transformer最核心的部分便是4个Stage中的Swin Transformer Block，它的具体在如图3所示。

class SwinTransformer(nn.Module):
    def __init__(self, *, hidden_dim, layers, heads, channels=3, num_classes=1000, head_dim=32, window_size=7, downscaling_factors=(4, 2, 2, 2), relative_pos_embedding=True):
        super().__init__()

        self.stage1 = StageModule(in_channels=channels, hidden_dimension=hidden_dim, layers=layers[0], downscaling_factor=downscaling_factors[0], num_heads=heads[0], head_dim=head_dim, window_size=window_size, relative_pos_embedding=relative_pos_embedding)
        self.stage2 = StageModule(in_channels=hidden_dim, hidden_dimension=hidden_dim * 2, layers=layers[1], downscaling_factor=downscaling_factors[1], num_heads=heads[1], head_dim=head_dim, window_size=window_size, relative_pos_embedding=relative_pos_embedding)
        self.stage3 = StageModule(in_channels=hidden_dim * 2, hidden_dimension=hidden_dim * 4, layers=layers[2], downscaling_factor=downscaling_factors[2], num_heads=heads[2], head_dim=head_dim, window_size=window_size, relative_pos_embedding=relative_pos_embedding)
        self.stage4 = StageModule(in_channels=hidden_dim * 4, hidden_dimension=hidden_dim * 8, layers=layers[3], downscaling_factor=downscaling_factors[3], num_heads=heads[3], head_dim=head_dim, window_size=window_size, relative_pos_embedding=relative_pos_embedding)

        self.mlp_head = nn.Sequential(
            nn.LayerNorm(hidden_dim * 8),
            nn.Linear(hidden_dim * 8, num_classes)
        )

    def forward(self, img):
        x = self.stage1(img)
        x = self.stage2(x)
        x = self.stage3(x)
        x = self.stage4(x) # (1, 768, 7, 7)
        x = x.mean(dim=[2, 3]) # (1,768)
        return self.mlp_head(x)

从源码中我们可以看出Swin Transformer的网络结构非常简单，由4个stage和一个输出头组成，非常容易扩展。Swin Transformer的4个Stage的网络框架的是一样的，每个Stage仅有几个基本的超参来调整，包括隐层节点个数，网络层数，多头自注意的头数，降采样的尺度等，这些超参的在源码的具体值如下面片段，本文也会以这组参数对网络结构进行详细讲解。

net = SwinTransformer(
    hidden_dim=96,
    layers=(2, 2, 6, 2),
    heads=(3, 6, 12, 24),
    channels=3,
    num_classes=3,
    head_dim=32,
    window_size=7,
    downscaling_factors=(4, 2, 2, 2),
    relative_pos_embedding=True
)

[外链图片转存中…(img-YVqW2Gme-1626145809579)]图2：Swin-T的网络结构

1.2 Patch Partition/Patch Merging

在图2中，输入图像之后是一个Patch Partition，再之后是一个Linear Embedding层，这两个加在一起其实就是一个Patch Merging层（至少上面的源码中是这么实现的）。这一部分的源码如下：

class PatchMerging(nn.Module):
    def __init__(self, in_channels, out_channels, downscaling_factor):
        super().__init__()
        self.downscaling_factor = downscaling_factor
        self.patch_merge = nn.Unfold(kernel_size=downscaling_factor, stride=downscaling_factor, padding=0)
        self.linear = nn.Linear(in_channels * downscaling_factor ** 2, out_channels)

    def forward(self, x):
        b, c, h, w = x.shape
        new_h, new_w = h // self.downscaling_factor, w // self.downscaling_factor
        x = self.patch_merge(x) # (1, 48, 3136)
        x = x.view(b, -1, new_h, new_w).permute(0, 2, 3, 1) # (1, 56, 56, 48)
        x = self.linear(x) # (1, 56, 56, 96)
        return x

Patch Merging的作用是对图像进行降采样，类似于CNN中Pooling层。Patch Merging是主要是通过nn.Unfold函数实现降采样的，nn.Unfold的功能是对图像进行滑窗，相当于卷积操作的第一步，因此它的参数包括窗口的大小和滑窗的步长。根据源码中给出的超参我们知道这一步降采样的比例是 [外链图片转存中…(img-eVBJ900t-1626145809582)] ，因此经过nn.Unfold之后会得到 [外链图片转存中…(img-8tFcgz36-1626145809584)] 个长度为 [外链图片转存中…(img-0LQpZRK9-1626145809585)] 的特征向量，其中 [外链图片转存中…(img-NfDMEAL5-1626145809586)] 是输入到这个stage的Feature Map的通道数，第一个stage的输入是RGB图像，因此通道数为3，表示为式(1)。

[外链图片转存中…(img-PhUTmtby-1626145809587)]

接着的view和permute是将得到的向量序列还原到 [外链图片转存中…(img-RTT8zwJQ-1626145809589)] 的二维矩阵，linear是将长度是 [外链图片转存中…(img-qk9hSXmq-1626145809590)] 的特征向量映射到out_channels的长度，因此stage-1的Patch Merging的输出向量维度是 [外链图片转存中…(img-snMOQK4t-1626145809591)] ，对比源码的注释，这里省略了第一个batch为 [外链图片转存中…(img-E8xlMt6O-1626145809592)] 的维度。

可以看出Patch Partition/Patch Merging起到的作用像是CNN中通过带有步长的滑窗来降低分辨率，再通过 [外链图片转存中…(img-sA1mgq1l-1626145809594)] 卷积来调整通道数。不同的是在CNN中最常使用的降采样的最大池化或者平均池化往往会丢弃一些信息，例如最大池化会丢弃一个窗口内的地响应值，而Patch Merging的策略并不会丢弃其它响应，但它的缺点是带来运算量的增加。在一些需要提升模型容量的场景中，我们其实可以考虑使用Patch Merging来替代CNN中的池化。

1.3 Swin Transformer的Stage

如我们上面分析的，图2中的Patch Partition+Linaer Embedding就是一个Patch Marging，因此Swin Transformer的一个stage便可以看做由Patch Merging和Swin Transformer Block组成，源码如下。

class StageModule(nn.Module):
    def __init__(self, in_channels, hidden_dimension, layers, downscaling_factor, num_heads, head_dim, window_size,
                 relative_pos_embedding):
        super().__init__()
        assert layers % 2 == 0, 'Stage layers need to be divisible by 2 for regular and shifted block.'

        self.patch_partition = PatchMerging(in_channels=in_channels, out_channels=hidden_dimension,
                                            downscaling_factor=downscaling_factor)

        self.layers = nn.ModuleList([])
        for _ in range(layers // 2):
            self.layers.append(nn.ModuleList([
                SwinBlock(dim=hidden_dimension, heads=num_heads, head_dim=head_dim, mlp_dim=hidden_dimension * 4,
                          shifted=False, window_size=window_size, relative_pos_embedding=relative_pos_embedding),
                SwinBlock(dim=hidden_dimension, heads=num_heads, head_dim=head_dim, mlp_dim=hidden_dimension * 4,
                          shifted=True, window_size=window_size, relative_pos_embedding=relative_pos_embedding),
            ]))

    def forward(self, x):
        x = self.patch_partition(x)
        for regular_block, shifted_block in self.layers:
            x = regular_block(x)
            x = shifted_block(x)
        return x.permute(0, 3, 1, 2)

1.4 Swin Transformer Block

Swin Transformer Block是该算法的核心点，它由窗口多头自注意层（window multi-head self-attention, W-MSA）和移位窗口多头自注意层（shifted-window multi-head self-attention, SW-MSA）组成，如图3所示。由于这个原因，Swin Transformer的层数要为2的整数倍，一层提供给W-MSA，一层提供给SW-MSA。

[外链图片转存中…(img-2ucOIhsq-1626145809595)]图3：Swin Transformer Block的网络结构

从图3中我们可以看出输入到该stage的特征 [外链图片转存中…(img-Y2iT3WCQ-1626145809596)] 先经过LN进行归一化，再经过W-MSA进行特征的学习，接着的是一个残差操作得到 [外链图片转存中…(img-4LkE2pSh-1626145809597)] 。接着是一个LN，一个MLP以及一个残差，得到这一层的输出特征 [外链图片转存中…(img-1r2oGIAA-1626145809598)] 。SW-MSA层的结构和W-MSA层类似，不同的是计算特征部分分别使用了SW-MSA和W-MSA，可以从上面的源码中看出它们除了shifted的这个bool值不同之外，其它的值是保持完全一致的。这一部分可以表示为式(2)。

[外链图片转存中…(img-YtxqWoyJ-1626145809599)]

一个Swin Block的源码如下所示，和论文中图不同的是，LN层（PerNorm函数）从Self-Attention之前移到了Self-Attention之后。

class Residual(nn.Module):
    def __init__(self, fn):
        super().__init__()
        self.fn = fn

    def forward(self, x, **kwargs):
        return self.fn(x, **kwargs) + x

class PreNorm(nn.Module):
    def __init__(self, dim, fn):
        super().__init__()
        self.norm = nn.LayerNorm(dim)
        self.fn = fn

    def forward(self, x, **kwargs):
        return self.fn(self.norm(x), **kwargs)

class SwinBlock(nn.Module):
    def __init__(self, dim, heads, head_dim, mlp_dim, shifted, window_size, relative_pos_embedding):
        super().__init__()
        self.attention_block = Residual(PreNorm(dim, WindowAttention(dim=dim, heads=heads, head_dim=head_dim, shifted=shifted, window_size=window_size, relative_pos_embedding=relative_pos_embedding)))
        self.mlp_block = Residual(PreNorm(dim, FeedForward(dim=dim, hidden_dim=mlp_dim)))

    def forward(self, x):
        x = self.attention_block(x)
        x = self.mlp_block(x)
        return x

1.5 W-MSA

窗口多头自注意力（Window Multi-head Self Attention，W-MSA），顾名思义，就是个在窗口的尺寸上进行Self-Attention计算，与SW-MSA不同的是，它不会进行窗口移位，它们的源码如下。我们这里先忽略shifted为True的情况，这一部分会放在1.6节去讲。

class WindowAttention(nn.Module):
    def __init__(self, dim, heads, head_dim, shifted, window_size, relative_pos_embedding):
        super().__init__()
        inner_dim = head_dim * heads
        self.heads = heads
        self.scale = head_dim ** -0.5
        self.window_size = window_size
        self.relative_pos_embedding = relative_pos_embedding # (13, 13)
        self.shifted = shifted

        if self.shifted:
            displacement = window_size // 2
            self.cyclic_shift = CyclicShift(-displacement)
            self.cyclic_back_shift = CyclicShift(displacement)
            self.upper_lower_mask = nn.Parameter(create_mask(window_size=window_size, displacement=displacement, upper_lower=True, left_right=False), requires_grad=False) # (49, 49)
            self.left_right_mask = nn.Parameter(create_mask(window_size=window_size, displacement=displacement,pper_lower=False, left_right=True), requires_grad=False) # (49, 49)

        self.to_qkv = nn.Linear(dim, inner_dim * 3, bias=False)
        if self.relative_pos_embedding:
            self.relative_indices = get_relative_distances(window_size) + window_size - 1
            self.pos_embedding = nn.Parameter(torch.randn(2 * window_size - 1, 2 * window_size - 1))
        else:
            self.pos_embedding = nn.Parameter(torch.randn(window_size ** 2, window_size ** 2))

        self.to_out = nn.Linear(inner_dim, dim)

    def forward(self, x):
        if self.shifted:
            x = self.cyclic_shift(x)

        b, n_h, n_w, _, h = *x.shape, self.heads # [1, 56, 56, _, 3]
        qkv = self.to_qkv(x).chunk(3, dim=-1) # [(1,56,56,96), (1,56,56,96), (1,56,56,96)]
        nw_h = n_h // self.window_size # 8
        nw_w = n_w // self.window_size # 8
        # 分成 h/M * w/M 个窗口
        q, k, v = map( lambda t: rearrange(t, 'b (nw_h w_h) (nw_w w_w) (h d) -> b h (nw_h nw_w) (w_h w_w) d', h=h, w_h=self.window_size, w_w=self.window_size), qkv)
        # q, k, v : (1, 3, 64, 49, 32)
        # 按窗口个数的self-attention
        dots = einsum('b h w i d, b h w j d -> b h w i j', q, k) * self.scale # (1,3,64,49,49)

        if self.relative_pos_embedding:
            dots += self.pos_embedding[self.relative_indices[:, :, 0], self.relative_indices[:, :, 1]]
        else:
            dots += self.pos_embedding

        if self.shifted:
            dots[:, :, -nw_w:] += self.upper_lower_mask
            dots[:, :, nw_w - 1::nw_w] += self.left_right_mask

        attn = dots.softmax(dim=-1) # (1,3,64,49,49)
        out = einsum('b h w i j, b h w j d -> b h w i d', attn, v)
        out = rearrange(out, 'b h (nw_h nw_w) (w_h w_w) d -> b (nw_h w_h) (nw_w w_w) (h d)', h=h, w_h=self.window_size, w_w=self.window_size, nw_h=nw_h, nw_w=nw_w) # (1, 56, 56, 96) # 窗口合并
        out = self.to_out(out)
        if self.shifted:
            out = self.cyclic_back_shift(out)
        return out

在forward函数中首先计算的是Transformer中介绍的 [外链图片转存中…(img-DLAt8c1G-1626145809600)] ， [外链图片转存中…(img-g7MvcEW7-1626145809601)] ， [外链图片转存中…(img-tuwpb4c7-1626145809602)] 三个特征。所以to_qkv()函数就是一个线性变换，这里使用了一个实现小技巧，即只使用了一个一层隐层节点数为inner_dim*3的线性变换，然后再使用chunk(3)操作将它们切开。因此qkv是一个长度为3的Tensor，每个Tensor的维度是 [外链图片转存中…(img-84N4T6Bl-1626145809603)] 。

之后的map函数是实现W-MSA中的W最核心的代码，它是通过einops的rearrange实现的。einops是一个可读性非常高的实现常见矩阵操作的python包，例如矩阵转置，矩阵复制，矩阵reshape等操作。最终通过这个操作得到了3个独立的窗口的权值矩阵，它们的维度是 [外链图片转存中…(img-ZGWPQyUy-1626145809604)] ，这4个值的意思分别是：

[外链图片转存中…(img-w1AWnVmU-1626145809605)] ：多头自注意力的头的个数；
[外链图片转存中…(img-RwMprNLA-1626145809605)] ：窗口的个数，首先通过Patch Merging将图像的尺寸降到 [外链图片转存中…(img-YIHFuz75-1626145809606)] ，因为窗口的大下为[外链图片转存中…(img-c9WtSsoG-1626145809606)] ，所以总共剩下 [外链图片转存中…(img-bEFmcR2K-1626145809607)] 个窗口；
[外链图片转存中…(img-qOLnDbpe-1626145809608)] ：窗口的像素的个数；
[外链图片转存中…(img-ZVz8GWzr-1626145809608)] ：隐层节点的个数。

Swin Transformer将计算区域控制在了以窗口为单位的策略极大减轻了网络的计算量，将复杂度降低到了图像尺寸的线性比例。传统的MSA和W-MSA的复杂度分别是：

[外链图片转存中…(img-c7saTVn5-1626145809609)]

(3)式的计算忽略了softmax的占用的计算量，这里以 [外链图片转存中…(img-y0PMD7Ks-1626145809609)] 为例，它的具体构成如下：

代码中的to_qkv()函数，即用于生成 [外链图片转存中…(img-O0u5cVzg-1626145809610)] 三个特征向量：其中 [外链图片转存中…(img-B5dJmsP3-1626145809610)] 。 [外链图片转存中…(img-Kj0zeLSh-1626145809611)] 的维度是 [外链图片转存中…(img-bKl1qx5D-1626145809612)] ， [外链图片转存中…(img-wbZVi3zz-1626145809613)] 的维度是 [外链图片转存中…(img-pwPqYYVC-1626145809614)] ，那么这三项的复杂度是 [外链图片转存中…(img-7SlSctiy-1626145809616)] ；
计算 [外链图片转存中…(img-0hbh8L1Q-1626145809616)] ： [外链图片转存中…(img-EihJ6G3o-1626145809617)] 的维度均是 [外链图片转存中…(img-RDsjEt53-1626145809618)] ，因此它的复杂度是 [外链图片转存中…(img-RiUjdhp7-1626145809618)] ；
softmax之后乘 [外链图片转存中…(img-3KHAWMQs-1626145809619)] 得到 [外链图片转存中…(img-3RqfvsLG-1626145809620)] ：因为 [外链图片转存中…(img-MLdL7vyw-1626145809621)] 的维度是 [外链图片转存中…(img-hLixEgKT-1626145809622)] ，所以它的复杂度是 [外链图片转存中…(img-ZINHiK3r-1626145809622)] ;
[外链图片转存中…(img-m9Z7kyKx-1626145809623)] 乘 [外链图片转存中…(img-50kjDAH3-1626145809624)] 矩阵得到最终输出，对应代码中的to_out()函数：它的复杂度是 [外链图片转存中…(img-PZPefzWb-1626145809625)] 。

通过Transformer的计算公式(4)，我们可以有更直观一点的理解，在Transformer一文中我们介绍过Self-Attention是通过点乘的方式得到Query矩阵和Key矩阵的相似度，即(4)式中的 [外链图片转存中…(img-7EDFuyL8-1626145809626)] 。然后再通过这个相似度匹配Value。因此这个相似度的计算时通过逐个元素进行点乘计算得到的。如果比较的范围是一个图像，那么计算的瓶颈就是整个图的逐像素比较，因此复杂度是 [外链图片转存中…(img-TgiKKIZV-1626145809627)] 。而W-MSA是在窗口内的逐像素比较，因此复杂度是 [外链图片转存中…(img-ueGYcmpH-1626145809628)] ，其中 [外链图片转存中…(img-8f345D3t-1626145809628)] 是W-MSA的窗口的大小。

[外链图片转存中…(img-Zfc4R6ZO-1626145809629)]

回到代码，接着的dots变量便是我们刚刚介绍的 [外链图片转存中…(img-zRkSeNPb-1626145809630)] 操作。接着是加入相对位置编码，我们放到最后介绍。接着的attn以及einsum便是完成了式(4)的整个流程。然后再次使用rearrange将维度再调整回 [外链图片转存中…(img-BuZZN2Rt-1626145809631)] 。最后通过to_out将维度调整为超参设置的输出维度的值。

这里我们介绍一下W-MSA的相对位置编码，首先这个位置编码是加在乘以完归一化尺度之后的dots变量上的，因此 [外链图片转存中…(img-qVrFxBsl-1626145809631)] 的计算方式变为式(5)。因为W-MSA是以窗口为单位进行特征匹配的，因此相对位置编码的范围也应该是以窗口为单位，它的具体实现见下面代码。相对位置编码的具体思想参考UniLMv2[8]。

[外链图片转存中…(img-Ifagu1XE-1626145809632)]

def get_relative_distances(window_size):
    indices = torch.tensor(np.array([[x, y] for x in range(window_size) for y in range(window_size)]))
    distances = indices[None, :, :] - indices[:, None, :]
    return distances

单独的使用W-MSA得到的网络的建模能力是非常差的，因为它将每个窗口当做一个独立区域计算而忽略了窗口之间交互的必要性，基于这个动机，Swin Transformer提出了SW-MSA。

1.6 SW-MSA

SW-MSA的的位置是接在W-MSA层之后的，因此只要我们提供一种和W-MSA不同的窗口切分方式便可以实现跨窗口的通信。SW-MSA的实现方式如图4所示。我们上面说过，输入到Stage-1的图像尺寸是 [外链图片转存中…(img-1nMxjosB-1626145809633)] 的（图4.(a)），那么W-MSA的窗口切分的结果如图4.(b)所示。那么我们如何得到和W-MSA不同的切分方式呢？SW-MSA的思想很简单，将图像各循环上移和循环左移半个窗口的大小，那么图4.©的蓝色和红色区域将分别被移动到图像的下侧和右侧，如图4.(d)。那么在移位的基础上再按照W-MSA切分窗口，就会得到和W-MSA不同的窗口切分方式，如图4.(d)中红色和蓝色分别是W-MSA和SW-MSA的切分窗口的结果。这一部分可以通过pytorch的roll函数实现，源码中是CyclicShift函数。

class CyclicShift(nn.Module):
    def __init__(self, displacement):
        super().__init__()
        self.displacement = displacement

    def forward(self, x):
        return torch.roll(x, shifts=(self.displacement, self.displacement), dims=(1, 2))

其中displacement的值是窗口值除2。

[外链图片转存中…(img-gwrpHAja-1626145809633)]

这种窗口切分方式引入了一个新的问题，即在移位图像的最后一行和最后一列各引入了一块移位过来的区域，如图4.(d)。根据上面我们介绍的 [外链图片转存中…(img-YgMGHHmP-1626145809634)] 用于逐像素计算相似度的自注意力机制，图像两侧的像素互相计算相似度是没有任何作用的，即只需要对比图4.(d)中的一个窗口中相同颜色的区域，我们以图4.(d)左下角的区域(1)为例来说明SW-MSA是怎么实现这个功能的。

区域(1)的计算如图5所示。首先一个 [外链图片转存中…(img-QW87r3KQ-1626145809635)] 大小的窗口通过线性预算得到 [外链图片转存中…(img-sleCpQvB-1626145809636)] ， [外链图片转存中…(img-KkmJq1Xm-1626145809636)] ， [外链图片转存中…(img-m77dLZSv-1626145809637)] 三个权值，如我们介绍的，它的维度是 [外链图片转存中…(img-S5G893DH-1626145809638)] 。在这个49中，前28个是按照滑窗的方式遍历区域(1)中的前48个像素得到的，后21个则是遍历区域(1)的下半部分得到的，此时他们对应的位置关系依旧保持上黄下蓝的性质。

接着便是计算 [外链图片转存中…(img-3KnUmLdN-1626145809639)] ，在图中相同颜色区域的相互计算后会依旧保持颜色，而黄色和蓝色区域计算后会变成绿色，而绿色的部分便是无意义的相似度。在论文中使用了upper_lower_mask将其掩码掉，upper_lower_mask是由 [外链图片转存中…(img-GoLd7V0R-1626145809640)] 和无穷大组成的二值矩阵，最后通过单位加之后得到最终的dots变量。

[外链图片转存中…(img-o0g3P5yX-1626145809641)]图5：SW-MSA的区域(1)移位行的计算方式

upper_lower_mask的计算方式如下。

mask = torch.zeros(window_size ** 2, window_size ** 2)
mask[-displacement * window_size:, :-displacement * window_size] = float('-inf')
mask[:-displacement * window_size, -displacement * window_size:] = float('-inf')

区域(2)的计算方式和区域(1)类似，不同的是区域(2)是循环左移之后的结果，如图6所示。因为(2)是左右排列的，因此它得到的[外链图片转存中…(img-bWzN1M1s-1626145809641)] ， [外链图片转存中…(img-AZjmlS0P-1626145809642)] ， [外链图片转存中…(img-n0YHwWX3-1626145809643)]是条纹状的，即先逐行遍历，在这7行中，都会先遍历到4个黄的，然后再遍历到3个红的。两个条纹状的矩阵相乘后，得到的相似度矩阵是网络状的，其中橙色表示无效区域，因此需要网格状的掩码left_right_mask来进行覆盖。

[外链图片转存中…(img-7MtG7HbR-1626145809644)]图6：SW-MSA的区域(2)移位行的计算方式

left_right_mask的生成方式如下面代码。关于这两个掩码的值，你可以自己代入一些值来验证，你可以设置一下window_size的值，然后displacement的值设为window_size的一半即可。

这一部分操作中，窗口移位和mask的计算是在WindowAttention类中的第一个if shifted = True中实现的。掩码的相加是在第二个if中实现的，最后一个if则是将图像再复原回原来的位置。

mask = torch.zeros(window_size ** 2, window_size ** 2)
mask = rearrange(mask, '(h1 w1) (h2 w2) -> h1 w1 h2 w2', h1=window_size, h2=window_size)
mask[:, -displacement:, :, :-displacement] = float('-inf')
mask[:, :-displacement, :, -displacement:] = float('-inf')
mask = rearrange(mask, 'h1 w1 h2 w2 -> (h1 w1) (h2 w2)')

截止到这，我们从头到尾对Swin-T的stage-1进行了完成的梳理，后面3个stage除了几个超参以及图像的尺寸和stage-1不同之外，其它的结构均保持一致，这里不再赘述。

1.7 输出层

最后我们介绍一下Swin Transformer的输出层，在stage-4完成计算后，特征的维度是 [外链图片转存中…(img-yAvojtAY-1626145809645)] 。Swin Transformer先通过一个Global Average Pooling得到长度为768的特征向量，再通过一个LN和一个全连接得到最终的预测结果，如式(6)。

[外链图片转存中…(img-VygxeHYY-1626145809645)]

2. Swin Transformer家族

Swin Transformer共提出了4个不同尺寸的模型，它们的区别在于隐层节点的长度，每个stage的层数，多头自注意力机制的头的个数，具体值见下面代码。

def swin_t(hidden_dim=96, layers=(2, 2, 6, 2), heads=(3, 6, 12, 24), **kwargs):
    return SwinTransformer(hidden_dim=hidden_dim, layers=layers, heads=heads, **kwargs)

def swin_s(hidden_dim=96, layers=(2, 2, 18, 2), heads=(3, 6, 12, 24), **kwargs):
    return SwinTransformer(hidden_dim=hidden_dim, layers=layers, heads=heads, **kwargs)

def swin_b(hidden_dim=128, layers=(2, 2, 18, 2), heads=(4, 8, 16, 32), **kwargs):
    return SwinTransformer(hidden_dim=hidden_dim, layers=layers, heads=heads, **kwargs)

def swin_l(hidden_dim=192, layers=(2, 2, 18, 2), heads=(6, 12, 24, 48), **kwargs):
    return SwinTransformer(hidden_dim=hidden_dim, layers=layers, heads=heads, **kwargs)

因为Swin Transformer是一个多阶段的网络框架，而且每一个阶段的输出也是一组Feature Map，因此可以非常方便的将其迁移到几乎所有CV任务中。作者的实验结果也表明Swin Transformer在检测和分割领域也达到了state-of-the-art的水平。

3. 总结

Swin Transformer是近年来为数不多的读起来让人兴奋的算法，它让人兴奋的点有三：

解决了长期困扰业界的Transformer应用到CV领域的速度慢的问题；
Swin Transformer的设计非常巧妙，具有创新又紧扣CNN的优点，充分考虑的CNN的位移不变性，尺寸不变性，感受野与层次的关系，分阶段降低分辨率增加通道数等特点，没了这些特点Swin Transformer是没有勇气称自己一个backbone的；
其在诸多CV领域的STOA的表现。

当然我们对Swin Transformer还是要站在一个客观的角度来评价的，虽然论文中说Swin Transformer是一个backbone，但是这个评价还为时尚早，因为

Swin Transformer并没有提供一个像反卷积那样的上采样的算法，因此对于这类需求的backbone Swin Transformer并不能直接替换，也许可以采用双线性差值来实现，但效果如何还需要评估。
从W-MSA一节中我们可以看出每个窗口都有一组独立的[外链图片转存中…(img-CzdIVadS-1626145809646)] ， [外链图片转存中…(img-xIC5oQin-1626145809647)] ， [外链图片转存中…(img-3XxBXaUA-1626145809648)]，因此Swin Transformer并不具有CNN一个特别重要的特性：权值共享。这也造成了Swin Transformer在速度上和还和同级别的CNN仍有不小的差距。所以就目前来看，在嵌入式平台上CNN还有着不可撼动的地位。
Swin Transformer在诸多的CNN已经取得非常好的效果的领域还未得到充分验证，如果只会掀起了一股使用Swin Transformer或其衍生算法在CV领域灌水风，那时候我们就可以说：Swin Transformer的时代到来了。

2.DogeNet作为Faster—RCNN和YOLOV3的backbone，作为特征提取的主干网络。

在一定程度上替换了传统卷积神经网络Resnet和DarkNet等这些backbone作为的特征提取网络。DogeNet也是基于Transformer+CNN的特征抽取网络，在图像分类和作为目标检测的backbone都有较好的效果。DogeNet是团队自研网络，源于ResNet（传统残差卷积神经网络）和BotNet（Transformer+CNN），在参数量以及鲁棒性都做了较大改进。而实验结果证明，在参数量减少，网络的特征抽取能力较ResNet和BotNet有较大提升。

model	Accuracy	R30	R45	R60	R75	R90	Channel List	Parameter	FLOPS
res_net26(2x2x2x2)	95	84.4	78	69.8	68.6	74	64x64x128x256x512	14.0M	2377M
res_net50(3x4x6x3)	95	81.8	74.4	66.4	71.6	72.4	64x64x128x256x512	23.5M	4143M
bot_net50_l1(3x4x6x3)	75.6	70.2	62.2	71.4	54.4	51.8	64x64x128x256x512	18.8M	4094M
bot_net50_l2(3x4x6x3)	75	N	N	N	N	52.4	64x64x128x256x512	14.3M	3849M
doge_net26(2x3x1x2)	94.2	83.2	76.2	69.2	74.6	85.4	64x32x 48x 96 x128	0.9M	685M
doge_net26(2x1x3x2)	91.4	82.4	77.6	72.8	76.2	79	64x32x 48x 96 x128	0.9M	685M
doge_net50(6x6x2x2)	90.4	80.6	72.2	70.2	71	77.4	64x32x 48x 96 x128	1.2M	1043M
dogex26(2x3x1x2)	88.8	77.4	72	68.6	73.4	76.2	64x32x 48x 96 x128	0.83M	659M
dogex50(6x6x2x2)	-	-	-	-	-	-	64x32x 48x 96 x128	1.13M	1014M
shibax26(2x3x1x2)-DSA*2	95.8	80.8	75.8	70.2	71.2	80.4	64x32x 48x 96 x128	0.82M	452M
shibax50(6x6x2x2)-DSA*2	93.8	81.8	76	71.6	71.4	80.4	64x32x 48x 96 x128	1.11M	796M
Efficient-net-B0(Origin)	95.6	81.4	74.4	70.2	68.2	76.2	N	5.3M	422M
Efficient-net-B0(pretrain)	99.4	98.8	97.8	95	92.6	94.2	N	5.3M	422M
Shiba26(2x3x1x2)-DSA*3	93.8	81.4	77	70.8	70	79.4	64x32x 48x 96 x128	0.746M	380M
Shiba50(6x6x2x2)-DSA*3	92.6	81.8	74.8	68	69.2	74.6	64x32x 48x 96 x128	0.938M	582M

（二）行人跟踪部分

1.ResNet_ReID

#定义的deep_sort特征提取器的original_model，dogenet50

import paddle
import paddle.nn as nn
import paddle.nn.functional as F

class BasicBlock(nn.Layer):
    def __init__(self, c_in, c_out,is_downsample=False):
        super(BasicBlock,self).__init__()
        self.is_downsample = is_downsample
        if is_downsample:
            self.conv1 = nn.Conv2D(c_in, c_out, 3, stride=2, padding=1, bias_attr=False)
        else:
            self.conv1 = nn.Conv2D(c_in, c_out, 3, stride=1, padding=1, bias_attr=False)
        self.bn1 = nn.BatchNorm2D(c_out)
        self.relu = nn.ReLU()
        self.conv2 = nn.Conv2D(c_out,c_out,3,stride=1,padding=1, bias_attr=False)
        self.bn2 = nn.BatchNorm2D(c_out)
        if is_downsample:
            self.downsample = nn.Sequential(
                nn.Conv2D(c_in, c_out, 1, stride=2, bias_attr=False),
                nn.BatchNorm2D(c_out)
            )
        elif c_in != c_out:
            self.downsample = nn.Sequential(
                nn.Conv2D(c_in, c_out, 1, stride=1, bias_attr=False),
                nn.BatchNorm2D(c_out)
            )
            self.is_downsample = True

    def forward(self,x):
        y = self.conv1(x)
        y = self.bn1(y)
        y = self.relu(y)
        y = self.conv2(y)
        y = self.bn2(y)
        if self.is_downsample:
            x = self.downsample(x)
        return F.relu(x.add(y))

def make_layers(c_in,c_out,repeat_times, is_downsample=False):
    blocks = []
    for i in range(repeat_times):
        if i ==0:
            blocks += [BasicBlock(c_in,c_out, is_downsample=is_downsample),]
        else:
            blocks += [BasicBlock(c_out,c_out),]
    return nn.Sequential(*blocks)

class Net(nn.Layer):
    def __init__(self, num_classes=625 ,reid=False):
        super(Net,self).__init__()
        # 3 128 64
        self.conv = nn.Sequential(
            nn.Conv2D(3,32,3,stride=1,padding=1),
            nn.BatchNorm2D(32),
            nn.ELU(),
            nn.Conv2D(32,32,3,stride=1,padding=1),
            nn.BatchNorm2D(32),
            nn.ELU(),
            nn.MaxPool2D(3,2,padding=1),
        )
        # 32 64 32
        self.layer1 = make_layers(32,32,2,False)
        # 32 64 32
        self.layer2 = make_layers(32,64,2,True)
        # 64 32 16
        self.layer3 = make_layers(64,128,2,True)
        # 128 16 8
        self.dense = nn.Sequential(
            nn.Dropout(p=0.6),
            nn.Linear(128*16*8, 128),
            nn.BatchNorm1D(128),
            nn.ELU()
        )
        # 256 1 1 
        self.reid = reid
        self.batch_norm = nn.BatchNorm1D(128)
        self.classifier = nn.Sequential(
            nn.Linear(128, num_classes),
        )
    
    def forward(self, x):
        x = self.conv(x)
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)

        x = paddle.reshape(x, [x.shape[0],-1])
        if self.reid:
            x = self.dense[0](x)
            x = self.dense[1](x)
            x = paddle.divide(x, paddle.norm(x, p=2, axis=1,keepdim=True))
            return x
        x = self.dense(x)
        # B x 128
        # classifier
        x = self.classifier(x)
        return x

2.DogeNet_ReID

import efficientnet_pypaddle
import paddle
import paddle.nn as nn
import paddle.nn.functional as F
from paddle.nn.transformer import models

__all__ = ["get_n_params", "efficient_b0", "res_net50", "bot_net50_l1", "bot_net50_l2", "doge_net26",
           "doge_net50", "doge_net_2x1x3x2", "res_net26", "doge_net50_no_embed", "doge_net_2x1x3x2_no_embed",
           "doge_net26_no_embed"]


def get_n_params(model):
    pp = 0
    for p in list(model.parameters()):
        nn = 1
        for s in list(p.size()):
            nn = nn * s
        pp += nn
    return pp


class SE(nn.Module):
    """Squeeze-and-Excitation block."""

    def __init__(self, in_planes, se_planes):
        super(SE, self).__init__()
        self.se1 = nn.Conv2D(in_planes, se_planes, kernel_size=1, bias=True)
        self.se2 = nn.Conv2D(se_planes, in_planes, kernel_size=1, bias=True)

    def forward(self, x):
        out = F.adaptive_avg_pool2D(x, (1, 1))
        out = F.relu(self.se1(out))
        out = self.se2(out).sigmoid()
        out = x * out
        return out


class MHSA(nn.Module):
    def __init__(self, n_dims, width=14, height=14, heads=4, position_embedding=True):
        super(MHSA, self).__init__()
        self.heads = heads
        self.position_embedding = position_embedding
        self.query = nn.Conv2D(n_dims, n_dims, kernel_size=1)
        self.key = nn.Conv2D(n_dims, n_dims, kernel_size=1)
        self.value = nn.Conv2D(n_dims, n_dims, kernel_size=1)
        if position_embedding:
            self.rel_h = nn.Parameter(paddle.randn([1, heads, n_dims // heads, 1, height]), requires_grad=True)
            self.rel_w = nn.Parameter(paddle.randn([1, heads, n_dims // heads, width, 1]), requires_grad=True)

        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x):
        n_batch, C, width, height = x.size()
        q = self.query(x).view(n_batch, self.heads, C // self.heads, -1)
        k = self.key(x).view(n_batch, self.heads, C // self.heads, -1)
        v = self.value(x).view(n_batch, self.heads, C // self.heads, -1)

        content_content = paddle.matmul(q.permute(0, 1, 3, 2), k)

        if self.position_embedding:
            content_position = (self.rel_h + self.rel_w).view(1, self.heads, C // self.heads, -1).permute(0, 1, 3, 2)
            content_position = paddle.matmul(content_position, q)
            energy = content_content + content_position
        else:
            energy = content_content

        attention = self.softmax(energy)

        out = paddle.matmul(v, attention.permute(0, 1, 3, 2))
        out = out.view(n_batch, C, width, height)

        return out


class BottleNeck(nn.Module):
    expansion = 4

    def __init__(self, in_planes, planes, stride=1, heads=4, mhsa=False, resolution=None):
        super(BottleNeck, self).__init__()

        self.conv1 = nn.Conv2D(in_planes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2D(planes)
        if not mhsa:
            self.conv2 = nn.Conv2D(planes, planes, kernel_size=3, padding=1, stride=stride, bias=False)
        else:
            self.conv2 = nn.ModuleList()
            self.conv2.append(MHSA(planes, width=int(resolution[0]), height=int(resolution[1]), heads=heads))
            if stride == 2:
                self.conv2.append(nn.AvgPool2D(2, 2))
            self.conv2 = nn.Sequential(*self.conv2)
        self.bn2 = nn.BatchNorm2D(planes)
        self.conv3 = nn.Conv2D(planes, self.expansion * planes, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2D(self.expansion * planes)

        self.shortcut = nn.Sequential()
        if stride != 1 or in_planes != self.expansion * planes:
            self.shortcut = nn.Sequential(
                nn.Conv2D(in_planes, self.expansion * planes, kernel_size=1, stride=stride),
                nn.BatchNorm2D(self.expansion * planes)
            )

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = F.relu(self.bn2(self.conv2(out)))
        out = self.bn3(self.conv3(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out


class DogeNeck(nn.Module):
    expansion = 4

    def __init__(self, in_planes, planes, stride=1, heads=4, mhsa=False, resolution=None, position_embedding=True):
        super(DogeNeck, self).__init__()

        self.conv1 = nn.Conv2D(in_planes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2D(planes)
        if not mhsa:
            self.conv2 = nn.ModuleList()
            self.conv2.append(nn.Conv2D(planes, planes, kernel_size=3, padding=1, stride=stride, bias=False))
            self.conv2.append(SE(planes, planes // 2))
            self.conv2 = nn.Sequential(*self.conv2)
        else:
            self.conv2 = nn.ModuleList()
            self.conv2.append(MHSA(
                planes, width=int(resolution[0]), height=int(resolution[1]),
                heads=heads, position_embedding=position_embedding
            ))
            if stride == 2:
                self.conv2.append(nn.AvgPool2D(2, 2))
            self.conv2 = nn.Sequential(*self.conv2)
        self.bn2 = nn.BatchNorm2D(planes)
        self.conv3 = nn.Conv2D(planes, self.expansion * planes, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2D(self.expansion * planes)

        self.shortcut = nn.Sequential()
        if stride != 1 or in_planes != self.expansion * planes:
            self.shortcut = nn.Sequential(
                nn.Conv2D(in_planes, self.expansion * planes, kernel_size=1, stride=stride),
                nn.BatchNorm2D(self.expansion * planes)
            )

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = F.relu(self.bn2(self.conv2(out)))
        out = self.bn3(self.conv3(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out


# reference
# https://github.com/kuangliu/pypaddle-cifar/blob/master/models/resnet.py
class BotNet(nn.Module):
    def __init__(self, block, num_blocks, num_classes=15, resolution=(224, 224), heads=4,
                 layer3: str = "CNN", in_channel=3):
        super(BotNet, self).__init__()
        self.in_planes = 64
        self.resolution = list(resolution)

        self.conv1 = nn.Conv2D(in_channel, 64, kernel_size=7, stride=2, padding=3, bias=False)
        if self.conv1.stride[0] == 2:
            self.resolution[0] /= 2
        if self.conv1.stride[1] == 2:
            self.resolution[1] /= 2
        self.bn1 = nn.BatchNorm2D(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2D(kernel_size=3, stride=2, padding=1)  # for ImageNet
        if self.maxpool.stride == 2:
            self.resolution[0] /= 2
            self.resolution[1] /= 2

        self.layer1 = self._make_layer(block, 64, num_blocks[0], stride=1)
        self.layer2 = self._make_layer(block, 128, num_blocks[1], stride=2)

        if layer3 == "CNN":
            self.layer3 = self._make_layer(block, 256, num_blocks[2], stride=2)
        elif layer3 == "Transformer":
            self.layer3 = self._make_layer(block, 256, num_blocks[3], stride=2, heads=heads, mhsa=True)
        else:
            raise NotImplementedError

        self.layer4 = self._make_layer(block, 512, num_blocks[3], stride=2, heads=heads, mhsa=True)

        self.avgpool = nn.AdaptiveAvgPool2D((1, 1))
        self.fc = nn.Sequential(
            nn.Dropout(0.3),  # All architecture deeper than ResNet-200 dropout_rate: 0.2
            nn.Linear(512 * block.expansion, num_classes),
        )

    def _make_layer(self, block, planes, num_blocks, stride=1, heads=4, mhsa=False):
        strides = [stride] + [1] * (num_blocks - 1)
        layers = []
        for idx, stride in enumerate(strides):
            layers.append(block(self.in_planes, planes, stride, heads, mhsa, self.resolution))
            if stride == 2:
                self.resolution[0] /= 2
                self.resolution[1] /= 2
            self.in_planes = planes * block.expansion
        return nn.Sequential(*layers)

    def forward(self, x):
        out = self.relu(self.bn1(self.conv1(x)))
        out = self.maxpool(out)  # for ImageNet

        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.layer4(out)

        out = self.avgpool(out)
        out = paddle.flatten(out, 1)
        out = self.fc(out)
        return out


class DogeNet(nn.Module):
    def __init__(self, block, num_blocks, num_classes=15, resolution=(224, 224), heads=4, in_channel=3,
                 position_embedding=True):
        super(DogeNet, self).__init__()
        self.in_planes = 64
        self.resolution = list(resolution)
        self.position_embedding = position_embedding

        self.conv1 = nn.Conv2D(in_channel, 64, kernel_size=3, stride=2, padding=1, bias=False)
        if self.conv1.stride[0] == 2:
            self.resolution[0] /= 2
        if self.conv1.stride[1] == 2:
            self.resolution[1] /= 2
        self.bn1 = nn.BatchNorm2D(64)
        self.relu = nn.ReLU(inplace=True)
        if self.conv1.stride == 2:
            self.resolution[0] /= 2
            self.resolution[1] /= 2

        self.layer1 = self._make_layer(block, 32, num_blocks[0], stride=2)
        self.layer2 = self._make_layer(block, 48, num_blocks[1], stride=2)
        self.layer3 = self._make_layer(block, 96, num_blocks[2], stride=2, heads=heads, mhsa=True)
        self.layer4 = self._make_layer(block, 128, num_blocks[3], stride=1, heads=heads, mhsa=True)
        self.avgpool = nn.AdaptiveAvgPool2D((1, 1))
        self.fc = nn.Sequential(
            nn.Dropout(0.3),
            nn.Linear(128 * block.expansion, num_classes),
        )

    def _make_layer(self, block, planes, num_blocks, stride=1, heads=4, mhsa=False):
        strides = [stride] + [1] * (num_blocks - 1)
        layers = []
        for idx, stride in enumerate(strides):
            layers.append(block(self.in_planes, planes, stride, heads, mhsa, self.resolution, self.position_embedding))
            if stride == 2:
                self.resolution[0] /= 2
                self.resolution[1] /= 2
            self.in_planes = planes * block.expansion
        return nn.Sequential(*layers)

    def forward(self, x):
        out = self.relu(self.bn1(self.conv1(x)))

        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.layer4(out)

        out = self.avgpool(out)
        out = paddle.flatten(out, 1)
        out = self.fc(out)
        return out


def efficient_b0(num_classes=10, **kwargs):
    return efficientnet_pypaddle.EfficientNet.from_name("efficientnet-b0", num_classes=num_classes)


def res_net50(num_classes=10, **kwargs):
    return models.ResNet(models.resnet.Bottleneck, [3, 4, 6, 3], num_classes=num_classes)


def res_net26(num_classes=10, **kwargs):
    return models.ResNet(models.resnet.Bottleneck, [2, 2, 2, 2], num_classes=num_classes)


def bot_net50_l1(num_classes=10, args=None, heads=4, **kwargs):
    in_shape = args.in_shape
    return BotNet(BottleNeck, [3, 4, 6, 3], num_classes=num_classes,  # resnet50加入一层transformer
                  resolution=in_shape[1:], heads=heads, layer3="CNN", in_channel=in_shape[0])


def bot_net50_l2(num_classes=10, args=None, heads=4, **kwargs):
    in_shape = args.in_shape
    return BotNet(BottleNeck, [3, 4, 6, 3], num_classes=num_classes,  # resnet50加入两层transformer
                  resolution=in_shape[1:], heads=heads, layer3="Transformer", in_channel=in_shape[0])


def doge_net26(num_classes=10, args=None, heads=4, **kwargs):
    in_shape = args.in_shape
    return DogeNet(DogeNeck, [2, 3, 1, 2], num_classes=num_classes,
                   resolution=in_shape[1:], heads=heads, in_channel=in_shape[0])


def doge_net50(num_classes=4, args=None, heads=4, **kwargs):
    in_shape = (3, 224, 224)
    return DogeNet(DogeNeck, [6, 6, 2, 2], num_classes=num_classes,
                   resolution=in_shape[1:], heads=heads, in_channel=in_shape[0])


def doge_net_2x1x3x2(num_classes=10, args=None, heads=4, **kwargs):
    in_shape = args.in_shape
    return DogeNet(DogeNeck, [2, 3, 1, 2], num_classes=num_classes,
                   resolution=in_shape[1:], heads=heads, in_channel=in_shape[0])


def doge_net26_no_embed(num_classes=10, args=None, heads=4, **kwargs):
    in_shape = args.in_shape
    return DogeNet(DogeNeck, [2, 3, 1, 2], num_classes=num_classes,
                   resolution=in_shape[1:], heads=heads, in_channel=in_shape[0], position_embedding=False)


def doge_net50_no_embed(num_classes=10, args=None, heads=4, **kwargs):
    in_shape = args.in_shape
    return DogeNet(DogeNeck, [6, 6, 2, 2], num_classes=num_classes,
                   resolution=in_shape[1:], heads=heads, in_channel=in_shape[0], position_embedding=False)


def doge_net_2x1x3x2_no_embed(num_classes=10, args=None, heads=4, **kwargs):
    in_shape = args.in_shape
    return DogeNet(DogeNeck, [2, 3, 1, 2], num_classes=num_classes,
                   resolution=in_shape[1:], heads=heads, in_channel=in_shape[0], position_embedding=False)


if __name__ == '__main__':
    from paddlesummary import summary
    from core.utils.argparse import arg_parse

    args = arg_parse().parse_args()
    args.in_shape = (3, 224, 224)
    x = paddle.randn([1, 3, 224, 224])
    model = doge_net26(args=args, heads=4)  # 904994
    # model = doge_net50_64x64(resolution=tuple(x.shape[2:]), heads=8)  # 4178255
    # model = efficient_b0()
    # model = efficientnet_pypaddle.EfficientNet.from_name("efficientnet-b0")

    print(model(x).size())
    print(get_n_params(model))

    # 打印网络结构
    summary(model, input_size=[(3, 224, 224)], batch_size=1, device="cpu")

Reference

[1] Vaswani, Ashish, et al. “Attention is all you need.” arXiv preprint arXiv:1706.03762 (2017).

[2] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

[3] Chen, Mark, et al. “Generative pretraining from pixels.” International Conference on Machine Learning. PMLR, 2020.

[4] Liu, Ze, et al. “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.” arXiv preprint arXiv:2103.14030 (2021).

[5] Ba J L, Kiros J R, Hinton G E. Layer normalization[J]. arXiv preprint arXiv:1607.06450, 2016.

[6] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ´ S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 2, 4, 5, 7

[7] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.

image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).

[3] Chen, Mark, et al. “Generative pretraining from pixels.” International Conference on Machine Learning. PMLR, 2020.

[4] Liu, Ze, et al. “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.” arXiv preprint arXiv:2103.14030 (2021).

[5] Ba J L, Kiros J R, Hinton G E. Layer normalization[J]. arXiv preprint arXiv:1607.06450, 2016.

[6] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ´ S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 2, 4, 5, 7

[8] Bao, Hangbo, et al. “Unilmv2: Pseudo-masked language models for unified language model pre-training.” International Conference on Machine Learning. PMLR, 2020.

你可能感兴趣的:(深度学习,行人检测_跟踪,python,深度学习,人工智能,目标跟踪,智慧城市)

供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
docker搭建靶场无名小猴 HTB靶场练习学习
一、dockerfile使用Dockerfile是用来构建Docker镜像的配置脚本，定义了：用哪个基础镜像（如python:3.10）安装哪些依赖（如pipinstall）拷贝哪些文件（如本地代码、配置）设置运行入口（如CMD[“python3”,“main.py”]）写好dockerfile构建镜像dockerbuild-f/Dockerfile-tmy_image_name/dockerpa
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
金蝶api对接沙箱环境python代码调试 Python大数据分析 python
根据官网文档加密规则importtimeimportrandomimporthmacimporthashlibimportbase64importrequestsimporturllib.parse#基础参数method="GET"path="/jdy/v2/scm/pur_order"base_url="https://api.kingdee.com"full_url=base_url+path
RobotFramework打不开谷歌浏览器问题
当你装好了RobotFramework后，准备大干一场，如果你已正确把chromedriver放到python目录或者system32文件夹下，运行打开谷歌浏览器时，可以正常打开浏览器，如下图但是不能输入网址，发现RobotFramework运行日志中报以下错误，那可能是你的chromedriver版本和浏览器版本不兼容造成，更换一下相对应的版本就可以就可以正常运行，目前chromedriver已
Python-Appium 2.19.0---详细指南：安装Appium 渡己（Sorin） python appium 开发语言
引言最近要写个安卓自动化项目，想用Appium来实现，版本已经来到了2.19.0，搜了一圈，发现文档比较少，至少7年没有用过了，有点陌生，打算重新研究下，写成文章分享给有需要的人。作为最流行的移动端自动化测试框架之一，其2.x版本有许多重要的改进和新特性。这篇文章将详细介绍如何在Windows和macOS系统上安装Appium2.19.0版本，并配置Python环境进行自动化测试开发。第一部分：环
Python 中 BeautifulSoup 的异常处理方法 Python编程之道 python beautifulsoup 网络 ai
Python中BeautifulSoup的异常处理方法关键词：Python,BeautifulSoup,异常处理,Web解析,HTML解析,XML解析,错误处理摘要：本文深入探讨了Python中BeautifulSoup库在进行HTML和XML解析时的异常处理方法。首先介绍了BeautifulSoup的基本背景和相关概念，接着详细阐述了可能出现的各类异常及其产生原因，通过具体的Python代码示例
Python 开发：Conda 环境的远程访问配置 Python编程之道 python conda 开发语言 ai
Python开发：Conda环境的远程访问配置关键词：Python、Conda、远程访问、环境管理、SSH、JupyterNotebook、服务器配置摘要：本文详细介绍了如何在远程服务器上配置和管理Conda环境，实现高效的远程Python开发。我们将从基础概念入手，逐步讲解SSH连接、端口转发、JupyterNotebook远程访问等关键技术，并提供完整的配置方案和实战代码示例。文章还涵盖了安全
Python pip：包的云计算部署
Pythonpip：包的云计算部署关键词：Pythonpip、云计算部署、包管理、虚拟环境、云平台摘要：本文围绕Pythonpip进行包的云计算部署展开深入探讨。首先介绍了Pythonpip在包管理中的重要性以及云计算部署的背景和意义。接着详细阐述了pip的核心概念和工作原理，包括其与Python生态系统的紧密联系。通过具体的Python代码示例，讲解了pip包管理的核心算法原理和操作步骤。同时，
Python pip配置全局镜像源 Python编程之道 Python人工智能与大数据 Python编程之道 python pip 网络 ai
Pythonpip配置全局镜像源关键词：Python、pip、全局镜像源、配置、国内镜像摘要：本文详细介绍了Python中pip配置全局镜像源的相关内容。首先阐述了配置全局镜像源的背景和目的，接着解释了核心概念，包括pip和镜像源的原理。然后详细说明了配置全局镜像源的具体操作步骤，包括不同操作系统下的配置方法，并给出了相应的Python代码示例。同时，还讲解了相关的数学模型（虽然在本主题中数学模型
60天python训练计划----day51 尘浮728 python 开发语言
DAY51复习日作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高importosimporttorchimporttorch.nnasnnimporttorch.optimasoptimimporttorch.nn.functionalasFimporttorchvisionimporttorchvision.transfor
余数定理问题和余数类问题的解法 wangychf python 抽象代数
一、引言Python里面有一个重要的求模运算符号“％”，作为一个小白，实验了好多次求模的运算，发现这个算法不同于一般的四则运算，其运算效率简直可以用神奇来形容。例如以当今知道的最大质数——梅森素数为例，进行求模计算，速度快得惊人。当前知道的最大的梅森素数是第51个梅森素数，也是迄今为止知道的最大的素数。它的表示为：2^82589933–1,如果用十进制打开，这个数有24862048位，是2018年
python训练60天挑战-day51
DAY51复习日作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高kaggl的一个图像数据集；数据集地址：LungNoduleMalignancy肺结核良恶性判断三层卷积CNN做到的精度63%，现在需要实现提高。importosimportpandasaspdimportnumpyasnpfromsklearn.model_se
【python实用小脚本-126】基于 Python 的 Google Meet 和 Zoom 自动化工具：实现会议自动化加入
引言在远程工作和在线学习日益普及的今天，GoogleMeet和Zoom成为了最常用的视频会议工具。然而，频繁地手动加入会议可能会浪费时间和精力。本文将介绍一个基于Python的自动化工具，能够自动加入GoogleMeet和Zoom会议。该工具主要利用了Python的schedule、webbrowser、pyautogui和pyperclip库，结合了任务调度、网页自动化和屏幕操作技术，为用户提供
【python实用小脚本-127】基于 Python 的 Google 图片爬取工具：实现高效图片数据收集 Kyln.Wu Python python 开发语言
引言在数据科学、机器学习和多媒体应用中，图片数据的收集是一个常见且重要的任务。Google图片是一个丰富的图片资源库，能够为各种项目提供大量的图片数据。本文将介绍一个基于Python的Google图片爬取工具，它能够自动化地从Google图片搜索结果中下载图片。该工具主要利用了Python的selenium、BeautifulSoup、urllib和argparse库，结合了网页自动化和数据解析技
【python深度学习】DAY 51 复习日抽风的雨610 【打卡】Python训练营 python 深度学习开发语言
作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高1.读取数据使用CIFAR-10图像数据importtorchfromtorchvisionimportdatasets,transforms#数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
用Python解锁图像处理之力：从基础到智能应用的深度探索熊猫钓鱼>_> python 图像处理开发语言
在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
面向高校的人工智能通识教育课程实验设计方案武汉唯众智创人工智能人工智能通识教育课程实验人工智能通识教育人工智能通识课程人工智能通识
一、前言2018年，教育部发布《高等学校人工智能创新行动计划》，明确提出“重视人工智能与计算机、控制、数学、统计学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合，探索‘人工智能+X’的人才培养模式”。过去，人工智能教育多集中于研究生阶段，本科生接触机会相对有限。2019年，教育部批准35所高校增设“人工智能”本科专业，这标志着人工智能正式纳入本科教育体系。如今，人工智能课程大多是计
VSCode Python 扩展项目教程翟苹星Trustworthy
VSCodePython扩展项目教程vscode-pythonPythonextensionforVisualStudioCode项目地址:https://gitcode.com/gh_mirrors/vs/vscode-python1.项目的目录结构及介绍VSCodePython扩展项目的目录结构如下：vscode-python/├──config/├──devcontainer/├──gith
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
python多人聊天室跨主机_python+tcp实现多人聊天室
tcp介绍引用百度百科的介绍传输控制协议(TCP，TransmissionControlProtocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议，由IETF的RFC793[1]定义。TCP旨在适应支持多网络应用的分层协议层次结构。连接到不同但互连的计算机通信网络的主计算机中的成对进程之间依靠TCP提供可靠的通信服务。TCP假设它可以从较低级别的协议获得简单的，可能不可靠的数据报服务。
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
Python 爬虫实战：高效存储与数据清洗技巧，助你轻松处理抓取数据程序员威哥 python 爬虫开发语言
在进行大规模数据抓取时，数据的存储与清洗是爬虫项目中不可或缺的环节。抓取到的数据往往是杂乱无章的，包含了许多无关的内容，需要经过处理才能用于分析和应用。如何高效地存储数据，并对其进行清洗、去重、格式化等操作，是每个爬虫开发者必须掌握的重要技能。本文将介绍如何使用Python实现数据存储与清洗的常见技巧，帮助你提升数据处理效率，为后续的数据分析和应用打下坚实的基础。一、为什么数据存储与清洗如此重要？
Python 爬虫实战：从新闻网站抓取数据并进行情感分析，揭示舆情趋势
随着信息时代的发展，新闻内容的获取和情感分析变得越来越重要。在日常生活中，新闻不仅影响公众的观点和情感，还能反映出社会的舆情变化。如何从大量新闻中获取有价值的信息，并进行情感分析，为舆情监测、品牌管理、市场预测等提供支持，成为了许多企业和个人的需求。本文将以Python爬虫为基础，展示如何从新闻网站抓取数据，并进行情感分析。我们将重点介绍如何使用爬虫抓取新闻数据、如何分析新闻情感，以及如何根据情感
Python 爬虫实战：如何在东方财富网抓取股票行情数据，提升投资决策精准度
前言随着金融市场的快速发展，投资者越来越依赖于实时的股票行情数据来做出决策。在这个过程中，股票数据爬取成为了许多投资者、数据分析师和金融工程师的重要技能。通过编写一个高效的股票数据爬虫，我们可以快速抓取大量股票信息，并进行实时监控与分析，从而帮助做出更加精准的投资决策。本文将展示如何通过Python爬虫从东方财富网（东财网）抓取股票行情数据，并提供一些简单的数据分析手段，帮助用户更好地理解如何利用
分布式领域后端服务的限流算法实现大厂资深架构师 Spring Boot 开发实战分布式算法 wpf ai
分布式领域后端服务的限流算法实现关键词：分布式系统、限流算法、令牌桶、漏桶、滑动窗口、Redis、高并发摘要：本文深入探讨分布式系统中后端服务的限流算法实现。我们将从基础概念出发，详细分析各种限流算法的原理和适用场景，包括计数器算法、滑动窗口算法、令牌桶算法和漏桶算法。文章将提供Python实现代码和数学建模，并通过实际案例展示如何在分布式环境中使用Redis实现高效的限流机制。最后，我们将讨论限
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
深度学习数据集加载 Ethan@LM 深度学习人工智能
数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，