智安科技*

SwinTransformer细节及代码实现（pytorch版本）

paper: https://arxiv.org/abs/2103.14030
原版code: https://github.com/microsoft/Swin-Transformer

作者分析表明，Transformer从NLP迁移到CV上没有大放异彩主要有两点原因：

两个领域涉及的scale不同，NLP的scale是标准固定的，而CV的scale变化范围非常大。
CV比起NLP需要更大的分辨率，而且CV中使用Transformer的计算复杂度是图像尺度的平方，这会导致计算量过于庞大。为了解决这两个问题，Swin Transformer相比之前的ViT做了两个改进：1.引入CNN中常用的层次化构建方式构建层次化Transformer 2.引入locality思想，对无重合的window区域内进行self-attention计算。

一、文章简介

如图1（a）所示，Swin Transformer通过从小尺寸的patches（以灰色框）开始，并逐渐将相邻patches合并到更深的Transformer层中来构建层次表示。有了这些分层特征映射，Swin Transformer模型可以方便地利用高级技术进行密集预测，如特征金字塔网络（FPN）或U-Net。线性计算复杂性是通过在分割图像的非重叠窗口（用红色标出）内局部计算自我注意来实现的。每个窗口中的patches数是固定的，因此复杂性与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干，这与以前基于Transformer的体系结构]不同，后者生成单一分辨率的特征图，并且具有二次复杂性。
Swin Transformer的一个关键设计元素是在连续的自注意力层之间切换窗口分区，如下图所示。移动的窗口桥接了前一层的窗口，提供了它们之间的连接，显著增强了建模能力。这种策略对于真实世界的延迟也是有效的：一个窗口中的所有query patches都共享相同的 key set，这有助于硬件中的内存访问。相比之下，早期基于滑动窗口的自注意力在通用硬件上的延迟较低，因为不同query像素的key sets不同。移位窗口方法的延迟比滑动窗口方法低得多，但建模能力相似。事实证明，移位窗口方法也适用于所有MLP体系结构。

在所提出的Swin Transformer架构中，上图一个用于计算自注意力的移位窗口方法的示例。在l层（左），采用规则的窗口划分方案，并在每个窗口内计算自注意力。在下一层l+1（右）中，窗口分区被移动，从而产生新的窗口。新窗口中的自我注意计算跨越了层l中以前窗口的边界，提供了它们之间的连接。

二、整体实现

Transformer体系结构的概述，它展示了微型版本（SwinT）。它首先通过patch splitting module（如ViT）将输入的RGB图像分割为非重叠 patch。每个 patch被视为一个“token”，其特征被设置为原始像素RGB值之间的串联。在我们的实现中，我们使用4×4的patch大小，因此每个patch的特征维数为4×4×3=48。在该原始值特征上应用线性嵌入层，将其投影到任意维度（表示为C）,patch块的数量为H/4 x W/4。

class PatchEmbed(nn.Module):
    r""" patch splitting 

    Args:
        img_size (int): 输入图片的尺寸
        patch_size (int): Patch token的尺度. Default: 4.
        in_chans (int): 输入通道的数量
        embed_dim (int): 线性投影后输出的维度
        norm_layer (nn.Module, optional): 这可以进行设置，在本层中设置为了None
    """

    def __init__(self, img_size=224, patch_size=4, in_chans=512, embed_dim=96, norm_layer=None):
        super().__init__()
        # 先将img_size、patch_size转化为元组模式(224 , 224) 、 (4 , 4)
        img_size = to_2tuple(img_size) 
        patch_size = to_2tuple(patch_size)
        # 计算出 Patch token在长宽方向上的数量
        patches_resolution = [img_size[0] // patch_size[0], img_size[1] // patch_size[1]]
        self.img_size = img_size
        self.patch_size = patch_size
        self.patches_resolution = patches_resolution
        # 计算出patch的数量利用Patch token在长宽方向上的数量相乘的结果
        self.num_patches = patches_resolution[0] * patches_resolution[1]
        self.in_chans = in_chans
        self.embed_dim = embed_dim

        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
        # 判断是否使用norm_layer，在这里我们没有应用
        if norm_layer is not None:
            self.norm = norm_layer(embed_dim)
        else:
            self.norm = None

    def forward(self, x):
    	# 解析输入的维度
        B, C, H, W = x.shape
        # 判断图像是否与设定图像一致，如果不一致会报错
        assert H == self.img_size[0] and W == self.img_size[1], \
            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."
        # 经过一个卷积层来进行一个线性变换，并且在第二个维度上进行一个压平操作，维度为(B, C, Ph*Pw),后在进行一个维与二维的一个转置，维度为：(B Ph*Pw C)
        x = self.proj(x).flatten(2).transpose(1, 2)  
        if self.norm is not None:
            x = self.norm(x)
        return x

在这些patch tokens上应用了几个Swin Transformer blocks的bolck。Transformer blocks 与patch tokens数量（h/4×w/4）一致，与线性嵌入一起被称为“阶段1”。

为了产生分层表示，随着网络的深入，通过patch合并层来减少patch tokens的数量。第一个patch合并层连接每个2×2相邻patch的特征（如下图红色框内的patch将合并成一组），并在4C维连接的特征上应用线性层。这将patch tokens的数量减少了2×2=4的倍数（分辨率的2×降采样），并且输出维度设置为2C。

lass PatchMerging(nn.Module):
    r""" Patch合并.

    Args:
        input_resolution (tuple[int]): 输入特征的分辨率.
        dim (int): 输入通道的数量
        norm_layer (nn.Module, optional): 定义Normalization layer.  Default: nn.LayerNorm
    """

    def __init__(self, input_resolution, dim, norm_layer=nn.LayerNorm):
        super().__init__()
        self.input_resolution = input_resolution
        self.dim = dim
        # 通过一个线性层将4C降为2C
        self.reduction = nn.Linear(4 * dim, 2 * dim, bias=False)
        self.norm = norm_layer(4 * dim)

    def forward(self, x):
        """
        x: B, H*W, C
        """
        # 解析输入图像的分辨率，即输入图像的长宽
        H, W = self.input_resolution
        # 解析输入图像的维度
        B, L, C = x.shape
        # 判断L是否与H * W一致，如不一致会报错
        assert L == H * W, "input feature has wrong size"
        # 判断输入图像的长宽是否可以被二整除，因为我们是通过2倍来进行下采样的
        assert H % 2 == 0 and W % 2 == 0, f"x size ({H}*{W}) are not even."
		# 将xreshape为维度：(B, H, W, C)
        x = x.view(B, H, W, C)
		# 切片操作，通过切片操作将将相邻的2*2的patch进行拼接
        x0 = x[:, 0::2, 0::2, :]  # B H/2 W/2 C
        x1 = x[:, 1::2, 0::2, :]  # B H/2 W/2 C
        x2 = x[:, 0::2, 1::2, :]  # B H/2 W/2 C
        x3 = x[:, 1::2, 1::2, :]  # B H/2 W/2 C
        # 将合并好的patch通过c维进行拼接
        x = torch.cat([x0, x1, x2, x3], -1)  # B H/2 W/2 4*C
        # 将x的维度重置为B H/2*W/2 4*C
        x = x.view(B, -1, 4 * C)  # B H/2*W/2 4*C
		
        x = self.norm(x)
        # 通过一个线性层进通道降维
        x = self.reduction(x)

        return x

然后应用Swin Transformer blocks进行特征变换，分辨率保持在h/8×w/8。第一个patch merging和特征转换块被称为“阶段2”。该过程重复两次，分别为“阶段3”和“阶段4”，输出分辨率分别为H/16×W/16和H/32×W/32。这些阶段共同产生了一种阶段的表示。一种具有与典型卷积网络相同的特征图分辨率，例如VGG和ResNe。因此，所提出的体系结构可以方便地替代现有方法中用于各种视觉任务的主干网络。
下面先实现一下下图中的代码：

class SwinTransformerBlock(nn.Module):
    r""" Swin Transformer Block.

    Args:
        dim (int): 输入维度的数量
        input_resolution (tuple[int]): 输入图像的分辨率
        num_heads (int): 应用注意力头的数量
        window_size (int): 窗口的尺寸
        shift_size (int): SW-MSA的循环位移的大小，默认为零
        mlp_ratio (float): mlp的隐层的比例,默认为零
        qkv_bias (bool, optional): 是否应用位移偏量，具体实现在下文
        qk_scale (float | None, optional): 如果设置，默认qk覆盖head_dim ** -0.5。
        drop (float, optional): Dropout比例，防止过拟合的操作，默认为零
        attn_drop (float, optional): AttentionDropout比例，默认为零
        drop_path (float, optional): 随机深度比率，默认为0.0
        act_layer (nn.Module, optional): 激活函数层，默认为GELU
        norm_layer (nn.Module, optional): Normalization层， 默认为 nn.LayerNorm
    """

    def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0,
                 mlp_ratio=4., qkv_bias=True, qk_scale=None, drop=0., attn_drop=0., drop_path=0.,
                 act_layer=GELU, norm_layer=nn.LayerNorm):
        super().__init__()
        self.dim = dim
        self.input_resolution = input_resolution
        self.num_heads = num_heads
        self.window_size = window_size
        self.shift_size = shift_size
        self.mlp_ratio = mlp_ratio
        if min(self.input_resolution) <= self.window_size:
            # 如果Windows大小大于输入分辨率，则不分区Windows
            self.shift_size = 0
            self.window_size = min(self.input_resolution)
        # 如果Windows大小不符合指定的数值，则报错
        assert 0 <= self.shift_size < self.window_size, 

        self.norm1 = norm_layer(dim)
        # 窗口注意力，在接下来进行详细说明
        self.attn = WindowAttention_acmix(
                dim, window_size=to_2tuple(self.window_size), num_heads=num_heads,
                qkv_bias=qkv_bias, qk_scale=qk_scale, attn_drop=attn_drop, proj_drop=drop)

        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = int(dim * mlp_ratio)
        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)

        if self.shift_size > 0:
            # 判断是否使用窗口移位，如果使用窗口移位，会使用mask windows，会在下文中进行分开讲解
            H, W = self.input_resolution
            img_mask = torch.zeros((1, H, W, 1))
            h_slices = (slice(0, -self.window_size),
                        slice(-self.window_size, -self.shift_size),
                        slice(-self.shift_size, None))
            w_slices = (slice(0, -self.window_size),
                        slice(-self.window_size, -self.shift_size),
                        slice(-self.shift_size, None))
            cnt = 0
            for h in h_slices:
                for w in w_slices:
                    img_mask[:, h, w, :] = cnt
                    cnt += 1

            mask_windows = window_partition(img_mask, self.window_size)  
            mask_windows = mask_windows.view(-1, self.window_size * self.window_size)
            attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
            attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))
        else:
            attn_mask = None
		# 向模块添加一个attn_mask的持久缓冲区
        self.register_buffer("attn_mask", attn_mask)

    def forward(self, x):
    	#解析输入图像的分辨率
        H, W = self.input_resolution
        # 解析输入的维度
        B, L, C = x.shape
        # 判断L和H * W是否一致
        assert L == H * W, "input feature has wrong size"
		# 进行原始的身份映射
        shortcut = x
        # 首先经过以一个LN层
        x = self.norm1(x)
        # 将维度重置为(B, H, W, C)
        x = x.view(B, H, W, C)

        # 判断是否进行循环移位
        if self.shift_size > 0:
            shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
        else:
            shifted_x = x

        shifted_x = self.attn(shifted_x, H, W, mask=self.attn_mask)

        # 循环移位进行恢复
        if self.shift_size > 0:
            x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
        else:
            x = shifted_x
        x = x.view(B, H * W, C)

        # FFN
        x = shortcut + self.drop_path(x)
        x = x + self.drop_path(self.mlp(self.norm2(x)))

        return x

Swin Transformer是通过将Transformer块中的标准多头自注意力（MSA）模块替换为基于移动窗口的模块构建的，其他层保持不变。如下图所示，Swin Transformer block由一个基于移位窗口的MSA模块组成，然后是一个中间带有GELU非线性的两层MLP。在每个MSA模块和每个MLP之前应用LayerNorm（LN）层，在每个模块之后应用残差连接。

标准Transformer架构及其对图像分类的适应都会进行全局自注意力，其中会计算patch tokens和所有其他patch tokens之间的关系。全局计算导致patch tokens数量的二次复杂性，这使得它不适用于许多需要大量patch tokens进行密集预测或表示高分辨率图像的视觉问题。

上图中红色区域是window，灰色区域是patch。W-MSA将输入图片划分成不重合的windows，然后在不同的window内进行self-attention计算。假设一个图片有hxw的patches，每个window包含MxM个patches，那么MSA和W-MSA的计算复杂度分别为：

由于window的patch数量远小于图片patch数量，W-MSA的计算复杂度和图像尺寸呈线性关系。
基于窗口的自我关注模块缺乏跨窗口连接，这限制了其建模能力。为了在保持非重叠窗口高效计算的同时引入跨窗口连接，作者提出了一种移位窗口划分方法，该方法在连续的Swin
Transformer blocks中交替使用两种划分配置。

如上图所示，第一个模块使用从左上角像素开始的常规窗口分割策略，将8×8特征图均匀地分割为大小为4×4（M=4）的2×2窗口。然后，下一个模块通过将窗口从规则分区的窗口置换（m/2，m/2）像素，采用与前一层的窗口配置不同的窗口配置。使用移位窗口划分方法，连续的Swin Transformer blocks计算如下：

W-MSA和SW-MSA分别表示使用规则和移位窗口分区配置的基于窗口的多头自注意力。

位移窗口如上：
移位窗口分区的一个问题是，它将导致更多窗口，在移位配置中从 $\lceil{h/m}\rceil * \lceil{w/m}\rceil$ 到 $(\lceil{h/m}\rceil+1) * (\lceil{w/m}\rceil+1)$ ，并且一些窗口将小于M×M。一个简单的解决方案是将较小的窗口填充到M×M的大小，并在计算注意力时屏蔽填充值。当常规分区中的窗口数很小时（例如2×2），使用这种原始解决方案增加的计算量相当大（2×2）→ 3×3，即2.25倍大）。在这里，作者提出了一种更有效的批量计算方法，方法是向左上方向循环移位。在这个移位之后，一个批处理窗口可能由几个在特征图中不相邻的子窗口组成，因此使用掩蔽机制将自我注意计算限制在每个子窗口内。通过循环移位，批处理窗口的数量与常规窗口分区的数量相同，因此也是有效的。
在计算自注意力时，计算每个头部的相对位置偏差 $B∈R^{M^2 * M^2 }$ 相似性时：

其中 $Q，K，V∈ R^{M^2×d}$ 是查询、键和值query, key and value矩阵；d是query/key 维度， $M^2$ 是窗口中的patches。因为每个轴的相对位置都在这个范围内[−M+1，M− 1] ，作者将一个较小的偏差矩阵参数化 $\hat{B}∈ R^{(2M−1) ×(2M−1)}$ ，B中的值取自 $\hat{B}$ 。
如下所示，与没有这个偏差项或使用绝对位置嵌入的对应项相比，有显著的改进。因此实现中不采用绝对位置嵌入。预训练中学习到的相对位置偏差也可用于初始化模型，以便通过双三次插值以不同的窗口大小进行微调。
对于滑动窗口，如下所示：

其中的SW-MSA代码如下：
一下代码以input_resolution为（7， 7），window_size为（4， 4），shift_size为（1， 1）

# 指定window大小，重新划分window
def window_partition(x, window_size: int):
    # 将feature map(image mask) 按照 window_size的大小 划分成一个个没有重叠的window
    B, H, W, C = x.shape
    # [B, H//M, MH, W//M, MW, C] MH: 为窗口H MW:为窗口W
    x = x.view(B, H // window_size, window_size, W // window_size, window_size, C)
    # permute: [B, H//M, MH, W//M, MW, C] -> [B, H//M, W//M, MH, MW, C]
    # contiguous(): 变为内存连续的数据
    # view： [B, H//M, W//M, M, M, C] -> [B * window_num, MH, MW, C] 
    windows = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
	# 最后会返回一个带有窗口数量以及窗口长宽的一个张量
    return windows

if self.shift_size > 0:
            # 判断是否使用SW-MSA，如果使用窗口移位，会使用mask windows
            # 解析输入图像的分辨率
            H, W = self.input_resolution
            img_mask = torch.zeros((1, H, W, 1))  # 1 H W 1
            # 其中的切片操作划分后的结构如上图，切出每个窗口中分别具有相似元素的位置
            h_slices = (slice(0, -self.window_size),
                        slice(-self.window_size, -self.shift_size),
                        slice(-self.shift_size, None))
            w_slices = (slice(0, -self.window_size),
                        slice(-self.window_size, -self.shift_size),
                        slice(-self.shift_size, None))
            # 开始切片，并且将相同的位置附上相同的数值            
            cnt = 0
            for h in h_slices:
                for w in w_slices:
                    img_mask[:, h, w, :] = cnt
                    cnt += 1
			 # nW, window_size, window_size, 1
            mask_windows = window_partition(img_mask, self.window_size) 
            # [B * window_num * C, MH*MW]
            mask_windows = mask_windows.view(-1, self.window_size * self.window_size)
        	#  mask_windows.unsqueeze(1) 将每个窗口的行向量复制MH*MW次 
        	#  mask_windows.unsqueeze(2) 将每个窗口的行向量中每个元素 复制MH*MW次             
            attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
            # 同一区域为0 不同区域为非0数。 得到当前窗口中对应某一个像素 所采用的attention mask。
            attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))

if self.shift_size > 0.:
		   # SW-MSA 从上往下 从左往右
		   # 上面的shift size移动到下面 左边移动右边
		   shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2)) 
		else:
		   # W-MSA
		   shifted_x = x
		   attn_mask = None

经过一个重新的拼接之后就变成了如下图：图中虚线框为最后的效果

移动相关的位置之后就需要进行WindowAttention了
下图为下列代码中一些接口的演示

# 
class WindowAttention(nn.Module):
 r""" 基于相对位置偏差的窗口多头自注意(W-MSA)模块。
		它同时支持W-MSA和SW-MSA

    Args:
        dim (int): 输入通道的数量
        window_size (tuple[int]): window的长和宽.
        num_heads (int): attention heads的数量.
        qkv_bias (bool, optional): 如果为True，则向query, key, value添加一个可学习的偏差。默认值: True
        qk_scale (float | None, optional): 如果设置，覆盖head_dim ** -0.5的默认qk值
        attn_drop (float, optional): attention weight丢弃率，默认: 0.0
        proj_drop (float, optional): output的丢弃率. 默认:: 0.0
    """
    # 实现W-MSA SW-MSA
    def __init__(self, dim, window_size, num_heads, qkv_bias=True, qk_scale=None, attn_drop=0., proj_drop=0.):
        super(WindowAttention, self).__init__()

        self.dim = dim
        self.window_size = window_size ## Mh, Mw
        self.num_heads = num_heads
        head_dim = dim // num_heads
        self.scale = qk_scale or head_dim ** -0.5
		# 定义相对位置偏差的参数表 (2*Mh-1 * 2*Mw-1, nH)
        self.relative_positive_bias_table = nn.Parameter(
            torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads) 
        ))
        # 获取窗口内每个token的成对相对位置索引
        # 第一行为feature map中每一个像素对应的行标（x）
        # 第二行为feature map中每一个像素对应的列标（y）
        coords_h = torch.arange(self.window_size[0])
        coords_w = torch.arange(self.window_size[1])
        # 拼接成横纵坐标
        coords = torch.stack(torch.meshgrid([coords_h, coords_w])) # [2, Mh, Mw]
		# 沿着Mh这一维度进行展平
        coords_flatten = torch.flatten(coords, 1) # [2, Mh*Mw] 绝对位置索引
        # [2, Mh*Mw, 1] - [2, 1, Mh*Mw]
        # [2, Mh*Mw, Mh*Mw] 得到相对位置索引的矩阵。 以每一个像素作为参考点 - 当前feature map/window当中所有的像素点绝对位置索引 = 得到相对位置索引的矩阵
        # coords_flatten[:, :, None] 按w维度 每一行的元素复制
        # coords_flatten[:, None, :] 按h维度 每一行元素整体复制
        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]
        # permute： 将窗口中按每个像素求得的相对位置索引 组成矩阵
        relative_coords = relative_coords.permute(1, 2, 0).contiguous() # [Mh, Mw, 2]
        # 二元索引->一元索引
        relative_coords[:, :, 0] += self.window_size[0] - 1
        relative_coords[:, :, 1] += self.window_size[1] - 1
        relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
        relative_position_index = relative_coords.sum(-1) # [Mh*Mw, Mh*Mw]
        # 放到模型缓存中
        self.register_buffer('relative_position_index', relative_position_index)

        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
        self.attn_drop = nn.Dropout(attn_drop)
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

        nn.init.trunc_normal_(self.relative_positive_bias_table, std=.02)
        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x, mask: Optional[torch.Tensor] = None):
        # 解析输入维度[batch_size * num_windows, Mh*Mw, total_embed_dim]
        B_, N, C = x.shape
        # qkv: -> [batch_size * num_windows, Mh*Mw, 3 * total_embed_dim]
        # reshape: -> [batch_size * num_windows, Mh*Mw, 3, num_heads, embed_dim_per_head]
        # permute: -> [3, batch_size * num_windows, num_heads, Mh*Mw, embed_dim_per_head]
        qkv = self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
        # [batch_size * num_windows, num_heads, Mh*Mw, embed_dim_per_head]
        q, k, v = qkv.unbind(0)

        q = q * self.scale
        # transpose: -> [batch_size * num_windows, num_heads,embed_dim_per_head, Mh*Mw]
        # @: multiply: -> [batch_size * num_windows, num_heads, Mh*Mw, Mh*Mw]
        attn = (q @ k.transpose(-2, -1))
        # self.relative_positive_bias_table.view: -> [Mh*Mw*Mh*Mw, num_head] -> [Mh*Mw, Mh*Mw, num_head]
        relative_position_bias = self.relative_positive_bias_table[self.relative_position_index.view(-1)].view(
            self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)
        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous() # [num_head, Mh*Mw, Mh*Mw]
        # [batch_size * num_windows, num_heads, Mh * Mw, Mh * Mw]
        attn = attn + relative_position_bias.unsqueeze(0)

        if mask is not None:
            # mask: [num_windows, Mh*Mw, Mh*Mw]
            num_window = mask.shape[0]
            # view: [batch_size, num_windows, num_heads, Mh * Mw, Mh * Mw]
            # mask: [1, num_windows, 1, Mh*Mw, Mh*Mw]
            attn = attn.view(B_ // num_window, num_window, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0)
            # [batch_size*num_windows, num_heads, Mh * Mw, Mh * Mw]
            attn = attn.view(-1, self.num_heads, N, N)
            attn = self.softmax(attn)
        else:
            attn = self.softmax(attn)

        attn = self.attn_drop(attn)
        # @: [batch_size*num_windows, num_heads, Mh * Mw, embed_dim_per_head]
        # transpose: [batch_size*num_windows, Mh * Mw, num_heads, embed_dim_per_head]
        # reshape: [num_windows, Mh * Mw, num_heads*embed_dim_per_head]
        x = (attn @ v).transpose(1, 2).reshape(B_, N, C)
        x = self.proj(x)
        x = self.proj_drop(x)

        return x

整体代码如下：

class SwimTransformerBlock(nn.Module):
    def __init__(self, dim, num_heads, window_size=7, shift_size=0., mlp_ratio=4., qkv_bias=True, drop=0., attn_drop=0., drop_path=0., act_layer=nn.GELU, norm_layer=nn.LayerNorm):
        super(SwimTransformerBlock, self).__init__()
        self.dim = dim
        self.num_heads = num_heads
        self.window_size = window_size
        self.shift_size = shift_size
        self.mlp_ratio = mlp_ratio

        self.norm1 = norm_layer(dim)
        self.attn = WindowAttention(
            dim=dim, window_size=(self.window_size, self.window_size), num_heads=num_heads,
            qkv_bias=qkv_bias, attn_drop=attn_drop, proj_drop=drop
        )
        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = (int(dim * mlp_ratio))
        self.mlp = MLP(in_features=dim, hidden_features=mlp_hidden_dim, act=act_layer, drop=drop)

    def forward(self, x, attn_mask):
        H, W = self.H, self.W # feature map H W
        B, L, C = x.shape # L = H * W

        shortcut = x
        x = self.norm1(x)
        x = x.view(B, H, W, C)

        x_r = (self.window_size - W % self.window_size) % self.window_size
        x_d = (self.window_size - H % self.window_size) % self.window_size
        x = F.pad(x, (0, 0, 0, x_r, 0, x_d))
        _, Hp, Wp, _ = x.shape # Hp Wp代表padding后的H W

        if self.shift_size > 0.:
            # SW-MSA 从上往下 从左往右
            shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2)) # 上面的shift size移动到下面 左边移动右边
        else:
            # W-MSA
            shifted_x = x
            attn_mask = None

        # 特征图切成小窗口
        x_windows = window_partition(shifted_x, self.window_size) # [B * window_num, MH, MW, C]
        x_windows = x_windows.view(-1, self.window_size * self.window_size, C) # [B * window_num, MH*MW, C]

        # W-MSA SW-MSA
        attn_windows = self.attn(x_windows, mask=attn_mask)

        # 小窗口合并成特征图
        attn_windows = attn_windows.view(-1, self.window_size, self.window_size, C) # [B * window_num, MH, MW, C]
        shifted_x = window_reverse(attn_windows, self.window_size, Hp, Wp) # [B, H, W, C]
        # SW-MSA后还原数据 从下往上 从右往左
        if self.shift_size > 0:
            x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
        else:
            x = shifted_x
        # 移除padding
        if x_r > 0 or x_d > 0:
            x = x[:, :H, :W, :].contiguous()

        x = x.view(B, H * W, C)

        x = shortcut + self.drop_path(x)
        x = x + self.drop_path(self.mlp(self.norm2(x)))

        return x

实验结果

【Python】车牌自动识别幽兰的天空 Python python opencv
实现车牌自动识别（LicensePlateRecognition,LPR）是计算机视觉和深度学习领域中的一个常见任务。用Python和OpenCV，结合其他深度学习库，可以建立一个简单的车牌识别系统。以下是一个基于这两者的基本实现思路和示例代码。实现步骤环境准备：安装必要的库：bashpipinstallopencv-pythonopencv-python-headlessnumpypillowp
Python和OpenCV实现车牌识别的毕业设计案例媛源啊
本文还有配套的精品资源，点击获取简介：本项目通过Python和OpenCV库，实现了一个实用的车牌识别系统，包含图像捕获、预处理、车牌定位、车牌分割和字符识别等步骤。系统提供了一键运行的完整代码，使学生能够快速掌握计算机视觉和深度学习应用。遇到的挑战和解决方案也进行了讨论，比如光照变化、车牌角度不一致和污损的处理，以及数据增强技术和模型参数优化。1.车牌识别系统的基本理论和应用1.1车牌识别的背景
PyTorch实战：从零开始构建CIFAR-10图像分类模型 (附详细代码与图解) 电脑能手 pytorch 分类人工智能深度学习 python
PyTorch实战：从零开始构建CIFAR-10图像分类模型(附详细代码与图解)大家好！今天，我们将一起踏上一段激动人心的深度学习之旅：使用强大的PyTorch框架，从零开始构建一个卷积神经网络（CNN），来解决经典的CIFAR-10图像分类问题。无论你是深度学习的新手，还是希望巩固PyTorch基础知识的开发者，本文都将为你提供一个清晰、详尽的实战指南。本文目标读完本文，你将学会：加载和预处理C
Day44
1.预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer、多模态4.预训练策略：数据增强、自监督/监督训练、模型微调、多模态学习作业1.importtorchimporttorch.nnasnnimporttorch.optima
当AI邂逅新能源：Java如何重构能源未来
当AI邂逅新能源：Java如何重构能源未来在阿联酋阿布扎比的沙漠深处，一座由AI驱动的“全景式数字指挥中心”正实时监控着2000公里外的海上油田。通过深度学习算法预测设备故障、优化钻井路径，这座由阿布扎比国家石油公司打造的智能中枢，每年减少100万吨碳排放，创造价值5亿美元。而在中国南方，全球首个大规模抽水蓄能AI数据分析平台，正让百年历史的电站群焕发新生——7座电站、34台机组实现90%人工巡检
顶会新方向！14篇图神经网络（GNN）最新顶会论文汇总！（含2024） AI科研技术派神经网络人工智能深度学习
图神经网络（GNN）是深度学习领域中备受关注的前沿课题，它在处理图结构数据方面展现出了强大的潜力，随着研究的不断深入，越来越多的优秀论文在顶级学术会议上涌现。今天就给大家整理了14篇顶会中发表的图神经网络优质论文，一起看看这方面的最新研究成果吧！AAAI20241、Fine-tuningGraphNeuralNetworksbyPreservingGraphGenerativePatterns通过
OpenCV图像边缘检测慕婉0307 opencv基础 opencv 人工智能计算机视觉
一、边缘检测基础概念边缘检测是图像处理中最基本也是最重要的操作之一，它能识别图像中亮度或颜色急剧变化的区域，这些区域通常对应物体的边界。OpenCV提供了多种边缘检测方法，从传统的算子到基于深度学习的现代方法。1.1为什么需要边缘检测？数据降维：将图像转换为边缘表示可大幅减少数据量特征提取：边缘是图像最重要的视觉特征之一预处理步骤：为物体识别、图像分割等高级任务做准备噪声抑制：某些边缘检测方法具有
【PyTorch】PyTorch中张量(Tensor)微分操作咸鱼鲸 PyTorch pytorch 人工智能 python
PyTorch深度学习总结第六章PyTorch中张量(Tensor)微分操作文章目录PyTorch深度学习总结前言一、torch.autograd模块二、主要功能和使用方法1.张量的requires_grad属性2.backward()方法3.torch.no_grad()上下文管理器三、函数总结前言上文介绍了PyTorch中张量(Tensor)的计算操作，本文将介绍张量的微分(torch.aut
机器学习-三大SOTA Boosting算法总结和调优小新学习屋机器学习机器学习 boosting 集成学习决策树人工智能
参考书籍：《机器学习公式推导和代码实现》书籍页码：P197～205简介除了深度学习适用的文本、图像、语音、视频等非结构化数据，对于训练样本较少的结构化数据，Boosting算法仍是第一选择。XGBoost、LightGBM、CatBoost是目前经典的SOTABoosting算法算法对比维度XGBoostLightGBMCatBoos说明算法的继承性是对GBDT的改进是对XGBoost的改进是对X
Qwen3 Embedding 结构-加载-训练看透模型设计哲学
看透一个顶级AI句向量模型的设计秘密，从文件结构到加载原理，再到其背后的训练哲学。1Qwen3-Embedding模型结构拆解说明：目录包含了运行一个基于Transformer的句向量模型所需的所有组件文件类别核心文件作用核心模型model.safetensors,config.jsonmodel.safetensors存储了模型所有训练好的权重分词器tokenizer.json,vocab.js
人脸识别接口&sdk，两张人脸相似度比对
人工智能时代，人脸识别技术正在被广泛应用于金融支付、安防监控、身份验证等多个领域，基于深度学习算法于海量样本训练，人脸识别接口以高精度、低延迟的特性出现在大众视野，成为开发者和企业用户集成人脸识别功能的首要选择之一。人脸识别接口技术服务原理：格式转换：支持BMP、JPG、PNG、TIF等多种常见图像格式；尺寸调整与压缩：建议图像大小控制在200KB左右，确保传输效率与识别质量；图像增强：自动旋转、
为什么 Python 是 AI 的首选语言？
文章目录一、简洁优雅，易于上手二、丰富的库和框架1.数据处理与分析2.数据可视化3.机器学习与深度学习框架三、强大的社区支持四、跨平台性和可移植性五、与其他语言的互操作性文章配套代码已上传，点击查看：https://download.csdn.net/download/2501_92578370/91180848在人工智能（AI）技术飞速发展的今天，编程语言的选择对AI开发者来说至关重要。当你翻开
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
Llama改进之——分组查询注意力愤怒的可乐 #NLP项目实战自然语言处理 llama 深度学习人工智能分组查询注意力旋转位置编码
引言今天介绍LLAMA2模型引入的关于注意力的改进——分组查询注意力(Grouped-queryattention,GQA)1。Transformer中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头，同时不减少query头来提升性能。多查询注意力可能导致质量下降和训练不稳定，因此常用的是分组查询注意力。然后我们结合上篇文章3探讨的旋转位置编码，将选择位置编
Llama改进之——均方根层归一化RMSNorm 愤怒的可乐 NLP项目实战 #llama
引言在学习完GPT2之后，从本文开始进入Llama模型系列。本文介绍Llama模型的改进之RMSNorm(均方根层归一化)。它是由RootMeanSquareLayerNormalization论文提出来的，可以参阅其论文笔记1。LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算
强人工智能是否会诞生于现在的AI之中一花·一叶人工智能语言模型
为什么我认为当前AI方法无法实现真正的人工智能？随着大模型的发展日新月异，越来越多的人开始相信我们正在接近通用人工智能（AGI）。然而，作为一名人工智能领域的算法工程师，我反而越来越确信：现有的技术路径——以Transformer为核心的深度神经网络，可能已经达到了它的能力上限。我们或许正站在一个新时代的门槛上：真正的强人工智能将不会诞生于现有的范式中，而需要一条全新的算法路径。Transform
从零实现Llama3：深入解析Transformer架构与实现细节祁婉菲Flora
从零实现Llama3：深入解析Transformer架构与实现细节llama3-from-scratchllama3一次实现一个矩阵乘法。项目地址:https://gitcode.com/gh_mirrors/ll/llama3-from-scratch引言本文将深入探讨如何从零开始实现Llama3语言模型。我们将从最基本的张量操作开始，逐步构建完整的Transformer架构。通过这个过程，读者
解密GPT工作原理：Transformer架构详解与自注意力机制剖析 AI智能应用 gpt transformer 架构 ai
解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构——Transformer，重点剖析其革命性的自注意力机制。我们将从基本概念出发，通过生活化的比喻解释复杂的技术原理，并用Python代码示例展示实现细节，最后探讨这一技术的应用场景和未来发展方
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式墨顿 transformer 架构深度学习
HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。这一理论框架试图解决当前深度学习模型在效率、动态系统建模和长期依赖处理等方面的核心挑战。本文将系统梳理HamiltonianTransformer的理论基础、关键创新点、实现方法以及应用前景，并分析其相对于传统Transformer架构的优势与潜在限制。哈密顿力学与T
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践大模型之路 RAG rag
一、引言：混合RAG技术的发展与挑战在人工智能领域，检索增强生成（RAG）技术正成为构建智能问答系统的核心方案。传统RAG通过向量数据库存储文档嵌入并检索相关内容，结合大语言模型（LLM）生成回答，有效缓解了LLM的“幻觉”问题。然而，单一的稠密向量检索（如基于Transformer的嵌入模型）在处理关键词匹配和多义词歧义时存在局限性，而稀疏向量检索（如BM25）虽擅长精确关键词匹配，却缺乏语义理
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
解释LLM怎么预测下一个词语的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型 python 深度学习人工智能机器学习
解释LLM怎么预测下一个词语的通过上文词的向量进行映射在Transformer架构的大语言模型（如GPT系列、BERT等）中，词语会先被转化为词向量。在预测下一个词时，模型会基于之前所有词的向量表示（并非仅仅上一个词，但上一个词的向量是重要信息来源之一）进行计算。以GPT-2为例，在生成文本时，它会将输入文本中每个词对应的词向量依次输入到模型的多层Transformer编码器-解码器结构中。每一层
【深度学习-Day 33】从零到一：亲手构建你的第一个卷积神经网络（CNN）吴师兄大模型深度学习入门到精通深度学习 cnn 人工智能 python 大模型卷积神经网络（CNN）机器学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

SwinTransformer细节及代码实现（pytorch版本）

一、文章简介

二、整体实现

实验结果

你可能感兴趣的:(Transformer,深度学习)