m0_61899108

【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer

Head-Free Lightweight Semantic Segmentation with Linear Transformer, AAAI2023

解读：阿里团队新作 | AFFormer：利用图像频率信息构建轻量化Transformer语义分割架构 (qq.com)

论文：https://arxiv.org/abs/2301.04648

代码：GitHub - dongbo811/AFFormer

导读

本文提出了一种名为Adaptive Frequency Transformer（AFFormer）的语义分割架构。AFFormer采用并行架构来利用原型表示（prototype representations）作为特定可学习的局部描述，其取代了解码器并在高分辨率特征上保留丰富的图像语义。 虽然删除了解码器能够压缩大部分的推理计算，但并行架构的精度仍受到低计算资源的限制。因此，采用异构运算符（CNN和Vision Transformer）进行像素嵌入（pixel embedding）和原型表示，以进一步节省计算成本。此外，从空间域的角度线性化Vision Transformer的复杂度非常困难。由于语义分割对频率信息非常敏感，论文构建了一个轻量级原型学习块，其具有复杂度O（n）的自适应频率滤波器，以替换标准自注意力的O（n^2）复杂度。

在广泛使用的数据集上进行的大量实验表明，AFFormer在保持3M参数的同时实现了优异的精度。在ADE20K数据集上，AFFormer达到41.8 mIoU和4.6 GFLOPs，比Segformer高4.4 mIoU，GFLOPs减少45％。在Cityscapes数据集上，AFFormer达到78.7 mIoU和34.4 GFLOPs，比Segformer高2.5 mIoU，GFLOPs减少72.5％。

引言

【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer_第1张图片

AFFormer achieves better accuracy on ADE20K and Cityscapes datasets with significantly lower FLOPs

语义分割是将图像划分为子区域（像素集合）的任务，有两个独特的特点：像素级稠密预测和多类表示，需要图像语义的全局归纳能力。以前的语义分割方法主要关注使用分类网络作为骨干来提取多尺度特征，并设计复杂的解码器头来建立多尺度特征之间的关系。然而，需要以巨大参数量和高计算成本为代价。这种固有的设计限制了其发展，阻碍了其应用。因此，论文提出了一个问题：语义分割是否像图像分类一样简单？

视觉Transformer（ViTs）很有潜力，但面临着平衡性能和内存使用的挑战。现有方法通过减少token数量或滑动窗口来缓解这种情况，但它们对计算复杂度的减少是有限的，甚至会妥协分割任务的全局或局部语义。同时，语义分割作为一个基础研究领域，具有广泛的应用场景，需要处理各种分辨率的图像。如上图所示，尽管高效Segformer相比PSPNet和DeepLabV3+取得了巨大突破，但仍面临着更高分辨率的巨大计算负担。论文提出了另一个问题：能否为超低计算场景设计高效灵活的Transformer网络用于语义分割？

本文提出了一种名为Adaptive Frequency Transformer(AFFormer)的轻量级语义分割架构。AFFormer采用了一种并行架构，利用原型表示作为特定的可学习局部描述来取代解码器，并在高分辨率特征上保留丰富的图像语义。此外，采用异构运算符来处理像素嵌入特征和局部描述特征，以节省更多的计算成本。基于Transformer的模块称为原型学习（PL）用于学习原型表示，而基于卷积的模块称为像素描述符（PD），将像素嵌入特征和学习的原型表示作为输入，将它们转换回全像素嵌入空间以保留高分辨率语义。

然而，从空间域的角度来线性化ViT的复杂度仍然非常困难。论文发现语义分割对频率信息也非常敏感。因此，构建了一个复杂度为O(n)的轻量级自适应频率滤波器，其作为原型学习来代替标准自注意力O(n^2)。该模块的核心由频率相似核，动态低通和高通滤波器组成，分别从强调重要频率分量和动态过滤频率的角度捕获对语义分割有益的频率信息。最后，通过在高频和低频提取和增强模块中共享权重来进一步减少计算成本。还在前馈网络（FFN）层中嵌入了一个简化的深度卷积层，以增强融合效果，减小两个矩阵变换的大小。

通过并行异构架构和自适应频率滤波器的帮助，仅使用一个卷积层作为分类层（CLS）用于单尺度特征，实现最佳性能，使语义分割和图像分类一样简单。我们在三个广泛使用的数据集上证明了AFFormer的优势：ADE20K，Cityscapes和COCO-stuff。仅使用3M个参数，AFFormer显着优于最先进的轻量级方法。

方法

自适应频率Transformer。首先展示了并行异构网络的总体结构。具体来说，首先对补丁嵌入后的特征F进行聚类，得到原型特征G，从而构建一个包括两个异构算子的并行网络结构。一个基于Transformer的模块作为原型学习，捕捉G中有利的频率分量，得到原型表示G'。最后，G'由基于CNN的像素描述符恢复，得到下一阶段的F'。

Parallel Heterogeneous Architecture

语义解码器将编码器获得的图像语义传播到每个像素，并恢复下采样中丢失的细节。提出了一种新策略，用原型语义描述像素语义信息。对于每个阶段，给定一个特征F ∈ R^ (H×W×C)，首先初始化一个网格G ∈ R^(h×w×C)作为图像的原型，其中G中的每个点都作为局部簇中心，初始状态仅包含周围区域的信息。这里使用1 × C向量来表示每个点的局部语义信息。对于每个具体的像素，由于周围像素的语义不一致，每个簇中心之间存在重叠语义。簇中心在其相应区域α^2中被加权初始化，并且每个簇中心的初始化表示为：

其中n=α×α，wi表示xi的权重，α设置为3。目的是更新网格G中的每个簇中心s，而不是直接更新特征F。由于h×w

这里使用基于Transformer的模块作为原型学习来更新每个聚类中心，其中总共包含L层，并更新的中心被称为G'(s)。对于每个更新的聚类中心，通过像素描述符恢复它。设F'i表示恢复的特征，它不仅包含来自F的丰富像素语义，而且还包含由聚类中心G'(s)收集的原型语义。 由于聚类中心聚合了周围像素的语义，导致局部细节的损失，PD首先用像素语义对F中的局部细节进行建模。具体来说，F被投影到低维空间，建立像素之间的局部关系，使每个局部块保持明显的边界。然后将G'(s)嵌入到F中，通过双线性插值恢复到原始空间特征F'。最后，它们通过线性投影层进行整合。

Prototype Learning by Adaptive Frequency Filter Motivation
The effect of different frequency components on semantic segmentation.
语义分割是一项极其复杂的像素级分类任务，容易出现类别混淆。频率表示可以作为学习类别差异的新范式，可以挖掘人类视觉忽略的信息。如上图所示，除非大部分频率分量被过滤，人类对频率信息移除具有鲁棒性。然而，模型对频率信息移除非常敏感，甚至移除少量信息也会导致显著的性能下降。这表明，对于模型来说，挖掘更多的频率信息可以增强类别之间的差异，使每个类别之间的边界更加清晰，从而提高语义分割的效果。

由于特征 F 包含丰富的频率特征，因此网格 G 中的每个聚类中心也收集了这些频率信息。为了提取不同的频率特征，之前的工作提出了一种基于 Fourier 变换和反 Fourier 变换的方法。然而，这种方法带来了额外的计算开销，并且不能在许多硬件上使用。因此，论文提出了一种基于视觉 Transformer 的自适应频率滤波块，直接在空间域中捕获重要的高频和低频特征。其核心组件如上图所示，公式定义如下：

上面的公式定义了一种自适应频率滤波块的操作。其中，D^(fc)h、D^(lf)m(X)和D^(hf)n(X)分别表示具有H组的频率相似性内核、具有M组的动态低通滤波器和具有N组的动态高通滤波器。||·||表示Concatenation。值得注意的是，这些操作采用并行结构来进一步减少计算成本，这是通过共享权重来实现的。

Frequency Similarity Kernel (FSK)

不同的频率分量分布在G中，目的是选择和增强有助于语义解析的重要分量。为此，设计了一个频率相似性内核模块。给定一个X∈R^((hw)×C)的特征，通过卷积层在G上进行相对位置编码。首先使用固定大小的相似性内核A∈R^(C/H×C/H)来表示不同频率分量之间的对应关系，并通过查询相似性内核来选择重要的频率分量。通过线性层计算频率分量的键K和值V，并通过Softmax操作在频率分量之间归一化键。每个分量都集成了一个相似性内核Ai,j，计算如下:

其中ki表示K中第i个频率分量，vj表示V中第j个频率分量。还通过线性层将输入X转换为查询Q，并通过对固定大小相似性内核的交互获徖分量增强输出。

Dynamic Low-Pass Filters (DLF)

低频分量占据绝对图像的大部分能量，并表示大部分语义信息。低通滤波器允许低于截止频率的信号通过，而高于截止频率的信号被阻挡。因此，采用典型的平均池化作为低通滤波器。然而，不同图像的截止频率是不同的。为此，在多组中控制不同的内核和步幅来生成动态低通滤波器。对于第m组:

其中Λk×k表示具有核大小为k×k的深度卷积层。此外,使用查询和高频特征的Hadamard积来抑制物体内部的高频，这些高频是分割的噪声。FFN有助于融合捕获的频率信息，但具有大量计算，在轻量级设计中通常被忽略。通过引入卷积层来减少隐藏层的维数，以弥补由于维度压缩而缺失的能力。

讨论

对于频率相似性内核，计算复杂度为O(hwC^2)。每个动态高通滤波器的计算复杂度为O(hwCk^2)，这比频率相似性内核的复杂度小得多。由于动态低通滤波器是通过每组的自适应平均池实现的，其计算复杂度约为O(hwC)。因此，模块的计算复杂度与分辨率呈线性关系，这对于语义分割的高分辨率是有利的。

实验

关键代码

afformer.py

# https://github.com/dongbo811/AFFormer/blob/main/tools/afformer.py class DWConv(nn.Module): def __init__(self, dim=768): super(DWConv, self).__init__() self.dwconv = nn.Conv2d(dim, dim, 3, 1, 1, bias=True, groups=dim) def forward(self, x, H, W): B, N, C = x.shape x = x.transpose(1, 2).view(B, C, H, W) x = self.dwconv(x) x = x.flatten(2).transpose(1, 2) return x class Mlp(nn.Module): def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.): super().__init__() out_features = out_features or in_features hidden_features = hidden_features or in_features self.fc1 = nn.Linear(in_features, hidden_features) self.dwconv = DWConv(hidden_features) self.act = act_layer() self.fc2 = nn.Linear(hidden_features, out_features) self.drop = nn.Dropout(drop) self.apply(self._init_weights) def _init_weights(self, m): if isinstance(m, nn.Linear): trunc_normal_(m.weight, std=.02) if isinstance(m, nn.Linear) and m.bias is not None: nn.init.constant_(m.bias, 0) elif isinstance(m, nn.LayerNorm): nn.init.constant_(m.bias, 0) nn.init.constant_(m.weight, 1.0) elif isinstance(m, nn.Conv2d): fan_out = m.kernel_size[0] * m.kernel_size[1] * m.out_channels fan_out //= m.groups m.weight.data.normal_(0, math.sqrt(2.0 / fan_out)) if m.bias is not None: m.bias.data.zero_() def forward(self, x, size): H, W = size x = self.fc1(x) x = self.act(x + self.dwconv(x, H, W)) x = self.drop(x) x = self.fc2(x) x = self.drop(x) return x class Conv2d_BN(nn.Module): """Convolution with BN module.""" def __init__( self, in_ch, out_ch, kernel_size=1, stride=1, pad=0, dilation=1, groups=1, bn_weight_init=1, norm_layer=nn.BatchNorm2d, act_layer=None, ): super().__init__() self.conv = torch.nn.Conv2d(in_ch, out_ch, kernel_size, stride, pad, dilation, groups, bias=False) self.bn = norm_layer(out_ch) torch.nn.init.constant_(self.bn.weight, bn_weight_init) torch.nn.init.constant_(self.bn.bias, 0) for m in self.modules(): if isinstance(m, nn.Conv2d): # Note that there is no bias due to BN fan_out = m.kernel_size[0] * m.kernel_size[1] * m.out_channels m.weight.data.normal_(mean=0.0, std=np.sqrt(2.0 / fan_out)) self.act_layer = act_layer() if act_layer is not None else nn.Identity( ) def forward(self, x): x = self.conv(x) x = self.bn(x) x = self.act_layer(x) return x class DWConv2d_BN(nn.Module): def __init__( self, in_ch, out_ch, kernel_size=1, stride=1, norm_layer=nn.BatchNorm2d, act_layer=nn.Hardswish, bn_weight_init=1, ): super().__init__() # dw self.dwconv = nn.Conv2d( in_ch, out_ch, kernel_size, stride, (kernel_size - 1) // 2, groups=out_ch, bias=False, ) # pw-linear self.pwconv = nn.Conv2d(out_ch, out_ch, 1, 1, 0, bias=False) self.bn = norm_layer(out_ch) self.act = act_layer() if act_layer is not None else nn.Identity() for m in self.modules(): if isinstance(m, nn.Conv2d): n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels m.weight.data.normal_(0, math.sqrt(2.0 / n)) if m.bias is not None: m.bias.data.zero_() elif isinstance(m, nn.BatchNorm2d): m.weight.data.fill_(bn_weight_init) m.bias.data.zero_() def forward(self, x): x = self.dwconv(x) x = self.pwconv(x) x = self.bn(x) x = self.act(x) return x class DWCPatchEmbed(nn.Module): def __init__(self, in_chans=3, embed_dim=768, patch_size=16, stride=1, act_layer=nn.Hardswish): super().__init__() self.patch_conv = DWConv2d_BN( in_chans, embed_dim, kernel_size=patch_size, stride=stride, act_layer=act_layer, ) def forward(self, x): x = self.patch_conv(x) return x class Patch_Embed_stage(nn.Module): def __init__(self, embed_dim, num_path=4, isPool=False, stage=0): super(Patch_Embed_stage, self).__init__() if stage == 3: self.patch_embeds = nn.ModuleList([ DWCPatchEmbed( in_chans=embed_dim, embed_dim=embed_dim, patch_size=3, stride=4 if (isPool and idx == 0) or (stage > 1 and idx == 1) else 1, ) for idx in range(num_path + 1) ]) else: self.patch_embeds = nn.ModuleList([ DWCPatchEmbed( in_chans=embed_dim, embed_dim=embed_dim, patch_size=3, stride=2 if (isPool and idx == 0) or (stage > 1 and idx == 1) else 1, ) for idx in range(num_path + 1) ]) def forward(self, x): att_inputs = [] for pe in self.patch_embeds: x = pe(x) att_inputs.append(x) return att_inputs class ConvPosEnc(nn.Module): def __init__(self, dim, k=3): super(ConvPosEnc, self).__init__() self.proj = nn.Conv2d(dim, dim, k, 1, k // 2, groups=dim) def forward(self, x, size): B, N, C = x.shape H, W = size feat = x.transpose(1, 2).view(B, C, H, W) x = self.proj(feat) + feat x = x.flatten(2).transpose(1, 2) return x class LowPassModule(nn.Module): def __init__(self, in_channel, sizes=(1, 2, 3, 6)): super().__init__() self.stages = [] self.stages = nn.ModuleList([self._make_stage(size) for size in sizes]) self.relu = nn.ReLU() ch = in_channel // 4 self.channel_splits = [ch, ch, ch, ch] def _make_stage(self, size): prior = nn.AdaptiveAvgPool2d(output_size=(size, size)) return nn.Sequential(prior) def forward(self, feats): h, w = feats.size(2), feats.size(3) feats = torch.split(feats, self.channel_splits, dim=1) priors = [F.upsample(input=self.stages[i](feats[i]), size=(h, w), mode='bilinear') for i in range(4)] bottle = torch.cat(priors, 1) return self.relu(bottle) class FilterModule(nn.Module): def __init__(self, Ch, h, window): super().__init__() self.conv_list = nn.ModuleList() self.head_splits = [] for cur_window, cur_head_split in window.items(): dilation = 1 # Use dilation=1 at default. padding_size = (cur_window + (cur_window - 1) * (dilation - 1)) // 2 cur_conv = nn.Conv2d( cur_head_split * Ch, cur_head_split * Ch, kernel_size=(cur_window, cur_window), padding=(padding_size, padding_size), dilation=(dilation, dilation), groups=cur_head_split * Ch, ) self.conv_list.append(cur_conv) self.head_splits.append(cur_head_split) self.channel_splits = [x * Ch for x in self.head_splits] self.LP = LowPassModule(Ch * h) def forward(self, q, v, size): B, h, N, Ch = q.shape H, W = size # Shape: [B, h, H*W, Ch] -> [B, h*Ch, H, W]. v_img = rearrange(v, "B h (H W) Ch -> B (h Ch) H W", H=H, W=W) LP = self.LP(v_img) # Split according to channels. v_img_list = torch.split(v_img, self.channel_splits, dim=1) HP_list = [ conv(x) for conv, x in zip(self.conv_list, v_img_list) ] HP = torch.cat(HP_list, dim=1) # Shape: [B, h*Ch, H, W] -> [B, h, H*W, Ch]. HP = rearrange(HP, "B (h Ch) H W -> B h (H W) Ch", h=h) LP = rearrange(LP, "B (h Ch) H W -> B h (H W) Ch", h=h) dynamic_filters = q * HP + LP return dynamic_filters class Frequency_FilterModule(nn.Module): def __init__( self, dim, num_heads=8, qkv_bias=False, qk_scale=None, attn_drop=0.0, proj_drop=0.0, shared_crpe=None, ): super().__init__() self.num_heads = num_heads head_dim = dim // num_heads self.scale = qk_scale or head_dim ** -0.5 self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias) self.attn_drop = nn.Dropout(attn_drop) self.proj = nn.Linear(dim, dim) self.proj_drop = nn.Dropout(proj_drop) # Shared convolutional relative position encoding. self.crpe = shared_crpe def forward(self, x, size): B, N, C = x.shape # Generate Q, K, V. qkv = (self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)) q, k, v = qkv[0], qkv[1], qkv[2] # Factorized attention. k_softmax = k.softmax(dim=2) k_softmax_T_dot_v = einsum("b h n k, b h n v -> b h k v", k_softmax, v) factor_att = einsum("b h n k, b h k v -> b h n v", q, k_softmax_T_dot_v) # Convolutional relative position encoding. crpe = self.crpe(q, v, size=size) # Merge and reshape. x = self.scale * factor_att + crpe x = x.transpose(1, 2).reshape(B, N, C) # Output projection. x = self.proj(x) x = self.proj_drop(x) return x class MHCABlock(nn.Module): def __init__( self, dim, num_heads, mlp_ratio=3, drop_path=0.0, qkv_bias=True, qk_scale=None, norm_layer=partial(nn.LayerNorm, eps=1e-6), shared_cpe=None, shared_crpe=None, ): super().__init__() self.cpe = shared_cpe self.crpe = shared_crpe self.factoratt_crpe = Frequency_FilterModule( dim, num_heads=num_heads, qkv_bias=qkv_bias, qk_scale=qk_scale, shared_crpe=shared_crpe, ) self.mlp = Mlp(in_features=dim, hidden_features=dim * mlp_ratio) self.drop_path = DropPath( drop_path) if drop_path > 0.0 else nn.Identity() self.norm1 = norm_layer(dim) self.norm2 = norm_layer(dim) def forward(self, x, size): if self.cpe is not None: x = self.cpe(x, size) cur = self.norm1(x) x = x + self.drop_path(self.factoratt_crpe(cur, size)) cur = self.norm2(x) x = x + self.drop_path(self.mlp(cur, size)) return x class MHCAEncoder(nn.Module): def __init__( self, dim, num_layers=1, num_heads=8, mlp_ratio=3, drop_path_list=[], qk_scale=None, crpe_window={ 3: 2, 5: 3, 7: 3 }, ): super().__init__() self.num_layers = num_layers self.cpe = ConvPosEnc(dim, k=3) self.crpe = FilterModule(Ch=dim // num_heads, h=num_heads, window=crpe_window) self.MHCA_layers = nn.ModuleList([ MHCABlock( dim, num_heads=num_heads, mlp_ratio=mlp_ratio, drop_path=drop_path_list[idx], qk_scale=qk_scale, shared_cpe=self.cpe, shared_crpe=self.crpe, ) for idx in range(self.num_layers) ]) def forward(self, x, size): H, W = size B = x.shape[0] for layer in self.MHCA_layers: x = layer(x, (H, W)) # return x's shape : [B, N, C] -> [B, C, H, W] x = x.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous() return x class Restore(nn.Module): def __init__( self, in_features, hidden_features=None, out_features=None, act_layer=nn.Hardswish, norm_layer=nn.BatchNorm2d, ): super().__init__() out_features = out_features or in_features hidden_features = in_features // 2 self.conv1 = Conv2d_BN(in_features, hidden_features, act_layer=act_layer) self.dwconv = nn.Conv2d( hidden_features, hidden_features, 3, 1, 1, bias=False, groups=hidden_features, ) self.norm = norm_layer(hidden_features) self.act = act_layer() self.conv2 = Conv2d_BN(hidden_features, out_features) self.apply(self._init_weights) def _init_weights(self, m): if isinstance(m, nn.Conv2d): fan_out = m.kernel_size[0] * m.kernel_size[1] * m.out_channels fan_out //= m.groups m.weight.data.normal_(0, math.sqrt(2.0 / fan_out)) if m.bias is not None: m.bias.data.zero_() elif isinstance(m, nn.BatchNorm2d): m.weight.data.fill_(1) m.bias.data.zero_() def forward(self, x): identity = x feat = self.conv1(x) feat = self.dwconv(feat) feat = self.norm(feat) feat = self.act(feat) feat = self.conv2(feat) return identity + feat class MHCA_stage(nn.Module): def __init__( self, embed_dim, out_embed_dim, num_layers=1, num_heads=8, mlp_ratio=3, num_path=4, drop_path_list=[], id_stage=0, ): super().__init__() self.Restore = Restore(in_features=embed_dim, out_features=embed_dim) if id_stage > 0: self.aggregate = Conv2d_BN(embed_dim * (num_path), out_embed_dim, act_layer=nn.Hardswish) self.mhca_blks = nn.ModuleList([ MHCAEncoder( embed_dim, num_layers, num_heads, mlp_ratio, drop_path_list=drop_path_list, ) for _ in range(num_path) ]) else: self.aggregate = Conv2d_BN(embed_dim * (num_path), out_embed_dim, act_layer=nn.Hardswish) def forward(self, inputs, id_stage): if id_stage > 0: att_outputs = [self.Restore(inputs[0])] for x, encoder in zip(inputs[1:], self.mhca_blks): # [B, C, H, W] -> [B, N, C] _, _, H, W = x.shape x = x.flatten(2).transpose(1, 2) att_outputs.append(encoder(x, size=(H, W))) for i in range(len(att_outputs)): if att_outputs[i].shape[2:] != att_outputs[0].shape[2:]: att_outputs[i] = F.interpolate(att_outputs[i], size=att_outputs[0].shape[2:], mode='bilinear', align_corners=True) out_concat = att_outputs[0] + att_outputs[1] else: out_concat = self.Restore(inputs[0] + inputs[1]) out = self.aggregate(out_concat) return out class Cls_head(nn.Module): """a linear layer for classification.""" def __init__(self, embed_dim, num_classes): super().__init__() self.cls = nn.Linear(embed_dim, num_classes) def forward(self, x): # (B, C, H, W) -> (B, C, 1) x = nn.functional.adaptive_avg_pool2d(x, 1).flatten(1) # Shape : [B, C] out = self.cls(x) return out def dpr_generator(drop_path_rate, num_layers, num_stages): """Generate drop path rate list following linear decay rule.""" dpr_list = [ x.item() for x in torch.linspace(0, drop_path_rate, sum(num_layers)) ] dpr = [] cur = 0 for i in range(num_stages): dpr_per_stage = dpr_list[cur:cur + num_layers[i]] dpr.append(dpr_per_stage) cur += num_layers[i] return dpr class AFFormer(BaseModule): def __init__( self, img_size=224, num_stages=4, num_path=[4, 4, 4, 4], num_layers=[1, 1, 1, 1], embed_dims=[64, 128, 256, 512], mlp_ratios=[8, 8, 4, 4], num_heads=[8, 8, 8, 8], drop_path_rate=0.0, in_chans=3, num_classes=1000, strides=[4, 2, 2, 2], pretrained=None, init_cfg=None, ): super().__init__() if isinstance(pretrained, str): self.init_cfg = pretrained self.num_classes = num_classes self.num_stages = num_stages dpr = dpr_generator(drop_path_rate, num_layers, num_stages) self.stem = nn.Sequential( Conv2d_BN( in_chans, embed_dims[0] // 2, kernel_size=3, stride=2, pad=1, act_layer=nn.Hardswish, ), Conv2d_BN( embed_dims[0] // 2, embed_dims[0], kernel_size=3, stride=2, pad=1, act_layer=nn.Hardswish, ), ) self.patch_embed_stages = nn.ModuleList([ Patch_Embed_stage( embed_dims[idx], num_path=num_path[idx], isPool=True if idx == 1 else False, stage=idx, ) for idx in range(self.num_stages) ]) self.mhca_stages = nn.ModuleList([ MHCA_stage( embed_dims[idx], embed_dims[idx + 1] if not (idx + 1) == self.num_stages else embed_dims[idx], num_layers[idx], num_heads[idx], mlp_ratios[idx], num_path[idx], drop_path_list=dpr[idx], id_stage=idx, ) for idx in range(self.num_stages) ]) # Classification head. # self.cls_head = Cls_head(embed_dims[-1], num_classes) def _init_weights(self, m): if isinstance(m, nn.Linear): trunc_normal_(m.weight, std=.02) if isinstance(m, nn.Linear) and m.bias is not None: nn.init.constant_(m.bias, 0) elif isinstance(m, nn.LayerNorm): nn.init.constant_(m.bias, 0) nn.init.constant_(m.weight, 1.0) elif isinstance(m, nn.Conv2d): fan_out = m.kernel_size[0] * m.kernel_size[1] * m.out_channels fan_out //= m.groups m.weight.data.normal_(0, math.sqrt(2.0 / fan_out)) if m.bias is not None: m.bias.data.zero_() def init_weights(self): if isinstance(self.init_cfg, str): logger = get_root_logger() load_checkpoint(self, self.init_cfg, map_location='cpu', strict=False, logger=logger) else: self.apply(self._init_weights) def freeze_patch_emb(self): self.patch_embed1.requires_grad = False @torch.jit.ignore def no_weight_decay(self): return {'pos_embed1', 'pos_embed2', 'pos_embed3', 'pos_embed4', 'cls_token'} # has pos_embed may be better def get_classifier(self): return self.head def reset_classifier(self, num_classes, global_pool=''): self.num_classes = num_classes self.head = nn.Linear(self.embed_dim, num_classes) if num_classes > 0 else nn.Identity() def forward(self, x): # x's shape : [B, C, H, W] x = self.stem(x) # Shape : [B, C, H/4, W/4] out = [] for idx in range(self.num_stages): att_inputs = self.patch_embed_stages[idx](x) x = self.mhca_stages[idx](att_inputs, idx) out.append(x) return out @BACKBONES.register_module() class afformer_base(AFFormer): def __init__(self, **kwargs): super(afformer_base, self).__init__( img_size=224, num_stages=4, num_path=[1, 1, 1, 1], num_layers=[1, 2, 6, 2], embed_dims=[32, 96, 176, 216], mlp_ratios=[2, 2, 2, 2], num_heads=[8, 8, 8, 8], **kwargs) @BACKBONES.register_module() class afformer_small(AFFormer): def __init__(self, **kwargs): super(afformer_small, self).__init__( img_size=224, num_stages=4, num_path=[1, 1, 1, 1], num_layers=[1, 2, 4, 2], embed_dims=[32, 64, 176, 216], mlp_ratios=[2, 2, 2, 2], num_heads=[8, 8, 8, 8], **kwargs) @BACKBONES.register_module() class afformer_tiny(AFFormer): def __init__(self, **kwargs): super(afformer_tiny, self).__init__( img_size=224, num_stages=4, num_path=[1, 1, 1, 1], num_layers=[1, 2, 4, 2], embed_dims=[32, 64, 160, 216], mlp_ratios=[2, 2, 2, 2], num_heads=[8, 8, 8, 8], **kwargs)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
为什么学生不喜欢上学虾虾说
图片发自App《为什么学生不喜欢上学》作者是丹尼尔·威林厄姆。本书从认知心理学角度，结合大量实证案例，阐释了大脑工作的基本原理，回答了关于学习过程的一系列问题。为什么学生不喜欢上学？——大脑工作的基本原理思考是缓慢的、费力的、不可靠的。思考有三个要素，环境、工作记忆和长期记忆。环境是信息来源；长期记忆是知识、经验的巨型仓库，随时可以调取；工作记忆是中央处理器，是加工信息素材的中央厨房，也是思考过程
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
6.0 践行打卡 D47 星月格格
去努力改变1.运动步行13000+8分钟腿部拉伸2.阅读《墨菲定律》第三章第三节:霍桑效应～适度发泄，才能轻装上阵“霍桑效应”这一概念，源自于1924年一个1933年间以哈佛大学心理专家乔治·埃尔顿·梅奥教授为首进行的一系列工厂工人的谈话实验研究。“霍桑效应”告诉我们，在工作，生活中总会产生数不清的情绪反应，其中很大一部分是负面的负面情绪的积累会影响人的精神和心情，不仅仅会影响个人健康，还会破坏人
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer

Head-Free Lightweight Semantic Segmentation with Linear Transformer, AAAI2023

导读

引言

方法

Parallel Heterogeneous Architecture

Prototype Learning by Adaptive Frequency Filter Motivation

Frequency Similarity Kernel (FSK)

Dynamic Low-Pass Filters (DLF)

讨论

实验

关键代码

afformer.py

你可能感兴趣的:(论文笔记,Transformer系列,深度学习,人工智能,机器学习)