呆呆的猫

【Transformer】2、DETR: End-to-End Object Detection with Transformers

文章目录

- 一、背景和动机
- 二、方法
- - 2.1 DETR 结构
  - 2.2 目标检测集合的 loss
- 三、效果
- 四、全景分割
- 五、代码

论文链接：https://arxiv.org/abs/2005.12872

代码链接：https://github.com/facebookresearch/detr

一、背景和动机

目标检测任务是对图片中的每个感兴趣的目标预测位置和类别，现在流行的 CNN 方法的目标检测器大都使用的非直接手段进行预测，比如通过大量的 proposal、anchor、window center 来回归和分类出目标的位置和类别。这种方法会被后处理方法（如 NMS）影响效果，为了简化这种预测方法，作者提出了一种直接的 end-to-end 的方法，输入一张图片，输出直接是预测结果，不需要后处理。

二、方法

DETR 的结构如图 1 所示，DEtection TRsformer（DETR）可以直接预测所有目标，训练也是使用一个 loss 来进行端到端的训练。

DETR 的两大特点：

一个大的特点是简化了检测的 pipeline，不需要手工设计的模块来编码先验信息，如 anchor 和 non-maximal suppression
另外一个是不需要特定的层，能够方便的重用到其他结构中

DETR 的训练阶段：（需要二分图匹配的 loss）

首先，使用 CNN 抽取图像特征
其次，将抽取得到的图像特征输入 Transformer 的 encoder-decoder 框架
最后，通过二分图匹配损失将预测框和真实框匹配起来，然后使用 FFN 计算分类损失和回归损失，这里的匹配是对真实框和预测框进行一对一的匹配，没有匹配的预测框为 $\phi$ ，即没有类别

DETR 的推理阶段：（不需要二分图匹配的 loss）

首先，使用 CNN 抽取图像特征
其次，将图像特征输入 encoder-decoder，生成一系列预测框
最后，保留置信度高于阈值的框作为最终输出

DETR 的预测框和真实框是如何匹配的：

设定了 object query=100，也就是每张图都输入 100 个预测结果
假设一张图中只有 2 个 gt，在训练过程中就是对这输出的 100 个 query 和这个 2 个 gt 计算 match loss，从而决定这 100 个 object query 中哪两个框是一对一对应到这个两个 gt 上的
当 gt 和 object query 进行匹配了之后，才会像普通的目标检测一样来计算分类和回归的 loss
其他 98 个没有匹配到 gt 的 object query 框就被标记为 $\phi$ 。

二分图匹配：

对预测框和 gt 这两个集合进行最佳匹配，使得 cost 代价最小
举例：假设有 N 个工人和 N 个任务，每个工人各有长处，所以他们干活需要的回报就不同，每个工人和每个任务的花费就形成了一个 $N\times N$ 的矩阵，这个矩阵就称为 cost matric，最优二分图匹配就是能够找到唯一解，让每个人都得到其最擅长的工作，且花费最低
二分图匹配如何解决：匈牙利算法用的较多

DETR 中的二分图匹配：

100 个 object query（预测框）
100 个 gt（不够的话用 $\phi$ 来填充）
最终的花费就是每个预测框和每个 gt 匹配损失，把每个预测框和每个一一 gt 进行匹配并计算损失，把 cost matric 填充完整，然后送入 scipy 库中的 linear_sum_assigment 函数中，得到最后的最优解。这里的匹配方式约束更强，一定要得到这个一对一的匹配关系，也就是每个预测框只会与一个 gt 框是对应的，这样后面才不需要去做那个后处理 nms

二分匹配后如何计算损失：

二分匹配后，每个预测框都和 gt 框有了固定的匹配，然后就可以计算分类和回归损失了

2.1 DETR 结构

DETR 的结构如图 2，包括三个部分：

CNN backbone，提取特征
encoder-decoder transformer
simple feed forward network，进行最终的检测预测

Backbone：

输入：原始图片： $x_{img}\in R^{3\times H_0 \times W_0}$
输出：低分辨率的特征图： $\in R^{2048\times H \times W}$ $H=H_0/32 , W=W_0/32)$

Transformer encoder：

降维：使用 1x1 卷积，将 2048 降到 $d$ 维
编码为序列的输入：Transformer 期望的输入为一维，所以要将二维特征转换成一维特征 $d\times HW$
每个 encoder 都是由一个多头自注意力结构和一个 feed forward network 组成，特征输入 attention 结构之前，都会加上位置编码。

Transformer decoder：

decoder 的输入是 object query，可以理解为不同 object 的 positional embedding，object query 通过decoder 转换成一个 output embedding
decoder 是为了把 N 个大小为 d 的 embedding 特征进行 transforming
decoder 是由多头自注意力结构和多头 encoder-decoder 结构组成
本文的decoder特点：同时并行的在每一个 decoder 层对 N 个目标进行解码
在每个 attention 层输入的时候，会给输入加上位置编码，最终得到输出
然后使用 FFN 对这些特征进行映射，映射为位置和类别，得到 N 个预测
decoder 的输入在本文中是大小为 [100, 2, 256] ，初始化为全 0 的向量，即 decoder 学习的就是输入的这个向量
decoder 的输出会分别送入分类头得到 [6, 2, 100,92] (coco) 和bbox头得到 [6, 2, 100, 4]，然后取第一个 [2, 100,92] 和 [2, 100, 4] 作为预测的结果

Prediction feed-forward networks (FFNs)

FFN 由 RELU + 隐层 + 线性映射层组成
预测：框的中心和宽高
线性层预测类别
由于预测的是一个固定长度为 N 的输出，所以新加了一个类别 $\phi$ ，表示没有目标，可以看做其他检测网络中的 “背景” 类

Auxiliary decoding losses

经过实验，作者发现在训练 decoder 时，使用额外的 loss 很有效果，能够帮助模型输出每个类别的目标数量，所以，在每个 decoder 层，作者都会即将 FFN 和 Hungarian loss 加起来，所有 FFN 都是共享参数的。

2.2 目标检测集合的 loss

DETR 能够一次性推断出 N 个预测结果，其中 N 是远远大于图像中目标个数的值。

训练中的一个难点在于根据真值给每个预测目标（类别、位置、尺寸）打分，所以本文的 loss 能够得到一个在预测和真值之间的最优双向匹配，然后优化 object-specific loss。

$y$ ：真值，假设维度也为 N，不够的用空值来补全
$\hat{y} = \{\hat{y_i\}}_{i=1}^N$ ：预测的结果，N 远远大于目标个数

第一步：二分匹配求最低 cost

为了获得最优的二分匹配，作者在 N 个元素 $\sigma$ 中寻找出了一个集合，这个集合有最低的 cost：

$L_{match}$ 是真值 $y_i$ 和第 $\sigma(i)$ 个预测结果的 matching cost，是用匈牙利算法计算的。
这个 matching cost 同时考虑了类别、框的相似度
第 i 个真值可以看成 $y_i=(c_i, b_i)$ ，其中 $c_i$ 是类别 label， $b_i\in[0, 1]^4$ 是框的中心和宽高
对于第 $\sigma(i)$ 个预测，作者定义类别 $c_i$ 的预测为 $\hat{p}_{\sigma(i)}(c_i)$ ，框的预测为 $\hat{b}_{\sigma(i)}$
$L_{match}(y_i, \hat{y}_{\sigma(i)})$ 为
这种过程类似于之前的 proposal match 或 anchor match，最主要的不同是作者需要进行一对一的匹配，没有过多剩余的匹配。

第二步：计算预测框和真实框一对一匹配后的 loss

$\hat{\sigma}$ 是第一步中计算得到的最优分配
在实际操作中，为了类别平衡，作者把 $c_i=\phi$ 的预测结果的 log-probability 的权重下降 10 倍
一个目标和 $\phi$ 的 matching cost 是不基于预测的，而是一个常数

Bounding box loss：

matching cost 和 loss 的第二项都是 $L_{box}(.)$ ，不同于其他检测器，本文作者直接对 box 进行预测，但这种简化的实现方法引入了一个相对缩放损失的问题，L1 损失对不同大小的框的相同偏移的惩罚是相同的，所以作者将 L1 loss 和 generalized IoU loss 进行了组合，所以 box loss $L_{box}(b_i,\hat{b}_{\sigma(i)})$ 为：

三、效果

1、Encoder layer 个数的影响：

表 2 展示了不同 encoder 个数对效果的影响，使用 encoder AP 能提升 3.9 个点，作者猜想是因为 encoder 能捕捉全局场景，所以有利于对不同目标的解耦。

在图 3 中，展示了最后一层 encoder 的 attention map，可以看出特征图注意到了图中的很多位置，看起来能够对不同实例进行区分，能够简化decoder的目标提取和定位。

2、Decoder layer 个数的影响：

图 4 展示了随着 decoder layer 数量增加，AP 和 AP50 的变化情况，每增加一层，效果就有一定上升，总共带来了 8.2/9.5 的增加。

NMS 的影响：

使用了一个decoder时，当引入 NMS 后，效果得到了明显的增加，这可以解释为单个 decoding layer 没有计算输入元素的相关关系的能力，即会对一个目标产生很多预测。
当增加了 decoder 模块（2个和多个）后再使用 NMS 时，就没有很明显的效果提升了，即随着深度的增加而逐渐减小。这是因为 self-attention 机制能够抑制模型产生重复的预测。

使用相同的方法进行可视化，可以看出 decoder attention 比较注意位置信息，会更关注目标的末端，如头和腿，作者猜测是因为encoder已经对不同的目标进行了全局上的区分，decoder 只需要关注变化剧烈的纹理区域来提取出类别的边界。

3、Importance of FFN

FFN 可以看成一个 1x1 的卷积层，使得 encoder 类似于一个基于 attention 的卷积网络
作者将该结构完全移除，只留下 attention，把网络参数从 41.3 M 降低到了 28.7 M，transformer 仅有 10.8 M 的参数，但性能降低了 2.3 AP，所以 FFN 是很重要的

4、Importance of positional encoding

本文的位置编码有两种，一个是空间位置编码，一个是输出位置编码，输出位置编码是不能移除的，所以作者对空间位置编码做了实验
实验发现位置编码对结果还是很有作用的

5、Decoder output slot analysis

图 7 可视化了 COCO2017 验证集的 20 种 bbox 预测输出， DETR 给每个查询输入学习了不同的特殊效果。

可以看出，每个 slot 都会聚焦于不同的区域和目标大小，所有的 slot 都有预测 image-wide box 的模式（对齐的红点），作者假设这与 COCO 的分布有关。

四、全景分割

五、代码

这是论文中的一段简化的 inference 代码

import torch
from torch import nn
from torchvision.models import resnet50

class DETR(nn.Module):

    def __init__(self, num_classes, hidden_dim, nheads,
        num_encoder_layers, num_decoder_layers):
        super().__init__()
        # We take only convolutional layers from ResNet-50 model
        import pdb; pdb.set_trace()
        self.backbone = nn.Sequential(*list(resnet50(pretrained=True).children())[:-2])
        self.conv = nn.Conv2d(2048, hidden_dim, 1)
        self.transformer = nn.Transformer(hidden_dim, nheads, num_encoder_layers, num_decoder_layers)
        self.linear_class = nn.Linear(hidden_dim, num_classes + 1)
        self.linear_bbox = nn.Linear(hidden_dim, 4)
        self.query_pos = nn.Parameter(torch.rand(100, hidden_dim))
        self.row_embed = nn.Parameter(torch.rand(50, hidden_dim // 2))
        self.col_embed = nn.Parameter(torch.rand(50, hidden_dim // 2))

    def forward(self, inputs):
        x = self.backbone(inputs) # inputs=[1, 3, 800, 1200], x=[1, 1024, 25, 38]
        h = self.conv(x)          # h=[1, 256, 25, 38]
        H, W = h.shape[-2:]       # H=25, W=38
        pos = torch.cat([
            self.col_embed[:W].unsqueeze(0).repeat(H, 1, 1),
            self.row_embed[:H].unsqueeze(1).repeat(1, W, 1),], dim=-1).flatten(0, 1).unsqueeze(1) # pos=[950, 1, 256]
        h = self.transformer(pos + h.flatten(2).permute(2, 0, 1), self.query_pos.unsqueeze(1)) # h=[100, 1, 256]
        return self.linear_class(h), self.linear_bbox(h).sigmoid()  # [100, 1, 92], [100, 1, 4]

detr = DETR(num_classes=91, hidden_dim=256, nheads=8, num_encoder_layers=6, num_decoder_layers=6)
detr.eval()
inputs = torch.randn(1, 3, 800, 1200)
logits, bboxes = detr(inputs)

训练：下载代码detr，然后把coco图像放到dataset下即可训练

python main.py

DETR 模型结构：detr.py

输入：原始图片
build backbone：

def build_backbone(args):
    position_embedding = build_position_encoding(args) # PositionEmbeddingSine()
    train_backbone = args.lr_backbone > 0 # True
    return_interm_layers = args.masks     # False
    backbone = Backbone(args.backbone, train_backbone, return_interm_layers, args.dilation)
    model = Joiner(backbone, position_embedding)   #(0) backbone() (1) PositionEmbeddingSine()
    model.num_channels = backbone.num_channels  # 2048
    return model

build transformer：

def build_transformer(args):
    return Transformer(
        d_model=args.hidden_dim,
        dropout=args.dropout,
        nhead=args.nheads,
        dim_feedforward=args.dim_feedforward,
        num_encoder_layers=args.enc_layers,
        num_decoder_layers=args.dec_layers,
        normalize_before=args.pre_norm,
        return_intermediate_dec=True,
    )

class Transformer(nn.Module):

    def __init__(self, d_model=512, nhead=8, num_encoder_layers=6,
                 num_decoder_layers=6, dim_feedforward=2048, dropout=0.1,
                 activation="relu", normalize_before=False,
                 return_intermediate_dec=False):
        super().__init__()

        encoder_layer = TransformerEncoderLayer(d_model, nhead, dim_feedforward,
                                                dropout, activation, normalize_before)
        encoder_norm = nn.LayerNorm(d_model) if normalize_before else None
        self.encoder = TransformerEncoder(encoder_layer, num_encoder_layers, encoder_norm)

        decoder_layer = TransformerDecoderLayer(d_model, nhead, dim_feedforward,
                                                dropout, activation, normalize_before)
        decoder_norm = nn.LayerNorm(d_model)
        self.decoder = TransformerDecoder(decoder_layer, num_decoder_layers, decoder_norm,
                                          return_intermediate=return_intermediate_dec)

        self._reset_parameters()

        self.d_model = d_model
        self.nhead = nhead

    def _reset_parameters(self):
        for p in self.parameters():
            if p.dim() > 1:
                nn.init.xavier_uniform_(p)

    def forward(self, src, mask, query_embed, pos_embed):
        # flatten NxCxHxW to HWxNxC
        bs, c, h, w = src.shape
        src = src.flatten(2).permute(2, 0, 1)
        pos_embed = pos_embed.flatten(2).permute(2, 0, 1)
        query_embed = query_embed.unsqueeze(1).repeat(1, bs, 1)
        mask = mask.flatten(1)

        tgt = torch.zeros_like(query_embed)
        memory = self.encoder(src, src_key_padding_mask=mask, pos=pos_embed)
        hs = self.decoder(tgt, memory, memory_key_padding_mask=mask,
                          pos=pos_embed, query_pos=query_embed)
        return hs.transpose(1, 2), memory.permute(1, 2, 0).view(bs, c, h, w)

其中各个模块：

encoder_layer:

TransformerEncoderLayer(
  (self_attn): MultiheadAttention(
    (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
  )
  (linear1): Linear(in_features=256, out_features=2048, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (linear2): Linear(in_features=2048, out_features=256, bias=True)
  (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
  (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
  (dropout1): Dropout(p=0.1, inplace=False)
  (dropout2): Dropout(p=0.1, inplace=False)
)

self.encoder

TransformerEncoder(
  (layers): ModuleList(
    (0): TransformerEncoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
    )
    (1): TransformerEncoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
    )
    (2): TransformerEncoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
    )
    (3): TransformerEncoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
    )
    (4): TransformerEncoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
    )
    (5): TransformerEncoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
    )
  )
)

decoder layer:

TransformerDecoderLayer(
  (self_attn): MultiheadAttention(
    (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
  )
  (multihead_attn): MultiheadAttention(
    (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
  )
  (linear1): Linear(in_features=256, out_features=2048, bias=True)
  (dropout): Dropout(p=0.1, inplace=False)
  (linear2): Linear(in_features=2048, out_features=256, bias=True)
  (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
  (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
  (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
  (dropout1): Dropout(p=0.1, inplace=False)
  (dropout2): Dropout(p=0.1, inplace=False)
  (dropout3): Dropout(p=0.1, inplace=False)
)

self.decoder

TransformerDecoder(
  (layers): ModuleList(
    (0): TransformerDecoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (multihead_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
      (dropout3): Dropout(p=0.1, inplace=False)
    )
    (1): TransformerDecoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (multihead_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
      (dropout3): Dropout(p=0.1, inplace=False)
    )
    (2): TransformerDecoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (multihead_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
      (dropout3): Dropout(p=0.1, inplace=False)
    )
    (3): TransformerDecoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (multihead_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
      (dropout3): Dropout(p=0.1, inplace=False)
    )
    (4): TransformerDecoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (multihead_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
      (dropout3): Dropout(p=0.1, inplace=False)
    )
    (5): TransformerDecoderLayer(
      (self_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (multihead_attn): MultiheadAttention(
        (out_proj): _LinearWithBias(in_features=256, out_features=256, bias=True)
      )
      (linear1): Linear(in_features=256, out_features=2048, bias=True)
      (dropout): Dropout(p=0.1, inplace=False)
      (linear2): Linear(in_features=2048, out_features=256, bias=True)
      (norm1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (norm3): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
      (dropout1): Dropout(p=0.1, inplace=False)
      (dropout2): Dropout(p=0.1, inplace=False)
      (dropout3): Dropout(p=0.1, inplace=False)
    )
  )
  (norm): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
)

训练：engine.py

def train_one_epoch(model: torch.nn.Module, criterion: torch.nn.Module,
                    data_loader: Iterable, optimizer: torch.optim.Optimizer,
                    device: torch.device, epoch: int, max_norm: float = 0):
    model.train()
    criterion.train()
    metric_logger = utils.MetricLogger(delimiter="  ")
    metric_logger.add_meter('lr', utils.SmoothedValue(window_size=1, fmt='{value:.6f}'))
    metric_logger.add_meter('class_error', utils.SmoothedValue(window_size=1, fmt='{value:.2f}'))
    header = 'Epoch: [{}]'.format(epoch)
    print_freq = 10

    for samples, targets in metric_logger.log_every(data_loader, print_freq, header):
        samples = samples.to(device) # samples.tensors.shape=[2, 3, 736, 920]
        targets = [{k: v.to(device) for k, v in t.items()} for t in targets]

        outputs = model(samples) #  outputs.keys(): ['pred_logits', 'pred_boxes', 'aux_outputs']
        # outputs['pred_logits'].shape=[2, 100, 92],  outputs['pred_boxes'].shape=[2, 100, 4]
        # outputs['aux_outputs'][0]['pred_logits'].shape = [2, 100, 92]
        # outputs['aux_outputs'][0]['pred_boxes'].shape = [2, 100, 4]
        loss_dict = criterion(outputs, targets)
        weight_dict = criterion.weight_dict
        losses = sum(loss_dict[k] * weight_dict[k] for k in loss_dict.keys() if k in weight_dict)

        # reduce losses over all GPUs for logging purposes
        loss_dict_reduced = utils.reduce_dict(loss_dict)
        loss_dict_reduced_unscaled = {f'{k}_unscaled': v
                                      for k, v in loss_dict_reduced.items()}
        loss_dict_reduced_scaled = {k: v * weight_dict[k]
                                    for k, v in loss_dict_reduced.items() if k in weight_dict}
        losses_reduced_scaled = sum(loss_dict_reduced_scaled.values())

        loss_value = losses_reduced_scaled.item()

        if not math.isfinite(loss_value):
            print("Loss is {}, stopping training".format(loss_value))
            print(loss_dict_reduced)
            sys.exit(1)

        optimizer.zero_grad()
        losses.backward()
        if max_norm > 0:
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm)
        optimizer.step()

        metric_logger.update(loss=loss_value, **loss_dict_reduced_scaled, **loss_dict_reduced_unscaled)
        metric_logger.update(class_error=loss_dict_reduced['class_error'])
        metric_logger.update(lr=optimizer.param_groups[0]["lr"])
    # gather the stats from all processes
    metric_logger.synchronize_between_processes()
    print("Averaged stats:", metric_logger)
    return {k: meter.global_avg for k, meter in metric_logger.meters.items()}

上述代码中的 target 长下面这个样子：len(target)=2

({'boxes': tensor([[0.4567, 0.4356, 0.3446, 0.2930],
        [0.8345, 0.4459, 0.3310, 0.3111],
        [0.4484, 0.0582, 0.3947, 0.1164],
        [0.8436, 0.0502, 0.3128, 0.1005],
        [0.7735, 0.5084, 0.0982, 0.0816],
        [0.1184, 0.4742, 0.2369, 0.2107],
        [0.4505, 0.4412, 0.3054, 0.2844],
        [0.8727, 0.4563, 0.1025, 0.0892],
        [0.1160, 0.0405, 0.2319, 0.0810],
        [0.8345, 0.4266, 0.3310, 0.2843]]), 
  'labels': tensor([2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 
  'image_id': tensor([382006]), 
  'area': tensor([45937.5547, 46857.6406, 20902.2129, 14303.7432,  3646.2932, 22717.0332, 39523.7812,  4161.9199,  8552.1719, 42826.0391]), 
  'iscrowd': tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0]), 
  'orig_size': tensor([429, 640]), 
  'size': tensor([711, 640])}, 
        
{'boxes': tensor([[0.7152, 0.3759, 0.0934, 0.0804],
        [0.8129, 0.3777, 0.0576, 0.0562],
        [0.7702, 0.3866, 0.0350, 0.0511],
        [0.7828, 0.6463, 0.0743, 0.2580],
        [0.8836, 0.5753, 0.1511, 0.2977],
        [0.9162, 0.6202, 0.0880, 0.3273],
        [0.8424, 0.3788, 0.0254, 0.0398],
        [0.9716, 0.3712, 0.0569, 0.0707],
        [0.0615, 0.4210, 0.0242, 0.0645],
        [0.8655, 0.3775, 0.0398, 0.0368],
        [0.8884, 0.3701, 0.0349, 0.0329],
        [0.9365, 0.3673, 0.0144, 0.0221],
        [0.5147, 0.1537, 0.0220, 0.0541],
        [0.9175, 0.1185, 0.0294, 0.0438],
        [0.0675, 0.0934, 0.0223, 0.0596],
        [0.9125, 0.3683, 0.0185, 0.0347],
        [0.9905, 0.3934, 0.0191, 0.0373],
        [0.5370, 0.1577, 0.0211, 0.0553]]), 
 'labels': tensor([2, 2, 2, 2, 1, 1, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 
 'image_id': tensor([565286]), 
 'area': tensor([ 3843.2710,  1264.0637,   753.2280,  8374.9131, 11725.9863, 11407.3760, 373.8589,  1965.6881,   649.5052,   625.6856,   483.2297,   117.1264, 733.8372,   727.9525,   758.3719,   307.3998,   365.8919,   712.7703]), 
 'iscrowd': tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]), 
 'orig_size': tensor([512, 640]), 
 'size': tensor([736, 920])})

你可能感兴趣的:(Transformer,目标检测,transformer,深度学习)

python模块triton安装教程 2401_85863780 1024程序员节 triton whl
Triton是一个用于高性能计算的开源库，特别适用于深度学习和科学计算。通过预编译的whl文件安装Triton可以简化安装过程，尤其是在编译时可能会遇到依赖问题的情况下。以下是详细的安装步骤：安装前准备：Python环境：确保已经安装了Python，并且Python版本与whl文件兼容。pip：确保已经安装了pip，这是Python的包管理器，用来安装外部库。下载whl文件：从可靠的来源下载适用于
【机器学习】逻辑回归(LogisticRegression)原理与实战 GentleCP 机器学习(深度学习)逻辑回归 logistic regression 原理与实战机器学习
文章目录前言一、什么是逻辑回归1.1逻辑回归基础概念1.2逻辑回归核心概念二、逻辑回归Demo2.1数据准备2.2创建逻辑回归分类器2.3分类器预测三、逻辑回归实战3.1数据准备3.2数据划分与模型创建3.3预测数据评估模型四、参数选择五、总结六、参考资料本文属于我的机器学习/深度学习系列文章，点此查看系列文章目录前言本文主要通过文字和代码样例讲述逻辑回归的原理（包含逻辑回归的基础概念与推导）和实
Transformer AI专题精讲深度学习 transformer 深度学习自然语言处理
1.TransformerTransformer是一种新的、基于attention机制来实现的特征提取器，可用于代替CNN和RNN来提取序列的特征。Transformer首次由论文《AttentionIsAllYouNeed》提出，在该论文中Transformer用于encoder-decoder架构。事实上Transformer可以单独应用于encoder或者单独应用于decoder。Trans
《深度Q网络优化：突破高维连续状态空间的束缚》人工智能深度学习
在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。但当面对高维连续状态空间时，DQN会出现训练不稳定、收敛速度慢等问题，严重限制了其应用范围。如何优化DQN以适应高维连续状态空间，成为当下研究的热点。深度Q网络基础回顾深度Q网络结合了深度学习强大的特征提取能力与Q学习的决策优化思想。在传统强化学习中，Q学习通过Q表记录每个状态-动作对
智享AI直播三代系统，开启「机器人比人更会带货」时代！缘分开始t621238 人工智能机器人
智享AI直播三代系统，开启「机器人比人更会带货」时代！在当今数字化浪潮汹涌的时代，直播行业作为电商领域的重要驱动力，正经历着前所未有的变革。近日，智享AI直播三代系统的横空出世，宛如一颗重磅炸弹，在直播行业掀起了惊涛骇浪，正式开启了「机器人比人更会带货」的全新时代。一、技术革新，颠覆传统直播模式智享AI直播三代系统的诞生，标志着直播行业进入了智能化的新纪元。它融合了先进的人工智能技术，包括深度学习
Transformer以及BERT阅读参考博文 mumukehao 文本属性图文本属性图
Transformer以及BERT阅读参考博文Transformer学习：已有博主的讲解特别好了：李沐：Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎：Transformer模型详解（图解最完整版）-知乎个人杂想：QKT∗VQK^{T}*VQKT∗V中，QKTQK^TQKT其实可以理解为相似性矩阵S，那么S∗VS*VS∗V其实就相当于相似性矩阵对原始的嵌入加权求和。
ZCC6507: A Superior Isolated Power Solution Outperforming SN6507 zhichengwei 其他
Inthefieldofisolatedpowerdesign,engineersareconstantlyseekingmoreefficient,flexible,andcost-effectivesolutions.TheZCC6507,ahigh-performancepush-pulltransformerdriver,standsoutwithitsuniquedesignandsig
自学黑客（网络安全），一般人我劝你还是算了吧网安周星星 web安全安全 windows 网络网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包文章讲述了自学网络安全时常见的误区，如先学编程、过度追求深度学习以及收集过多资料，并提供了前期学习的硬件、软件选择建议，强调了基础编程知识和英文能力的重要性。文中给出了详细的学习路线，包括基础操作入门、实战操作以及参加CTF和HVV等竞赛来提升技能，并推荐了一系列相关书籍和学习资源。一、自学网络安全学习的误区和陷阱1.不要试图先成为一
DQN的原理和代码实现 SmallerFL NLP&机器学习 DQN 强化学习深度学习
文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind于2013年提出。DQN结合了Q学习和深度学习，通过使用神经网络来近似Q值函数，解决了传统Q学习在高维状态空间中的问题。2.DQN的训练步骤2.1初始化环境：定义环境（例如，Atari游戏
深度学习基础知识 namelijink 深度学习人工智能
cuda简介：CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的一种并行计算平台和应用程序编程接口（API）。它允许开发人员利用NVIDIA的GPU（图形处理器）来加速各种计算任务，包括科学计算、机器学习、深度学习、数据分析等。NVIDIA是一个全球领先的计算技术公司，专注于设计和制造高性能计算设备。除了生产强大的GPU，NVIDIA还提供与其GPU
【python语言应用】最新全流程Python编程、机器学习与深度学习实践技术应用（帮助你快速了解和入门 Python）赵钰老师 python 机器学习深度学习 python 机器学习深度学习数据分析人工智能
近年来，人工智能领域的飞速发展极大地改变了各个行业的面貌。当前最新的技术动态，如大型语言模型和深度学习技术的发展，展示了深度学习和机器学习技术的强大潜力，成为推动创新和提升竞争力的关键。特别是PyTorch，凭借其灵活性和高效性，成为科研人员和工程师的首选工具。理解和掌握深度学习的基础知识，深入了解其与经典机器学习算法的区别与联系，并系统掌握包括迁移学习、循环神经网络（RNN）、长短时记忆网络（L
【Python深入浅出㊸】解锁Python3中的TensorFlow：开启深度学习之旅奔跑吧邓邓子 Python深入浅出 python 深度学习 tensorflow
目录一、TensorFlow简介1.1定义与背景1.2特点二、Python3与TensorFlow的关系2.1版本对应2.2为何选择Python3三、安装TensorFlow3.1安装步骤3.2验证安装四、TensorFlow基本概念与使用方法4.1计算图（Graph）4.2会话（Session）4.3张量（Tensor）4.4变量（Variable）4.5占位符（Placeholder）五、Te
【Java】已解决：java.util.concurrent.ExecutionException 屿小夏 java 开发语言 android
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
c++加载TensorRT调用深度学习模型方法 feibaoqq 深度学习深度学习 YOLO
使用TensorRT来调用训练好的模型并输出结果是一个高效的推理过程，特别是在需要低延迟和高吞吐量的应用场景中。以下是一个基本的步骤指南，展示了如何在C++中使用TensorRT进行推理。步骤1：准备环境安装TensorRT：确保你已经安装了NVIDIATensorRT库。准备模型：确保你的训练好的模型已经转换为TensorRT支持的格式，通常是一个.engine文件。你可以使用onnx-tens
23. AI-大语言模型真上帝的左手 23.AI 人工智能语言模型自然语言处理
文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四、再谈DeepSeek前言AI‌一、LLMLLM（LargeLanguageModel，大语言模型）‌1.简介 LLM（LargeLanguageModel，大语言模型）‌是指使用大量文本
点云从入门到精通技术详解100篇-基于 CBCT 与口内扫描数据的牙齿点云配准格图素书深度学习计算机视觉数学建模人工智能
目录前言国内外研究现状传统牙齿配准点云配准2牙齿数据的深度学习点云配准基础2.1牙齿数据获取方法2.1.1口腔印模2.1.2辐射成像2.1.3口内扫描2.2深度学习网络2.2.1全连接神经网络2.2.2卷积神经网络2.2.3孪生神经网络2.3点云数据配准基础2.3.1点云数据格式2.3.2点云旋转表达2.3.3传统点云配准方法3基于PCRNet的PCR-SA牙齿点云配准3.1CBCT-IOS牙齿配
Python深度学习代做目标检测NLP计算机视觉强化学习 matlabgoodboy 计算机视觉 python 深度学习
了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。1.Python深度学习代做概述目标检测：目标检测是计算机视觉中的一个重要任务，旨在识别图像或视频中的特定对象，并确定它们的位置。Python中的深度学习框架（如TensorFlow、PyTorch）和计算机视觉
基于深度学习YOLOv5的活体人脸检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 人工智能目标跟踪计算机视觉开发语言
一、前言随着人工智能技术的快速发展，计算机视觉（ComputerVision）已广泛应用于各种实际场景中，特别是在安全、金融、医疗等领域。人脸识别作为计算机视觉的一个重要应用，已经成为很多身份验证、安防监控、智能门禁等系统的核心技术。近年来，随着深度学习的突破，YOLO（YouOnlyLookOnce）系列算法因其高效、准确、实时的特点，广泛应用于物体检测任务。在实际的人脸识别应用中，活体人脸检测
【深度学习】计算机视觉（CV）-目标检测-SSD（Single Shot MultiBox Detector）—— 单次检测多框检测器 IT古董深度学习人工智能计算机视觉深度学习目标检测
SSD（SingleShotMultiBoxDetector）——单次检测多框检测器1️⃣什么是SSD？SSD(SingleShotMultiBoxDetector)是一种用于目标检测（ObjectDetection）的深度学习模型，由WeiLiu等人在2016年提出。它采用单阶段（SingleStage）方法，能够直接从图像中检测多个对象，并输出类别和边界框，比传统的两阶段方法（如FasterR
【深度学习】YOLO-World: Real-Time Open-Vocabulary Object Detection，目标检测 XD742971636 深度学习机器学习深度学习 YOLO 目标检测
介绍一个酷炫的目标检测方式：论文：https://arxiv.org/abs/2401.17270代码：https://github.com/AILab-CVC/YOLO-World文章目录摘要Introduction第2章相关工作2.1传统目标检测2.2开放词汇目标检测第3章方法3.1预训练公式：区域-文本对3.2模型架构3.3可重参数化的视觉-语言路径聚合网络（RepVL-PAN）3.4预训练
PyTorch入门实战：从零搭建你的第一个神经网络不打滑的西瓜皮机器学习深度学习人工智能神经网络 python pytorch pycharm
目录一、PyTorch简介：为什么选择它？二、环境搭建：5分钟快速安装三、核心概念：张量与自动求导1.张量（Tensor）：深度学习的数据基石2.自动求导（Autograd）：神经网络训练的核心四、实战：手写数字识别（MNIST）1.数据集加载与预处理2.构建卷积神经网络（CNN）3.训练与评估五、下一步学习建议一、PyTorch简介：为什么选择它？PyTorch是当前最热门的深度学习框架之一，由
超火的Deepseek的MOE架构是什么? 魔王阿卡纳兹大模型知识札记架构 DeepSeek MoE 大模型
DeepSeek的MOE（MixtureofExperts，混合专家）架构是一种基于专家模型（MixtureofExperts）的深度学习框架，旨在通过动态选择和激活部分专家模块来提高计算效率和模型性能。以下是对其核心特点和工作原理的详细介绍：1.核心概念与架构MOE架构的基本思想是将模型划分为多个“专家”模块，每个专家专注于处理特定类型的任务或数据特征。在推理时，通过门控机制（GatingMec
使用神经架构搜索（Neural Architecture Search, NAS）自动化设计高效深度学习模型的技术详解瑕疵热点资讯
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高效深度学习模型的技术详解使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高效深度学习模型的技术详解使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高
目标检测代码示例（基于Python和OpenCV） matlab_python22 计算机视觉
引言目标检测是计算机视觉领域中的一个核心任务，其目标是在图像或视频中定位和识别特定对象。随着技术的发展，目标检测算法不断演进，从传统的基于手工特征的方法到现代的深度学习方法，再到基于Transformer的架构，目标检测技术已经取得了显著的进步。本文将总结和对比几种主要的目标检测算法，探讨它们的优势、劣势和适用场景。1.目标检测算法分类1.1单阶段检测（One-Stage）与双阶段检测（Two-S
基于深度学习YOLOv8的海洋动物检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 目标检测人工智能开发语言
引言近年来，计算机视觉技术在各行各业中得到了广泛的应用，特别是在智能监控、自动驾驶、医疗诊断等领域。深度学习，尤其是卷积神经网络（CNN）的出现，极大地提高了计算机处理图像和视频的能力。在这一领域，YOLO（YouOnlyLookOnce）系列模型以其高效且准确的目标检测能力，成为了当下最为流行的深度学习模型之一。在海洋生物保护、海洋环境监测等应用中，快速识别和检测海洋动物种类对于科学研究和保护工
基于YOLOv5深度学习的木材表面缺陷检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
随着工业自动化的发展，木材加工行业对产品质量的要求日益提高。木材表面缺陷的检测是确保产品质量的重要环节。传统的人工检测方式不仅费时费力，而且容易受到人为因素的影响。基于深度学习的目标检测技术，尤其是YOLOv5，凭借其优越的实时性和准确性，成为木材表面缺陷检测的有效工具。本博客将详细介绍如何构建一个基于YOLOv5的木材表面缺陷检测系统，包括数据集准备、模型训练、UI界面开发及完整代码实现。目录目
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案） lusterku 动手学深度学习深度学习笔记线性回归
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）线性回归的从零开始实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练练习1.如果我们将权重初始化为零，会发生什么。算法仍然有效吗？2.计算二阶导数时可能会遇到什么问题？这些问题可以如何解决？3.为什么在`squared_loss`函数中需要使用`reshape`函数？4.尝试使用不同的学习率，观察损失函数值下
用java实现word（docx）转换为pdf格式文档（简单版） xiaoxiaobaozhu java word pdf
导入依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3代码//word文档替换成pdf文档privatestaticvoidreplaceWordToPdf(StringwordPath,StringpdfPath){FileinputWord=newFil
Bengio新作Aaren：探索Transformer性能与RNN效率的融合 AI记忆深度学习论文与相关应用 transformer rnn 深度学习 Aaren Bengio
论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练，而且能够在推理时高效地更新新令牌，仅需要常数内存。实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据
发文新思路！双通道CNN的惊人突破，准确率接近100%！沃恩智慧深度学习人工智能 cnn 人工智能神经网络
双通道CNN作为一种创新的卷积神经网络架构，正引领深度学习领域的新趋势。其核心优势在于并行卷积层设计，能够同时处理更多特征信息，从而显著提升模型的特征表示能力和识别精度。这种架构不仅提高了计算效率，还有效降低了过拟合风险，使其在复杂视觉任务中表现卓越。例如，最新的研究提出了一种名为DDTransUNet的混合网络，结合了Transformer和CNN的优势，通过双分支编码器和双重注意力机制，有效解
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d