Leo-Peng

计算机视觉算法——基于Transformer的目标检测（DN DETR / DINO / Sparser DETR / Lite DETR）

计算机视觉算法——基于Transformer的目标检测（DN DETR / DINO）

计算机视觉算法——基于Transformer的目标检测（DN DETR / DINO）
- 1. DN DETR
- - 1.1 Stablize Hungarian Matching
  - 1.2 Denoising
  - 1.3 Attention Mask
- 2. DINO
- - 2.1 Contrastive Denoising
  - 3.2 Mix Query
  - 3.3 Look Forward Twice
- 3. Sparse DETR
- - 3.1 Encoder Token Sparsification
  - 3.2 Scoring Network
  - 3.3 Encoder Auxiliary Loss and Top-K Decoder Queries
- 4. Lite DETR
- - 4.1 Motivation and Analysis
  - 4.2 Interleaved Update
  - 4.3 Key-aware Deformable Attention

计算机视觉算法——基于Transformer的目标检测（DN DETR / DINO）

自DETR年提出来之后，许多Paper针对DETR中收敛速度慢、检测效果差等问题进行了针对性优化，在
计算机视觉算法——基于Transformer的目标检测（DETR / Deformable DETR / Dynamic DETR / DETR 3D）
计算机视觉算法——基于Transformer的目标检测（Efficient DETR / Anchor DETR / Conditional DETR / DAB DETR）
中我们对DETR以及其部分优化方法进行了总结，本篇博客我们针对这些优化方法进行进一步补充。

1. DN DETR

DN DETR发表于2022年CVPR，该论文的主要贡献是在训练过程中引入了去噪任务，进一步加速了训练收敛速度，仅用12个Epochs就可以得到不错的效果

1.1 Stablize Hungarian Matching

在Anchor DETR、Conditional DETR、DAB DETR等一系列工作中，研究方向多集中在如何修改网络结构或者给Learnable Query赋予先验以加速网络的收敛，而DN DETR则引入了一个新的思路，如何稳定匈牙利匹配的过程来加速收敛。

匈牙利匹配是基于全局最优的思想通过规则定义的Cost矩阵计算出匹配的结果，由于匹配的离散性和训练的随机性，这会使得Query和Ground Truth的匹配是一个非常不稳定的过程。

DN DETR提出的方法是取消匈牙利匹配过程，我们先验地告诉每一个Query它需要学习的GroundTruth是哪个，但是如果直接给Query提供对应GroundTruth的监督，会使得这个任务对于DN DETR过于简单。因此作者考虑到给GroundTruth加入噪声作为输入，然后使用GroundTruth来重建输出，让DN DETR去完成去噪任务。因为每个Query对应的GroundTruth是稳定不变的，也就避免了上上述不稳定匹配的过程。

下面我们来看看是DN DETR是如何添加噪声的：

1.2 Denoising

DN DETR带Denoising的训练过程如下图所示：

从图中我们可以看到，Denoising Part是一个完全增量的模块，原始基于匈牙利匹配的Matching Part并不会丢弃。DN DETR是基于DAB DETR进行开发的，在DAB DETR中，Query被分成了Content Query和Position Query两部分，因此对于真值的噪声添加我们也分为Content和Positoin两部分

Content Noise
Content Noise即对GT Label添加噪声，由于GT Label是一个数字，如果只是将这个数字修改另外一个数字肯定是不够的，我们需要将加噪的GT Label编码为Embedding向量，具体来说我们需要做如下操作：

在模型中设置一个Embedding Matrix，由其对加噪的GT Label进行编码得到对应的Class Embedding；
考虑到对Matching Part的友好性，在Class Embedding部分拼接了指示向量Indicator，用来甄别Query到底是做Denoising任务还是Matching任务；
在原始的DETR中，Query的Content部分是初始化为零向量，在这里我们需要对Query的Content部分进行改造，对于左Denosing任务Content Query初始化为‘Non Object’类别，这个值应该不小于GT Label的类别数Num_Classes并且通过Embedding Matrix进行编码。对于做Denoising任务的Content Query则初始化为0到Num_Classes-1，同样通过Embedding Matrix进行编码。

Position Noise
Position Noise即对4D Anchor Box部分添加噪声。这部分噪声可以概括为中心点位移和尺度缩放：

中心点位移：首先从均匀分布中采样一个扰动参数 $\lambda_1 \in(0,1)$ ，然后分别计算中心点 $x, y$ 对应偏移量为 $|\Delta x|=\lambda _1 x,| \Delta y \mid=\lambda_1 y$ 由于 $x=w_2$ ， $y=h_2$ ，于是扰动后中心点 $\pm \Delta {x}, {y} \pm \Delta {y})$ 还位于原框内
尺度缩放：同样从均匀分布中采集一个扰动参数 $\lambda_2 \in(0,1)$ ，然后也是分别计算宽高对应的偏移量 $|\Delta w|=\lambda_2 w,| \Delta h \mid=\lambda_2 h$ ，最终得到缩放后的宽高 $\pm \lambda_2) w,(1 \pm \lambda_2) h$ ，也就是说，宽高会缩放至原来的 $0$ 到 $2$ 倍

对于不同噪声影响的大小，作者在实验部分进行的对比：

Denoising Groups
为了更充分地利用Denosing任务去提升模型的学习效率，我们可以让模型堆每个Ground Truth在不同程度的噪声下都拥有纠错能力，作者设置了Denoising Groups，即多个去噪组，每个Ground Truth在每组内都会有一个Noised Query负责去预测。

在每组内Ground Truth和Query是One-to-One的关系，但是总和每组来看Ground Truth和Query就是One-to-Many的关系。在CNN的目标检测方法中经常使用到这种One-to-Many的关系，即由多个Anchor去预测同一个Ground Truth，这种训练监督方式会导致这些方法避免不了使用NMS进行后处理，但是在DN DETR中，这种One-to-Many的关系仅在训练的时候起到加速收敛的作用，但是在实际推理时仍然是使用Matching Part的二分匹配的结果，因此可以避免NMS

从上图的实验对比结果可以看出来，适当增加Denosing Group可以提高模型AP。

1.3 Attention Mask

在Transformer的构建中，如果没有特殊处理，Denosing Part的Query和Matching Part的Query是会进行Attention交互的。Denosing Part的Query中包含大量Ground Truth信息的，如果Matching Part的Query通过Attention获取到了这些Ground Truth的信息，学习的效果肯定会大打折扣。因此作者在训练过程中添加了Attention Mask来组织Ground Truth的信息泄露。

如何设置Attention Mask呢？

Matching Part的Queries不能看到Denoising Part的Query，原因上面已经分析过。
不同Denoising Group的Queries不能相互看到，原因是每个Denoising Group中必定有一个Query拥有当前Query负责预测的Ground Truth的信息，如果拿当前Query和其他Denosing Group的Queries进行Attention势必会导致信息泄露。
相同Denoising Group的Queries可以相互看到，原因是对于同组的Queries各自负责的Ground Truth都是不相同的，因此相互Attention不会存在信息泄露。

从下面实验结果看，Attention Mask在训练过程中起到了至关重要的作用：

下面我们通过代码看看上述各个要点是如何实现的：
DN DETR的代码主要是基于DAB DETR的工程实现的，主要代码实现在dn_component.py脚本中，首先是构建Noise和Attention Mask的部分：

def prepare_for_dn(dn_args, embedweight, batch_size, training, num_queries, num_classes, hidden_dim, label_enc):
    """
    prepare for dn components in forward function
    Args:
        dn_args: (targets, args.scalar, args.label_noise_scale, args.box_noise_scale, args.num_patterns) from engine input
        embedweight: positional queries as anchor
        training: whether it is training or inference
        num_queries: number of queries
        num_classes: number of classes
        hidden_dim: transformer hidden dimenstion
        label_enc: label encoding embedding

    Returns: input_query_label, input_query_bbox, attn_mask, mask_dict
    """
    if training:
    	# targets是list[dict]，每个dict中存储的一张图片上ground truth的所有目标框的label和boxes，一个target就是一个batch
    	# scalar代表的去噪的组数，默认是5
        targets, scalar, label_noise_scale, box_noise_scale, num_patterns = dn_args
    else:
        num_patterns = dn_args

    if num_patterns == 0:
        num_patterns = 1
    # 用于指示匹配的任务的向量，全部初始化为0
    indicator0 = torch.zeros([num_queries * num_patterns, 1]).cuda()
    # label_enc = nn.Embedding(num_classes + 1, hidden_dim - 1), num_class+1的原因是tgt的初始值为num_classes，代表non object，hidden_dim-1的原因是需要concate indicator0，在原detr中tgt初始化为零向量
    tgt = label_enc(torch.tensor(num_classes).cuda()).repeat(num_queries * num_patterns, 1)
    # content部分:(num_queries*num_patterns,hidden_dim)
    tgt = torch.cat([tgt, indicator0], dim=1)
	# position部分:(num_queries,4)->(num_query*num_patterns,4)
    refpoint_emb = embedweight.repeat(num_patterns, 1)
    if training:
    	# 每张图片上所有ground truth的数量是不一样的
        known = [(torch.ones_like(t['labels'])).cuda() for t in targets]
        # know_idx中元素是shape为(num_gt_img, 1)，值为1的tensor, 后序用于记录每个目标框的索引
        know_idx = [torch.nonzero(t) for t in known]
        # 记录batch中图片的ground truth的数量
        known_num = [sum(k) for k in known]
        # you can uncomment this to use fix number of dn queries
        # if int(max(known_num))>0:
        #     scalar=scalar//int(max(known_num))

        # can be modified to selectively denosie some label or boxes; also known label prediction
        # torch.cat是把batch中所有的ground truth的索引排成一排
        unmask_bbox = unmask_label = torch.cat(known)
        labels = torch.cat([t['labels'] for t in targets])
        boxes = torch.cat([t['boxes'] for t in targets])
        # 记录每个ground truth的图片在在整个batch中是第几张图片
        batch_idx = torch.cat([torch.full_like(t['labels'].long(), i) for i, t in enumerate(targets)])
		# 记录每个ground truth在整个batch中的位置，
        known_indice = torch.nonzero(unmask_label + unmask_bbox)
        known_indice = known_indice.view(-1)

        # add noise
        # 将indice，labels,batch_id,bounding box复制到所有去噪组中去
        known_indice = known_indice.repeat(scalar, 1).view(-1)
        known_labels = labels.repeat(scalar, 1).view(-1)
        known_bid = batch_idx.repeat(scalar, 1).view(-1)
        known_bboxs = boxes.repeat(scalar, 1)
        # 用于在label上添加噪声
        known_labels_expaned = known_labels.clone()
		# 用于在boxes上添加噪声
        known_bbox_expand = known_bboxs.clone()

        # noise on the label
        if label_noise_scale > 0:
        	# (scalar*num_gts_batch,) 从均匀分布中采样
            p = torch.rand_like(known_labels_expaned.float())
            # 选择一半的label进行添加噪声
            chosen_indice = torch.nonzero(p < (label_noise_scale)).view(-1)  # usually half of bbox noise
            # 论文中的flip操作，随机选择任意的类别作为噪声
            new_label = torch.randint_like(chosen_indice, 0, num_classes)  # randomly put a new one here
            known_labels_expaned.scatter_(0, chosen_indice, new_label)
        # noise on the box
        if box_noise_scale > 0:
            diff = torch.zeros_like(known_bbox_expand)
            # bounding box的中心点坐标
            diff[:, :2] = known_bbox_expand[:, 2:] / 2
            # bounding box的猖狂
            diff[:, 2:] = known_bbox_expand[:, 2:]
            # 在原来ground truth的boxes上加上偏移量，并且保证添加噪声后框的中心点在原来的框内
            known_bbox_expand += torch.mul((torch.rand_like(known_bbox_expand) * 2 - 1.0),
                                           diff).cuda() * box_noise_scale
            known_bbox_expand = known_bbox_expand.clamp(min=0.0, max=1.0)

        m = known_labels_expaned.long().to('cuda')
        input_label_embed = label_enc(m) # 对添加噪声的ground truth进行编码
        # add dn part indicator
        indicator1 = torch.ones([input_label_embed.shape[0], 1]).cuda()
        input_label_embed = torch.cat([input_label_embed, indicator1], dim=1) 
        input_bbox_embed = inverse_sigmoid(known_bbox_expand)
        single_pad = int(max(known_num)) # 整个batch中一张图片最多的ground truth的数量
        pad_size = int(single_pad * scalar) # 相当于将同一个ground truth的不同噪声组拼接成一行，然后repeate成batch size行
        padding_label = torch.zeros(pad_size, hidden_dim).cuda()
        padding_bbox = torch.zeros(pad_size, 4).cuda()
        # 将去噪任务和匹配任务的query拼接在一起
        input_query_label = torch.cat([padding_label, tgt], dim=0).repeat(batch_size, 1, 1)
        input_query_bbox = torch.cat([padding_bbox, refpoint_emb], dim=0).repeat(batch_size, 1, 1)

		# 由于上面input_query_label和input_query_box是padded的并且初始化为0，因此需要将每张图片真实有效的noised label和noisd boxes放到正确的位置上
        # map in order
        map_known_indice = torch.tensor([]).to('cuda')
        if len(known_num):
        	# 得到每个ground truth在每张图片上的独立索引
            map_known_indice = torch.cat([torch.tensor(range(num)) for num in known_num])  # [1,2, 1,2,3]
            # 计算每个ground truth在每张图片生成的所有去噪组上的索引
            map_known_indice = torch.cat([map_known_indice + single_pad * i for i in range(scalar)]).long()
        if len(known_bid):
        	# 将去噪任务中的noised labels和noises boxes放到对应的位置上
            input_query_label[(known_bid.long(), map_known_indice)] = input_label_embed # 属于那张图片，是这张图片上的第几个噪声组的第几个label
            input_query_bbox[(known_bid.long(), map_known_indice)] = input_bbox_embed

        tgt_size = pad_size + num_queries * num_patterns
        attn_mask = torch.ones(tgt_size, tgt_size).to('cuda') < 0
        # match query cannot see the reconstruct
        attn_mask[pad_size:, :pad_size] = True
        # reconstruct cannot see each other
        for i in range(scalar): # 按照制定的规则设置attention mask
            if i == 0:
                attn_mask[single_pad * i:single_pad * (i + 1), single_pad * (i + 1):pad_size] = True
            if i == scalar - 1:
                attn_mask[single_pad * i:single_pad * (i + 1), :single_pad * i] = True
            else:
                attn_mask[single_pad * i:single_pad * (i + 1), single_pad * (i + 1):pad_size] = True
                attn_mask[single_pad * i:single_pad * (i + 1), :single_pad * i] = True
        mask_dict = {
            'known_indice': torch.as_tensor(known_indice).long(),  # (scalar*num_gts_batch,) 每个 gt 在整个 batch 中的索引
            'batch_idx': torch.as_tensor(batch_idx).long(), # (num_gts_batch,)  每个 gt 所在图片的 batch 索引
            'map_known_indice': torch.as_tensor(map_known_indice).long(),  # (num_gts_batch*scalar,)  噪声 queries(非 padding 的) 的索引
            'known_lbs_bboxes': (known_labels, known_bboxs),  # (scalar*num_gts_batch,), (scalar*num_gts_batch,4)
            'know_idx': know_idx,  # List[Tensor]: 其中每个 Tensor 的 shape 是 (num_gt_img,1)  每个 gt 在其图片中的索引
            'pad_size': pad_size  # 该 batch 中噪声 queries 的数量(包括 padding 的)
        }
    else:  # no dn for inference
        input_query_label = tgt.repeat(batch_size, 1, 1)# (num_queries*num_patterns,hidden_dim)->(batch_size,num_queries*num_patterns,hidden_dim)
        input_query_bbox = refpoint_emb.repeat(batch_size, 1, 1)# (num_query*num_patterns,4)->(batch_size,num_query*num_patterns,4)
        attn_mask = None
        mask_dict = None
        
	# 將 batch 的维度置换到第二維(dim1)，以适配 transformer 的輸入
    input_query_label = input_query_label.transpose(0, 1)
    input_query_bbox = input_query_bbox.transpose(0, 1)

    return input_query_label, input_query_bbox, attn_mask, mask_dict

其次从输出中分离去噪任务和匹配任务的部分：

def dn_post_process(outputs_class, outputs_coord, mask_dict):
    """
    post process of dn after output from the transformer
    put the dn part in the mask_dict
    """
    if mask_dict and mask_dict['pad_size'] > 0:
        # 取出去噪任务的结果
        # (num_layers,batch,pad_size,num_classes)
        output_known_class = outputs_class[:, :, :mask_dict['pad_size'], :]
        # (num_layers,batch,pad_size,4)
        output_known_coord = outputs_coord[:, :, :mask_dict['pad_size'], :]
        
		# 让 outputs_class & outputs_coord 保持为原始 DETR 匹配任务的预测结果，与原始DETR架构兼容
        outputs_class = outputs_class[:, :, mask_dict['pad_size']:, :]
        outputs_coord = outputs_coord[:, :, mask_dict['pad_size']:, :]

        # 將去噪任务的预测結果记录到 mask_dict
        mask_dict['output_known_lbs_bboxes']=(output_known_class,output_known_coord)
    return outputs_class, outputs_coord

然后是Loss计算前进行的预处理部分，主要对去噪任务的Query去Padding，仅对真实有效的Query计算Loss：

def prepare_for_loss(mask_dict):
    """
    prepare dn components to calculate loss
    Args:
        mask_dict: a dict that contains dn information
    """
    # (num_layers,batch,pad_size,num_classes), (num_layers,batch,pad_size,4)
    output_known_class, output_known_coord = mask_dict['output_known_lbs_bboxes']
    # (num_dn_groups*num_gts_batch,), (num_dn_groups*num_gts_batch,4)
    known_labels, known_bboxs = mask_dict['known_lbs_bboxes']
    # (num_dn_groups*num_gts_batch,) 非 Padding 部分的 Queries 索引
    map_known_indice = mask_dict['map_known_indice']
	# (num_dn_groups*num_gts_batch,) 將所有 GT 在 Batch 中排序的索引
    known_indice = mask_dict['known_indice']
	# (num_gts_batch,) 每个 GT 所在图片的 Batch 索引(即是该 batch 中的第几张图)
    batch_idx = mask_dict['batch_idx']
    # (num_dn_groups*num_gts_batch,) 所有去噪組每个 GT/Queries 所在图片的 Batch 索引
    bid = batch_idx[known_indice]

	# 过滤，仅保留非 Padding 部分的 Quries 对应的预测结果
    if len(output_known_class) > 0:
        output_known_class = output_known_class.permute(1, 2, 0, 3)[(bid, map_known_indice)].permute(1, 0, 2)
        output_known_coord = output_known_coord.permute(1, 2, 0, 3)[(bid, map_known_indice)].permute(1, 0, 2)
    num_tgt = known_indice.numel()
    return known_labels, known_bboxs, output_known_class, output_known_coord, num_tgt

最后是Loss计算部分：

def compute_dn_loss(mask_dict, training, aux_num, focal_alpha):
    """
    compute dn loss in criterion
    Args:
        mask_dict: a dict for dn information
        training: training or inference flag
        aux_num: aux loss number
        focal_alpha:  for focal loss
    """
    losses = {}
    # 先计算Transformer最后一层的预测结果对应的Loss
    if training and 'output_known_lbs_bboxes' in mask_dict:
    	# 过滤掉Padding部分的Queries的预测记过，使得GT与Query的预测结果一一对应
        known_labels, known_bboxs, output_known_class, output_known_coord, \
        num_tgt = prepare_for_loss(mask_dict)
        losses.update(tgt_loss_labels(output_known_class[-1], known_labels, num_tgt, focal_alpha))
        losses.update(tgt_loss_boxes(output_known_coord[-1], known_bboxs, num_tgt))
    else:
        losses['tgt_loss_bbox'] = torch.as_tensor(0.).to('cuda')
        losses['tgt_loss_giou'] = torch.as_tensor(0.).to('cuda')
        losses['tgt_loss_ce'] = torch.as_tensor(0.).to('cuda')
        losses['tgt_class_error'] = torch.as_tensor(0.).to('cuda')

	# 计算Transformer除最后一层外其余每层预测结果对应的Loss
    if aux_num:
        for i in range(aux_num):
            # dn aux loss
            if training and 'output_known_lbs_bboxes' in mask_dict:
                l_dict = tgt_loss_labels(output_known_class[i], known_labels, num_tgt, focal_alpha)
                l_dict = {k + f'_{i}': v for k, v in l_dict.items()}
                losses.update(l_dict)
                l_dict = tgt_loss_boxes(output_known_coord[i], known_bboxs, num_tgt)
                l_dict = {k + f'_{i}': v for k, v in l_dict.items()}
                losses.update(l_dict)
            else:
                l_dict = dict()
                l_dict['tgt_loss_bbox'] = torch.as_tensor(0.).to('cuda')
                l_dict['tgt_class_error'] = torch.as_tensor(0.).to('cuda')
                l_dict['tgt_loss_giou'] = torch.as_tensor(0.).to('cuda')
                l_dict['tgt_loss_ce'] = torch.as_tensor(0.).to('cuda')
                l_dict = {k + f'_{i}': v for k, v in l_dict.items()}
                losses.update(l_dict)
    return losses

def tgt_loss_boxes(src_boxes, tgt_boxes, num_tgt,):
    """Compute the losses related to the bounding boxes, the L1 regression loss and the GIoU loss
       targets dicts must contain the key "boxes" containing a tensor of dim [nb_target_boxes, 4]
       The target boxes are expected in format (center_x, center_y, w, h), normalized by the image size.
    """
    if len(tgt_boxes) == 0:
        return {
            'tgt_loss_bbox': torch.as_tensor(0.).to('cuda'),
            'tgt_loss_giou': torch.as_tensor(0.).to('cuda'),
        }

	# 计算 L1 Loss
    loss_bbox = F.l1_loss(src_boxes, tgt_boxes, reduction='none')

    losses = {}
    losses['tgt_loss_bbox'] = loss_bbox.sum() / num_tgt

	# 计算 GIOU Loss
    loss_giou = 1 - torch.diag(box_ops.generalized_box_iou(
        box_ops.box_cxcywh_to_xyxy(src_boxes),
        box_ops.box_cxcywh_to_xyxy(tgt_boxes)))
    losses['tgt_loss_giou'] = loss_giou.sum() / num_tgt
    return losses


def tgt_loss_labels(src_logits_, tgt_labels_, num_tgt, focal_alpha, log=True):
    """Classification loss (NLL)
    targets dicts must contain the key "labels" containing a tensor of dim [nb_target_boxes]
    """
    if len(tgt_labels_) == 0:
        return {
            'tgt_loss_ce': torch.as_tensor(0.).to('cuda'),
            'tgt_class_error': torch.as_tensor(0.).to('cuda'),
        }
	# 增加Batch的维度
    src_logits, tgt_labels= src_logits_.unsqueeze(0), tgt_labels_.unsqueeze(0)

	# 制作One Hot类别标签，类别为(1,num_dn_groups*num_gts_batch,num_classes+1)
    target_classes_onehot = torch.zeros([src_logits.shape[0], src_logits.shape[1], src_logits.shape[2] + 1],
                                        dtype=src_logits.dtype, layout=src_logits.layout, device=src_logits.device)
    target_classes_onehot.scatter_(2, tgt_labels.unsqueeze(-1), 1)
    target_classes_onehot = target_classes_onehot[:, :, :-1]
	
	# 计算Focal Loss
    loss_ce = sigmoid_focal_loss(src_logits, target_classes_onehot, num_tgt, alpha=focal_alpha, gamma=2) * src_logits.shape[1]

    losses = {'tgt_loss_ce': loss_ce}

    losses['tgt_class_error'] = 100 - accuracy(src_logits_, tgt_labels_)[0]
    return losses

def sigmoid_focal_loss(inputs, targets, num_boxes, alpha: float = 0.25, gamma: float = 2):
    """
    Loss used in RetinaNet for dense detection: https://arxiv.org/abs/1708.02002.
    Args:
        inputs: A float tensor of arbitrary shape.
                The predictions for each example.
        targets: A float tensor with the same shape as inputs. Stores the binary
                 classification label for each element in inputs
                (0 for the negative class and 1 for the positive class).
        alpha: (optional) Weighting factor in range (0,1) to balance
                positive vs negative examples. Default = -1 (no weighting).
        gamma: Exponent of the modulating factor (1 - p_t) to
               balance easy vs hard examples.
    Returns:
        Loss tensor
    """

    # 將原始输出转换为 0~1 概率
    prob = inputs.sigmoid()

    # 计算二元交叉熵损失
    # (1,num_dn_groups*num_gts_batch,num_classes)
    ce_loss = F.binary_cross_entropy_with_logits(inputs, targets, reduction="none")
    # focal loss 的套路：降低置信度高的样本(包括正負樣本)的权重，对原始 BCE Loss 加权
    p_t = prob * targets + (1 - prob) * (1 - targets)
    loss = ce_loss * ((1 - p_t) ** gamma)

    # 对正负样本加权
    if alpha >= 0:
        alpha_t = alpha * targets + (1 - alpha) * (1 - targets)
        loss = alpha_t * loss

    return loss.mean(1).sum() / num_boxes

以上就是DN DETR的主要代码，总而言之，一方面去噪任务中Query与GT是确定性关系，避免了匈牙利匹配带来的不稳定；另外一方面，多个去噪Groups的设置，相当于引入了One-to-Many的学习方式，使得模型学习更加充分。优化有网络的收敛速度和精度都有明显提升：

2. DINO

DINO发表于2023年3月份，该模型的主要从Contrastive Denosing、Mix Query Slection和Look Forward Twice三个方面进行优化，第一次让DETR系列的检测器取得了目标检测SOTA性能。下面我们从这三个方面依次展开学习下细节：

2.1 Contrastive Denoising

在DN DETR中的去噪部分，我们为每一个真值都分配了一组带不同噪声的Query，作者认为这样会导致所有和去噪相关的Query只会学习正样本，而缺少了对负样本的学习。因此对于噪声较大的Query，我们就应该认为其为负样本，在去噪任务中监督‘No Object’类别，如下图所示：

如上右图所示，训练过程中会设置两个超参 $\lambda_1$ 和 $\lambda_2$ ，当噪声水平小于 $\lambda_1$ 时，我们就认为其是正样本，当噪声水平大于 $\lambda_1$ 并且小于 $\lambda_2$ 时，我们就认为其是负样本，负责预测‘No Object’类别。并且作者在论文中提到， $\lambda_2$ 也会设置得比较小，这样可以使得Query去学会区分位于真值附近的负样本难例，进一步抑制模型对同一目标输出重复框，如下图所示，左图是DN DETR的检测结果，在箭头所指的小男孩区域网络输出了三个重叠的检测框，但是在右侧DINO的检测结果中这个问题得到了改善：

在训练过程中，每个去噪Group会有 $2\times n$ 个Queries，对于正样本的监督对Box回归仍然是采用L1和GIOU Loss，分类仍然是采用Focal Loss，对于负样本则仅使用Focal Loss对分类进行监督。

3.2 Mix Query

在原始DETR和DN DETR中，在训练和推理的过程中Decoder Content Queries都是初始化为全0的Tensor并不会从Encoder Features里面获取任何信息，而Positional Queries则是一个通过nn.Embedding初始化并且可学习的Tensor；Deformable DETR的Decoder中Content Quires和Positional Queries均是可学习的，为了进一步提高性能，Deformable DETR可以执行一个二阶段的筛选，从Encoder输出的Feature中选择得分Top K的特征Tensor来作为Decoder Quries的先验。

在DINO DETR将上述两种方式进行了混合，Positional Quires从Encoder的Top K的特征中进行初始化，而Content Queries仍然初始化为全为0的Tensor，作者认为，Encoder输出的特征还没有进过Decoder的Refinement，作为Content先验会导致混淆，比如一个选择的Feature可能包括多个物体或者一个物体的一部分，但是作为Positional Queris先验是可以帮助更好地去从Encoder中获取信息的。

3.3 Look Forward Twice

在Deformable DETR中，为了稳定训练过程在Iterative Box Refinement在会进行Gradient Detached，上图虚线表示的就是Gradient Detached的位置，在Look Forward Once模式中，第 $i$ 层的参数只会被第 $i$ 层的Auxiliary Loss所更新，但是作者认为，结合上一层的Refinement信息来对当前层的Box进行预测会更有帮助，因此在Look Forward Twice模式中，第 $i$ 层的参数会同时被第 $i$ 层和第 $i + 1$ 层的Auxiliary Loss所影响，具体影响方式如下：

对于每一层的预测 $b_i^{(pred)}$ 的精度主要由当前层的初值 $b_{i-1}$ （即上一层的预测值）和当前层的预测偏移 $\Delta b_i$ 两部分决定，对于Look Forward Once，第 $i$ 层的Auxiliary Loss产生的梯度仅更新预测偏移 $\Delta b_i$ ，梯度信息会在第 $i$ 层到第 $i - 1$ 层中被Detach掉；但是对于Look Forward Twice，则同时更新当前层的初值 $b_{i-1}$ 和当前层的预测偏移 $\Delta b_i$ 两部分，如何更新初值 $b_{i-1}$ 呢？最简单的办法就是直接将 $b_{i-1}$ Gradient Detach前的 $b_{i-1}^{\prime}$ 和 $\Delta b_{i}$ 相加作为第 $i$ 层的输出，如下步骤所示： $\Delta b_i=\operatorname{Layer}_{\mathrm{i}}\left(b_{i-1}\right)$ $b_i^{\prime}=\operatorname{Update}\left(b_{i-1}, \Delta b_i\right)$ $b_i=\operatorname{Detach}\left(b_i^{\prime}\right)$ $b_i^{\text {(pred) }}=\operatorname{Update}\left(b_{i-1}^{\prime}, \Delta b_i\right)$ 其中 $\operatorname{Update}(\cdot, \cdot)$ 是通过预测的偏移 $\Delta b_i$ 更新 $b_{i-1}$ 。

如下是各个模块带来的收益，可以看到Mixed Query Selection、Contrastive Denoising，Look Forward Twice分别带来了0.5，0.5和0.4的提高

最终，DINO的和其他SOTA方法的对比如下：

3. Sparse DETR

Sparser DETR发表于ICLR 2022，前面的文章优化的角度主要是如何加快DETR训练的收敛速度和收敛精度，而本文考虑的主要是如何优化推理速度，主要贡献是通过Sparse Query的方式降低Encoder复杂度，从而在Deformable DETR的基础上将推理速度提高了38%

3.1 Encoder Token Sparsification

作者在文章中首先分析到Deformable DETR使用多尺度特征虽然提高了检测器的性能，但是同时也增加了更多的Query，导致Deformable DETR的推理速度实际上比原始DETR还要慢。而实际上我们检测的图像通常包含大量的背景区域，背景区域的Query和前景区域的Query被同等对待会造成大量的冗余计算，在Deformable DETR中使用Two Stage模式证明了仅使用前景区域的Query可以实现更好的检测性能，在本文中，作者通过实验发现：

在COCO数据集上对一个完全收敛的Deformable DETR进行推理，发现Decoder相关的Encoder中的Token数量仅占总数量的45%
从头重新训练一个新的检测器，但是只更新部分Encoder Token，这些Encoder Token是根据另外一个已经充分训练好的检测器的Decoder挑选的，新训练的检测器大约只有0.1AP的性能损失。

由此可见对Encoder Token进行稀疏化是一个可行的优化方向，那么如何进行稀疏化呢？本文Sparse DETR，主要网络结构如下：

Sparse DETR中核心的三个模块分别是Scoring Network，Encoder Auxiliary Loss和Top-K Decoder Queries，下面分别介绍

3.2 Scoring Network

Scoring Network的作用是输入一个Encoder的特征 $\mathbf{x}_{\text {feat }}$ 和保留比例 $\rho$ ，输出的是特征 $\mathbf{x}_{\text {feat }}$ 中每个Token的显著度，其中满足前 $\rho \%$ 显著度的区域定义为 $\Omega_s^\rho$ ，对于第 $i$ 层的Layer更新第 $i - 1$ 层特征 $\mathbf{x}_{i-1}$ 的方式如下： $\mathbf{x}_i^j= \begin{cases}\mathbf{x}_{i-1}^j & j \notin \Omega_s^\rho \\ \operatorname{LN}\left(\operatorname{FFN}\left(\mathbf{z}_i^j\right)+\mathbf{z}_i^j\right) & j \in \Omega_s^\rho, \text { where } \mathbf{z}_i^j=\operatorname{LN}\left(\operatorname{DefAttn}\left(\mathbf{x}_{i-1}^j, \mathbf{x}_{i-1}\right)+\mathbf{x}_{i-1}^j\right),\end{cases}$ 即属于高显著度区域的Token通过Deformable Attention进行Refine，而属于低显著度区域的Token则直接透传。

那么如何训练Scoring Network或者说如何定义显著度这个指标呢？

在介绍最终的方法前，论文中首先提到了一种使用Objectness Score的方法，Objectness Score指的是在Backbone的Feature上直接接一个和最终检测头相同的结构的检测头，并同样使用匈牙利计算损失，这个检测头输出的前 $\rho \%$ 得分的检测结果就可以作为高显著度区域 $\Omega_s^\rho$ ，这个方法是简单有效的，但是问题也很明显，其计算高显著度区域的过程中完全没有考虑到Decoder

在本文中是使用Transfomer中的Decoder Cross Attention Map（DAM）进行定义的，使用DAM的原因是在训练过程中Decoder的Attention就是逐步集中到到Encoder输出Token的部分子集上的，这和我们想要的显著度的定义一脉相承。在Dense Attention中，DAM可以直接通过将各层Decoder Layer中的Attention Map相加，在Deformable Attention中，DAM可以将Offsets和Encoder Tokens相关的Object Queries的Attention Weights进行累加。然后我们将这些累加获得的DAM作为伪真值建立一个BCE损失来训练一个Scoring Network： $\mathcal{L}_{\text {dam }}=-\frac{1}{N} \sum_{i=1}^N \operatorname{BCE}\left(g\left(\mathbf{x}_{\text {feat }}\right)_i, \mathrm{DAM}_i^{\mathrm{bin}}\right)$ 上述流程可以通过下图进行总结：

论文中提到，可能有的同学会觉得在训练前期，Decoder收敛效果不好可能会影响到DAM的准确性，但是通过实验就是证明使用DAM会比Objectness Score效果要好，如下图所示：

3.3 Encoder Auxiliary Loss and Top-K Decoder Queries

在DETR中，Auxilary Loss通常是加载Decoder Layer上，在Encoder中由于Encoder Token的数量太多，Encoder Auxiliary Loss将会带来巨大的计算量，但是在Sparse DETR中，由于Encoder Token已经被稀疏化，因此添加Auxiliary Loss并不会造成过大的负担，因此在Spase DETR中添加了Encoder Auxiliary Loss帮助区分Encoder中的混淆特征，进一步提高模型的最终检测性能，如下左图就体现了添加了Auxiliary Loss的收益：

在Deformable DETR的Two Stage模式中，是通过Decoder的检测头对Encoder的Feature进行打分，然后选取部分Feature进行Object Query的初始化，在Sparser DETR中，由于我们加了Auxiliary Loss，因为我们可以通过Auxiliary Detection Head对Encoder输出的特征进行打分，然后选取部分作为Decoder Queries的初始化。

综上所述是Sparse DETR的主要内容，如下是精度和效率对比：

可以看到，Sparse DETR在FPS提高的基础上，AP相对于Deformable DETR并没有下降。总而言之，Sparse DETR主要是通过添加一个Scoring Network输出一个Deformable Attention Map来对Encoder Token进行稀疏化，正式由于稀疏化带来的好处，进一步引入了Encoder Auxiliary Loss和Top-K Decoder Queries来提升网络性能。

4. Lite DETR

Lite DETR发表于CVPR 2023，通Sparse DETR一样，Lite DETR考虑的主要是如何优化推理速度，在本文中通过Interleaved Update和Key-aware Deformable Attention使得在降低60%的GFLOPS的基础上保持了99%的检测精度

4.1 Motivation and Analysis

Multi Scale Features对于DETR的精度提升是重要的，但是高分辨率特征的Token的数量是低分辨率的4倍，在DINO中，如果去掉 $1/8$ 分辨率（高分辨率）Feature上的Token的话将在GLOPS上减少48%，但是AP也会损失4.9%，在小目标AP上的损失甚至会达到10.2%。作者认为**，高分辨率特征只拥有的是局部信息更容易收敛，并且在多尺度特征训练的过程中，这些局部信息是会有冗余的**，因此作者考虑是否有办法在训练过程中更加关注与低分辨率特征的更新，减少高分辨率特征更新计算同时保持整个网络的性能。

4.2 Interleaved Update

论文将多尺度特征 $S$ 划分为低层级特征（高分辨率） $F_L \in \mathbb{R}^{N_L \times d_{\text {model }}}$ 和高层级特征（低分辨率） $F_H \in \mathbb{R}^{N_H \times d_{\text {model }}}$ ， $N_H$ 和 $N_L$ 分辨是两者的Token数量，其中 $N_H \approx 6 \% \sim 33 \% N_L$ ，在Lite DETR的网络结构中，会在更新 $A$ 次高层级特征 $F_H$ 后只更新 $1$ 次低层级特征 $F_L$ ，这种更新方式就被定义为Interleaved Update。

对于高层级特征的更新方式如下： $\mathbf{Q}=F_H, \mathbf{K}=\mathbf{V}=\operatorname{Concat}\left(F_H, F_L\right)$ $F_H^{\prime}=K D A(\mathbf{Q}, \mathbf{K}, \mathbf{V})$ $\text { Output }=\text { Concat }\left(F_H^{\prime}, F_L\right)$ 其中 $K A D$ 为Key-aware Deformable Attention，下文将介绍。 $\mathbf{Q}$ 是高层级特征， $\mathbf{K}$ 和 $\mathbf{V}$ 为高低层级特征，输出则是将更新后的高层级特征 $F_H^{\prime}$ 和未更新的低层级特征 $F_H^{\prime}$ Concate结果，在这个过程中，高层级特征和高层级特征进行Attention时类似于Self Attention，在和低层级特征进行Attention时类似于Cross Attention。

对于低层级特征的更新方式如下： $\mathbf{Q}=F_L, \mathbf{K}=\mathbf{V}=\operatorname{Concat}\left(F_H^{\prime}, F_L\right)$ $F_L^{\prime}=K D A(\mathbf{Q}, \mathbf{K}, \mathbf{V})$ $\text { Output }=\text { Concat }\left(F_L^{\prime}, F_H^{\prime}\right)$ 其中 $F_H^{\prime}$ 和 $F_L^{\prime}$ 分别为更新后的高层级特征和低层级特征。为了进一步减小计算量，在Deformable Attention计算时使用的Feed Forward的隐藏层通道数也进行了适当的减小。

4.3 Key-aware Deformable Attention

在原始的Deformable DETR中，Query $Q$ 将会被划分为 $M$ 个Head，每个Head将在 $L$ 层特征上分别生成 $K$ 个点作为Value，因此每个Query的采样点总数为 $N_v=M \times L \times K$ ，其Sample的Offset $\Delta p$ 和对应的Attention Weights都是直接从Query通过两个线性映射层 $W^p\in \mathbb{R}^{d_{\text {model }} \times N_v}\in \mathbb{R}^{d_{\text {model }} \times d_{\text {model }}}$ 和 $W^A$ 生成的： $\Delta p=\mathbf{Q} W^p$ $\mathbf{V}=\operatorname{Samp}(S, p+\Delta p) W^V$ $\operatorname{DeformAttn}(\mathbf{Q}, \mathbf{V})=\operatorname{Softmax}\left(\mathbf{Q} W^A\right) \mathbf{V}$ 这个过程中，Query在不与Key进行交互的前提下就决定了每个采样点的重要性，这是因为在原始的Deformable DETR中，在Encoder中，因为所有的Multi-Scale Features都会作为Queries参与Self Attention，因此能快速地知道每个采样的重要性。但是在Lite DETR中，由于每次更新只有部分尺度的Feature参与，因此很难同时决定采样点以及每个采样点的重要性，因此本文还提出了一个Key-aware Deformable Attention，如下： $\mathbf{V}=S a m p(S, p+\Delta p) W^V$ $\mathbf{K}=\operatorname{Samp}(S, p+\Delta p) W^K$ $A(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{Softmax}\left(\frac{\mathbf{Q K}^T}{\sqrt{d_k}}\right) \mathbf{V}$ 这个其实就普通的Cross Attention保持一致，这样有Key参与能更好地帮助不同尺度特征进行更新。

以上就是Lite DETR的主要内容，在论文中作者还和Sparse DETR进行了对比，Sparse DETR的三个缺点如下：

难以在不同模型中进行泛化；
由于优先并且隐式监督，Scoring Network的输出不一定是最优的；
需要引入诸如Auxiliary Encoder Detection Loss类的其他的结构；

相比之下，Sparse DETR的改动确实要少些，Sparse DETR和其他SOTA方法对比如下：
总而言之，Lite DETR是通过实现高层级特征和低层级特征的迭代更新来减少冗余的特征更新，为了保证更新的准确性而引入了Key-aware Deformable Attention，进而减小计算量。

你可能感兴趣的:(计算机视觉,算法,transformer,DETR)

教育技术学读计算机论文的提示词东方-教育技术博主学术学习相关 AI
角色：你是一位经验丰富的计算机专业教授，擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文，但我的基础比较薄弱（了解编程基础如变量、循环、函数，了解一点数据结构和算法概念如数组、链表、排序，但对高级术语和数学证明不熟悉）。同时又是一个教育技术学教授。任务：请帮我解释以下论文内容中我不理解的部分。如果遇到初学者可能不懂的地方，我需要你用最清晰、最简洁、最易懂的方式解
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
高精度相机：工业自动化的“慧眼”，驱动智能制造新未来 lingling009 数码相机
在当今工业4.0时代，自动化技术的飞速发展正重塑制造业格局。作为工业视觉系统的核心组件，高精度相机扮演着“智慧之眼”的角色，帮助企业在复杂环境中实现精准识别与高效操作。迁移科技，自2017年成立以来，已成长为行业领先的3D工业相机和3D视觉系统供应商。凭借在硬件、算法及软件领域的技术积累，我们打造了稳定、易用、高回报的AI+3D视觉解决方案，服务于新能源、汽车、化工、家电、金属制造等行业。本文将聚
结构光相机：重塑工业自动化的“智慧之眼”，驱动智能制造新未来 lingling009 数码相机
一、迁移科技——3D视觉领域的创新引擎迁移科技成立于2017年，凭借结构光相机核心技术，已成为全球领先的3D工业视觉系统供应商。累计融资数亿元，深耕硬件、算法与软件三位一体技术，打造“稳定、易用、高回报”的AI+3D视觉解决方案，服务新能源、汽车、化工等10+行业，赋能工业自动化转型升级。二、结构光相机如何破解工业四大痛点1：高精度定位——汽车装配的“毫米级守护者”痛点：传统2D视觉无法捕捉曲面零
大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM lxltom 学习笔记 language model 自然语言处理神经网络人工智能深度学习
大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer架构的完整实现，它同时保留了编码器（Encoder）和解码器（Decoder）两个核心组件。这种设计使得模型能够兼具文本理解和生成的双重能力，特别适合处理序列到序列（Seq2Seq
CVPR2024 分割Segmentation相关论文37篇速览木木阳 CVPR2024 Segmentation 分割论文
Paper1MFP:MakingFullUseofProbabilityMapsforInteractiveImageSegmentation摘要小结:最近的交互式分割算法中，将先前的概率图作为网络输入，以帮助当前分割轮次的预测。然而，尽管使用了先前的掩膜，概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中，为了克服这一局限性，我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP，
【Maven】Maven核心机制的万字深度解析夜雨hiyeyu.com maven java spring spring boot mvc 系统架构后端
Maven核心机制的万字深度解析一、依赖管理机制全解（工业级依赖治理方案）1.坐标体系的本质与设计哲学2.依赖传递与仲裁算法的工程实现**冲突仲裁核心算法**企业级仲裁策略3.Scope作用域的类加载隔离原理4.多级仓库体系架构设计二、构建生命周期底层原理（工业级流水线解析）1.生命周期模型架构2.Default生命周期核心阶段详解3.插件执行机制内核剖析三、企业级工程化实践（千亿级项目的解决方案
前端领域：jQuery UI组件的使用指南_副本大厂前端小白菜前端开发实战前端 jquery ui ai
前端领域：jQueryUI组件的使用指南关键词：jQueryUI、前端组件、交互效果、用户界面、使用指南摘要：本文旨在为前端开发者提供一份全面的jQueryUI组件使用指南。首先介绍了jQueryUI的背景，包括其目的、适用读者、文档结构和相关术语。接着详细阐述了jQueryUI的核心概念与联系，通过文本示意图和Mermaid流程图展示其架构。然后深入讲解了核心算法原理，并给出具体操作步骤和Pyt
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
数据结构与算法第一章绪论 noruta 408 #数据结构与算法数据结构
1.1.数据结构的基本概念数据：对计算机来说，能被计算机程序识别和处理的符号的集合。（比如二进制0和1）数据元素：数据的基本单位，通常作为一个整体进行考虑和处理。（比如一个学生的信息是一个数据元素）数据项：构成数据元素的最小单位。（学生的学号，姓名，班级构成一个学生信息）要根据实际的业务需求来确定什么是数据元素、什么是数据项。数据结构：相互之间存在一种或多种特定关系的数据元素的集合。比如汉字有左右
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
SOTA是什么意思？有奇妙能力吗 AI 知识分享自然语言处理人工智能 ai
最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。而Transformer是BERT取得成功的一个关键因素。谷歌的Transformer模型最早用于机器翻译任务，当时达到了SOTA效果。那么文中的SOTA效果，SOTA结果是什么意思呢?这里就来简单介绍一下定义：SO
大金DAIKIN空调核心技术解析：智能舒适与节能环保的完美融合 langzi78965321 人工智能大数据
引言：空调行业的科技创新引领者在当今空调行业，大金DAIKIN凭借其持续的技术创新和卓越的产品性能，已成为全球暖通空调领域的标杆品牌。本文将深入探讨大金空调的核心技术优势，解析其如何通过创新科技实现舒适性、节能性和智能化的完美平衡。一、VRV技术革命：重新定义中央空调大金VRV（可变制冷剂流量）系统代表了商用空调领域的最新技术高度：精准环境控制：采用先进的PID控制算法，实现±0.5℃的精确温控能
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
六自由度按摩机器人 MATLAB 仿真
本课题围绕六自由度（6-DOF）按摩机器人展开，旨在通过MATLAB仿真平台对其机械结构、运动学特性和控制策略进行建模与分析。六自由度机器人具备空间位置和姿态的全面调节能力，可实现复杂的按摩轨迹和多角度作用力控制。研究内容包括机器人正/逆运动学建模、轨迹规划（如五次多项式插值、笛卡尔路径）、动力学建模（使用Lagrange或Newton-Euler方法）以及基于PID或自适应控制算法的控制系统设计
CST微波工作室学习笔记2 主要特点 raininforest CST学习硬件工程
概要基于Windows98/Me、WindowsNT4、Windows2000和WindowsXP的图形用户界面快速并能有效使用内存的有限积分（FI）算法由于理想边界拟合技术和薄片技术的采用，性能更加卓越结构建模基于先进ACIS内核的参量化实体建模前端，并附带优异的结构可视化功能。内含多种建模技术，可快速进行结构变换。可通过SAT（如AutoCAD）、IGES、STEP、ProE、CATIA4、C
通信算法之205 ： MSK调制解调
转载：MSK（MinimumShiftKeying）：MSK调制出现在上世纪六七十年代，因其频率间隔小、恒包络、相位连续、主瓣窄等特性，它在GSM等系统中得到了应用。随着功放技术的发展及抗衰落方法的不断出现，输出的恒包络特性已不再是选择调制方式的主要依据。MSK调制1bit/s/Hz的频带利用率上限也无法适应带宽紧缺的通信场景，在3G及以后的移动通信中它被高阶的PSK和QAM等取代。但在一些特定的
【分布式 ID】生成唯一 ID 的几种方式也无风雨晴工具分布式分布式 ID
文章目录1.什么是唯一ID2.UUID2.1优点2.2缺点3.数据库自增ID3.1优点3.2缺点4.利用redis来实现自增id4.1优点4.2缺点5.雪花算法5.1优点5.2缺点6.数据库号段6.1优点6.2缺点7.小结1.什么是唯一ID分布式ID是指在分布式系统中需要生成的全局唯一的标识符。比如在电商、物流等行业，每笔订单都需要一个唯一的订单ID。通过这个ID，商家可以跟踪订单的状态，包括下单
C语言教学大变革！DeepSeek如何改变高职院校编程课堂？武汉唯众智创 c语言开发语言程序设计 Deepseek
一、引言在当今数字化转型的浪潮中，程序设计与分析能力已成为高职教育中不可或缺的核心竞争力。作为编程语言的基础，C语言不仅训练学生的计算思维，还培养其算法实现能力。然而，当前高职院校的C语言教学面临诸多挑战，如实践环节薄弱、学生创新能力不足等。DeepSeek等新一代智能编码支持系统的出现，为这一现状带来了转机。该系统融合了深度神经网络与语义解析技术，能够智能生成代码、优化缺陷检测、解构程序逻辑，并
java中对象可达性分析 + 自动回收算法盒子6910 运维专栏算法 java jvm
“对象可达性分析+自动回收算法”是JavaGC（垃圾回收）核心的两个环节，下面详细解释：1.对象可达性分析（ReachabilityAnalysis）目的：判定哪些对象“活着”，哪些对象已经变成“垃圾”可以回收。原理：JVM会用一组叫“GCRoots（垃圾收集根节点）”的基础对象为起点，从这些根出发，沿着对象之间的引用关系去递归搜索。如果某个对象能通过这条引用链与GCRoot相连，那么它就是“可达
【学习】《算法图解》第十一章学习笔记：动态规划程序员
一、动态规划概述动态规划（DynamicProgramming，简称DP）是一种通过将复杂问题分解为更简单的子问题来解决问题的方法。它是一种强大的算法设计技术，特别适用于具有重叠子问题和最优子结构性质的问题。（一）算法适用场景动态规划主要适用于以下场景：最优化问题（求最大值、最小值）计数问题（求方案数）具有重叠子问题特性的问题具有最优子结构特性的问题（二）算法基本思想动态规划的核心思想是：将原问题
图论算法的大家庭——c++中的图论算法 imlarry0616 深度优先算法图论
图论算法是处理图结构问题的核心工具，广泛应用于路径规划、社交网络分析、计算机网络等领域。以下从基础概念、经典算法及其代码实现展开详细介绍，涵盖DFS、BFS、最短路径、最小生成树等核心内容，并附C++代码示例及注释。一、图的基础概念图的定义：由顶点（Vertex）集合V和边（Edge）集合E组成，记作G=(V,E)。分类：无向图：边无方向（如社交网络中的朋友关系）。有向图：边有方向（如网页链接关系
周易算卦排盘源码（完整的周易四柱八字紫微斗数_七政四余大六壬等源码）大大的拥抱88 开发语言 python
简介本仓库提供了一个完整周易八字排盘源码：周易八卦，阴阳五行，干支，四柱八字排盘，紫微斗数，奇门遁甲，七政四余集大成者结合，事实上年周易研究，结合了紫薇运势，刑冲关系，神煞，奇门遁甲，七政四余排盘，大六壬等中国古老的周易占卜算法，结合计算机知识，在网页上可以时时展示出来，对真正的占师卜，周易弟子非常受益。这套完整的代码适合开发者和商业运营者学习和使用。资源文件描述文件名:周易算卦源码（完整的周易四
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
matlab 渐进三角网(PTD)地面滤波(基础版) 点云侠 matlab点云工具箱 matlab 开发语言算法 c++计算机视觉
目录一、算法原理1、PTD算法2、实现流程二、代码实现三、结果展示1、原始点云2、滤波结果代码是按照算法原理的复现，效率极低，只适合学习和理解算法。一、算法原理1、PTD算法渐进三角网地面滤波算法（ProgressiveTINDensification,PTD）是一种广泛应用于机载LiDAR点云数据处理的滤波方法，旨在从复杂场景中精确分离地面点，以生成数字高程模型（DEM）。2、实现流程 P
编程语言发展史之：逻辑编程语言 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介逻辑编程（logicalprogramming）是一种编程范式，旨在以一种逻辑的方式来表示程序，而不是像命令式编程一样直接面向计算模型或执行指令。逻辑编程倾向于通过构造计算机所理解的数学逻辑模型来解决问题。它特别适用于那些对数据结构和算法模型十分敏感的问题。与函数式编程相比，逻辑编程更加强调数据、关系和抽象等抽象概念之间的对应关系，因此更容易设计出正确而优雅的程
脑机新手指南（二十）BCI2000 新手入门指南（下篇） Brduino脑机接口技术答疑脑机新手指南人工智能算法大数据
一、引言在上篇文章中，我们介绍了BCI2000的基本概念、特点和优势，以及安装、配置和基本使用流程。在本篇文章中，我们将深入探讨BCI2000的信号处理和分类算法，并提供一些实操的代码教程，帮助新手更好地掌握BCI2000的使用方法。二、BCI2000的信号处理（一）信号处理的基本概念在脑机接口系统中，信号处理是一个非常重要的环节，它的主要目的是从原始的脑电信号中提取有用的信息，并去除噪声和干扰。
机器视觉：ransac算法详解无水先生数字图形和图像处理算法计算机视觉
目录一、说明：二、算法步骤三、算法代码四、其它补充一、说明：RANSAC是一种常用的参数估计方法，全称为RandomSampleConsensus（随机抽样一致性）。它通过随机选择数据中的一部分，然后根据这些数据拟合模型，统计模型与其他数据的偏差，最终筛选出符合一定阈值的数据，用于估计参数。RANSAC可以应用于很多领域，如计算机视觉、机器人和地理信息系统等。其优点在于对噪声数据和异常值有很强的鲁
matlab有限元相场算法 bubiyoushang888 算法 matlab 机器学习
研究的目的是证明一种有限元相场算法，其中相场方程是完全耦合并同时求解的。不过，在这种情况下，完全耦合的方程是弹性和非守恒的阶参数；然而，该方法可作为其他相场模型完全耦合公式的模板。这是求解具有弹性不均匀性的Allen-Cohn方程的主要程序。有限元算法。该算法解决了非保守阶参数的演化问题。全耦合模式下应力列场的演化。取决于代码中Isolve参数的选择：对于Isolve-1，代码以长手格式和非优化模
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs