Hanawh

【CVPR2020】Revisiting the Sibling Head in Object Detector(TSD)

【CVPR2020】TSD

简要
代码运行

预备(可跳过)
前馈过程
target设置
损失函数

实验

TSD : task-aware spatial disentanglement
代码地址 : https://github.com/Sense-X/TSD

简要

该论文提出的方法取得OpenImage Object Detection Challenge 2019 冠军。

数据集
OpenImages Challenge 2019 目标检测数据集，是 OpenImages V5数据集的一个子集，有174万图片，1460万个bbox和500个类别（5个level，每个level下的类别都有隶属关系）。
出发点
相比于分类任务，目标检测任务多了一个回归的分支，这两分支几乎共享相同的参数，但其实是有冲突的。IoU-Net里面发现“高的分类分数的location经常预测出不好的bbox”。为了解决这个问题，就再多加一个分支来预测IOU作为定位置信度，但是不对齐的问题仍然存在。（因为提取的特征都是对于一个点，这个点对应到原图不一定就符合“显著的地区用来分类，边缘的地区用来回归”）。Double-Head R-CNN也可以被认为是多加了一个分支，但是因为两个分支的特征是同一个proposal的RoI特征，问题依然存在。所以需要在空间上分解分类和局部化的梯度流（spatially disentangle the gradient flows of classification and localization.）

本文结合代码来阅读（实际上是看了论文我也不太懂）

代码运行

预备(可跳过)

遇到很多问题应该是版本不兼容，按照https://github.com/Sense-X/TSD/blob/master/docs/INSTALL.md最终Python==3.7，PyTorch1.1错误就消失了。

先复习一下RPN的结构。RPN的提出代替了SS，使候选区域提取的时间开销几乎降为0。/mmdet/models/anchor_heads/rpn_head.py

由于使用了FPN(c2,c3,c4,c5 — p2,p3,p4,p5,p6，采样率分别是4,8,16,32,64)。这里不使用stage1的输出是因为占内存。ResNet-FPN作为RPN输入的feature map是p2,p3,p4,p5,p6，而作为后续Fast RCNN的输入则是p2,p3,p4,p5，使用p6是因为想获得更大的anchor尺度512×512。接下来的问题就是为生成的proposals(Fast RCNN的输入)选择哪层feature map来得到ROI区域。

k0是scale=224的ROI所选取的层，RetinaNet论文设为4。也就是224尺度的大小属于p4。

而在实际代码里(mmdet/models/roi_extractors/single_level.py)做了一点变化:

def map_roi_levels(self, rois, num_levels):
        """Map rois to corresponding feature levels by scales.

        - scale < finest_scale * 2: level 0
        - finest_scale * 2 <= scale < finest_scale * 4: level 1
        - finest_scale * 4 <= scale < finest_scale * 8: level 2
        - scale >= finest_scale * 8: level 3

        Args:
            rois (Tensor): Input RoIs of all batch, shape (k, 5). index = 0 which batch_img
            num_levels (int): Total level number.

        Returns:
            Tensor: Level index (0-based) of each RoI, shape (k, )
        """
        scale = torch.sqrt(
            (rois[:, 3] - rois[:, 1] + 1) * (rois[:, 4] - rois[:, 2] + 1))
        target_lvls = torch.floor(torch.log2(scale / self.finest_scale + 1e-6))
        target_lvls = target_lvls.clamp(min=0, max=num_levels - 1).long()
        return target_lvls

self.finest_scale = 56，也就是p2的尺度是56左右，假设生成的ROI尺度分别有32, 64, 128, 256, 512，那么分配的level分别是0，0，1，2，3，也就是p2，p2，p3，p4，p5。

cls分支如果损失函数使用sigmoid的话，通道数要除去背景，通道就是1，也就是binary_cross_entropy，先经过sigmoid函数在进行BCE损失计算。否则就是cross_entroy，此时标签代表属于0或1哪一类，通道就是2。

生成anchor的过程先生成该层特征图对应stride，对应scale(实际上乘以8，这样每个特征图预测的大小scale分别是32, 64, 128, 256, 512)的三个ratio对应的偏差坐标，再加上特征图上个点对应原图的坐标。

# 生成一层的anchor
def grid_anchors(self, featmap_size, stride=16, device='cuda'):
        base_anchors = self.base_anchors.to(device) 
        # 三个ratio下的base anchor(求出该特征图特定stride下, 之后再乘以8)的xmin，ymin，xmax, ymax 
        # 这样每个特征图预测的大小scale分别是32, 64, 128, 256, 512
        feat_h, feat_w = featmap_size
        shift_x = torch.arange(0, feat_w, device=device) * stride # 对应到原图 
        shift_y = torch.arange(0, feat_h, device=device) * stride
        shift_xx, shift_yy = self._meshgrid(shift_x, shift_y) 
        shifts = torch.stack([shift_xx, shift_yy, shift_xx, shift_yy], dim=-1)
        '''
        tensor([[   0,    0,    0,    0],
        [   4,    0,    4,    0],
        [   8,    0,    8,    0],
        ...,
        [ 788, 1212,  788, 1212],
        [ 792, 1212,  792, 1212],
        [ 796, 1212,  796, 1212]], device='cuda:0')

        '''
        shifts = shifts.type_as(base_anchors)
        # first feat_w elements correspond to the first row of shifts
        # add A anchors (1, A, 4) to K shifts (K, 1, 4) to get
        # shifted anchors (K, A, 4), reshape to (K*A, 4)

        all_anchors = base_anchors[None, :, :] + shifts[:, None, :]
        all_anchors = all_anchors.view(-1, 4)
        # first A rows correspond to A anchors of (0, 0) in feature map,
        # then (0, 1), (0, 2), ...
        return all_anchors

生成anchors后先判断是否在图片边界范围内，然后挑选正负样本。RPN生成的proposal作为fast rcnn的输入，同样先挑选正负样本。利用MaxIoUAssigner根据阈值分配正负样本，RandomSampler挑选正负样本，根据阶段的不同参数也不同。

train_cfg = dict(
    rpn=dict(
        assigner=dict(
            type='MaxIoUAssigner',
            pos_iou_thr=0.7,
            neg_iou_thr=0.3,
            min_pos_iou=0.3,
            ignore_iof_thr=-1), # 当gt包含需忽略的bbox时使用，-1表示不忽略
        sampler=dict(
            type='RandomSampler',
            num=256, # 计算rpn的损失
            pos_fraction=0.5,
            neg_pos_ub=-1, # 大于该比例的负样本忽略，-1表示不忽略
            add_gt_as_proposals=False),
        allowed_border=0, 
        pos_weight=-1, #  正样本权重，-1表示不改变原始的权重 原始权重就是1
        debug=False),
    rpn_proposal=dict(
        nms_across_levels=False,
        nms_pre=2000,
        nms_post=2000,
        max_num=2000,
        nms_thr=0.7,
        min_bbox_size=0),
    rcnn=dict(
        assigner=dict(
            type='MaxIoUAssigner',
            pos_iou_thr=0.5,
            neg_iou_thr=0.5,
            min_pos_iou=0.5,
            ignore_iof_thr=-1),
        sampler=dict(
            type='RandomSampler',
            num=512, # 从2000个proposal选512个样本
            pos_fraction=0.25,
            neg_pos_ub=-1,
            add_gt_as_proposals=True),
        pos_weight=-1,
        debug=False))

下面再来看看RoIAlign，经过为一张图的512个proposal分配不同level之后，然后结合这些level的特征图得到ROI的对应的特征(mmdet/models/roi_extractors/single_level.py)，再经过RoIAlign操作得到(num_proposal, 256, 7, 7)的特征。

接下来就进入正题，介绍TSD！！

分为三个部分来介绍，前馈过程、target设置、损失函数

前馈过程

图中标红的就是前馈过程的输出，保留原来faster rcnn的分支（右），再加了一个TSD分支（左）。其中delta_r感觉像是自适应学习roi的偏移量(只对正的样本进行矫正)，之所以是2通道，就是对应了x，y坐标的偏移。

deformable pooling操作如下式所示：

target设置

def bbox_target_single_tsd(pos_bboxes, #[num_pos, 4]
                       neg_bboxes, #[num_neg, 4]
                       pos_gt_bboxes, # [num_pos, 4]
                       pos_gt_labels, #[num_neg, 4]
                       rois, # torch.Size([512, 5])
                       delta_c, # torch.Size([512, 98])
                       delta_r, # torch.Size([512, 2])
                       cls_score_, # torch.Size([512, 81])
                       bbox_pred_, # torch.Size([512, 324])
                       TSD_cls_score_,# torch.Size([512, 81])
                       TSD_bbox_pred_,# torch.Size([512, 324])
                       cfg,
                       reg_classes=1,
                       cls_pc_margin=0.2, # 0.3
                       loc_pc_margin=0.2, # 0.3
                       target_means=[.0, .0, .0, .0],
                       target_stds=[1.0, 1.0, 1.0, 1.0]):
    num_pos = pos_bboxes.size(0)
    num_neg = neg_bboxes.size(0)
    num_samples = num_pos + num_neg # 512
    labels = pos_bboxes.new_zeros(num_samples, dtype=torch.long)
    label_weights = pos_bboxes.new_zeros(num_samples)
    bbox_targets = pos_bboxes.new_zeros(num_samples, 4)
    bbox_weights = pos_bboxes.new_zeros(num_samples, 4)

    TSD_labels = pos_bboxes.new_zeros(num_samples, dtype=torch.long)
    TSD_label_weights = pos_bboxes.new_zeros(num_samples)
    TSD_bbox_targets = pos_bboxes.new_zeros(num_samples, 4)
    TSD_bbox_weights = pos_bboxes.new_zeros(num_samples, 4)

    #generte P_r according to delta_r and rois
    w = rois[:,3]-rois[:,1]+1
    h = rois[:,4]-rois[:,2]+1
    scale = 0.1
    rois_r = rois.new_zeros(rois.shape[0],rois.shape[1])
    rois_r[:,0] = rois[:,0]
    rois_r[:,1] = rois[:,1]+delta_r[:,0]*scale*w
    rois_r[:,2] = rois[:,2]+delta_r[:,1]*scale*h
    rois_r[:,3] = rois[:,3]+delta_r[:,0]*scale*w
    rois_r[:,4] = rois[:,4]+delta_r[:,1]*scale*h
    TSD_pos_rois = rois_r[:num_pos]
    pos_rois = rois[:num_pos]

    if num_pos > 0:
        labels[:num_pos] = pos_gt_labels
        TSD_labels[:num_pos] = pos_gt_labels
        pos_weight = 1.0 if cfg.pos_weight <= 0 else cfg.pos_weight # -1
        label_weights[:num_pos] = pos_weight
        TSD_label_weights[:num_pos] = pos_weight
        pos_bbox_targets = bbox2delta(pos_bboxes, pos_gt_bboxes, target_means,
                                      target_stds)
        TSD_pos_bbox_targets = bbox2delta(TSD_pos_rois[:,1:], pos_gt_bboxes, target_means,
                                      target_stds)
        bbox_targets[:num_pos, :] = pos_bbox_targets
        bbox_weights[:num_pos, :] = 1
        TSD_bbox_targets[:num_pos, :] = TSD_pos_bbox_targets
        TSD_bbox_weights[:num_pos, :] = 1

        # compute PC for TSD 
        # 1. compute the PC for classification
        cls_score_soft = F.softmax(cls_score_,dim=1)
        TSD_cls_score_soft = F.softmax(TSD_cls_score_,dim=1)
        cls_pc_margin = torch.tensor(cls_pc_margin).to(labels.device)
        cls_pc_margin = torch.min(1-cls_score_soft[np.arange(len(TSD_labels)),labels],cls_pc_margin).detach() # torch.Size([512])
        pc_cls_loss = F.relu(-(TSD_cls_score_soft[np.arange(len(TSD_labels)),TSD_labels] - cls_score_soft[np.arange(len(TSD_labels)),labels].detach() - cls_pc_margin))

        # 2. compute the PC for localization
        N = bbox_pred_.shape[0]
        bbox_pred_ = bbox_pred_.view(N,-1,4) # torch.Size([512, 81, 4])
        TSD_bbox_pred_ = TSD_bbox_pred_.view(N,-1,4) # torch.Size([512, 81, 4])

        sibling_head_bboxes = delta2bbox(pos_bboxes, bbox_pred_[np.arange(num_pos), labels[:num_pos]], means=target_means, stds=target_stds)
        TSD_head_bboxes = delta2bbox(TSD_pos_rois[:,1:], TSD_bbox_pred_[np.arange(num_pos), TSD_labels[:num_pos]], means=target_means, stds=target_stds)

        ious, gious = iou_overlaps(sibling_head_bboxes, pos_gt_bboxes)
        TSD_ious, TSD_gious = iou_overlaps(TSD_head_bboxes, pos_gt_bboxes)
        loc_pc_margin = torch.tensor(loc_pc_margin).to(ious.device)
        loc_pc_margin = torch.min(1-ious.detach(),loc_pc_margin).detach()
        pc_loc_loss = F.relu(-(TSD_ious - ious.detach() - loc_pc_margin))
        
    if num_neg > 0:
        label_weights[-num_neg:] = 1.
        TSD_label_weights[-num_neg:] = 1.

    return labels, label_weights, bbox_targets, bbox_weights, TSD_labels, TSD_label_weights, TSD_bbox_targets, TSD_bbox_weights, pc_cls_loss, pc_loc_loss

损失函数

如前馈图可见，有6个输出，其中两种分支的cls和bbox损失函数计算方法都一样。就是多了个Progressive constraint( $M_{cls}$ 、 $M_{loc}$ )，在target设置时就已经算了，那么为什么要求这个呢？论文说可以自适应地学习特定于任务的特征表示，从而进行分类和定位。表达式其实可以看作是渐进性约束，即令TSD和传统ROI Pooling主干结果保持一定margin，使得TSD部分的回归分类结果优于sibling head分支的结果。 加粗部分摘抄于https://zhuanlan.zhihu.com/p/126359766

实验

可见对于不同的backbone涨点明显。

CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读 Laughing-q 论文阅读深度学习人工智能目标检测实例分割 transformer
CBNetV2:ACompositeBackboneNetworkArchitectureforObjectDetection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在SwinTransformer上的模型适用性消融实验paper：https://arxi
【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT s1ckrain 计算机视觉论文阅读计算机视觉人工智能
PERSONALIZESEGMENTANYTHINGMODELWITHONESHOT原文摘要研究背景与问题：SAM是一个基于大规模数据预训练的强大提示框架，推动了分割领域的发展。尽管SAM具有通用性，但在无需人工提示的情况下，针对特定视觉概念（如自动分割用户宠物狗）的定制化研究尚不充分。方法提出：提出了一种无需训练的SAM个性化方法，称为PerSAM。仅需单次数据（一张带参考掩码的图像），即可在新
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
【论文阅读】MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型勤奋的小笼包论文阅读语言模型人工智能自然语言处理 chatgpt
MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型1.背景2.核心问题：3.方法：3.实验结果与优势4.技术贡献与意义5.结论MMedPO:AligningMedicalVision-LanguageModelswithClinical-AwareMultimodalPreferenceOptimizationMMedPO：用临床感知多模态偏好优化调整医学视觉语言模型gitgub:地址1.
论文阅读：Deep Stacked Hierarchical Multi-patch Network for Image Deblurring 行走的歌文献阅读图像处理计算机视觉机器学习深度学习图像去雨图像处理
这是一篇去模糊的文章，后来发现直接套用不合适，无法获取到相应的特征，遂作罢，简单记录一下。2019CVPR：DMPHN这篇文章是2019CVPR的一篇去模糊方向的文章，师兄分享的时候看了一下，后来也发现这个网络结构在很多workshop以及文章中都见过。文章：ArXiv代码：Github在去模糊领域，目前的多尺度和尺度循环模型存在一些问题：1)由粗到细方案中的去卷积/上采样操作导致运行时间昂贵;2
【论文阅读方法】沐神课程：如何读论文晴空对晚照论文阅读论文阅读
一篇论文的一般结构titleabstractintroductionmethodexperienceconclusion三明治论文阅读法第一遍：海选title+abstract+conclusion——确定要不要读第二遍：精读对整个文章过一遍，知道每一块在做什么可以从标题开始读到最后，注意不用咬文嚼字，不要太细节，公式、证明等很细节的部分可以忽略掉重点弄清楚每一个图表，算法在做什么，x轴y轴每一个
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读：Personalized Purchase Prediction of Market with Wasserstein-Based Sequence Matching Narcissus`小暮一步步来学大数据推荐系统
PersonalizedPurchasePredictionofMarketwithWasserstein-BasedSequenceMatching概述问题背景及陈述预测算法步骤一：itemembeddings步骤二：计算wassersteinDistance步骤三：Wasserstein-BasedDynamicTimeWarping预测实验评价标准数据集对比的baseline结论市场篮子的应
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读 EEG-TCNet Plan-C- 论文阅读
EEG-TCNet:AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度。EG-TCNET成功地推广了单个数据集，通过0.25的元效应优于MOABB的当前最新技术水平
论文阅读《Semantic Stereo Matching with Pyramid Cost Volumes》 cunese0088 深度学习
SSPCV-Net（语义立体匹配网络）目的：进一步捕捉视差的细节主要模块：数据集：SceneFlow,KITTI2012,KITTI2015,Cityscape(比较泛化能力)-------------------------------------------------------------------------------------------------------Concatevo
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
InternVL：论文阅读 -- 多模态大模型(视觉语言模型) XiaoJ1234567 LLM 论文阅读语言模型人工智能多模态大模型 internVL
更多内容：XiaoJ的知识星球文章目录InternVL:扩展视觉基础模型与通用视觉语言任务对齐1.概述2.InternVL整体架构1）大型视觉编码器：InternViT-6B2）语言中间件：QLLaMA。3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于
论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位（中国） MilkLeong 论文阅读空间计算
论文英文题目：AspatialinteractionmodelofQin-HanDynastyorganisationonthenorthernfrontierandthelocationoftheZhidaohighway(China)发表于：journalofarchaeologicalscience，影响因子：3.030论文主要是使用空间互动模型来对秦汉时期的北方边疆直道进行定位和重建。分析
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
【论文阅读】LayoutPrompter: Awaken the Design Ability of Large Language Models 进击的乔洋论文阅读语言模型人工智能
LayoutPrompter:AwakentheDesignAbilityofLargeLanguageModelsabstract条件图形布局生成是一种自动将用户约束映射为高质量布局的技术，目前受到了广泛关注。尽管最近的工作取得了很好的性能，但缺乏通用性和数据效率阻碍了它们的实际应用。本文提出Layout-Prompter，利用大型语言模型(llm)通过上下文学习来解决上述问题。LayoutPr
论文阅读方法某风吾起 work 哲学与人生论文阅读
文章目录步骤一：对论文进行自我判断阅读题目和关键词。阅读摘要阅读总结要点步骤二：阅读文章阅读图表和图表的注释阅读引言阅读实验部分阅读结果和作者对结果的讨论（创新点）要点步骤三：精度论文回答问题1回答问题2回答问题3要点步骤一：对论文进行自我判断阅读题目和关键词。观察这些关键词是否与你的研究的内容有关。如果不相干，可以随时停止，换篇文章看。阅读摘要摘要一般包含了整篇文章的主要内容，是非常非常重要的部
论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer 不会&编程图神经网络论文阅读论文阅读 transformer 深度学习图神经网络人工智能
RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN+Transformer的混合模型GraphTransformer)论文和代码地址论文地址：https://arxiv.org/pdf/2205.12454v4代码地址：https://git
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
Angular Superresolution of Real Aperture Radar for Target Scale Measurement 论文阅读青铜锁00 论文阅读 Radar 论文阅读
AngularSuperresolutionofRealApertureRadarforTargetScaleMeasurement1.研究目标与实际意义1.1研究目标1.2实际意义2.创新方法与模型设计2.1广义混合正则化（GHR）框架核心公式与传统方法对比2.2自适应迭代重加权（AIR）求解器算法设计复杂度分析3.实验设计与结果验证3.1仿真实验实验设置关键结果3.2实际数据验证4.未来研究方
Angular Superresolution of Real Aperture Radar Using Online Detect-Before-Reconstruct Framework 论文阅读青铜锁00 论文阅读 Radar 论文阅读
AngularSuperresolutionofRealApertureRadarUsingOnlineDetect-Before-ReconstructFramework1.论文的研究目标与实际问题意义1.1研究目标1.2实际问题与产业意义2.论文的创新方法、模型与公式分析（重点）2.1核心创新点2.2关键公式与模型2.2.1信号模型2.2.2稀疏正则化优化问题2.2.3坐标循环最小化2.2.4
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
[论文阅读]DAMO-YOLO——实时目标检测设计报告一朵小红花HH 知识蒸馏目标检测 YOLO 目标检测目标跟踪论文阅读人工智能
DAMO-YOLODAMO-YOLO:AReportonReal-TimeObjectDetectionDesign实时目标检测设计报告论文网址：DAMO-YOLO简读论文这篇论文介绍了一个名为DAMO-YOLO的新型目标检测方法,相比YOLO系列的其他方法有着更好的性能。该方法的优势来自于几项新技术:使用了MAE-NAS作为骨干网络,可以自动搜索出不同延迟预算下的优化网络结构。MAE-NAS被称
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
An Iterative Technique for the Rectification of Observed Distributions 论文阅读青铜锁00 论文阅读论文阅读
AnIterativeTechniquefortheRectificationofObservedDistributions-L.B.Lucy1.研究目标与实际意义1.1研究目标1.2实际意义2.新方法与公式分析2.1核心思路：基于贝叶斯定理的迭代框架2.1.1贝叶斯逆概率公式2.1.2迭代更新规则2.1.3多维推广2.2方法优势2.3对比传统方法3.实验验证3.1数值实验设计3.2关键结果4.雷
Azimuth Superresolution of Forward-Looking Radar Imaging Which Relies on Linearized Bregman论文阅读青铜锁00 论文阅读 Radar 论文阅读
AzimuthSuperresolutionofForward-LookingRadarImagingWhichReliesonLinearizedBregman1.论文的研究目标与意义1.1研究目标1.2实际应用意义2.论文提出的新方法、公式与优势（重点）2.1方法框架2.1.1贝叶斯建模2.1.2线性化Bregman算法2.2与传统方法的对比2.3公式总结3.实验设计与结果3.1点目标仿真3.
A Bayesian Angular Superresolution Method With Lognormal Constraint for Sea-Surface Target 论文阅读青铜锁00 论文阅读 Radar 论文阅读
目录1.研究背景与问题2.方法创新3.关键优势4.实验验证5.与传统方法对比6.结论与意义1.研究背景与问题核心挑战：实孔径雷达受限于天线孔径尺寸，导致角分辨率不足，影响海面目标（如船舶）的精细化探测。传统方法局限性：谱估计方法（如MUSIC、IAA）：依赖多快拍数据，机械扫描雷达难以满足。正则化方法（如TSVD、l1/l2约束）：假设噪声服从高斯分布，未考虑海杂波的非高斯特性（如Rayleigh
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方