00000cj

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析

paper：LLA: Loss-aware Label Assignment for Dense Pedestrian Detection

code：https://github.com/Megvii-BaseDetection/LLA

背景

标签分配由于对检测器的性能影响很大，在通用目标检测中得到了广泛的研究，但是密集行人检测中的标签分配关注很少。密集行人检测和一般目标检测主要有以下两点区别：

不同个体之间的姿态差别很大

人体区域可能会被他人严重遮挡

存在的问题

在anchor-based的模型中，利用anchor与GT之间的IoU进行标签分配是常用的方法，但对于姿态千变万化的行人检测，基于IoU大小得到的positive anchor可能不是最合适的，比如在下图中，绿色框为目标的GT box，红色框是基于IoU分配的postive anchor，可以看到虽然两者的IoU很大，但anchor box中只包含了很小部分的前景，显然不是最优选择。

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第1张图片

在anchor-free的模型中，比如FCOS，如果一组anchor points落入GT box中心的一个正方形区域中，同时落在事先定义尺度区间中，则它们被指定为positive anchor points。在密集行人检测中，遮挡问题很常见，如果一个人被另一个人严重遮挡，这个人GT box的几何中心可能落在另一个人的身上，这将导致导致采样点的特征和目标不一致。

本文的创新点

基于以上两个问题，本文提出了一种新的标签分配方法Loss-aware Label Assignment（LLA），LLA首先计算每个anchor和每个GT之间的分类和回归损失，然后定义联合损失为分类损失和回归损失的加权和作为标签分配的指标，最后将与某一个GT联合损失最小的K个anchor作为该GT的正样本，未分配和任何GT的anchor作为负样本。LLA是基于这样一种观察：联合损失较小的anchor通常包含更丰富的语义信息，因此可以更好的表示对应的GT。

方法介绍

给定一张输入图片 $M$，假设共有 $J$ 个anchor和 $I$ 个GT，在一次前向传播中，我们可以得到分类得分预测 $S(\theta, M)\in \mathbb{R}^{J\times N}$，其中 $N$ 是类别数，$\theta$ 是模型权重参数，同时可以得到bounding box预测 $B(\theta, M)\in \mathbb{R}^{J\times 4}$。之前只计算每个anchor和其分配的GT之间损失的方法不同，LLA计算所有anchor和所有GT之间的损失，得到：

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第2张图片

其中 $C^{cls}\in \mathbb{R}^{I\times J}$，$C^{reg}\in \mathbb{R}^{I\times J}$。$G^{cls}$ 和 $G^{loc}$ 分别是GT的类别和边界框标注。$f^{cls}$ 是binary cross entropy Loss或Focal Loss，$f^{reg}$ 可以是任何回归损失比如Smooth L1、IoU、GIoU Loss。然后，按下式计算一个Cost Matrix

其中 $C\in \mathbb{R}^{I\times J}$，$C_{ij}$ 表示anchor $a_{j}$ 和GT $g_{i}$ 之间的联合损失，$C_{ij}$ 越小，$a_{j}$ 越有可能被分配给 $g_{i}$。因此，我们选择 $C$ 中每行最小的 $K$ 个值，并且将对应的anchor-GT对作为匹配的候选。但是，作者在实验中发现，在训练的初始阶段，由于模型的拟合不足，LLA很难得到稳定的分配结果。为了帮助模型更快收敛，作者添加了一个空间先验，即只有当 $a_{j}$ 或 $a_{j}$ 的中心点落入 $g^{loc}_{i}$ 的范围中，才将 $a_{j}$ 分配给 $g_{i}$，基于此先验作者引入了 $C^{inbox}$

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第3张图片

在具体实现中，$+\infty $ 用一个大的正值比如102替代，Restricted Cost Matrix如下

最后挑选 $C$ 中最小的 $K$ 个值，得到assignment matrix $\pi _{ij}\in \left \{ 0,1 \right \} $

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第4张图片

注意，如果一个anchor被分配给了多个GT，选择联合损失最小的的那个GT。

实验结果

消融实验

Effect of LLA

下表是将LLA应用到RetinaNet和FCOS上的结果对比，其中RetinaNet*是将原始RetinaNet中的Smooth L1 Loss换成了GIoU Loss，#A=1表示将原始RetinaNet中的anchor数量由9个减少为1个，MR是行人检测中的评价指标，越小越好。可以看出，将RetinaNet和FCOS原始的标签分配方法换成LLA后，性能都得到了提升

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第5张图片

从下图第一列可以看出，不是均匀的分布在GT box中，LLA中分配positive anchor更紧凑的落在了前景目标上。从第二列和第三列可以看出，对于严重遮挡的人体，LLA分配的positive anchor更多的落在了可见区域如头部、肩膀等，并且离GT box的几何中心较远。

Analysis of Each Component in Restricted Cost Matrix

下表是Restricted Cost Matrix中的各项对最终精度的影响，可以看出，当只有 $C^{cls}$ 时，这主要是因为 $C^{cls}$ 无法帮助模型区分同一类别的不同实例，比如一个anchor可能在属于同一类别的多个实例的topk锚框列表中。当引入 $C^{reg}$ 后模型性能已经超过了baseline，当引入 $C^{inbox}$ 后，模型的性能得到了进一步提升。

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第6张图片

Different Usage of IoU/GIoU Loss

IoU在LLA中一共使用了两次，一次是在标签分配之前计算每一个anchor和每一个GT之间的回归损失，另一次是在标签分配后，计算anchor和对应GT之间的回归损失，作者选择的是IoU和GIoU，从下表可以看出，这种组合的精度最高。

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第7张图片

Effect of K

超参K是事先设定的为每个GT分配的positive anchor的数量，K太小会导致候选对象不足，K太多会导致引入过多低质量候选对象，从下表可以看出，K=10时，模型的MR最小。

LLA: Loss-aware Label Assignment for Dense Pedestrian Detection 原理与代码解析_第8张图片

Comparison with SOTA

下表是LLA和其它一些sota label assgnment方法在CrowdHuman数据集上的精度对比，可以看到LLA得到了最好的性能表现。

代码解析

下面是官方的实现代码，加了一些注释。其中Line 284是计算restricted cost matrix的代码loss = loss_cls + self.reg_cost * loss_delta + 1e3 * (1 - is_in_boxes.float())，Line 292是挑选topk个联合损失最小的anchor作为正样本，Line 301是处理多个GT分配个同一个anchor的情况。

import logging
import math
from typing import List
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist

from cvpods.layers import ShapeSpec, batched_nms, cat
from cvpods.structures import Boxes, ImageList, Instances
from cvpods.utils import log_first_n
from cvpods.modeling.box_regression import Shift2BoxTransform
from cvpods.modeling.postprocessing import detector_postprocess
from cvpods.modeling.meta_arch.retinanet import permute_to_N_HWA_K
from cvpods.modeling.losses import sigmoid_focal_loss_jit, iou_loss

def permute_all_cls_and_box_to_N_HWA_K_and_concat(box_cls,
                                                  box_delta,
                                                  num_classes=80):
    """
    Rearrange the tensor layout from the network output, i.e.:
    list[Tensor]: #lvl tensors of shape (N, A x K, Hi, Wi)
    to per-image predictions, i.e.:
    Tensor: of shape (N x sum(Hi x Wi x A), K)
    """
    # for each feature level, permute the outputs to make them be in the
    # same format as the labels. Note that the labels are computed for
    # all feature levels concatenated, so we keep the same representation
    # for the objectness, the box_delta and the centerness
    box_cls_flattened = [permute_to_N_HWA_K(x, num_classes) for x in box_cls]
    box_delta_flattened = [permute_to_N_HWA_K(x, 4) for x in box_delta]
    # concatenate on the first dimension (representing the feature levels), to
    # take into account the way the labels were generated (with all feature maps
    # being concatenated as well)
    box_cls = cat(box_cls_flattened, dim=1).view(-1, num_classes)
    box_delta = cat(box_delta_flattened, dim=1).view(-1, 4)

    return box_cls, box_delta


@torch.no_grad()
def get_ious(inputs, targets, weight=None, box_mode="xyxy", loss_type="iou", reduction="none"):
    """
    Compute iou loss of type ['iou', 'giou', 'linear_iou']

    Args:
        inputs (tensor): pred values
        targets (tensor): target values
        weight (tensor): loss weight
        box_mode (str): 'xyxy' or 'ltrb', 'ltrb' is currently supported.
        loss_type (str): 'giou' or 'iou' or 'linear_iou'
        reduction (str): reduction manner

    Returns:
        loss (tensor): computed iou loss.
    """
    if box_mode == "ltrb":
        inputs = torch.cat((-inputs[..., :2], inputs[..., 2:]), dim=-1)
        targets = torch.cat((-targets[..., :2], targets[..., 2:]), dim=-1)
    elif box_mode != "xyxy":
        raise NotImplementedError

    eps = torch.finfo(torch.float32).eps

    inputs_area = (inputs[..., 2] - inputs[..., 0]).clamp_(min=0) \
        * (inputs[..., 3] - inputs[..., 1]).clamp_(min=0)
    targets_area = (targets[..., 2] - targets[..., 0]).clamp_(min=0) \
        * (targets[..., 3] - targets[..., 1]).clamp_(min=0)

    w_intersect = (torch.min(inputs[..., 2], targets[..., 2])
                   - torch.max(inputs[..., 0], targets[..., 0])).clamp_(min=0)
    h_intersect = (torch.min(inputs[..., 3], targets[..., 3])
                   - torch.max(inputs[..., 1], targets[..., 1])).clamp_(min=0)

    area_intersect = w_intersect * h_intersect
    area_union = targets_area + inputs_area - area_intersect
    ious = area_intersect / area_union.clamp(min=eps)

    return ious


class Scale(nn.Module):
    def __init__(self, init_value=1.0):
        super(Scale, self).__init__()
        self.scale = nn.Parameter(torch.FloatTensor([init_value]))

    def forward(self, input):
        return input * self.scale


class FCOS(nn.Module):
    """
    Implement FCOS (https://arxiv.org/abs/1708.02002).
    """
    def __init__(self, cfg):
        super().__init__()

        self.device = torch.device(cfg.MODEL.DEVICE)

        # fmt: off
        self.num_classes = cfg.MODEL.FCOS.NUM_CLASSES
        self.in_features = cfg.MODEL.FCOS.IN_FEATURES
        self.fpn_strides = cfg.MODEL.FCOS.FPN_STRIDES
        # Loss parameters:
        self.focal_loss_alpha = cfg.MODEL.FCOS.FOCAL_LOSS_ALPHA
        self.focal_loss_gamma = cfg.MODEL.FCOS.FOCAL_LOSS_GAMMA
        self.iou_loss_type = cfg.MODEL.FCOS.IOU_LOSS_TYPE
        # Inference parameters:
        self.score_threshold = cfg.MODEL.FCOS.SCORE_THRESH_TEST
        self.topk_candidates = cfg.MODEL.FCOS.TOPK_CANDIDATES_TEST
        self.nms_threshold = cfg.MODEL.FCOS.NMS_THRESH_TEST
        self.max_detections_per_image = cfg.TEST.DETECTIONS_PER_IMAGE
        # LLA parameters:
        self.topk = cfg.MODEL.LLA.TopK
        self.reg_cost = cfg.MODEL.LLA.REG_COST
        # fmt: on

        self.backbone = cfg.build_backbone(
            cfg, input_shape=ShapeSpec(channels=len(cfg.MODEL.PIXEL_MEAN)))

        backbone_shape = self.backbone.output_shape()
        feature_shapes = [backbone_shape[f] for f in self.in_features]
        self.head = FCOSHead(cfg, feature_shapes)
        self.shift_generator = cfg.build_shift_generator(cfg, feature_shapes)

        # Matching and loss
        self.shift2box_transform = Shift2BoxTransform(
            weights=cfg.MODEL.FCOS.BBOX_REG_WEIGHTS)
        self.object_sizes_of_interest = cfg.MODEL.FCOS.OBJECT_SIZES_OF_INTEREST
        self.norm_sync = cfg.MODEL.FCOS.NORM_SYNC

        pixel_mean = torch.Tensor(cfg.MODEL.PIXEL_MEAN).to(self.device).view(
            3, 1, 1)
        pixel_std = torch.Tensor(cfg.MODEL.PIXEL_STD).to(self.device).view(
            3, 1, 1)
        self.normalizer = lambda x: (x - pixel_mean) / pixel_std
        self.to(self.device)

    def forward(self, batched_inputs):
        """
        Args:
            batched_inputs: a list, batched outputs of :class:`DatasetMapper` .
                Each item in the list contains the inputs for one image.
                For now, each item in the list is a dict that contains:

                * image: Tensor, image in (C, H, W) format.
                * instances: Instances

                Other information that's included in the original dicts, such as:

                * "height", "width" (int): the output resolution of the model, used in inference.
                    See :meth:`postprocess` for details.
        Returns:
            dict[str: Tensor]:
                mapping from a named loss to a tensor storing the loss. Used during training only.
        """
        images = self.preprocess_image(batched_inputs)
        if "instances" in batched_inputs[0]:
            gt_instances = [
                x["instances"].to(self.device) for x in batched_inputs
            ]
        elif "targets" in batched_inputs[0]:
            log_first_n(
                logging.WARN,
                "'targets' in the model inputs is now renamed to 'instances'!",
                n=10)
            gt_instances = [
                x["targets"].to(self.device) for x in batched_inputs
            ]
        else:
            gt_instances = None

        features = self.backbone(images.tensor)  # (2,3,1088,800)
        features = [features[f] for f in self.in_features]  # ['p3', 'p4', 'p5', 'p6', 'p7']
        # [(2,256,136,100),(2,256,68,50),(2,256,34,25),(2,256,17,13),(2,256,9,7)]
        box_cls, box_delta, box_iou = self.head(features)
        # [(2,20,136,100),(2,20,68,50),(2,20,34,25),(2,20,17,13),(2,20,9,7)]
        # [(2,4,136,100),(2,4,68,50),(2,4,34,25),(2,4,17,13),(2,4,9,7)]
        # [(2,1,136,100),(2,1,68,50),(2,1,34,25),(2,1,17,13),(2,1,9,7)]
        shifts = self.shift_generator(features)

        if self.training:
            losses = self.get_lla_assignments_and_losses(
                shifts, gt_instances, box_cls, box_delta, box_iou)
            return losses
        else:
            results = self.inference(box_cls, box_delta, box_iou, shifts,
                                     images)
            processed_results = []
            for results_per_image, input_per_image, image_size in zip(
                    results, batched_inputs, images.image_sizes):
                height = input_per_image.get("height", image_size[0])
                width = input_per_image.get("width", image_size[1])
                r = detector_postprocess(results_per_image, height, width)
                processed_results.append({"instances": r})
            return processed_results

    def get_lla_assignments_and_losses(self, shifts, targets, box_cls, box_delta, box_iou):
        # shifts
        # [[(13600,2),(3400,2),(850,2),(221,2),(63,2)],
        #  [(13600,2),(3400,2),(850,2),(221,2),(63,2)]]
        # targets
        # [Instances(num_instances=2, image_height=1085, image_width=800,
        #     fields=[gt_boxes = Boxes(tensor([[216.9492, 217.0000, 605.6497, 965.1979], [246.3277, 160.4896, 501.6949, 641.9583]], device='cuda:0')),
        #             gt_classes = tensor([12, 14], device='cuda:0'), ]),
        #  Instances(num_instances=2, image_height=1085, image_width=800,
        #     fields=[gt_boxes = Boxes(tensor([[216.9492, 217.0000, 605.6497, 965.1979], [246.3277, 160.4896, 501.6949, 641.9583]], device='cuda:0')),
        #             gt_classes = tensor([12, 14], device='cuda:0'), ])]

        gt_classes = []

        box_cls = [permute_to_N_HWA_K(x, self.num_classes) for x in box_cls]
        # [(2,13600,20),(2,3400,20),(2,850,20),(2,221,20),(2,63,20)]
        box_delta = [permute_to_N_HWA_K(x, 4) for x in box_delta]
        # [(2,13600,4),(2,3400,4),(2,850,4),(2,221,4),(2,63,4)]
        box_iou = [permute_to_N_HWA_K(x, 1) for x in box_iou]
        # [(2,13600,1),(2,3400,1),(2,850,1),(2,221,1),(2,63,1)]

        box_cls = torch.cat(box_cls, dim=1)  # (2,18134,20)
        box_delta = torch.cat(box_delta, dim=1)  # (2,18134,4)
        box_iou = torch.cat(box_iou, dim=1)  # (2,18134,1)

        losses_cls = []
        losses_box_reg = []
        losses_iou = []

        num_fg = 0

        for shifts_per_image, targets_per_image, box_cls_per_image, \
                box_delta_per_image, box_iou_per_image in zip(
                shifts, targets, box_cls, box_delta, box_iou):

            shifts_over_all = torch.cat(shifts_per_image, dim=0)  # (18134,2)

            gt_boxes = targets_per_image.gt_boxes  # (2,4)
            gt_classes = targets_per_image.gt_classes  # tensor([12, 14], device='cuda:0')

            deltas = self.shift2box_transform.get_deltas(
                shifts_over_all, gt_boxes.tensor.unsqueeze(1))  # anchor_point到gt四边的距离，(18134,2),(2,1,4) -> (2,18134,4)
            is_in_boxes = deltas.min(dim=-1).values > 0.01  # (2,18134)

            shape = (len(targets_per_image), len(shifts_over_all), -1)  # (2, 18134, -1)
            box_cls_per_image_unexpanded = box_cls_per_image  # (18134,20)
            box_delta_per_image_unexpanded = box_delta_per_image  # (18134,4)

            box_cls_per_image = box_cls_per_image.unsqueeze(0).expand(shape)  # (2,18134,20)
            tmp = F.one_hot(
                torch.max(gt_classes, torch.zeros_like(gt_classes)), self.num_classes
            )
            gt_cls_per_image = F.one_hot(
                torch.max(gt_classes, torch.zeros_like(gt_classes)), self.num_classes
            ).float().unsqueeze(1).expand(shape)
            # tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
            #         [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]],
            #        device='cuda:0')
            # (2,20) -> (2,18134,20)

            with torch.no_grad():
                loss_cls = sigmoid_focal_loss_jit(
                    box_cls_per_image,
                    gt_cls_per_image,
                    alpha=self.focal_loss_alpha,
                    gamma=self.focal_loss_gamma).sum(dim=-1)  # (2,18134,20) -> (2,18134)
                loss_cls_bg = sigmoid_focal_loss_jit(
                    box_cls_per_image_unexpanded,
                    torch.zeros_like(box_cls_per_image_unexpanded),
                    alpha=self.focal_loss_alpha,
                    gamma=self.focal_loss_gamma).sum(dim=-1)  # (18134,20) -> (18134)
                box_delta_per_image = box_delta_per_image.unsqueeze(0).expand(shape)  # (18134,4) -> (2,18134,4)
                gt_delta_per_image = self.shift2box_transform.get_deltas(
                    shifts_over_all, gt_boxes.tensor.unsqueeze(1))  # (2,18134,4)
                loss_delta = iou_loss(
                    box_delta_per_image,
                    gt_delta_per_image,
                    box_mode="ltrb",
                    loss_type='iou')  # (2,18134), 注意box_delta_per_image和gt_delta_per_image中每个anchor point点是对齐的

                ious = get_ious(
                    box_delta_per_image,
                    gt_delta_per_image,
                    box_mode="ltrb",
                    loss_type='iou')  # (2,18134)

                loss = loss_cls + self.reg_cost * loss_delta + 1e3 * (1 - is_in_boxes.float())  # 1.5, (2,18134)
                loss = torch.cat([loss, loss_cls_bg.unsqueeze(0)], dim=0)  # (3,18134)

                num_gt = loss.shape[0] - 1  # 2
                num_anchor = loss.shape[1]  # 18134

                # Topk
                matching_matrix = torch.zeros_like(loss)  # (3,18134)
                _, topk_idx = torch.topk(loss[:-1], k=self.topk, dim=1, largest=False)  # 10, (2,10)
                matching_matrix[torch.arange(num_gt).unsqueeze(1).repeat(1,
                   self.topk).view(-1), topk_idx.view(-1)] = 1.
                # (2)->(2,1)->(2,10)->(20), (2,10)->(20)
                # tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
                #         [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

                # make sure one anchor with one gt
                anchor_matched_gt = matching_matrix.sum(0)  # (18134)
                if (anchor_matched_gt > 1).sum() > 0:  # 存在多个gt分配给同一个anchor的情况
                    loss_min, loss_argmin = torch.min(loss[:-1, anchor_matched_gt > 1], dim=0)
                    # (anchor_matched_gt > 1).shape=(18134), 对应位置为True/False，True表示有多个gt分配给了当前anchor
                    # loss[:-1, anchor_matched_gt > 1].shape = (2,7)
                    # torch.Size([7]),torch.Size([7])
                    # loss_argmin表示被分配多个gt的anchor和哪个gt的loss最小
                    # loss_argmin == tensor([1, 1, 1, 1, 1, 1, 1], device='cuda:0'), 表示这个anchor都被分配了2个gt，且这7个anchor都与第2个gt的loss小

                    matching_matrix[:, anchor_matched_gt > 1] *= 0.  # 把多个gt的对应位置全置0
                    matching_matrix[loss_argmin, anchor_matched_gt > 1] = 1.  # 把loss最小的gt对应位置置1
                    anchor_matched_gt = matching_matrix.sum(0)  # (18134), positive anchor对应位置为1
                num_fg += matching_matrix.sum()
                matching_matrix[-1] = 1. - anchor_matched_gt  # assignment for Background
                assigned_gt_inds = torch.argmax(matching_matrix, dim=0)

                gt_cls_per_image_bg = gt_cls_per_image.new_zeros(
                    (gt_cls_per_image.size(1), gt_cls_per_image.size(2))).unsqueeze(0)
                gt_cls_per_image_with_bg = torch.cat(
                    [gt_cls_per_image, gt_cls_per_image_bg], dim=0)
                cls_target_per_image = gt_cls_per_image_with_bg[
                    assigned_gt_inds, torch.arange(num_anchor)]

                # Dealing with Crowdhuman ignore label
                gt_classes_ = torch.cat([gt_classes, gt_classes.new_zeros(1)])
                anchor_cls_labels = gt_classes_[assigned_gt_inds]
                valid_flag = anchor_cls_labels >= 0

                pos_mask = assigned_gt_inds != len(targets_per_image)  # get foreground mask
                valid_fg = pos_mask & valid_flag
                assigned_fg_inds = assigned_gt_inds[valid_fg]
                range_fg = torch.arange(num_anchor)[valid_fg]
                ious_fg = ious[assigned_fg_inds, range_fg]

            anchor_loss_cls = sigmoid_focal_loss_jit(
                box_cls_per_image_unexpanded[valid_flag],
                cls_target_per_image[valid_flag],
                alpha=self.focal_loss_alpha,
                gamma=self.focal_loss_gamma).sum(dim=-1)

            delta_target = gt_delta_per_image[assigned_fg_inds, range_fg]
            anchor_loss_delta = 2. * iou_loss(
                box_delta_per_image_unexpanded[valid_fg],
                delta_target,
                box_mode="ltrb",
                loss_type=self.iou_loss_type)

            anchor_loss_iou = 0.5 * F.binary_cross_entropy_with_logits(
                box_iou_per_image.squeeze(1)[valid_fg],
                ious_fg,
                reduction='none')

            losses_cls.append(anchor_loss_cls.sum())
            losses_box_reg.append(anchor_loss_delta.sum())
            losses_iou.append(anchor_loss_iou.sum())

        if self.norm_sync:
            dist.all_reduce(num_fg)
            num_fg = num_fg.float() / dist.get_world_size()

        return {
            'loss_cls': torch.stack(losses_cls).sum() / num_fg,
            'loss_box_reg': torch.stack(losses_box_reg).sum() / num_fg,
            'loss_iou': torch.stack(losses_iou).sum() / num_fg
        }

    def inference(self, box_cls, box_delta, box_iou, shifts, images):
        """
        Arguments:
            box_cls, box_delta, box_center: Same as the output of :meth:`FCOSHead.forward`
            shifts (list[list[Tensor]): a list of #images elements. Each is a
                list of #feature level tensor. The tensor contain shifts of this
                image on the specific feature level.
            images (ImageList): the input images

        Returns:
            results (List[Instances]): a list of #images elements.
        """
        assert len(shifts) == len(images)
        results = []

        box_cls = [permute_to_N_HWA_K(x, self.num_classes) for x in box_cls]
        box_delta = [permute_to_N_HWA_K(x, 4) for x in box_delta]
        box_iou = [permute_to_N_HWA_K(x, 1) for x in box_iou]
        # list[Tensor], one per level, each has shape (N, Hi x Wi, K or 4)

        for img_idx, shifts_per_image in enumerate(shifts):
            image_size = images.image_sizes[img_idx]
            box_cls_per_image = [
                box_cls_per_level[img_idx] for box_cls_per_level in box_cls
            ]
            box_reg_per_image = [
                box_reg_per_level[img_idx] for box_reg_per_level in box_delta
            ]
            box_iou_per_image = [
                box_iou_per_level[img_idx] for box_iou_per_level in box_iou
            ]
            results_per_image = self.inference_single_image(
                box_cls_per_image, box_reg_per_image, box_iou_per_image,
                shifts_per_image, tuple(image_size))
            results.append(results_per_image)
        return results

    def inference_single_image(self, box_cls, box_delta, box_iou, shifts,
                               image_size):
        """
        Single-image inference. Return bounding-box detection results by thresholding
        on scores and applying non-maximum suppression (NMS).

        Arguments:
            box_cls (list[Tensor]): list of #feature levels. Each entry contains
                tensor of size (H x W, K)
            box_delta (list[Tensor]): Same shape as 'box_cls' except that K becomes 4.
            box_center (list[Tensor]): Same shape as 'box_cls' except that K becomes 1.
            shifts (list[Tensor]): list of #feature levels. Each entry contains
                a tensor, which contains all the shifts for that
                image in that feature level.
            image_size (tuple(H, W)): a tuple of the image height and width.

        Returns:
            Same as `inference`, but for only one image.
        """
        boxes_all = []
        scores_all = []
        class_idxs_all = []

        # Iterate over every feature level
        for box_cls_i, box_reg_i, box_iou_i, shifts_i in zip(
                box_cls, box_delta, box_iou, shifts):
            # (HxWxK,)
            box_cls_i = box_cls_i.flatten().sigmoid_()

            # Keep top k top scoring indices only.
            num_topk = min(self.topk_candidates, box_reg_i.size(0))
            # torch.sort is actually faster than .topk (at least on GPUs)
            predicted_prob, topk_idxs = box_cls_i.sort(descending=True)
            predicted_prob = predicted_prob[:num_topk]
            topk_idxs = topk_idxs[:num_topk]

            # filter out the proposals with low confidence score
            keep_idxs = predicted_prob > self.score_threshold
            predicted_prob = predicted_prob[keep_idxs]
            topk_idxs = topk_idxs[keep_idxs]

            shift_idxs = topk_idxs // self.num_classes
            classes_idxs = topk_idxs % self.num_classes

            box_reg_i = box_reg_i[shift_idxs]
            shifts_i = shifts_i[shift_idxs]
            # predict boxes
            predicted_boxes = self.shift2box_transform.apply_deltas(
                box_reg_i, shifts_i)
            box_iou_i = box_iou_i.flatten().sigmoid_()[shift_idxs]
            predicted_prob = torch.sqrt(predicted_prob * box_iou_i)

            boxes_all.append(predicted_boxes)
            scores_all.append(predicted_prob)
            class_idxs_all.append(classes_idxs)

        boxes_all, scores_all, class_idxs_all = [
            cat(x) for x in [boxes_all, scores_all, class_idxs_all]
        ]
        keep = batched_nms(boxes_all, scores_all, class_idxs_all,
                           self.nms_threshold)
        keep = keep[:self.max_detections_per_image]

        result = Instances(image_size)
        result.pred_boxes = Boxes(boxes_all[keep])
        result.scores = scores_all[keep]
        result.pred_classes = class_idxs_all[keep]
        return result

    def preprocess_image(self, batched_inputs):
        """
        Normalize, pad and batch the input images.
        """
        images = [x["image"].to(self.device) for x in batched_inputs]
        images = [self.normalizer(x) for x in images]
        images = ImageList.from_tensors(images,
                                        self.backbone.size_divisibility)
        return images


class FCOSHead(nn.Module):
    """
    The head used in FCOS for object classification and box regression.
    It has two subnets for the two tasks, with a common structure but separate parameters.
    """
    def __init__(self, cfg, input_shape: List[ShapeSpec]):
        super().__init__()
        # fmt: off
        in_channels = input_shape[0].channels
        num_classes = cfg.MODEL.FCOS.NUM_CLASSES
        num_convs = cfg.MODEL.FCOS.NUM_CONVS
        prior_prob = cfg.MODEL.FCOS.PRIOR_PROB
        self.fpn_strides = cfg.MODEL.FCOS.FPN_STRIDES
        self.norm_reg_targets = cfg.MODEL.FCOS.NORM_REG_TARGETS
        # fmt: on
        cls_subnet = []
        bbox_subnet = []
        for _ in range(num_convs):
            cls_subnet.append(
                nn.Conv2d(in_channels,
                          in_channels,
                          kernel_size=3,
                          stride=1,
                          padding=1))
            cls_subnet.append(nn.GroupNorm(32, in_channels))
            cls_subnet.append(nn.ReLU())
            bbox_subnet.append(
                nn.Conv2d(in_channels,
                          in_channels,
                          kernel_size=3,
                          stride=1,
                          padding=1))
            bbox_subnet.append(nn.GroupNorm(32, in_channels))
            bbox_subnet.append(nn.ReLU())

        self.cls_subnet = nn.Sequential(*cls_subnet)
        self.bbox_subnet = nn.Sequential(*bbox_subnet)
        self.cls_score = nn.Conv2d(in_channels,
                                   num_classes,
                                   kernel_size=3,
                                   stride=1,
                                   padding=1)
        self.bbox_pred = nn.Conv2d(in_channels,
                                   4,
                                   kernel_size=3,
                                   stride=1,
                                   padding=1)
        self.ious_pred = nn.Conv2d(in_channels,
                                   1,
                                   kernel_size=3,
                                   stride=1,
                                   padding=1)

        # Initialization
        for modules in [
                self.cls_subnet, self.bbox_subnet, self.cls_score,
                self.bbox_pred, self.ious_pred
        ]:
            for layer in modules.modules():
                if isinstance(layer, nn.Conv2d):
                    torch.nn.init.normal_(layer.weight, mean=0, std=0.01)
                    torch.nn.init.constant_(layer.bias, 0)
                if isinstance(layer, nn.GroupNorm):
                    torch.nn.init.constant_(layer.weight, 1)
                    torch.nn.init.constant_(layer.bias, 0)

        # Use prior in model initialization to improve stability
        bias_value = -math.log((1 - prior_prob) / prior_prob)
        torch.nn.init.constant_(self.cls_score.bias, bias_value)

        self.scales = nn.ModuleList(
            [Scale(init_value=1.0) for _ in range(len(self.fpn_strides))])

    def forward(self, features):
        """
        Arguments:
            features (list[Tensor]): FPN feature map tensors in high to low resolution.
                Each tensor in the list correspond to different feature levels.

        Returns:
            logits (list[Tensor]): #lvl tensors, each has shape (N, K, Hi, Wi).
                The tensor predicts the classification probability
                at each spatial position for each of the K object classes.
            bbox_reg (list[Tensor]): #lvl tensors, each has shape (N, 4, Hi, Wi).
                The tensor predicts 4-vector (dl,dt,dr,db) box
                regression values for every shift. These values are the
                relative offset between the shift and the ground truth box.
            centerness (list[Tensor]): #lvl tensors, each has shape (N, 1, Hi, Wi).
                The tensor predicts the centerness at each spatial position.
        """
        logits = []
        bbox_reg = []
        ious_pred = []
        for l, feature in enumerate(features):
            # (2,256,136,100)
            cls_subnet = self.cls_subnet(feature)  # (2,256,136,100)
            bbox_subnet = self.bbox_subnet(feature)  # (2,256,136,100)

            logits.append(self.cls_score(cls_subnet))  # (2,20,136,100)
            ious_pred.append(self.ious_pred(bbox_subnet))  # (2,1,136,100)
            bbox_pred = self.scales[l](self.bbox_pred(bbox_subnet))  # (2,4,136,100)
            if self.norm_reg_targets:  # True
                bbox_reg.append(F.relu(bbox_pred) * self.fpn_strides[l])  # [8, 16, 32, 64, 128]
            else:
                bbox_reg.append(torch.exp(bbox_pred))
        # [(2,20,136,100),(2,20,68,50),(2,20,34,25),(2,20,17,13),(2,20,9,7)]
        # [(2,4,136,100),(2,4,68,50),(2,4,34,25),(2,4,17,13),(2,4,9,7)]
        # [(2,1,136,100),(2,1,68,50),(2,1,34,25),(2,1,17,13),(2,1,9,7)]
        return logits, bbox_reg, ious_pred

气象海洋水文领域Python机器学习及深度学习实践应用能力提升 AAIshangyanxiu 农林生态遥感编程算法统计语言大气科学 python 机器学习深度学习
Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能。上述优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为气象、海洋和水文
Python人工智能气象岁月如歌，青春不败气象学 python 人工智能开发语言
Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的主流编程语言之一。一：Python和科学计算基础1.1Python安装1.1.1Python在气象中的应用1.1.2Anaconda解
ChatGPT 网络配置问题解决方案 IPdodo全球网络服务 chatgpt 网络
随着人工智能技术的飞速发展，基于GPT架构的聊天机器人，如ChatGPT，已经在多个领域获得了广泛应用。其强大的自然语言处理能力为用户带来了便捷的交互体验。然而，在实际使用过程中，尤其是在部署和访问时，用户可能会遇到网络配置方面的一些问题，这些问题往往会影响ChatGPT的响应速度、稳定性甚至是可用性。一、ChatGPT网络配置问题的常见原因1.网络连接不稳定网络连接的稳定性是影响ChatGPT使
【昇思25天学习打卡营打卡指南-第一天】基本介绍与快速入门 JeffDingAI MindSpore 学习
昇思MindSpore介绍昇思MindSpore是一个全场景深度学习框架，旨在实现易开发、高效执行、全场景统一部署三大目标。其中，易开发表现为API友好、调试难度低；高效执行包括计算效率、数据预处理效率和分布式训练效率；全场景则指框架同时支持云、边缘以及端侧场景。昇思MindSpore总体架构如下图所示：ModelZoo（模型库）：ModelZoo提供可用的深度学习算法网络，也欢迎更多开发者贡献新
NLP-语义解析(Text2SQL)：技术路线【Seq2Seq、模板槽位填充、中间表达、强化学习、图网络】 u013250861 #自然语言处理人工智能
目前关于NL2SQL技术路线的发展主要包含以下几种:Seq2Seq方法：在深度学习的研究背景下,很多研究人员将Text-to-SQL看作一个类似神经机器翻译的任务,主要采取Seq2Seq的模型框架。基线模型Seq2Seq在加入Attention、Copying等机制后,能够在ATIS、GeoQuery数据集上达到84%的精确匹配,但是在WikiSQL数据集上只能达到23.3%的精确匹配,37.0%
PyTorch 中的 expand 操作详解：用法、原理与技巧专业发呆业余科研深度模型底层原理 pytorch 人工智能 python 深度学习机器学习
在使用PyTorch进行深度学习时，张量形状与广播机制常常是让初学者感到困惑的地方。我们需要时常面对多维张量，并在批量、通道、空间位置等多个维度之间做运算。如果能熟练掌握各种维度变换操作——包括unsqueeze、expand、view/reshape、transpose/permute等，可以帮助我们灵活地操纵张量，写出高效而简洁的矩阵化（vectorized）代码。本文将重点聚焦于expand
注意力池化层：从概念到实现及应用专业发呆业余科研深度模型底层原理 python 人工智能 transformer 深度学习自然语言处理图像处理
引言在现代深度学习模型中，注意力机制已经成为一个不可或缺的组件，特别是在处理自然语言和视觉数据时。多头注意力机制（MultiheadAttention）是Transformer模型的核心，它通过多个注意力头来捕捉序列中不同部分之间的关系。然而，在多模态模型中，如何有效地将图像特征和文本特征结合起来一直是一个挑战。注意力池化层（AttentionPoolingLayer）提供了一种有效的解决方案，通
深入解析昇腾AI CPU算子开发：基于AI CPU引擎的自定义算子实现与优化快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析昇腾AICPU算子开发：基于AICPU引擎的自定义算子实现与优化随着深度学习模型复杂性的不断提升，AI处理器需要更强大的算力和更高效的计算架构来支撑模型的训练和推理。在华为昇腾AI处理器的架构中，AICPU承担着重要的计算任务，特别是针对标量和向量等通用计算的支持。AICPU算子开发成为开发者优化模型性能的重要步骤，而TBE（TensorBoostEngine）工具也为开发者提供了便捷的算
【AI系统】混合并行 ZOMI酱人工智能
混合并行混合并行（HybridParallel）是一种用于分布式计算的高级策略，它结合了数据并行和模型并行的优势，以更高效地利用计算资源，解决深度学习中的大模型训练问题。混合并行不仅能提高计算效率，还能在有限的硬件资源下处理更大的模型和数据集。在深度学习中，数据并行和模型并行各自有其适用的场景和局限性。数据并行适用于训练样本较多而模型较小的情况，通过将数据集分割成多个子集并在不同的设备上同时训练来
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1
谷歌 AI Agent 白皮书：2025 年，智能体时代已来人工智能googleagent
谷歌在2024年底发布了AIAgent（AI智能体）白皮书，表明人工智能在商业中将扮演更积极和独立的角色的未来，并详细阐述了智能体的概念、架构、运作方式以及相关技术，为智能体的开发和应用提供了理论框架和实践指导。AI4AI社区为大家对白皮书内容进行了整理，简单概括回顾核心内容，欢迎点击文章底部“阅读原文”获取完整版白皮书。智能体时代已来人类擅长处理复杂的模式识别任务。然而，我们往往需要借助工具——
BladeDISC++：Dynamic Shape AI 编译器下的显存优化技术人工智能机器学习分布式阿里云
近年来，随着深度学习技术的迅猛发展，越来越多的模型展现出动态特性，这引发了对动态形状深度学习编译器(DynamicShapeAICompiler)的广泛关注。本文将介绍阿里云PAI团队近期发布的BladeDISC++项目，探讨在动态场景下如何优化深度学习训练任务的显存峰值，主要内容包括以下三个部分：DynamicShape场景下显存优化的背景与挑战BladeDISC++的创新解决方案Llama2模
【TVM 教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在ifname=="__main__":代码块中。importosi
AI Agent：一场智能革命的开始 TechubNews 人工智能
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
不得不了解的高效AI办公工具API 程序员
AI办公，即人工智能在办公领域的应用，是指利用人工智能技术来提高工作效率、优化工作流程、增强决策支持等。AI公文写作:AI公文写作API服务通过智能算法，根据用户需求快速生成标准化的公文文本，如报告、通知、请示等，提高工作效率。TaskadeAPI：TaskadeAPI可以帮助开发人员将Taskade集成到他们的自定义应用程序和工具中，以实现更高效、更协同的团队协作。PDF.aiAPI：PDF.a
第79期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
交叉熵损失与二元交叉熵损失：区别、联系及实现细节专业发呆业余科研深度模型底层原理人工智能深度学习 python
在机器学习和深度学习中，交叉熵损失（Cross-EntropyLoss）和二元交叉熵损失（BinaryCross-EntropyLoss）是两种常用的损失函数，它们在分类任务中发挥着重要作用。本文将详细介绍这两种损失函数的区别和联系，并通过具体的代码示例来说明它们的实现细节。交叉熵损失（Cross-EntropyLoss）常用于多类分类问题，即每个样本只能属于一个类别，但总类别数量较多。例如，在手
全类别机器人传感器模块推荐极梦网络无忧杂谈机器人
视觉感知双目视觉模块：常见分辨率1280×720，帧率30fps-60fps，水平视场角60°-90°，垂直视场角40°-60°，通过USB接口传数据。用于机器人导航、避障等，基于三角测量原理获取三维信息，定位更精准。单目摄像头模块：分辨率640×480至2592×1944可选，帧率15fps-60fps，工作电压3.3V-5V。适用于简单图像识别任务，成本低、体积小，结合算法可实现目标检测等功能
深度学习YOLOv3压双黄线期末项目 yzx991013 giit YOLO
一、引言实现功能目录一、引言实现功能打开视频连续检测车辆能检测到道路中间的双黄线能检测出车辆是否压双黄线当车辆压到双黄线时给出提示要求使用多线程实现功能二、技术栈概览三、代码功能深度剖析视频文件选择功能（choosevideo函数）四、项目亮点提炼五、总结与展望1.打开视频2.连续检测车辆3.能检测到道路中间的双黄线4.能检测出车辆是否压双黄线5.当车辆压到双黄线时给出提示6.要求使用多线程实现功
人工智能下的MASS服务架构从零开始学习人工智能人工智能架构
人工智能下的MASS服务架构1.MaaS（ModelasaService）概述MaaS（ModelasaService，模型即服务）是一种新型的人工智能服务模式，通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。2.MaaS的起源与概念MaaS的概念最早由美国数据科学家DJ·帕蒂尔在2012年提出，即“将机器学习算法打包成可重复使用的服务，使企
深度定制：Embedding与Reranker模型的微调艺术从零开始学习人工智能 embedding 人工智能
微调是深度学习中的一种常见做法，它允许模型在预训练的基础上进一步学习特定任务的特定特征。对于Embedding模型，微调的目的是让模型更适配特定的数据集，从而取得更好的召回效果。这通常涉及到使用特定的数据集对模型进行额外的训练，以便模型能够学习到数据集中的特定语义关系。微调过程可以使用不同的库和框架来实现，例如sentence-transformers库，它提供了便捷的API来调整Embeddin
十大人工智能公司雪兽软件科技前沿人工智能
人工智能（AI）是我们这个时代最具变革性和颠覆性的技术之一，它从最初由少数研究人员和科技巨头涉足的相对小众的领域，发展成为一个价值数十亿美元的产业，吸引着全球各地的投资和人才。随着人工智能的潜力不断激发全球企业家、投资者和企业的想象力，一批新型公司应运而生，它们致力于突破这项技术的边界。在此，我们来探究一下截至2024年5月15日按市值排名前十的人工智能公司，这些公司正在助力塑造人工智能的未来。1
什么是通用人工智能？雪兽软件科技前沿人工智能
通用人工智能（AGI）被定义为机器的智能，使它们能够像人类一样理解、学习和执行智力任务。AGI模仿人类的思维和行为来解决任何复杂的问题。本文解释了AGI的基本原理、涉及的主要挑战以及AGI进步的十大趋势。什么是通用人工智能?通用人工智能（AGI）是机器的智能，使它们能够像人类一样理解、学习和执行智力任务。有了AGI，机器可以模仿人类的思维和行为来解决任何复杂的问题。这些机器被设计为具有全面的知识和
自动驾驶系列—解析自动驾驶汽车的“大脑”：电子电气架构详解与选型指南学步_技术自动驾驶自动驾驶汽车架构 EEA
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
HarmonyOS（鸿蒙），腾讯面试java 1024创新开发程序员面试 java 后端
20],21“actions”:[22“action.system.home”23]24}25],26“orientation”:“unspecified”,27“name”:“com.example.demo.MainAbility”,28“icon”:“$media:icon”,29“description”:“$string:mainability_description”,30“label
【机器学习】—时序数据分析：机器学习与深度学习在预测、金融、气象等领域的应用云边有个稻草人热门文章机器学习数据分析深度学习笔记
云边有个稻草人-CSDN博客目录引言1.时序数据分析基础1.1时序数据的特点1.2时序数据分析的常见方法2.深度学习与时序数据分析2.1深度学习在时序数据分析中的应用2.1.1LSTM（长短期记忆网络）2.2深度学习在金融市场预测中的应用2.2.1股票市场预测2.3深度学习在设备故障检测中的应用3.强化学习与时序数据分析3.1强化学习的基本概念3.2强化学习在金融市场中的应用3.3强化学习在设备故
使用 AI 在医疗影像分析中的应用探索
摘要医疗影像分析是AI在医疗领域的重要应用方向，能够提高诊断效率，减少误诊率。本文将深入探讨AI技术在医疗影像数据分析中的应用，包括核心算法、关键实现步骤和实际案例，并提供一个基于卷积神经网络（CNN）的图像分类Demo。引言随着医疗影像数据的爆炸式增长，传统的人工分析已无法满足高效、精准诊断的需求。AI技术通过深度学习算法，在医疗影像的识别、分类和标注中发挥了重要作用。本文章将结合技术实现与案例
【专题】AI市场趋势洞察（2024年）报告汇总PDF洞察（附原数据表）数据挖掘深度学习人工智能算法
原文链接：https://tecdat.cn/?p=38023当今时代，科技的浪潮汹涌澎湃，人工智能（AI）作为其中的核心力量，正深刻地改变着我们的生活方式和消费模式。在主流电商平台上，AI产品展现出多样化的销售态势。AI大家电虽规模最大，却面临销售额同比下降的挑战；AI手机凭借丰富功能实现销售额大幅增长；AI笔记本电脑则以惊人增速异军突起。而在智能家居领域，AI同样扮演着至关重要的角色。文末49
人工智能入门需要看那些书？人邮异步社区人工智能
对于想要入门人工智能的读者，以下是一些值得推荐的书籍：1、《人工智能：现代方法》（第4版）（上下册）作者：[美]斯图尔特·罗素（StuartRussell）[美]彼得·诺维格（PeterNorvig）著内容：系统性总结人工智能的方方面面，国际人工智能领域专家斯图尔特·罗素撰写人工智能百科书，时隔十年重磅更新，被全球全球1500多所学校采用的经典教材。全书分7个部分，共28章，理论部分介绍了人工智能
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {