江南才尽，年少无知！

目标检测00-10：mmdetection(Foveabox为例)-源码无死角解析（4）-头部网络bbox_head-推理过程

以下链接是个人关于mmdetection(Foveabox-目标检测框架)所有见解，如有错误欢迎大家指出，我会第一时间纠正。有兴趣的朋友可以加微信：a944284742相互讨论技术。若是帮助到了你什么，一定要记得点赞！因为这是对我最大的鼓励。
目标检测00-00：mmdetection(Foveabox为例)-目录-史上最新无死角讲解

前言

在上篇博客中，已经对 mmdet\models\dense_heads\fovea_head.py 中的 FoveaHead 训练过程进行了讲解。但是推理过程还没有进行解析。那么这篇博客我们就来好好的专研一下，其主要的核心就是 FoveaHead 中的 def get_bboxes 函数。

代码注释

关于 FoveaHead 中 get_bboxes 代码，本人注释如下：

    def get_targets(self, gt_bbox_list, gt_label_list, featmap_sizes, points):
        """
        :param gt_bbox_list: 该个batch所有图像对应的box信息
        :param gt_label_list: 该个batch所有图像box对应的cls信息
        :param featmap_sizes: 5个特征图大小，默认为[[60,80],[30,40],[15,20],[8,10],[4,5]]
        :param points: 包含了5个特征图像素对应的坐标位置
        :return:
        """
        # 循环 batch_size 次执行self._get_target_single函数，
        # 为每张图像生成特征图对应的box，cls标签
        label_list, bbox_target_list = multi_apply(
            self._get_target_single,
            gt_bbox_list,
            gt_label_list,
            featmap_size_list=featmap_sizes,
            point_list=points)

        # 把所有特征图对应的label cls进行扁平处理，形状为[b,n]（包含一个batch）
        flatten_labels = [
            torch.cat([
                labels_level_img.flatten() for labels_level_img in labels_level
            ]) for labels_level in zip(*label_list)
        ]
        # 把所有特征图对应的box进行扁平处理，形状为[b,n,4]包含一个batch）
        flatten_bbox_targets = [
            torch.cat([
                bbox_targets_level_img.reshape(-1, 4)
                for bbox_targets_level_img in bbox_targets_level
            ]) for bbox_targets_level in zip(*bbox_target_list)
        ]
        # [b,n]-->[b*n]
        flatten_labels = torch.cat(flatten_labels)
        # [b,n,4]-->[b*n,4]
        flatten_bbox_targets = torch.cat(flatten_bbox_targets)
        return flatten_labels, flatten_bbox_targets

    def _get_target_single(self,
                           gt_bboxes_raw, # 输入图像对应的box
                           gt_labels_raw, # 输入图像box对应的cls标签
                           featmap_size_list=None, # 包含5个特征图的大小
                           point_list=None): # 包含5ge特征图每个像素的坐标

        # 获得box的面积（开根号之后的）
        gt_areas = torch.sqrt((gt_bboxes_raw[:, 2] - gt_bboxes_raw[:, 0]) *
                              (gt_bboxes_raw[:, 3] - gt_bboxes_raw[:, 1]))

        # 记录一张图片的所有特征的 target  label 类别信息
        label_list = []
        # 记录一张图片的所有特征的 target  box 的 tx1，ty1, tx2，ty2,（论文的公式4） 的信息
        bbox_target_list = []
        # for each pyramid, find the cls and box target
        # 为每个金字塔特征生成对应的 target cls，target box
        # self.base_edge_list 默认为 [16, 32, 64, 128, 256]，对应论文中的rl
        # self.scale_ranges   默认为被覆盖为 ((1, 64), (32, 128), (64, 256), (128, 512), (256, 2048))
        # self.strides 默认为被覆盖为[8, 16, 32, 64, 128],
        # featmap_size_list 默认形状为为 [[60,80],[30,40],[15,20],[8,10],[4,5]]
        for base_len, (lower_bound, upper_bound), stride, featmap_size, \
            (y, x) in zip(self.base_edge_list, self.scale_ranges,
                          self.strides, featmap_size_list, point_list):

            # FG cat_id: [0, num_classes -1], BG cat_id: num_classes
            # 创建一个featmap_size大小的labels，全部都赋值成背景类
            labels = gt_labels_raw.new_zeros(featmap_size) + self.num_classes
            # 创建一个featmap_size大小的 box target,
            # 形状为(featmap_size[0], featmap_size[1],4)，初始化所有的值填充为1
            bbox_targets = gt_bboxes_raw.new(featmap_size[0], featmap_size[1],
                                             4) + 1

            # 论文中的scale assignment，缩放分配。也就是一个box，其应该属于那个特征图最合适
            # 如果gt_areas在当前金字塔特征的[lower_bound, upper_bound]之间，
            # 说明使用该特征图对其进行预测是合理的，一张图片中可能存在多个box，所以hit_indices可能存在多个值
            # 并且hit_indices记录的是box的索引
            hit_indices = ((gt_areas >= lower_bound) &
                           (gt_areas <= upper_bound)).nonzero().flatten()

            # 如果没有被分配到当前金字塔特征的，则continue继续。表示该特征图不存在 Positivte area（论文Fig3）区域
            if len(hit_indices) == 0:
                label_list.append(labels)
                bbox_target_list.append(torch.log(bbox_targets))
                continue

            # 把被分贝到当前的特征图的box，按面积进行排序，
            _, hit_index_order = torch.sort(-gt_areas[hit_indices])

            # 获取通过面积排序之后的索引值
            hit_indices = hit_indices[hit_index_order]
            # 根据索引值获得box,同时除以stride（因为特征图相对于原图缩小了stride倍，所以要进行坐标变换）
            # 这里的stride可以理解为论文中的sl
            gt_bboxes = gt_bboxes_raw[hit_indices, :] / stride
            # 根据索引值获得box对应的cls类别
            gt_labels = gt_labels_raw[hit_indices]

            # 获得box宽高的一半数值
            half_w = 0.5 * (gt_bboxes[:, 2] - gt_bboxes[:, 0])
            half_h = 0.5 * (gt_bboxes[:, 3] - gt_bboxes[:, 1])

            # valid fovea area: left, right, top, down
            # self.sigma对应论文中的σ，这里的主要是根据该参数，求得论文中特征图对应的Positivte area（论文Fig3），也就是Rpos
            # 对应论文中的公式（1）（2）
            pos_left = torch.ceil(
                gt_bboxes[:, 0] + (1 - self.sigma) * half_w - 0.5).long().\
                clamp(0, featmap_size[1] - 1)
            pos_right = torch.floor(
                gt_bboxes[:, 0] + (1 + self.sigma) * half_w - 0.5).long().\
                clamp(0, featmap_size[1] - 1)
            pos_top = torch.ceil(
                gt_bboxes[:, 1] + (1 - self.sigma) * half_h - 0.5).long().\
                clamp(0, featmap_size[0] - 1)
            pos_down = torch.floor(
                gt_bboxes[:, 1] + (1 + self.sigma) * half_h - 0.5).long().\
                clamp(0, featmap_size[0] - 1)

            # 循环对每个box的Positivte area进行处理
            for px1, py1, px2, py2, label, (gt_x1, gt_y1, gt_x2, gt_y2) in \
                    zip(pos_left, pos_top, pos_right, pos_down, gt_labels,
                        gt_bboxes_raw[hit_indices, :]):

                # 特征图box的Rpos区域进行标签赋值
                labels[py1:py2 + 1, px1:px2 + 1] = label

                #  对应论文中的公式(4)，但是大家要注意，这里话没有进行log的计算，
                # 也就是其只计算了:[sl(x+0.5) - x']/rl 部分，
                # 主要的目的是为了计算box边框坐标到特征图预测像素坐标的偏移值
                bbox_targets[py1:py2 + 1, px1:px2 + 1, 0] = \
                    (stride * x[py1:py2 + 1, px1:px2 + 1] - gt_x1) / base_len
                bbox_targets[py1:py2 + 1, px1:px2 + 1, 1] = \
                    (stride * y[py1:py2 + 1, px1:px2 + 1] - gt_y1) / base_len
                bbox_targets[py1:py2 + 1, px1:px2 + 1, 2] = \
                    (gt_x2 - stride * x[py1:py2 + 1, px1:px2 + 1]) / base_len
                bbox_targets[py1:py2 + 1, px1:px2 + 1, 3] = \
                    (gt_y2 - stride * y[py1:py2 + 1, px1:px2 + 1]) / base_len

            # 把范围固定在[1./16，16]之间
            bbox_targets = bbox_targets.clamp(min=1. / 16, max=16.)
            label_list.append(labels)
            # 把剩余的log操作完成，然后添加到bbox_target_list之中
            bbox_target_list.append(torch.log(bbox_targets))

        return label_list, bbox_target_list

    def get_bboxes(self, # 以下的讲解，都以输入图像为 640*480 为例。
                   cls_scores, # 网络输出的5个金字塔特征对应box概率值（暂时未经过softmax或者sigmod处理）。
                   bbox_preds, # 网络输出的5个金字塔特征对应的(tx1, ty1, tx2, ty2)
                   img_metas, # 主要记录了输入图像的路径, 原始大小，当前大小，缩放因子，正则化参数。用于 box 还原处理，
                   cfg=None, # 本人测试代码时为 None
                   rescale=None): # 默认为Ture
        # 判断长度是否相同，不相同则报错
        assert len(cls_scores) == len(bbox_preds)
        # 获得金字塔特征的数目，默认为 5
        num_levels = len(cls_scores)
        # 获得每个金字塔特征的大小，本人实验大小分别为:[(60,80),(30,40),(15,20),(8,10),(4,5)]
        featmap_sizes = [featmap.size()[-2:] for featmap in cls_scores]

        # 根据特征图大小，获得特征图点的坐标xy。把他理解为网格形式。如特征图最左上角网格的坐标为 x, y = [0.5, 0.5]
        # points 为一个链表，包含了5个元素（对应5个金字塔特征），同时每个元素包含两个列表，分别为 x,y 坐标。
        points = self.get_points(featmap_sizes,bbox_preds[0].dtype,bbox_preds[0].device,flatten=True)

        # 用于保存推算出来的 box 结果
        result_list = []
        # 循环对每张图片进行处理，len(img_metas)为多少，说明其有多少张图片。
        for img_id in range(len(img_metas)):
            # detach 表示从当前网络中分离出来，不参与梯度计算，把它作为叶子节点。
            # 获得一张图片所有金字塔特征的 cls_score 以及 bbox_preds。
            # cls_score = [(num_class,60,80), (num_class,30,40), (num_class,15,20), (num_class,8,10), (num_class,4,5)]
            cls_score_list = [
                cls_scores[i][img_id].detach() for i in range(num_levels)
            ]
            # cls_score = [(4,60,80), (4,30,40), (4,15,20), (4,8,10), (4,4,5)]
            bbox_pred_list = [
                bbox_preds[i][img_id].detach() for i in range(num_levels)
            ]
            # 获得当前输入网络图片的形状，这里默认为360,640
            img_shape = img_metas[img_id]['img_shape']
            # 获得缩放因子，默认为[0.5, 0.5, 0.5, 0.5]
            scale_factor = img_metas[img_id]['scale_factor']
            # 把预测的 (tx1, ty1, tx2, ty2) 转换为坐标,同时做了 nms 处理（单张图像）。
            det_bboxes = self._get_bboxes_single(cls_score_list,
                                                 bbox_pred_list, featmap_sizes,
                                                 points, img_shape,
                                                 scale_factor, cfg, rescale)
            result_list.append(det_bboxes)
        return result_list

    def _get_bboxes_single(self, # cls_scores, bbox_preds 为一张图像所有金字塔特征的 cls_score 以及 bbox_preds。
                           cls_scores, # [(num_class,60,80), (num_class,30,40), (num_class,15,20), (num_class,8,10), (num_class,4,5)]
                           bbox_preds, # [(4,60,80), (4,30,40), (4,15,20), (4,8,10), (4,4,5)]
                           featmap_sizes, # [(60,80),(30,40),(15,20),(8,10),(4,5)]
                           point_list, # 前面介绍的特征图网格的坐标
                           img_shape, # 输入网络图像的大小
                           scale_factor, # 缩放因子，默认为[0.5, 0.5, 0.5, 0.5]
                           cfg,
                           rescale=False): #默认为Ture，则把坐标缩放到最原始图像上
        # 如果cfg为None，则赋值 self.test_cfg 给cfg
        cfg = self.test_cfg if cfg is None else cfg
        # 检测长度是否匹配，不匹配则报错。
        assert len(cls_scores) == len(bbox_preds) == len(point_list)
        # 用于保存转换之后的 box,类别， 以及 box 对应的类别概率值
        det_bboxes = []
        det_scores = []

        # 循环对每个金字塔特征进行处理。
        # self.strides，表示论文中的sl，
        # self.base_edge_list，默认为 [16, 32, 64, 128, 256]，对应论文中的rl
        for cls_score, bbox_pred, featmap_size, stride, base_len, (y, x) \
                in zip(cls_scores, bbox_preds, featmap_sizes, self.strides,
                       self.base_edge_list, point_list):
            # 判断宽高是否一致，不一致则报错
            assert cls_score.size()[-2:] == bbox_pred.size()[-2:]

            # 形状进行改变 [4,h,w] -- > [h,w,4] --> [h*w, 4]
            scores = cls_score.permute(1, 2, 0).reshape(
                -1, self.cls_out_channels).sigmoid()
            # 形状进行改变 [num_class,h,w] -- > [h,w,num_class] --> [h*w, num_class]
            # 并且进行了exp操作
            bbox_pred = bbox_pred.permute(1, 2, 0).reshape(-1, 4).exp()

            # nms_pre 默认值为1000,也就是去1000
            nms_pre = cfg.get('nms_pre', -1)
            if (nms_pre > 0) and (scores.shape[0] > nms_pre):
                # 获得num_class最高的分值 [h*w, num_class] -> [h*w]
                max_scores, _ = scores.max(dim=1)
                # 获得分值最高的前 nms_pre 个下标
                _, topk_inds = max_scores.topk(nms_pre)
                # 根据topk_inds下标，取得对应的 box
                bbox_pred = bbox_pred[topk_inds, :]
                # 取得 topk_inds下标的 scores[h*w, num_class] 的分值，然后再赋值给scores
                scores = scores[topk_inds, :]
                # 获得 topk_inds 对应的x, y 坐标。
                y = y[topk_inds]
                x = x[topk_inds]

            # 根据论文中的公式计算出 box 在输入图像（640*480）的坐标。
            x1 = (stride * x - base_len * bbox_pred[:, 0]).\
                clamp(min=0, max=img_shape[1] - 1)
            y1 = (stride * y - base_len * bbox_pred[:, 1]).\
                clamp(min=0, max=img_shape[0] - 1)
            x2 = (stride * x + base_len * bbox_pred[:, 2]).\
                clamp(min=0, max=img_shape[1] - 1)
            y2 = (stride * y + base_len * bbox_pred[:, 3]).\
                clamp(min=0, max=img_shape[0] - 1)

            # 把坐标链接起来，转化为(n, x1, y1, x2, y2)的形式
            bboxes = torch.stack([x1, y1, x2, y2], -1)

            # 把变换之后box坐标，以及对应的类别分值添加到 det_bboxes 与 det_scores 之中。
            det_bboxes.append(bboxes)
            det_scores.append(scores)
        # 把多个金字塔特征得到的 box 坐标，链接起来
        det_bboxes = torch.cat(det_bboxes)
        # 如果需要，则把图片缩放到最原始的图像上。
        if rescale:
            det_bboxes /= det_bboxes.new_tensor(scale_factor)
        # 把多个金字塔特征得到的 box 类别的得分值链接起来
        det_scores = torch.cat(det_scores)

        # 把det_scores添加一列，最要是兼容背景类
        padding = det_scores.new_zeros(det_scores.shape[0], 1)
        # remind that we set FG labels to [0, num_class-1] since mmdet v2.0
        # BG cat_id: num_class
        det_scores = torch.cat([det_scores, padding], dim=1)

        # 进行 nms 处理
        det_bboxes, det_labels = multiclass_nms(det_bboxes, det_scores,
                                                cfg.score_thr, cfg.nms,
                                                cfg.max_per_img)
        # 处理的结果返回，
        # det_bboxes[-1,5], 最后一列表示概率值，
        # det_labels 表示 box 对应的 cls 类别。
        return det_bboxes, det_labels

结语

我相信大家看了上面的代码，对于模型推理，如何获得原图对应的 box 坐标应该十分清楚了。除了 nms 没有进行详细的讲解之外，其他算讲解比较彻底了。对于 Foveabox 的讲解基本算是完成了。后续我使用该网络进行行人检测，追踪。再进一步联合行人从识别，进行动作识别。链接如下，欢迎大家观看：

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
【Freertos实战】零基础制作基于stm32的物联网温湿度检测(教程非常简易)持续更新中......... 熬夜的猪仔 stm32 物联网嵌入式硬件
本次记录采用Freertos的第二个DIY作品，基于Onenet的物联网温湿度检测系统，此次代码依然是全部开源。通过网盘分享的文件：物联网温湿度检测.rar链接:https://pan.baidu.com/s/1uj9UURVtGE6ZB6OsL2W8lw?pwd=qm2e提取码:qm2e大家也可以看看我上个的开源项目【Freertos实战】零基础制作基于stm32智能小车(教程非常简易)实物演示
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
万卷书 - 自律就是自由 Discipline Equals Freedom 夜流冰付费专栏其他
自律就是自由实战手册作者：JockoWillink简介《自律就是自由》（2020年）是一本关于自律艺术的实战手册。它揭示了你需要做什么来满足你的全部潜能--以及为什么自律能让你自由。本书适用于谁？*寻找新方法的健身爱好者*喜欢心直口快拥有严厉的爱的人*任何寻求灵感以更努力工作的人关于作者乔科-威林克曾在海豹突击队服役20年，并在伊拉克完成了几次服役。回国后，威林克成为一名海豹突击队教官，并创立了E
【osgEarth】在osgEarth中实现的一些模型效果：雷达波、通信链路、爆炸、尾焰、轨迹、文字标牌等 bailang_zhizun OSG osgEarth QT qt c++
学习osgEarth也有一段时间了，记录一下最近一段时间的学习成果。主要是在osgEarth三维场景中实现了一些模型效果，部分模型参考借鉴了西安恒歌的一些显示效果（当然是不能和他们比的doge），期间也从杨总(freesouths)的一些资料、文章中学到了很多，在此也感谢杨总他们的无私奉献。1、简单的仿真小场景简单的仿真小场景，感兴趣的可以看看。基于osgEarth制作的一个简单的飞机对抗仿真小场
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
嵌入式学习C语言(十五)指针函数动态内存分配函数指针指针数组指针指针皮蛋sol周学习 c语言算法排序算法
目录一、指针函数二、动态内存分配malloc函数free函数realloc函数calloc函数reallocarray函数三、函数指针qsort函数四、指针数组五、指针的指针六、两句话技巧一、指针函数1.返回值为指针的函数，不能返回局部变量的地址，全局变量、静态变量与传进去的指针地址均可返。二、动态内存分配malloc函数1.void*malloc(size_tsize);2.size_tunsi
Krita 5.2.10 (Linux, macOS, Windows) - 开源免费绘画软件前端
Krita5.2.10(Linux,macOS,Windows)-开源免费绘画软件professionalFREEandopensourcepaintingprogram请访问原文链接：https://sysin.org/blog/krita/查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgKrita由KDE社区开发维护Krita是一款自由开源的免费绘画软件，无需注册、无广告、试
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
Linux面试问题-软件测试
1、你在上一家公司常用的Linux命令有哪些？答：使用vim/vi编辑文件，使用cat，more,less，head查看文件，使用grep过滤日志中的error,使用ps查看进程，使用top查看实时进程，netstat查看端口，（df查看磁盘使用情况，du统计目录使用的大小，使用vmstat查看虚拟内存，使用free查看内存），还有一些其他比如使用scp拷贝文件，mv重命名，mkdir创建目录，r
Go从入门到精通（1）-安装与运行环境
Go从入门到精通（1）安装与运行环境文章目录Go从入门到精通（1）平台与架构gccgo编译器文件扩展名与包（package）：Go环境变量go安装在linux上安装在mac安装在windows安装Go运行时（runtime）编辑器、集成开发环境与其它工具构建并运行Go程序参考文档平台与架构Go语言开发团队开发了适用于以下操作系统的编译器：LinuxFreeBSD（windows）MacOSX（也称
用Python向PDF添加文本：新建与编辑内容的三种方式
PDF文档的版式特性使其适用于输出不可变格式的报告与合同。但若要在此类文档中插入或修改文本，常规方式难以实现。借助Python，我们可以高效地向PDF添加文本，实现从文档生成到内容审阅的自动化流程。本文将从技术角度详细讲解三种PDF文本添加方式：✅新建PDF文档并添加段落文本；✅向现有PDF文件插入简短说明或批注；✅自定义文本格式、对齐方式与排版区域。本文使用的方法需要用到免费的FreeSpire
针对esp32-c5写一个示例程序，此程序主要是扫描2.4G+5.8Gwifi，然后链接，可能通过自定义的at指令
包含：自定义AT命令(AT+SCAN=2G,AT+SCAN=5G,AT+CONN=ssid,pwd,2G/5G)2.4GHz与5GHz扫描逻辑，并按频段过滤并打印结果STA模式初始化、事件回调处理连接指定SSID/密码的示例详细的中文注释，帮助理解每个模块的设计与实现#include#include#include"freertos/FreeRTOS.h"#include"freertos/eve
小诗《苦》赏析（“诗人”我/智普清言/DeepSeek）梦幻精灵_cq 笔记学习
苦有万千分好坏，人成百样须努力。笔记模板由python脚本于2025-07-1107:22:06创建，本篇笔记适合喜欢中文诗的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/Free：大咖免费“圣
整体无需占用任何硬件 UART，即可新增一条全双工软串口
#include#include"freertos/FreeRTOS.h"#include"freertos/task.h"#include"freertos/ringbuf.h"#include"driver/rmt.h"#include"driver/gpio.h"#include"esp_log.h"staticconstchar*TAG="soft_uart_rmt";//--------
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
QML事件处理：鼠标、拖拽与键盘事件 Little-Hu QML QML
在QML应用开发中，用户交互是构建动态界面的核心。本文将全面解析QML中的三大交互事件：鼠标事件、拖拽事件和键盘事件，通过实际代码示例展示如何实现丰富的用户交互体验。一、鼠标事件处理1.MouseArea基础MouseArea是QML中处理鼠标交互的核心组件，它是一个不可见的元素，通常附加到可见元素上以提供鼠标交互能力。基本属性包括：MouseArea{anchors.fill:parent//填
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
FreeRTOS基础知识学习指南
以下内容涵盖FreeRTOS的核心概念，包括任务管理、调度、中断、互斥量与信号量、队列和内存管理等主题。每部分提供基本原理说明，并辅以简要的代码示例帮助理解。1.任务管理(TaskManagement)任务的创建与删除：FreeRTOS中的任务相当于独立的线程。可以使用xTaskCreate()动态创建任务，或使用xTaskCreateStatic()静态创建任务（提供预先分配的栈和控制块内存）。
万字长文详解YOLOv8 yaml 文件，结合模型输出的网络结构图分析Parameters /backbone/head以及三者的数学关联 YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例之前写过一篇YOLOv8yaml配置文件逐层的解析：结合YOLOv8源码逐层解读yaml文件的配置，本文主要从整体的角度去解析yaml。YOLOv8模型YOLOv8提供了非常多的模型，详见：https:
万字长文带你搞懂yolov5和yolov8以及目标检测相关面试起个别名 C++YOLO 目标检测目标跟踪
一、与yoloV4相比，yoloV5的改进输入端：在模型训练阶段，使用了Mosaic数据增强、自适应锚框计算、自适应图片缩放基准网络：使用了FOCUS结构和CSP结构Neck网络：在Backbone和最后的Head输出层之间插入FPN_PAN结构Head输出层：训练时的损失函数GIOU_Loss，预测筛选框的DIOU_nms二、yolov5网络结构预处理在模型预处理阶段，使用了Mosaic数据增强
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

目标检测00-10：mmdetection(Foveabox为例)-源码无死角解析（4）-头部网络bbox_head-推理过程

前言

代码注释

结语

你可能感兴趣的:(OpenMMLab,目标检测,Foveabox,OpenMMLab,mmdetection,free,anchor,目标检测)