青云直上_LQY

关于 Deformable DETR 中的 valid_ratio

前一阵有社区小伙伴提问，有关 Deformable DETR 中的 valid_ratio 的问题。我也曾经有非常相似的疑问，在这里码字做一些整理，希望能帮到一些朋友理解这个问题，也欢迎大家一起讨论。

DETR中为什么会有特征mask

DETR允许输入的 batch 中的图片具有不同的尺寸，如下图，我们选择coco train中的000000000009.jpg(640x480) 和 000000000078.jpg(612x612) 两张图像作为输入
DETR特制的 collate_fn 会在两张图的右侧和下侧 padding (padding到640x612)，来对齐两张图的尺寸，相关逻辑在此。

但是 padding 的部分毕竟不是图像部分，且DETR需要对图像进行位置编码，如果不知道哪里是padding的部分可能会影响位置编码。在计算attention的时候，Transformer也不应该关注这些padding的部分。

所以 DETR 用掩码 mask 记录了 padding 的位置，并设计了 NestedTensor 让每个 tensor 都附带着自己对应的 padding mask。在 mmdet 的实现（目前仍在refactor-detr分支中）中，我们没有沿用 NestedTensor 的设计，而是在 pre_encoder() 中根据 batch_data_samples 的信息构建了这个 mask。

要注意，不光输入的images是有对应的mask的，每层特征也是有对应mask的。DETR在 backbone 中直接对特征图用F.interpolate 进行下采样，相关逻辑在此。所以backbone的每个特征都具有对应的mask，也就是代码里的 mlvl_masks。mask中的每个值与特征图的像素点（也是sequence的一个token）一一对应，True就表明这里是padding的部分，不应该参与attention的计算，False就表明这里是图像的部分，应当被用于计算attention。

什么是valid_ratio，为什么会有valid_ratio

valid_ratio 的定义：

                |---> valid_W <---|
             ---+-----------------+-----+---
              A |                 |     | A
              | |                 |     | |
              | |                 |     | |
        valid_H |                 |     | |
              | |                 |     | H
              | |                 |     | |
              V |                 |     | |
             ---+-----------------+     | |
                |                       | V
                +-----------------------+---
                |---------> W <---------|

      The valid_ratios are defined as:
            r_h = valid_H / H,  r_w = valid_W / W

这里这张图可以是 batch_input，也可以是任意一个 level 的 feature。如果用 real_feat 表示没有被 padding 的部分，用 padded_feat 表示整个padding后的图。那么valid_ratio 可以理解为 real_feat 的宽高比 padded_feat 的宽高。

例如上述的图像中（480, 640 & 612, 612 ---- padding ----> 612, 640）：

假设用backbone后 3 层 feature map，两张图在各个level的padded_feat的尺寸都分别为 : (77, 80), (39, 40), (20, 20)。这三层的下采样倍率一般是 8x, 16x, 32x，因为无法整除，所以真实的下采样倍率是要看卷积过程的。

(480, 640) 图中，各个level的 real_feat 的尺寸实际是 (61, 80), (31, 40), (16, 20)；

计算后 valid_ratios 分别为: [1.0000, 0.7922], [1.0000, 0.7949], [1.0000, 0.8000]],

(612, 612) 图中，各个level的 real_feat 的尺寸实际是 (77, 77), (39, 39), (20, 20)；

计算后 valid_ratios 分别为: [0.9625, 1.0000], [0.9750, 1.0000], [1.0000, 1.0000]

可以看到不同 level 的 feature 的 valid_ratios 是不同的，这是两个real_feat_shape 和一个padded_feat_shape的下采样过程不完全同步造成的。你会发现，在大多数情况下，所有的valid_ratio的值中会有一半是1，因为padded_feat总是贴合某个real_feat的长或者某个real_feat的宽。

所以，一定要注意，valid_ratio 一定是某个level和某个样本所特有的。

Deformable DETR 对于 reference points 的先验认识的讨论（个人理解）：

Deformable DETR 预测的box坐标是相对坐标的格式！其取值范围通常为0~1。

预测的 boxes 应当是相对 real_feat 归一化的，因为之后这些bboxes会与相对 real_feat 归一化的gt_bboxes对比计算loss。

decoder 所输入的和输出的 reference_points 直接对应于预测的boxes (with_box_refine=True时，inter_reference_points本身和预测的box是等值的，只是计算图可能不同)。

所以这部分的 reference_points 是相对于 real_feat 归一化的。
MSDeformAttn 所需要输入的 sampling location 应当是相对于 padding_feat 的。
MSDeformAttn 需要从不同level找到同一个位置，来实现多尺度特征融合。这里的“同一个位置”代表它们对应在原图上应当具有相同的相对坐标，因此它们相对 real_feat 的相对坐标应当是对齐的，而不是相对于 padded_feat。

Decoder 的 reference points 过程

decoder 输入的 reference points 是对应于每个 object query 的，可以理解为每个query预测的目标的一个anchor。

注意：它在 as_two_stage 为 True 的时候是 4d 的框，反之为 2d的点。

而中间层输出的 reference points 在 with_box_refine 为 Ture 的时候为 4d 的框，反之为 2d 的点。

if reference_points.shape[-1] == 4:
    reference_points_input = \
    reference_points[:, :, None] * \
    torch.cat([valid_ratios, valid_ratios], -1)[:, None]
else:
    assert reference_points.shape[-1] == 2
    reference_points_input = reference_points[:, :, None] * valid_ratios[:, None]

reference_points 为 decoder 的输入，是相对 real_feat 归一化的。reference_points_input 是输入给 layer 里的 attention 的，它应当是相对于 padded_feat 归一化的。所以乘了对应的 valid_ratio。即 absolute_coord / valid_H_or_W * valid_H_or_W / H_or_W，就变成了相对 padded_feat 初始化的啦！~

注意，这里这个归一化 factor 转换的过程是在 decoder_layer 的 for 循环中进行的，每层之间可能进行着的 box_refine，也一定是以 real_feat 为 factor 归一化的，所以每次送进 layer 的 attention 之前，都要进行归一化因子的转换。

Encoder 的 reference points 过程

encoder 输入的 reference_points 是对应于每个特征像素点的，每个特征本身就是图上的一点，因此其横纵坐标就是其参考点。

注意：encoder 的 reference_points 一直是 2d 的点。

我把这里的代码改动了一下：

def get_encoder_reference_points(
        spatial_shapes: Tensor, valid_ratios: Tensor,
        device: Union[torch.device, str]) -> Tensor:
    """
    spatial_shapes has shape (num_level, 2).
    valid_ratios has shape (batch_size, num_level, 2).
    """
    # SECTION A
    reference_points_list = []
    for lvl, (H_lvl, W_lvl) in enumerate(spatial_shapes):
        # STEP 1
        ref_y, ref_x = torch.meshgrid(torch.linspace(0.5, H_lvl - 0.5, H_lvl, dtype=torch.float32, device=device),
                                      torch.linspace(0.5, W_lvl - 0.5, W_lvl, dtype=torch.float32, device=device))
        # STEP 2
        ref = normalize_reference_points(ref_x, ref_y, valid_ratios[:, lvl, :], spatial_shapes[lvl, :])
        reference_points_list.append(ref)
    reference_points = torch.cat(reference_points_list, 1)

    # SECTION B
    reference_points = reference_points[:, :, None] * valid_ratios[:, None]  # (bs, sum(HW_lvl), num_level, 2)
    return reference_points


def normalize_reference_points(ref_x, ref_y, lvl_valid_ratios, lvl_spatial_shape):
    H_lvl, W_lvl = lvl_spatial_shape
    # valid_ratios: (bs, 2)  (newaxis, num_ref) / (bs, newaxis) -> (bs, num_ref), num_ref = HW_lvl
    ref_y = ref_y.reshape(-1)[None] / (lvl_valid_ratios[:, None, 1] * H_lvl)
    ref_x = ref_x.reshape(-1)[None] / (lvl_valid_ratios[:, None, 0] * W_lvl)
    ref = torch.stack((ref_x, ref_y), -1)
    return ref

我们把 get_encoder_reference_points 分成两部分，把 SECTION A 又分成了两个步骤。

SECTION A 中，是在每个 level 下的特征图上，生成每个像素对应的位置的相对坐标。STEP 1 中生成绝对坐标，即 0.5, 1.5, 2.5, …。STEP 2 中将它们归一化，这次归一化的 factor 是它们对应的当前level的 valid_H_or_W * H_or_W，也就是该特征图的 real_feat 的宽高。

有趣的是，对于超出 real_feat 的 zero_padding 的点，该归一化坐标值是大于 1 的。我认为，**大于1意味着该点对应着 zero_padding 的，本身是没有意义的，因此不需要考虑。**而所有有意义的特征值都是小于1的。

SECTION A 获得了和 decoder_reference_point 一样被 real_feat 归一化的坐标。因此在 SECTION B 中，用 和 decoder 中对2d坐标相同的处理方式（encoder一定是2d）将 reference_points 转换成以 padded_feat 为 factor 归一化的坐标。

这里看起来容易误解成，在 step 2 中先除以valid_ratios，又在 SECTION B中乘 valid_ratios，好像是一乘一除会抵消一样，聪明的我们似乎能做的比作者更高效。

实际上我们在SECTION B下面这句话前后打断点就能发现，它们并不是能抵消掉的一乘和一除。前者除的 valid_H_or_W 一定是与参考点对应的哪个 valid_ratio，因为要获取相对坐标，是同 level 相除。但是后者是将获得的位置转化为各个 level 上的归一化坐标，大部分是跨 level 相乘，只有在对角线位置（在当前 level 上）是可以抵消的。所以其实作者在这里的实现非常合理且高效。

一些代码

我在编写回答的过程中编写了一些有关该问题的代码，调试和观察，来帮助我整理思绪进行回答。
给大家分享一下

# By Li-Qingyun (https://github.com/Li-Qingyun)  2022/10/29
from typing import List, Tuple, Union

import numpy as np
import matplotlib.pyplot as plt

import torch
from torch import Tensor, nn
import torchvision.transforms as T
from torchvision.transforms.functional import to_pil_image
import torch.nn.functional as F

from mmcv import imread, imshow
from mmdet.models import build_backbone


@torch.no_grad()
def main():
    img1 = imread('000000000009.jpg', channel_order='rgb')
    img2 = imread('000000000078.jpg', channel_order='rgb')
    backbone = MMDetResNet50BackboneWrapper()

    batch_input_tensor, batch_input_mask = get_batch_input([img1, img2])
    show_one_tensor(batch_input_tensor[0], 'The first figure', 'The_first_figure.png')
    show_one_tensor(batch_input_tensor[1], 'The second figure', 'The_second_figure.png')
    show_one_mask(batch_input_mask[0], 'The first mask', 'The_first_mask.png')
    show_one_mask(batch_input_mask[1], 'The second mask', 'The_second_mask.png')

    feat, feat_mask = backbone(batch_input_tensor, batch_input_mask)

    # (bs, num_level, 2)
    valid_ratios = torch.stack([get_valid_ratio(m) for m in feat_mask], 1)
    # (num_level, 2)
    spatial_shapes = torch.stack([torch.as_tensor(f.shape[2:]) for f in feat], dim=0)
    print(f'Feat spatial shapes: {spatial_shapes}')
    print(f'Valid ratios: {valid_ratios}')

    # ENCODER
    # (bs, num_reference_points, num_level, 2)
    encoder_reference_points = get_encoder_reference_points(
        spatial_shapes, valid_ratios, device=feat[0].device)

    # DECODER  (300 queries)
    refpoint_embed = nn.Embedding(300, 2).weight
    refpoint_embed = refpoint_embed.unsqueeze(0).repeat(len(batch_input_tensor), 1, 1)
    decoder_input_reference_points = refpoint_embed.sigmoid()
    decoder_reference_points = decoder_process_reference_points(decoder_input_reference_points, valid_ratios)

    return


def get_encoder_reference_points(
        spatial_shapes: Tensor, valid_ratios: Tensor,
        device: Union[torch.device, str]) -> Tensor:
    """Get reference point for the Deformable Detr Transformer encoder.
    Modified from mmdet/models/layers/transformers/deformable_detr_transformer.py
    of OpenMMLab 2.0.

    spatial_shapes has shape (num_level, 2).
    valid_ratios has shape (batch_size, num_level, 2).
    """
    # 获取各层特征图中每个像素点相对于Valid值的相对坐标作为reference_points
    reference_points_list = []
    for lvl, (H_lvl, W_lvl) in enumerate(spatial_shapes):
        # Each has shape (H_lvl, W_lvl).
        ref_y, ref_x = torch.meshgrid(
            torch.linspace(
                0.5, H_lvl - 0.5, H_lvl, dtype=torch.float32, device=device),
            torch.linspace(
                0.5, W_lvl - 0.5, W_lvl, dtype=torch.float32, device=device))
        ref = normalize_reference_points(
            ref_x, ref_y, valid_ratios[:, lvl, :], spatial_shapes[lvl, :])
        reference_points_list.append(ref)
    reference_points = torch.cat(reference_points_list, 1)

    # 在各个level将上面获得的valid归一化的坐标转化为相对于当前level的padded feature的相对坐标
    # 默认认为，各个level的valid部分是aligned。
    # (bs, sum(HW_lvl), num_level, 2)
    reference_points = reference_points[:, :, None] * valid_ratios[:, None]
    return reference_points


def normalize_reference_points(ref_x, ref_y, lvl_valid_ratios, lvl_spatial_shape):
    H_lvl, W_lvl = lvl_spatial_shape
    # The ref_xy of
    # valid_ratios: (bs, num_level, 2)
    # (newaxis, num_ref) / (bs, newaxis) -> (bs, num_ref), num_ref = HW_lvl
    ref_y = ref_y.reshape(-1)[None] / (
            lvl_valid_ratios[:, None, 1] * H_lvl)
    ref_x = ref_x.reshape(-1)[None] / (
            lvl_valid_ratios[:, None, 0] * W_lvl)
    ref = torch.stack((ref_x, ref_y), -1)
    return ref


def decoder_process_reference_points(reference_points, valid_ratios):
    # reference_points 是相对于valid图的特征
    if reference_points.shape[-1] == 4:
        reference_points_input = \
            reference_points[:, :, None] * \
            torch.cat([valid_ratios, valid_ratios], -1)[:, None]
    else:
        assert reference_points.shape[-1] == 2
        reference_points_input = reference_points[:, :, None] * valid_ratios[:, None]

    return reference_points_input


def get_batch_input(imgs: List[np.ndarray]):
    pre_process = T.Compose([
        T.ToTensor(),
        T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
    imgs = [pre_process(img) for img in imgs]  # List[Tensor]
    batch_input_tensor, batch_input_mask = nested_tensor_from_tensor_list(imgs)
    img_shape_list = [img.shape[1:] for img in imgs]
    batch_input_shape = batch_input_tensor.shape[:2]
    return batch_input_tensor, batch_input_mask


def nested_tensor_from_tensor_list(tensor_list: List[Tensor]):
    # Modified from https://github.com/fundamentalvision/Deformable-DETR/util/misc.py
    for tensor in tensor_list:
        assert tensor.ndim == 3

    def _max_by_axis(the_list: List[List[int]]) -> List[int]:
        maxes = the_list[0]
        for sublist in the_list[1:]:
            for index, item in enumerate(sublist):
                maxes[index] = max(maxes[index], item)
        return maxes

    max_size = _max_by_axis([list(img.shape) for img in tensor_list])
    batch_shape = [len(tensor_list)] + max_size
    b, c, h, w = batch_shape
    dtype = tensor_list[0].dtype
    device = tensor_list[0].device
    tensor = torch.zeros(batch_shape, dtype=dtype, device=device)
    mask = torch.ones((b, h, w), dtype=torch.bool, device=device)
    for img, pad_img, m in zip(tensor_list, tensor, mask):
        pad_img[: img.shape[0], : img.shape[1], : img.shape[2]].copy_(img)
        m[: img.shape[1], :img.shape[2]] = False
    return tensor, mask


class MMDetResNet50BackboneWrapper(nn.Module):

    def __init__(self) -> None:
        super().__init__()
        config = dict(
            type='ResNet',
            depth=50,
            num_stages=4,
            out_indices=(1, 2, 3),
            frozen_stages=1,
            norm_cfg=dict(type='BN', requires_grad=False),
            norm_eval=True,
            style='pytorch',
            init_cfg=dict(type='Pretrained',
                          checkpoint='torchvision://resnet50'))
        self.backbone = build_backbone(config)

    def forward(self, batch_input_tensor: Tensor,
                batch_input_mask: Tensor) -> Tuple[List[Tensor], List[Tensor]]:
        mlvl_feats = self.backbone(batch_input_tensor)
        mlvl_masks = [
            F.interpolate(batch_input_mask[None].float(),
                          size=feat.shape[-2:]).to(torch.bool).squeeze(0)
            for feat in mlvl_feats]
        return mlvl_feats, mlvl_masks


def show_one_mask(bool_mask: Tensor, title: str = None,
                  save_path: str = None) -> None:
    assert bool_mask.ndim == 2
    color_map = np.array([[255, 244, 210], [244, 239, 255]])
    float_mask_ndarray = bool_mask.numpy().astype(np.float64)
    float_inv_mask_ndarray = (~bool_mask).numpy().astype(np.float64)
    colorful_mask = np.matmul(float_mask_ndarray[..., None], color_map[0][None]) + \
                    np.matmul(float_inv_mask_ndarray[..., None], color_map[1][None])
    colorful_mask = colorful_mask.astype(np.uint8)
    plt.imshow(colorful_mask)
    if title is not None:
        plt.title(title)
    if save_path is not None:
        plt.savefig(save_path)
    else:
        plt.show()


def show_one_tensor(normed_tensor: Tensor, title: str = None,
                    save_path: str = None) -> None:
    normed_tensor = normed_tensor.clone()

    def _inv_normalize(tensor: Tensor, mean:List[float] = [0.485, 0.456, 0.406],
                       std: List[float] = [0.229, 0.224, 0.225]) -> Tensor:
        assert len(mean) == 3 and len(std) == 3
        dtype = tensor.dtype
        mean = torch.as_tensor(mean, dtype=dtype, device=tensor.device)
        std = torch.as_tensor(std, dtype=dtype, device=tensor.device)
        if mean.ndim == 1:
            mean = mean.view(-1, 1, 1)
        if std.ndim == 1:
            std = std.view(-1, 1, 1)
        return tensor.mul_(std).add_(mean)

    img_tensor = _inv_normalize(normed_tensor)
    img = to_pil_image(img_tensor)
    plt.imshow(img)
    if title is not None:
        plt.title(title)
    if save_path is not None:
        plt.savefig(save_path)
    else:
        plt.show()


def get_valid_ratio(mask: Tensor) -> Tensor:
    """
    Copied from mmdet/models/detectors/deformable_detr.py of OpenMMLab 2.0.

    Get the valid radios of feature map in a level.

    .. code:: text

                |---> valid_H <---|
             ---+-----------------+-----+---
              A |                 |     | A
              | |                 |     | |
              | |                 |     | |
        valid_W |                 |     | |
              | |                 |     | W
              | |                 |     | |
              V |                 |     | |
             ---+-----------------+     | |
                |                       | V
                +-----------------------+---
                |---------> H <---------|

      The valid_ratios are defined as:
            r_h = valid_H / H,  r_w = valid_W / W
      They are the factors to re-normalize the relative coordinates of the
      image to the relative coordinates of the current level feature map.

    Args:
        mask (Tensor): Binary mask of a feature map, has shape (bs, H, W).

    Returns:
        Tensor: valid ratios [r_w, r_h] of a feature map, has shape (1, 2).
    """
    _, H, W = mask.shape
    valid_H = torch.sum(~mask[:, :, 0], 1)
    valid_W = torch.sum(~mask[:, 0, :], 1)
    valid_ratio_h = valid_H.float() / H
    valid_ratio_w = valid_W.float() / W
    valid_ratio = torch.stack([valid_ratio_w, valid_ratio_h], -1)
    print(f"Valid_H & H & Valid_W & W: {valid_H} {H} {valid_W} {W}")
    return valid_ratio


if __name__ == '__main__':
    main()

Zookeeper【概念（集中式到分布式、什么是分布式、CAP定理、什么是Zookeeper、应用场景、为什么选择Zookeeper 、基本概念）】(一)-全面详解（学习总结---从入门到深化）童小纯中间件大全---全面详解 zookeeper 分布式
作者简介：大家好，我是小童，Java开发工程师，CSDN博客博主，Java领域新星创作者系列专栏：前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：以梦为马，扬帆起航，2023追梦人目录Zookeeper概念_集中式到分布
从零手撕 LLaMa3 项目爆火（图解+代码）机器学习社区大模型深度学习大模型算法人工智能 RAG 多模态大模型 Llama 面试题
节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。汇总合集《大模型面试宝典》(2024版)发布！一个月前，Meta发布了开源大模型llama3系列，在多个关键基准测试中优于业界SOTA模型，并在代码生成任务上全面领先。此后，开发
深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
递推算法 aab__ 算法
递推算法递推法的概念递推法是一种重要的数学方法，在数学的各个领域中都有广泛的运用，也是计算机用于数值计算的一个重要算法。这种算法特点是：一个问题的求解需一系列的计算，在已知条件和所求问题之间总存在着某种相互联系的关系，在计算时，如果可以找到前后过程之间的数量关系（即递推式），那么，从问题出发逐步推到已知条件，此种方法叫逆推。无论顺推还是逆推，其关键是要找到递推式。这种处理问题的方法能使复杂运算化为
Git前言（版本控制） Starbright. Git git
1.Git目前世界上最先进的分布式版本控制系统。git官网：https://git-scm.com/2.版本控制2.1什么是版本控制版本控制(Revisioncontrol)是一种在开发的过程中用于管理我们对文件、目录或工程等内容修改历史，方便查看更改历史记录备份以便恢复以前的版本的软件工程技术。实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和文档统计工作量并行开发
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
Qt程序闪退如何查原因呢，闪退点不是自己应用代码 bug菌¹ #CSDN问答解惑(全栈版)全栈Bug调优(实战版)qt 数据库开发语言 c++
本文收录于《CSDN问答解惑-专业版》专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述 Qt程序闪退如何查原因呢，闪退点不是自己应用代码如图，因为是qt底层，这种闪退该怎么查原因和避免呢，现在遇到很多这种底层报错又没办法查代码如上问题有来自我自身项目
tauri + vue3 如何实现在一个页面上局部加载外部网页？ bug菌¹ 全栈Bug调优(实战版)#CSDN问答解惑(全栈版)tauri vue3
本文收录于「Bug调优」专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述 tauriv1（1.6左右）+vue3我想在vue3前端页面上在一个页面而不是window.open打开一个新的窗口去加载外部网页我想在一个页面中局部中间加载一个外部网页（试过
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
浏览器自动复制插件-速记超人记事本V1.0 铁头大蚂蚁 javascript 开发语言 ecmascript
有这么一个需求，就是经常要复制某些网站的资料存到word、txt、或者excel中反复切换浏览器比较麻烦，思索再三，开发了一个浏览器插件取名为“速记超人记事本”功能如下：当我复制网页内容的时候会自动存储到浏览器插件中，如图：记录的内容自动存储到插件中，可以删除，编辑搜索，也可以导出为excel,txt格式这样我们就可以直接愉快的ctrl+c了，待我复制完成后，一键导出就可以了之前做了个1.0版本，
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
github 仓库查看git第一次commit的记录 HHHHy2019 GIT github git
github仓库查看git第一次commit的记录步骤我们这里选仓库TuSimple/naive-ui，首页显示这个仓库最新的git的状态是8978fa923minutesagoGitstats4,460commits，说明现在有4460个commit。我们再点击4,460commits进入查看commit的页面，滑到最底部，点击Older，（网址）地址栏显示为https://github.com
前端实现版本更新自动检测✅ 水煮白菜王前端 Vue JavaScript 前端 vue.js javascript
作者简介：水煮白菜王，一位资深前端劝退师文章专栏：前端专栏，记录一下平时在博客写作中，总结出的一些开发技巧和知识归纳总结✍。感谢支持目录一、背景二、实现原理2.1逻辑2.2一些好处三、具体实现3.1工程化封装3.2关键方法解析脚本哈希获取：对比逻辑：四、全部代码4.1vue34.2vue2五、注意事项与常见问题5.1可能出现的问题5.2浏览器兼容方案一、背景在现代Web应用中，部署前端版本更新后及
git submodule管理的仓库怎么删除子仓库绛洞花主敏明 git
删除Git子模块需要执行一系列步骤，以确保从项目中彻底移除子模块及其相关配置。以下是详细的步骤：1.取消初始化子模块运行以下命令以取消子模块的初始化，这会从.git/config文件中移除子模块的配置：gitsubmoduledeinit-f-f参数用于强制执行，避免因子模块目录中有未提交的更改而导致命令失败。2.删除子模块目录从工作目录中删除子模块的文件夹：rm-rf3.从.gitmodules
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
Spring MVC 拦截器跪在镜子前喊帅 java java
前言SpringMVC提供了一个拦截器的机制，它专门用于拦截controller层的路由请求。它的本质是：AOP面向切面的编程，也就是说符合横切关注点的功能都可以考虑使用拦截器实现。比如一些应用场景：权限检查例如：用户登录检查，访问项目的内部接口时，可以通过拦截器检测用户是否登录，如果登录，直接放回用户登录页面。日志记录更新推荐用原生的AOP机制会更好一点，粒度会更细，控制起来也更方便，如果你是针
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录努力努力再努力呐 BERT bert 分类学习
一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification,BertTokenizer#设置具体包含config.json的目录，只支持绝对路径model_dir=r"models\bert-base-chinese"#model_dir=r
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><