@BangBang

Mask RCNN 网络详解

1.Mask RCNN介绍

Mask R-CNN论文地址：https://arxiv.org/abs/1703.06870,论文于2017年发表在ICCV上，获得了2017年ICCV的最佳论文奖。

我们可以看到论文的一作是ResNet的何凯明，还有提出Faster RCNN系列的Ross Girshick.

2. Mask RCNN

Mask R-CNN是在Faster R-CNN的基础上加了一个用于预测目标分割Mask的分支（即可预测目标的Bounding Boxes信息、类别信息以及分割Mask信息）。

Mask R-CNN不仅能够同时进行目标检测与分割，还能很容易地扩展到其他任务，比如再同时预测人体关键点信息。

2.1 Mask RCNN网络结构

图中红框的部分是Faster RCNN,Mask R-CNN的结构也很简单，就是在通过RoIAlign（在原Faster R-CNN论文中是RoIPool）得到的RoI基础上并行添加一个Mask分支（小型的FCN）。通过Mask分支我们就能对我们检测的每一个目标生成一个Mask分割蒙版。如果想检测每个人的关键点信息，也可以并联一个keypoints detection分支。
其实在Faster -RCNN源码中使用的也是RoiAlign，而不是RoIPooling

对于Mask分支论文中作者也讲到其实它跟FCN非常相似，下图是作者给出Mask分支更加详细的结构，我们可以看到其实它有两个不同的形式。

左边的结构是不带有FPN（特征金字塔结构），右边是带有FPN结构（FPN使用在Faster-RCNN的backbone中）的，并且在我们日常使用过程中，更加常用的也是右边的分支，接下来我们也会以右边为例进行网络讲解。

2.2 RoIAligin

2.2.1 RoIPool

在之前的Faster RCNN中，会使用RoIPool将RPN得到的Proposal池化到相同大小。这个过程会涉及quantization或者说取整操作，这会导致定位不是那么的准确（文中称为misalignment问题）。

图中表格右半部分是针对目标检测任务的，我们如果采用之前的RoI Pooling的话，对应的AP值为28.2,如果采用RoIAlign的话就能达到34,很明显提升了5.8个点，提升的效果非常明显。图中左半部分是针对分割的场景，同样采用RoI Pooling的话对应的AP为23.6,如果采用RoIAlign的话AP就能达到30.9,一下子就提升了7.3个点。通过这几组数据，很明显使用RoIAlign它的定位会更加准确

下面的示意图就是RoIPool的执行过程，其中会经历两次quantization。假设通过RPN得到了一个Proposal，它在原图上的左上角坐标是 $(10, 10)$ ，右下角的坐标是 $(124, 124)$ ，对应要映射的特征层相对原图的步距为32，通过RoIPool期望的输出为2x2大小

将Proposal映射到特征层上，对于左上角坐标 $(10, 10)$ ,进行32倍下采样。很明 $\frac{10}{32}$ 是不能被整除的，在RoIPooling中会对它进行四舍五入，就得到了对应特征图上左上角点后(0,0);同理对于右下角坐标 $\frac{124}{32}$ 进行四舍五入得到右下角点的坐标为 $(4, 4)$ 。将proposal映射到对应上图特征层上从第0行到第4行，从第0列到第4列的区域（黑色矩形框）。这是第一次quantization。
由于期望的输出为2x2大小，所以需要将映射在特征层上的Proposal划分成2x2大小区域。但现在映射在特征层上的Proposal是5x5大小，无法整除均分，所以强行划分后有的区域大有的区域小，如上图所示。这是第二次quantization。
对划分后的每个子区域进行maxpool即可得到RoIPool的输出， $\bigl( \begin{matrix} 1.6874 & 0.4676 \\ 2.0242 & 2.3571 \end{matrix} \bigr)$ ，对应图中每个区域用蓝色标出来的4个数值。这边用torchvison中的RoIPool做了相关实验，代码如下:

import torch
from torchvision.ops import RoIPool

def main():
	torch.manual_seed(1)
	x=torch.randn(1,1,6,6)
	print(f"feature map:\n{x}")
	
	proposal=[torch.as_tensor([[10,10,124,124]],dtype=torch.float32)] #定义proposal 左上角点(10,10) 右下角度(124,124)
	roi_pool=RoIPool(output_size=2,spatial_scale=1/32) #输出大小2x2  下采样为32倍
	roi_pool(x,proposal)
	print(f"roi pool":\n{roi})

if __name__=='__main__':
	main()

终端输出：

feature map: 
tensor([[[[-1.5256, -0.7502, -0.6540, -1.6095, -0.1002, -0.6092],
          [-0.9798, -1.6091, -0.7121,  0.3037, -0.7773, -0.2515],
          [-0.2223,  1.6871,  0.2284,  0.4676, -0.6970, -1.1608],
          [ 0.6995,  0.1991,  0.1991,  0.0457,  0.1530, -0.4757],
          [-1.8821, -0.7765,  2.0242, -0.0865,  2.3571, -1.0373],
          [ 1.5748, -0.6298,  2.4070,  0.2786,  0.2468,  1.1843]]]])
roi pool: 
tensor([[[[1.6871, 0.4676],
          [2.0242, 2.3571]]]])

得到的输出和上面图片展示的是一样的。

2.2.2 RoIAlign

下面的示意图就是RoIAlign的执行过程。同样假设通过RPN得到了一个Proposal，它在原图上的左上角坐标是(10,10)，右下角的坐标是 (124,124) (124,124)，对应要映射的特征层相对原图的步距为32，通过RoIAlign期望的输出为2x2大小：

将Proposal映射到特征层上，通过RoIAlign方式不会进行取整。根据 $\frac{10}{32}=0.3125$ ,映射到特征图上左上角坐标为 ( 0.3125 , 0.3125 ) (不进行四舍五入)，同理右下角坐标根据$\frac{124}{32}=3.875，映射到特征图上右下角点坐标为( 3.875 , 3.875 ) (不进行四舍五入)。为了方便理解，将特征层上的每个元素用一个点表示，就能得到图中下方的grid网格。图中蓝色的矩形框就是Proposal（没有quantization）
由于期望输出为2x2大小，故将Proposal均分为2x2四个子区域（没有quantization）。接着根据sampling_ratio在每个子区域中设置采样点，原论文中默认设置的sampling_ratio为2，区域内长宽位置均匀取4个采样点（当采用多个采样点时，每个区域的输出取所有采样点的均值），这里为了方便讲解将sampling_ratio设置成1，只采样一个点。
然后计算每个子区域中每个采样点的值，采样点值计算以离它最近的4个点通过双线性插值计算，最后对每个区域内的所有采样点取均值即为该子区域的输出。

这里以第一个子区域为例，因为这里将sampling_ratio设置成为1，所以每个子区域只需要设置一个采样点。第一个子区域的采样点为图中黄色的点（即为该子区域的中心点），坐标为 ( 1.203125 , 1.203125 ) ，然后找出离该采样点最近的四个点（即图中用红色箭头标出的四个黑点），然后利用双线性插值即可计算得到采样点对应的输出− 0.8546 （如果不了解双线性插值可参考博文），又由于该子区域只有一个采样点，故该子区域的输出就为 − 0.8546。同理其他子区域也是一样，分别找到各自区域的中心点，以及离中心点最近的4个点，利用双线性差值计算得到采样点的输出。

图中x,y为采样点的坐标位置， $f_1,f_2,f_3,f_4$ 分别对应离采样点最近的四个点的数值， $u$ 表示采用点到所在网格Top距离， $v$ 表示采用点离所在网格的left距离。

下面是使用Torchvision库中实现的RoIAlign方法，通过对比计算结果和我们刚刚讲的是一样的。

import torch
from torchvision.ops import RoIAlign


def bilinear(u, v, f1, f2, f3, f4):
    return (1-u)*(1-v)*f1 + u*(1-v)*f2 + (1-u)*v*f3 + u*v*f4


def main():
    torch.manual_seed(1)
    x = torch.randn((1, 1, 6, 6))
    print(f"feature map: \n{x}")
    
    proposal = [torch.as_tensor([[10, 10, 124, 124]], dtype=torch.float32)]
    roi_align = RoIAlign(output_size=2, spatial_scale=1/32, sampling_ratio=1)
    roi = roi_align(x, proposal)
    print(f"roi align: \n{roi}")

    u = 0.203125
    v = 0.203125
    f1 = x[0, 0, 1, 1]  # -1.6091
    f2 = x[0, 0, 1, 2]  # -0.7121
    f3 = x[0, 0, 2, 1]  # 1.6871
    f4 = x[0, 0, 2, 2]  # 0.2284
    print(f"bilinear: {bilinear(u, v, f1, f2, f3, f4):.4f}")

if __name__ == '__main__':
    main()

终端输出：

feature map: 
tensor([[[[-1.5256, -0.7502, -0.6540, -1.6095, -0.1002, -0.6092],
          [-0.9798, -1.6091, -0.7121,  0.3037, -0.7773, -0.2515],
          [-0.2223,  1.6871,  0.2284,  0.4676, -0.6970, -1.1608],
          [ 0.6995,  0.1991,  0.1991,  0.0457,  0.1530, -0.4757],
          [-1.8821, -0.7765,  2.0242, -0.0865,  2.3571, -1.0373],
          [ 1.5748, -0.6298,  2.4070,  0.2786,  0.2468,  1.1843]]]])
roi align: 
tensor([[[[-0.8546,  0.3236],
          [ 0.2177,  0.0546]]]])
bilinear: -0.8546

可以看到torchvision实现的RoIAlign和我们计算的输出是一样的。通过我们讲的例子我们可以知道的RoIAlign在计算过程是没有涉及到任何取整操作的，所以它的定位会更加准确。作者在论文中也提到采样点的个数和位置对最终的结果并没什么影响，所以我们一般都把sample_rate设置为2,默认每个区域设置4个采样点。

Mask分支

前面有提到，对于带有FPN和不带有FPN的Mask R-CNN，他们的Mask分支不太一样。下图左边是不带FPN结构的Mask分支，右侧是带有FPN结构的Mask分支（灰色部分为原Faster R-CNN预测box, class信息的分支，白色部分为Mask分支）

由于在我们日常使用中，一般都是·使用的带有FPN的网络，对于带FPN结构的Mask RCNN，它上面一个分支是Faster-RCNN预测器，注意它所使用的RoIAlign和下面的Mask分支采用的RoIAlign其实是不一样的，也就是这两个分支并不共用RoIAlign ，上面一个分支通过RoIAlign得到的RoI大小是7x7，但是在Mask分支中，我们通过RoIAlign得到的大小是14x14，因为对于分割任务而言，我们要求的分割结果，精度要高一些，所以需要保留更多的细节信息，所以Mask分支没有池化到7x7大小，而是池化到14x14。

绘制了带有FPN结构的Mask-RCNN的Mask分支。

假设输入的特征矩阵是HxWx256，经过RoIAlign之后被池化为14x14x256 ,接下来依次通过4个卷积层，这个四个卷积层后面都跟了ReLU激活函数，并且都是kernel为3x3，步距为1的卷积层。经过这4个卷积层我们得到的输出依旧是14x14x256,接下来再通过一个转置卷积，通过转置卷积会将输入特征的高宽进行翻倍，由14x14变为28x28，然后在通过一个1x1卷积来调整输出channel，使得channel等于分类的个数 $num_{cls}$ ,最终输出的特征层大小为 $28*28*num_{class}$ ,也就是说针对每个类别我们都预测了一个蒙版，并且这个蒙版大小都是28x28。

在Mask R-CNN中，对预测的Mask以及Class进行解耦
之前在讲FCN的时候有提到过，FCN是对每个像素针对每个类别都会预测一个分数，然后对每个像素沿channel方向做softmax处理，得到每个像素归属每个类别的概率，不同类别之间存在竞争关系，哪个概率高就将该像素分配给哪个类别。（因为softmax处理后所有类别概率之和为1，某些概率值大了的话，其他类型额概的率就会变小，所以不同类别间存在竞争关系，也就是mask和class之间存在耦合关）但在Mask R-CNN中，作者将预测Mask和class进行了解耦，即对输入的RoI针对每个类别都单独预测一个Mask，但是我么不会针对每个像素沿channel方向做softmax处理，而是最终根据box, cls分支预测的classes信息来选择对应类别的Mask（不同类别之间不存在竞争关系）。作者说解耦后带来了很大的提升。下表是原论文中给出的消融实验结果，其中softmax代表原FCN方式（Mask和class未解耦），sigmoid代表Mask R-CNN中采取的方式（Mask和class进行了解耦）。

对应采用softmax耦合的方式，获得的AP为24.8,采用sigmoid解耦的方式，获得的AP达到了30.3,提升了5.5个点。也就是说在Mask R-CNN中，对预测的Mask以及Class进行解耦是非常必要的。
这里还有一个需要注意的细节。在训练网络的时候输入Mask分支的目标是由RPN提供的，即Proposals，但在预测的时候输入Mask分支的目标是由Fast R-CNN提供的（即预测的最终目标）。 并且训练时采用的Proposals全部是Fast R-CNN阶段匹配到的正样本。这里说下我个人的看法（不一定正确），在训练时Mask分支利用RPN提供的目标信息能够扩充训练样本的多样性（因为RPN提供的目标边界框并不是很准确，一个目标可以呈现出不同的情景，类似于围着目标做随机裁剪。从另一个方面来看，通过Fast R-CNN得到的输出一般都比较准确了，再通过NMS后剩下的目标就更少了）。在预测时为了获得更加准确的目标分割信息以及减少计算量（通过Fast R-CNN后的目标数会更少），此时利用的是Fast R-CNN提供的目标信息。

Mask R-CNN的损失

Mask R-CNN损失

Mask R-CNN的损失就是在Faster R-CNN的基础上加上了Mask分支上的损失，即：
$Loss =L_{rpn} + L_{fast_rcnn} + L_{mask}$
关于Faster R-CNN的损失计算,这里就不在赘述,参考博文：RCNN、Fast-RCNN、Faster-RCNN理论合集，关于Mask分支上的损失就是二值交叉熵损失(Binary Cross Entropy)

Mask分支损失

在讲Mask分支损失计算之前，我们要弄清楚logits（网络预测的输出）是什么，targets（对应的GT）是什么。前面有提到训练时输入Mask分支的目标是RPN提供的Proposals，所以网络预测的logits是针对每个Proposal对应每个类别的Mask信息（注意预测的Mask大小都是28x28）。并且这里输入的Proposals都是正样本（在Fast R-CNN阶段采样得到的），对应的GT信息（box、cls）也是知道的。
如下图所示，假设通过RPN得到了一个Proposal（图中黑色的矩形框），通过RoIAlign后得到对应的特征信息（shape为14x14xC），接着通过Mask Branch预测每个类别的Mask信息得到图中的logits（logits通过sigmoid激活函数后，所有值都被映射到0至1之间）。通过Fast R-CNN分支正负样本匹配过程我们能够知道该Proposal的GT类别为猫（cat），所以将logits中对应类别猫的预测mask（shape为28x28）提取出来。然后根据Proposal在原图对应的GT上裁剪并缩放到28x28大小，得到图中的GT mask（对应目标区域为1，背景区域为0）。最后计算logits中预测类别为猫的mask与GT mask的BCELoss（BinaryCrossEntropyLoss）即可。

Mask Branch预测使用

这里再次强调一遍，在真正预测推理的时候，输入Mask分支的目标是由Fast R-CNN分支提供的。

如上图所示，通过Fast R-CNN分支，我们能够得到最终预测的目标边界框信息以及类别信息。接着将目标边界框信息(注意此处不是经过RPN得到的Proposals)提供给Mask分支,经过RoIAlign就能预测得到该目标的logits信息，再根据Fast R-CNN分支提供的类别信息将logits中对应该类别的Mask信息提取出来，即针对该目标预测的Mask信息（shape为28x28，由于通过sigmoid激活函数，数值都在0到1之间）。然后利用双线性插值将Mask缩放到预测目标边界框大小，并放到原图对应区域。接着通过设置的阈值（默认为0.5）将Mask转换成一张二值图，比如预测值大于0.5的区域设置为前景剩下区域都为背景。现在对于预测的每个目标我们就可以在原图中绘制出边界框信息，类别信息以及目标Mask信息

本博客参考：太阳花小绿豆的 Mask R-CNN网络详解

你可能感兴趣的:(图像分割,目标检测,深度学习,计算机视觉)

10 个免费的 AI 图片生成工具分享程序员
原文：https://openaigptguide.com/ai-picture-generator/在人工智能（AI）图像生成技术的推动下，各类AI图片生成网站如雨后春笋般涌现，为我们的日常生活提供了丰富多彩的视觉体验。AI图片生成技术原理人工智能（AI）图片生成技术原理是通过计算机程序使用深度学习算法从大量的数据中学习特征，并根据特征创建新的图片。该技术可以模拟人类的绘画过程，学习输入图像的潜
假新闻检测论文（24）A comprehensive survey of multimodal fake news detection techniques... weixin_41964296 假新闻检测自然语言处理
本文综述了利用深度学习架构和注意力机制进行假新闻检测的最新和全面的研究一介绍假新闻定义：虚假或误导性新闻，或“假新闻”，是任何捏造或故意欺骗的媒体内容。假新闻危害：它可以被利用来操纵公众情绪，传播错误信息，甚至干预政治选举。它的主要目的是扭曲、欺骗或操纵个人的信仰和观点。假新闻的形式（类型）：虚假信息在媒体上传播的形式多种多样，包括讽刺、谣言、点击诱饵、错误信息等。讽刺作品通常充满幽默，用来强调特
YOLOv8重磅升级：引入DenseOne密集网络革新主干设计，重塑YOLO目标检测性能新高度程序员杨弋 YOLO 目标检测人工智能
随着深度学习技术的不断进步，目标检测作为计算机视觉领域的重要任务之一，其性能和应用范围也在不断扩大。作为目标检测领域的佼佼者，YOLO（YouOnlyLookOnce）系列算法以其出色的性能和实时性受到了广泛关注。而最近提出的YOLOv8更是在前代版本的基础上进行了多项优化，进一步提升了检测精度和速度。然而，尽管YOLOv8已经取得了显著的进步，但在处理复杂场景和遮挡问题时，仍然存在一定的挑战。为
深度学习驱动的极端天气预测：时空数据异常检测与应用全解析（基于Python + TensorFlow） AI_DL_CODE 深度学习 python tensorflow 人工智能天气预测
摘要：时空数据异常检测在气象领域识别偏离正常模式的数据点，对极端天气预测至关重要。深度学习，尤其是LSTM网络，因其强大的特征学习能力在该领域显示出巨大潜力。通过整合多源气象数据，深度学习模型能够自动挖掘复杂模式和非线性关系，提高预测准确性。然而，挑战依然存在，包括数据质量问题、模型可解释性不足以及极端天气的内在复杂性和不确定性。未来，通过模型架构创新、训练算法优化以及探索深度学习在气候预测、气象
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！ YOLO大师 YOLO 网络 cnn 目标检测论文阅读 yolov8
YOLOv8目标检测创新改进与实战案例专栏专栏目录：YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸
基于深度学习的人脸表情识别系统：YOLOv5 + YOLOv8 + YOLOv10 + UI界面 + 数据集 2025年数学建模美赛深度学习 YOLO ui 分类人工智能
引言随着人工智能的飞速发展，深度学习技术已广泛应用于各个领域，尤其是在计算机视觉领域。人脸识别和表情识别是其中的一个重要应用，能够在多种场景下提供重要的信息，例如安全监控、情感分析、智能客服、健康监测等。在人脸表情识别任务中，准确识别人脸的情感状态（如高兴、愤怒、悲伤等）是一个极具挑战性的任务。随着YOLO系列算法的不断进步，YOLOv5、YOLOv8和YOLOv10的推出大大提高了目标检测的精度
基于YOLOv8深度学习的人脸年龄检测识别系统 2025年数学建模美赛 YOLO 深度学习人工智能 ui 数据挖掘分类
引言随着人工智能和计算机视觉的飞速发展，人脸分析技术在年龄检测领域取得了显著进展。人脸年龄检测系统在安全监控、广告推荐、健康监测等领域有广泛应用。本文将基于YOLOv8目标检测模型和UI界面，开发一个完整的人脸年龄检测识别系统。我们将详细介绍项目的技术实现、数据集构建、模型训练以及UI设计，并附上完整代码。目录引言系统架构设计数据准备公开人脸年龄数据集数据标注格式数据目录结构模型训练YOLOv8环
基于深度学习的人脸表情识别系统（YOLOv10+UI界面+数据集） 2025年数学建模美赛深度学习 YOLO ui 计算机视觉人工智能目标跟踪
在本篇博客中，我们将详细介绍如何构建一个基于深度学习的人脸表情识别系统。该系统主要由三部分组成：YOLOv10（深度学习模型）进行表情识别、UI界面展示识别结果以及数据集的准备和训练过程。我们将从系统架构、数据准备、模型训练、UI设计等多个方面进行全面讲解，最终实现一个能够实时识别并展示人脸表情的系统。目录1.系统架构2.数据集准备2.1FER2013数据集2.2数据预处理3.YOLOv10模型概
基于深度学习的人脸表情识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能代码
1.引言近年来，人脸表情识别在情感计算、智能人机交互、心理学研究等领域有着广泛的应用。深度学习的快速发展，使得高效、准确的人脸表情识别成为可能。通过利用卷积神经网络（CNN）和目标检测技术，可以实现实时、精准的人脸表情识别。本文将基于YOLOv8构建一个完整的人脸表情识别系统。系统集成了数据集准备、YOLOv8模型训练、实时推理以及基于PyQt5的图形用户界面（UI）。通过本文，你将学习如何实现一
AI大模型应用架构（ALLMA）白皮书解读百度_开发者中心人工智能大模型数据库自然语言处理
随着人工智能技术的不断发展，AI大模型成为推动生产、生活方式变革，助推产业智能化转型升级，驱动数字经济高质量发展等社会经济发展方面的新引擎。为了全面展示AI大模型的发展全貌，为各界提供新思路，本文将对AI大模型应用架构（ALLMA）白皮书进行解读。一、AI大模型应用架构（ALLMA）的内涵AI大模型应用架构（ALLMA）是一种基于深度学习的人工智能应用架构，旨在通过大规模无标注数据预训练、指令微调
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
气象海洋水文领域Python机器学习及深度学习实践应用能力提升 AAIshangyanxiu 农林生态遥感编程算法统计语言大气科学 python 机器学习深度学习
Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能。上述优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为气象、海洋和水文
【昇思25天学习打卡营打卡指南-第一天】基本介绍与快速入门 JeffDingAI MindSpore 学习
昇思MindSpore介绍昇思MindSpore是一个全场景深度学习框架，旨在实现易开发、高效执行、全场景统一部署三大目标。其中，易开发表现为API友好、调试难度低；高效执行包括计算效率、数据预处理效率和分布式训练效率；全场景则指框架同时支持云、边缘以及端侧场景。昇思MindSpore总体架构如下图所示：ModelZoo（模型库）：ModelZoo提供可用的深度学习算法网络，也欢迎更多开发者贡献新
NLP-语义解析(Text2SQL)：技术路线【Seq2Seq、模板槽位填充、中间表达、强化学习、图网络】 u013250861 #自然语言处理人工智能
目前关于NL2SQL技术路线的发展主要包含以下几种:Seq2Seq方法：在深度学习的研究背景下,很多研究人员将Text-to-SQL看作一个类似神经机器翻译的任务,主要采取Seq2Seq的模型框架。基线模型Seq2Seq在加入Attention、Copying等机制后,能够在ATIS、GeoQuery数据集上达到84%的精确匹配,但是在WikiSQL数据集上只能达到23.3%的精确匹配,37.0%
PyTorch 中的 expand 操作详解：用法、原理与技巧专业发呆业余科研深度模型底层原理 pytorch 人工智能 python 深度学习机器学习
在使用PyTorch进行深度学习时，张量形状与广播机制常常是让初学者感到困惑的地方。我们需要时常面对多维张量，并在批量、通道、空间位置等多个维度之间做运算。如果能熟练掌握各种维度变换操作——包括unsqueeze、expand、view/reshape、transpose/permute等，可以帮助我们灵活地操纵张量，写出高效而简洁的矩阵化（vectorized）代码。本文将重点聚焦于expand
注意力池化层：从概念到实现及应用专业发呆业余科研深度模型底层原理 python 人工智能 transformer 深度学习自然语言处理图像处理
引言在现代深度学习模型中，注意力机制已经成为一个不可或缺的组件，特别是在处理自然语言和视觉数据时。多头注意力机制（MultiheadAttention）是Transformer模型的核心，它通过多个注意力头来捕捉序列中不同部分之间的关系。然而，在多模态模型中，如何有效地将图像特征和文本特征结合起来一直是一个挑战。注意力池化层（AttentionPoolingLayer）提供了一种有效的解决方案，通
深入解析昇腾AI CPU算子开发：基于AI CPU引擎的自定义算子实现与优化快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析昇腾AICPU算子开发：基于AICPU引擎的自定义算子实现与优化随着深度学习模型复杂性的不断提升，AI处理器需要更强大的算力和更高效的计算架构来支撑模型的训练和推理。在华为昇腾AI处理器的架构中，AICPU承担着重要的计算任务，特别是针对标量和向量等通用计算的支持。AICPU算子开发成为开发者优化模型性能的重要步骤，而TBE（TensorBoostEngine）工具也为开发者提供了便捷的算
【AI系统】混合并行 ZOMI酱人工智能
混合并行混合并行（HybridParallel）是一种用于分布式计算的高级策略，它结合了数据并行和模型并行的优势，以更高效地利用计算资源，解决深度学习中的大模型训练问题。混合并行不仅能提高计算效率，还能在有限的硬件资源下处理更大的模型和数据集。在深度学习中，数据并行和模型并行各自有其适用的场景和局限性。数据并行适用于训练样本较多而模型较小的情况，通过将数据集分割成多个子集并在不同的设备上同时训练来
BladeDISC++：Dynamic Shape AI 编译器下的显存优化技术人工智能机器学习分布式阿里云
近年来，随着深度学习技术的迅猛发展，越来越多的模型展现出动态特性，这引发了对动态形状深度学习编译器(DynamicShapeAICompiler)的广泛关注。本文将介绍阿里云PAI团队近期发布的BladeDISC++项目，探讨在动态场景下如何优化深度学习训练任务的显存峰值，主要内容包括以下三个部分：DynamicShape场景下显存优化的背景与挑战BladeDISC++的创新解决方案Llama2模
【TVM 教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在ifname=="__main__":代码块中。importosi
交叉熵损失与二元交叉熵损失：区别、联系及实现细节专业发呆业余科研深度模型底层原理人工智能深度学习 python
在机器学习和深度学习中，交叉熵损失（Cross-EntropyLoss）和二元交叉熵损失（BinaryCross-EntropyLoss）是两种常用的损失函数，它们在分类任务中发挥着重要作用。本文将详细介绍这两种损失函数的区别和联系，并通过具体的代码示例来说明它们的实现细节。交叉熵损失（Cross-EntropyLoss）常用于多类分类问题，即每个样本只能属于一个类别，但总类别数量较多。例如，在手
全类别机器人传感器模块推荐极梦网络无忧杂谈机器人
视觉感知双目视觉模块：常见分辨率1280×720，帧率30fps-60fps，水平视场角60°-90°，垂直视场角40°-60°，通过USB接口传数据。用于机器人导航、避障等，基于三角测量原理获取三维信息，定位更精准。单目摄像头模块：分辨率640×480至2592×1944可选，帧率15fps-60fps，工作电压3.3V-5V。适用于简单图像识别任务，成本低、体积小，结合算法可实现目标检测等功能
深度学习YOLOv3压双黄线期末项目 yzx991013 giit YOLO
一、引言实现功能目录一、引言实现功能打开视频连续检测车辆能检测到道路中间的双黄线能检测出车辆是否压双黄线当车辆压到双黄线时给出提示要求使用多线程实现功能二、技术栈概览三、代码功能深度剖析视频文件选择功能（choosevideo函数）四、项目亮点提炼五、总结与展望1.打开视频2.连续检测车辆3.能检测到道路中间的双黄线4.能检测出车辆是否压双黄线5.当车辆压到双黄线时给出提示6.要求使用多线程实现功
深度定制：Embedding与Reranker模型的微调艺术从零开始学习人工智能 embedding 人工智能
微调是深度学习中的一种常见做法，它允许模型在预训练的基础上进一步学习特定任务的特定特征。对于Embedding模型，微调的目的是让模型更适配特定的数据集，从而取得更好的召回效果。这通常涉及到使用特定的数据集对模型进行额外的训练，以便模型能够学习到数据集中的特定语义关系。微调过程可以使用不同的库和框架来实现，例如sentence-transformers库，它提供了便捷的API来调整Embeddin
【机器学习】—时序数据分析：机器学习与深度学习在预测、金融、气象等领域的应用云边有个稻草人热门文章机器学习数据分析深度学习笔记
云边有个稻草人-CSDN博客目录引言1.时序数据分析基础1.1时序数据的特点1.2时序数据分析的常见方法2.深度学习与时序数据分析2.1深度学习在时序数据分析中的应用2.1.1LSTM（长短期记忆网络）2.2深度学习在金融市场预测中的应用2.2.1股票市场预测2.3深度学习在设备故障检测中的应用3.强化学习与时序数据分析3.1强化学习的基本概念3.2强化学习在金融市场中的应用3.3强化学习在设备故
使用 AI 在医疗影像分析中的应用探索
摘要医疗影像分析是AI在医疗领域的重要应用方向，能够提高诊断效率，减少误诊率。本文将深入探讨AI技术在医疗影像数据分析中的应用，包括核心算法、关键实现步骤和实际案例，并提供一个基于卷积神经网络（CNN）的图像分类Demo。引言随着医疗影像数据的爆炸式增长，传统的人工分析已无法满足高效、精准诊断的需求。AI技术通过深度学习算法，在医疗影像的识别、分类和标注中发挥了重要作用。本文章将结合技术实现与案例
【机器学习】---神经架构搜索（NAS） Undoom 机器学习 Python 机器学习架构人工智能 python
这里写目录标题引言1.什么是神经架构搜索（NAS）1.1为什么需要NAS？2.NAS的三大组件2.1搜索空间搜索空间设计的考虑因素：2.2搜索策略2.3性能估计3.NAS的主要方法3.1基于强化学习的NAS3.2基于进化算法的NAS3.3基于梯度的NAS4.NAS的应用5.实现一个简单的NAS框架6.总结引言随着深度学习的成功应用，神经网络架构的设计变得越来越复杂。模型的性能不仅依赖于数据和训练方
【C#深度学习之路】如何使用C#读取pickle类型的大模型文件来瓶霸王防脱发 C#深度学习之路 c#机器学习
【C#深度学习之路】如何使用C#读取pickle类型的大模型文件背景Pickle文件的结构及读取思路读取方法以压缩文件的方式加载Pickle类型文件读取Header的内容读取tensor的权重值该方法的不足总结本文为原创文章，若需要转载，请注明出处。原文地址：https://blog.csdn.net/qq_30270773/article/details/141367057项目对应的Github
【C#深度学习之路】如何使用C#实现Yolov8模型的训练和推理来瓶霸王防脱发 C#深度学习之路 c#机器学习图像处理视觉检测 YOLO
【C#深度学习之路】如何使用C#实现Yolov8模型的训练和推理项目背景算法实现模型结构项目展望写在最后项目下载链接本文为原创文章，若需要转载，请注明出处。原文地址：https://blog.csdn.net/qq_30270773/article/details/143529308项目对应的Github地址：https://github.com/IntptrMax/YoloSharpC#深度学习
【C#深度学习之路】如何使用C#实现Yolov11模型的训练和推理来瓶霸王防脱发 C#深度学习之路 c#深度学习 YOLO
【C#深度学习之路】如何使用C#实现Yolov11模型的训练和推理项目背景算法实现模型结构项目展望写在最后项目下载链接本文为原创文章，若需要转载，请注明出处。原文地址：https://blog.csdn.net/qq_30270773/article/details/143722404项目对应的Github地址：https://github.com/IntptrMax/YoloSharpC#深度学
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交