人工智能研习社

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读

本章节将介绍PaddleSeg的核心部分，分割模型和主干网络部分，在yaml配置文件中有以下定义：

#模型信息
model:
  #模型的类型FCN
  type: FCN
  #使用的主干网络为HRNet 
  backbone:
    type: HRNet_W18
    #主干网络的预训练模型的下载地址。
    pretrained: https://bj.bcebos.com/paddleseg/dygraph/hrnet_w18_ssld.tar.gz
  #模型支持的类别为19种。
  num_classes: 19
  #模型的预训练地址，这里为空
  pretrained: Null
  #这个是创建模型时需要传入的参数，该参数指定FCN使用backbone返回的哪个特征图。backbone可以根据不同的块返回不同尺度的特征图。
  backbone_indices: [-1]

以上配置文件定义了一个最基本的FCN网络。首先我们来介绍一下FCN网络。
FCN网络全称为Fully Convolutional Networks，按字面意思就是全部都是卷积的网络，没有全连接层。FCN是在论文《Fully convolutional networks for semantic segmentation》提出的。
FCN之所以可以对图像进行分割，是因为实现了像素级分类。试想一下，在一张图片里每一个像素点就被分为某一个类别，这样整张图像自然就被分割成不同的区域了。
下面贴一张论文中FCN结构图：

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第1张图片

FCN网络的输入是RGB三通道的图像数据，例如形状为[224,224,3]的图像数据，输出的是每一个像素点类别，数据形状可以是[n_classes, 224, 224]。
在图像分类任务中，网络的最顶层是一个全连接网络，代表了图像的类别。而在图像分割任务中，最后需要输出的是一个与输入图像尺寸相同的分割图像。要实现这个目的我们需要做以下两方面的处理：

将分类网络中的FC层替换为1x1的卷积层。
上采样
在图像分割网络中将FC层替换为1x1的卷积层，这样对特征图进行卷积以后，不会改变特征图的尺寸，会改变特征图的通道数，可以认为1x1的卷积是在通道维度上对特征图进行升维或者降维。
对特征图进行1x1卷积操作以后，需要对图像进行上采样操作，使特征图恢复到输入图像大小。
一般上采样有以下三种方法：

上采样，比如双线性插值
反池化
转置卷积

下面介绍一下这三种方法具体实现方法。

1.双线性插值。

将一个小图像变成为一个大图像，一般都是在像素点之间插入一些点来扩充图像，但是插入的点的像素值如何确定是一个问题，在采样算法中，有多种插值的算法，这里我们介绍一种常用的双线性插值方法。这种方法不但计算比较简单，同时效果也不错。
假如有以下4个点Q11、Q12、Q21和Q22。想在坐标为(x,y)的位置插入一个P点。那如何确定P点的像素值呢？

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第2张图片

首先我们做第一次插值，x方向插值计算出图中R1和R2的像素值。
以计算R1的值为例，可以从图中观察到，点R1在X方向上，位于Q11和Q21之间，可以认为R1的值同时受Q11和Q21影响，R1距离Q11稍微近一些，那R1的像素值就受Q11影响比较大，受Q21的影响就比较少，所以根据R1距两点的距离可以得出以下公式:

$v\left(R_1\right) = \frac{x_2 - x}{x_2 - x_1}v\left(Q_{11}\right) + \frac{x - x_1}{x_2 - x_1}v\left(Q_{21}\right)$

同理计算R2的值的公公式如下：

$v\left(R_2\right) = \frac{x_2 - x}{x_2 - x_1}v\left(Q_{12}\right) + \frac{x - x_1}{x_2 - x_1}v\left(Q_{22}\right)$

然后我们在做第二次线性插值得出P点的像素值，与之前计算R1和R2的值类似，只不过这是在Y方向上进行计算，公式如下：

$v\left(P\right) = \frac{y_2 - y}{y_2 - y_1}v\left(R_1\right) + \frac{y - y_1}{y_2 - y_1}v\left(R_2\right)$

2.反池化
这个一般用的比较少，因为需要记录池化时的索引号，如果没有记录也可以随机生成索引号。这个实现比较简单，过程如下图：

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第3张图片

3.转置卷积（也叫反卷积）
正常的卷积操作，是将图像越卷越小，而转置卷积则是将卷积核进行选择180度，然后对图像进行padding之后进行卷积操作，最后得到一个大尺寸的特征图，具体操作如下。

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第4张图片

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第5张图片

paddleseg套件中的FCN网络架构如下：

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第6张图片

下面我们来看下FCN的代码，FCN定义在paddleseg/models/fcn.py文件中。

在FCN文件中有个FCNHead的类，它是FCN网络的最终输出模块，首先我们先看看它的实现代码以及解读。

class FCNHead(nn.Layer):

    def __init__(self,
                 num_classes,
                 backbone_indices=(-1, ),
                 backbone_channels=(270, ),
                 channels=None):
        super(FCNHead, self).__init__()
		#类别数
        self.num_classes = num_classes
        #使用backbone返回特征列表的索引号，backbone可以将不同block的特征图组成一个列表返回。
        self.backbone_indices = backbone_indices
        #backbone返回特征图的通道数
        if channels is None:
            channels = backbone_channels[0]
        #定义一个卷积核为1x1，带有BN层，激活函数为Relu的卷积层。
        self.conv_1 = layers.ConvBNReLU(
            in_channels=backbone_channels[0],
            out_channels=channels,
            kernel_size=1,
            padding='same',
            stride=1)
        #定义一个卷积核为1x1的卷积层，输出通道为分类数，作为分类器。
        self.cls = nn.Conv2D(
            in_channels=channels,
            out_channels=self.num_classes,
            kernel_size=1,
            stride=1,
            padding=0)
        self.init_weight()
    #正向传播函数，在动态图模型中，重写该函数，将前向运算过程写在这里面。
    def forward(self, feat_list):
        logit_list = []
        #使用backbone_inices中的索引号，取出backbone返回的特征图
        x = feat_list[self.backbone_indices[0]]
        #进行1x1卷积运算
        x = self.conv_1(x)
        #经过分类器，得到通道数为分类数量的特征图。
        logit = self.cls(x)
        #为了兼容返回多个特征图的backbone，这里即使只有一个logit也放在一个列表当中返回。
        logit_list.append(logit)
        return logit_list
    #初始化参数
    def init_weight(self):
        for layer in self.sublayers():
            if isinstance(layer, nn.Conv2D):
                param_init.normal_init(layer.weight, std=0.001)
            elif isinstance(layer, (nn.BatchNorm, nn.SyncBatchNorm)):
                param_init.constant_init(layer.weight, value=1.0)
                param_init.constant_init(layer.bias, value=0.0)

下面来看一下FCN的模型，代码如下：

class FCN(nn.Layer):

    def __init__(self,
                 num_classes, #类别数目
                 backbone, #主干网络对象
                 backbone_indices=(-1, ), #主干网络输出特征图的id
                 channels=None, #通道数
                 align_corners=False, #对特征图进行缩放的参数
                 pretrained=None): #预训练模型的url或者路径
        super(FCN, self).__init__()
		#保存backbone模型
        self.backbone = backbone
        #根据backbone的索引号，获取backbone中的特征图的通道数。
        backbone_channels = [
            backbone.feat_channels[i] for i in backbone_indices
        ]
        #定义一个head.
        self.head = FCNHead(num_classes, backbone_indices, backbone_channels,
                            channels)
        #保存上采样参数。
        self.align_corners = align_corners
        self.pretrained = pretrained
        #初始化参数
        self.init_weight()

    def forward(self, x):
        #将输入图片送backbone运算，得到特征图列表，在FCN中，只有一个特征图。
        feat_list = self.backbone(x)
        #将特征图送入head进行运算得到通道数为类别数的特征图。
        logit_list = self.head(feat_list)
        #对特征图进行上采样，得到与输入图像尺寸一致的分割图，这里每一个像素都自己的分类，通道数与分类数一致。
        return [
            F.interpolate(
                logit,
                x.shape[2:],
                mode='bilinear',
                align_corners=self.align_corners) for logit in logit_list
        ]
    #初始化参数
    def init_weight(self):
        if self.pretrained is not None:
            utils.load_entire_model(self, self.pretrained)

下面我们介绍一下主干网络HRNet的结构，HRNet可以分为4个部分，首先我们看一下第一部分的结架构图。

HRNet网络的第二部分架构图如下。

HRNet网络的第三部分架构图如下。

HRNet网络的第四部分架构图如下。

HRNet的网络整体架构如上图所示，在图中可以看出HRNet由BottleneckBlock、Branches和FuseLayer构成，下面我们详细介绍一下这三个模块的架构与代码。
首先我们看一下BottlenneckBlock的架构图：

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第11张图片

BottlenneckBlock就像名字一样，将特征图通道数固定到某一个值后，然后在放大，使通道数像一个瓶颈一样，上面细下面宽。
下面解读一下BottlenneckBlock的源代码：

class BottleneckBlock(nn.Layer):
    def __init__(self,
                 num_channels,#输入通道数
                 num_filters, #卷积核数量
                 has_se, #是否使用SELayer
                 stride=1, #卷积核步长
                 downsample=False, #是否开启下采样
                 name=None): #参数名称
        super(BottleneckBlock, self).__init__()
		
        self.has_se = has_se
        self.downsample = downsample
		#定义卷积，将特征图的通道数设置为num_filters
        self.conv1 = layers.ConvBNReLU(
            in_channels=num_channels,
            out_channels=num_filters,
            kernel_size=1,
            padding='same',
            bias_attr=False)
        #定义第二层卷积，将特征图的通道数设置为num_filters，这里kernel_size不同。
        self.conv2 = layers.ConvBNReLU(
            in_channels=num_filters,
            out_channels=num_filters,
            kernel_size=3,
            stride=stride,
            padding='same',
            bias_attr=False)
		#定义1x1卷积，放大特征图的通道数量
        self.conv3 = layers.ConvBN(
            in_channels=num_filters,
            out_channels=num_filters * 4,
            kernel_size=1,
            padding='same',
            bias_attr=False)
        #一般第一个bottleneck Block需要做一个下采样。
        if self.downsample:
            self.conv_down = layers.ConvBN(
                in_channels=num_channels,
                out_channels=num_filters * 4,
                kernel_size=1,
                padding='same',
                bias_attr=False)
        
        if self.has_se:
            self.se = SELayer(
                num_channels=num_filters * 4,
                num_filters=num_filters * 4,
                reduction_ratio=16,
                name=name + '_fc')

    def forward(self, x):
        #按顺序进行前向计算
        residual = x
        conv1 = self.conv1(x)
        conv2 = self.conv2(conv1)
        conv3 = self.conv3(conv2)

        if self.downsample:
            residual = self.conv_down(x)

        if self.has_se:
            conv3 = self.se(conv3)
        #与残差相加
        y = conv3 + residual
        y = F.relu(y)
        return y

在每个stage之前都有个TransitionLayer，该层主要是从输入的特征图列表中，取出尺寸最小的特征图进行下采样，增加一个特征图分支。
TransitionLayer架构图可参考HRNet的总体架构图。

TransitionLayer层的代码解读如下：

class TransitionLayer(nn.Layer):
    def __init__(self, in_channels, out_channels, name=None):
        super(TransitionLayer, self).__init__()
		#由于经过TransitionLayer会多出一路分支，所以一般num_out比num_in要大
        num_in = len(in_channels)
        num_out = len(out_channels)
        self.conv_bn_func_list = []
        #需要num_out个特征图作为输出，使用循环创建num_out个输出。
        for i in range(num_out):
            residual = None
           	#在i小于等于输入的特征图数量时，可以直接做一个3x3的卷积作为输出。
            if i < num_in:
                if in_channels[i] != out_channels[i]:
                    residual = self.add_sublayer(
                        "transition_{}_layer_{}".format(name, i + 1),
                        layers.ConvBNReLU(
                            in_channels=in_channels[i],
                            out_channels=out_channels[i],
                            kernel_size=3,
                            padding='same',
                            bias_attr=False))
            #在i大于输入特征图数量时，需要新创建一个特征图，这里使用stride=2的卷积下采样一个特征图作为输出。
            else:
                residual = self.add_sublayer(
                    "transition_{}_layer_{}".format(name, i + 1),
                    layers.ConvBNReLU(
                        in_channels=in_channels[-1],
                        out_channels=out_channels[i],
                        kernel_size=3,
                        stride=2,
                        padding='same',
                        bias_attr=False))
            self.conv_bn_func_list.append(residual)

    def forward(self, x):
        outs = []
        #对输入的特征图进行卷积运算。
        for idx, conv_bn_func in enumerate(self.conv_bn_func_list):
            if conv_bn_func is None:
                outs.append(x[idx])
            else:
                if idx < len(x):
                	#对原有的输入特征图进行卷积操作，并加入输出列表。
                    outs.append(conv_bn_func(x[idx]))
                else:
                    #新建一个特征图，使用输入特征图中尺寸最小，使用卷积进行下采样生成新的特征图，加入到输出列表中。
                    outs.append(conv_bn_func(x[-1]))
        return outs

在Stage层中会用到两个层一个是Branches,另外一个是FuseLayers。

首先我们先来看一下Branches，它的架构图如下：

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第12张图片

Branches的代码如下：

class Branches(nn.Layer):
    def __init__(self,
                 num_blocks, #block数量
                 in_channels, #输入通道数
                 out_channels, #输出通道数
                 has_se=False,
                 name=None):
        super(Branches, self).__init__()

        self.basic_block_list = []
		#经过TransitionLayer后，会被分成不同分辨率和通道数的多路特征图，这里根据特征的路数，分别进行卷积操作。
        #每一路都有自己的block list。
        for i in range(len(out_channels)):
            self.basic_block_list.append([])
            for j in range(num_blocks[i]):
                in_ch = in_channels[i] if j == 0 else out_channels[i]
                basic_block_func = self.add_sublayer(
                    "bb_{}_branch_layer_{}_{}".format(name, i + 1, j + 1),
                    BasicBlock(
                        num_channels=in_ch,
                        num_filters=out_channels[i],
                        has_se=has_se,
                        name=name + '_branch_layer_' + str(i + 1) + '_' +
                        str(j + 1)))
                self.basic_block_list[i].append(basic_block_func)

    def forward(self, x):
        outs = []
        #遍历输入的多路特征图，执行每一路各自的卷积运算。
        for idx, input in enumerate(x):
            conv = input
            for basic_block_func in self.basic_block_list[idx]:
                conv = basic_block_func(conv)
            outs.append(conv)
        return outs

经过Branches模块卷积运算后，就进入了FuseLayers。FuseLayers的主要作用是将不同尺度的特征图进行融合。按顺序从特征图列表中取出一个特征图，
然后与其他特征图比较，遇到尺寸比自己小的特征图，则将小特征图进行上采样，然后与自己相加。遇到尺寸比自己大的特征图，则使用stride=2的卷积对
特征图进行下采样，然后与自己相加。

FuseLayer的架构图如下：

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读_第13张图片

下面解读FuseLayer的代码：

class FuseLayers(nn.Layer):
    def __init__(self,
                 in_channels,
                 out_channels,
                 multi_scale_output=True,
                 name=None,
                 align_corners=False):
        super(FuseLayers, self).__init__()

        self._actual_ch = len(in_channels) if multi_scale_output else 1
        self._in_channels = in_channels
        self.align_corners = align_corners

        self.residual_func_list = []
        #使用for循环遍历特征图列表
        for i in range(self._actual_ch):
        	#双重循环，进行特征图比较，下标值大的特征图的尺寸小。
            for j in range(len(in_channels)):
            	#遇到下标大的特征图，则说明特征图尺寸小，此处添加一个1x1卷积，进行通道数的统一。
                if j > i:
                    residual_func = self.add_sublayer(
                        "residual_{}_layer_{}_{}".format(name, i + 1, j + 1),
                        layers.ConvBN(
                            in_channels=in_channels[j],
                            out_channels=out_channels[i],
                            kernel_size=1,
                            padding='same',
                            bias_attr=False))
                    self.residual_func_list.append(residual_func)
                #遇到下标小的特征图，则说明特征图尺寸大，则需要进行创建stride=2的卷积进行1/2的下采样。
                elif j < i:
                    pre_num_filters = in_channels[j]
                    #因为遇到的j下标特征图可能是当前特征图的2、4、8倍，所以需要使用循环创建多个卷积进行下采样。
                    for k in range(i - j):
                        if k == i - j - 1:
                            residual_func = self.add_sublayer(
                                "residual_{}_layer_{}_{}_{}".format(
                                    name, i + 1, j + 1, k + 1),
                                layers.ConvBN(
                                    in_channels=pre_num_filters,
                                    out_channels=out_channels[i],
                                    kernel_size=3,
                                    stride=2,
                                    padding='same',
                                    bias_attr=False))
                            pre_num_filters = out_channels[i]
                        else:
                            residual_func = self.add_sublayer(
                                "residual_{}_layer_{}_{}_{}".format(
                                    name, i + 1, j + 1, k + 1),
                                layers.ConvBNReLU(
                                    in_channels=pre_num_filters,
                                    out_channels=out_channels[j],
                                    kernel_size=3,
                                    stride=2,
                                    padding='same',
                                    bias_attr=False))
                            pre_num_filters = out_channels[j]
                        self.residual_func_list.append(residual_func)

    def forward(self, x):
        outs = []
        residual_func_idx = 0
        for i in range(self._actual_ch):
            residual = x[i]
            residual_shape = residual.shape[-2:]
            for j in range(len(self._in_channels)):
                if j > i:
                	#对特征图进行上采样
                    y = self.residual_func_list[residual_func_idx](x[j])
                    residual_func_idx += 1

                    y = F.interpolate(
                        y,
                        residual_shape,
                        mode='bilinear',
                        align_corners=self.align_corners)
                    #与当前i下标的特征图进行融合
                    residual = residual + y
                elif j < i:
                    y = x[j]
                    #对特征图进行下采样
                    for k in range(i - j):
                        y = self.residual_func_list[residual_func_idx](y)
                        residual_func_idx += 1
					#与当前i下标的特征图进行融合
                    residual = residual + y
			#对特征图进行relu运算
            residual = F.relu(residual)
            #将特征图添加到输出列表。
            outs.append(residual)

        return outs

以上就是backbone为HRNet的FCN的模型解读。

PaddleSeg仓库地址：https://github.com/PaddlePaddle/PaddleSeg

python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
如何用 DeepSeek 进行卷积神经网络（CNN）的优化一碗黄焖鸡三碗米饭人工智能前沿与实践 cnn 人工智能神经网络机器学习深度学习
如何用DeepSeek进行卷积神经网络（CNN）的优化卷积神经网络（CNN）在计算机视觉任务中取得了巨大的成功，例如图像分类、目标检测和图像生成。然而，尽管CNN在这些任务中表现出色，它们通常需要大量的计算资源，并且在优化过程中可能会遇到一些挑战，如过拟合、训练速度慢、局部最优解等问题。为了更好地优化CNN模型，提高其性能和训练效率，DeepSeek提供了多种优化技术和工具，可以帮助我们系统地进行
英特尔开发板试用：结合OAK深度相机进行评测 OAK中国_官方数码相机
最近英特尔官方发布了一篇文章：主要介绍了如何将英特尔开发板（小挪吒）与OAK深度相机结合使用，并通过OpenVINO™工具套件进行开发和性能评测OAK相机：作为深度数据采集的核心设备，其深度测距功能与OpenVINO™推理相结合，实现了高效的目标检测和深度信息处理。OpenVINO™：作为英特尔的深度学习推理框架，为开发板和OAK相机提供了强大的推理支持。性能优化：通过模型转换和硬件加速，去实现高
VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》 OAK中国_官方 SLAM 人工智能 rpab-map
OAKChina&苏州泛科特机器人联合推出OAK-DSeries&因子空间感知（FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能，我们直接在SLAM底层使用HF-Net模型，该模型同时进行局部特征点检测
深度学习开源数据集大全：从入门到前沿念九_ysl AI 人工智能
在深度学习中，数据是模型训练的基石。本文整理了当前最常用且高质量的开源数据集，涵盖图像、视频、自然语言处理（NLP）、语音与音频等方向，帮助研究者和开发者快速定位所需资源。一、图像类数据集1.MNIST简介：手写数字识别领域的“HelloWorld”，包含6万张训练图像和1万张测试图像，尺寸为28×28的灰度图。特点：适合入门级图像分类任务，支持快速验证算法原型28。下载地址：MNIST官网2.I
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
图像识别-pytorch 星辰瑞云机器学习 cnn pytorch
Pytorch神经网络工具箱神经网络核心组件神经网络的基本组件层：包括卷积层、池化层、全连接层等。层是神经网络的基本结构，输入张量通过层后变为输出张量。模型：由层构成的网络结构，如AlexNet、VGG等。模型可以是预训练的，也可以自己搭建。损失函数：用于衡量预测值与真实值之间的差距，如均方误差。损失函数越小越好。优化器：用于调整权重和偏置，使损失函数最小化。优化器决定了参数的调整方式。误差反传（
建筑兔零基础人工智能自学记录34|深度学习与神经网络2 阿克兔人工智能toto学习人工智能深度学习神经网络
1、人工神经网络ANN从生物课上学到的有关神经元、突触的生物神经网络，被模仿出了简化的人工神经网络（ANN,artificialneuralnetwork）。ANN结构为：输入层、隐藏层、输出层人工神经元：基于生物神经元的数学模型ANN过程：输入---加权求和---激活函数激活函数：类似生物神经元的阈值，达到阈值输出信号（‘神经网络的万能逼近定理’---两层以上神经网络可以逼近任意函数）2、深度学
自然语言处理NLP入门 -- 第十节简单的聊天机器人山海青风 #自然语言处理自然语言处理 chatgpt
一、为什么要做聊天机器人？在互联网时代，我们日常接触到的“在线客服”“自动问答”等，大多是以聊天机器人的形式出现。它能帮我们快速回复常见问题，让用户获得及时的帮助，并在一定程度上减少人工客服的压力。同时，聊天机器人也是了解自然语言处理（NLP）最好的实战项目之一。因为它整合了文字理解（NLU）、对话管理、文本生成（NLG）等多方面知识，既能看到很直观的对话效果，也能结合深度学习模型让机器人变得更智
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
全过程带你从入门到精通《动手学PyTorch深度学习建模与应用》第二章：2.1-2.3节详解，篇幅超了，缺的后面再补吧环工人学Python 深度学习 pytorch 人工智能 python 机器学习
写在前面：点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写代码。在深度学习的世界里，理解基础概念是构建复杂模型的关键。第二章“深度学习基础与PyTorch实现”将帮助我们深入理解深度学习的核心概念，并通过PyTorch实现这些概念。这一章的内容非常重要，因为它不仅涵盖了神经网络的基本原理，还介绍了激活函数、损失函数和优
基于 Pytorch 的全卷积网络人脸表情识别：从数据到部署的实战之旅那年一路北 Pytorch理论+实践 pytorch 网络人工智能
前言：本文将详细介绍基于Pytorch框架，利用全卷积网络进行人脸表情识别的完整过程，涵盖从数据集的准备、模型的设计与训练，再到模型的部署与预测，通过代码实现以及详细讲解，帮助读者深入理解并掌握这一技术。一、引言人脸表情是人类情感交流的重要方式，不同的表情能够传达出丰富的情感信息。人脸表情识别在智能交互、安防监控、心理健康分析等众多领域有着广泛的应用前景。随着深度学习技术的发展，基于卷积神经网络的
基于yolov8的糖尿病视网膜病变严重程度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的糖尿病视网膜病变严重程度检测系统基于YOLOv8的糖尿病视网膜病变严重程度检测系统是一款利用深度学习技术，专为糖尿病视网膜病变早期诊断设计的智能辅助工具。该系统采用YOLOv8目标检测模型，结合经过标注和处理的医学影像数据集，能够高效且准确地检测并分类糖尿病视网膜病变的不同严重程度。YOLOv8模型以其高速和高精度的特点，在处理眼底图像时展现了强大的能力。通过优化模型
YOLOv5 + SE注意力机制：提升目标检测性能的实践那年一路北 Yolo YOLO 目标跟踪人工智能
一、引言目标检测是计算机视觉领域的一个重要任务，广泛应用于自动驾驶、安防监控、工业检测等领域。YOLOv5作为YOLO系列的最新版本，以其高效性和准确性在实际应用中表现出色。然而，随着应用场景的复杂化，传统的卷积神经网络在处理复杂背景和多尺度目标时可能会遇到性能瓶颈。为此，引入注意力机制成为了一种有效的改进方法。本文将详细介绍如何在YOLOv5中引入SE（Squeeze-and-Excitatio
【深度学习】矩阵的核心问题&解析大数据追光猿数学基础-矩阵深度学习矩阵人工智能
一、基础问题1.如何实现两个矩阵的乘法？问题描述：给定两个矩阵AAA和BBB，编写代码实现矩阵乘法。解法：使用三重循环实现标准矩阵乘法。或者使用NumPy的dot方法进行高效计算。defmatrix_multiply(A,B):m,n=len(A),len(A[0])n,p=len(B),len(B[0])C=[[0for_inrange(p)]for_inrange(m)]foriinrange
pip安装非标准版本号库报错 pip 24.1 will enforce this behaviour change. m0_74397054 pip python 机器学习神经网络
在做神经网络作业安装tensorflow报错pyodbc4.0.0-unsupportedhasanon-standardversionnumber.pip24.1willenforcethisbehaviourchange.Apossiblereplacementistoupgradetoanewerversionofpyodbcorcontacttheauthortosuggestthatth
【模块】Non-local Neural dearr__ 扒网络模块深度学习 pytorch python
论文《Non-localNeuralNetworks》作用非局部神经网络通过非局部操作捕获长距离依赖，这对于深度神经网络来说至关重要。这些操作允许模型在空间、时间或时空中的任何位置间直接计算相互作用，从而捕获长距离的交互和依赖关系。这种方法对于视频分类、对象检测/分割以及姿态估计等任务表现出了显著的改进。机制非局部操作通过在输入特征图的所有位置上计算响应的加权和来实现，其中权重由位置之间的关系（如
基于yolov10的水果成熟度之石榴成熟度检测 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测目标跟踪计算机视觉人工智能水果成熟度检测视觉检测
石榴成熟度检测**Pomegranate*是一个基于深度学习的系统，旨在自动化检测和分类石榴果实的生长阶段（未成熟、成熟、成熟期）。该系统采用最新的YOLOv10目标检测模型，能够高效地分析图像或视频中的石榴果实，并根据其外观特征识别其生长阶段。通过这种技术，农民可以更好地监控石榴果实的发育过程，优化作物管理，合理安排收获时间，从而提高生产效率和经济收益。系统概述石榴作为一种重要的水果作物，广泛种
yolov5-训练好的模型部署的几种方式-ONNX 黄晓魚 halcon3d PCL点云处理深度神经网络 YOLO C#python
ONNX，即OpenNeuralNetworkExchange，是微软和Facebook发布的一个深度学习开发工具生态系统，旨在让AI开发人员能够随着项目发展而选择正确的工具。ONNX所针对的是深度学习开发生态中最关键的问题之一，在任意一个框架上训练的神经网络模型，无法直接在另一个框架上用。开发者需要耗费大量时间精力把模型从一个开发平台移植到另一个。因此，如何实现不同框架之间的互操作性，简化从研究
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架关键词：大语言模型、7B模型、自动化训练、深度学习、神经网络、自然语言处理、分布式计算文章目录大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4
怎样通过人机融合智能去除“机器幻觉”？人机与认知实验室
人机融合智能的目标是通过深度结合人类智能和机器智能，解决现有人工智能系统（特别是深度学习模型，如各种大模型）可能出现的问题，比如“机器幻觉”现象。机器幻觉指的是人工智能模型在处理信息时，做出错误的、非理性的判断或预测，这种现象往往源于模型在训练数据中的偏差、不完全信息或过度依赖某些特定模式。通过人机融合的方式，可以有效减少这种“幻觉”，进而提升人机环境系统智能的可靠性和解释能力。1.结合人类的直觉
深度学习-【完整代码+数据集】逻辑回归预测乳腺癌检测案例编程千纸鹤人工智能学习专栏深度学习逻辑回归人工智能癌症预测
作者主页：编程千纸鹤作者简介：Java、前端、Python开发多年，做过高程，项目经理，架构师主要内容：Java项目开发、Python项目开发、大学数据和AI项目开发、单片机项目设计、面试技术整理、最新技术分享收藏点赞不迷路关注作者有好处文末获得源码机器学习分为：有监督学习：数据带有标签无监督学习：数据没有标签，根据属性聚类在机器学习有监督学习中大致可以分为两大任务，一种是回归任务，一种是分类任务
机器幻觉产生的原因人机与认知实验室机器学习人工智能
机器幻觉是指模型生成的不符合现实的内容，比如图像生成中的错误或者不合理的输出。线性函数在神经网络中的作用通常是传递梯度，但如果每一层都是线性的，整个网络就相当于一个单层的线性模型，无法学习复杂的模式。所以如果只有线性层而没有非线性激活函数的话，网络将无法处理复杂任务。对于激活函数而言，常见的如ReLU、sigmoid、tanh。激活函数引入非线性，让网络有能力学习复杂的特征。但是如果没有合适的激活
端到端自动驾驶的分布式传感器融合架构 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
自动驾驶,分布式传感器融合,深度学习,计算机视觉,雷达,lidar,惯性导航,Kalman滤波,决策控制1.背景介绍自动驾驶技术作为未来交通运输的重要发展方向，近年来取得了显著进展。然而，实现真正安全的自动驾驶仍然面临着诸多挑战，其中之一就是如何有效地融合来自不同传感器的数据，构建一个可靠的感知、决策和控制系统。传统的自动驾驶系统通常依赖于单一传感器，例如摄像头或雷达，这会导致感知信息的缺失和鲁棒
大模型时代的软件架构设计 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言当今世界，人工智能（AI）技术正以惊人的速度发展，其中大模型（LargeModels）的崛起尤为引人注目。大模型，也被称为深度学习模型，因其庞大的参数规模和强大的数据处理能力，成为推动AI技术前进的重要力量。随着大模型的广泛应用，软件架构设计面临着前所未有的挑战和机遇。大模型时代的软件架构设计，不仅需要解决传统软件架构所面对的问题，如性能、可靠性和可扩展性等，还需要应对大模型带来的新挑战，如计
计算机毕业设计 ——jspssm508Springboot 的旅游管理奔强的程序课程设计旅游
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
Crawl4AI：开源的网络爬虫和抓取工惟贤箬溪穷玩Ai github 开源 ai
crawl4ai是一个开源项目，旨在帮助用户爬取GitHub上与AI（人工智能）相关的内容。这些内容通常包括AI相关的开源项目、库、资源、论文、教程等。项目提供了一个爬虫工具，可以自动化地抓取并提取GitHub上与人工智能相关的资源。以下是对该项目的详细解读：1.项目概述crawl4ai是一个爬虫框架，专门用于从GitHub上抓取与AI相关的开源项目或仓库。这些仓库包括AI领域的机器学习、深度学习
【DeepSeek + Chatbox】本地局域网多用户协作全流程！从本地部署到高效交互，深度学习任务这样搞就对了～磕盐小宋的日常深度学习人工智能
文章目录『概要』『干货分享』『技术细节』『DeepSeek概述』『工作站配置』『所实现的功能』『具体实现流程』『短板与前瞻』『总结』『概要』最近团队在搞深度学习相关的研究，遇到了个头大的问题：设备依赖太重，每个人都要配备高性能硬件才能跑模型。于是我开始思考，有没有办法让大家共享资源，降低设备要求？经过一番调研和实践，我们终于打通了DeepSeek平台+Chatbox可视化界面的全流程局域网协作方案
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

图像分割套件PaddleSeg全面解析（五）模型与Backbone代码解读

你可能感兴趣的:(深度学习,深度学习,神经网络)