DFann

Semantic Segmentation--Pyramid Scene Parsing Network(PSPNet)论文解读

PSPNet

Pyramid Scene Parsing Network

收录：CVPR 2017 (IEEE Conference on Computer Vision and Pattern Recognition)

原文地址： PSPNet

代码:

pspnet-github
Keras
tensorflow

效果图：

Abstract

本文提出的金字塔池化模块( pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。实验表明这样的先验表示(即指代PSP这个结构)是有效的，在多个数据集上展现了优良的效果。

Introduction

场景解析(Scene Parsing)的难度与场景的标签密切相关。先大多数先进的场景解析框架大多数基于FCN，但FCN存在的几个问题：

Mismatched Relationship：上下文关系匹配对理解复杂场景很重要，例如在上图第一行，在水面上的大很可能是“boat”，而不是“car”。虽然“boat和“car”很像。FCN缺乏依据上下文推断的能力。
Confusion Categories：许多标签之间存在关联，可以通过标签之间的关系弥补。上图第二行，把摩天大厦的一部分识别为建筑物，这应该只是其中一个，而不是二者。这可以通过类别之间的关系弥补。
Inconspicuous Classes：模型可能会忽略小的东西，而大的东西可能会超过FCN接收范围，从而导致不连续的预测。如上图第三行，枕头与被子材质一致，被识别成到一起了。为了提高不显眼东西的分割效果，应该注重小面积物体。

总结这些情况，许多问题出在FCN不能有效的处理场景之间的关系和全局信息。本论文提出了能够获取全局场景的深度网络PSPNet，能够融合合适的全局特征，将局部和全局信息融合到一起。并提出了一个适度监督损失的优化策略，在多个数据集上表现优异。

本文的主要贡献如下：

提出了一个金字塔场景解析网络，能够将难解析的场景信息特征嵌入基于FCN预测框架中
在基于深度监督损失ResNet上制定有效的优化策略
构建了一个实用的系统，用于场景解析和语义分割，并包含了实施细节

Related Work

受到深度神经网络的驱动，场景解析和语义分割获得了极大的进展。例如FCN、ENet等工作。许多深度卷积神经网络为了扩大高层feature的感受野，常用dilated convolution(空洞卷积)、coarse-to-fine structure等方法。本文基于先前的工作，选择的baseline是带dilated network的FCN。

大多数语义分割模型的工作基于两个方面：

一方面：具有多尺度的特征融合，高层特征具有强的语义信息，底层特征包含更多的细节。
另一方面：基于结构预测。例如使用CRF(条件随机场)做后端细化分割结果。

为了充分的利用全局特征层次先验知识来进行不同场景理解，本文提出的PSP模块能够聚合不同区域的上下文从而达到获取全局上下文的目的。

Architecture

Pyramid Pooling Module

前面也说到了，本文的一大贡献就是PSP模块。

在一般CNN中感受野可以粗略的认为是使用上下文信息的大小，论文指出在许多网络中没有充分的获取全局信息，所以效果不好。要解决这一问题，常用的方法是：

用全局平均池化处理。但这在某些数据集上，可能会失去空间关系并导致模糊。
由金字塔池化产生不同层次的特征最后被平滑的连接成一个FC层做分类。这样可以去除CNN固定大小的图像分类约束，减少不同区域之间的信息损失。

论文提出了一个具有层次全局优先级，包含不同子区域之间的不同尺度的信息，称之为pyramid pooling module。

该模块融合了4种不同金字塔尺度的特征，第一行红色是最粗糙的特征–全局池化生成单个bin输出，后面三行是不同尺度的池化特征。为了保证全局特征的权重，如果金字塔共有N个级别，则在每个级别后使用 $1 \times 1$ 的卷积将对于级别通道降为原本的1/N。再通过双线性插值获得未池化前的大小，最终concat到一起。

金字塔等级的池化核大小是可以设定的，这与送到金字塔的输入有关。论文中使用的4个等级，核大小分别为 $1 \times 1 ， 2 \times 2 ， 3 \times 3 ， 6 \times 6$ 。

整体架构

在PSP模块的基础上，PSPNet的整体架构如下：

基础层经过预训练的模型(ResNet101)和空洞卷积策略提取feature map,提取后的feature map是输入的1/8大小
feature map经过Pyramid Pooling Module得到融合的带有整体信息的feature，在上采样与池化前的feature map相concat
最后过一个卷积层得到最终输出

PSPNet本身提供了一个全局上下文的先验(即指代Pyramid Pooling Module这个结构)，后面的实验会验证这一结构的有效性。

基于ResNet的深度监督网络

论文用了一个很“玄学”的方法搞了一个基础网络层，如下图：

在ResNet101的基础上做了改进，除了使用后面的softmax分类做loss，额外的在第四阶段添加了一个辅助的loss，两个loss一起传播，使用不同的权重，共同优化参数。后续的实验证明这样做有利于快速收敛。

Experiment

论文在ImageNet scene parsing challenge 2016, PASCAL VOC 2012,Cityscapes 三个数据集上做了实验。

训练细节：

项目	设置
学习率	采用“poly”策略，即 $lr=lr_{base}*(1-\frac{iter}{max_{iter}})^{power}$ 设置 $lr_{base}=0.01,power=0.9$ ，衰减动量设置为0.9 and 0.0001
迭代次数	ImageNet上设置150K,PASCAL VOC设置30K，Cityscapes设置90K
数据增强	随机翻转、尺寸在0.5到2之间缩放、角度在-10到10之间旋转、随机的高斯滤波
batchsize	batch很重要，设置batch=16(这很吃显存啊~)
训练分支网络	设置辅助loss的权重为0.4
平台	Caffe

ImageNet scene parsing challenge 2016

测试不同配置下的ResNet的性能,找到比较好的预训练模型：

- ResNet50-Baseline: 基于FCN的ResNet50结构，带空洞卷积的baseline
- ResNet50+B1+MAX：只带$1×1$的最大池化
- ResNet50+B1+AVE: 只带$1×1$的平均池化
- ResNet50+B1236+MAX: 带$1×1，2×2，3×3，6×6$的最大池化
- ResNet50+B1236+AVE: 带$1×1，2×2，3×3，6×6$的平均池化
- ResNet50+B1236+MAX+DR: 带$1×1，2×2，3×3，6×6$的最大池化，池化后做通道降维
- **ResNet50+B1236+AVE+DR(best)**: 带$1×1，2×2，3×3，6×6$的平均池化，池化后做通道降维

可以看到做平均池化的都比最大池化效果要好，最后将多个操作结合得到最终最好的效果。

测试辅助loss的影响：

实验都是以ResNet50-Baseline为基准，最后以 $\alpha=0.4$ 为最佳。

测试预训练模型的深度：

可以看到在测试的{50,101,152,269}这四个层次的网络中，网络越深，效果越好。

多种技巧融合

带有DA即数据增强，AL即带辅助loss，PSP带金字塔池化模块，MS多尺度。

在IamgeNet上的表现：

PASCAL VOC 2012

可以看到在MS-COCO上预训练过的效果最好。

Cityscapes

在Cityscapes上表现也是很不错的。

Conclusion

论文在结构上提供了一个pyramid pooling module，在不同层次上融合feature,达到语义和细节的融合。模型的性能表现很大，但感觉主要归功于一个良好的特征提取层。在实验部分讲了很多训练细节，但还是很难复现，这里值得好好推敲一下。

代码分析

这里分析的代码是Keras版本.

看layers_builder.py这个文件，构建了PSPNet。

主要看一下PSP模块：


def build_pyramid_pooling_module(res, input_shape):
    """Build the Pyramid Pooling Module."""
    # ---PSPNet concat layers with Interpolation
    feature_map_size = tuple(int(ceil(input_dim / 8.0)) for input_dim in input_shape)
    print("PSP module will interpolate to a final feature map size of %s" % (feature_map_size, ))

    # 创建不同尺度的feature
    interp_block1 = interp_block(res, 1, feature_map_size, input_shape)
    interp_block2 = interp_block(res, 2, feature_map_size, input_shape)
    interp_block3 = interp_block(res, 3, feature_map_size, input_shape)
    interp_block6 = interp_block(res, 6, feature_map_size, input_shape)

    # 通道融合，融合所有feature 原本通道为2048  每层池化占512个通道  
    # shape=(1,feature_map_size_x,feature_map_size_y,4096)  融合后共4096个
    res = Concatenate()([res,
                         interp_block6,
                         interp_block3,
                         interp_block2,
                         interp_block1])
    return res


def interp_block(prev_layer, level, feature_map_shape, input_shape):
    if input_shape == (473, 473):
        kernel_strides_map = {1: 60,  # (473-60)/60 + 1 = 6 + 1 = 7
                              2: 30,  # (473-30)/30 + 1 = 11 + 1 = 12
                              3: 20,  # (473-20)/20 + 1 = 22 + 1 = 23
                              6: 10}  # (473-10)/10 + 1 = 46 + 1 = 47
    elif input_shape == (713, 713):
        kernel_strides_map = {1: 90,  # (713-90)/90 + 1 = 6 + 1 = 7
                              2: 45,  # (713-45)/45 + 1 = 14 + 1 = 15
                              3: 30,  # (713-30)/30 + 1 = 6 + 1 = 23
                              6: 15}  # (713-15)/15 + 1 = 6 + 1 = 47
    else:
        print("Pooling parameters for input shape ", input_shape, " are not defined.")
        exit(1)

    names = [
        "conv5_3_pool" + str(level) + "_conv",
        "conv5_3_pool" + str(level) + "_conv_bn"
        ]
    kernel = (kernel_strides_map[level], kernel_strides_map[level])
    strides = (kernel_strides_map[level], kernel_strides_map[level])
    prev_layer = AveragePooling2D(kernel, strides=strides)(prev_layer) # 平均池化
    prev_layer = Conv2D(512, (1, 1), strides=(1, 1), name=names[0],
                        use_bias=False)(prev_layer) # 通道降到 原本的1/N = 1/4
    prev_layer = BN(name=names[1])(prev_layer)
    prev_layer = Activation('relu')(prev_layer)
    prev_layer = Lambda(Interp, arguments={'shape': feature_map_shape})(prev_layer) # 放缩到指定大小
    return prev_layer

构建PSPnet网络：

def build_pspnet(nb_classes, resnet_layers, input_shape, activation='softmax'):
    """Build PSPNet."""
    print("Building a PSPNet based on ResNet %i expecting inputs of shape %s predicting %i classes" % (resnet_layers, input_shape, nb_classes))

    inp = Input((input_shape[0], input_shape[1], 3))
    res = ResNet(inp, layers=resnet_layers) # 基础的特征提取层 
    psp = build_pyramid_pooling_module(res, input_shape) # PSP模块

    x = Conv2D(512, (3, 3), strides=(1, 1), padding="same", name="conv5_4",
               use_bias=False)(psp) # PSP后接卷积输出结果
    x = BN(name="conv5_4_bn")(x)
    x = Activation('relu')(x)
    x = Dropout(0.1)(x)

    x = Conv2D(nb_classes, (1, 1), strides=(1, 1), name="conv6")(x) # 1x1变换输出分类结果
    x = Lambda(Interp, arguments={'shape': (input_shape[0], input_shape[1])})(x) # 使用Lambda层放缩到原图片大小
    x = Activation('softmax')(x) # 经过softmax得到最终输出

    model = Model(inputs=inp, outputs=x)

    # Solver
    sgd = SGD(lr=learning_rate, momentum=0.9, nesterov=True)
    model.compile(optimizer=sgd,
                  loss='categorical_crossentropy',
                  metrics=['accuracy'])
    return model

PSPNet的基础特征提取层，即构建ResNet(这部分可以自己选定其他模型)：

from __future__ import print_function
from math import ceil
from keras.layers import Conv2D, MaxPooling2D, AveragePooling2D
from keras.layers import BatchNormalization, Activation, Input, Dropout, ZeroPadding2D, Lambda
from keras.layers.merge import Concatenate, Add
from keras.models import Model
from keras.optimizers import SGD

learning_rate = 1e-3  # Layer specific learning rate
# Weight decay not implemented


def BN(name=""):
    return BatchNormalization(momentum=0.95, name=name, epsilon=1e-5)


def Interp(x, shape):
    ''' 对图片做一个放缩，配合Keras的Lambda层使用'''
    from keras.backend import tf as ktf
    new_height, new_width = shape
    resized = ktf.image.resize_images(x, [new_height, new_width],
                                      align_corners=True)
    return resized


def residual_conv(prev, level, pad=1, lvl=1, sub_lvl=1, modify_stride=False):
    lvl = str(lvl)
    sub_lvl = str(sub_lvl)
    names = ["conv"+lvl+"_" + sub_lvl + "_1x1_reduce",
             "conv"+lvl+"_" + sub_lvl + "_1x1_reduce_bn",
             "conv"+lvl+"_" + sub_lvl + "_3x3",
             "conv"+lvl+"_" + sub_lvl + "_3x3_bn",
             "conv"+lvl+"_" + sub_lvl + "_1x1_increase",
             "conv"+lvl+"_" + sub_lvl + "_1x1_increase_bn"]
    if modify_stride is False:
        prev = Conv2D(64 * level, (1, 1), strides=(1, 1), name=names[0],
                      use_bias=False)(prev)
    elif modify_stride is True:
        prev = Conv2D(64 * level, (1, 1), strides=(2, 2), name=names[0],
                      use_bias=False)(prev)

    prev = BN(name=names[1])(prev)
    prev = Activation('relu')(prev)

    prev = ZeroPadding2D(padding=(pad, pad))(prev)
    prev = Conv2D(64 * level, (3, 3), strides=(1, 1), dilation_rate=pad,
                  name=names[2], use_bias=False)(prev)

    prev = BN(name=names[3])(prev)
    prev = Activation('relu')(prev)
    prev = Conv2D(256 * level, (1, 1), strides=(1, 1), name=names[4],
                  use_bias=False)(prev)
    prev = BN(name=names[5])(prev)
    return prev



def short_convolution_branch(prev, level, lvl=1, sub_lvl=1, modify_stride=False):
    lvl = str(lvl)
    sub_lvl = str(sub_lvl)
    names = ["conv" + lvl+"_" + sub_lvl + "_1x1_proj",
             "conv" + lvl+"_" + sub_lvl + "_1x1_proj_bn"]

    if modify_stride is False:
        prev = Conv2D(256 * level, (1, 1), strides=(1, 1), name=names[0],
                      use_bias=False)(prev)
    elif modify_stride is True:
        prev = Conv2D(256 * level, (1, 1), strides=(2, 2), name=names[0],
                      use_bias=False)(prev)

    prev = BN(name=names[1])(prev)
    return prev


def empty_branch(prev):
    return prev


def residual_short(prev_layer, level, pad=1, lvl=1, sub_lvl=1, modify_stride=False):
    prev_layer = Activation('relu')(prev_layer)
    block_1 = residual_conv(prev_layer, level,
                            pad=pad, lvl=lvl, sub_lvl=sub_lvl,
                            modify_stride=modify_stride)

    block_2 = short_convolution_branch(prev_layer, level,
                                       lvl=lvl, sub_lvl=sub_lvl,
                                       modify_stride=modify_stride)
    added = Add()([block_1, block_2])
    return added


def residual_empty(prev_layer, level, pad=1, lvl=1, sub_lvl=1):
    prev_layer = Activation('relu')(prev_layer)

    block_1 = residual_conv(prev_layer, level, pad=pad,
                            lvl=lvl, sub_lvl=sub_lvl)
    block_2 = empty_branch(prev_layer)
    added = Add()([block_1, block_2])
    return added


def ResNet(inp, layers):
    '''构建ResNet'''
    # Names for the first couple layers of model
    names = ["conv1_1_3x3_s2",
             "conv1_1_3x3_s2_bn",
             "conv1_2_3x3",
             "conv1_2_3x3_bn",
             "conv1_3_3x3",
             "conv1_3_3x3_bn"]

    # Short branch(only start of network)

    cnv1 = Conv2D(64, (3, 3), strides=(2, 2), padding='same', name=names[0],
                  use_bias=False)(inp)  # "conv1_1_3x3_s2"
    bn1 = BN(name=names[1])(cnv1)  # "conv1_1_3x3_s2/bn"
    relu1 = Activation('relu')(bn1)  # "conv1_1_3x3_s2/relu"

    cnv1 = Conv2D(64, (3, 3), strides=(1, 1), padding='same', name=names[2],
                  use_bias=False)(relu1)  # "conv1_2_3x3"
    bn1 = BN(name=names[3])(cnv1)  # "conv1_2_3x3/bn"
    relu1 = Activation('relu')(bn1)  # "conv1_2_3x3/relu"

    cnv1 = Conv2D(128, (3, 3), strides=(1, 1), padding='same', name=names[4],
                  use_bias=False)(relu1)  # "conv1_3_3x3"
    bn1 = BN(name=names[5])(cnv1)  # "conv1_3_3x3/bn"
    relu1 = Activation('relu')(bn1)  # "conv1_3_3x3/relu"

    res = MaxPooling2D(pool_size=(3, 3), padding='same',
                       strides=(2, 2))(relu1)  # "pool1_3x3_s2"

    # ---Residual layers(body of network)

    """
    Modify_stride --Used only once in first 3_1 convolutions block.
    changes stride of first convolution from 1 -> 2
    """

    # 2_1- 2_3
    res = residual_short(res, 1, pad=1, lvl=2, sub_lvl=1)
    for i in range(2):
        res = residual_empty(res, 1, pad=1, lvl=2, sub_lvl=i+2)

    # 3_1 - 3_3
    res = residual_short(res, 2, pad=1, lvl=3, sub_lvl=1, modify_stride=True)
    for i in range(3):
        res = residual_empty(res, 2, pad=1, lvl=3, sub_lvl=i+2)
    if layers is 50:
        # 4_1 - 4_6
        res = residual_short(res, 4, pad=2, lvl=4, sub_lvl=1)
        for i in range(5):
            res = residual_empty(res, 4, pad=2, lvl=4, sub_lvl=i+2)
    elif layers is 101:
        # 4_1 - 4_23
        res = residual_short(res, 4, pad=2, lvl=4, sub_lvl=1)
        for i in range(22):
            res = residual_empty(res, 4, pad=2, lvl=4, sub_lvl=i+2)
    else:
        print("This ResNet is not implemented")

    # 5_1 - 5_3
    res = residual_short(res, 8, pad=4, lvl=5, sub_lvl=1)
    for i in range(2):
        res = residual_empty(res, 8, pad=4, lvl=5, sub_lvl=i+2)

    res = Activation('relu')(res)
    return res

python模块triton安装教程 2401_85863780 1024程序员节 triton whl
Triton是一个用于高性能计算的开源库，特别适用于深度学习和科学计算。通过预编译的whl文件安装Triton可以简化安装过程，尤其是在编译时可能会遇到依赖问题的情况下。以下是详细的安装步骤：安装前准备：Python环境：确保已经安装了Python，并且Python版本与whl文件兼容。pip：确保已经安装了pip，这是Python的包管理器，用来安装外部库。下载whl文件：从可靠的来源下载适用于
【机器学习】逻辑回归(LogisticRegression)原理与实战 GentleCP 机器学习(深度学习)逻辑回归 logistic regression 原理与实战机器学习
文章目录前言一、什么是逻辑回归1.1逻辑回归基础概念1.2逻辑回归核心概念二、逻辑回归Demo2.1数据准备2.2创建逻辑回归分类器2.3分类器预测三、逻辑回归实战3.1数据准备3.2数据划分与模型创建3.3预测数据评估模型四、参数选择五、总结六、参考资料本文属于我的机器学习/深度学习系列文章，点此查看系列文章目录前言本文主要通过文字和代码样例讲述逻辑回归的原理（包含逻辑回归的基础概念与推导）和实
《深度Q网络优化：突破高维连续状态空间的束缚》人工智能深度学习
在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。但当面对高维连续状态空间时，DQN会出现训练不稳定、收敛速度慢等问题，严重限制了其应用范围。如何优化DQN以适应高维连续状态空间，成为当下研究的热点。深度Q网络基础回顾深度Q网络结合了深度学习强大的特征提取能力与Q学习的决策优化思想。在传统强化学习中，Q学习通过Q表记录每个状态-动作对
智享AI直播三代系统，开启「机器人比人更会带货」时代！缘分开始t621238 人工智能机器人
智享AI直播三代系统，开启「机器人比人更会带货」时代！在当今数字化浪潮汹涌的时代，直播行业作为电商领域的重要驱动力，正经历着前所未有的变革。近日，智享AI直播三代系统的横空出世，宛如一颗重磅炸弹，在直播行业掀起了惊涛骇浪，正式开启了「机器人比人更会带货」的全新时代。一、技术革新，颠覆传统直播模式智享AI直播三代系统的诞生，标志着直播行业进入了智能化的新纪元。它融合了先进的人工智能技术，包括深度学习
自学黑客（网络安全），一般人我劝你还是算了吧网安周星星 web安全安全 windows 网络网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包文章讲述了自学网络安全时常见的误区，如先学编程、过度追求深度学习以及收集过多资料，并提供了前期学习的硬件、软件选择建议，强调了基础编程知识和英文能力的重要性。文中给出了详细的学习路线，包括基础操作入门、实战操作以及参加CTF和HVV等竞赛来提升技能，并推荐了一系列相关书籍和学习资源。一、自学网络安全学习的误区和陷阱1.不要试图先成为一
DQN的原理和代码实现 SmallerFL NLP&机器学习 DQN 强化学习深度学习
文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind于2013年提出。DQN结合了Q学习和深度学习，通过使用神经网络来近似Q值函数，解决了传统Q学习在高维状态空间中的问题。2.DQN的训练步骤2.1初始化环境：定义环境（例如，Atari游戏
深度学习基础知识 namelijink 深度学习人工智能
cuda简介：CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的一种并行计算平台和应用程序编程接口（API）。它允许开发人员利用NVIDIA的GPU（图形处理器）来加速各种计算任务，包括科学计算、机器学习、深度学习、数据分析等。NVIDIA是一个全球领先的计算技术公司，专注于设计和制造高性能计算设备。除了生产强大的GPU，NVIDIA还提供与其GPU
【python语言应用】最新全流程Python编程、机器学习与深度学习实践技术应用（帮助你快速了解和入门 Python）赵钰老师 python 机器学习深度学习 python 机器学习深度学习数据分析人工智能
近年来，人工智能领域的飞速发展极大地改变了各个行业的面貌。当前最新的技术动态，如大型语言模型和深度学习技术的发展，展示了深度学习和机器学习技术的强大潜力，成为推动创新和提升竞争力的关键。特别是PyTorch，凭借其灵活性和高效性，成为科研人员和工程师的首选工具。理解和掌握深度学习的基础知识，深入了解其与经典机器学习算法的区别与联系，并系统掌握包括迁移学习、循环神经网络（RNN）、长短时记忆网络（L
【Python深入浅出㊸】解锁Python3中的TensorFlow：开启深度学习之旅奔跑吧邓邓子 Python深入浅出 python 深度学习 tensorflow
目录一、TensorFlow简介1.1定义与背景1.2特点二、Python3与TensorFlow的关系2.1版本对应2.2为何选择Python3三、安装TensorFlow3.1安装步骤3.2验证安装四、TensorFlow基本概念与使用方法4.1计算图（Graph）4.2会话（Session）4.3张量（Tensor）4.4变量（Variable）4.5占位符（Placeholder）五、Te
【Java】已解决：java.util.concurrent.ExecutionException 屿小夏 java 开发语言 android
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
c++加载TensorRT调用深度学习模型方法 feibaoqq 深度学习深度学习 YOLO
使用TensorRT来调用训练好的模型并输出结果是一个高效的推理过程，特别是在需要低延迟和高吞吐量的应用场景中。以下是一个基本的步骤指南，展示了如何在C++中使用TensorRT进行推理。步骤1：准备环境安装TensorRT：确保你已经安装了NVIDIATensorRT库。准备模型：确保你的训练好的模型已经转换为TensorRT支持的格式，通常是一个.engine文件。你可以使用onnx-tens
点云从入门到精通技术详解100篇-基于 CBCT 与口内扫描数据的牙齿点云配准格图素书深度学习计算机视觉数学建模人工智能
目录前言国内外研究现状传统牙齿配准点云配准2牙齿数据的深度学习点云配准基础2.1牙齿数据获取方法2.1.1口腔印模2.1.2辐射成像2.1.3口内扫描2.2深度学习网络2.2.1全连接神经网络2.2.2卷积神经网络2.2.3孪生神经网络2.3点云数据配准基础2.3.1点云数据格式2.3.2点云旋转表达2.3.3传统点云配准方法3基于PCRNet的PCR-SA牙齿点云配准3.1CBCT-IOS牙齿配
Python深度学习代做目标检测NLP计算机视觉强化学习 matlabgoodboy 计算机视觉 python 深度学习
了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。1.Python深度学习代做概述目标检测：目标检测是计算机视觉中的一个重要任务，旨在识别图像或视频中的特定对象，并确定它们的位置。Python中的深度学习框架（如TensorFlow、PyTorch）和计算机视觉
基于深度学习YOLOv5的活体人脸检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 人工智能目标跟踪计算机视觉开发语言
一、前言随着人工智能技术的快速发展，计算机视觉（ComputerVision）已广泛应用于各种实际场景中，特别是在安全、金融、医疗等领域。人脸识别作为计算机视觉的一个重要应用，已经成为很多身份验证、安防监控、智能门禁等系统的核心技术。近年来，随着深度学习的突破，YOLO（YouOnlyLookOnce）系列算法因其高效、准确、实时的特点，广泛应用于物体检测任务。在实际的人脸识别应用中，活体人脸检测
【深度学习】计算机视觉（CV）-目标检测-SSD（Single Shot MultiBox Detector）—— 单次检测多框检测器 IT古董深度学习人工智能计算机视觉深度学习目标检测
SSD（SingleShotMultiBoxDetector）——单次检测多框检测器1️⃣什么是SSD？SSD(SingleShotMultiBoxDetector)是一种用于目标检测（ObjectDetection）的深度学习模型，由WeiLiu等人在2016年提出。它采用单阶段（SingleStage）方法，能够直接从图像中检测多个对象，并输出类别和边界框，比传统的两阶段方法（如FasterR
【深度学习】YOLO-World: Real-Time Open-Vocabulary Object Detection，目标检测 XD742971636 深度学习机器学习深度学习 YOLO 目标检测
介绍一个酷炫的目标检测方式：论文：https://arxiv.org/abs/2401.17270代码：https://github.com/AILab-CVC/YOLO-World文章目录摘要Introduction第2章相关工作2.1传统目标检测2.2开放词汇目标检测第3章方法3.1预训练公式：区域-文本对3.2模型架构3.3可重参数化的视觉-语言路径聚合网络（RepVL-PAN）3.4预训练
PyTorch入门实战：从零搭建你的第一个神经网络不打滑的西瓜皮机器学习深度学习人工智能神经网络 python pytorch pycharm
目录一、PyTorch简介：为什么选择它？二、环境搭建：5分钟快速安装三、核心概念：张量与自动求导1.张量（Tensor）：深度学习的数据基石2.自动求导（Autograd）：神经网络训练的核心四、实战：手写数字识别（MNIST）1.数据集加载与预处理2.构建卷积神经网络（CNN）3.训练与评估五、下一步学习建议一、PyTorch简介：为什么选择它？PyTorch是当前最热门的深度学习框架之一，由
超火的Deepseek的MOE架构是什么? 魔王阿卡纳兹大模型知识札记架构 DeepSeek MoE 大模型
DeepSeek的MOE（MixtureofExperts，混合专家）架构是一种基于专家模型（MixtureofExperts）的深度学习框架，旨在通过动态选择和激活部分专家模块来提高计算效率和模型性能。以下是对其核心特点和工作原理的详细介绍：1.核心概念与架构MOE架构的基本思想是将模型划分为多个“专家”模块，每个专家专注于处理特定类型的任务或数据特征。在推理时，通过门控机制（GatingMec
使用神经架构搜索（Neural Architecture Search, NAS）自动化设计高效深度学习模型的技术详解瑕疵热点资讯
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高效深度学习模型的技术详解使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高效深度学习模型的技术详解使用神经架构搜索（NeuralArchitectureSearch,NAS）自动化设计高
目标检测代码示例（基于Python和OpenCV） matlab_python22 计算机视觉
引言目标检测是计算机视觉领域中的一个核心任务，其目标是在图像或视频中定位和识别特定对象。随着技术的发展，目标检测算法不断演进，从传统的基于手工特征的方法到现代的深度学习方法，再到基于Transformer的架构，目标检测技术已经取得了显著的进步。本文将总结和对比几种主要的目标检测算法，探讨它们的优势、劣势和适用场景。1.目标检测算法分类1.1单阶段检测（One-Stage）与双阶段检测（Two-S
基于深度学习YOLOv8的海洋动物检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 目标检测人工智能开发语言
引言近年来，计算机视觉技术在各行各业中得到了广泛的应用，特别是在智能监控、自动驾驶、医疗诊断等领域。深度学习，尤其是卷积神经网络（CNN）的出现，极大地提高了计算机处理图像和视频的能力。在这一领域，YOLO（YouOnlyLookOnce）系列模型以其高效且准确的目标检测能力，成为了当下最为流行的深度学习模型之一。在海洋生物保护、海洋环境监测等应用中，快速识别和检测海洋动物种类对于科学研究和保护工
基于YOLOv5深度学习的木材表面缺陷检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
随着工业自动化的发展，木材加工行业对产品质量的要求日益提高。木材表面缺陷的检测是确保产品质量的重要环节。传统的人工检测方式不仅费时费力，而且容易受到人为因素的影响。基于深度学习的目标检测技术，尤其是YOLOv5，凭借其优越的实时性和准确性，成为木材表面缺陷检测的有效工具。本博客将详细介绍如何构建一个基于YOLOv5的木材表面缺陷检测系统，包括数据集准备、模型训练、UI界面开发及完整代码实现。目录目
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案） lusterku 动手学深度学习深度学习笔记线性回归
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）线性回归的从零开始实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练练习1.如果我们将权重初始化为零，会发生什么。算法仍然有效吗？2.计算二阶导数时可能会遇到什么问题？这些问题可以如何解决？3.为什么在`squared_loss`函数中需要使用`reshape`函数？4.尝试使用不同的学习率，观察损失函数值下
发文新思路！双通道CNN的惊人突破，准确率接近100%！沃恩智慧深度学习人工智能 cnn 人工智能神经网络
双通道CNN作为一种创新的卷积神经网络架构，正引领深度学习领域的新趋势。其核心优势在于并行卷积层设计，能够同时处理更多特征信息，从而显著提升模型的特征表示能力和识别精度。这种架构不仅提高了计算效率，还有效降低了过拟合风险，使其在复杂视觉任务中表现卓越。例如，最新的研究提出了一种名为DDTransUNet的混合网络，结合了Transformer和CNN的优势，通过双分支编码器和双重注意力机制，有效解
超级实用！一个基于python的简化版深度学习框架，包括深度学习神经网络的设计和深度学习模型的设计，适用于中小型项目的开发和实现大懒猫软件深度学习 python 神经网络 numpy pytorch 人工智能
一、运用Python技术开发深度学习框架需要具备的基础知识总结开发一个基于Python的深度学习框架是一个复杂的任务，需要具备多方面的基础知识。以下是一些关键领域的总结，帮助你更好地准备和理解开发深度学习框架所需的知识。1.Python编程基础语法和数据结构：掌握Python的基本语法、数据类型（如列表、字典、元组等）和控制流（如循环、条件语句等）。函数和模块：理解函数的定义和使用，以及如何组织代
详解AI作画算法原理 Jimaks 后端 AI python ai作画 python 人工智能
在艺术与科技的交汇处，AI作画正以惊人的创造力刷新着我们对美的认知。这一领域融合了深度学习、计算机视觉和生成模型的前沿技术，让机器能够“想象”并创作出令人惊叹的图像。本文将深入浅出地探讨AI作画的核心算法原理，分析常见问题与易错点，并通过一个简单的代码示例，带领大家一窥AI艺术创作的奥秘。一、核心概念与原理1.生成对抗网络（GANs）GANs是AI作画中最著名的算法之一，由IanGoodfello
用大模型学大模型02-数学基础微积分 wyg_031113 人工智能
https://metaso.cn/s/uxPBB9C我正在学习深度学习相关的数学知识,学到了微积分核心概念：导数（尤其是偏导数）、梯度、链式法则；积分与最优化（如梯度下降法的数学推导）给我一个入门级的完整教程和实例好吧，我现在需要帮用户整理一个关于深度学习中微积分核心概念的入门教程和实例。用户提到了导数、偏导数、梯度、链式法则，还有积分和优化比如梯度下降法。我得先理清楚这些概念之间的联系，然后结
用大模型学大模型03-数学基础概率论 wyg_031113 概率论人工智能
https://metaso.cn/s/Jp0OU9w提示词:我正在学习深度学习相关的数学知识，学到了概率论与统计学部分，给我一个入门级的完整教程和实例。好的，我现在需要回答用户关于深度学习所需的概率论与统计学入门教程和实例的问题。用户希望得到一个完整的教程和实例，所以我要从我搜索到的资料中整理出相关的知识点和学习路径，并结合实例说明。首先，查看证据中的相关内容。提到花书学习笔记，涵盖了概率论、信
焦损函数（Focal Loss）与RetinaNet目标检测模型详解人工智能
焦损函数（FocalLoss）与RetinaNet目标检测模型详解阅读时长：19分钟发布时间：2025-02-14近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】目前，精度最高的目标检测器大多基于由R-CNN推广的两阶段方法，即对稀疏的候选目标位置集应用分类器。相比之下，在规则、密集的可
python 并行框架_基于python的高性能实时并行机器学习框架之Ray介绍 weixin_39778582 python 并行框架
前言加州大学伯克利分校实时智能安全执行实验室(RISELab)的研究人员已开发出了一种新的分布式框架，该框架旨在让基于Python的机器学习和深度学习工作负载能够实时执行，并具有类似消息传递接口(MPI)的性能和细粒度。这种框架名为Ray，看起来有望取代Spark，业界认为Spark对于一些现实的人工智能应用而言速度太慢了;过不了一年，Ray应该会准备好用于生产环境。目前ray已经发布了0.3.0
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l