DFann

Semantic Segmentation--SegNet:A Deep Convolutional Encoder-Decoder Architecture..论文解读

title: Semantic Segmentation–SegNet:A Deep Convolutional Encoder-Decoder Architecture…论文解读
tags:

Object Detection
Semantic Segmentation
SegNet
categories: Paper Reading
date: 2017-11-10 16:58:36
mathjax: true
description: Semantic Segmentation - SegNet，代表性的Encoder-Decoder结构，创新之处在于使用Encoder下采样时池化索引来做Decoder上采样的指引.

Semantic Segmentation简介

在解读论文之前，先看看Semantic Segmentation这个topic是干啥的。

这里引用知乎的一个提问答案：Semantic Segmentation–知乎-周博磊

图1.image classification, object detection, semantic segmentation, instance segmentation之间的关系. 摘自COCO dataset

Semantic Segmentation的目的是在一张图里分割聚类出不同物体的像素(pixel). 目前的主流框架都是基于FCN的(即Fully Convolutional Neural Networks)．FCN区别于物体识别网络诸如AlexNet最主要的差别是逐像素预测(pixel-wise prediction)，即每个像素点都有个probability, 而AlexNet是一张图一个prediction．

Semantic Segmentation的其他典型代表还有诸如SegNet,Dilated Convolution Net ,deconvolutionNet等。这其中牵涉到deconvolution, dilated convolution, atrous convolution这几个概念的争论（可参考Dilated Convolutions and Kronecker Factored Convolutions介绍）．

Semantic Segmentation的不足在于：虽然把图片里人所在的区域分割出来了，但是本身并没有告诉这里面有多少个人，以及每个人分别的区域。而这个就跟instance segmentation联系了起来，如何把每个人的区域都分别分割出来，是比semantic segmentation要难不少的问题．基于semantic segmentation来做instance segmentation的论文，大家可以看看Jifeng Dai最近的几篇论文：1，2. 大致做法是在dense feature map上面整合个instance region proposal/score map/RoI, 然后再分割.

图2. Scene Parsing (MIT Scene Parsing Challenge 2016) from ADE20K dataset. 每张图的物体以及位置都标注

总结一下, instance segmentation其实是semantic segmentation和object detection殊途同归的一个结合点, 是个挺重要的研究问题. 非常期待后面能同时结合semantic segmentation和object detection两者优势的instance segmentation算法和网络结构.（Mask R-CNN等系列正在突破~~）

下面回归正题，SegNet论文解读~

SegNet论文解读

SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

收录：PAMI2017(IEEE Transactions on Pattern Analysis and Machine Intelligence)

原文地址：SegNet

实现代码:

github
TensorFlow

效果图

摘自Fate-fjh Blog:

Abstract

论文提出了一个全新的全卷积的Semantic Segmentation模型：SegNet。
模型主要由：编码网络(encoder network),解码网络(decoder network)和逐像素分类器(pixel-wise classification layer)组成。SegNet的新颖之处在于decoder阶段的上采样方式，具体来说，decoder时上采样使用了encoder阶段下采样的最大池化的索引(indices)。考虑到上采样是稀疏的，再配合滤波器产生最后的分割图。

SegNet在inference期间占用的存储量和计算时间相比于其他模型(FCN,DeepLab,etc)效果都比较好。官方提供的教程地址http://mi.eng.cam.ac.uk/projects/segnet.

Introduction

Semantic Segmentation常用于道路场景分割，大多数像素属于大类，需要平滑的分割，模型要能够依据形状提取物体，这需要保留好的边界信息，从计算的角度来考虑，需要有效的存储量和计算时间。而现有的Semantic Segmentation的问题在于：最大池化和下采样会降低feature map的分辨率(即降低feature map分辨率会损失边界信息)，SegNet针对这一问题设计了将低分辨率feature map映射到高分辨率的方法(利用池化索引)，从而产生精确边界的分割结果。

SegNet的encoder部分使用的是VGG16的前13层(即使用预训练的VGG16做特征提取层)，核心在于decoder部分，decoder对应encoder的每一层，decoder的上采样使用的时encoder下采样的索引，这样做有以下几个优点：

改善边界描述
减少end2end的训练参数
这样的形式可用于多种encoder-decoder架构

本文的主要贡献在于：

对比分析SegNet的decoder和FCN
在CamVid和SUN RGB-D上评估了模型

Related Work

传统的Semantic Segmentation方法：用随机森林(RF),Boosting等做类别的中心预测，用SfM提取特征，配合CRF提高预测精度。但是这些方法效果都不好，总结原因是这些方法都需要提高分类特征。

而近期深度卷积网络在分类问题上表现出色，考虑将深度网络应用到Semantic Segmentation上，例如：FCN，效果比传统方法好很多。有工作将RNN、条件随机场(CRF)引入配合decoder做预测，有助于提高边界描绘能力，并且指出了，CRF-RNN这一套可以附加到包括SegNet在内的任何深度分割模型。

现有的多尺度的深度神经网络架构的应用，常见两种形式：

将输入放缩为多个尺度得到相应的feature map
将一张图送到模型，得到不同层的feature map

**这些方法的共同想法都是使用多尺度信息将高层的feature map包含的语义信息与底层的feature map包含的精度信息融合到一起。**但是，这样方法参数多，比较难训练。(16年以后的方法都是这个方法，哈哈~)

Architecture

SegNet的网络结构如下图，总体由以下部分组成：

编码网络(encoder network):由13个卷积层组成(使用的时预训练的VGG16的前13层)，该部分提取输入特征，用于目标分类，这就是使用预训练的VGG原理所在，至于丢弃FC层是为了保持更高的分辨率，同时也减少了参数。
解码网络(decoder network):每个encoder会对应一个decoder，故decoder具有13层，将低分辨率的feature map映射回和输入一样大小分类器(mask).
像素分类层(pixelwise classification layer)：decoder的输出会送到分类层，最终为每个像素独立的产生类别概率

encoder network
Encoder network分为5个block，每个block由Conv+BN + MaxPooling组成，MaxPooling实现下采样操作，核长为2，步长为2.

因为使用的pre-train的VGG16模型的前13层，模型的参数会减少很多(FC层没了，参数少了很多)。当然这和原始的VGG16是有区别的，如上图。卷积层使用的是`Conv + Batch Norm + ReLU`结构。

decoder network

模型在encoder network时使用Pooling时会记录Pooling Indices(pooling前后的对应位置)，在decoder network会用前面记录的位置还原，这也是论文的创新之处。 decoder network同样也为5个block，每个block由Upsampling + Conv + BN组成，需要注意的decoder阶段是没有加非线性激活的(即没有ReLU)。

分类层
在decoder输出上加一个卷积层，卷积核个数为分类的通道数，即每个通道代表一类分割结果

网络细致结构可看后面代码分析~

decoder变体

SegNet-Basic: SegNet的较小版本，4个encoder和4个decoder，

encoder阶段是LRN + (Conv+BN +ReLU + MaxPool)x4 论文给出的时卷积不使用bias
decoder阶段是(UpPool+Conv+ BN)x4 + Conv(分割层)

卷积核大小一直使用的时 $7 \times 7$ ，最高层的feature map接收野是原图的 $106 \times 106$ 大小。

这里简单讲一下接收野怎么算的(这个我在SPPNet论文分析有笔记)：

对于池化层和卷积层公式为： $S_{rf} = ((S_{rf}-1)*Stride) + K_{size}$ 其中 $S_{rf}$ 是从高层feature向底层feature迭代计算， $S t r i d e$ 为步长， $K_{size}$ 为卷积核大小.

故从最高层的feature $1 \times 1$ 开始计算：

最终追到原图可以覆盖 $106 \times 106$ 大小.

Experiment

对比SegNet和FCN实现decoder

SegNet在UpPool时使用的是index信息，直接将数据放回对应位置,后面再接Conv训练学习。这个上采样不需要训练学习(只是占用了一些存储空间)。

FCN采用transposed convolutions策略，即将feature 反卷积后得到upsampling，这一过程需要学习，同时将encoder阶段对应的feature做通道降维，使得通道维度和upsampling相同，这样就能做像素相加得到最终的decoder输出.

这里对不同类型decoder的做了如下实验:

实验设置如下表：

设置	参数
数据集	CamVid
数据预处理	局部对比归一化，Shuffle
优化器	SGD，lr=0.1,momentum=0.9
batch	12
损失函数	交叉熵损失，配合类别加权损失
迭代次数	iter:1000 x epoch:33
实现工具	Caffe

结果如下：

横轴	参量

各种不同的变体	含义
Bilinear-Interpolation	上采样使用双线性插值，不需要学习，参数少，速度快，效果不是很好
SegNet-Basic	SegNet基础版本，4个encoder层和4个decoder层，decoder阶段每个上采样后都会通过相同通道数的 $7 \times 7$ 卷积核
SegNet-Basic-EncoderAddition	decoder阶段上采样后的feature，加上encoder对应阶段的feature，通过卷积核把通道数降下来
SegNet-Basic-SingleChannelDecoder	decoder阶段上采样后每个通道单独对应一个单通道的卷积核，这个参数少
FCN-Basic	FCN基础版，反卷积后加上encoder阶段通道降维的feature，得到最终输出
FCN-Basic-NoAddition	反卷积直接得到输出，不加encoder阶段的feature了
FCN-Basic-NoDimReduction	反卷积和加上encoder阶段不降维的feature，得到最终输出
FCN-Basic-NoAddition-NoDimReduction	没看懂~

度量标准	含义
全局准确率(global accuracy(G))	在数据集上总体的准确率
类平均准确率(class average accuracy ©)	平均每个类别的准确率
mean intersection over union (mIoU)	类平均IoU
BF	图像的F1测量平均值

其他参数	含义
$P a r a m s (M)$	可训练参数大
$\ multiplier$	feature map或index存储值
$\ time$	取50次前向时间的平均值

上述实验结果：

当encoder的所有feature都保存下来，即FCN-Basic-NoDimReduction，效果最佳。这主要体现在BF(语义轮廓描绘度量)值上.
当inference的存储受限时，可适当的减少feature通道，配合decoder可得到折中的效果
上采样学习是比单纯的双线性插值效果要好，这强调了学习decoder的必要性。
相比于FCN，SegNet有更少的内存利用率和更高效的计算。

CamVid & SUN RGB-D

在CamVid上与传统方法相比:

与使用CRF的方法相比，SegNet具有明显的竞争力，这显示了深层架构提取特征和映射准确平滑标签的能力。

与其他深层网络相比：

在SUN RGB-D上与其他深层网络相比:

效果还算可以~

Conclusion

模型主要在于decoder阶段的upsampling使用的时encoder阶段的pooling信息，这有效的提高了内存利用率，同时提高了模型分割率。但是吧，SegNet的inference相比FCN没有显著提升，这样end-to-end的模型能力还有待提升。

更值得学习的是这篇paper的整体写作架构~

代码分析

原本准备分析论文作者Alex Kendall在github上给出的Caffe-SegNet代码的。

考虑到现在用TensorFlow的比较多，就找了一个TF-SegNet版本(这是基于TensorFlow-SegNet改进的)。

注意：这里只看了SegNet-Basic版本的~

应用层定义

直接看AirNet-layer.py,这里实现了SegNet常用层，尤其是带index的上采样。

import numpy as np
import tensorflow as tf
FLAGS = tf.app.flags.FLAGS

def unpool_with_argmax(pool, ind, name = None, ksize=[1, 2, 2, 1]):
    """
       带index的上采样
       Unpooling layer after max_pool_with_argmax.
       Args:
           pool:   max pooled output tensor
           ind:      argmax indices 下采样的index
           ksize:     ksize is the same as for the pool
       Return:
           unpool:    unpooling tensor
    """
    with tf.variable_scope(name):
        input_shape = pool.get_shape().as_list()
        output_shape = (input_shape[0], input_shape[1] * ksize[1], input_shape[2] * ksize[2], input_shape[3])

        flat_input_size = np.prod(input_shape)
        flat_output_shape = [output_shape[0], output_shape[1] * output_shape[2] * output_shape[3]]

        pool_ = tf.reshape(pool, [flat_input_size])
        batch_range = tf.reshape(tf.range(output_shape[0], dtype=ind.dtype), shape=[input_shape[0], 1, 1, 1])
        b = tf.ones_like(ind) * batch_range
        b = tf.reshape(b, [flat_input_size, 1])
        ind_ = tf.reshape(ind, [flat_input_size, 1])
        ind_ = tf.concat([b, ind_], 1)

        ret = tf.scatter_nd(ind_, pool_, shape=flat_output_shape)
        ret = tf.reshape(ret, output_shape)
        return ret

最后的分类层:

def conv_classifier(input_layer, initializer):
    '''
    最后的分类层 输出的层数由FLAGS.num_class指定
    # output predicted class number (2)
    '''
    #all variables prefixed with "conv_classifier/"
    with tf.variable_scope('conv_classifier') as scope:
        shape=[1, 1, 64, FLAGS.num_class]
        kernel = _variable_with_weight_decay('weights', shape=shape, initializer=initializer, wd=None)
        #kernel = tf.get_variable('weights', shape, initializer=initializer)
        # 再卷积，每个通道对应一类分割结果
        conv = tf.nn.conv2d(input_layer, filter=kernel, strides=[1, 1, 1, 1], padding='SAME')
        biases = _variable_on_cpu('biases', [FLAGS.num_class], tf.constant_initializer(0.0))
        conv_classifier = tf.nn.bias_add(conv, biases, name=scope.name)
    return conv_classifier

Conv+BN组合层，BN层：

def conv_layer_with_bn(initializer, inputT, shape, is_training, activation=True, name=None):
    '''
        Conv+BN组合
    '''
    in_channel = shape[2]
    out_channel = shape[3]
    k_size = shape[0]

    with tf.variable_scope(name) as scope:
        kernel = _variable_with_weight_decay('weights', shape=shape, initializer=initializer, wd=None)
        #kernel = tf.get_variable(scope.name, shape, initializer=initializer)
        conv = tf.nn.conv2d(inputT, kernel, [1, 1, 1, 1], padding='SAME')
        biases = tf.Variable(tf.constant(0.0, shape=[out_channel], dtype=tf.float32),
                       trainable=True, name='biases')
        bias = tf.nn.bias_add(conv, biases)

        if activation is True: #only use relu during encoder
            conv_out = tf.nn.relu(batch_norm_layer(bias, is_training, scope.name))
        else:
            conv_out = batch_norm_layer(bias, is_training, scope.name)
    return conv_out

def batch_norm_layer(inputT, is_training, scope):
      return tf.cond(is_training,
            lambda: tf.contrib.layers.batch_norm(inputT, is_training=True,
                           center=False, decay=FLAGS.moving_average_decay, scope=scope),
            lambda: tf.contrib.layers.batch_norm(inputT, is_training=False,
                           center=False, reuse = True, decay=FLAGS.moving_average_decay, scope=scope))

权重衰减和变量存储设置：

def _variable_with_weight_decay(name, shape, initializer, wd):
    """ Helper to create an initialized Variable with weight decay.
        Note that the Variable is initialized with a truncated normal distribution.
        A weight decay is added only if one is specified.
    Args:
        name: name of the variable
        shape: list of ints
        stddev: standard deviation of a truncated Gaussian
        wd: add L2Loss weight decay multiplied by this float. If None, weight
            decay is not added for this Variable.
    Returns:
        Variable Tensor
    """
    var = _variable_on_cpu(name, shape, initializer)

    if wd is not None:
        weight_decay = tf.multiply(tf.nn.l2_loss(var), wd, name='weight_loss')
        tf.add_to_collection('losses', weight_decay)
    return var


def _variable_on_cpu(name, shape, initializer):
    """Helper to create a Variable stored on CPU memory.
    Args:
        name: name of the variable
        shape: list of ints
        initializer: initializer for Variable
    Returns:
        Variable Tensor
    """
    with tf.device('/cpu:0'):
    #dtype = tf.float16 if FLAGS.use_fp16 else tf.float32 #added this after, cause it was in cifar model
        var = tf.get_variable(name, shape, initializer=initializer)#, dtype=dtype)
    return var

模型定义

SegNet网络结构定义：inference.py

encoder部分：

文件的Basic版本关于encoder network:

def get_weight_initializer():
    if(FLAGS.conv_init == "var_scale"):
        initializer = tf.contrib.layers.variance_scaling_initializer()
    elif(FLAGS.conv_init == "xavier"):
        initializer=tf.contrib.layers.xavier_initializer()
    else:
        raise ValueError("Chosen weight initializer does not exist")
    return initializer


def inference_basic(images, is_training):
    """ 
      Args:
        images: Images Tensors (placeholder with correct shape, img_h, img_w, img_d)
        is_training: If the model is training or testing
    """
    initializer = get_weight_initializer()
    img_d = images.get_shape().as_list()[3]
    
    '''  encoder阶段  '''
    norm1 = tf.nn.lrn(images, depth_radius=5, bias=1.0, alpha=0.0001, beta=0.75,
                         name='norm1')
    conv1 = conv_layer_with_bn(initializer, norm1, [7, 7, img_d, 64], is_training, name="conv1")
    pool1, pool1_indices = tf.nn.max_pool_with_argmax(conv1, ksize=[1, 2, 2, 1],
                            strides=[1, 2, 2, 1], padding='SAME', name='pool1')

    conv2 = conv_layer_with_bn(initializer, pool1, [7, 7, 64, 64], is_training, name="conv2")
    pool2, pool2_indices = tf.nn.max_pool_with_argmax(conv2, ksize=[1, 2, 2, 1],
                            strides=[1, 2, 2, 1], padding='SAME', name='pool2')

    conv3 = conv_layer_with_bn(initializer, pool2, [7, 7, 64, 64], is_training, name="conv3")
    pool3, pool3_indices = tf.nn.max_pool_with_argmax(conv3, ksize=[1, 2, 2, 1],
                            strides=[1, 2, 2, 1], padding='SAME', name='pool3')

    conv4 = conv_layer_with_bn(initializer, pool3, [7, 7, 64, 64], is_training, name="conv4")
    pool4, pool4_indices = tf.nn.max_pool_with_argmax(conv4, ksize=[1, 2, 2, 1],
                            strides=[1, 2, 2, 1], padding='SAME', name='pool4')

可以看到上来就是一个LRN，做数据归一化（这里想吐槽的是VGG论文里面说LRN没啥用，这encoder用的还是VGG的结构，interesting_{），然后就是`Conv+BN+MaxPool`来4套，这里卷积核尺寸用的比较大，都是64个$7×7$。总的来说没啥新的东西}

dncoder部分：

关于decoder network:：

    """  End of encoder - starting decoder """
    unpool_4 = unpool_with_argmax(pool4, ind=pool4_indices, name='unpool_4')
    conv_decode4 = conv_layer_with_bn(initializer, unpool_4, [7, 7, 64, 64], is_training, False, name="conv_decode4")

    unpool_3 = unpool_with_argmax(conv_decode4, ind=pool3_indices, name='unpool_3')
    conv_decode3 = conv_layer_with_bn(initializer, unpool_3, [7, 7, 64, 64], is_training, False, name="conv_decode3")

    unpool_2 = unpool_with_argmax(conv_decode3, ind=pool2_indices, name='unpool_2')
    conv_decode2 = conv_layer_with_bn(initializer, unpool_2, [7, 7, 64, 64], is_training, False, name="conv_decode2")

    unpool_1 = unpool_with_argmax(conv_decode2, ind=pool1_indices, name='unpool_1')
    conv_decode1 = conv_layer_with_bn(initializer, unpool_1, [7, 7, 64, 64], is_training, False, name="conv_decode1")
    
    # 调用分类器
    return conv_classifier(conv_decode1, initializer)

decoder整体上就是UpPool+Conv_BN的反向组合4套，配合最后的分类层，整体上还算是好理解~

图像处理：模拟色差的生成何以为皇图像处理人工智能
图像处理：模拟色差的实战案例在做瓷砖瑕疵检测的过程中，需要检测色差。但在实际生产环境中，瓷砖色差检测的数据量较少，无法直接获取足够的数据来训练和优化深度学习模型。于是就考虑通过人为生成色差数据的方式来扩充数据集，进行色差的模拟。1.什么是色差？色差（ColorDifference）是指两种颜色之间的视觉差异。在色彩科学中，CIEDE2000是目前最先进的色差计算方法之一。然而，CIEDE1976也
python工具——pypinyin 汉字转换拼音 xiaoming0018 python python list
把汉字转成拼音后可以进行深度学习分类，做内容识别1.安装pipinstallpypinyin将汉字转换为拼音并生成slug字符串importpypinyinfrompypinyinimportStylecontent=pypinyin.slug('汉语拼音')print(content)#E:\python\>pythonpinyin.py#han-yu-pin-yin修改分隔字符串importp
淘系图搜API接入与使用全解析数据小爬虫.网站开发-Brad 各大电商平台api 国际平台API 1688 python 算法前端框架需求分析 AI编程
淘系图搜API接入与使用全解析一、接口概述淘系图搜API（即淘宝/天猫以图搜货接口）允许开发者通过上传商品图片，获取淘宝平台上的相似商品列表。其核心技术基于阿里巴巴的深度学习模型，支持服饰、家居、3C等多品类识别，广泛应用于比价、找同款、商品推荐等场景。二、接入准备资质要求：企业开发者需提供营业执照、应用场景说明（如“电商比价工具”）。个人开发者权限受限，建议通过第三方API服务商（如数位、Dat
深度学习革命背后：DBN、AlexNet、GAN 等神级架构，究竟藏着怎样的 AI 崛起密码？（附deepseek） universe_code 人工智能 python 深度学习经验分享
深度学习革命**3.深度学习革命（2006年至今）****2006年：深度学习奠基——深度信念网络（DBN）****2012年：AlexNet崛起****2014年：架构创新潮****生成对抗网络（GAN）****残差网络（ResNet）****Transformer****总结**补充（deepseek）一、核心技术原理1.**混合专家架构（MoE）**2.**多头潜在注意力（MLA）**3.*
整理：4篇论文知识蒸馏引领高效模型新时代 mslion 多模态人工智能知识蒸馏
知识蒸馏（KnowledgeDistillation）是当前机器学习研究中的一个重要方向，特别是在模型压缩和效率优化等任务中。传统的深度学习模型往往依赖于复杂的大型网络，以获取卓越的性能。然而，这些庞大的模型对计算资源和存储空间的需求，使得它们在实际应用中，尤其是在边缘设备或移动端部署中面临巨大挑战。知识蒸馏技术致力于解决这一问题，其核心思想是通过一个“教师模型”向一个更小、更高效的“学生模型”传
基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测人工智能 Roboflow YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战1.什么是Roboflow？2.创
RK3588 Linux板端推理时报错Segmentation fault解决办法 kennyooooo linux 目标检测 yolo 嵌入式硬件
目录问题解决生成core文件修改core文件存储路径Ubuntu20.04下的异常状况利用core文件进行调试问题最近在使用rk3588跑官方提供的yolov5模型demo，能够完成单张图片的目标检测，但是在运行视频流demo时，系统报错：segmentationfault(coredumped)此时没有再给出更多的报错信息，不太好debug，在网上阅读了一些博客现在整理一下。解决在Linux下遇
人工智能训练师如何做图像数据标注，从情感分析和实体分析两个个场景分析小宝哥Code 人工智能训练师人工智能
在人工智能训练中，图像情感分析和图像实体分析是两个重要的应用场景。高质量的图像数据标注对于训练情感识别模型和目标检测/语义分割模型至关重要。本指南将详细介绍：情感分析标注（EmotionAnalysis）实体分析标注（EntityRecognition）自动化标注工具Python代码示例数据格式与存储标注数据质量评估1.情感分析（EmotionAnalysis）标注1.1情感分析简介图像情感分析（
人工智能：从基础到前沿顾漂亮人工智能深度学习 windows
目录目录1.引言2.人工智能基础2.1什么是人工智能？2.2人工智能的历史2.3人工智能的分类3.机器学习3.1机器学习概述3.2监督学习3.3无监督学习3.4强化学习4.深度学习4.1深度学习概述4.2神经网络基础4.3卷积神经网络（CNN）4.4循环神经网络（RNN）5.自然语言处理（NLP）5.1NLP概述5.2文本预处理5.3词嵌入5.4语言模型6.计算机视觉6.1计算机视觉概述6.2图像
2025最新Python机器视觉实战：基于OpenCV与YOLOv8的实时目标检测与跟踪（附完整代码） emmm形成中 python opencv YOLO
2025最新Python机器视觉实战：基于OpenCV与YOLOv8的实时目标检测与跟踪（附完整代码）摘要：本文基于OpenCV与YOLOv8模型，实现实时目标检测与跟踪功能，支持多类别目标识别与运动轨迹绘制。代码兼容Python3.7+，步骤清晰且经过稳定性测试，适合中高级开发者参考。所有依赖库均为最新版本，确保运行流畅。一、环境准备安装依赖库pipinstallopencv-python==4
深度学习框架与边缘计算融合驱动医疗金融模型优化新路径智能计算研究中心其他
内容概要随着边缘计算与深度学习框架的深度融合，医疗与金融领域的模型优化正在突破传统算力与隐私保护的瓶颈。当前，TensorFlow、PyTorch等主流框架通过轻量化改造（如TensorFlowLite与PyTorchMobile）逐步适应边缘设备的资源限制，同时结合联邦学习技术构建分布式训练网络。这种技术协同不仅降低了医疗影像诊断中的数据传输延迟，还通过动态模型压缩策略（如量化与剪枝）将金融预测
人工智能学习框架静默.\\ 人工智能学习
人工智能学习框架概述随着人工智能技术的飞速发展，选择合适的机器学习或深度学习框架对于项目的成功至关重要。这些框架提供了强大的工具和库，使得开发者能够更高效地构建、训练和部署模型。目前市面上有许多流行的AI学习框架，每种框架都有其独特的特点和适用场景。首先，TensorFlow是由Google开发的一个开源机器学习框架，支持从简单的线性回归到复杂的神经网络等多种模型类型。它以其高度灵活性和可扩展性著
如何将DeepSeek集成到自己的项目中：从入门到精通木觞清人工智能
引言DeepSeek作为一款强大的深度学习平台，正在为开发者提供高效、灵活的AI解决方案。无论你是想构建一个图像分类系统，还是开发一个自然语言处理应用，DeepSeek都能帮助你快速实现目标。本文将详细介绍如何将DeepSeek集成到自己的项目中，并提供丰富的资源和示例代码，帮助你从入门到精通。为什么选择DeepSeek？在开始集成之前，我们先来看看DeepSeek的优势：高效的计算能力：支持GP
消融实验（Ablation Study）：模型优化的关键分析方法烟锁池塘柳0 深度学习人工智能计算机视觉深度学习
文章目录消融实验（AblationStudy）：模型优化的关键分析方法什么是消融实验？为什么要做消融实验？实验步骤典型实验案例案例1：图像分类模型案例2：目标检测模型实验结果解读要点消融实验的意义总结消融实验（AblationStudy）：模型优化的关键分析方法什么是消融实验？消融实验（AblationStudy）是机器学习领域用于评估模型组件有效性的重要研究方法。通过逐步移除模型的某些模块/特征
机器学习和深度学习有什么区别？ facaixxx2024 AI大模型机器学习深度学习人工智能
深度学习和机器学习有什么区别？深度学习是机器学习一个分支，机器学习包含深度学习。下面阿小云从定义、技术、数据需求、应用领域、模型复杂度和计算资源多维度来对比深度学习和机器学习的区别：二者的定义区别机器学习：是一种数据分析技术，通过算法使计算机能够在无明确编程的情况下进行学习和决策。深度学习：是机器学习的一个子领域，使用神经网络模型，尤其是深层神经网络模型，来处理、解释和分类数据。依赖算法和技术不同
AI趋势下，软件测试工程师怎么拥抱AI 悠然的笔记本人工智能
在AI趋势下，软件测试工程师怎么拥抱AI呢？以下是我的一些思考：一、掌握AI基础知识软件测试工程师需要学习机器学习、深度学习、自然语言处理等领域的基本原理和算法。这些基础知识有助于理解AI在测试中的应用基础，从而能够更好地利用AI技术提升测试效率和质量。二、掌握AI相关工具和技术编程语言：学习使用Python等编程语言，这是实现AI应用的常用工具之一。框架：掌握TensorFlow、PyTorch
深度学习之图像回归（二） zhengyawen666 深度学习回归数据挖掘人工智能
前言这篇文章主要是在图像回归（一）的基础上对该项目进行的优化。（一）主要是帮助迅速入门理清一个深度学习项目的逻辑这篇文章则主要注重在此基础上对于数据预处理和模型训练进行优化前者会通过涉及PCA主成分分析特征选择后者通过正则化数据预处理数据预处理的原因思路链未经过处理的原始数据存在一些问题->对数据进行处理（涉及多种方法）->提升模型性能数据可能存在的问题冗余信息：数据中可能存在重复的特征或高度相关
VGG 改进：加入GAMAttention注意力机制提升对全局信息捕捉能力听风吹等浪起 AI 改进系列深度学习 cnn 神经网络人工智能
目录1.GAMAttention注意力机制2.VGG加入GAMAttention模块3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.GAMAttention注意力机制GAMAttention（GlobalAttentionMechanism）是一种用于增强深度学习模型对全局信息捕捉能力的注意力机制。它通过引入全局上下文信息，帮助模型更好地理解输入数据
【深度学习】矩阵的理解与应用大数据追光猿深度学习矩阵算法线性代数机器学习 python 深度学习
一、矩阵基础知识1.什么是矩阵？矩阵是一个数学概念，通常表示为一个二维数组，它由行和列组成，用于存储数值数据。矩阵是线性代数的基本工具之一，广泛应用于数学、物理学、工程学、计算机科学、机器学习和数据分析等领域。1.1矩阵的表示一个矩阵通常用大写字母来表示，例如AAA，而矩阵中的元素则用小写字母来表示，例如aija_{ij}aij，其中iii表示行索引，jjj表示列索引。本质：矩阵是二维的张量矩阵的
Python中常见库 PyTorch和Pydantic 讲解爱丫爱 python pytorch 开发语言
PyTorch简介PyTorch是一个开源的深度学习框架，由Facebook的AI研究团队开发。它提供了丰富的工具和库，用于构建和训练各种深度学习模型，如卷积神经网络（CNN）、循环神经网络（RNN）及其变体（如LSTM、GRU）、生成对抗网络（GAN）等。核心特性动态计算图：PyTorch采用动态计算图，这意味着在运行时可以动态定义和修改计算图，使得模型的构建和调试更加灵活。这与TensorFl
计算机视觉CV学习路线我喝AD钙我的学习笔记计算机视觉学习人工智能
计算机视觉CV学习路线1.基础准备（可参考mooc学习）2.计算机视觉基础知识（可参考mooc学习、计算机图形学）3.经典计算机视觉算法（可参考吴恩达机器学习课程、国内外计算机图形学课程）4.深度学习基础（参考吴恩达和TF、Keras官网手册）5.深度学习在计算机视觉中的应用（李飞飞课程、arxiv论文原文和解析博客，实战参考gitee/github）6.现代计算机视觉技术（arxiv论文原文和解
【深度学习基础模型】去噪自编码器 (Denoising Autoencoders, DAE)详细理解并附实现代码。 985小水博一枚呀深度学习学习笔记深度学习人工智能 VAE python 学习 autoencoder
【深度学习基础模型】ExtractingandComposingRobustFeatureswithDenoisingAutoencoders【深度学习基础模型】ExtractingandComposingRobustFeatureswithDenoisingAutoencoders文章目录【深度学习基础模型】ExtractingandComposingRobustFeatureswithDeno
深入探索Mozilla的DeepSpeech：语音识别的新里程碑温宝沫Morgan
深入探索Mozilla的DeepSpeech：语音识别的新里程碑项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeech项目简介是一个开源的语音识别引擎，基于深度学习技术，致力于提供准确、可扩展且易于集成的解决方案。该项目的目标是打破现有的语音识别壁垒，使开发者能够轻松构建支持语音的应用，推动人机交互进入新的时代。技术分析基于Baidu的DeepSpeec
【深度学习】Adam优化器九筠机器学习深度学习人工智能
目录1什么是Adam1.1基本概念1.2Adam的数学理解1.2.1计算一阶矩估计（mean）1.2.2计算二阶矩估计（uncenteredvariance）1.2.3矫正一阶矩估计（mean）和二阶矩估计（uncenteredvariance）的偏差1.2.4更新模型参数1.3Adam的简单理解2Adam优化算法怎么用2.1导入所需的库和模块2.2定义模型和损失函数2.3定义优化器2.4在训练循
计算机视觉与深度学习实战：以Python为工具，基于帧间差法进行视频目标检测好知识传播者 Python实例开发实战计算机视觉深度学习 python 基于帧间差法进行视频目标检测
一、引言随着科技的飞速发展，计算机视觉和深度学习已成为当今科技领域的热门话题。它们不仅在科研领域取得了显著的成果，而且在安防监控、智能交通、医疗影像分析、工业自动化等领域得到了广泛的应用。本文旨在探讨计算机视觉与深度学习的实战应用，特别是以Python为工具，基于帧间差法进行视频目标检测的方法。二、计算机视觉概述计算机视觉是一门研究如何使机器从数字图像或视频中提取、分析和理解有用信息的学科。它涉及
基于深度学习的入侵检测系统设计与实现 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于深度学习的入侵检测系统设计与实现关键词：深度学习、入侵检测、网络安全、机器学习、神经网络、特征提取、实时分析文章目录基于深度学习的入侵检测系统设计与实现1.背景介绍1.1网络安全的重要性1.2传统入侵检测系统的局限性1.3深度学习在安全领域的应用前景2.核心概念与联系2.1入侵检测系统（IDS）概述2.2深度学习基础2.3深度学习在入侵检测中的应用3.核心算法原理&具体操作步骤3.1算法原理概
【大模型应用开发动手做AI Agent】大模型就是Agent的大脑杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
【大模型应用开发动手做AIAgent】大模型就是Agent的大脑关键词：大模型,AIAgent,智能决策,任务导向,知识表示,交互式学习,混合智能1.背景介绍1.1问题由来随着人工智能(AI)技术的发展，尤其是深度学习和自然语言处理(NLP)技术的进步，越来越多的应用场景开始采用AI模型来解决复杂的决策问题。然而，当前的AI模型大多依赖于大模型的预训练知识，这些模型虽然在通用知识获取上取得了显著进
2025最新Python机器视觉实战：基于OpenCV与深度学习的多功能工业视觉检测系统（附完整代码） emmm形成中 python opencv 深度学习
2025最新Python机器视觉实战：基于OpenCV与深度学习的多功能工业视觉检测系统（附完整代码）摘要：本文基于OpenCV与深度学习模型，实现一个多功能工业视觉检测系统，包含缺陷检测、尺寸测量、颜色识别、OCR文本识别、目标分类与数据可视化等功能。代码兼容Python3.7+，功能丰富且经过稳定性测试，适合工业场景应用。所有依赖库均为最新版本，确保运行流畅。一、环境准备安装依赖库pipins
航电系统智能诊断深度实战：从硬件集成到DO-178C认证全流程解析（附工业级代码） Coderabo DeepSeek R1模型企业级应用航电系统智能诊断
航电系统智能故障诊断全栈技术解析——基于深度学习的工业级实现指南一、航电系统故障诊断技术体系1.1典型故障模式与特征classAvionicFault:FAULT_TYPES={101:'总线通信故障',102:'传感器漂移',
直播美颜SDK的底层技术解析：图像处理与深度学习的结合美狐美颜sdk 美颜API 直播美颜SDK 美颜SDK 图像处理深度学习人工智能美颜API 视频美颜SDK 直播美颜SDK 滤镜sdk
直播美颜SDK通过高效的图像处理技术和深度学习算法，使得用户在直播过程中可以获得更为自然、精致的美颜效果。本文将深入解析直播美颜SDK的底层技术，探讨图像处理与深度学习如何在这一领域实现完美结合，提升用户体验并推动行业创新。一、直播美颜SDK的基本概述图像处理是直播美颜SDK的核心技术之一，它主要负责对图像进行预处理、特征提取以及美颜效果的实时合成。在直播美颜SDK中，图像处理技术包含多个关键步骤
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&