猪猪的珠珠

医学图像分割新网络：Boundary-aware Context Neural Network for Medical Image Segmentation

文章目录

摘要
一、引言及相关方法
二、本文主要方法

2.1 总体介绍
2.2 Pyramid Edge Extraction Module
2.3 Mini Multi-Task Learning Module
2.4 Cross Features Fusion Module
2.5 Decoding and Optimization

三、实验

3.1 医学图像数据集介绍
3.2 参考模型
3.3 评价指标
3.4 与SOTA的实验对比

四、结论

医学图像分割新网络：Boundary-aware Context Neural Network for Medical Image Segmentation_第1张图片

作者团队：中国科学院&中国科学技术大学

摘要

BA_Net：医学图像语义分割网络：在多个数据集上，表现SOTA！医学图像分割对于进一步的医学图像分析和疾病诊断提供了一个可信赖的基础。近年来，随着卷积神经网络的发展，医学图像分割取得了很大的进展，但是，基于CNN的方法在目标的边界处并没有达到理想的分割效果。这是由于上下文信息的局限以及经过卷积和池化之后的特征图不具有充足的判别力所造成的的。医疗图像的特点是具有很高的类内差异性，以及类间的区分不明及噪声。因此如何提取有效的上下文信息以及如何聚合区分不明的特征对于精细的分割仍是一个很大的挑战。
在这篇文章中，作者提出了BA-Net，一种用于2D医疗图像分割的方法，捕捉了更丰富的上下文信息，提供了更有效的空间信息。BANet采用了encoder-decoder的结构。在每个encoder阶段，应用了金字塔边缘提取模块。然后作者设计了一个mini的多任务学习模块用于联合学习分割目标的mask和检测病变边缘。特别的是，为联合两个任务。提出了一种新的交互式注意力模块，有效利用了边界信息，为分割预测提供了有力的线索信息。最后，提出了一个特征聚合模块，用于选择性的聚合encoder模块的多级特征。通过级联以上三个模块，在每个阶段中都编码了足够的上下文信息和精细化的特征。实验结果表明，该方法在五个数据集中都达到了SOTA。

一、引言及相关方法

图像分割在医疗图像分析中具有重要的作用，旨在对每个像素进行分类，并得到精细化的病变区域识别。近年来，随着医疗图像技术和设备的发展和普及，超声、MRI、CT及其他设备对于疾病的诊断提供了有效的手段。这些技术已经广泛应用到日常的医疗研究和诊断治疗中。对于不同种类的医疗设备，图像是一种重要的图像分析手段，比如肺部图像分割。精确的病检测对于医学诊断提供了重要且可靠的参考价值。
随着医学图像数量的增加以及AI技术的发展，计算机辅助诊断成为一种重要的手段，然而自动的病变（器官或是组织）识别仍是一个复杂且极富挑战性的工作。
首先，病变区域具有不同的尺寸和形状。对于某些疾病，不同的个体差异增加了识别的难度。

上图所示分别为皮肤病变和结肠息肉。
其次是，对于病变组织和背景之间的低区分性也带来了很大的挑战，尤其是，需要关注的区域同时包含着复杂的组织和器官，这对于区分边界像素带来了极大的困难。除此之外，某些设备和图像的噪声对于精确的分割也具有一定的阻碍。
在过去的数十年间，提出了很多的医疗图像分割的自动处理分析算法，主要可以分为三类：

基于灰度图像的；
基于纹理的；
基于atlas-based，翻译为地图集，也就是人工标记的图像。
虽然这些方法已经取得了很好的效果，但仍有以下几点不足：
传统方法通常会利用低维的手工设计的特征，通常会限制复杂场景的预测表现，同时，大量的可利用的原始图像信息被忽略了；
鲁棒性低，依赖于有效的数据预处理。
近年来，随着卷积神经网络的发展，大多数医学图像分割方法采用encoder-decoder的网络结构，其中，最具代表性的即UNet和FCN。为了有效的识别目标，提取及聚合高维语义特征和低维特征是很有必要的。
受以上分析的启发，本文提出了一种新颖的基于边界已知BA-Net的医学图像分割方法，

二、本文主要方法

2.1 总体介绍

如下图所示，BA-Net采用encoder-decoder的网络结构，并且在backbone阶段采用Resnet（使用ImageNet进行预训练）。在encoder结构中，ResNet中的最后一个全局池化层及全连接层被去掉了，近保留一个卷积和四个残差模块用于主要的特征提取作用。不失普遍性的，对于每张输入图像，将四个残差block的输出分别表示为 $F_i$ , $i\in{1,2,3,4}$ .
为了增加感受野，最后两个残差模块中使用的空洞卷积，空洞系数为2，并且保留与前一层模块相同的空间像素，因此，每个模块的输出尺寸为输入尺寸的 $1 / 4, 1 / 8, 1 / 8, 1 / 8$ 。此外，在最后一个残差模块的上层特征图中应用了ASPP即空洞空间金字塔池化模块用于编码和捕捉多尺度特征。ASPP模块包含四个并行的具有不同空洞系数的空洞卷积和一个全局平均池化，主要用于压缩和合并特征图。为了产生更丰富的上下文信息，用于解码过程的引导，本文增加了三个模块用于挖掘同一水平的特征以及聚合不同水平的特征在每个encoder阶段。

PEE（Pyramid edge extraction）金字塔边缘提取模块用于聚合不同尺寸的边缘信息；
MTL（mini Multi-task learning module）mini多任务学习模块，通过利用相关边缘检测和分割任务中的潜在的关联信息和辅助性特征来得到更加丰富的知识信息。
CFF（Cross feature fusion）交叉特征融合模块，聚合不同level之间的特征。
最后，在decoder部分，通过聚合ASPP模块的不同输出 $D_i, i\in{1, 2, 3, 4}$ ，然后依次对每个阶段的编码特征进行最后的分割预测。
.

2.2 Pyramid Edge Extraction Module

病变区域的边缘对于分割目标的位置提供了重要的信息。然而，该边缘也是非常复杂和多变的，为了得到一个鲁棒的边缘信息，本文设计了一个简单却有效的特征提取组合，能够挖掘不同尺寸的边缘特征。如上图所示，首先使用一个 $1 X 1$ 的卷积压缩backbone中每个阶段的最后一个残差模块，并将他们作为PEE模块的输入，定义如下：

其中， $F^{\prime}_i$ 表示每个残差模块的缩减后的特征图，函数表示 $1 X 1$ 的卷积运算， $\theta_i$ 表示分别的参数，通过减去不同尺寸的的平均池化后的value值，得到不同尺寸粒度的边缘特征，不失一般性的，定义 $S$ 为池化操作：

其中， $F^{(s)}_{i,p}$ 表示当前第 $i$ 阶段的使用 $s$ 个池化操作的边缘特征，并且， $avg_{s}$ 表示相关平均池化操作。为了整合得到的金字塔边缘特征，本文通过concat操作进行特征聚合，最后使用 $1 X 1$ 的卷积进行组合。

其中， $C$ 表示concat过程， $F_{i,p}$ 表示PEE模块的输出特征图， $\theta_{i,p}$ 表示相关参数。通过设计这样一个具有多尺度的特征聚合模块，可以增强对应level的表示能力。

2.3 Mini Multi-Task Learning Module

来自于目标边缘的额外信息可以帮助判断目标的形状，并且，语义分割和边缘检测具有很强的依赖关系。基于这个观点，本文提出一个mini的多任务学习网络mini-MTL，将其嵌入在每个阶段中，这样可以不需要引入过多的参数即可进行分割和边缘检测。这个mini-MTL模块的主要作用是通过潜在的关联来得到一定的效果增益。如上图所示，这个多任务网络包含两个主要组成部分：the task specific branch 和 interactiv attention layer。每个branch包含两个卷积层和一个上采样层。卷积操作主要用来编码任务相关的特征，上采样层是用来得到对应预测的mask。在第 $i$ 阶段，PEE模块的特征图 $F_{i,p}$ 是作为两个子任务的输入，用于提取同时相关任务的特征。

其中 $F^{l}_{i,\epsilon}$ 和 $F^{l}_{i,S}$ 表示边缘提取子任务和分割子任务中提取的第 $l$ 层特征图， $l\in{1,2}$ 。另外，交互式的注意力模块(IA)被设计在第一层卷积中，用于挖掘不同任务之间的交互信息。
如下图所示，为了整合其他任务的有效信息，本文设计了一个简单却有效的交互式注意力整合方法。以边缘特征整合为例，首先利用一个sigmoid函数得到一个权重mask，即表示当前边缘特征的重要位置。然后对注意力权重取反，即得到另一个任务的权重注意力mask。最后，我们可以从分割特征中选择性的发送有用的信息到当前的边缘特征中，通过逐像素的相乘操作。

这里，边缘特征图和分割特征图均以二值化的形式表示，loss函数均采用二值交叉熵损失函数：

以上分别表示边缘检测和分割两个子任务的损失函数。

其中， $P_j$ 和 $G_j$ 表示第 $j$ 个像素的预测边缘特征图和Ground truth。 $N$ 表示像素的数量，因此总体loss可表示如下：

2.4 Cross Features Fusion Module

在encoder部分，低层特征具有蜂丰富的空间信息，高层特征具有丰富的语义信息。为了能够同时利用空间结构的细节特征和语义特征，本文提出了一个CFF（cross feature fusion module），能够选择性的聚合高层和低层特征。如下图所示：

其中，对于第 $i$ 个特征图 $F_{i,M}$ ，CFF模块自适应的从多个输入特征中选择互补的内容，通过以下注意力机制：

$\sigma$ 表示sigmoid激活函数， $\bigotimes$ 表示逐像素相乘，因此，来自于不同level的特征通过CFF模块整合起来，而且能够避免引入过多的信息。

2.5 Decoding and Optimization

通过在encoder阶段级联以上三个模块，丰富的上下文信息和精细化的特征被编码进来。在decoder网络中，通过聚合ASPP模块的输出特征和每个阶段在的编码特征得到解码特征 $D_i,i\in{1,2,3,4}$ :

其中， $D_i$ 表示每个阶段的编码特征， $F$ 表示 $1 X 1$ 卷积， $\theta_{i,D}$ 表示相应的参数。
在整个网络中，利用的标准的二值交叉熵损失函数来最小化误差。在端到端的训练过程中，完整的损失函数定义如下：

其中， $L_D$ 表示decoder部分的损失， $\lambda_i$ 表示平衡系数。

三、实验

3.1 医学图像数据集介绍

为验证本文方法，在五个医学图像数据集中进行了实验验证，包括皮肤镜像图、内窥镜图、X射线图和视网膜眼底图像。包括以下五个数据集：

ISIC-2017,皮肤镜像图像，2000张训练集图像，600张测试集图像，图像尺寸为540x722到4499x6748不等；
Kvasir-SEG，1000张息肉图像；
CVC-ColonDB，包含380张结肠镜图像，尺寸为574x500;
SZ -CXR ,包含566张X射线图像；
RIM-ONE-R1，包含169张视网膜眼底图像。

3.2 参考模型

本文中，与当前六个SOTA模型进行了实验对比，包括FCN、U_net、MultiResUNet、AG-net、CE-Net以及DeeplabV3. 为进行公平的实验对比，对比方法采用作者开源代码。所有的实验采用相同的数据预处理，并且使用相同的评价指标。

3.3 评价指标

评价指标包括 Dice Similarity Coefficient (DI), Jaccard Index(JA), Accuracy (AC), ensitivity (SE) and Specificity (SP)。

3.4 与SOTA的实验对比

通过与上述多个SOTA医学图像分割方法在五个数据集进行实验对比，下表表明，本文方法在不同数据集上均达到很好的分割效果。

下图所示为本文方法与其他SOTA的医学图像分割方法的分割可视化效果图，从图中可以看出，本文方法相对来说，分割精度更高，尤其是在边缘处的分割更加精确。

四、结论

本文提出了BA-Net网络，用于医学图像分割，通过本文方法，提取了更加丰富的上下文信息，网络结构中使用了三个级联的新颖模块，在五个数据集上均达到了SOTA。

你可能感兴趣的:(图像分割,计算机视觉,图像识别)

基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
遥感图像分割系统：融合空间金字塔池化（FocalModulation)改进YOLOv8 xuehaisj YOLO 人工智能计算机视觉 yolov8
1.研究背景与意义项目参考AAAIAssociationfortheAdvancementofArtificialIntelligence研究背景与意义遥感图像分割是遥感技术领域中的一个重要研究方向，它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感图像数据的大规模获取，遥感图像分割在农业、城市规划、环境监测等领域具有广泛的应用前景。然而，由于遥感图像的特
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
SAM2：环境安装&代码调试要养家的程序猿 AI算法 python 算法 ai 人工智能科技
引子时隔大半年，SAM2代终于来了，之前写过一篇《SegmentAnything（SAM）环境安装&代码调试》，感兴趣童鞋请移步SegmentAnything（SAM）环境安装&代码调试-CSDN博客，OK，让我们开始吧。一、模型介绍Meta公司去年发布了SAM1基础模型，已经可以在图像上分割对象。而最新发布的SAM2可用于图片和视频，并可以实现实时、可提示的对象分割。SAM2在图像分割准确性方面
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
机器学习引领未来：赋能精准高效的图像识别技术革新刷刷刷粉刷匠机器学习人工智能
图像识别技术近年来取得了显著进展，深刻地改变了各行各业。机器学习，特别是深度学习的突破，推动了这一领域的技术革新。本文将深入探讨机器学习如何赋能图像识别技术，从基础理论到前沿进展，再到实际应用与挑战展望，为您全面呈现这一领域的最新动态和未来趋势。1.引言在当今数字化和智能化的时代，图像识别技术正逐渐成为人工智能（AI）领域的核心组成部分。随着计算能力的提升和数据量的激增，机器学习特别是深度学习的快
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
halcon第九讲，深度学习结合大数据实现AI智能识别思想青莲居士_村长
人工智能、大数据、5G1、什么是人工智能、大数据、5G,三者有什么关联。人工智能（ArtificialIntelligence）：英文缩写：AI，人工智能是[计算机]科学的一个分支，它企图了解智能的实质，并生产出一种新的能以[人类智能]相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和[专家系统]等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他