几夏经秋

Transformer论文阅读（二）：Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation 【用于医学图像分割的Unet形的纯Transformer】

Abstract
1 Introduction
2 Realted work
- 2.1 CNN-based methods
- 2.2 Vision transformers
- 2.3 Self-attention/Transformer to complement CNNS
3 Method
- 3.1 Architecture overview
- 3.2 Swin Transformer block
- 3.3 Encoder
- 3.4 Bottleneck
- 3.5 Decoder
- 3.6 Skip connection
4 Experiments
- 4.1 Datasets
- 4.2 Implementation details
- 4.3 Experiment results on Synapse dataset
- 4.4 Experiment results on ACDC dataset
- 4.5 Ablation study
- 4.6 Discussion
5 Conclusion

Abstract

【前面阅读过不少混合结构，这篇纯Transformer结构是否参照swin-transformer？】

介绍大背景，Transformer结构为啥走进CV
- 在过去的很多年里，卷积神经网络CNN已经达到了医学图像分析中的里程碑，特别是基于U形结构和跳跃连接深度神经网络，这种结构已经被广泛的应用在各种医学图像任务中。【大背景CNN在医学影像中几乎存在统治地位】
- 然而，虽然CNN取得了惊人的性能，但是由于卷积算子的局部性，它不能很好的学习全局和长程语义信息的相互作用【这里就是本文大的出发点，CNN存在这样的问题，但是这个问题可以被transformer解决】
介绍本文将要提出的Transformer模型
- 在本文中，我们提出了Swin-Unet，它是一个用于医学图像分割的Unet形的纯Transformer。
  - 标记化图像块（tokenized patches）被送入到带有跳跃连接的基于Transformer的U形编码解码结构，来实现局部-全局特征的学习。
  - 特别地：我们使用带有滑动窗口的分层Swin Transformer 作为编码器来提取上下文特征，一个对称的带有块扩展层的基于Swin Transformer的解码器被设计用来执行上采样操作，通过上采样操作来恢复特征图的空间分辨率。
  - 输入和输出的直接下采样和上采样为4x
介绍这个模型的性能
- 在多器官和心脏分割任务上的实现证明：
  - 基于纯Transformer的U形编码解码网络优于那些全部使用卷积或者Transformer与CNN结合的方法。【大致意思就是我的纯Transformer干掉了混合结构和纯CNN】
  - 代码开源，代码地址：https://github.com/HuCaoFighting/Swin-Unet

1 Introduction

介绍医学影像分割的发展
- 得益于深度学习的发展，计算机视觉技术已经被广泛应用于医学图像分析中。
- 图像分割是医学图像分析中的重要部分，特别地，准确和鲁棒地医学图像分割在计算机辅助诊断和影像引导临床手术的基石
介绍现行医学图像分割方法
- 现行的医学图像分割方法主要依赖于具有U形结构的全卷积神经网络（FCNN)，典型的U形结构有 U-Net，由一个具有跳跃连接的堆成的编码解码结构组成。
  - 在编码器，一系列的卷积层和持续的下采样层被用来提取大感受野的深度特征。
  - 在解码器，解码器上采样提取到的特征至输入分辨率大小进行像素级语义预测。
  - 来自编码器不同尺度的高分辨率特征被使用跳跃连接的方式进行融合，以减轻由于下采样造成的空间信息的损失，
- 正因为如此优美的结构设计，U-Net在多种医学图像应用中取得了巨大的成功，遵循这种技术路线，很多算法被开发出来用于各种医学影像模态的图像和体素分割，比如3D U-Net, Res-UNet,U-Net++，UNet3+等
- 这些基于FCNN的方法在心脏分割、器官分割和病变分割中的优异性能证明了CNN具有很强的学习鉴别特征的能力。
介绍Transformer in Vision
- 最近，虽然基于CNN的方法在医学图像分割领域取得了极佳的性能，但是它们仍然不能完全满足医学应用当中对分割准确率的严格要求。
- 在医学图像分析中图像分割仍然是一个挑战性的任务
  - 因为卷积算子固有的局部性，对于基于CNN的方法学习明确的全局和长程语义信息相互作用是困难的。一些研究使用空洞卷积层，自注意力机制，图像金字塔等策略来解决这个问题。然而这些方法在建模长程依赖上仍然有局限性。
- 最近，受到Transformer在自然语言处理领域取得重大成功的启发，研究者开始尝试将Transformer带入视觉领域。
  - VIT被提出来进行图像分类任务，使用具有位置嵌入的2D图像块作为输入，并在大规模数据集上进行预训练，相比基于CNN的方法，VIT取得了竞争性的性能。
  - DeiT表明Transformer可以被训练在中等规模的数据集上，通过结合知识蒸馏可以获得一个更加鲁棒的Transformer。【知识蒸馏+Transformer】
  - 分层的Swin-Transformer 作为视觉backbone，在图像分类、目标检测，语义分割上实现了最优性能
- ViT, DeiT , Swin Transformer在图像识别上取得的成功证明了Transformer被应用在视觉领域的潜力。
介绍本文开展的研究
- 受到Swin Transformer成功的启发，我们提出了Swin-Unet来利用Transformer的能力，在本次工作中进行2D医学图像分割。
- 据我们所知，Swin-Unet是第一个包含编码器，bottleneck 解码器和跳跃连接的基于纯Transformer的U形结构。Encoder, bottleneck 和 decoder都是基于Swin Transformer块建立。
  - 输入的医学图像被分割为不重叠的图像块。每一个块被当作是一个token，将其送入到基于Transformer的编码器学习深度特征表示。
  - 然后，被提取上下文特征通过具有块扩展层的解码器进行上采样，通过跳跃连接融合来自编码器的多尺度特征，以便恢复特征图的空间分辨率，进一步进行分割预测。
介绍本文开展的实验情况以及主要贡献
- 在多器官和心脏分割数据集上的广泛实验证明，提出的方法具有极高的分割准确率和鲁棒泛化能力
- 具体的，我们的贡献总结如下：
  - 1 基于Swin Transformer块，我们建立了具有跳跃连接的对称的编码解码结构，在编码器，实现从局部到全局的自注意力。在解码器，全局特征被上采样至输入分辨率执行相应的像素级分割预测。
  - 2 块扩展层被开发来实现上采样，不使用卷积和插值操作实现特征维度增加。【这个可以用一下】
  - 3 实验中表明跳跃连接对于Transformer仍然有效，因此一个基于纯transformer的具有跳跃连接的U形编码解码结构最终实现，叫Swin-Unet

2 Realted work

2.1 CNN-based methods

主要介绍基于CNN的图像分割方法
- 早期的医学图像分割方法主要是基于轮廓的和基于传统及其学习算法，随着深度CNN的发展，U-Net被提出进行医学图像分割。
  - 由于U形结构的简单和高性能，各种Unet形的方法不断出现。比如：Res-Unet，Dense-Unet，U-Net++ ,UNet3+.
  - 同样还有3D医学图像分割领域，比如3D-Unet和V-Net。
  - 目前，基于CNN的方法以其强大的表示能力在医学图像分割领域取得了巨大的成功。

2.2 Vision transformers

介绍Transformer in Vision发展
- Transformer首先被提出来用于机器翻译任务，在NLP领域，基于Transformer的方法在各种任务中都取得了最优的性能。受到Transformer成功的驱动，研究者引入了首创的VIT，该模型在图像识别任务中取得了速度和精度的平衡的令人鼓舞的结果。
- 相比基于CNN的方法，ViT的缺点是需要在自己的大数据集上进行预训练。为了减轻ViT训练困难，DeiT提出了几种训练策略，这种策略可以允许ViT在ImageNet上训练的好。
- 最近，多种极好的工作都是基于ViT，值得注意的是，一个高效的有效的对称视觉Transformer，叫Swin Transformer，被提出作为视觉的backbone。基于滑动窗口机制，Swin Transformer在多项任务上实现了最优的性能，比如图像分类，目标i检测，语义分割。
- 本文，我们尝试使用SwinTransformer模块作为基础单元，来建立一个带有跳跃连接的U形编码解码结构。利用该结构进行医学图像分割。从而为医学图像领域中Transformer的发展提供一个基准比较

2.3 Self-attention/Transformer to complement CNNS

介绍CNN与Transformer的混合发展
- 近年来，研究者开始尝试将自注意力机制引入CNN来提高网络的性能
  - 附加注意力们的跳跃连接被集成到U形结构i中来进行医学图像分割，然而，这依然是基于CNN的方法
- 最近，为了打破CNN在医学图像分割中的主导地位，正在努力将CNN和Transformer结合起来。
  - 结合Transformer与CNN构成一个强大的编码器，进行2D医学图像分割【】
  - 利用CNN与Transformer来提高模型的分割能力【Transfuse，Transbts】
  - 目前，Transformer与CNN的各种组合被应用于多模态脑肿瘤分割和3D医学图像分割。【Transbts和cotr】
与以上方法不同的是，我们尝试去探索纯Transformer在医学图像分割中的应用潜力。

3 Method

3.1 Architecture overview

介绍整体结构
- 提出的Swin-Unet的整体结构如图1所示。Swin-Unet由编码器，bottleneck，解码器和跳跃连接组成。Swin-Unet的基础单元是Swin-Transformer块。
  - 对于编码器，为了将输入转化为序列嵌入，医学图像被切分为不重叠的图像块，其中图像块的大小为4x4。通过这种划分方式，每一个块的特征维度变为4x4x3=48。更进一步的，线性嵌入层被用来将特征维度投影为任意维度（表示为C）。
  - 转换后的块tokens通过多个Swin Transformer 块和块合并层来生成分层特征表示。特别地，块合并层负责下采样和增加维度，Swin Transformer块负责特征表示的学习，受到U-Net的启发，我们设计了一个基于Transformer的对称解码器。
  - 解码器由Swin Transformer块和块扩展层组成，提取的上下文特征通过跳过连接与来自编码器的多尺度功能融合，以补充由下采样引起的空间信息的丢失。与块合并层形成对比，
  - 块扩展层是一个特地设置来执行上采样的，块扩展层将相邻尺寸的特征映射到具有2x分辨率提升的大特征图。最终，最后的块扩展层用来执行4X上采样恢复特征图的分辨率到输入图分辨率（WxH）.
  - 然后应用线性投影层来对这些上采样的特征输出像素级预测，我们在下面将详细阐述每一个块。

3.2 Swin Transformer block

阐述一下Swin Transformer 块
- 与卷积多头注意力模块不同的是，Swin Transformer 模块是基于滑动窗口构成的，如图2所示，展示了两个连续的Swin Transformer块。
  - 每一个swin Transformer 是由层归一化（LN），多头自注意力模块，残差连接，带有GELU非线性的两层MLP。
  - 基于窗口的多头自注意力模块（W-MSA）和基于滑动窗口的多头自注意力模块被分别用在两个连续transformer模块。
  - 基于这写窗口分区机制，连续的swin transformer块可以公式化为：
    $\begin{gathered} \hat{z}^{l}=W-M S A\left(L N\left(z^{l-1}\right)\right)+z^{l-1} \\ z^{l}=M L P\left(L N\left(\hat{z}^{l}\right)\right)+\hat{z}^{l}, \\ \hat{z}^{l+1}=S W-M S A\left(L N\left(z^{l}\right)\right)+z^{l} \\ z^{l+1}=M L P\left(L N\left(\hat{z}^{l+1}\right)\right)+\hat{z}^{l+1} \end{gathered}$
    其中 $\hat{z}^{l}$ 和 $z^{l}$ 分别代表(S)W-MSA模块和 MLP模块的第i个块的输出，与前人的工作类似，自注意力可以计算如下：
    $\operatorname{Attention}(Q, K, V)=\operatorname{Soft} \operatorname{Max}\left(\frac{Q K^{T}}{\sqrt{d}}+B\right) V$
    其中 $\in \mathbb{R}^{M^{2} \times d}$ 代表 query, key and value 矩阵。 $M^{2}$ 和 $d$ 分别代表在窗口中块的数量以及query和key的维度, $B$ 中的值来自偏置矩阵 $\hat{B} \in$ $\mathbb{R}^{(2 M-1) \times(2 M+1)}$ .

3.3 Encoder

介绍编码器
- 在编码器中，具有分辨率为 $\frac{H}{4} \times \frac{W}{4}$ 的C维标记化输入被送入两个连续的Swin Transformer 块执行表示学习，特征维度和分辨率保持不变。
- 同时块合并层减少标记的数量（2倍下采样），增加特征维度为原始维度的两倍，此过程在编码器中重复三次。
块合并层
- 输入块被分为四个部分，通过块合并曾进行连接，通过这种操作，特征分辨率将会2倍下采样，因为连接操作导致特征维度增加四倍，在连接的特征上应用线性层，以将特征尺寸统一为原始尺寸的2。

3.4 Bottleneck

介绍bottleneck
- 因为Transformer太深难以优化，仅仅两个连续的Swin Transformer块被用来构成bottleneck来学习深度特征表示
- 在bottleneck中，特征的维度和分辨率保持不变。

3.5 Decoder

介绍解码层和特征上采样
- 与编码器一致，堆成的解码器也是基于Swin Transformer块构成。
- 最终，与在编码器中使用的块合并层相反的是，我们在解码器中使用块扩展层对提取的深度特征进行上采样。
- 块扩展层将相邻维度的特征图重塑为更高分辨率的特征图（2倍上采样），并相应的将特征深度减少至原深度的一半
介绍上采样-块扩展层
- 以第一个块扩展层为例
  - 在上采样之前，一个线性层被用在输入特征上 $\left(\frac{W}{32} \times \frac{H}{32} \times 8 C\right)$ ，来增加特征维度到原来维度的2倍 $\left(\frac{W}{32} \times \frac{H}{32} \times 16 C\right)$ .
  - 然后我们使用重排操作扩展输入特征的分辨率为输入分辨率的两倍，同时减少特征至输入维度的四分之一 $\left(\frac{W}{32} \times \frac{H}{32} \times 16 C \rightarrow \frac{W}{16} \times \frac{H}{16} \times 4 C\right)$ .
  - 我们将探讨使用块扩展层执行上采样的影响

3.6 Skip connection

介绍跳跃连接的作用
- 与U-Net相似，跳跃连接被用来融合来自编码器的多尺度特征和上采样特征，我们连接了浅部特征和深度特征，以此减少下采样造成的空间信息的损失。
- 然后是线性层，串联特征的与输入特征的维度保持一致。
- 我们将详细讨论跳跃连接数量对我们模型性能的影响。

4 Experiments

4.1 Datasets

介绍器官分割和心脏分割数据集
- Synapse multi-organ segmentation dataset (Synapse): 腹部器官分割数据集
  - 数据集包括30个病例。共3779张轴向腹部临床CT图像，遵循前人的操作，18个被分为训练集，12个病例被分为测试集
  - 平均Dice相似系数（DSC)和平均Hausdorff距离(HD)被作为评价指标在八种腹部器官上评估我们的方法【(aorta, gallbladder, spleen, left kidney, right kidney, liver, pancreas, spleen,stomach）（主动脉、胆囊、脾脏、左肾、右肾、肝、胰腺、脾脏、胃）】
- Automated cardiac diagnosis challenge dataset (ACDC) 心脏数据集
  - 使用MRI扫描仪从不同患者收集到的ACDC数据集，对于每一个病人的MRI图像，左心室，右心室，心肌层被标注。
  - 数据集被分为70个训练样本，10个验证样本，20个测试样本，与前人一致，在该数据集上仅仅Dice相似系数（DSC）被用来评估我们的方法。

4.2 Implementation details

介绍具体实验怎么做的
- Swin-Unet是使用Python3.6和Pytorch1.7实现的，对于所有的训练实例，例如翻转，旋转的数据增强方法被用来增加数据多样性。
- 输入图像的大小为224x224，块大小为4。
- 我们在具有显存32G的v100上训练我们的模型，权重是在ImageNet预训练的，被用来初始化模型参数
- 在训练周期中，batchsize是24，流行的带有动量为0.9的SGD优化器，权重衰减为1e-4被用来优化反向传播模型

4.3 Experiment results on Synapse dataset

介绍实验结果
- 如表1所示是提出的Swin-Unet和最新的最优方法在多器官CT数据集上的实验效果。不同于TransUnet，我们添加了我们自己实现的U-Net和Att-Unet。
- 实现结果证明我们的Unet形纯Transformer取得了最优的性能，分割准确率为79.13%（DSC）和HD为21.55%。与Att-Unet和最新的TransUnet相比，虽然我们的方法没由在DSC评价指标上提升很多，我们在HD评价指标上提升了大概4%和10%。这表明我们的方法可以实现更好的边界预测。
- 在多器官CT数据集上不同方法的分割结果如图3所示，从图3中可以看到基于CNN的方法有过分割的问题，这或许是由于卷积算子的局部性导致的。
- 在本次工作中，我们证明了集成Transformer和带有跳跃连接的U形结构，不带卷积的纯Transformer可以更好的学习全局和长程语义信息的相互作用，使得分割结果更好。

4.4 Experiment results on ACDC dataset

在心脏数据集上的分割结果：
- 与器官分割数据集类似，提出的Swin-Unet在ACDC数据集上训练来执行医学图像分割，实验的结果如表2所示，使用MR形式的图像数据作为输入，Swin-Unet仍然能取得极高的性能，准确率为90.00%，这表明了我们的方法有很好的泛化性和鲁棒性。

4.5 Ablation study

消融实验
- 为了去探究不同因素在模型性能上的影响，我们在器官分割数据集上进行消融实验的研究，特别地，上采样，跳跃连接数量，输入大小，模型尺寸的探讨如下：
Effect of up-sampling: 介绍上采样的影响
- 为了与编码器中的块合并层一致，我们特地在解码器中涉及了块扩展层来执行上采样和特征维度增加。
- 为了探索提出的块扩展层的有效性，我们在多器官分割上使用双线性插值，转置卷积，块扩展层进行了实验，实验结果如表3
- 最终证明我们的Swin-Unet结合块扩展层可以获得更高的分割准确率。
Effect of the number of skip connections: 跳跃连接数量的影响
- 我们的Swin-Unet的跳跃连接被添加在了1/4，1/8.1/16分辨率尺寸的位置，通过改变跳跃连接的数量分别为0，1，2，3，我们探索了所提方法的不同跳跃连接在分割性能上的影响
- 结果如表4，我们可以看到提出模型的分割性能随着跳跃连接数量的增加而增加，因此为了使得模型更加鲁棒，跳跃连接的数量在本文中设置为3。
Effect of input size: 输入大小的影响
- 如表5所示，是提出的Swin-Unet的输入分辨率为224x224，384x384的测试结果。当输入大小从224x224增加到384x384 ，块大小保持一致为4时候，输入Transformer的token序列的会变大，这会提升模型的分割性能。然而，虽然模型的分割准确率有轻微的提升，但是整个网络的计算量也显著增加。
- 为了确保算法的运行性能，本文中实验是基于224*224分辨率的尺度作为输入。
Effect of model scale: 模型尺度的影响
- 与前人工作类似，我们探讨了网络深度对模型性能的影响，如表6所示，增加模型的尺度难以提升模型的性能。但是会增加整个网络的计算消耗。考虑到准确和速度的平衡，我们采用小模型执行医学图像分割。

4.6 Discussion

探讨一些为解决或者存在特殊意义的东西
- 正如我们所知道的是，基于Transformer模型的性能受到预训练模型的影响较大，在本文中，我们直接使用Swin Transformer在ImageNet上的训练权重来初始化网络的编码器和解码器，这或许是一个次优的方案。
- 这种初始化方法过于单一（简单），后面我们将探索预训练的端到端的Transformer进行医学图像分割，因为本文中的输入图像为2D，然而大部分的医学图像数据是3D的，我们将在下一步探索Swin-Unet用于3D医学图像分割。

5 Conclusion

总结本文提出了什么，解决了什么
- 本问，我们引入了一个基于纯Transformer的U形编码解码器执行医学图像分割
- 为了利用Transformer的能力，我们使用了Swin-Transfomer 块作为基础单元，学习特征表示和长程语义信息的相互关系。
- 在多器官和心脏上的分割任务的实验证明了提出的Swin-Unet具有极佳的性能和泛化能力。

BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Orange Pi编译脚本的分析点点吃得太多了 linux linux bash
脚本的运行流程/scripts/main.sh变量设置DEST=“${SRC}”/outputREVISION=“2.2.2”DOWNLOAD_MIRROR==“china”NTP_SERVER=“cn.pool.ntp.org”通过网络校准您计算机上的时钟BUILD_ALLCOLUMNS,LINESTTY_X,TTY_YLANGUAGE=“en_US:en”CONSOLE_CHAR=“UTF-8
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
安装torch报错 raise ReadTimeoutError(self._pool, None, “Read timed out.“) pip._vendor.urllib3.exceptions 待磨的钝刨 pip pytorch 人工智能
文章目录1.配置cuda的torch环境时报错1.配置命令2.报错bug2.解决方法1.增加下载超时时间：2.尝试使用镜像源：3.检查网络连接：4.分次安装：5.重试安装：6.手动下载.whl文件安装1.配置cuda的torch环境时报错1.配置命令pipinstalltorch==2.0.1torchvision==0.15.2torchaudio==2.0.2--index-urlhttps:
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
多模态大模型微调Qwen-VL微调及日志 Messi^ 人工智能-大模型应用 python 人工智能深度学习
%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
物联网之ESP32配网方式、蓝牙、WiFi 智码帮MJ682517 Web前端嵌入式硬件物联网嵌入式硬件物联网 web前端
MENU前言SmartConfig(智能配网)AP模式(AccessPoint模式)蓝牙配网WebServer模式WPS配网(Wi-FiProtectedSetup)Provisioning(配网服务)静态配置(硬编码)总结前言ESP32配网(Wi-Fi配置)的方式有多种，每种方式都有各自的优缺点。根据具体项目需求，可以选择适合的配网方式。SmartConfig(智能配网)原理ESP32通过监听周
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
大规模语言模型的书籍分享，从零基础入门到精通非常详细收藏我这一篇就够了黑客-雨语言模型人工智能自然语言处理学习大模型学习大模型入门大模型教程
在当今人工智能领域，大规模语言模型成为了研究和应用的热点之一。它们以其大规模的参数和强大的性能表现，推动着机器学习和深度学习技术的发展。对于GPT系列大规模语言模型的发展历程，有两点令人印象深刻。第一点是可拓展的训练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模，并且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量与数据规模的重视:不同于BERT
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Transformer论文阅读（二）：Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation 【用于医学图像分割的Unet形的纯Transformer】

Abstract

1 Introduction

2 Realted work

2.1 CNN-based methods

2.2 Vision transformers

2.3 Self-attention/Transformer to complement CNNS

3 Method

3.1 Architecture overview

3.2 Swin Transformer block

3.3 Encoder

3.4 Bottleneck

3.5 Decoder

3.6 Skip connection

4 Experiments

4.1 Datasets

4.2 Implementation details

4.3 Experiment results on Synapse dataset

4.4 Experiment results on ACDC dataset

4.5 Ablation study

4.6 Discussion

5 Conclusion

你可能感兴趣的:(Transformer,in,Vision,计算机视觉)