黄小米吖

[Transformer]Segtran:Medical Image Segmentation Using Squeeze-and-Expansion Transformers

SegTran：基于Squeeze-Expansion的Transformer用于医学图像分割

Abstract
Section I Introduction
Section II Related Work
Section III Squeeze-and-Expansion Transformer
- Part 1 Squeezed Attention Block I
- Part 2 Expanded Attention Block
Section IV Segtran Architecture
- Part 1 CNN Backbone
- Part 2 Transformer Layers
- Part 3 Feature Pyramids and Segmentation Head
Section V Experiments
- Part 1 Ablation Studies
- Part 2 Comparison with Baselines
Part 3 Computation Efficiency
- Part 4 Impact of pre-training
Section VI Conclusions

Paper

Abstract

医学图像分割对计算机辅助诊断至关重要，为了得到较好的分割结果需要同时获得图像的全局特征和细节信息，即学习全局上下文的而同时保持高空间分辨率的图像特征。UNet及其变体，作为最广泛选用的模型通过skip connection和encoder-decoder结构提取和融合多尺度特征。但是融合的特征仍然受限于有限的感受野，限制了自身的能力。
 本文提出了一种基于Transformer的替代分割模型-Segtran，即使在高特征分辨率下的感受野也不受限制。
 Segtran的核心是Squeeze-Expansion Transformer：squeese模块负责对transformer的注意力进行正则化，expansion模块负责学习多样化的特征表述。 此外本文还提出一种新的特征编码方式，可以对图像施加持续的归纳偏执。
  在视杯视盘分割、结肠息肉分割、脑补肿瘤分割等2D和3D医学图像分割任务上进行了实验，Segtran均获得了最高的分割精度，并且表现出良好的泛化能力。

Section I Introduction

自动化医学图像分割会自动描绘解剖结构和其他感兴趣区域（ROI），是计算机辅助诊断的重要步骤，可以用于量化组织体积、提取关键的病理指标等。精确的分割结果需要同时捕获图像的全局特征和细节特征，但是CNN难以做到。 因为CNN的高级语义特征是通过牺牲特征分辨率得到的。 自从UNet问世以来，其在医学图像分割领域大获成功。UNet是一种编解码结构，其中编码器通过连续的下采样操作获得不同尺度的上下文特征，decoder则会对上下文特征进行上采样和融合。但是随着卷积层的堆叠，远处像素的影响显著降低，因此使得UNet的有效感受野远远小于其理论分析值。
    

由Fig 2可以看到，UNet和DeepLabV3+的有效感受野仅在90像素左右，也就是说它们的决策是基于这么大有效感受野做出的，但实际任务中需要ROI的高度/宽度远大于200像素，远远超过了有效感受野的范围。因此在无法看到全局的情况下，UNet可能受局部感受野的误导产生误分割。 许多研究也对UNet进行了改进，如UNet++和UNet3+使用了更为复杂的skip connection；Attention UNet则是引入了注意力门；3D-UNet，V-Net则进一步将UNet拓展到3D图像；Eff-Unet则是将encder部分替换为了预训练的EfficientNet. Transformer在CV领域越来越受到关注，因为他可以有效通过SA的计算捕获所有输入单元之间的交互作用，结合它们的特征生成上下文信息。
  Transformer的上下文提取类似Unet中的上采样网络，但是它的感受野不是局部的，因此可以捕获长程依赖关系。因此Transformer也适合于图像分割任务。
  本文提出的SegTran是一种基于Transformer的分割网络，如果直接将Transformer1嵌入分割网络，只能带来些许的性能提升。因为Transformer最初是用于NLP的，应用到图像任务还可以做进一步改进。
  因此本文提出一种新的Transformer结构：Squeeze-Expansion Transformer，借助squeeze attention block对注意力矩阵进行正则化，借助expansion block来学习丰富的特征表述。
  此外本文还提出一种新的位置嵌入编码方法，可以对Transformer嵌入连续的归纳偏置，从而提升分割效果。 本文在2D图像的视杯视盘分割、息肉分割；以及3D图像的脑肿瘤分割任务上进行了测试，与其他peerwork和基准网络相比，均取得了最佳性能。

Section II Related Work

本文的灵感来自于DETR，DETR使用transformer layer来生成上下文表述代表不同物体，然后通过一系列的object query来提取目标的位置和类别；DETR也可以用于做全景分割，但是需要两阶段，不适合医学图像分割；Cell-DETR也使用Transformer来做医学图像分割，但是还是基于DETR结构，没有添加向我们这种squeeze-expansion组件。最近SETR，TransUNet也基于Transformer做医学图像分割，主要是将Transformer作为encoder来提取特征，此时图像特征已经包含了全局上下文信息，然后使用一些卷积层作为decoder来生成分割图。相比之下，Segtran基于CNN提取的局部特征之上来构建全局上下文信息，然后借助FPN生成最终的分割图。 此外，Muras等人尝试对CNN通道引入编码信息，并且验证了对分割性能的提升。
   本文则是通过消融实验验证位置编码确实可以提升Segtran的分割性能。 虽然UNet可以通过搭建更深的网络层次来增大感受野，但是这增加了网络参数量还增加了过拟合的风险；另一种方法是在下采样时采用更大的步长，但是这样会降低特征图的空间精度，于分割不利。

Section III Squeeze-and-Expansion Transformer

Transformer的核心是self-attention的计算，首先会计算每一对输入之间的注意力系数，然后计算所有注意力系数乘上之后的加权平均和。 基于SA的多头注意力（MHA）旨在捕获输入之间不同类型的关联信息，因此每个head会单独计算注意力，最终的输出通过级联后作为最终的MHA的输出，不同的head在不同的特征子空间中计算。 本文认为Transformer可以从以下四方面进行改进： 
 （1）SA的计算中，attention matrix是通过输入经过投影之后线性组合得到的，当N很大时容易受到噪声影响，因此应当低秩注意力矩阵； 
 （2）在原始Transformer中输出特征时单模态的，即只是一组特征映射，不能更好的建模特中标书，就像通过高斯混合比单一的高斯分布能更好的描述数据分布一样，因此将k个transformer混合可以更好的捕捉数据变化； 
 （3）在原始Transformer中，k,q是分开学习的，这样可以捕获NLP中不同token之间的非对称关系；但是在图像中像素之间的关系通常是对称的，比如验证两个像素点是否属于同一类别；
  （4）图像的像素点具有很强的局部性和语义连续性，目前两类主流的位置编码方法都没有完全建模出这种关系，因此可以进一步改进位置编码方法。
   本文的Segtrna旨在对上述4方面进行改进，Squeeze Attention会计算当前输入与M个inducingpoint之间的注意力，并将注意力矩阵压缩至NxM大小；Expansion Module则混合了Nm个专家的知识；此外在上面两个模块中，Q,K的映射是绑在一起的，这样计算的注意力是对称的，从而更适合建模图像元素之间的对称关系。
   最后，本文还提出了一种新的科学系的正弦位置编码方法来更好的捕获空间关系。

Part 1 Squeezed Attention Block I

SAB中提出的Induced Set Attention Block将inducing point引入Transformer，最初是为了更好的学习无序目标的特征，本文则将这种squeeze设计引入到注意力矩阵的计算中来减少噪声和过拟合的风险，本文将ISAB中的这一方法重命名为Squeezed Attention Block(SAB)来强调在本文中全新的租用。
     原始注意力矩阵计算的是MxM大小的矩阵，SAB中计算的则是M个元素到N个inducing point的注意力，具体计算过程如下： 

这样注意力矩阵为MxN,计算更紧凑。 SAB类似于原始Transformer中的codebook，是一种低秩矩阵因式分解的方法，将原来NxN的矩阵分别为两个NxD矩阵的计算，这可以看做是一种正则化手段，可以有效避免过拟合、抵抗噪声。
Fig 3分别展示了Full SA和Squeezed Atention，SA的特征维度是NxN,SAB则是将NxN的计算分别为两个NxM的计算。

Part 2 Expanded Attention Block

Expanded Attention Block(EAB)包含Nm个节点，每一个节点代表一个单头的trnasformer，因此输出则是Nm个transformer聚合的结果。 EAB是一种Mixture-of-Experts的方法，Fig 4展示了EAB与MHA的区别，可以看到MHA是不同特征的级联，而EAB每一个Node代表一种子空间内的映射模式，最后混合得到的结果汇包含更多的信息。

## Part 3 Learnable Sinusoidal Positional Encoding 
 图像中的一种关键的归纳偏执就是局部像素之间的语义连续性，借助CNN可以有效建模；但是Transformer把输入展平了，PE是空间信息的唯一来源，这样虽然可以接受任意长度的输入，但是引入的位置信息缺失比较简单的。
 目前主流的两种PE方案分别是：正弦编码和离散可学习编码。前者在空间上是连续的但是缺乏适应性，因为编码方案是预先给定的；后者会为每个坐标学习单独的位置编码方案，但是却是不连续的。
 因此本文提出了一种可学习的正弦PE方案，同时保证了编码方案的连续性和适应性。表示为：

i代表第i个位置，a,b,c分别是需要学习的权重，C则是图像特征的维度，通过可学习的a,b,c对输入坐标进行映射，按照维度进行不同的编码，最后再将坐标归一化到[0,1]得到PE之后的结果。 这样编码的结果是会随着像素坐标进行一定的平滑，当前坐标附近的元素或得到相似的位置编码，从而使得他们之间的注意力权值更大，这就是连续性偏置的精髓。通过可学习的权值和正弦激活函数可以建模更复杂的空间关系。

Section IV Segtran Architecture

分割作为像素级别的预测任务，需要解决全局上下文（更低的分辨率）和细节的信息（更高的分辨率）之间的冲突。Segtran通过计算像素之间的特征提取，避免了空间分辨率的损失。Segtran包含5大主要部分，分别为：
 （1）CNN backbone提取输入图像特征；
  （2）对输入和输出通过金字塔进行上采样 ；
  （3）可学习的正弦位置编码方案 ；
  （4）Squeeze-and-Expansion transformer layer用来提取上下文特征 ；
  （5）分割头 
  
Fig 1展示的是Segtran的网络结构。首先原始图像会经过CNN Backbone提取特征，然后进行位置信息的嵌入；随后将迁入之后的特征项链展平成序列，输入Transformer中。Transformer中则是通过一系列Squeeze-and-Expansion Transformer layer来记性处理；最后为了扩大空间分辨率，在Transformer的前后都加入两个FPN来提升空间分辨率。

Part 1 CNN Backbone

本文采用预训练的CNN进行特征提取，处理2D图像采用的是ResNet-101或者Efficient-D4;处理3D图像用的是I3D。

Part 2 Transformer Layers

在送入Transformer之前还要进行PE。 Transformer layer包含多层，输入输出维度保持一致，具体结构就是前面介绍的Squeeze-and-Expansion block。

Part 3 Feature Pyramids and Segmentation Head

通常给Transformer输入具有更丰富语义特征的feature map效果会更好，因此本文增加了特征金字塔网络（FPN）来融合提取到的多尺度特征，比如f34是融合第三层发和第四层的feature map，他们的分辨率分别是1/8和1/16. 随后将融合之后的特征图展平并进行PE，送入Transformer.

在output也设置了一个FPN来上采样输出结果，具体操作为：

会分别融合input FPN和Transformer的结果。 最终经过1x1卷积层获得最终的segmentation map。

Section V Experiments

本文在三个任务上验证了Segtrans的有效性，分别是：
  视杯视盘分割： REFUGE20 2D图 training:validation= 200:400 
  结肠镜息肉分割： Polyp Segmentation 2D图像 数据集：CVC612（612 images）,Kvasir training:validation = 80:20 
  脑部肿瘤分割：Tumor segmentation 分割神经胶质瘤，是BraTS’19挑战赛的一部分，需要分割四部分：WT整个肿瘤，TC肿瘤核心，ET增强肿瘤，背景

Part 1 Ablation Studies

Table 1展示了Squeeze-and-Expansion层的效果，可以看到二者均对视杯视盘分割精度有提升；Table 2则是加入PE之后的效果，如果不加PE，精度会下降1-2%，一种可能的解释是Transformer可以设法从CNN backbone中提取位置信息。 Table 3则展示了transformer层数的影响，可以看到层数并不是越多越高，增加到3层之后，使用4层精度反而会有一定下降。因为较多层可能导致了过拟合。

Part 2 Comparison with Baselines

2D分割对比的网络有：
UNet,UNet++，U-Net3+,PraNet,DeepLabV3+，Attention based UNets（AttU-Net,AttR2U-Net），nn-UNet,Deformable U-Net,SETR,TransUNet
 3D分割对比的网络有：
 nn-UNet变体，Bag-of-Tricks(BraTS排名第二的搭配)
  Table 4和Table 5分别展示了对比结果。
  可以看到基于Transformer的模型中，SETR，Trans-UNet,和本文的Segtran均取得了优异的性能，以ResNet101为backbone时Segtran性能最佳，换成Efficient-B4时效果更好，在REFUGE20挑战中取得了top5的好成绩。   
  

Part 3 Computation Efficiency

Table 7对比了不同网络的参数量和FLOPs，可以看到基于Transformer的网络参数量都会略大，消耗更多的内存资源；而本文的Segtran参数量主要取决于output FPN,因此采取不同的backbone会对参数量有巨大影响。
选择EfficientNet时参数量最少，如果选ResNet为backbone参数连会略有上升。因此当计算资源有限时不推荐以ResNet为backbone。

Part 4 Impact of pre-training

Table 8展示的是预训练的影响，乐意看到预训练一般会到来2.5%的精度提升。

Section VI Conclusions

本文提出的Segtran是一种基于Transformer的医学图像分割框架，有效的改善了CNN感受野有限的问题，此外借助改进的Squeese-and-Expansion Transformer layer可以同时获取全局上下文和细节特征，更好的完成图像分割任务。 
 本文在2D和3D图上均测试了Segtran的性能，实验结果表示Segtran优于现有的方法，可以进一步推广到其他领域。

【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
Android 8 Wifi 初始化过程 weixin_34315665 移动开发 java
记录一下wifi初始化过程。packages/apps/Settings/src/com/android/settings/wifi/WifiSettings.javapublicvoidonStart(){super.onStart();//创建WifiEnabler对象//On/offswitchishiddenforSetupWizard(returnsnull)mWifiEnabler=c
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
使用Llama 3.2-Vision多模态LLM与您的图像聊天 AI程序猿人 llama transformer pytorch 深度学习大模型应用人工智能大模型
介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推理
谷歌吹响反击号角：2025年Gemini用户目标5亿，AI大战一触即发！ that's boy 人工智能 chatgpt openai AI工具 AI编程 google gemini
人工智能领域的竞争日趋白热化，谷歌CEO桑达·皮采亲自下场，为GeminiAI定下了雄心勃勃的目标：到2025年底，用户突破5亿！面对ChatGPT的强势崛起，谷歌能否成功逆袭？本文将深入剖析谷歌的战略布局、Gemini的技术优势以及未来AI竞争的格局。谷歌的反击：5亿用户的雄心壮志在过去几年，OpenAI凭借ChatGPT的强大实力，几乎垄断了AI领域的聚光灯。谷歌虽然在AI技术研究方面一直处于
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
JVM学习指南(41)-GC日志分析俞兆鹏 JVM学习指南 JVM
文章目录1.GC日志的重要性为什么需要分析GC日志？2.GC日志的基本格式示例GC日志格式3.如何启用和配置GC日志示例代码4.分析GC日志的关键指标5.案例分析案例1：频繁的MinorGC6.GC日志分析工具介绍GCViewerMAT（MemoryAnalyzerTool）7.最佳实践和注意事项常见陷阱8.总结1.GC日志的重要性GC（GarbageCollection）日志是Java虚拟机（J
Delphi代码编写标准指南好大的牛角
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！·日月光华精华区文章阅读发信人:Delphii(Delphi),信区:VCL标题:Delphi编码规则发信站:日月光华站(FriSep712:03:072001),站内信件Delphi代码编写标准指南■■■■■■
4.opencv函数--cv2.findContours xf8964 openCV openCV python findContours
该函数是查找图片轮廓，函数接收二值图片，函数原型cv2.findContours(image,mode,method,contours=None,hierarchy=None,offset=None)参数说明：image：原图mode：轮廓的检索模式，有四种，常用的是cv2.RETR_EXTERNAL枚举说明cv2.RETR_EXTERNAL表示只检测外轮廓cv2.RETR_LIST检测的轮廓不建
【漏洞预警】FortiOS 和 FortiProxy 身份认证绕过漏洞(CVE-2024-55591) 李火火安全阁漏洞预警 Fortinet
文章目录一、产品简介二、漏洞描述三、影响版本四、漏洞检测方法五、解决方案一、产品简介FortiOS是Fortinet公司核心的网络安全操作系统，广泛应用于FortiGate下一代防火墙，为用户提供防火墙、VPN、入侵防御、应用控制等多种安全功能。FortiProxy则是Fortinet提供的企业级安全代理产品，主要用于内容过滤、Web访问控制和数据安全防护等场景。下一代防火墙产品FortiGate
Java：读取本地文件 Monly21 Java java 开发语言
/***读取本地JSON文件**@throwsIOException*/publicstaticvoidreadLocalFile()throwsIOException{Filefile=newFile("D:\\repo\\java_base_test\\data.json");FileReaderfileReader=newFileReader(file);BufferedReaderbuff
HarmonyOS NEXT应用开发之NAPI封装ArkTS接口案例_harmonyos napi 2401_83946826 2024年程序员学习 harmonyos 华为
std::unique_lockstd::mutexunil(uniContext->resultWaitUtil.lock);uniContext->resultWaitUtil.cv.wait(unil,[]{returnuniContext->resultWaitUtil.isFinished;});return;}else{status=napi_call_function(uniCont
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
【GaussDB】数据库日常维护戒掉贪嗔痴(薛双奇) 国产数据库-GaussDB gaussdb
1.检查实例状态[omm@gauss001~]$cm_ctlquery-Cv[CMServerState]nodeinstancestate---------------------------------1192.168.0.1421Primary[ClusterState]cluster_state:Normalredistributing:Nobalanced:Yescurrent_az:A
3d系统误差分析 Ai智享结构光 3d 数码相机计算机视觉
系统标定重投影误差预估在计算机视觉和三维重建领域中，评估一个相机系统标定精度的重要指标。通过比较真实的三维点在图像中的投影位置与标定模型计算出的投影位置之间的差异，来衡量标定的准确性。以下是对这一概念的详细解析：什么是系统标定？系统标定(SystemCalibration)是指对一个视觉系统（例如单目相机、双目相机系统或结构光系统）进行参数标定的过程，包括：内参标定：相机的内部参数（如焦距、光心、
2.slf4j入口 uncleqiao slf4j slf4j
文章目录一、故事引入二、原理探究三、SLF4JServiceProvider四、总结一、故事引入故事要从下面这段代码说起publicclassApp{privatestaticfinalLoggerlogger=LoggerFactory.getLogger(App.class);publicstaticvoidmain(String[]args)throwsException{logger.in
一文看懂llama2（原理&模型&训练） Qpeterqiufengyi llama
自从Transformer架构问世以来，大型语言模型（LargeLanguageModels,LLMs）以及AIGC技术的发展速度惊人，它们不仅在技术层面取得了重大突破，还在商业应用、社会影响等多个层面展现出巨大潜力。随着ChatGPT的推出，这一技术日益走进大众视野，这也预示着一个由生成式AI塑造的未来正在加速到来。与此同时，MetaAIMetaAI在2023年推出了LLama（LargeLan
智能体（AI Agent）：概念、原理与应用，全面解析AI技术前沿! 和老莫一起学AI 人工智能学习数据库产品经理机器学习 ai 大模型
一、智能体概念的深度剖析1.1智能体（Agent）的本质智能体，作为人工智能领域的一颗璀璨明珠，是那些能够主动感知周遭环境、自主决策并付诸实践的系统实体。它们不仅拥有自主性、交互性、反应灵敏及高度适应性等鲜明特征，更在复杂多变的情境中展现出卓越的自我管理与任务执行能力。智能体的诞生，标志着人工智能技术从机械式的规则遵循迈向了更为灵活、智能的自主决策新时代。智能体的核心精髓在于其内置的学习与决策引擎
基于人工智能的Python面试题请一直在路上 python 开发语言
基于人工智能的Python面试题1.Python中的元组与列表区别是什么？列表是可变类型，元组不是。列表是引用类型，元组不是。列表使用场景更宽泛，元组更多用于一些数据不可变的场景，例如参数、或者返回值。2.Python中的字典是否有序？python3.6之前字典是无序的，之后是有序的。原因可以参考下这个帖子https://blog.csdn.net/weixin_48629601/article/
提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLOv8 YOLO 目标跟踪
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（附代码+详细修改步骤+
如何使用Java爬虫获取阿里巴巴热卖商品推荐：代码示例与实践指南小爬虫程序猿 Java java 爬虫 python
在电商领域，获取热卖商品推荐对于商家和开发者来说至关重要。阿里巴巴提供了热卖商品推荐API接口，能够根据消费者的购买历史、浏览行为、搜索习惯等数据，自动推荐符合其需求的商品。以下将详细介绍如何使用Java爬虫获取阿里巴巴热卖商品推荐，并提供相关的代码示例。一、阿里巴巴热卖商品推荐API接口简介阿里巴巴热卖商品推荐API接口是一种基于人工智能算法的推荐系统，能够根据消费者的购买历史、浏览行为、搜索习
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
人工智能伦理：技术发展背后的思考 m0_72547478 人工智能
近年来，人工智能技术呈爆发式发展，在医疗、交通、金融等诸多领域取得惊人成果，但与此同时，人工智能伦理问题日益凸显，引发广泛关注。数据隐私与安全首当其冲。AI系统依赖海量数据训练，这些数据包含个人信息、医疗记录等敏感内容。若数据保护不当，极易引发数据泄露风险，侵犯个人隐私。例如，某些智能健康APP，若未能加密传输用户健康数据，一旦遭受黑客攻击，用户的隐私将暴露无遗。算法偏见也是一大痛点。AI算法基于
Imagen架构详解：理解其背后的技术与创新范范0825 Imagen 架构
Imagen架构详解：理解其背后的技术与创新引言近年来，生成式人工智能技术取得了飞速发展，特别是在图像生成领域。作为这一领域的重要创新之一，Imagen是由谷歌开发的一种基于文本生成图像的模型。它在生成高质量、逼真的图像方面表现出色，并通过其先进的架构和技术手段推动了图像生成的技术进步。Imagen不仅在图像生成质量上具有显著优势，还能够通过自然语言描述生成细致复杂的图像。本文将详细剖析Image
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
flv格式转换为mp4(ffmpeg) 这个名字还中 Java爬虫 java 音视频
使用java将flv文件格式视频转换为mp4文件格式，使用的工具为ffmpeg。/***转换视频格式时需要的自定义线程*/publicclassPrintStreamextendsThread{java.io.InputStream__is=null;publicPrintStream(java.io.InputStreamis){__is=is;}publicvoidrun(){try{whil
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end