黄小米吖

[Transformer]CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

CSWin Transformer:基于交叉十字形窗口的视觉Transformer框架 

Abstract
Section I Introduction
Section II Related Work
Section III Method
- Part 1 Overall Architecture
- Part 2 Cross-Shaped Window Self-Attention
Section IV Experiments
- Part 1 ImageNet-1K Classification
- Part 2 COCO Detection
- Part 3 ADE20K Semantic Segmentation
- Part 4 Ablation Study
Section V Conclusion

Paper
Code

Abstract

本文提出的CSWin Transformer是一种高效的通用视觉Transformer框架。Transformer的挑战之一就是其SA计算复杂度，一定程度上限制了Transformer中每个token的交互。为了解决这一问题，本文提出Cross-Shaped Window自注意力机制，可以并行计算水平方向和垂直方向的SA，这里需要将输入切分成等宽的条纹。 
本文对切分的宽度做了细致的分析，从而实现较好的精度-计算量的权衡。 此外本文还引入了局部增强的位置编码方法（LePE），比现有的位置编码方法可以更好的利用局部位置信息。LePE可以接受任意分辨率的输入，并且可以迁移到下游任务。 
基于以上设计，CSWinTransformer在各种任务中达到了十分可观的性能，在没有额外训练的ImageNet-1K上达到了85.4%的最高精度，目标检测COCO数据集上达到了46.4AP,在ADE20K分割任务上达到了51.7mIoU；如果在InageNet-21K上预训练后精度会进一步提升。

Section I Introduction

Vision Transformer
基于Transformer的模型近期在诸多视觉任务中超过了CNN的性能，通过MHSA机制ViT可以有效的建模长程依赖关系，非常适合处理高分辨率输入迁移到下游任务中；但是SA的计算复杂度一定程度上限制了Transformer的应用。 为了提升Transformer的计算效率，一种经典的方法是限制每一个token的注意力范围，将全局的注意力限制在一定窗口范围内；为了建立窗口之间的联系，有学者提出使用移窗的方式来交换附近窗口之间的信息；但是感受野扩大的仍然比较满，需要堆叠较多的block才能实现全局的注意力。但是一个足够大的感受野范围对最终性能是至关重要的，尤其是对于下游任务，如目标检测、分割。

因此需要在保证较低计算成本的同时尽可能提升感受范围。 本文提出了CSWin自注意力机制，Fig 1展示了与SA的区别。CSWin中会在水平和垂直方向分别计算注意力，这需要将输入特征分成等宽的条纹，条纹宽度是窗口的重要参数，窗口的形状是十字形的，宽度决定了计算成本以及建模能力。
并且本文还会根据网络的深度来调整条纹的宽度：在浅层次宽度较小，深层次宽度较大；因为宽度越宽允许远程元素之间建立连接，这样可以在增加少部分计算成本的前提上提升网络容量。本文提供了细致的分析，讨论条纹的宽度是如何影响模型建模能力和计算成本的。
值得注意的是，基于CSWin SA,可以将多头注意力也切分成并行的组然后不同的组进行不同的SA运算，这种并行策略并没有增加计算成本，但是却扩大了每一个Transformer block的注意力区域。这与Fig 1右侧其他SA的计算方式有根本性的区别，并且消融实验的结果表示本文的注意力对一般视觉任务更有效。 
在CSWin SA的基础上，本文采用层次化设计搭建了CSWin Transformer,为了进一步增强Transformer模型的建模能力，还使用了局部增强的位置编码（LePE）,对下游任务更为友好。与以往的位置编码相比，会在每个block内使用LePE，并且还会作用在注意力结果上，这样使得CSWin Transformer更有效。 CSWin Transformer作为一种视觉Transformer的基准网络，在图像分类、目标检测、语义分割任务中均取得了优异的性能。

Section II Related Work

Vision Transformer 
近年来卷积神经网络已经是计算机视觉任务的主流框架，但是近期ViT等基于Transformer的网络框架也展现出惊人的效果；因此诸多工作致力于研究设计更好的Transformer框架用于视觉任务。这些工作都遵循Transformer的层次化设计，但采用了不同的SA机制。分层设计的优点是可以有效利用多尺度特征，然后逐步减少token数目可以降低计算复杂福。本文通过引入十字形窗口和LePE提出了一种新的层次化Transformer网络。

Efficient Self-Attention 
在NLP领域已经设计了多种高效注意力机制来提升Transformer处理长序列的效率；由于视觉任务中图像的分辨率往往很高，因此设计高效的注意力机制也是至关重要的。但是目前许多工作依旧采用原始的全注意力机制，计算复杂度是输入分辨率的平方项；为了降低计算复杂度,Swin Transformer等提出使用移窗MSA将注意力局限在窗口之内同时允许窗口之间的交互；Vision Transformer中另一种有效的是轴向注意力，会沿着水平轴或垂直轴依次应用局部窗口来实现全局注意力，但是这种按顺序和窗口的大小限制了网络的学习能力。 
Positional Encoding
 由于SA是排列不变的忽略了标记的位置信息，因此Transformer广泛使用positional emcoding来重新添加位置信息，包括绝对位置编码、相对位置编码和条件位置编码。 APE和RPE通常表示为一系列正弦函数或可学习参数，一般针对特定的分辨率，对不同的分辨率很不友好； CPE则将特征作为输入可以得到任意分辨率的位置编码，然后再将生成的位置编码添加到输入上，一同输入SA模块。 
 本文的LePE与CPE比较相似，但是会把位置编码作为一个并行的模块添加到SA操作中，会对每个模块投影后的值进行操作。这样将位置编码与自注意力计算解耦，可以获得更强的局部归纳偏置。

Section III Method

Part 1 Overall Architecture

Fig 2展示了CSWin的网络架构。对于HxWx3的输入，首先采用步长卷积切patch进行patch embedding，window_size = 4； 整个网络包括4个阶段，这样可以获得多尺度的特征表述；相邻两个stage之间使用3x3的步长卷积来减少token数目，通道为数也会加倍。
  因此第i个阶段的token数目为：

每一个阶段的CSWin Transformer Block的结构如右图所示，与原始MHSA有2点区别：
（1）将SA替换为本文的Cross-Shaped Window SA; 
(2)使用LePE来增强局部归纳偏置信息，作为与SA并行的一个模块。

Part 2 Cross-Shaped Window Self-Attention

虽然SA可以有效建模远程上下文，但是其计算复杂度与特征大小的平方成正比，因此输入较高分辨率的特征图的计算成本十分高昂。Swin Transformer将SA的计算局限在窗口内来提升计算效率，但是需要堆叠更多的块来获得全局感受野。本文则提出十字交叉的窗口注意力。 
Horizontal and Vertical Stripes 
根据MHSA的定义，输入的特征首先会映射到K个头，然后每个头在自己子空间内进行SA计算。 对于水平方向的SA，X被均匀划分为等宽的互补重叠的水平条纹[X1,…,Xm],每条包含sw*W个token,sw表示条纹的宽度，通过调节SW来权衡学习能力和计算复杂度。 
水平的SA计算为：

 每条的输出会级联在一起。
  我们可以将K个注意力头等分，K/2用于水平SA，K/2用于垂直SA的计算，最终的注意力输出表示为二者的级联：

即将多头注意力分成并行的group，不同的group采用不同的SA计算方式、换言之通过分组来扩大每个token的注意力范围。而原始的SA是对不同的头进行相同的注意力计算，实验结果表明本文的这种分组计算方法性能更好。
计算复杂度分析 
对于高分辨率的输入，H,W一般会远远大于通道数C 对于低分辨率（later atage)HW则会小于C 因此可以在早期stage使用较小sw在后期stage使用较大sw，这样通过调整sw可以灵活调整每个token的注意力区域。

同时还要注意sw应该能被输入尺寸整除，因此本文默认设置为1,2,7,7
 Locally-Enhanced Positional Encoding 
 

LePE是在每个Transformer block内部增加的位置信息，但与RPE不同的地方在于RPE是在attention计算时加入的位置信息，LePE则是更加直接，将位置信息加在线性映射后的value上。参见下式：

 但是也要考虑到如果计算E的所有连接需要的计算成本也很大，因此本文假设：对于特定的输入，最重要的信息来自于该特定位置的附近。
 因此本文提出局部增强的位置编码（LePE），结合深度可分离卷积来作用V于alue。这样LePE可以接受任意分辨率的输入。 
 

## Part 3 CSWin Transformer Block
  因此CSWin Transformer Block的计算可以表达为：

## Part 4 结构变体 
  Table 1展示了不同规模的CSWin网络，不同的通道数目、不同的注意力头数以及每个stage中的bokck数目组成了Tiny,Small,Base,Large四种规模的网络。
  

Section IV Experiments

本文在ImageNet-1K图像分类,COCO目标检测，ADE20K语义分割任务上测试了CSWin Transformer的性能。

Part 1 ImageNet-1K Classification

输入224x224  
AdamW优化器
 training epoch = 300  
 Table 2是与目前SOTA模型的精度对比，计算量分别是: tINY模型（约4.3GFLOPs）；SMALL模型（约6.8GFLOPs）和Base模型（约15GFLOPs）. 可以看到远远超过了Vision Transformer,证明了CSWin强大的学习能力。  与CNN模型相比，也比EfficientNet效果接近甚至超过了；如果在ImageNet-21K上预训练后性能会进一步提升，参见Table 3。
 

Part 2 COCO Detection

CSWin Transformer与Mask R-CNN,级联Mask R-CNN对比做目标检测的结果，对比结果参见Table 4，可以看到CSWin超过Transformer同类。

Part 3 ADE20K Semantic Segmentation

语义分割backbone选用的是FPN和Upernet网络，Table 6是语义分割的比较结果。可以看到不同规模的CSWin均超过目前的SOTA，具体来说，CSWin-T、CSWin-S、CSWin-B实现了+6.7、+4.0、+3.9与Swin 框架相比，以及比Upernet分别高+4.8、+2.4、+2.7 mIoU。

Part 4 Ablation Study

为了评估每部分的作用还进行了消融实验。 主要评估sw对网络深度、网络性能的影响以及MHSA的分组设计对性能的影响。

Table 7展示了消融实验的结果，可以看到sw对扩大注意力范围十分重要，sw =1时精度会显著下降；如果不对head分组也会导致性能有一定下降。 
 从Table 7最后两行可以看到“先深再浅”网络会比“先浅再深”的网络性能更好，为了验证这一点本文还这几了一个比较浅、宽的网络变体，性能确实变差了。 最后一行则显示使用重叠token embedding的必要性。
 

Attention Mechanism  
 CSWin是本文的核心模块，可以在节省计算的同时实现较强的建模能力。为了验证这一点本文将CSWin与现有的一些SA进行了对比，分别是滑窗SA，移窗SA，空间分离SA和轴向SA。基于的网络是前一节的浅宽设计网络。
 Table 8a展示了对比结果，可以看到CSWin的性能比目前其他SA机制都要好；尤其是轴向注意力，虽然可以通过两个模块就捕获全局注意力，但是迁移到下游任务上效果却不是很好，因为它每个block中注意力范围都很小，相当于sw=1的情况。
  Positional Encoding Comparison
   Table 8（b）则展示了不同位置编码方案的对比结果。 可以看到位置编码通过引入局部归纳偏执带来心梗提升，虽然RPE在不同分辨率的分类任务上取得了较好的性能，但是本文的LePE性能更好。

Section V Conclusion

本文提出的CSWin Transformer核心是十字形的SA，通过将多头注意力分成水平组和垂直组分别进行SA计算，可以有效扩大每个token的注意力范围；另一方面本文还分析了条纹宽度（sw）对网络容量和计算复杂度的影响。 本文还将LePE这种位置编码方案引入设计中，可以迁移到下游任务。
大量实验结果证明了本文CSWin的高效和有效性。在分类、分割、目标检测任务上均达到了SOTA。 期待未来CSWin可以应用到更多任务中。

在WPF中把Canvas保存为图片，文本文件，xps文件 Anticlimax丶 WPF Canvas转图片 Canvas转文本文件 Canvas转xps文件
由于wpf的UI使用xaml来表达的，所以我们们可利用这个优点，把WPF中的xaml元素另存为各样的文件，在很多时候我们都不须要这样的操作。把xaml保存为图片、字符串、XPS等等。这里我写了一些方法，以供大家参考.。注意：以下保存操作前，一定要确保参数中的canvas有高和宽。1.把canvas保存为文本文件usingSystem.IO;publicvoidExport(Uripath,Canv
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
springboot自定义工具 johnrui spring boot java spring
springboot自定义工具上下文工具类上下文工具类你上下文工具类，获取注册的bean。publicclassSpringContextUtilsimplementsApplicationListener{protectedstaticApplicationContextcontext;@OverridepublicvoidonApplicationEvent(ApplicationPrepar
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
Windows配置opencv详细教程吃旺旺雪饼的小男孩环境配置 windows opencv 人工智能计算机视觉
Windows配置opencv1.安装CMakeCMake安装步骤：2.安装VisualStudioVisualStudio安装步骤：3.下载OpenCV源码下载步骤：4.配置OpenCV使用CMake4.1.配置CMakeGUI4.2.配置选项5.使用VisualStudio编译OpenCV5.1.打开VisualStudio项目5.2.编译OpenCV6.配置开发环境（VisualStudio
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
【面经&八股】搜广推方向：面试记录（十三）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（十三）文章目录【面经&八股】搜广推方向：面试记录（十三）1.自我介绍2.实习经历问答3.八股之类的问题4.编程题5.反问6.可以1.自我介绍。。。。。。2.实习经历问答挑最熟的一个跟他讲就好了。一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
Apache Tomcat漏洞公开发布仅30小时后即遭利用 FreeBuf- 资讯 apache tomcat 网络安全
近日，ApacheTomcat曝出一项安全漏洞，在公开发布概念验证（PoC）仅30小时后，该漏洞即遭到攻击者利用。这一漏洞编号为CVE-2025-24813，主要影响以下版本：1.ApacheTomcat11.0.0-M1至11.0.22.ApacheTomcat10.1.0-M1至10.1.343.ApacheTomcat9.0.0-M1至9.0.98漏洞详情与利用条件该漏洞可能导致远程代码执行
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析大势下的牛马搭建本地gpt 架构 deepseek 微调
1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依
【Apache Tomcat信息泄露漏洞】猫饭_ACE 业务所需 tomcat apache java
一、漏洞详情ApacheTomcat是一个流行的开源Web服务器和Java代码的Servlet容器。9月28日，Apache发布安全公告，公开披露了Tomcat中的一个信息泄露漏洞（CVE-2021-43980）。由于某些Tomcat版本中的阻塞式读写的简化实现导致存在并发错误（极难触发），可能使客户端连接共享一个Http11Processor实例，导致响应或部分响应被错误的客户端接收，造成信息泄
CVE - 2016 - 6628 漏洞复现：深入剖析及实战演示 Waitccy 网络安全网络安全 java
CVE-2016-6628漏洞复现：深入剖析及实战演示一、引言在网络安全领域，漏洞复现是理解和应对安全威胁的重要手段。CVE-2016-6628是一个影响广泛的严重漏洞，它主要存在于某些版本的Android系统中，攻击者可利用此漏洞通过特制的应用程序获取敏感信息、执行任意代码等，给用户带来极大的安全风险。本文将详细介绍CVE-2016-6628漏洞的背景、原理，并进行完整的漏洞复现过程，帮助读者更
python PySimpleGUI 使用 Seeklike python
#PySimpleGUI库快速简单构建一个gui窗口#PySimpleGUI是一个用于简化GUI编程的Python包，它封装了多种底层GUI框架（如tkinter、Qt、WxPython等），提供了简单易用的API。#PySimpleGUI包含了大量的控件（也称为小部件或组件），这些控件可以帮助你快速构建用户界面#导包importPySimpleGUIassgimportcv2importkeyb
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

[Transformer]CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

CSWin Transformer:基于交叉十字形窗口的视觉Transformer框架

Abstract

Section I Introduction

Section II Related Work

Section III Method

Part 1 Overall Architecture

Part 2 Cross-Shaped Window Self-Attention

Section IV Experiments

Part 1 ImageNet-1K Classification

Part 2 COCO Detection

Part 3 ADE20K Semantic Segmentation

Part 4 Ablation Study

Section V Conclusion

你可能感兴趣的:(CV,transformer,深度学习,计算机视觉)

CSWin Transformer:基于交叉十字形窗口的视觉Transformer框架