cheerful090

[论文阅读：姿态识别&Transformer] 2110 HRFormer: High-Resolution Transformer for Dense Prediction

文章目录

[论文阅读：姿态识别&Transformer] 2110 HRFormer: High-Resolution Transformer for Dense Prediction
- - 摘要：
  - 1.Introduction
  - 2. 相关工作
  - 3. High-Resolution Transformer
  - - 3.1. Multi-resolution parallel transformer
    - 3.2. Local-window self-attention
    - 3.3. FFN with depth-wise convolution.
    - 3.4. Representation head designs.
  - 4. 实验结果
  - - 4.1. 人体姿态识别
    - 4.2. 语义分割
    - 4.3. 图像分类
    - 4.4. 消融实验
  - 5. 结论

来自中国科学院大学、北大、微软亚研院

paper https://arxiv.org/abs/2110.09408

github https://github.com/HRNet/HRFormer

摘要：

我们提出了一种高分辨率Transformer (HRFormer)，它可以为密集的预测任务学习高分辨率表示，而原始的Vision Transformer产生低分辨率表示，并具有较高的内存和计算成本。我们利用了高分辨率卷积网络(HRNet)中引入的多分辨率并行设计，以及局部窗口自注意 local-window self-attention(该自注意对小的非重叠图像窗口[21]进行自我注意)，以提高内存和计算效率。此外，我们引入一个卷积到FFN，在跨越断开的图像窗口间交换信息。我们证明了高分辨率Transformer在人体姿态估计和语义分割任务上的有效性，例如，在COCO姿态估计上，HRFormer比Swin Transformer多1.3 AP，参数减少50%，FLOPs减少30%。

1.Introduction

Vision Transformer (ViT)在ImageNet分类任务上显示了良好的性能。后续的许多工作通过知识蒸馏(DeiT)、采用更深层次的架构(Cait)、直接引入卷积运算(Levit, Cvt)、重新设计输入图像tokens(T2T ViT)等方法提高了分类精度。此外，一些研究试图将Transformer扩展到更广泛的视觉任务，如对象检测[4]、语义分割[63,37]、姿态估计[51,23]、视频理解[61,2,30]等。本文主要研究用于密集预测任务的Transformer，包括姿态估计和语义分割。

Vision Transformer将一幅图像分割成大小为16 x 16的图像块序列，提取每个图像块的特征表示。因此，Vision Transformer的输出表示失去了精确密集预测所必需的细粒度空间细节。Vision Transformer只输出单尺度的特征表示，因此缺乏处理多尺度变化的能力。为了减轻特征粒度的损失，并对多尺度变化进行建模，我们提出了包含更丰富空间信息的High-ResolutionTransformer (HRFormer)，并为密集预测构建了多分辨率表示。

HRFormer是按照HRNet中采用的多分辨率并行设计构建的。首先，HRFormer在stem和第一阶段都采用了卷积，因为一些同时进行的研究[11,50]也表明卷积在早期表现更好。其次，HRFormer在整个过程中保持高分辨率流，并使用并行的中分辨率和低分辨率流帮助提高高分辨率表示。HRFormer具有不同分辨率的特征图，能够对多尺度变化进行建模。第三, HRFormer通过多尺度融合模块交换多分辨率特征信息，实现近程和长程注意力的融合。

在每一分辨率下，都采用局部窗口自注意机制(local-window self-attention)来降低内存和计算复杂度。我们将表示映射划分为一组不重叠的小图像窗口，并分别对每个图像窗口执行自注意。这就减少了内存和计算复杂度，从二次到线性的空间大小。我们进一步将3 x 3深度卷积引入到跟随局部窗口自注意的前馈网络(FFN)中，以在局部窗口自注意过程中断开的图像窗口之间交换信息。这有助于扩大感受野，对于密集的预测任务是必不可少的。图1显示了HRFormer块的详细信息。

图1. HRFormer block的说明。HRFormer块由 (a)局部窗口自注意local-window self-attention 和 (b)带深度卷积的前馈网络(FFN) 组成。local-window自注意方案的灵感来自于交错稀疏自注意([56 Ocnet,21])。

我们在图像分类、姿态估计和语义分割任务上进行了实验，并在各种基准上取得了竞争性能。例如，HRFormer-B比DeiT-B[42]在ImageNet分类中获得+1.0%的top-1准确度，参数减少40%，FLOPs减少20%。在COCO val姿态识别数据集下，HRFormer-B比HRNet-W48[41]获得0.9%的AP，参数减少32%，FLOPs减少19%。在PASCAL - Context测试集和COCO-Stuff测试集中，HRFormer-B + OCR 比 HRNet-W48 + OCR[55]获得+1.2%和+2.0% mIoU，参数减少25%，FLOPs略多。

2. 相关工作

Vision Transformer 随着Vision Transformer (ViT)和data-efficient image Transformer (DeiT)的成功，人们提出了各种技术来提高Vision Transformer的ImageNet分类精度。在最近的进步中，社区已经验证了几个有效的改进，如多尺度特征层次结构和包含卷积。

例如，并行工作MViT、PVT和Swin在遵循ResNet-50等典型卷积体系结构的空间配置的Transformer中引入了多尺度特征层次。与他们不同的是，我们的HRFormer通过利用受HRNet启发的多分辨率并行设计，融合了多尺度的特征层次。CvT、CeiT和LocalViT提出通过在自注意或FFN中插入深度卷积来增强Transformer的局部性。在HRFormer中插入的卷积的目的是不同的，除了增强局部性外，它还确保了非重叠窗口之间的信息交换。

之前的一些研究也提出了类似的局部自注意图像分类方案。它们在步进stride卷积后构造重叠的局部窗口，导致计算量大。与Swin Transformer相似，我们提出采用local-window自注意方案将输入特征图划分为不重叠的窗口。然后我们在每个窗口内独立地应用了自我注意，从而大大提高了效率。

有几个同时的作品[63,37]使用Vision Transformer来解决密集的预测任务，如语义分割。他们已经表明，增加视觉Transformer输出的表示的空间分辨率对语义分割是重要的。我们的HRFormer通过利用多分辨率并行Transformer方案，为解决视觉Transformer的低分辨率问题提供了一种不同的途径。

密集预测任务中的HRNet 高分辨率卷积算法在姿态估计和语义分割方面都取得了很大的成功。在高分辨率卷积神经网络的发展过程中，主要发展了三条主要路径，包括: (i)应用空洞卷积去除一些下采样层，(ii)使用解码器从低分辨率表示中恢复高分辨率表示，以及 (iii)在整个网络中保持高分辨率表示。我们的HRFormer属于第三条路径，同时保留了vision transformer和HRNet的优势。

图2. High-Resolution Transformer的架构。多分辨率并联Transformer模块用浅蓝色区域标记。每个模块由多个连续的多分辨率并联Transformer块组成。第一级用卷积块构造，其余三个级用transformer块构造。

3. High-Resolution Transformer

3.1. Multi-resolution parallel transformer

我们遵循HRNet设计，从高分辨率的卷积stem开始作为第一阶段，逐步添加高分辨率到低分辨率的流作为新阶段。多分辨率流并行连接。主体由一系列的阶段组成。在每个阶段中，每个分辨率流的特征表示通过多个Transformer块独立更新，并通过卷积多尺度融合模块重复交换分辨率间的信息。

图2说明了整个HRFormer体系结构。卷积多尺度融合模块的设计正是遵循了HRNet。我们在下面的讨论中说明了Transformer块的细节，更多的细节如图1所示。

3.2. Local-window self-attention

我们将特征图 $X\in \R^{N\times D}$ 分为一个不重合的小窗口的集合 $\to \{X_1,X_2,...,X_P\}$ , 其中每一个窗口尺寸为K x K。我们在每个窗口中独自计算多头自注意力MHSA。在第p-th个窗口的multi-head self-attention的公式为：

H表示头数，D表示通道数，N表示输入分辨率， $\hat{X}p$ 表示MHSA的输出表示。我们还应用了在T5 model[35]中应用的相对位置嵌入将相对位置信息合并到局部窗口自注意模块中。

MHSA汇聚了每个窗口内的信息，我们合并它们来计算输出的 $X^{MHSA}$ :
$\{\hat{X}_1,\hat{X}_2,...,\hat{X}_P\} \longrightarrow^{Merge} X^{MHSA}$
图1的左侧说明了局部窗口自我注意如何更新2D输入表示，其中多头自我注意在每个窗口中独立操作。

3.3. FFN with depth-wise convolution.

局部窗口自注意对不重叠的窗口分别进行自注意。窗口之间没有信息交换。为了处理这个问题，我们在视觉Transformer中形成FFN的两个point-wise MLP之间添加3 × 3深度卷积: $M L P (D W - C o n v . (M L P ())$ 。图1的右侧显示了一个例子，说明FFN如何通过3 × 3深度卷积更新2D输入表示。

3.4. Representation head designs.

如图2所示，HRFormer的输出由四个不同分辨率的特征图组成。我们将不同任务的表示头设计细节如下:(i) ImageNet分类，将四个不同分辨率的feature map发送到一个Bottleneck，输出通道分别为128、256、512和1024。然后利用跨步(strided)卷积对其进行融合，得到2048通道的最低分辨率特征图。最后，我们应用一个全局平均池操作，然后是最终的分类器。(ii)姿态估计，我们只在最高分辨率的特征图上应用回归头。(iii)语义分割，将语义分割头应用于拼接表示，将所有低分辨率表示上采样到最高分辨率，然后将其拼接在一起。

3.5. 实例化

我们在表1中说明了HRFormer的总体架构配置。我们用**(M1,M2,M3,M4)和(B1, B2, B3, B4)分别表示{state1, stage2, stage3, stage4}的模块个数和块个数。我们用(C1, C2, C3, C4), (H1,H2,H3,H4)和(R1, R2, R3, R4)**表示不同分辨率下Transformer块的通道数、头数和MLP膨胀比。

我们保留了第一阶段不变的原始HRNet，并使用Bottleneck作为基本的构建块。我们将Transformer块应用于其他阶段**，每个Transformer块由一个局部窗口自注意和一个包含3 × 3深度卷积的FFN**组成。为了简单起见，我们没有在表1中包含卷积多尺度融合模块。在我们的实现中，我们默认将四个分辨率流上的窗口大小设置为(7,7,7,7)。表2展示了三个复杂程度越来越高的不同HRFormer实例的配置细节，其中MLP扩展比率(R1、R2、R3、R4)为所有模型设置为(4、4、4、4)，没有在表中没有显示。

3.6. 分析

3×3深度卷积的好处有两个:一个是增强局部性，另一个是支持跨窗口的交互。我们在图3中演示了具有深度卷积的FFN如何能够将交互扩展到非重叠的局部窗口之外，并对它们之间的关系进行建模。因此，结合局部窗口自注意和具有3 × 3深度卷积的FFN，我们可以构建HRFormer块，显著提高内存和计算效率。

4. 实验结果

4.1. 人体姿态识别

训练设置 使用COCO数据集。我们遵循mmpose的大多数默认训练和评估设置，并将优化器从Adam改为AdamW。对于训练batch size，由于GPU内存有限，HRFormer-T和HRFormer-S选择256, HRFormer-B选择128。在COCO姿态估计任务中，每个HRFormer实验需要8× 32G-V100 GPU。

Results 表3报告了对COCO val集的比较。我们将HRFormer与具有代表性的卷积方法(如HRNet)和几种最新的Transformer方法(如PRTR[23]、TransPose-H-A6[51]和Tokenposse-L/D24[24])进行了比较。与输入大小为384x288的HRNet-W48相比，HRFormer-B增加0.9%，参数减少32%，FLOPs减少19%。因此，我们的HRFormer-B已经达到77.2% 在没有使用任何先进的技术，如UDP[20]和DARK[59]的情况下。我们相信我们的HRFormer-B无论采用UDP还是DARK方案都能取得更好的效果。

我们还报告了表4中COCO test-dev集的比较。我们的HRFormer-B在参数和FLOPs较少的情况下比HRNet-W48高出约0.7%。图4给出了一些基于COCO val集的人体姿态估计的示例结果。

4.2. 语义分割

表5. 与最近的SOTA在语义分割任务上的比较。我们报告了Cityscapes val、PASCAL-Context测试、COCO-Stuff test和ADE20K val上的mIoUs，测量了1024 × 1024的图像尺寸和19 × 1024 × 1024的输出标签图尺寸上的参数和FLOPs的数量。所有结果均采用多尺度测试进行评估。‡:在ADE20K上进行额外的预训练获得结果。

4.3. 图像分类

训练设置。我们在ImageNet-1K上进行比较。我们使用AdamW优化器，余弦衰减学习率，权值衰减为0.05，训练300个epochs的batch_size=1024的所有模型，并使用一些增强策略，包括rand augmentation[10]、mixup[60]、cutmix[58]等。HRFormer-T和HRFormer-S需要8 × 32G-V100 gpu, HRFormer-B需要32 × 32G-V100 gpu。

Results。我们将HRFormer与表6中一些有代表性的CNN方法和vision transformer方法进行比较，其中所有方法仅在ImageNet-1K上进行训练。为了公平起见，不包括具有较大数据集(如ImageNet-21K)的v - large的结果。根据表6,HRFormer实现了竞争效果。例如，HRFormer-B比DeiT-B获得1.0%的收益，同时节省了近40%的参数和20%的FLOPs。

4.4. 消融实验

Influence of 3 × 3 depth-wise convolution within FFN. 我们基于表7中的HRFormer-T研究FFN中3 × 3深度卷积的影响。我们观察到，在FFN中应用3 × 3深度卷积显著提高了多个任务的性能，包括ImageNet分类、PASCAL-Context分割和COCO姿态估计。例如，HRFormer-T + FFN w/ 3× 3深度卷积在ImageNet、PASCAL-Context和COCO上分别比HRFormer-T + FFN w/o 3× 3深度卷积的性能好0.65%、2.9%和4.04%。

Influence of shifted window scheme & 3×3 depth-wise convolution within FFN based on SwinT. 我们将我们的方法与表8中Swin Transformer[27]的移位窗方案进行比较。为了便于比较，我们按照和 Swin-T[27]相同的架构配置(除了我们不应用移位窗口方案)构造了一个Intra-Window Transformer架构 。我们看到，在FFN中应用3×3深度卷积可以改善Swin-T和IntrawinT。令人惊讶的是，将3× 3深度卷积应用于FFN时，Intrawin-T甚至优于Swin-T。

Shifted window scheme v.s. 3×3 depth-wise convolution within FFN based on HRFormerT. 在表9中，我们将FFN方案中的3 × 3深度卷积与基于HRFormer-T的移位窗口方案进行了比较。根据结果，我们看到在FFN中应用3×3深度卷积显著优于在所有不同的任务中应用移位窗口方案。

Comparison to ViT, DeiT & Swin on pose estimation. 我们在表10中报告了基于ViT- Large[13]、DeiT-B[42]和Swin-B[27]两种知名Transformer模型的COCO姿态估计结果。值得注意的是，ViT-Large和Swin-B都是在ImageNet21K上预先进行训练，然后在ImageNet1K上进行微调，分别达到了85.1%和86.4%的top-1准确率。DeiT-B在ImageNet1K上训练1000个epoch，达到85.2%的top-1准确率。我们应用SimpleBaseline[49]的方式，使用反卷积模块对三个方法之后的编码器输出表示进行上采样。参数和FLOPs的数量列在表10的第四和第五列中。根据表10中的结果，我们看到HRFormer-B比所有三个参数和FLOPs更少的方法获得了更好的性能。

Comparison to HRNet. 我们将HRFormer与几乎相同架构配置的卷积HRNet进行了比较，方法是将所有的Transformer模块替换为由两个3 - 3卷积组成的传统基本模块。表11显示了ImageNet、PASCAL-Context和COCO的对比结果。我们观察到HRFormer在各种配置下以更少的模型和计算复杂度显著优于HRNet。例如，HRFormer-T在三个任务上的表现分别比HRNet-T好2.0%、1.5%和1.6%，而只需要大约50%的参数和FLOPs。总之，HRFormer通过利用Transformer的优点(如与内容相关的动态交互)获得了更好的性能。

5. 结论

在这项工作中，我们提出了High-Resolution Transformer (HRFormer)，一个简单而有效的Transformer架构，用于密集的预测任务，包括姿态估计和语义分割。关键的见解是将HRFormer块与卷积HRNet的多分辨率并行设计相结合，该块将局部窗口自注意和包含深度卷积的FFN相结合，以提高内存和计算效率。此外，HRFormer还受益于在早期采用卷积，并将短期和长期注意与多尺度融合方案混合。实验验证了该算法在姿态估计和语义分割任务上的有效性。

Gradio + Transformers** 实现带记忆功能的对话系统完整代码示例大霸王龙 python python 开发语言
以下是一个使用Gradio+Transformers实现带记忆功能的对话系统完整代码示例，无需额外数据库依赖：importgradioasgrimportnumpyasnpfromtransformersimportAutoTokenizer,AutoModelfromtypingimportDict,List,Tuple#-----------------初始化模型---------------
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
详细分析 CentOS 磁盘扩容的配置：理论与实战（图文超全）码农研究僧配置 centos linux 运维扩充磁盘 lsblk
目录前言1.扫描SCSI总线识别新磁盘2.检查操作磁盘分区3.配置LVM（逻辑卷管理器）4.扩展文件系统前言找工作，来万码优才：#小程序://万码优才/r6rqmzDaXpYkJZF随着业务的增长，CentOS系统根目录（/）的磁盘空间可能不足，需要对磁盘进行扩容扩容流程包括物理层（磁盘）、逻辑卷管理（LVM）层和文件系统层，每一层的调整都至关重要整体扩充的流程：新增磁盘或扩展磁盘容量↓扫描SCS
电脑无法正常开机时如何解除BitLocker硬盘锁 ZMSunrise Windows系统 Dell BitLocker dell 系统安装 bitlocker dos
关于戴尔DELLlatitude5401系统崩溃后重装系统时由BitLocker引发的一系列复杂问题（不想看过程可以直接拉到最后看解决方法）说来话长，我尽量长话短说……其实都是一个声卡驱动引发的血案……最开始是因为耳机插上以后没有效果，找原因的时候发现没有RealtekHDAudioService，其实就是声卡驱动出了问题，无法识别耳机。接下来只能重装声卡驱动了。所以下载了驱动精灵进行更新，发现没
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
SVM模型实战1 浊酒南街 #支持向量机机器学习 python
目录前言实战前言这里有一份手写体字母识别的数据，我们采用网格搜索法，分别测试LinearSVC和SVC模型，最终选择SVC模型，并计算预测结果的准确性。实战#导入第三方模块fromsklearnimportsvmimportpandasaspdfromsklearnimportmodel_selectionfromsklearnimportmetrics#读取外部数据letters=pd.read
基于OpenCV的道路损伤识别 Srlua小谢传知代码论文复现 python 图形图像
✨✨欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。我是Srlua小谢，在这里我会分享我的知识和经验。希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。记得先点赞后阅读哦~所属专栏：传知代码论文复现欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨目录一、背景介绍二、算法原理（一）中值滤波（二）直方图均衡化（三）调节阈值（
python高级加密算法AES对信息进行加密和解密 Python数据分析与机器学习 python 开发语言
AES（高级加密标准）是一种广泛使用的对称加密算法，它以字节为单位处理数据，将明文分组加密成密文。AES算法的核心在于一个轮函数，该函数会对数据执行多次变换，包括字节代换、行移位、列混合和轮密钥加。这些操作确保了数据的安全性，使得原始数据经过AES加密后变得无法识别。AES加密过程AES加密过程涉及以下几个关键步骤：字节代换：这一步使用一个预定义的S盒（替换表）来替换状态矩阵中的每个字节。这是一个
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
Python自动化运维：一键掌控服务器的高效之道蒙娜丽宁 Python杂谈运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在互联网和云计算高速发展的今天，服务器数量的指数增长使得手动运维和管理变得异常繁琐。Python凭借其强大的可读性和丰富的生态系统，成为实现自动化运维的理想语言。本文以“Python自动化运维：编写自动化脚本进行服务器管理”为主题，深入探讨了如何利用Py
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
基于C++和ONNX Runtime的YOLOv5目标检测实战浪浪山小白兔 c++YOLO 目标检测
1.前言在计算机视觉领域，目标检测是一项关键任务，其应用广泛，涵盖了安防监控、自动驾驶、工业检测等众多领域。YOLOv5作为一种先进的目标检测算法，以其速度快、精度高的特点备受关注。本文将详细介绍如何使用C++结合ONNXRuntime推理引擎来部署YOLOv5模型，实现高效的目标检测。2.ONNX与YOLOv52.1ONNX简介ONNX（OpenNeuralNetworkExchange）是一种
质量管理各过程定义、作用、开展次数或频率 StickToForever 系统集成项目管理工程师第三版职场和发展经验分享学习笔记
定义过程定义规划质量管理识别项目及其可交付成果的质量要求和(或)标准，并书面描述项目将如何证明符合质量要求和(或)标准的过程管理质量把组织的质量政策用于项目，并将质量管理计划转化为可执行的质量活动的过程控制质量为了评估绩效，确保项目输出完整、正确且满足客户期望，而监督和记录质量管理活动执行结果的过程作用过程作用规划质量管理在整个项目期间为如何管理和核实质量提供指南和方向管理质量①提高实现质量目标的
conv2former模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习人工智能 python 神经网络 conda
模型背景在Conv2Former模型提出之前，视觉识别领域的研究主要集中在两个方向：传统卷积神经网络（ConvNets）新兴的视觉Transformer（ViTs）ConvNets通过堆叠基本模块和采用金字塔结构取得了显著进展，但往往忽略了全局上下文信息的显式建模。ViTs则通过自注意力机制有效捕捉全局依赖关系，在多个视觉任务中展现出优异性能。然而，ViTs在处理高分辨率图像时面临计算成本过高的问
论文阅读--Qwen2&2.5技术报告 __如果论文阅读 qwen
Qwen21引言所有模型都是在超过7trilliontoken（7万亿）的高质量、大规模数据集上预训练的2Tokenizer&Model2.1Tokenizer沿用Qwen（Bai等人，2023a）的做法，我们采用了基于字节级字节对编码的相同Tokenizer所有大小的模型都采用一个共有词汇表，包含151,643个常规词元和3个控制词元2.2模型架构基于Transformer架构的大型语言模型，具
springboot 根据UUID生成唯一的短链接 iteye_10392 网站设计 spring boot java spring
为了生成唯一的短链接，我们可以利用UUID（通用唯一识别码）来确保每个短链接的唯一性。然后，我们将这个UUID进行Base62编码以缩短其长度。以下是完整的SpringBoot应用程序示例，展示了如何实现这一功能。1.添加依赖首先，在你的pom.xml文件中添加必要的依赖项：org.springframework.bootspring-boot-starter-webcom.h2databaseh
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
文档图像矫正任务的前沿进展：引入Transformer框架、极坐标的思路
在《文档数字化采集与智能处理：图像弯曲矫正技术概述》一文中，我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级，文档图像去畸变技术也在不断探索新的可能性。今天，我们将讨论近年来文档图像矫正任务的前沿进展，分享一些我们正在关注的方向，欢迎与我们共同探讨、交流进步。Transformer架构下的文档矫正探索代表性工作DocTr:DocumentImageTransform
数据恢复常用方法（三）如何辨别固态硬盘故障类型记忆空间istore 固态硬盘SSD 数据恢复
数据恢复首先需要辨别固态硬盘故障类型，只有先确认故障类型，才能进行下一步动作如下是一种常见的场景，固态硬盘无法识别，接入电源与数据线，电脑的磁盘管理不显示任何信息。第一步：确认硬件状态，电源部分是否正常？主控core电压是否正常？一般主控core电压为（0.9V、1.1V等），其次就是nandflash电压是否正常？nandflash电压有2路，一路是NANDCore电压3.3V（也有的是2.5V
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
从0到1打造企业AI知识库-课程目录 MaxCode-1 人工智能 AIGC 知识图谱 Langchain Xinference
课程名称：「从0到1打造企业AI知识库：实用指南与生产落地」课程目录第一章：AI企业知识库的前景与价值1.企业知识库的概念与意义1.1什么是企业知识库？-企业知识库的核心组成-企业知识库的类型1.2企业知识库如何赋能内部协作与创新。2.AI在知识库中的作用AI赋能的核心技术：NLP、知识图谱、大模型。AI知识库的未来趋势与行业案例。第二章：搭建企业知识库的整体规划3.从需求分析到方案设计识别业务场
计算机网络（51）鉴别 IT 青年一研为定计算机网络
前言计算机网络鉴别是信息安全领域中的一项关键技术，主要用于验证用户或信息的真实性，以及确保信息的完整性和来源的可靠性。一、目的与重要性鉴别的目的是验明用户或信息的正身，对实体声称的身份进行唯一识别，以便验证其访问请求、保证信息来自或到达指定的源和目的。在信息安全领域，鉴别技术可以验证消息的完整性，有效地对抗冒充、非法访问和重放等威胁，是维护网络安全的重要手段。二、分类报文鉴别：定义：报文鉴别是指验
Transformer中的注意力机制：从基础概念到高级变体的全面解析 XianxinMao transformer 深度学习人工智能
注意力机制的基础概念核心组件(Query、Key、Value)的详细解释主要的注意力机制变体：自注意力(Self-Attention)多头注意力(Multi-HeadAttention)掩码注意力(MaskedAttention)注意力评分函数的类型和特点多头注意力的现代变体：MHA(Multi-HeadAttention)MQA(Multi-QueryAttention)GQA(Grouped-
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
Python识别处理验证码技术详解傻啦嘿哟 python 开发语言
目录一、验证码的种类二、OCR技术简介三、使用OCR技术识别验证码1.安装所需库2.下载和处理验证码图片3.使用OCR进行识别4.完整代码示例四、处理复杂验证码五、案例：识别古诗文网验证码六、总结验证码作为一种常见的安全手段，广泛应用于各种网站和应用中，以防止自动化脚本的恶意攻击。然而，在自动化测试或数据抓取过程中，识别验证码成为了一个不得不面对的问题。本文将详细介绍如何使用Python来识别和处
深度学习-92-大语言模型LLM之基于langchain的模型IO的模型调用皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Model的输入输出2langchain支持的模型3调用Ollama模型3.1设置环境变量3.2大语言模型LLM(OllamaLLM)3.2.1生成文本补全3.2.2流式生成文本补全3.3聊天模型(ChatOllama)3.3.1内置的消息类型3.3.2HumanMessage和SystemMessage3.3.3元组方式构成消息列表3.3.4stream流式3.4文本嵌入模型(Olla
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

[论文阅读：姿态识别&Transformer] 2110 HRFormer: High-Resolution Transformer for Dense Prediction

[论文阅读：姿态识别&Transformer] 2110 HRFormer: High-Resolution Transformer for Dense Prediction

文章目录

摘要：

1.Introduction

2. 相关工作

3. High-Resolution Transformer

3.1. Multi-resolution parallel transformer

3.2. Local-window self-attention

3.3. FFN with depth-wise convolution.

3.4. Representation head designs.

4. 实验结果

4.1. 人体姿态识别

4.2. 语义分割

4.3. 图像分类

4.4. 消融实验

5. 结论

你可能感兴趣的:(姿态识别,Transformer,transformer,深度学习,计算机视觉)