小小小~

P2T: Pyramid Pooling T ransformer for Scene Understanding

论文链接：
https://arxiv.org/abs/2106.12011
中文版本：
https://mmcheng.net/wp-content/uploads/2022/08/22PAMI_P2T_CN.pdf
代码链接：
https://github.com/yuhuan-wu/P2T

P2T: Pyramid Pooling T ransformer for Scene Understanding

一、摘要
二、研究动机
三、实现细节
- （一）、金字塔池化
- （二）、P2T
- （三）、金字塔池化 Transformer
- （四）、基于池化的多头自注意力模块（P-MHSA）
四、实验验证
- （一）、分类
- （二）、分割
- （三）、检测
- （四）消融实验

一、摘要

金字塔池化计算方式由于其出色的上下文提取能力，从而在各项视觉任务中取得了很好的效果。然而，金字塔池化在骨干网络的设计中至今并没有被探索过。因此，本文提出将金字塔池化引入到视觉 Transformer 中的多
头自注意力模块（Multi-Head Self-Attention，MHSA）里面，既减少了图像词符序列的长度，同时提取到更好的语境特征。基于本文提出的金字塔池化多头注意力，提出金字塔池化 Transformer（Pyramid Pooling Transformer，P2T）骨干网络。

二、研究动机

金字塔池化是一种具有较长历史的计算机视觉技术，它通过提取上下文信息并利用具有不同感受野的多层池化操作在输入特征上进行多尺度运算。这种简单的技术已在各种下游视觉任务中被证明有效，例如语义分割和物体检测。然而，最近的金字塔池化方法高度依赖于预训练的卷积神经网络骨干，因此它们仅限于一些特定的视觉任务。换言之，金字塔池化技术在具有广泛应用的骨干网络设计中尚未被探索。为了弥补这一个差距，本文
将金字塔池化应用于视觉 Transformer 模块中，从而减少序列长度并且同时学习到强大的上下文表征。金字塔池化的计算效率也非常高，它给视觉 Transformer 带来的计算开支几乎可以忽略不计。
通过提出一个新的 Transformer 骨干网络来实现这一目标，即金字塔池化 Transformer（Pyramid PoolingTransformer，P2T）。将金字塔池化的想法应用于视觉Transformer 的多头自注意力模块中，不但减少了该模块的
计算开支，同时也获取到了丰富的上下文信息。通过将基于新池化的多头自注意力模块用于 Transformer 中，P2T 在特征学习和视觉识别方面的表现都比其他基于单层池化操作的PVT 和 MViT更加强大。利用各种典型的视觉任务，例如图像分类、语义分割、物体检测和实例分割等基础视觉任等来评估 P2T 的性能。大量实验表明，对于这些基本视觉任务，P2T 的性能优于所有以前基于卷积神经网络和Transformer 的骨干网络（有关语义分割的比较，请参见下图）。

总而言之，本文的主要贡献包括：
• 将金字塔池化封装到多头自注意力模块中，不但减少了图像特征序列的长度，同时也提取了强大的上下文特征。
• 将基于金字塔池化的多头自注意力模块引入到视觉Transformer 中来构建一种灵活并且对视觉任务有效的新骨干网络，称之为金字塔池化 Transformer（Pyramid Pooling Transformer，P2T）。
• 充分的实验证明，当将 P2T 用作各种场景理解任务的骨干网络时，P2T 的性能明显优于以前那些基于卷积神经网络或者 Transformer 的网络。

三、实现细节

PVT和 MViT利用单层池化操作提取的池化特征看起来不那么强大。跟他们不一样的是，本文将金字塔池化的想法应用于视觉 Transformer 来减少了序列长度的同时，也学习到了更加有效的上下文特征。有了更加有效的上下文特征，金字塔池化可能比单层池化更好地计算多头自注意力模块中的自注意力关系。金字塔池化计算效率非常高，因此引入带来的计算开支可以忽略不计。实验表明，本文所提出的P2T 比以前的基于卷积神经网络和基于 Transformer 的网络的性能要好得多。

（一）、金字塔池化

何恺明等人将金字塔池化引入深度卷积神经网络里面进行图像分类和物体
检测。他们采用了几种池化操作将卷积神经网络骨干网络的最终卷积特征图池化为几个固定大小的特征图。然后将这些得到的特征图扁平化并拼接成固定长度的特征表示，从而实现了具有鲁棒性的视觉识别。之后，赵恒爽等人应用金字塔池化于语义分割任务。他们没有采用扁平化操作，而是将池化后的固定大小特征图上采样为原始大小，并将上采样后的特征图拼接起来进行后续预测。他们的成功表明金字塔池化在网络预测中的有效性。在此之后，金字塔池化已经被广泛应用于语义分割和物体检测等各种视觉任务。
与在特定任务下探索卷积神经网络中金字塔池化的现有文献不同，本文建议将金字塔池化的概念引入到视觉 Transformer 骨干网络里面。有了这个想法，首先将金字塔池化嵌入到 P2T 骨干网络的普通注意力模块中，这可以减少词符序列的长度，同时学习到强大的上下文特征表示。P2T 可
以很容易地被各种视觉任务用于特征表示的学习，而之前关于金字塔池化的工作仅限于特定的视觉任务。本文在图像分类、语义分割、对象检测和实例分割方面的大量实验证明了P2T 与现有的基于卷积神经网络或Transformer 的网络相比的优越性。因此，这项工作的独特性将有利于后续对各种视觉任务的研究。

（二）、P2T

P2T 的整体架构在下图中可以详细看到。以自然彩色图像作为输入，P2T 首先将其拆分为 $H /4 \times W /4$ 个块，每个块都被展平为 48 （4 × 4 × 3）个元素。将这些扁平化后的图像块输入到一个图像块编码模块中；它由一个线性投影层组成；然后加上可学习的位置编码。图像块编码模块将 48 的特征维度扩展到 C1。整个网络可以分为四个阶段，分别具有特征维度为 $C_i (i = {1, 2, 3, 4})$ 。在每两个阶段之间，每个 2 × 2 图像块组被拼接起来，并从 $4 × C_i$ 线性投影到 $C_{i+1}$ 维度 (i = {1, 2, 3})。这样，四个阶段的尺度就变成了 $H /4 \times W /4 ， H /8 \times W /8 ， H /16 \times W /16 ，和 H /32 \times W /32$ 。从四个阶段，可以分别推导出四个特征表示 {B1, B2, B3, B4}。其中只有 B4 将用于图像分类的最终预测，但是所有金字塔特征都可以用于下游场景理解任务。

（三）、金字塔池化 Transformer

金字塔池化已被广泛用于许多与卷积神经网络协作的场景理解任务中。然而，现有文献通常基于已设计好的骨干网络，并在它们基础之上利用金字塔池化额外设计一些模块，用于提取特定任务的全局上下文信息。相比之
下，本文首次探索了 Transformer 和骨干网络之中的金字塔池化，目的是为了普遍改善各种场景理解任务。为此，金字塔池化的想法Transformer 结合，同时减少多头自注意力模块的计算负荷并捕获丰富的上下文信息。
P2T 的基本单元结构在下图中进行了展示。输入特征首先通过基于金字塔池化的多头自注意力模块，其输出与映射的自身相加，然后是 LayerNorm。如同传统的 Transformer模块，接下来是一个前馈网络（FFN）用于特征投影。一个残差连接和 LayerNorm被再次应用。上述过
程可以被表述为：

（四）、基于池化的多头自注意力模块（P-MHSA）

基于池化的多头自注意力模块的设计。其结构如图上（b）所示。首先，输入的 X 被重塑为二维空间。然后，在重塑的 X 上应用不同比例的多个平均池层，用以生成金字塔特征图，具体如下所示：

其中 $P_1, P_2, ..., P_n$ 表示生成的金字塔特征图，n 是池化层的数量。接下来，将金字塔特征图送入深度卷积进行相对位置编码：

其中 DWConv(·) 表示深度卷积，核大小为 3 × 3， $P^{enc}_i$ 为相对位置编码的 $P_i$ 。由于 $P_i$ 是池化特征，所以在式 (3) 中的操作只需要一点计算开支。之后，对这些金字塔特征图进行扁平化和串联:

公式中为了简单起见，省略了扁平化操作。这样，如果池化率足够大，P 可以是一个比输入 X 更短的序列。此外，P 包含了输入 X 的上下文抽象，因此在计算多头自注意力模块时可以作为输入 X 的有力替代。
假设多头自注意力模块中的查询、键和值张量分别为 Q、K 和 V。与其采用传统的如下方法：

本文提出采用：

然后，Q, K, V 被送入注意力模块，以计算注意力特征 A。它可以被表述为如下形式：

其中 $d_K$ 是 K 的通道尺寸。和 $\sqrt d K$ 可以作为一个近似的标准化。Softmax 函数是沿着矩阵的行来应用的。为了简介，上式省略了多头的概念。
由于 K 和 V 的长度比 X 小，所提出的 P型多头自注意力模块比传统的多头自注意力模块更有效率。此外，由于 K和 V 包含高度抽象的多尺度信息，所提出的 P型多头自注意力模块在全局上下文依赖性建模方面有更强的能力，这对场景理解很有帮助。从不同的角度来看，金字塔池化通常被用作连接在已有骨干网络基础之上的有效技术；相比之下，本文首先通过 Transformer 在骨干网络内利用金字塔池化，从而为场景理解提供强大的特征表示学习。通过上述分析P型多头自注意力模块有望比传统的多头自
注意力模块更高效、更有效。

四、实验验证

不同深度的 P2T 设置：

金字塔池化设置：
将 P型多头自注意力模块中并行池化操作的数量设置为 4。在不同的阶段，金字塔池化的池化比率 Transformer 是不同的。第一阶段的池化比
率根据经验设定为 {12, 16, 20, 24}。除了在最后阶段，接下来每个阶段的池化比率都除以 2。在最后阶段，它们被设定为1, 2, 3, 4。在每个 Transformer 块中，P-型多头自注意力模块的所有深度卷积都有相同的参数。
其他设置：
虽然深度卷积的内核大小较大（如5 × 5）可以带来更好的性能，但为了提高效率，所有深度卷积的内核大小被设置为 3 × 3。选择Hardswish 作为非线性激活函数，因为它比 GELU节省了很多内存。除
此之外，Hardswish在实际使用上也很有效。和 PVTv2一样, 采用了重叠图像块编码。也就是说，使用3 × 3 的卷积，跨度为 2，用于从第二阶段到最后阶段的图像块编码，应用 7 × 7 的卷积，跨度为 4，用于第一阶段
的图像块编码。

（一）、分类

使用 AdamW作为优化器，初始学习率为 10−3，权重衰减为 0.05，每个小批次为 1024 张图像。用余弦学习率衰减策略训练 P2T 300 个迭代单位。用于训练和测试的图像大小被调整为 224 × 224。模型在前五个迭
代单位中进行预热。

（二）、分割

应用 AdamW作为网络优化器，初始学习率为 10−4，权重衰减为 10−4。采用 γ = 0.9 的 poly 学习率计划。每个小批次有 16 张图像；用于训练的图像被调整大小并随机裁剪为 512 × 512。还启用了跨 GPU 的同步批次规范化。在测试过程中，图像短边被调整到 512，长边按比例进行调整。多尺度测试和翻转功能被禁用。

（三）、检测

（四）消融实验

探究多种金字塔池化比率：
为了验证使用多种池化比率的意义，进行了实验，以评估 P2T 与一个/两个/四个平行池化操作的性能。基线是没有相对位置编码、IRB 和重叠图像块编码的 P2T-Small。结果如下。可以看出，具有大池化比率的单一池化操作（例如 16, 24）对序列长度有很大的下采样比率。尽管如此，它在图像分类和语义分割方面的性能都非常差。然而，当单一池化操作的池化率为 12 时，如果进一步降低池化率，性能将达到饱和。当采用两个平行的池化操作时，即使有很高的下采样比率，对图像分类和语义分割来说，性能仍然变得更好。当四个并行的池化操作时，下采样率与池化率为 8（PVT 中的设置）的下采样率相同，且达到了最佳性能。

探究金字塔池化对不同阶段的意义：
对 P2T 的金字塔池化设计进行了不同阶段的消融研究。由于第 1 阶段只包含下采样的卷积，不在第 1 阶段进行这种消融研究。基线与上次消融研究相同。单个池化操作的池化率被设置为 8，以确保相同的下采样率。结果显示如下。可以看到金字塔池化可以提高所有阶段的性能。当更多的阶段应用多个池化操作时，性能变得更高。从结果来看，在第 4 阶段应用多个池化操作的改进比其他阶段更大，因为第 4 阶段比第 [2, 3] 阶段和第 5 阶段有更多的基本模块数。

探究池化操作的选择： 对不同的池化操作进行了实验，如下所示。有三种典型的选择，即最大池化、深度卷积和默认的平均池化。深度卷积的核大小与最大/平均池化相同，以保持相同的下采样率。很明显，不同的池化类型并不影响计算的复杂性，它们只影响下采样核的参数数量。关于
ImageNet 分类准确率的结果和 ADE20K 分割 mIoU 的结果，平均池化要比其他两种选择好得多。因此，应用平均池化作为默认的池化选择。

探究固定的池化大小： 当使用固定的池化比率时，池化特征图的尺寸会随着输入特征图的变化而变化。在这里，试图将所有阶段的池化大小固定为：1, 2, 3, 6。同时在所有阶段，都使用自适应平均池化。结果显示在如下。与默认设置相比，固定的池化大小大约节省了 10% 的内存用量和
12% 的计算开支。然而，top-1 的分类精度下降了 0.3%。而语义分割的性能则降低了 2.4%。因此，选择使用固定的池化比率，而不是固定的池化大小。

探究激活函数的选择： 使用 Hardswish 函数进行非线性激活函数，以减少训练阶段的 GPU 内存使用。通常情况下，当在 ImageNet上训练 P2T-Small、批次大小为 64 的情况下时，GELU的 GPU 内存使用量为 10.5GB，比 Hardswish 多 3.6 GB（+52%）。如果采用 Hardswish ，准确率没有明显下降。
探究其他设计： 为了验证其他设计选择的有效性，如相对位置编码、IRB 和重叠图像块编码，在基线上逐一添加这些组件。实验结果显示如下。可以看出，相对位置编码对图像分类和语义分割都有明显的改善。在大的池化比率下，池化后的特征会有较小的尺度，所以相对位置编码只需要可忽略的计算开支（对于 224 × 224 的输入大小，仅需 5M Flops）。
前馈网络中额外的深度卷积，即 IRB，也显示出明显的性能提升，证明了捕捉二维近邻关系的重要性。进一步增加重叠图像块编码，对于图像分类和语义分割，分别观察到 0.2%/1.4% 的精度提升。

和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
LLaMA Factory 微调后，迁移模型激进小猪1002 llama llamafactory 人工智能 python
方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub("your-username/your-model-name")tokenizer.push_to_hub("your-username/your-model-name")
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

P2T: Pyramid Pooling T ransformer for Scene Understanding

P2T: Pyramid Pooling T ransformer for Scene Understanding

一、摘要

二、研究动机

三、实现细节

（一）、金字塔池化

（二）、P2T

（三）、金字塔池化 Transformer

（四）、基于池化的多头自注意力模块（P-MHSA）

四、实验验证

（一）、分类

（二）、分割

（三）、检测

（四）消融实验

你可能感兴趣的:(Transformer,深度学习,人工智能)