智源社区

视觉Transformer快速入门指南！

【栏目：前沿进展】Transformer 网络推动了诸多自然语言处理任务的进步，而近期 Transformer 开始在计算机视觉领域崭露头角，比如ViT和DETR等。

近日，华为诺亚方舟实验室高级研究员韩凯在第 26 期青源 Live 中带来了题为「视觉 Transformer 综述」的报告。在本次分享中，韩凯老师回顾了基于自注意力的 Transformer 模型的工作机制，并分析其优势。接着，韩凯老师回顾了 Transformer 在视觉任务中的应用，介绍了自监督学习、图像分类、目标检测、语义分割任务，以及「视觉-语言」多模态任务中的 Transformer 模型。

本文整理自报告，视频回放链接：https://hub.baai.ac.cn/live/?room_id=171

韩凯，华为诺亚方舟实验室高级研究员。北京大学硕士，浙江大学学士。主要研究方向为深度学习和计算机视觉，已在CCF-A类会议发表论文20余篇，其中GhostNet论文入围 PaperDigest CVPR 2020最具影响力论文之一。他还担任NeurIPS / CVPR / ICML / ICLR / AAAI / IJCAI / TNNLS / TCSVT等会议和期刊审稿人。

报告人：韩凯

整理：熊宇轩

编辑：李梦佳

Transformer 模型发展历程

Transformer 是谷歌于 2017 年提出的一种新型网络架构。有别于卷积神经网络和循环神经网络，Transformer 主要基于自注意力机制进行特征交互，其中还引入了多层感知机、ShortCut 连接等网络结构。Transformer 起初被用于自然语言处理领域，自 2020 年开始逐渐在计算机视觉领域兴起，取得了一些列惊艳的效果。

在 Transformer 模型的发展轨迹中，重要的里程碑式的工作包括：

（1）谷歌在论文「Attention is All You Need」中提出 Transformer 模型。（2）2018 年 10 月，研究人员提出 BERT，利用 NLP 领域的大量数据进行自监督学习，预训练得到的大模型在下游任务中展现出了很好的性能。

（3）2020 年 5 月，OpenAI 提出具有 1700 亿参数的 GPT-3 模型，在自然语言处理领域展现出了一定通用人工智能的特点，可以与人类进行较为自然的对话。

（4）2020 年 5 月，DETR 模型将 Transformer 用于目标检测任务。该模型无需进行 Region proposal 和 NMS 操作，极大简化了工作流程。

（5）2020 年 7 月，OpenAI 在 iGPT 中将 Transformer 用于图像预训练。（6）2020 年 10 月，谷歌的 ViT 模型首次基于纯 Transformer 架构实现图像分类，成为视觉 Transformer 领域的重要基础性架构。

（7）2020 年 12 月，华为诺亚方舟实验室提出用于底层视觉任务的 IPT 模型。

（8）2021 年至今，DeiT、PVT、TNT、Swin Transformer 等视觉 Transformer 模型相继被提出。

回顾：Transformer 工作原理

从广义的角度来看，Transformer 可以被用于处理序列化数据。Transformer 通过编码器提取输入序列的特征，并根据需要解码出新的序列，或完成分类等任务。

Transformer 包含多头自注意力机制、前馈神经网络、层归一化、Shortcut 连接、位置编码等组件。其中，最核心的部分为多头自注意力机制，它通过线性变换将输入转化为 Q（Query）、K（Key）、V（Value）矩阵。接着，我们通过 Q 和 K 的内积计算二者之间的相关性，再将相关性与 V 相乘得到修正后的 Token 表征作为多头自注意力的输出。

上述网络架构为 Transformer 带来了以下优势：

（1）多头自注意力机制可以捕获长程相关性。

（2）自注意力和前馈神经网络可以转化为矩阵乘法，从而实现并行计算，相较于循环神经网络可以大幅提高计算效率。

（3）前馈神经网络参数量大、模型结构易于拓展，可以构建处理大数据的大模型。

（4）对输入的序列没有先验要求，归纳偏置较少。

在每一个 Transformer 模块中，我们首先将自注意力机制的输入和输出通过 Shortcut 连接相加，接着我们将该值作为前馈网络层的输入，并再次通过 Shortcut 连接对前馈网路的输入和输出求和。通过迭代式地累加，我们可以实现对 Transformer 模型的扩展。同时，FFN 层的维度也可以被拓宽或缩小。

由于 Transformer 中的自注意力结构本身并不能刻画不同 token 的空间位置信息，因此我们通过位置编码来感知位置信息。通常而言，我们直接将位置编码向量与 token 的嵌入相加。解码器与编码器的结构类似，区别在于：输入给解码器的 K 和 V 来自于编码器的输出。

视觉 Transformer

华为诺亚方舟实验室将视觉 Transformer 模型领域的研究分为了骨干网络、高/中层视觉语义模型、底层视觉任务、视频处理、多模态任务、高效 Transformer 六大类：

（1）骨干网络：

监督式预训练（原始论文）：ViT、TNT、Swin 等
自监督预训练（原始论文）：iGPT、MoCo v3 等

（2）高/中层视觉语义模型：

目标检测：DETR、Deformable DETR、UP-DETR 等
分割：Max-DeepLab、VisTR、SETR 等
姿态估计：Hand Transformer、HOT-Net、METRO 等

（3）底层视觉任务：

图像生成：Image Transformer、Taming Transformer、TransGAN 等
图像增强：IPT、TTSR 等

（4）视频处理：

视频补绘：STTN 等
视频描述：Masked Transformer 等

（5）多模态任务：

分类：CLIP
图像生成：DALL-E、Cogview
NLP、CV 多任务：UniT

（6）高效 Transformer：

分解：ASH 等
蒸馏：TinyBert 等
量化：FullyQT 等
架构设计：ConvBert 等

基于Transformer的骨干网络

骨干网络：iGPT

OpenAI 于去年提出了自监督学习模型 iGPT，该模型的工作流程分为三步：

（1）图像下采样，从而减小序列的长度

（2）预训练：自回归像素预测任务和类似于 BERT 的像素填充任务

（3）调优与分类

如图 x 所示，在图像填充任务中，给定图像上半部分，我们通过 iGPT 图像预测图像的下半部分，得到的图像语义上与上半部分具有一致性；在图像生成任务中，iGPT 模型生成的图像质量可以比肩 GAN 等模型。

此外，iGPT 模型的预训练结果还可以被用于图像分类任务，其性能与 SimCLR、AMDIM、Isometric Nets 等基于 CNN 的自监督模型相当。

骨干网络：ViT

谷歌基于标准的 Transformer 编码器构建了著名的 ViT 模型。作者首先将模型切分成图块，再通过全连接层将图块投影为向量作为 Patch 嵌入。接着，我们将 Patch 嵌入与位置嵌入相加，输入给标准的 Transformer 编码器。最后，我们将 Transformer 编码器的编码结果输入给多层感知机分类头，从而对图像进行分类。这种简洁的模型架构在图像分类任务上取得了非常好的效果，在 JFT300M 数据集上预训练的 ViT 模型与使用 ResNet 等 CNN 架构的分类结果相当，且 ViT 所需要的预训练算力相较于 CNN 模型大幅减少。

如图 x 所示，实验结果表明，预训练的数据量越大，Transformer 预训练的性能越好。这主要是因为 Transformer 没有引入过多的归纳偏置，对数据没有任何的假设，不会限制网络本身的表达能力。预训练数据量相对较少时，ViT 模型的性能弱于 CNN 模型；随着数据量的增加，CNN 网络的效果达到了瓶颈，而 Transformer 模型的性能越来越高。最终，在使用全量数据的情况下，Transformer 网络的性能超过了 CNN 网络。

骨干网络：DeiT

由于 ViT 模型的预训练需要使用大量的数据，其训练所需的算力也是普通研究者无法承担的，于是 Facebook 提出了效率叫高的视觉 Transformer 模型 DeiT。该模型的主要如下：

（1）广泛测试了各种常用的神经网络训练技巧，包括：不同的 Adam 优化器，Rand-Augment、AutoAug、Mixup、CutMix 等数据增广方法，Drop Path、Erasing 等正则化技巧。其中，Drop-Path 和 Erasing 对训练性能至关重要。

（2）测试了知识蒸馏方法，作者发现我们不能直接对 class token 进行蒸馏，需要新建一个蒸馏 token，然后对其进行蒸馏。

骨干网络：ViT 变体

受 ViT 的启发，研究人员提出了一系列基于 Transformer 的视觉模型。具体而言，用于表征学习的骨干模型可以分类基于卷积的模型和基于注意力机制的模型。其中，基于注意力机制的模型又分为基于自注意力机制的 Transformer 模型和基于其它注意力机制的模型（如 SENet、NLNet、GCNet等）。基于自注意力机制的模型分为基于纯粹的 Transformer 架构的模型（例如，ViT、PVT、TNT、Swin），以及将 CNN 与 Transformer 相结合的模型（例如，BoTNet、CeiT）。

在 BotNet 中，由于 ResNet 中提取空间信息的是 3*3 的卷积层，作者将该层替换为了多头自注意力层，实现了性能提升。在 Outlook 注意力生成模型中，作者将 Transformer 的全局自注意力改为了局部的注意力结构。在 TNT 网络中，作者在每一个 Transformer 层中设计了内外两级 Transformer，外部的 Transformer 用于提取 patch 之间的全局相关性，内部的 Transformer 用于提取 patch 内部像素之间的局部相关性。PVT 首次将视觉 Transformer 改造为了层次化的金字塔结构，从而提取多尺度特征。Swin Transformer 也引入了金字塔结构和局部的自注意力机制，并通过有一定位移的窗口（shifted window）实现窗口之间的交互。

基于 Transformer 的骨干模型性能一览

华为诺亚方舟实验室对 CNN 模型、纯 Transformer 模型、CNN+Transformer 模型的运算效率进行了对比。实验结果表明，在相同的实验环境下，纯 Transformer 架构的 FLOPs 处于 ResNet 和 EfficientNet 之间。目前最优的模型是 CMT、VOLO 等将 CNN 与 Transformer 相结合的模型。

基于 Transformer 的目标检测

目标检测：DETR

DETR 是第一个将 Transformer 用于目标检测任务的模型，其骨干网络为 CNN，然后通过 Transformer 实现目标检测。其中，骨干网络提取出的特征图维度为 H*W*D，将其投影为 HW*D 的序列，与位置编码相加之后输入给标准的 Transformer 编码-解码结构。值得注意的是，Object Queries 为预定义好的 N 个方框，我们将其与 Ground Truth 的差异作为训练网络的损失函数。

DETR 成功的主要原因是它使用了二部图匹配损失函数。作者首先将 Groud Truth 中的检测框的数量与预测的数量对齐，进而找到最优的二部图匹配方案，再根据分类和检测框坐标构建二部图匹配损失。与 Faster-RCNN 相比，在参数量相近的情况下，DETR 的性能有显著的提升。

目标检测：Deformable DETR

DETR 的训练收敛速度较慢，商汤科技的代季峰组提出了 Deformable DETR，能够以比 DETR 快 10 倍的速度训练模型。该模型使用了多尺度特征，将金字塔结构中不同层的特征输入给 Transformer 模型，并提出了 Deformable 自注意力机制。

针对每一个 Query，该模型在每一个注意力头中都会通过Deformable 的方式找出与其最相关的位置，再对这些位置上的像素应用自注意力机制，进而通过注意力机制将不同头中提取出的特征进行聚合作为 Deformable 自注意力机制的输出，避免了全局自注意力机制中的大量冗余。实验结果表明，Deformable DETR 相较于 DETR 模型实现了 mAP 和运行速度的提升。

基于 Transformer 的目标检测模型性能一览

华为诺亚方舟实验室将目标检测模型分为了以下四类：

（1）基于 CNN 的模型：FCOS、Faster-RCNN 等

（2）CNN 作为骨干网络，Transformer 作为目标检测 Head：DETR、Deformable DETR 等

（3）Transformer 作为骨干网络，CNN 作为目标检测 Head：PVT+RetinaNet、Swin+ATSS 等

（4）纯 Transformer 模型：PVT+DETR、YOLOS 等

目前，性能最优的模型为 Deformable DETR 与 Swin+ATSS 的方案，研究人员正试图利用纯 Transformer 网络实现更好的目标检测性能。

语义分割：SETR

复旦大学提出了 SETR，将 Transformer 模型用于语义分割任务。该模型首先将图像划分为若干个 Patch，并将其输入给 Transformer 编码-解码结构，并通过少量的卷积层输出最终的分割结果。

实验结果表明，使用 ImageNet 21K 中的大量数据预训练的 SETR 模型可以在 ADE20K 数据集上取得超过 50% 的 mIoU，大幅优于基于 ResNet 的模型的性能。

多模态任务

CLIP

OpenAI 团队在 CLIP 项目中收集了大量的「文本-图像」对，用它们来训练模型，从而实现零样本的分类。具体而言，我们首先分别对收集到的图像和文本进行编码，然后通过对比学习预训练计算图文对两两之间的相似度，最终最大化对角线上的值。预训练得到的 CLIP 模型可以被用于进行零样本分类任务。实验结果表明，CLIP 模型的零样本分类性能优于以往的少样本学习分类器。

DALL-E

OpenAI 在 CLIP 的基础上进一步推出了可以根据文本生成图像的 DALL-E 模型，该模型可以「理解」输入文本的抽象含义，并以此生成生动的图像。在第一阶段，我们首先训练一个编码图像的编码-解码结构，并将中间表示作为图像特征。在第二阶段，我们提取文本的特征，并将其与图像特征拼接起来，从而得到图文对的特征。接着，我们通过 Transformer 模型生成图像。最后，我们通过 CLIP 模型重新对生成的图像排序，将排序最高的图像作为最终的输出。

结语

如今，有些研究者试图通过 Transformer 统一计算机视觉、自然语言处理等任务，我们可以将其看做对通用人工智能的进一步探索。除了 Transformer，近年来以多层感知机为代表的其它神经网络形态呈异军突起之势，存在巨大的探索空间。

了解更多信息请加入「计算机视觉」交流群

2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
算法刷题记录——LeetCode篇(1) [第1~100题](持续更新) Allen Wurlitzer 实战-算法解题算法 leetcode 职场和发展
更新时间：2025-03-21LeetCode刷题目录：算法刷题记录——专题目录汇总技术博客总目录：计算机技术系列博客——目录页优先整理热门100及面试150，不定期持续更新，欢迎关注！1.两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以
LLM 大模型技术知识最佳学习路径图发布！ AGI-杠哥学习人工智能语言模型 agi 自然语言处理
近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。如果你是一个LLM大模型的“技术小白”，我们建议的学习路径如下：技术交流群前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~我们建了大模型技术与面试交流群
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
Redis 哨兵模式的选举算法是什么？少林码僧 redis sentinel
Redis哨兵模式中的选举算法主要用于在主节点出现故障时，从多个Sentinel节点中选出一个领导者（Leader）来执行故障转移操作。Redis哨兵的选举算法基于Raft算法的简化版本，但不完全等同于标准的Raft算法。以下是其主要过程：一、发现主节点故障当一个Sentinel节点主观地认为主节点不可达时（通常是在一定时间内没有收到主节点的PING回复），它会将主节点标记为主观下线（Subjec
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
贪心算法之分发饼干努力小子 #刷题（简单难度）#贪心算法
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值gi，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸sj。如果sj>=gi，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。注意：你可以假设胃口值为正。一个小朋友最多只能拥有一块饼干。示例1:输入:[1
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
贪心算法-455分发饼干工大一只猿贪心算法算法
classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(),g.end());sort(s.begin(),s.end());intcount=0;inti=g.size()-1;intj=s.size()-1;for(i;i>=0;i--){if(j>=0&&s[j]>=g[i]){j--;count
455. 分发饼干（贪心算法）穿过漫长林径 LeetCode
455.分发饼干题目描述：有一群孩子和一堆饼干，每个孩子有一个饥饿度，每个饼干都有一个大小。每个孩子只能吃一个饼干，且只有饼干的大小不小于孩子的饥饿度时，这个孩子才能吃饱。求解最多有多少孩子可以吃饱。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:你有三个孩子和两块小饼干，3个孩子的胃口值分别是：1,2,3。虽然你有两块小饼干，由于他们的尺寸都是1，你只能让胃口值是1的孩子满足。所以
贪心算法：分发饼干 AlphaFinance 求职面试
假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出:1解释:
2021-11-12 455. 分发饼干（贪心算法） TABE_ 贪心算法 leetcode 算法
注：题目：假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

视觉Transformer快速入门指南！

Transformer 模型发展历程

你可能感兴趣的:(神经网络,大数据,算法,计算机视觉,机器学习)