weixin_50862344

【论文翻译】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

【论文】https://arxiv.org/abs/2204.12484v3

【github】GitHub - ViTAE-Transformer/ViTPose: The official repo for [NeurIPS'22] "ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation" and [Arxiv'22] "ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation"

摘要

虽然在设计中没有考虑到特定的领域知识，但plain vision
transformers在视觉识别任务中表现出了出色的性能。然而，很少有人努力揭示这种简单结构在姿态估计任务中的潜力。在本文中，我们通过一个简单的基线模型ViTPose，从模型结构的简单性、模型大小的可扩展性、训练范式的灵活性和模型之间知识的可移动性等方面展示了plain vision
transformers在姿态估计方面令人惊讶的良好能力。具体来说，ViTPose使用普通和非层次的视觉转换器作为骨干，为给定的人实例提取特征，并使用轻量级解码器进行姿态估计。利用可扩展的模型容量和变压器的高并行度的优势，它可以从100M参数扩展到1B参数，在吞吐量和性能之间设置一个新的帕累托前沿（Pareto front）。此外，ViTPose在注意力类型、输入分辨率、预训练和微调策略以及处理多个姿态任务方面非常灵活。我们还通过经验证明，大型ViTPose模型的知识可以通过一个简单的知识令牌轻松地转移到小型模型。实验结果表明，我们的基本ViTPose模型在具有挑战性的MS COCO关键点检测基准测试中优于代表性方法，而最大的模型在MS COCO测试开发集上设置了新的最先进的AP，即80.9 AP。代码和模型可以在https://github.com/ViTAE-Transformer/ViTPose上找到。

1. 介绍

人体姿态估计是计算机视觉的基本任务之一，具有广泛的实际应用[51,29]。它旨在定位人体解剖学的关键点，由于姿态重叠（occlusion）、截断（truncation）、尺度和人体外观的变化，它具有挑战性。为了解决这些问题，基于深度学习的方法已经取得了快速进展[37,42,36,50]，这些方法通常使用卷积神经网络来解决具有挑战性的任务。

近年来，vision transformers[13,31,10,34,32]在许多视觉任务中显示出巨大的潜力。受其成功的启发，不同的vision transformers结构已经部署到姿态估计任务中。它们大多采用CNN作为主干，然后使用复杂结构的转换器对提取的特征进行细化，并对主体关键点之间的关系进行建模。例如，PRTR[23]结合了变压器编码器和解码器，以级联方式逐步细化估计关键点的位置。TokenPose[27]和TransPose[44]则采用编码器-only transformer结构来处理cnn提取的特征。另一方面，HRFormer[48]利用变压器直接提取特征，通过多分辨率并联变压器模块引入高分辨率表示。这些方法在姿态估计任务中取得了优异的性能。然而，它们要么需要额外的cnn来进行特征提取，要么需要精细地设计transformer结构以适应任务。这促使我们从相反的方向思考，普通vision transformers在姿态估计方面能做得多好?

为了找到这个问题的答案，我们提出了一个简单的baseline模型，称为ViTPose，并在MS COCO Keypoint数据集[28]上演示了它的潜力。具体来说，ViTPose使用普通和非分层的vision transformers[13]作为骨干，为给定的人实例提取特征映射，其中骨干预先训练了利用掩码图像建模任务，例如MAE[15]，以提供良好的初始化。然后，一个轻量级解码器通过特征图的上采样和热点图的回归来处理提取的特征，该解码器由两个反褶积层和一个预测层组成。尽管在模型中没有精心设计，ViTPose在具有挑战性的MS COCO关键点测试开发集上获得了最先进的(SOTA)性能80.9 AP。值得注意的是，本文并没有声称算法的优越性，而是提出了一个简单可靠的 transformers 基线，具有更好的姿态估计性能。

除了卓越的性能外，我们还从简单性、可伸缩性、灵活性和可移植性等各个方面展示了ViTPose令人惊讶的好能力。1)为了简单，由于vision transformers具有强大的特征表示能力，ViTPose框架可以非常简单。例如，骨干编码器的设计不需要任何特定的领域知识，并且通过简单地堆叠几个transformers层来获得一个简单的非分层encoder结构。decoder可以进一步简化为单个上采样层，然后接上一个卷积预测层，性能下降可以忽略不计。这种结构上的简单使得ViTPose具有更好的并行性，从而在推理速度和性能上达到了新的帕累托前沿，如图1所示。2)此外，结构简单带来了ViTPose出色的可扩展性。因此，它受益于可扩展的预训练vision transformers的快速发展。具体地说，可以通过堆叠不同数量的transformers层和增加或减少特征维来轻松控制模型大小，例如，使用ViT-B、ViT-L或ViT-H来平衡各种部署需求的推断速度和性能。3)此外，我们证明了ViTPose在训练范式中非常灵活。ViTPose可以很好地适应不同的输入分辨率和特征分辨率，**并可以为更高分辨率的输入提供更准确的姿态估计结果**。除了通常在单个姿态数据集上训练ViTPose外，我们还可以通过非常灵活地添加额外的解码器对其进行修改，以适应多个姿态数据集，从而形成联合训练管道，并带来显著的性能改进。由于ViTPose中的解码器是相当轻量级的，因此这种训练模式只带来边际的(额外的)计算成本。此外，ViTPose在使用更小的未标记数据集进行预训练或使用冻结的注意力模块进行微调时，仍然可以获得SOTA性能，比完全预训练的微调范式需要更少的训练成本。4)最后，通过一个额外的可学习的知识 token，将大型ViTPose模型的知识转移到小型ViTPose模型，从而可以很容易地提高小型ViTPose模型的性能，证明了ViTPose良好的可转移性。

总之，本文的贡献有三方面。1)我们提出了一个简单而有效的人体姿态估计基线模型ViTPose。它在MS COCO Keypoint数据集上获得SOTA性能，甚至没有使用复杂的结构设计或复杂的框架。2）简单的ViTPose模型被证明具有令人惊讶的良好功能，包括结构的简单性、模型大小的可伸缩性、训练范式的灵活性和知识的可转移性。这些功能为基于vision transformers的姿态估计任务建立了强大的基线，并可能为该领域的进一步发展提供线索。3)在流行基准上进行综合实验，研究和分析ViTPose的能力。以一个非常大的视觉转换器模型ViTAE-G[52]为骨干，单个ViTPose模型在MS COCO Keypoint test-dev集中获得了最佳的80.9 AP

图1:MS COCO val集上ViTPose和SOTA方法在模型大小、吞吐量和精度方面的比较。每个气泡的大小代表模型参数的数量

2. 相关工作

2.1 用于姿态估计的vision transformers

姿态估计经历了从cnn[42]到视觉变压器网络的快速发展。早期的工作倾向于将transformer视为更好的解码器[23,27,44]，例如TransPose[44]直接处理cnn提取的特征来建模全局关系。TokenPose[27]通过引入额外的标记来估计被遮挡的关键点的位置，并对不同关键点之间的关系建模，从而提出了基于标记的表示。为了摆脱cnn对特征提取的影响，提出了HRFormer[48]使用变压器直接提取高分辨率特征。为了逐步融合HRFormer中的多分辨率特征，提出了一种精巧的并联变压器模块。这些基于变压器的姿态估计方法在流行的关键点估计基准上获得了优异的性能。然而，它们要么需要cnn进行特征提取，要么需要仔细设计变压器结构。目前在探索普通vision transformers在姿态估计任务中的潜力方面的努力很少。在本文中，我们通过提出一个简单而有效的基线模型ViTPose来填补这一空白，该模型基于普通的vision transformers。

2.2 vision transformers预训练

受ViT[13]成功的启发，提出了许多不同的vision transformers主干[31,43,40,55,39,52,38,53]，它们通常在完全监督的设置下在ImageNet-1K[12]数据集上进行训练。最近，自监督学习方法[15,4]被提出用于训练普通视觉变压器。这些方法以掩码图像建模(MIM)为借口，为普通视觉转换器提供了良好的初始化。本文主要针对姿态估计任务，采用基于MIM预训练的普通视觉变形器作为骨干。此外，我们还探讨了使用ImageNet-1K进行预训练对于姿态估计任务是否必要。令人惊讶的是，我们发现使用较小的未标记姿态数据集进行预训练也可以为姿态估计任务提供良好的初始化

3. ViTPose

3.1 ViTPose的简单性

结构简单。本文的目标是为姿态估计任务提供一个简单而有效的vision transformers 基线，并探索普通和无层次vision transformers[13]的潜力。因此，我们尽量保持结构简单，并尽量避免花哨但复杂的模块，即使它们可能提高性能。为此，我们简单地在变压器主干之后附加了几个解码器层来估计关键点的热图，如图2 (a)所示。为了简单起见，我们在解码器层中不采用跳过连接或交叉注意力（kip-connections or cross-attentions），而是采用简单的反卷积层和预测层，如[42]。具体来说，给定一个人实例图像X∈ $R^{H\times W \times 3}$ 作为输入，ViTPose首先通过 patch embedding 层将图像嵌入到tokens中，即F∈ $R^{\frac{H}{d}\times\frac{W}{d} \times C }$ ，其中d(默认为16)为 patch embedding 的下采样比，C为通道维数。在此之后，嵌入的tokens被多个vision transformers处理，每个变压器层由一个多头自注意(MHSA)层和一个前馈网络(FFN)组成，即:

其中i表示第i个transformers层的输出，初始特征F0 = PatchEmbed(X)表示 patch embedding层之后的特征。需要指出的是每个transformers层的空间和通道尺寸都是恒定的。我们将骨干网的输出特征表示为Fout ∈ $R^{\frac{H}{d}\times\frac{W}{d} \times C }$

我们采用两种轻量级解码器对骨干网提取的特征进行处理，并对关键点进行定位。第一个是经典的解码器。它由两个反卷积组成，每个反卷积块包含一个反卷积层，后面是批归一化[19]和ReLU[1]。按照以往方法的共同设置[42,50]，每个块对特征图进行2次上采样。然后利用核尺寸为1 × 1的卷积层得到关键点的定位热图，即:

其中K∈ $R^{ \frac{H}{4} \times \frac{W}{4} \times N_{K}}$ 表示估计的热图(每个关键点一个)，Nk是要估计的关键点数量，对于MS COCO数据集设置为17。

虽然经典的解码器是简单和轻量级的，但我们也尝试了ViTPose中另一个更简单的解码器，由于vision transformers主干的强大表示能力，它被证明是有效的。具体来说，我们直接用双线性插值对特征图进行4次上采样，然后用ReLU和核大小为3 × 3的卷积层得到热图，即

尽管该解码器的非线性能力较小，但与经典解码器和以往代表性方法中精心设计的基于transformers的解码器相比，其性能具有竞争力，体现了ViTPose结构的简单性。

图2:(a) ViTPose的框架。(b)transformer块。(c)经典解码器。(d)简单解码器。(e)用于多个数据集的解码器

3.2 ViTPose的可扩展性

由于ViTPose结构简单，可以根据部署需求在图1的新帕累托前沿中选择一个点，通过堆叠不同数量transformers层，增加或减少特征维数，轻松控制模型大小。从这个意义上说，ViTPose可以受益于可扩展的预训练vision transformers的快速开发，而无需对其他部件进行太多修改。为了研究ViTPose的可伸缩性，我们使用预先训练的不同模型容量的骨干，并在MS COCO数据集上对其进行微调。例如，我们使用ViT-B, ViT-L, ViT-H [13], 和ViTAE-G[52]与经典解码器进行姿态估计，并观察到随着模型尺寸增加的一致性能增益。对于在预训练时使用大小为14 × 14的 patch embedding的ViT-H和ViTAE-G，我们使用零填充（zero padding）来制定与ViT-B和ViT-L相同设置的大小为16 × 16的 patch embedding

3.3 ViTPose的灵活性

预训练数据灵活性。使用ImageNet[12]预训练的骨干网的实际上已经成为获得良好初始化的一个常规。但是，除了姿态估计之外，它还需要额外的数据，这使得姿态估计任务对数据的要求更高。这就涉及到我们是否可以在整个训练阶段只使用姿态数据来放松数据要求。为了探索数据的灵活性，除了ImageNet[12]预训练的默认设置外，我们使用MAE[15]分别用MS COCO[28]和MS COCO与AI Challenger[41]的组合对主干进行预训练，从图像中随机屏蔽75%的补丁并重建这些被屏蔽的补丁。然后，我们使用预训练的权重来初始化ViTPose的主干，并在MS COCO数据集上对模型进行微调。令人惊讶的是，虽然姿态数据的体积比ImageNet小很多，但仅用姿态数据训练的ViTPose可以获得具有竞争力的性能，这意味着ViTPose可以从不同尺度的数据中灵活地学习良好的初始化。

分辨率的灵活性。我们改变ViTPose的输入图像大小和下采样比d，以评估其在输入和特征分辨率方面的灵活性。具体来说，为了使ViTPose适应更高分辨率的输入图像，我们只需调整输入图像的大小，并相应地训练模型。此外，为了使模型适应更低的下采样比，即更高的特征分辨率，我们只需改变patch embedding层的步幅，从而对重叠的tokens进行分区，并保留每个patch.的大小。我们表明，无论是更高的输入分辨率还是更高的特征分辨率，ViTPose的性能都有所提高

注意类型灵活性。由于注意力计算的二次计算复杂度和内存消耗，在较高分辨率的特征图上使用全注意力会造成巨大的内存占用和计算成本。基于相对位置嵌入的基于窗口的注意[25,26]已被探索，以减轻处理高分辨率特征映射的沉重内存负担。然而，由于缺乏全局上下文建模能力，对所有transformers块简单地使用基于窗口的注意会降低性能。针对这一问题，我们采用了两种技术:1)移动窗口（Shift window）:不使用固定窗口进行注意力计算，而是使用Shift窗口机制[31]来帮助在相邻窗口之间传播信息;2)池化窗口（Pooling window）。除了移动窗口（Shift window）机制，我们还尝试了另一种解决方案——池化。具体来说，我们将每个窗口的token集合在一起，以获得窗口内的全局上下文特性。然后将这些特性输入到每个窗口中，作为键和值token，以实现跨窗口的特性通信。此外，我们证明了这两种策略是互补的，可以共同提高性能和减少内存占用，不需要额外的参数或模块，只需要对注意力计算进行简单的修改。

整合的灵活性。如NLP领域[30,2]所示，预训练的transformers模型可以很好地推广到其他部分参数调优的任务。为了研究它是否仍然适用于vision transformers，我们在MS COCO上对ViTPose进行了微调，其中所有参数都未冻结，MHSA模块分别冻结，FFN模块冻结。我们通过经验证明，当MHSA模块冻结时，ViTPose获得了与完全微调设置相当的性能。

任务的灵活性。由于ViTPose中的解码器相当简单和轻量级，我们可以采用多个解码器，通过共享骨干编码器来处理多个姿态估计数据集，而无需太多额外的成本。我们为每次迭代从多个训练数据集中随机采样实例，并将它们输入骨干和解码器，以估计对应于每个数据集的热图。

3.4 ViTPose的可移植性

提高较小模型性能的一种常用方法是从较大模型中转移知识，即知识蒸馏[17,14]。具体来说，给定一个教师网络T和学生网络S，一种简单的蒸馏方法是增加一个输出蒸馏损失 $L_{t\rightarrow s}^{od}$ ，使学生网络的输出模仿教师网络的输出，例如:

其中，k和Kt是在相同输入条件下，学生和教师网络的输出。

除了上述常用的方法外，我们还探索了一种基于token的蒸馏方法来连接大小模型，这是对上述方法的补充。具体来说，我们随机初始化一个额外的可学习知识token t，并将其附加到教师模型的patch embedding层之后的视觉token中。然后，我们冻结训练有素的教师模型，只调优几个epoch的知识令牌来获得知识，即:

其中 $K_{gt}$ 是ground truth热图，X是输入图像， $T\left \{t ; X\right\}$ 表示老师的预测，t *表示使损失最小化的最优令牌。在此之后，知识令牌t *被冻结，并在训练过程中与学生网络中的视觉token连接，以将知识从教师网络传输到学生网络。因此，学生网络的损失是

式中， $L_{t\rightarrow s}^{td}$ 和 $L_{t\rightarrow s}^{tod}$ 分别为token蒸馏损失和输出蒸馏损失与token蒸馏损失的组合

4.实验

实验部分就不写了，毕竟也没什么人能复现这种大实验

探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
基于STM32的平衡车外设控制应用案例，提供C++源码程序员Thomas STM32 单片机平衡车 stm32 c++单片机
基于STM32的平衡车外设控制应用案例**下面是一个使用STM32控制平衡车的简单应用案例，包含姿态传感器读取、电机控制和串口通信功能。主要功能使用MPU6050传感器读取姿态数据使用PID控制器调整平衡车姿态通过串口输出调试信息电机速度控制C++源代码#include"stm32f10x.h"#include//定义常量#definePWM_MIN1000#definePWM_MAX2000#d
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Python匿名函数Lambda，不止是省略函数名这么简单橙色小博 python的学习之旅 python 开发语言
目录1.前言2.Lambda函数的基本用法3.关于Lambda函数的应用3.1与map函数结合3.2lambda与if-else语句3.3多参数lambda3.4嵌套lambda3.5字典与lambda（也是我本人最喜欢的用法）3.6lambda其他用法4.总结：Lambda的编程哲学1.前言在Python的广阔天地里，Lambda函数宛如一颗璀璨的明珠，以其简洁优雅的姿态，为代码增添了一份独特的
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
PX4垂起（Tiltrotor）偏航控制研究 zhao23333 PX4
PX4垂起（Tiltrotor）偏航控制研究PX4垂起（Tiltrotor）偏航控制研究1.问题描述2.过渡过程中为什么没有偏航角度控制问题1：为什么在过渡阶段固定翼位置控制没有起作用？问题2：关于virtual_attitude_setpoint的使用问题3：为什么过渡状态姿态角给定值是固定的姿态控制给出的？3.如何修改固件使倾转旋翼在过渡状态也控制角度PX4垂起（Tiltrotor）偏航控制研
PX4飞控之位置控制（1）整体架构 Felix_ZL px4飞控 PX4 位置控制架构
位置控制是无人机飞控的核心算法之一，一方面根据commander中的flag标志位和Navigator中提供的航点信息进行控制（自主模式下），另一方面得到期望姿态角（setpoint）的四元数信息，给到姿态控制模块进行姿态控制。本文重点PX4飞控的位置控制的代码整体架构（mc_pos_control）,具体的控制算法将在后续文章中陆续奉上。位置控制模块的主函数：task_main()1.订阅结构体
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http