乐亦亦乐

姿态估计——HigherHRNet：Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

论文原文：https://arxiv.org/pdf/1908.10357.pdf

github：https://github.com/HRNet/HigherHRNet-Human-Pose-Estimation

Abstract

自底向上的人体姿态估计方法由于尺度变化的挑战，在预测小个体的正确姿态方面存在困难。在这篇论文中，我们提出了HigherHRNet。一个新的自下而上的方法，使用高分辨率的特征金字塔学习scale-aware表达。多分辨率监督用于训练和多分辨率聚合用于推理，该方法能够解决自下而上多人姿态估计中的尺度变化挑战，并更精确地定位关键点，尤其是small persons。 HigherHRNet中的特征金字塔由来自HRNet的特征图输出和通过转置卷积的上采样高分辨率输出组成。 HigherHRNet对于medium person 在COCO测试上的性能优于以前最好的自下而上方法，表明了其处理规模变化的有效性。此外，在不使用改进或其他后处理技术的情况下，HigherHRNet在COCO的test-dev (70.5%AP)上获得了新的最先进的结果，超越所有现有的自下而上的方法。在CrowdPose test（67.6% AP）中 HigherHRNet甚至超过了所有自上而下的方法。表明它在拥挤场景中的鲁棒性。代码：https://github.com/HRNet/ Higher-HRNet-Human-Pose-Estimation

1.Introduction

2D人体姿态估计旨在定位人体解剖关键点（例如肘部、手腕等。）。作为人类行为理解的基本技术，近年来受到越来越多的关注。目前的人体姿态估计方法可分为自顶向下和自下而上的方法。自顶向下的方法依赖人体检测和单人姿态估计。由于自顶向下的方法可以通过裁剪和调整检测到的人员包围框的大小，将所有人员标准化到大致相同的规模，它们通常对人的尺度差异不太敏感。因此，在各种多人人体姿态估计基准上的最先进性能大多是通过自顶向下的方法来实现的。然而，由于这种方法依赖于一个单独的人检测器，需要单独估计每个人的姿态，它们通常是计算密集型的，而不是真正的端到端系统。相反，自下而上的方法首先通过预测不同解剖关键点的热图来定位输入图像中所有人的关键点，然后对关键点进行分组连接。这种策略有效地使自下而上的方法更快，更能够实现实时姿态估计。然而，由于自下而上的方法需要处理尺度变化，自下而上和自上而下两种方法的性能之间仍然存在很大的差距，特别是对于small scale的人来说。

在预测small persons的关键点方面两个挑战：

一是处理尺度变化，即提高small person的表现，而不影响large persons的表现。
另一方面是生成高分辨率的高质量热图，用于精确定位small person的关键点。

以往的自下而上方法主要集中在对关键点进行分组，简单地使用一个分辨率的特征图，即输入图像分辨率的四分之一来预测热图关键点。这些方法忽视了尺度变化的挑战，在推理过程中依赖于图像金字塔。如图1 ，a所示。

特征金字塔是处理尺度变化的基本组成部分，然而，自顶向下特征金字塔中的较小分辨率特征图通常面临第二个挑战。PersonLab 通过增加输入分辨率生成高分辨率热图，如图1，b所示。虽然随着输入分辨率的增加，small person的表现一直在增加，但当输入分辨率太大时，large person的表现开始下降。在不牺牲计算成本的情况下，以自然和简单的方式为自下而上的关键点预测生成空间上更精确和scale-aware的热图是至关重要的。

在这篇论文中，我们提出了Scale-Aware HighResolution NetWork（HigherHRNet）来解决这些挑战。HigherHRNet 通过一个新的高分辨率特征金字塔模块生成高分辨率热图。传统的特征金字塔，它从1/32的分辨率开始，采用横向连接的双线性上采样，逐渐将特征图分辨率提高到1/4。而高分辨率特征金字塔直接从1/4分辨率开始，这是主干网中分辨率最高的特征，并生成更高分辨率的反卷积特征地图。如图1，c所示。我们在HRNet的1/4分辨率路径上构建了高分辨率特征金字塔，使它有效。使HigherHRNet能够处理规模变化，我们进一步提出了一种多分辨率监督策略（Multi-Resolution Supervison strategy ），将不同分辨率的训练目标分配到相应的特征金字塔级别。最后，我们在推理过程中引入了一种简单的多分辨率热图聚合策略，以生成具有尺度感知的高分辨率热图。

我们在COCO关键点检测数据集上验证了我们的方法，表现出了优越的关键点检测性能。此外，我们还观察到，大部分增益来自medium person（关键点检测任务没有small person 标注）。这一观察验证了HigherHRNet确实解决了尺度变化的挑战。在CrowedPose test 胜过了所有现存的方法。

总结我们的贡献：

我们试图解决尺度变化的挑战，这在以前自下而上的多人姿态估计中是很少研究的；
我们提出了一个HigherHRNet，它在训练阶段产生带有多分辨率监督的高分辨率特征金字塔，在推理阶段产生多分辨率热图聚合来预测scale-aware的高分辨率热图，这对small persons 非常有用。
我们在COCO数据集上展示了HigherHRNet的有效性。我们的模型优于所有其他自下而上的方法。我们特别注意到，medium person中效果很大。
在CrowdPose 数据集上，我们实现了最优结果，表明了自下而上的方法比自上而下的方法更适合拥挤的场景。

2.Related works

Top-down methonds：

自顶向下的方法检测一个人包围框内的单个人的关键点。person bounding boxes 通常由目标检测Mask R-CNN直接生成，在更快的R-CNN上添加一个关键点检测分支，并在ROIPooling之后重用特征。进一步将自上而下的方法分为两个步骤，并使用单独的模型进行人的检测和姿态估计。

Bottom-up methods:

自下而上的方法检测图像中所有人的身体关节，然后将他们分组。 OpenPose使用两个分支，一个分支用于热图预测，一个分支用于分组。 OpenPose使用了一种名为part affinity field的分组方法，它学习连接两个关键点的二维向量场。Newell使用堆叠的沙漏结构（stacked hourglass network）用来热图预测和分组。分组是通过名为associate embedding的方法来完成的，它为每个关键点分配一个“标记”（向量表示），并根据标记向量之间的L2距离对关键点进行分组。PersonLab使用扩张（dilated）的ResNet，通过直接学习每对关键点的2D偏移字段来分组关键点。PifPaf使用Part Intensity Field（PIF）来定位body parts，使用Part Association Field（PAF）来关联body parts，形成完整的人体姿态。

Feature pyramid:

金字塔表示在最近的目标检测和分割框架中被广泛采用来处理尺度变化。SSD和MSCNN 在网络的多层中预测对象，而不合并特征。特征金字塔网络用自顶向下的路径扩展骨干模型，逐渐将特征分辨率从1/32恢复到1/4，使用双线性上采样和横向连接。共同的动机是让不同金字塔级别的特征来预测不同尺度的实例。然而，这种金字塔表示在自下而上的多人姿态估计中很少被探索。在本工作中，我们设计了一个高分辨率的特征金字塔，将金字塔扩展到不同的方向，从1/4分辨率特征开始，生成具有更高分辨率的特征金字塔。

High resolution feature maps:

生成高分辨率特征图的方法主要有4种。

编码器-解码器，在编码器中获取上下文信息，并在解码器中恢复高分辨率特征。解码器通常包含具有相同分辨率的编码器特征的跳过连接的双线性上采样操作序列。
空洞卷积，用于移除几个步长卷积/最大池化以保持特征图分辨率。空洞卷积可以防止丢失空间信息，但引入了更多的计算成本。
转置卷积，反卷积，在网络末端使用，以有效地提高特征图分辨率。 SimpleBaseLine证明了反卷积可以为热图预测生成高质量的特征图。
最近，提出了一个高分辨率网络（HRNet），在整个网络中保持高分辨率。 HRNet由多个不同分辨率的分支组成。低分辨率分支捕获上下文信息，高分辨率分支保留空间信息。HRNet 分支之间的多尺度融合，可以生成具有丰富语义的高分辨率特征图。

我们采用HRNet作为我们的基本网络来生成高质量的特征图。我们增加了一个反卷积模块来生成更高分辨率的特征图来预测热图。得到的模型被命名为Scale-Aware High-Resolution NetWork（HigherHRNet）。由于HRNet和反卷积是有效的， HigherHRNet是生成高分辨率特征图用于热图预测的有效模型。

3.Higher-Resolution Network

在这一部分中，我们介绍了我们提出的HigherHRNet。图2说明了我们方法的总体架构。我们将首先简要概述所提出的HigherHRNet，然后详细描述其组件。

3.1HigherHRNet

HRNet：

HigherHRNet 使用 HRNet (如图 2 ) 作为 backbone。在第一阶段，HRNet从高分辨率分支开始，在接下来的每一个阶段，一个新的分支被添加到当前分支中，与当前分支中最低分辨率的1/2个并行。由于网络有更多的阶段，它将有更多的并行分支，不同的决议和以前阶段的决议都保存在以后的阶段。一个包含3个并行分支的示例网络结构如图2所示。

我们使用类似于HRNet的方式实例化backbone, 网络从一个由两个3×3卷积开始，将分辨率降低到1/4。第一阶段包含4个残差（residual units）单元，其中每个单元由宽度（通道数）64的瓶颈（bottleneck）形成。然后是一个3×3卷积，将特征图的宽度减小到C。第二、第三、第四阶段分别包含1、4和3个多分辨率块。四个分辨率的卷积宽度分别为C、2C、4C和8C。多分辨率组卷积中的每个分支有4个残差单元，每个单元在每个分辨率中有两个3×3个卷积。我们对两个不同容量的网络进行了实验，分别将C设置为32和48。

HR Net[38,40]最初是为自顶向下的姿态估计而设计的。在本工作中，我们采用HRNet自下而上的方法，通过添加1×1卷积来预测类似于的热图和标签图，我们只使用最高分辨率（输入图像的1/4）特征图进行预测。

HigherHRNet:

热图的分辨率对于预测small persons的关键点至关重要。大多数现有的人体姿态估计方法都是通过准备ground-truth来预测高斯平滑的热图，并将一个未归一化的高斯核应用于每个关键点位置。添加这个高斯核有助于训练网络，因为CNNs倾向于输出空间平滑的响应作为卷积操作的一种性质。然而，应用高斯核也会给关键点的精确定位带来混乱，尤其是对于small person的关键点。减少这种混乱的一个繁琐方法就是减少高斯核的标准差。然而，我们经验性地发现，它使优化变得更加困难，并导致更糟糕的结果。

我们通过在不同分辨率下预测标准差不变的高分辨率热图来解决这个问题。自下而上的方法通常预测输入图像分辨率1/4的热图。然而，我们发现这个分辨率还不足以预测精确的热图。由于反卷可以有效地生成高质量、高分辨率的特征图，我们在HRNet中的最高分辨率特征图之上构建了HigherHRNet，如图2所示，方法是添加反卷积模块，如3.3节所讨论的。

反卷积模块将HRNet的特征和预测热图作为输入，并生成分辨率比输入特征图大2倍的新特征图。因此，反卷积模块与HRNet的特征图一起生成具有两个分辨率的特征金字塔。反卷积模块还通过增加额外的1×1卷积来预测热图。我们按照3.4节训练不同分辨率的热图预测器，并使用（3.5节）中描述的热图聚合策略进行推理。

如果需要更大的分辨率，可以添加更多的反卷积模块。我们发现反卷积模块的数量取决于数据集中人的规模分布。一般来说，包含small persons的数据集需要更大的分辨率特征图来进行预测，反之亦然。在实验中，我们发现添加一个反卷积模块在COCO数据集上达到了最佳的性能。

3.2 Grouping

最近的工作表明，采用关联嵌入（associate embedding）的简单方法可以很好地解决分组问题。我们使用associate embedding 进行关键点分组。分组过程通过对标签具有小l2距离的关键点进行分组，将无标识关键点聚类成个体。

3.3. Deconvolution Module

我们提出了一个简单的反卷积模块，用于生成分辨率比输入特征图高两倍的高质量特征图。我们使用4×4卷积(a.k.a。转置卷积)，然后是BatchNorm和ReLU，来学习对输入特征图进行上采样。或者，我们可以在反卷积后进一步添加几个Basic Residual Blocks，来调整上采用的特征图。我们在HigherHRNet中增加了4个残差块。

我们反卷积模块的输入是特征图和来自HRNet或之前反卷积模块的预测热图的连接。每个反卷积模块的输出也用来以多尺度方式预测热图。

3.4Multi-Resolution Supervision

与其他自下而上的方法不同，他们只对最大分辨率的热图应用监督，我们在训练过程中引入了一种多分辨率监督来处理尺度变化。我们将ground-truth关键点位置转换为所有分辨率热图上的位置，以产生不同分辨率的ground-truth热图。然后，我们将具有相同标准差的高斯核（默认情况下使用标准差=2）应用于所有这些ground-truth热图。我们发现重要的是不要缩放高斯核的标准差。这是因为特征金字塔的不同分辨率适合于预测不同尺度的关键点。在高分辨率特征图上，为了更精确地定位small person的关键点，需要一个相对较小的标准差(与特征图的分辨率相比）。

在HigherHRNet中的每个预测尺度上，我们计算了该尺度的预测热图与其相关的ground-truth热图之间的均方误差。热图的最终损失是所有分辨率的均方误差之和。值得强调的是，由于以下原因，我们没有将不同规模的人分配到特征金字塔的不同层次：

用于分配训练目标的启发式依赖于数据集和网络体系结构
其次，应用了高斯核，ground-truth关键点目标相互作用。因此，通过简单地设置忽略区域来解耦关键点是非常困难的

我们认为模型有能力在特征金字塔的不同层次自动聚焦于特定的尺度。

Tagmaps与热图在HigherHRNet中的训练不同，我们只以最低分辨率预测标记图，而不是使用所有分辨率。这是因为学习tagmap需要全局推理，更适合以较低的分辨率预测tagmap。我们也发现更高的分辨率并不能很好地预tagmap，甚至不能收敛。因此，我们以输入图像的1/4分辨率训练特征图上的tagmap。

3.5. Heatmap Aggregation for Inference

我们提出了一种推理过程中的热图聚合策略。我们使用双线性插值对所有具有不同分辨率的预测热图进行上采样。这种策略与以前的方法有很大的不同，它只使用来自单个尺度或单个阶段的热图进行预测。我们使用热图聚合的原因是启用Scale-aware的姿态估计。例如，COCO 关键点数据集包含从32^2像素到128^2像素以上的大规模方差的人。自顶向下的方法通过将人区域近似归一化为一个尺度来解决这个问题。然而，自下而上的方法需要意识到尺度，才能从所有尺度检测关键点。我们发现不同尺度的热图在HigherHRNet中更好地捕捉不同尺度的关键点。例如，低分辨率热图中漏掉的small persons的关键点可以在高分辨率热图中恢复。因此，对不同分辨率的预测热图进行平均，使HigherHRNet成为一种scal-aware的姿态估计器。

4.Experiments

5.Conclusion

我们提出了Scale-Aware High-Resolution Network(HigherHRNet)来解决自下而上的多人姿态估计问题中的尺度变化问题，特别是对于精确定位small persons的关键点。我们发现多尺度图像金字塔和较大的输入大小部分解决了这个问题，但是这些方法的计算成本很高。为了解决这个问题，我们提出了一种基于HRNet的高效高分辨率特征金字塔，并对其进行多分辨率监督训练。在推理过程中，具有多分辨率热图聚集的HigherHRNet能够有效地生成多分辨率和高分辨率的热图，以获得更精确的人体姿态估计。在COCO数据集上，HigherHRNet在很大程度上优于所有现有的自下而上方法，特别是对于small persons。

chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
人工智能OpenCV计算机视觉技术 yzx991013 OpenCV基础全集 opencv 计算机视觉人工智能
5.3cand可调节边缘检测完整代码：importcv2importnumpyasnp#载入图像，并处理可能的读取错误img_original=cv2.imread('./image/lena.jpg')ifimg_originalisNone:print("无法读取图像文件")raiseSystemExit#创建可调整大小的窗口cv2.namedWindow('Canny',cv2.WINDOW
从点云中剔除遮挡点 AuSwift 点云
在三维计算机视觉和点云处理中，点云是由大量的三维点组成的数据集。然而，有时候点云中的某些点可能会被其他物体所遮挡，这可能会对进一步的分析和处理造成困扰。本文将介绍如何使用MATLAB从点云中移除这些遮挡点。在开始之前，请确保你已经安装了MATLAB和PointCloudProcessingToolbox。接下来，我们将按照以下步骤进行操作。步骤1：加载点云数据首先，我们需要加载点云数据。假设我们的
【cs.CV】25.1.14 arxiv更新速递 hinmer CV每日更新 arxiv chatgpt gpt 人工智能自然语言处理自动驾驶计算机视觉 ai
【cs.CV】25.1.14arxiv更新110篇—第1篇----=====Omni-RGPT:UnifyingImageandVideoRegion-levelUnderstandingviaTokenMarks关键词:计算机视觉,多模态大语言模型,区域级理解,TokenMark,视频理解链接1摘要:我们提出了Omni-RGPT，这是一种多模态大型语言模型，旨在促进图像和视频的区域级理解。为了在
PCL 点云高程渲染：实现点云高程信息的颜色渲染技术征服冒险 PCL
PCL点云高程渲染：实现点云高程信息的颜色渲染点云渲染在计算机视觉和图形学中具有重要的应用价值。在处理点云数据时，一种常见的需求是通过将高程信息映射到颜色空间，以实现对点云的可视化。本文将介绍如何使用PCL（PointCloudLibrary）库实现点云的高程渲染，并提供相应的源代码。引言在开始之前，我们首先需要了解点云的基本概念。点云是由大量的三维点组成的数据集合，每个点都具有X、Y和Z坐标。点
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
PenGymy论文阅读亚里士多没有德775 论文阅读
这里发现idea被人家先发了，没办法，资料收集的不够全面，现在来学习一下这个项目这篇论文的贡献如下：总的来说，他的主要工作是构建逼真的仿真环境，然后根据这个仿真环境生成真实的靶场，使得这个智能体能够在这个真实的环境去互动。下面来逐渐解析他的工作，我尽量详细一点1、背景和动机这种项目是在网络攻防中，攻防双方攻击者处于暗面，防御者处于明面，这时候受到攻击后应急处理多少会造成损失，那么要是可以提前预测攻
YOLOv8重磅升级：引入DenseOne密集网络革新主干设计，重塑YOLO目标检测性能新高度程序员杨弋 YOLO 目标检测人工智能
随着深度学习技术的不断进步，目标检测作为计算机视觉领域的重要任务之一，其性能和应用范围也在不断扩大。作为目标检测领域的佼佼者，YOLO（YouOnlyLookOnce）系列算法以其出色的性能和实时性受到了广泛关注。而最近提出的YOLOv8更是在前代版本的基础上进行了多项优化，进一步提升了检测精度和速度。然而，尽管YOLOv8已经取得了显著的进步，但在处理复杂场景和遮挡问题时，仍然存在一定的挑战。为
基于深度学习的人脸表情识别系统：YOLOv5 + YOLOv8 + YOLOv10 + UI界面 + 数据集 2025年数学建模美赛深度学习 YOLO ui 分类人工智能
引言随着人工智能的飞速发展，深度学习技术已广泛应用于各个领域，尤其是在计算机视觉领域。人脸识别和表情识别是其中的一个重要应用，能够在多种场景下提供重要的信息，例如安全监控、情感分析、智能客服、健康监测等。在人脸表情识别任务中，准确识别人脸的情感状态（如高兴、愤怒、悲伤等）是一个极具挑战性的任务。随着YOLO系列算法的不断进步，YOLOv5、YOLOv8和YOLOv10的推出大大提高了目标检测的精度
基于YOLOv8深度学习的人脸年龄检测识别系统 2025年数学建模美赛 YOLO 深度学习人工智能 ui 数据挖掘分类
引言随着人工智能和计算机视觉的飞速发展，人脸分析技术在年龄检测领域取得了显著进展。人脸年龄检测系统在安全监控、广告推荐、健康监测等领域有广泛应用。本文将基于YOLOv8目标检测模型和UI界面，开发一个完整的人脸年龄检测识别系统。我们将详细介绍项目的技术实现、数据集构建、模型训练以及UI设计，并附上完整代码。目录引言系统架构设计数据准备公开人脸年龄数据集数据标注格式数据目录结构模型训练YOLOv8环
AlexNet：开启深度学习图像识别新纪元池央深度学习人工智能
一、引言在深度学习的璀璨星空中，AlexNet无疑是一颗极为耀眼的明星。它于2012年横空出世，并在ImageNet竞赛中一举夺冠，这一历史性的突破彻底改变了计算机视觉领域的发展轨迹，让全世界深刻认识到深度卷积神经网络在图像识别任务中的巨大潜力，从而掀起了深度学习研究与应用的热潮。二、AlexNet网络架构详解（一）输入层AlexNet的输入图像通常为224x224x3的彩色图像。这一尺寸的确定是
Python基于YOLOv8和OpenCV实现车道线和车辆检测 old_power 计算机视觉 YOLO opencv 计算机视觉 python
使用YOLOv8（YouOnlyLookOnce）和OpenCV实现车道线和车辆检测，目标是创建一个可以检测道路上的车道并识别车辆的系统，并估计它们与摄像头的距离。该项目结合了计算机视觉技术和深度学习物体检测。1、系统主要功能车道检测：使用边缘检测和霍夫线变换检测道路车道。汽车检测：使用YOLOv8模型识别汽车并在汽车周围绘制边界框。距离估计：使用边界框大小计算检测到的汽车与摄像头的距离。2、环境
卷积神经网络（CNN）：深度学习中的核心模型任义礼智信深度学习 cnn 人工智能
引言卷积神经网络（ConvolutionalNeuralNetworks,CNNs）是深度学习领域的一种重要模型，广泛应用于图像处理、计算机视觉、自然语言处理等多个领域。CNN凭借其卓越的特征提取能力和参数共享机制，已成为计算机视觉任务中最主流的算法之一。本文将深入探讨CNN的基本原理、结构组件、应用场景及其发展方向。CNN的基本原理CNN是一种特殊的前馈神经网络（FeedforwardNeura
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地