小王五年毕业

HRNet

人体关键点检测

论文：Deep High-Resolution Representation Learning for Hunman Pose Estimation

图1 人体关键点检测示意图（左）原图（右）关键点检测图

HRNet 是一个 2D 的检测方案，并非是一个 3D 的检测方案。它是一个单一个体姿态评估，每次只能识别一个人的姿势。所以需要一个特定的目标检测网络，先将每个人的位置信息得到，之后再逐个输入。

$0$ ：nose； $1$ ：left_eye； $2$ ：right_eye； $3$ ：left_ear； $4$ ：right_ear； $5$ ：left_shoulder； $6$ ：right_shoulder； $7$ ：left_elbow； $8$ ：right_elbow； $9$ ：left_wrist； $10$ ：right_wrist； $11$ ：left_hip； $12$ ：right_hip； $13$ ：left_knee； $14$ ：right_knee； $15$ ：left_ankle； $16$ ：right_ankle。
——COCO数据集针对人体检测的标点。

对于 Human Pose Estimation 任务，现在基于深度学习的方法主要有两种：

基于 regressing 的方式，即直接预测每个关键点的位置坐标。
基于 heatmap 的方式，即针对每个关键点预测一张热力图（预测出现在每个位置上的分数)。

HRNet 就是基于 heatmap 的一种方式。

项目结构

图2 HRNet-w32 的模型结构简图

如图 $2$ ，是我寻找到的关于 HRNet-w32 的模型结构简图，在论文中除了提出 HRNet-w32 外还有一个 HRNet-w48 的版本，两者区别仅仅在每个模块所采用的通道个数不同，网络的整体结构都是一样的。而该论文的核心思想就是不断地去融合不同尺度上的信息，也就是论文中所说的 Exchange Blocks 。

通过图 $2$ 可以看出， HRNet 首先通过两个卷积核大小为 $3\times3$ 步距为 $2$ 的卷积层（后面都跟有 BN 以及ReLU ）共下采样（缩小图片）了 $4$ 倍。然后通过 Layer1 模块，这里的 Layer1 其实和之前讲的 ResNet 中的 Layer1 类似，就是重复堆叠 Bottleneck ，注意这里的 Layer1 只会调整通道个数，并不会改变特征层大小。下面是实现 Layer1 时所使用的代码。

# Stage1
downsample = nn.Sequential(
    nn.Conv2d(64, 256, kernel_size=1, stride=1, bias=False),
    nn.BatchNorm2d(256, momentum=BN_MOMENTUM)
    # 使用 Batch Normalization
)
self.layer1 = nn.Sequential(
    Bottleneck(64, 64, downsample=downsample),
    Bottleneck(256, 64),
    Bottleneck(256, 64),
    Bottleneck(256, 64)
    # 重复堆叠
)

接着通过一系列 Transition 结构以及 Stage 结构，每通过一个 Transition 结构都会新增一个尺度分支。比如说 Transition1 ，它在 layer1 的输出基础上通过并行两个卷积核大小为 $3\times3$ 的卷积层得到两个不同的尺度分支，即下采样4倍的尺度以及下采样8倍的尺度。在 Transition2 中在原来的两个尺度分支基础上再新加一个下采样16倍的尺度，注意这里是直接在下采样8倍的尺度基础上通过一个卷积核大小为 $3 x 3$ 步距为 $2$ 的卷积层得到下采样16倍的尺度。如若读过原论文肯定会有些疑惑，因为在论文的图 $1$ 中，给出的 Transition2 应该是通过融合不同尺度的特征层得到的（下图用红色矩形框框出的部分）。但根据源码的实现过程确实就和我上面图中画的一样，就一个 $3\times3$ 的卷积层没做不同尺度的融合，包括看其他代码仓库实现的 HRNet 都是如此。可以看源码对比一下。

图3 不同尺度的特征结构

介绍完 Transition 结构后，接着描述网络中最重要的 Stage 结构。为了方便理解，这里以 Stage3 为例，对于每个尺度分支，首先通过4个 Basic Block ，没错就是 ResNet 里的 Basic Block ，然后融合不同尺度上的信息。对于每个尺度分支上的输出都是由所有分支上的输出进行融合得到的。比如说对于下采样4倍分支的输出，它是分别将下采样4倍分支的输出（不做任何处理）、下采样 8 倍分支的输出通过 $Up\times2$ 上采样2倍以及下采样16倍分支的输出通过 $Up\times4$ 上采样 4 倍进行相加最后通过 ReLU 得到下采样 $4$ 倍分支的融合输出。其他分支也是类似的，下图描述已经非常清楚了。图中右上角的 $\times4$ 表示该模块（Basic Block和Exchange Block）要重复堆叠 4 次。

图4 Stage3 结构

接着再来阐述图中的 Up 和 Down 究竟是怎么实现的，对于所有的 Up 模块就是通过一个卷积核大小为 $1\times1$ 的卷积层然后 BN 层最后通过 Upsample 直接放大 n 倍得到上采样后的结果（这里的上采样默认采用的是 nearest 最邻近插值）。 Down 模块相比于 Up 稍微麻烦点，每下采样 2 倍都要增加一个卷积核大小为 $3\times3$ 步距为 2 的卷积层（注意下图中 Conv 和 Conv2d 的区别，Conv2d 就是普通的卷积层，而 Conv 包含了卷积、BN 以及 ReLU 激活函数）。

图5 up and down 操作

最后，需要注意的是在 Stage4 中的最后一个 Exchange Block 只输出下采样 4 倍分支的输出（即只保留分辨率最高的特征层），然后接上一个卷积核大小为 $1\times1$ 卷积核个数为 17 （因为 COCO 数据集中对每个人标注了 17 个关键点）的卷积层。最终得到的特征层（ $64\times48\times17$ ）就是针对每个关键点的 heatmap （热力图）。

预测结果（heatmap）可视化

关于预测得到的 heatmap （热力图），为了方便理解，画了下面这幅图。首先，左边是输入网络的预测图片，大小为 $256\times192$ ，为了保证原图像比例，在两侧进行了 padding 。右侧是我从预测结果，也就是heatmap（ $64\times48\times17$ ）中提取出的部分关键点对应的预测信息（ $48\times17\times1$ ）。上面有提到过，网络最终输出的 heatmap 分辨率是原图的 $1 / 4$ ，所以高宽分别对应的是 64 和 48 ，接着对每个关键点对应的预测信息求最大值的位置，即预测 score 最大的位置，作为预测关键点的位置，映射回原图就能得到原图上关键点的坐标（下图有画出每个预测关键点对应原图的位置）。

图6 heatpmap 演示图

在原论文中，对于每个关键点并不是直接取 score 最大的位置（如果为了方便直接取其实也没太大影响）。在原论文的 4.1 章节中有提到：

Each keypoint location is predicted by adjusting the highest heatvalue location with a quarter offset in the direction from the highest response to the second highest response.

for n in range(coords.shape[0]):
    for p in range(coords.shape[1]):
        hm = batch_heatmaps[n][p]
        px = int(math.floor(coords[n][p][0] + 0.5))
        py = int(math.floor(coords[n][p][1] + 0.5))
        if 1 < px < heatmap_width-1 and 1 < py < heatmap_height-1:
            diff = np.array(
                [
                    hm[py][px+1] - hm[py][px-1],
                    hm[py+1][px]-hm[py-1][px]
                ]
            )
            coords[n][p] += np.sign(diff) * .25

如果看不懂的话可以借鉴下图。假设对于某一关键点的预测 heatmap 如下所示，根据寻找最大 score 可以找到坐标 $(3, 3)$ 点，接着分别对比该点左右两侧（ $x$ 方向），上下两侧（ $y$ 方向）的 score 。比如说先看左右两侧，明显右侧的 score 比左侧的大（蓝色越深代表 score 越大），所以最终预测的 $x$ 坐标向右侧偏移 $0.25$ 故最终 $x = 3.25$ ，同理上侧的 score 比下侧大，所以 $y$ 坐标向上偏移 $0.25$ 故最终 $y = 2.75$ 。

图7 坐标偏移图

损失的计算

在论文第 $3$ 章 Heatmap estimation 中作者说训练采用的损失就是均方误差 Mean Squared Error。

The loss function, defined as the mean squared error, is applied for comparing the predicted heatmaps and the groundtruth heatmaps. The groundtruth heatmpas are generated by applying 2D Gaussian with standard deviation of 1 pixel centered on the grouptruth location of each keypoint.

通过前面讲的内容我们知道网络预测的最终结果是针对每个关键点的 heatmap ，那训练时对应的 GT 又是什么呢。根据标注信息我们是可以得知每个关键点的坐标的（原图尺度），接着将坐标都除以 4 （缩放到 heatmap 尺度）在进行四舍五入。针对每个关键点，我们先生成一张值全为 0 的 heatmap ，然后将对应关键点坐标处填充 1 就得到下面左侧的图片。如果直接拿左侧的 heatmap 作为 GT 去训练网络的话，你会发现网络很难收敛（可以理解为针对每个关键点只有一个点为正样本，其他 $64\times48-1$ 个点都是负样本，正负样本极度不均），为了解决这个问题一般会以关键点坐标为中心应用一个 2D 的高斯分布（没有做标准化处理）得到如右图所示的 GT（随手画的不必深究）。利用这个 GT heatmap 配合网络预测的 heatmap 就能计算 MSE 损失了。

下面这幅图是某张真实训练样本（左侧）对应 nose 关键点的GT heatmap（右侧）。

图8 真实训练样本对应的 heatmap

我们知道如何计算每个关键点对应的损失后还需要留意一个小细节。代码中在计算总损失时，并不是直接把每个关键点的损失进行相加，而是在相加前对于每个点的损失分别乘上不同的权重。下面给出了每个关键点的名称以及所对应的权重。

"kps": ["nose", "left_eye", "right_eye", "left_ear", "right_ear", "left_shoulder", "right_shoulder","left_elbow","right_elbow","left_wrist","right_wrist","left_hip","right_hip","left_knee","right_knee","left_ankle","right_ankle"]
"kps_weights": [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.2, 1.2, 1.5, 1.5, 1.0, 1.0, 1.2, 1.2, 1.5, 1.5]

评价准则

在目标检测（ Object Detection ）任务中可以通过 IoU（Intersection over Union）作为预测 bbox 和真实 bbox 之间的重合程度或相似程度。在关键点检测（Keypoint Detection）任务中一般用 OKS（ Object Keypoint Similarity ）来表示预测 keypoints 与真实 keypoints 的相似程度，其值域在 0 到 1 之间，越靠近 1 表示相似度越高。在 MS COCO 官网中有详细介绍 OKS 指标，详情参考: https://cocodataset.org/#keypoints-eval
$S=\frac{\sum_{i}\left[e^{-d_{i}^{2} / 2 s^{2} k_{i}^{2}} \cdot \delta\left(v_{i}>0\right)\right]}{\sum_{i}\left[\delta\left(v_{i}>0\right)\right]}$
其中：

$i$ 代表第 $i$ 个关键点。
$v_{i}$ 代表第 $i$ 个关键点的可见性，这里的 $v_{i}$ 是由 $G T$ 提供的。 $v_{i}=0$ 表示该点一般是在图像外无法标注， $v_{i}=1$ 表示虽然该点不可见但大概能猜测出位置（比如人侧着站时虽然有一只耳朵被挡住了，但大概也能猜出位置）， $v_{i}=2$ 表示该点可见。
$\sigma (x)$ 当 $x$ 为 True 时值为 $1$ ， $x$ 为 False 时值为 $0$ 。通过上面公式可知， OKS 只计算 $G T$ 中标注出的点，即 $v_{i}>0$ 。
$d_{i}$ 为第 $i$ 个预测关键点与对应 $G T$ 之间的欧氏距离。
$s$ 为目标面积的平方根，原话：scale s which we define as the square root of the object segment area，这里的面积应该指的是分割面积。该数据在 COCO 数据集标注信息中都是有提供的。
$k_{i}$ 是用来控制关键点类别 $i$ 的衰减常数，原话：κi is a per-keypont constant that controls falloff，这个常数是在验证集（ 5000 张）上统计得到的，具体如何计算 $k_{i}$ 参考官网中1.3. Tuning OKS的介绍。

其他

数据增强

在论文中作者采用的数据增强有：随机旋转（在 $-45^{\circ}$ 到 $45^{\circ}$ 之间），随机缩放（在 $0.65$ 到 $1.35$ 之间），随机水平翻转以及 half body（有一定概率会对目标进行裁剪，只保留半身关键点，上半身或者下半身）。在源码中，作者主要是通过仿射变换来实现的以上操作，如果对仿射变换不太了解看代码会比较吃力。

注意输入图片比例

假设对于输入网络图片固定尺寸是 $256\times192$ （height : width = 4 : 3），但要预测的人体目标的高宽比不是4 : 3，此时千万不要直接简单粗暴的拉伸到 $256\times192$ ，正确的方法是保持目标原比例缩放到对应尺度然后再进行相应的 padding （如下图中间所示，由于目标的 height : width > 4 : 3，所以保持原比例将 height 缩放到 256，然后在图片 width 两测进行 padding 得到 $256\times192$ ）。如果拥有原始图像的上下文信息的话可以直接在原图中固定 height（目标 height : width > 4 : 3 的情况）然后调整 width 保证 height : width = 4 : 3，再重新裁剪目标并缩放到 $256\times192$ （如下图右侧所示）。这样预测的结果才是准确的。如果直接简单粗暴的拉伸目标，准确率会明显下降。因为作者源码中训练网络时始终保证目标的比例不变，那么我们在预测时也要保证相同的处理方式，即保证目标比例不变。前人在 COCO2017 val 数据上对齐论文精度时，就是由于没有注意这个细节，导致精度差了十几个点。
标并缩放到 $256\times192$ （如下图右侧所示）。这样预测的结果才是准确的。如果直接简单粗暴的拉伸目标，准确率会明显下降。因为作者源码中训练网络时始终保证目标的比例不变，那么我们在预测时也要保证相同的处理方式，即保证目标比例不变。前人在 COCO2017 val 数据上对齐论文精度时，就是由于没有注意这个细节，导致精度差了十几个点。

Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
YOLOv11目标检测模型部署到微信小程序上小阿技术 YOLO 目标跟踪人工智能微信小程序目标检测计算机视觉 python
1.效果YOLOv11目标检测模型部署到微信小程序上2.后端主要代码importosimporttimeimportnumpyasnpimporttorchfromflaskimportFlask,request,send_fileimportcv2fromultralyticsimportYOLO#导入YOLOv11模型，需要提前安装ultralytics库#初始化Flask应用app=Flas
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
Python自动化运维：一键掌控服务器的高效之道蒙娜丽宁 Python杂谈运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在互联网和云计算高速发展的今天，服务器数量的指数增长使得手动运维和管理变得异常繁琐。Python凭借其强大的可读性和丰富的生态系统，成为实现自动化运维的理想语言。本文以“Python自动化运维：编写自动化脚本进行服务器管理”为主题，深入探讨了如何利用Py
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
基于C++和ONNX Runtime的YOLOv5目标检测实战浪浪山小白兔 c++YOLO 目标检测
1.前言在计算机视觉领域，目标检测是一项关键任务，其应用广泛，涵盖了安防监控、自动驾驶、工业检测等众多领域。YOLOv5作为一种先进的目标检测算法，以其速度快、精度高的特点备受关注。本文将详细介绍如何使用C++结合ONNXRuntime推理引擎来部署YOLOv5模型，实现高效的目标检测。2.ONNX与YOLOv52.1ONNX简介ONNX（OpenNeuralNetworkExchange）是一种
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
应用跳转歌曲播放页转场卡顿性能优化工具使用案例
场景导入目标规则使用性能检测工具检测性能问题使用性能分析工具进一步分析性能问题根因优化方案及优化收益场景导入某应用首页点击最下方播放圆盘跳转到歌曲播放页用肉眼观测有明显的抖动卡顿。如果不通过性能工具集进行分析，开发者需要：1、复现问题；2、抓取trace；3、分析trace找出丢帧问题点。操作步骤多，耗时较长。本场景通过采用静态检查工具进行问题发现、定位及修改。目标规则CodeLinter目标检测
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
深度学习-92-大语言模型LLM之基于langchain的模型IO的模型调用皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Model的输入输出2langchain支持的模型3调用Ollama模型3.1设置环境变量3.2大语言模型LLM(OllamaLLM)3.2.1生成文本补全3.2.2流式生成文本补全3.3聊天模型(ChatOllama)3.3.1内置的消息类型3.3.2HumanMessage和SystemMessage3.3.3元组方式构成消息列表3.3.4stream流式3.4文本嵌入模型(Olla
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
AI Agent：深度解析与未来展望码事漫谈 c++人工智能
一、AIAgent的前世：从概念到萌芽（一）早期探索AIAgent的概念可以追溯到20世纪50年代，早期的AI研究主要集中在简单的规则系统上，这些系统的行为是确定性的，输出由输入决定。随着时间的推移，AI逐渐能够处理不确定性，1990年代机器学习的兴起为AIAgent的发展奠定了基础，神经网络技术的突破为深度学习的发展提供了可能。（二）技术突破2017年后，大语言模型（LLM）的出现推动了AIAg
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
【人工智能】Python常用库-Keras：高阶深度学习 API IT古董深度学习人工智能 Python 人工智能 python 深度学习
Keras：高阶深度学习APIKeras是一个高效、用户友好的深度学习框架，作为TensorFlow的高级API，支持快速构建和训练深度学习模型。它以模块化、简单和灵活著称，适合研究和生产环境。Keras的发音为[ˈkerəs]，类似于“凯拉斯”或“克拉斯”。这个名字来源于希腊语κέρας(kéras)，意思是“角”或“角质物”。这个词与深度学习的灵感来源——大脑的神经网络结构有一定联系。Kera
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级 2401_89759264 人工智能前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
深度学习从入门到精通：全面指南 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《深度学习从入门到精通：全面指南》文章目录《深度学习从入门到精通：全面指南》文章关键词文章摘要引言第一部分：深度学习基础入门第1章：深度学习概述1.1深度学习的基本概念1.2深度学习的发展历程1.3深度学习的基本原理神经网络前向传播反向传播第2章：深度学习框架入门2.1TensorFlow入门TensorFlow环境搭建TensorFlow基本数据结构2.2PyTorch入门PyTorch环境搭建
第十九周：SSD（Single Shot MultiBox Detector） L-含光承影目标跟踪人工智能计算机视觉
SSD（SingleShotMultiBoxDetector）摘要Abstract1引言2SSD框架2.1设计理念2.2训练2.3预测3创新与不足总结参考摘要本篇博客介绍了SSD（SingleShotMultiBoxDetector），这是一种基于全卷积网络的单阶段目标检测模型。与双阶段检测模型（如FasterR-CNN）相比，SSD在保持较高检测精度的同时，显著提升了检测速度，使其更适用于实时检
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Python】已解决：ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
【深度学习】Pytorch：在 ResNet 中加入注意力机制 T0uken 深度学习 pytorch 人工智能
在这篇教程中，我们将介绍如何在ResNet网络中加入注意力机制模块。我们将通过对标准ResNet50进行改进，向网络中添加两个自定义的注意力模块，并展示如何实现这一过程。为什么要加入注意力机制注意力机制可以帮助神经网络专注于图像中重要的特征区域，从而提高模型的性能。在卷积神经网络中，加入注意力机制能够有效增强特征提取能力，减少冗余信息的干扰，尤其在处理复杂图像时，能够提升网络的表现。在本教程中，我
时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
【YOLOv8改进 - 检测头】 RT-DETR检测头，解决传统目标检测器中非极大值抑制（NMS）所带来的速度和准确性之间的平衡问题 YOLO大师 YOLO 人工智能论文阅读目标检测 yolov8
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要YOLO系列因其在速度和准确性之间的合理平衡，已成为实时目标检测中最受欢迎的框架。然而，我们观察到YOLO的速度和准确性受到非极大值抑制（NMS）的负面影响。最近，基于Transformer的端
IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性 Jackie_AI 计算机视觉 stable diffusion 自然语言处理语言模型 Imagen
IGModel——提高基于GNN与Attention机制的方法在药物发现中的实用性导言深度学习在药物发现（发现治疗药物）领域的应用以及传统方法面临的挑战。药物（尤其是我们将在本文中讨论的被称为抑制剂的药物）通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此，在设计药物时，必须优化这些结合的亲和力和药理特性，并准确预测蛋白质与药物之间的相互作用。近年来，人们尤其提倡使用
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

HRNet

HRNet

目录

项目结构

预测结果（heatmap）可视化

损失的计算

评价准则

其他

数据增强

注意输入图片比例

你可能感兴趣的:(深度学习,目标检测,计算机视觉)