我要燕麦

2020人体姿态估计综述（Part2：2D Top-Down Multi-Person Pose Estimation）

承接上一篇博文：A 2020 Human Pose Estimation Review （Part1：2D Single Person）

目录
1 Human Pose Estimation
2 2D Single-Person Pose Estimation

3 2D Top-Down Multi-Person Pose Estimation
  3.1 Top-Down
  3.2 Mask RCNN
  3.3 Cascaded Pyramid Network for Multi-Person Pose Estimation
  3.4 RMPE: Regional Multi-Person Pose Estimation
  3.5 A coarse-fine network for keypoint localization
  3.6 Rethinking on Multi-Stage Networks for Human Pose Estimation
  3.7 Simple Baselines for Human Pose Estimation and Tracking
  3.8 Spatial Shortcut Network for Human Pose Estimation
  3.9 2D Top-Down Multi-Person Pose Estimation小结

4 2D Bottom-Up Multi-Person Pose Estimation
5 3D Human Pose Estimation from Image
6 3D Human Pose Estimation from Video

3 2D Top-Down Multi-Person Pose Estimation

3.1 Top-Down

Top-Down的思路就是，先检测出图片中每个人体的边界框，然后将每个人体裁剪出来，进行单人的人体姿态估计。这种方法与单人人体姿态估计有着高度的联系，但也存在一些不同，一是图片中会有各种大小的人，这使得裁剪出的人体图象分辨率不一；另一方面，裁剪出的图像中，可能还包含其他人体的一些部分，这使得准确定位关节点更加困难；最后就是需要先使用bbox的检测器，检测器性能对于最终的pose预测性能也会有影响。

3.2 Mask RCNN, ICCV2017

Mask RCNN的结构我可能一辈子也不会忘记，作为自己的毕设内容，每一部分都能很详细地背出来了。Mask RCNN在Faster RCNN地基础上进行改进，特征提取采用了ResNet-FPN骨架，由RPN网络进行proposal，然后NMS筛选掉多余的候选框，之后进行分类、mask以及bbox回归。Mask RCNN论文的实验中，也提到了用它来做human pose的方法，这可以视为Top-Down的一种baseline。具体实现是，使用segmentation分支，预测K个关节点的mask。人体每个部位的关键点对应于一个one-hot掩码，训练的目标最终是得到一个56*56的二值掩码，当中只有一个像素被标记为关键点，其余像素均为背景。对于每一个关键点的位置，进行最小化平均交叉熵损失检测，K个关键点是被独立处理的。

3.3 Cascaded Pyramid Network for Multi-Person Pose Estimation, CVPR2018

CPN是旷视的工作，整个网络结构非常简单，也依然达到了当时的SOTA。CPN需要先用检测器检测出bbox，然后再进行姿态估计。整个工作的亮点在于网络结构和人视觉思维的结合，网络分为GlobalNet和RefineNet两个部分，使用类似于ResNet-FPN的骨架进行特征提取（有一丢丢小小的不同），先预测所有关节点的heatmap，然后RefineNet网络再次进行特征整合，对困难关节点进行修正。要注意的是，Global的预测结果只在Training的时候会用到，为的是更好地训练前面的特征提取网络，RefineNet采用L2 Loss*，即计算loss时，只取最大的八个关节点，这样可以使网络更关注于困难关节点的预测。实际预测的时候，GlobalNet只承担了特征提取的工作，不进行关节点位置的预测，姿态结果只取RefineNet的预测。

3.4 RMPE: Regional Multi-Person Pose Estimation, ICCV2017

上海交大卢策吾课题组的工作。Top-Down的方法会受到bbox检测器性能的影响，这篇论文重点研究的就是如何减少bbox预测时候的各种问题。在目标检测产生Proposals的过程中，可能会出现检测框定位误差、对同一个物体重复检测等问题。检测框定位误差，会出现裁剪出来的区域没有包含整个人活着目标人体在框内的比例较小，造成接下来的单人人体骨骼关键点检测错误；对同一个物体重复检测，虽然目标人体是一样的，但是由于裁剪区域的差异可能会造成对同一个人会生成不同的关键点定位结果。本文提出了一种方法来解决目标检测产生的Proposals所存在的问题，即通过空间变换网络（STN）将同一个人体的产生的不同裁剪区域（Proposals）都变换到一个较好的结果。结构如图所示，首先使用基于VGG的SSD-512网络用作单人检测得到人体检测框，然后经过SSTN+SPPE网络生成pose proposals（单人的姿态估计采用stacked hourglass），再通过Parametric Pose NMS算法得到估计的人体姿态。

RMPE框架主要包括三个内容：
（1）Symmetric Spatial Transformer Network – SSTN 对称空间变换网络：在不准确的bounding box中提取单人区域
（2） Parametric Pose Non-Maximum-Suppression – NMS 参数化姿态非最大抑制，解决proposal的冗余
（3）Pose-Guided Proposals Generator – PGPG 姿态引导区域框生成器：数据增强
先看SSTN，SSTN=STN+SSPE+SDTN,STN是空间变换网络，用于执行二维的仿射变换来处理边界框，然后SPPE执行单人人体姿态估计，SDTN将姿态结果重新映射回原图中，这样就可以根据姿态调整原来的框，使得其更加精准。为了进一步帮助STN去提取更好的人体区域位置，在训练阶段添加了一个Parallel SPPE分支。这个分支和上一个分支共享同一个STN，但是省略了SDTN，而且训练标签为单个人的ground truth姿态，训练时这个分支网络的各个层和权重是固定的，目的是当输出与ground truth间的误差较大时，产生较大的loss来帮助STN进行正确的变换，得到高质量的人体框。
PPNMS思想与NMS差不多，这里是根据关节点之间的相似度来消除多余关节点。最后的PGPG的基本思想是，数据增强不一定要在原始图像上进行，使用不准确的bbox也可以是一种数据增强，这里PGPG就是用来产生与gt有一些偏差的bbox，以此来扩充数据集，增强模型鲁棒性。

3.5 A coarse-fine network for keypoint localization, ICCV2017

CFN作者认为，现今的姿态估计方法都是基于关节点置信图的严格监督方法，这种方法虽然能准确定位简单关节点，但是对于存在遮挡等情况的困呐关节点定位不准确。作者浅层的网络通常可以对容易检测出来的部位能够很好地定位，对于ambiguoukeypoin来讲检测又不是很好。深层的精细网络虽然能够对ambiguous的keypoint有很好的定位效果，但是在关键的localization accuracy上面却损失了很多的精度。为此，作者提出了一个网络结构，由一些粗检测分支和一个精细检测分支组成。粗检测分支建立在CNN的某一特征层上，而精细检测分支建立在多个特征层上。对每一个分支，指定label map进行监督，以实现不同的监督严格程度，最后所有分支的预测结果共同生成最终的人体姿态估计结果。

先看coarse网络，三个分支的区别在于堆叠的inception数量不同，inception越多，感受野越大，越能够捕捉关节点之间的关系。作者采用的是inception v2，abc三个粗检测器，感受野分别是107x107,139x139,171x171。如果输入图片是224x224，那么171的感受野相对于224太大了，可能会导致ambiguous的检测，所以作者增加输入大小到448×448。
在计算每个分支的loss时，作者设计了不同的label map，对于粗分支，以a分支为例，输出28×28×K张特征图，K代表关节点总数。Heatmap上每个点可以映射回原图中的一个正方形区域，然后用同样的感受野去对第k个关节点的gt做出同样的框，两个框求IoU，大于阈值，则这个点的标签为1，否则为0。再结合gt生成的label map，即可计算粗预测分支的分类损失。
对于精细网络，分类的label map不是基于anchor的，而是对gt关节点附近一定距离内的点的label设为1，计算loss时候。最终的loss由corase和fine两个分支的分类loss组成。
在predict过程中，将各个分支产生的K张heatmap送入高斯平滑器，找到各个分支的第k个关节点的最大响应位置，然后结合corase和fine两个结果来决定究竟是哪个位置。优先用fine网络的结果，当fine网络这个位置的分类得分低于一个阈值时候，改用corase网络的结果。这里有一个点想说一下，作者在论文中只提到了先用一个bbox检测器，然后用CFN执行单人人体姿态估计，但是作者一直没有说自己的bbox检测器性能有多少，贴的result图也只说了pose的结果有多少，完全没有提bbox性能多少，这不禁让我怀疑作者是不是直接拿gt跑的？如果真的是这样，未免也太学术不端了，以上仅仅是个人猜测（狗头）。

3.6 Rethinking on Multi-Stage Networks for Human Pose Estimation, Arxiv2019

也就是MSPN，在多人姿态估计中，stack多个stage并不能够显著提升性能，这篇文章从结构、特征传递以及loss多方面来改善和提升multi-stage在多人姿态估计上的性能，达到了当时的SOTA。
文章主要有三个方面的创新，一个是对于hourglass的结构进行改进，在每次下采样后，增加了通道数。因为降采样过程中我们想提取不同尺度丰富的信息，丢失的信息在上采样中很难恢复。所以在降采样分辨率下降时，channel适当增加才能减少信息丢失。
另一个是不采用hourglass那样每个stage直接串联的方式，而是改用U-Net的连接方式。
最后一个是，对于不同层次的label heatmap，要采用不同大小的高斯核，即下一个stage的高斯核要比上一个stage的高斯核更小。

3.7 Simple Baselines for Human Pose Estimation and Tracking, ECCV2018

对于人体姿态估计，高分辨率特征图是一个关键，作者根据这个指导思想，着重于使得网络生成高分辨率图。网络结构很简单，直接在ResNet后面跟反卷积模块，然后输出预测结果。使用ResNet-152，input尺寸为384*288时，mAP达到了73.7。

3.8 Spatial Shortcut Network for Human Pose Estimation, Arxiv2019

作者的出发点是感受野对于关节点估计的影响，同时也考虑了减少信息流动的成本，设计了一种轻量级的网络。SSN能够将特征映射移动和注意机制结合在特征移动模块feature shifting module(FSM)中。
FSM包括main模块以及注意力机制correlation attention(CA)模块，main模块输入为C个通道的特征P，首先通过11的卷积变换为K个通道的特征。然后对K个通道的特征，作逐通道的shift操作，该过程中需要 K对偏置参数。shift操作后的特征和CA模块的输出，作逐元素相乘。再利用11的卷积将通道数变换为C个。最后在和模块的输入特征P做短连接逐元素相加，经过BN和Relu后输出。

其中，shift操作为，对每个通道进行特征偏移，相当于改变了感受野的范围。这个思想是这样的，当我们要判断手是左手还是右手时，需要借助头部区域的信息来判断，但是如果直接使用感受野最大的特征图，需要的成本比较大，那么如果直接通过特征图位移来获取头部区域，相应的成本就很小了。FSM就是用于获取相关部分的特征信息的，支路的CA模块则是用来判定位移后的特征是否和原来的特征区域相关。之后，两个支路特征结合起来，用于预测最后的人体姿态。

3.9 2D Top-Down Multi-Person Pose Estimation小结

可以看到，Top-Down的思路其实是吧多人人体姿态估计拆成了单人人体姿态估计和人体检测两个问题，之前我也提到，单人的人体姿态估计主流方法已经基本固定，而检测的问题，又是另一个研究方向了。就单纯以学术研究来说，在多人这个方向上能做的更多是小修小补，蛋糕已经分的差不多了。RMPE将这两个问题结合起来，是一种很有姿态估计特色的创新，后续的研究可以借鉴这种思维，思考如何将两者联系在一起来提升性能。
另外，Top-Down的一个优势或者说特点在于，我们裁剪后的人体区域图像，往往人是在bbox中央，且通常会缩放到统一尺度，那么神经网络会隐式地学到各个关节点的位置分布。师兄曾经做过一个实验，它用一幅噪声图像给姿态估计器，估计器输出的结果也大致能展现出人的样子。我认为这是Top-Down的优势，隐式地学到关节点位置分布，可以减少网络预测难度，即使我们用COCO这种姿态比较多样的数据集，这个现象依然存在，只是不像用MPII数据集单独训练出来的估计器的位置分布那么紧密。

交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
谷歌吹响反击号角：2025年Gemini用户目标5亿，AI大战一触即发！ that's boy 人工智能 chatgpt openai AI工具 AI编程 google gemini
人工智能领域的竞争日趋白热化，谷歌CEO桑达·皮采亲自下场，为GeminiAI定下了雄心勃勃的目标：到2025年底，用户突破5亿！面对ChatGPT的强势崛起，谷歌能否成功逆袭？本文将深入剖析谷歌的战略布局、Gemini的技术优势以及未来AI竞争的格局。谷歌的反击：5亿用户的雄心壮志在过去几年，OpenAI凭借ChatGPT的强大实力，几乎垄断了AI领域的聚光灯。谷歌虽然在AI技术研究方面一直处于
docker-compose。yml文件简单编辑㲸逆 #docker docker
docker-compose.yml文件编辑文章目录docker-compose.yml文件编辑1compose文件的基本结构2compose编写操作首先拉取一个镜像为了方便yml文件的编写我们将镜像名字缩短进入docker-compose.yml中运行compose停止compose运行即停止并移除由docker-compose.yml文件定义的所有服务、网络和卷1compose文件的基本结构1
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
Delphi代码编写标准指南好大的牛角
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！·日月光华精华区文章阅读发信人:Delphii(Delphi),信区:VCL标题:Delphi编码规则发信站:日月光华站(FriSep712:03:072001),站内信件Delphi代码编写标准指南■■■■■■
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔” ningaiiii 机器学习与深度学习神经网络 php 人工智能
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔”1.引言径向基函数网络（RadialBasisFunctionNetwork,RBF）是一种特殊的前馈神经网络，它的核心思想是通过“灯塔”来照亮数据的分布。RBF网络使用径向基函数（如高斯函数）作为隐层神经元的激活函数，能够快速学习数据的局部特征，特别适合分类和函数逼近问题。2.算法原理2.1网络结构RBF网络的基本组成包括：输入层：接收原
ubuntu 安装 docker 2301_78094384 ubuntu docker linux
打开网站：Ubuntu|DockerDocs卸载冲突包forpkgindocker.iodocker-docdocker-composedocker-compose-v2podman-dockercontainerdrunc;dosudoapt-getremove$pkg;done运行以下命令#AddDocker'sofficialGPGkey:sudoapt-getupdatesudoapt-g
“AI 自动化效能评估系统：开启企业高效发展新征程上海拔俗网络 java 团队开发
在当今数字化飞速发展的时代，企业面临着日益激烈的市场竞争，如何提升效率、降低成本成为了企业生存与发展的关键。AI自动化效能评估系统应运而生，它如同一把智能钥匙，为企业开启了高效发展的新征程。AI自动化效能评估系统，简单来说，就是利用人工智能技术对企业的各项业务流程、生产环节以及员工工作表现等进行全方位、自动化的评估。它能够快速收集海量的数据，并通过先进的算法模型对这些数据进行深度分析，从而精准地判
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
智能体（AI Agent）：概念、原理与应用，全面解析AI技术前沿! 和老莫一起学AI 人工智能学习数据库产品经理机器学习 ai 大模型
一、智能体概念的深度剖析1.1智能体（Agent）的本质智能体，作为人工智能领域的一颗璀璨明珠，是那些能够主动感知周遭环境、自主决策并付诸实践的系统实体。它们不仅拥有自主性、交互性、反应灵敏及高度适应性等鲜明特征，更在复杂多变的情境中展现出卓越的自我管理与任务执行能力。智能体的诞生，标志着人工智能技术从机械式的规则遵循迈向了更为灵活、智能的自主决策新时代。智能体的核心精髓在于其内置的学习与决策引擎
21天学通C++——9.6.4使用构造函数进行类型转换不想睡觉_ QT客户端学习路线 c++开发语言
类中存在重载构造函数，即编译器可能默认调用构造函数，进行隐式转换伪代码：classMyClass{intage;public:MyClass(inthumanAge):age(humanAge){}};voidDoSomething(MyClassperson){return;}intmain(){MyClassman(10);DoSomething(10);}解释：即在DoSomething中编
基于人工智能的Python面试题请一直在路上 python 开发语言
基于人工智能的Python面试题1.Python中的元组与列表区别是什么？列表是可变类型，元组不是。列表是引用类型，元组不是。列表使用场景更宽泛，元组更多用于一些数据不可变的场景，例如参数、或者返回值。2.Python中的字典是否有序？python3.6之前字典是无序的，之后是有序的。原因可以参考下这个帖子https://blog.csdn.net/weixin_48629601/article/
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
如何使用Java爬虫获取阿里巴巴热卖商品推荐：代码示例与实践指南小爬虫程序猿 Java java 爬虫 python
在电商领域，获取热卖商品推荐对于商家和开发者来说至关重要。阿里巴巴提供了热卖商品推荐API接口，能够根据消费者的购买历史、浏览行为、搜索习惯等数据，自动推荐符合其需求的商品。以下将详细介绍如何使用Java爬虫获取阿里巴巴热卖商品推荐，并提供相关的代码示例。一、阿里巴巴热卖商品推荐API接口简介阿里巴巴热卖商品推荐API接口是一种基于人工智能算法的推荐系统，能够根据消费者的购买历史、浏览行为、搜索习
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
人工智能伦理：技术发展背后的思考 m0_72547478 人工智能
近年来，人工智能技术呈爆发式发展，在医疗、交通、金融等诸多领域取得惊人成果，但与此同时，人工智能伦理问题日益凸显，引发广泛关注。数据隐私与安全首当其冲。AI系统依赖海量数据训练，这些数据包含个人信息、医疗记录等敏感内容。若数据保护不当，极易引发数据泄露风险，侵犯个人隐私。例如，某些智能健康APP，若未能加密传输用户健康数据，一旦遭受黑客攻击，用户的隐私将暴露无遗。算法偏见也是一大痛点。AI算法基于
Imagen架构详解：理解其背后的技术与创新范范0825 Imagen 架构
Imagen架构详解：理解其背后的技术与创新引言近年来，生成式人工智能技术取得了飞速发展，特别是在图像生成领域。作为这一领域的重要创新之一，Imagen是由谷歌开发的一种基于文本生成图像的模型。它在生成高质量、逼真的图像方面表现出色，并通过其先进的架构和技术手段推动了图像生成的技术进步。Imagen不仅在图像生成质量上具有显著优势，还能够通过自然语言描述生成细致复杂的图像。本文将详细剖析Image
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）学术菜鸟小晨千问多模型 qwen2 vl
一、简介VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM）的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用，来提高多GPU环境下的推理速度和效率。VLLM的核心特点包括：显存高效性：VLLM能够动态管理显存，
qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
利用双分支CycleGAN进行图像数据的高效增强 jizhi-dataset 人工智能
随着人工智能技术的快速发展，图像数据处理变得越来越重要。为了提高图像数据的质量和可用性，我们需要采用高效的数据增强方法。双分支CycleGAN网络作为一种先进的图像处理技术，为我们提供了一种全新的解决方案。本文将详细介绍双分支CycleGAN的工作原理，并展示其在图像数据增强方面的实际效果。同时，我们也将讨论在实际应用过程中可能遇到的挑战以及如何解决这些问题。，，CycleGAN是一种用于图像到图
揭秘AIP智能体平台：构建未来AI基础设施的新引擎大东（AIP内容运营专员）人工智能
在人工智能的浪潮中，科技正在改变我们生活的方方面面。从智能推荐到自动驾驶，从个性化广告到实时风险控制，AI的触角无处不在。但这些令人瞩目的成果背后，究竟是什么在支撑着AI的飞速发展？答案是——人工智能平台。人工智能平台是连接计算资源、开发工具和行业应用的重要桥梁，支撑着从模型开发到行业场景落地的每一个环节。它不仅为开发者提供高效便捷的工具，还为企业创造了无限的创新可能。本文将带你深入了解人工智能平
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option