Sciws

论文笔记——TransPose

摘要

一、前言

二、相关工作

2.1 人体姿态估计

2.2 可解释性

三、TransPose

3.1 网络结构

3.2 分辨率设置

3.3 attentions是定位关键点的依赖

四、实验

4.1 COCO实验数据对比

4.2 迁移到MPII数据对比

4.3 消融实验编辑

4.4 量化分析

五、总结

摘要

虽然基于cnn的模型在人类姿态估计方面取得了显著的进展，但它们捕获了哪些空间依赖性来定位关键点仍然不清楚。在这项工作中，提出了一个名为TransPose的模型，它引入了用于人体姿态估计的Transformer。变压器中内置的注意层使我们的模型能够有效地捕获长期关系，也可以揭示预测的关键点所依赖的依赖关系。为了预测关键点热图，最后一个注意层作为一个聚合器，从图像线索中收集贡献，形成关键点的最大位置。这种基于热图的变压器定位方法符合激活最大化的原理。揭示的依赖是特定的和细粒度的，这也可以提供模型如何处理特殊情况的证据，例如遮挡。

一、前言

早期的关键点检测方法通常是直接回归关键点的位置，后来变成了主流的通过预测关键点热图去预测，它隐式地学习身体各部位之间的空间依赖关系。然而，大多数之前的研究都将深度CNN作为一个强大的黑盒预测器，并专注于改善网络结构，模型内部到底发生了什么，或者它们如何捕捉身体部位之间的空间关系，目前还不清楚。

然而，从科学和实践的角度来看，模型的可解释性可以帮助从业者理解模型如何将结构变量关联起来以达到最终的预测，以及姿态估计器如何处理各种输入图像。它还可以帮助模型开发人员进行调试、决策和进一步改进设计。

对于现有的姿态估计器，一些问题使弄清楚它们的决策过程具有挑战性。

深度。基于cnn的模型，通常是非常深的非线性模型，阻碍了对每一层功能的解释。
隐含的关系。身体部位之间的全局空间关系被隐式地编码在神经元激活和cnn的权重中。要将这种关系与神经网络中大量的权重和激活解耦并不容易。而仅使用大量通道（例如SimpleBaseline）来可视化中间特性，几乎没有什么富含信息的解释。
在推断各种图像时，使用的工作内存有限。在推断图像时，由于工作内存有限，静态卷积核表示变量的能力有限。因此，由于cnn很难捕获特定于图像的依赖关系
缺少工具。虽然已经有许多基于梯度或归因的可视化技术，但大多数侧重于图像分类而不是定位。它们的目的是揭示类特定于类的输入模式或显著性映射，而不是解释结构变量之间的关系

这项工作的目标是建立一个人体姿态估计器，它可以显式地捕获和揭示关键点之间的图像特定的空间依赖性，如上图所示。由于卷积的缩放特性较差，我们认为卷积在提取低级特征方面具有优势，但在高级特征上深度叠加卷积以扩大接受域并不能有效地捕获全局依赖关系。而这样的深度增加了解释CNN预测的难度。变压器架构在绘制成对或更高阶交互方面具有自然的优势。如图2所示，注意层使模型能够捕获任何成对位置之间的交互作用，其注意地图作为一个即时记忆来存储这些依赖关系。

基于这些考虑，本文提出了一个名为TransPose的新模型，使用卷积提取低级特征，并使用转换器捕获高级全局依赖关系。

二、相关工作

2.1 人体姿态估计

深度cnn在人体姿态估计方面取得了巨大的成功。普通卷积核的归纳偏差是局部性和平移等方差。提取低级图像特征是有效的。对于人类姿态估计，捕获全局依赖是至关重要的，但卷积的局部性使得不可能捕获长期相互作用。一个典型但不讲理的解决方案是扩大接受域，例如通过降采样分辨率，增加深度或扩大核大小。此外，提出了复杂的策略，如多尺度融合、堆叠卷积层或高分辨率表示等。

但是，随着架构变得越来越复杂，寻求人类姿态估计模型的可解释性比以往任何时候都更具挑战性，但也很迫切。相比之下，TransPose可以以一种有效和明确的方式估计人体姿态。

2.2 可解释性

可解释性意味着人类可以更好地理解模型是如何做出预测。许多工作定义了解释的目标是确定哪些输入与预测最相关，这也是本文寻求的目标。与以往的大多数工作不同，本文的目的是揭示结构骨架中身体关节变量之间的细粒度空间依赖性。

本文的模型可以直接利用注意力模式来整体地解释其预测，而不需要外部工具的帮助。

专注于揭示有助于视觉关键点定位的线索，而TransPose模型中的关注为预测提供了明确的证据。

三、TransPose

本文的目标是建立一个模型，可以明确地捕获人体各部位之间的全局依赖关系。

3.1 网络结构

如图3所示，TransPose模型由三个部分组成：CNN主干提取低级图像特征；Transformer编码器，捕捉特征向量之间的远程空间交互；用于预测关键点热图的头部。

Backbone：

许多常见的cnn可以作为主干。为了更好地进行比较，本文选择了两种典型的CNN体系结构： ResNet 和HRNet 。且只保留了原始ImageNet预训练后的cnn的初始几个部分，以便从图像中提取特征。作者将它们命名为ResNet-S和HRNet-S，其参数数仅为原始cnn的5.5%和25%左右

Transformer：

尽可能地遵循标准的transformer架构。并且只使用了编码器，因为研究认为纯热图预测任务只是一个编码任务，它将原始图像信息压缩成一个紧凑的关键点位置表示。给定一个输入图像I∈R3×HI×WI，我们假设CNN主干输出一个二维空间结构图像特征Xf∈Rd×H×W，其特征维数通过1×1卷积转换为d。然后，将图像特征图平坦为序列X∈R^(L×d），即L个d维的特征向量，其中L = H×W。它经过N个注意层和前馈网络（FFNs）。

Head：

一个头加到transformer编码器的输出E∈RL×d后来预测K个类型的关键点热图P∈RK×H∗×W∗，其中H∗，W∗= HI /4，WI /4默认。

我们首先将E reshape回到R∈d×H×W。然后我们主要使用1×1卷积将E的信道维数从d降到k。

如果H，W不等于H∗，W∗，则在1×1卷积之前使用额外的双线性插值或4×4转置卷积进行上采样。注意，一个1×1的卷积完全等价于一个位置级的线性变换层。

3.2 分辨率设置

在常见的人体姿态估计体系结构中，通常采用32×降采样作为标准设置，以获得包含全局信息的非常低分辨率的地图。相比之下，本研究在ResNet-S和HRNet-S中采用了r = 8和r = 4设置，这有利于注意层的内存占用和详细信息的损失之间的权衡。因此，TransPose在更高的分辨率下直接捕获了远程交互，同时保留了细粒度的局部特征信息（但是这样参数不也多了吗？）。

3.3 attentions是定位关键点的依赖

3.3.1 自注意力机制

token（也就是位置i上的特征向量）xi∈Rd的每个查询qi∈Rd计算与所有键Keys的相似性，以得到一个wi=Ai，：∈R1×L的权重向量，这决定了每个token需要多少依赖在当前序列中。

然后，将值矩阵V中所有元素与wi中相应的权值的线性和加到xi中，得到一个增量。通过这样做，注意力图可以被视为由特定图像内容决定的动态权重，重新加权正向传播中的信息流。

Self-attention捕捉并揭示了每个token预测对每个图像位置的总贡献。这种来自不同图像位置的贡献可以通过梯度来反映。因此，我们具体分析了xj在图像 / 序列位置j是如何影响预测关键点热图中位置i的激活hi的，通过计算hi∈R^K（K表示K个关键点类型）相对于最后注意力层输入序列中位置j的导数。并且我们进一步假设G ：=∂hi / ∂xj为一个，相对于一个获得的注意力得分A(i，j)的函数。我们将获得：

其中K，B∈RK×d是静态权值（在推断时固定），并在所有图像位置之间共享。我们可以看到，函数G与Ai，j近似呈线性关系，即对预测hi的贡献程度直接取决于它在图像位置上的注意分数。

特别是，最后一个注意层作为一个聚合器，它根据每个token的注意力分数收集所有图像位置的贡献，并在预测的关键点热图中形成最大的激活。虽然FFN和head中的层不能被忽略，但它们是在位置层次上的，这意味着它们可以通过相同的变换来近似地线性变换来自所有位置的贡献，而不改变它们的相对比例。（？）

3.3.2 激活的最大位置是关键点的位置。

（Activation Maximization）激活最大化的可解释性（AM）在于：能够最大限度地激活一个特定神经元的输入区域这可以解释这个被激活的神经元在寻找什么。。

在这个任务中，TransPose的学习目标是期望在热图的i∗位置的神经元激活hi∗被最大限度地激活，其中i∗代表一个关键点的真实位置：

假设模型已经通过参数θ∗优化了并且它预测了一个特定关键点的位置i（热图中的最大位置），

为什么模型预测的预测结果可以被如实地解释？

因为那些位置J，也就是它们在位置i上的元素j有更高的注意力分数（≥δ）。这些位置J相对于预测值来说是有相当重要贡献的依赖。可以通过以下方式找到这些依赖项：

其中，A∈RL×L是最后一个注意层的注意图，还有一个相对于θ∗和I的函数，即A=A（θ∗，I）。给定一个图像I和一个查询位置i，Ai，：可以揭示一个预测位置I高度相关的那些依赖位置，我们定义它为依赖区域。A:,j可以揭示一个位置j最影响的区域，我们定义它受影响的区域。

对于传统的基于cnn的方法，它们也使用热图激活作为关键点位置，但由于深度cnn的深度和高度非线性，人们无法直接找到预测的可解释模式。基于am的方法可能会提供见解，而它们需要额外的优化成本来学习卷积内核更喜欢寻找的可解释模式。与它们不同的是，我们通过transformer将AM扩展到基于热图的定位，并且我们不需要额外的优化成本，因为优化已经在我们的训练中隐式地完成了，即A=A（θ∗，I）。定义的依赖关系区域是我们所寻找的模式，它可以显示特定于图像和关键点的依赖关系。

四、实验

4.1 COCO实验数据对比

4.2 迁移到MPII数据对比

4.3 消融实验

位置嵌入的重要性。在没有位置嵌入的情况下，二维空间结构信息丢失。为了探究其重要性，我们在TransPose-R-A3模型上进行了实验，实验中采用了三种位置嵌入策略：二维正弦位置嵌入、可学习位置嵌入和w/o位置嵌入。如预期的那样，具有位置嵌入的模型表现更好，特别是对于二维正弦位置嵌入。位置嵌入有助于更好地泛化看不见的输入分辨率

缩放变压器编码器的大小。我们研究性能如何与变压器编码器的大小，如table7所示，对于TransPose-R模型，随着层数增加到6层，性能的改进逐渐趋于饱和或退化。但我们在transse-h模型上没有观察到这种现象。对变压器的缩放明显提高了变换波-h的性能。

4.4 量化分析

分析结果：

对于具有不同CNN提取器的模型，依赖性偏好是不同的。
不同类型的关键点的依赖性和影响也有所不同。
随着深度的增加，注意力逐渐关注更细粒度的依赖关系。
对于一个模型有图像特定的依赖和统计共性。

第4点解释：

与训练后CNN权值中编码的静态关系不同，注意映射对输入是动态的。如图6(a)和图6(c)所示，我们可以观察到，尽管预测关键点的依赖关系具有统计共性（大多数常见图像的相似行为），但细粒度的依赖关系会随着图像上下文的不同而略有变化。在给定图像如输入B（图6(c)）中存在遮挡或不可见，该模型仍然可以通过寻找更重要的图像线索来定位部分模糊关键点的位置，减少对不可见关键点预测其他关键点的依赖。未来的工作很可能会利用这种注意模式来进行部分到整体的关联，并聚集相关特征来进行三维姿态估计或动作识别。

五、总结

通过引入一种用于人体姿态估计的Transformer，本文探索了一个模型TransPose。注意层使模型能够有效而显式地捕获全局空间依赖关系。本文证明，这种由变压器实现的基于热图的定位使模型与激活最大化的想法相同。此外，本文还验证了位置嵌入的重要性。定性分析揭示了关于层深、关键点类型、训练模型和输入图像的可变模型行为，这也让我们深入了解模型如何处理特殊情况，如遮挡（？）。

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

论文笔记——TransPose

摘要

一、前言

二、相关工作

2.1 人体姿态估计

2.2 可解释性

三、TransPose

3.1 网络结构

3.2 分辨率设置

3.3 attentions是定位关键点的依赖

四、实验

4.1 COCO实验数据对比

4.2 迁移到MPII数据对比

4.3 消融实验

4.4 量化分析

五、总结

你可能感兴趣的:(笔记,深度学习,人工智能)