湘粤Ian

论文超详细精读|万字：2s-AGCN

文章目录

前言
总览
一、Introduction
- ST-GCN
- - 缺点
- AGCN
- 主要贡献
二、Related work
- 2.1 Skeleton-based action recognition （骨架动作识别）
- 2.2 Graph convolutional neural networks（图卷积网络）
三、Graph Convolutional Networks
- 3.1 Graph construction（图的构建）
- 3.2 Graph convolution（图卷积）
- 3.3 Implementation （实现）
四、Two-stream adaptive graph convolutional network
- 4.1 Adaptive graph convolutional layer（自适应图卷积层）
- 4.2 Adaptive graph convolutional block（自适应图卷积块）
- 4.3 Adaptive graph convolutional network（自适应图卷积）
- 4.4 Two-stream networks
五、Experiments
- 5.1 Datasets
- 5.2 Training details
- 5.3 Ablation Study
- - Ablation Study — Adaptive graph convolutional block
  - Ablation Study — Two-stream framework
- 5.4 Comparison with the state-of-the-art
- - Visualization of the learned graphs
六、Conclusion

前言

笔者从人工智能小白的角度，力求能够从原文中解析出最高效率的知识。
之前看了很多博客去学习AI，但发现虽然有时候会感觉很省时间，但到了复现的时候就会傻眼，因为太多实现的细节没有提及。而且博客具有很强的主观性，因此我建议还是搭配原文来看。

请下载原文《Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition》搭配阅读本文，会更高效哦！

若要更好地理解此篇文章，请参考其改进的前身：
【读前请读】：《论文超详细精读|六千字：ST-GCN》
以及，同样以ST-GCN为基础改进的：
【读后再读】：《论文超详细精读|八千字：AS-GCN》

总览

首先，看完标题，摘要和结论，我了解到了以下信息：

提出了一种新的双流自适应图卷积网络(2S-AGCN)用于基于骨架的动作识别。模型中的图的拓扑既可以统一地学习，也可以通过BP算法以端到端的方式单独学习。
提出了一种同时对一阶和二阶信息（骨架的长度与方向）建模的双流框架，在识别精度上有了显著的提高。它将骨架数据的图结构参数化，并嵌入到网络中，与模型共同学习和更新。
文章主要创新点有两个，一个是双流网络，另外一个是自适应性。

一、Introduction

基于骨架数据的动作识别方法因其对动态环境和复杂背景具有较强的适应性而受到广泛研究和重视。
以往的方法不能充分利用骨架数据的图结构，很难推广到任意形式的骨架。

ST-GCN

基于人体关节的自然连接构建空间图，并在连续的帧中添加相应关节之间的时间边。提出了一种基于距离的采样函数来构造图卷积层，并将其作为基本模块构建最终的时空图卷积网络。

缺点

ST-GCN中使用的骨架图是启发式预定义的，并且仅表示人体的物理结构。因此，不能保证它对于动作识别任务是最优的。例如，两只手之间的关系对于识别诸如“鼓掌”和“阅读”之类的动作非常重要。然而，ST-GCN很难捕捉到两只手之间的依赖关系，因为它们在预定义的基于人体的图形中距离彼此很远。
GCNs的结构是层次化的，不同的层次包含多层语义信息。然而，ST-GCN应用的图的拓扑结构是固定在所有层上的，缺乏对所有层中包含的多层语义信息建模的灵活性和能力;
对于不同动作类的所有样本，一个固定的图结构不一定是最优的。对于一些动作来说，比如“擦脸”和“碰头”，手和头之间的联系应该更强一些，但对于其他一些动作，比如“跳起来”和“坐下来”，情况则相反。这一事实表明，图结构应该是数据相关的，然而，ST-GCN不支持这一点。
每个顶点附加的特征向量只包含关节的2D或3D坐标，可视为骨骼数据的一阶信息。然而，表示两个关节之间骨骼特征的二阶信息(骨骼长度和方向)没有得到充分利用，但骨骼的长度和方向自然更能提供信息和辨别动作。

AGCN

为改善上述问题，该论文提出一种新颖的 Adaptive graph convolutional network ( AGCN )，这种网路将 2 种不同的 Graph 做参数化，并与卷积参数一同于训练过程进行各自的优化。
这2种Graph分别为：

Global graph：返回所有资料中常见的Pattern。
Individual graph：针对每笔资料的特征做重现。

这两类图都针对不同的层分别进行了优化，可以更好地适应模型的层次结构。这种数据驱动的方法增加了图构建模型的灵活性，并具有更强的通用性，以适应各种数据样本。

主要贡献

1.提出了一种自适应图卷积网络，以端到端方式自适应学习不同GCN层和骨架样本的图的拓扑结构，能够更好地适应动作识别任务和GCN的层次结构。
2.将骨架数据的二阶信息显式表述，并采用双流框架将其与一阶信息相结合，显著提高了识别性能。
3.在基于骨骼的动作识别的两个大规模数据集上，提出的2s-AGCN显著优于现有的方法。

二、Related work

2.1 Skeleton-based action recognition （骨架动作识别）

1.CNN&RNN时代：传统的基于骨骼的动作识别方法通常设计人工选取特征来模拟人体。后来又有RNN与CNN的方法，基于rnn的方法通常将骨骼数据建模为一个坐标向量序列，每个坐标向量代表一个人体关节。基于cnn的方法基于手工选择的转换规则将骨架数据建模为伪图像。
2.图卷积网络时代：然而，rnn和cnn都不能完全表示骨架数据的结构，因为骨架数据自然地以图的形式嵌入，而不是向量序列或二维网格。时空图卷积网络(STGCN)，将骨架数据直接建模为图结构。它消除了人工配置或遍历规则的需要，因此比以前的方法获得了更好的性能。

2.2 Graph convolutional neural networks（图卷积网络）

包括两个方法:空间视角和光谱视角。本文是空间视角法。

三、Graph Convolutional Networks

3.1 Graph construction（图的构建）

在 Graph 的建构上，该论文采用 ST-GCN 的逻辑。
空间上，以关节点当作 Vertexes ，而 Edges 则是人体生理上的连结 ( 上图橘色点、线 )。而时间轴上的 Edges 则是相同 Vertex 之间的连结 ( 上图同关节之间的蓝色线 ) 。

3.2 Graph convolution（图卷积）

在空间上对一个 Vertex ( $v_i$ ) 做 Graph convolution 的公式定义如下：

$f$ 指的是属于 $ v$ 的特征图， $v$ 表示 Vertex 。 $B_i$ 是 Convolution 采样的区域 ( 以邻近 $v_i$ 1 个步长的范围作定义，而所包含的 Vertex 则表示为 $v_j$ ) 。 $w$ 则是相似于 Convolution 做加权的函数，会基于输入的特征图计算 Weight vectors 。为了给每个顶点映射一个唯一的权向量，ST-GCN专门设计了一个映射函数 $l_i$ 。

该过程可以表示成上面的图片：
在 Kernel size 的设定上其实是 3，会将 $B_i$ 切分成 3 个 Subset：

$S_{i1}$ ：Convolution 关注的 Vertex ( 红色 )
$S_{i2}$ ：距离中心较近的向心 Vertex ( 绿色 )
$S_{i3}$ ：距离中心较远的离心 Vertex ( 蓝色 )

这边要留意的是，Weight vectors 是固定的，但邻近的 Vertexes 数量 ( $B_i$ ) 是浮动的，而为了要让每个 Vertex 都能匹配到独特的 Weight vector ，ST-GCN 有特别设计一个 Mapping function ( $l_i$ ) 。

而 $Z_{ij}$ 表示的是上述 Subset ( $S_{ik}$ ) 的基数，也就是包含的 $v_j$ 数量，用意是要平衡每个 Subset 的贡献程度。

3.3 Implementation （实现）

在实现上，整个网路的特征图是个 $C \times T \times N$ 的 Tensor：

C 表示 Channel 数量
T 表示 Temporal 上的长度
N 表示 Vertexes 的数量

而上个 ST-GCN 的公式可表述成：

$K_v$ 表示空间维度上的 Kernel size ( 基于前述定义设定为 3 ) 。⊙ 则是 Dot product 。

$A_k$ 近似于 N × N 的邻接矩阵，其元素 $\overline{A}_k^{ij}$ 表示顶点 $v_j$ 是否在顶点 $v_i$ 的 $S_{ik}$ 子集中。它用于从 $f_{in}$ 中提取特定子集中的连接顶点，以获得相应的权值向量。
$W_k$ 则是通过 1 × 1 Convolution 的操作得到的 Weight vector ( 维度是 $C_{out} × C_{in} × 1 × 1$ )，也就是上一个公式中的 $W ()$ 。
$M_k$ 则是对每个 Vertex 做 Attention 得到的 N × N Attention map，用于表示每个 Vertex 的重要性。

至于在时间轴上关注的范围则会设定为固定的 2 ( 也就是邻近的 2 个帧（frame）的相同关节 ) ，近似于经典 Convolution 的操作。对应到公式来说，就是在输出的特征图上，做一个 $K_t × 1$ 的 Convolution 。

四、Two-stream adaptive graph convolutional network

4.1 Adaptive graph convolutional layer（自适应图卷积层）

在 Introduction 提到，采用人体骨架做 Predefined graph 并不见得最能表达各种行为，而该论文的对应解法是在 Graph convolution 上加入了 Attention，并提出 Adaptive graph convolutional layer，这使 Graph 的 Topology 可以随著网路的训练一起进行优化，让每个 Layer 变得更独特，借此扩大模型的弹性。

根据前一章节的公式来看：

Topology 最终的样子其实取决于 $A_k$ 和 $M_k$ ， $A_k$ 决定的是两顶点之间是否有连结，而 $M_k$ 决定的是这些连结的强度。为了让这个操作能具备 Adaptive 的特性，该论文改写上式为：

其对应示意图如下：

主要差异在于，Graph 的邻接矩阵被拆分为 $A_k$ 、 $B_k$ 、 $C_k$ ，这 3 部份的用意分别如下：

$A_k$ ：
这部分是原始经过 Normalized 的 $N \times N$ 邻接矩阵，决定的是两个顶点之间是否有连接。
$B_k$ ：
（1）尺寸上也是 $N \times N$ ，但差异在于：这边每个参数都是可被训练的，因此没有任何的约束，所以最终这部分的表示会完全取决于训练资料，也就能依据不同行为类别而有所差异。
（2）矩阵中的元素可以是任意值。它不仅表明两个节点之间是否存在连接，而且表明连接的强度。
（3）而且不同于前面的 $A_k$ 及 $M_k$ ，这边的连结性与强度是同时被学出来的，这边不直接在 $M_k$ 上做 Attention 的原因在于：若原本 $A_k$ 上有些地方是 0 ( 代表非骨架的连结 ) ，那从训练开始到结束都会是 0 ，那其实会没办法产生出新的连结 ( 限制模型去看骨架以外的关联性 ) 。从这观点来看， $B_k$ 的作法就比 $M_k$ 更具弹性。
$C_k$ ：
这部分是个 Data-dependent graph ，会针对 Graph 上的每个 Sample 去学习。为了决定两个顶点之间的连结强度，这边使用 Dot product 计算两顶点在 Embedding space 的相似度，所以嵌入的是个 Gaussian function ：

这边的 $θ$ 和 $φ$ 就是 Embedding function，经过 Embedding 的特征图会被 Reshape 成 $N×C_e T$ 和 $C_e T × N$ ，这样两个向量相乘后就可以得到 $N \times N$ 的相似度矩阵： $C_k$ 。若将 $C_k$ 上的每个点座标用 $i, j$ 表示，那其实就是 $C_k^{ij}$ 代表 $v i$ 与 $v j$ 之间的相似度。

而 $C_k$ 上的值由于经过 Normalized ，对两顶点来说算是个 Soft edge，若用 softmax 的操作来看，那 $C_k$ 的计算可表述成：

$W_θ$ 和 $W_φ$ 就是 Embedding function ( $θ$ 和 $φ$ ) 的参数。

而为了不使原来的表现退化，该论文并没有把 $A_k$ 取代为 $B_k$ 或 $C_k$ ，而是将两者的参数初始化为 0 ，并于训练过程中用加法的方式强化既有模型的弹性。

此外，就整体来看，每个 Layer 都有 Residual connection 的设计，这使该作法可被插入在任何现存的模型中，透过上图左边的 1 × 1 Convolution ( 橘色底虚线框 ) 对输入特征图的 Channel 维度做转换，使其适应输出该有的维度。

4.2 Adaptive graph convolutional block（自适应图卷积块）

在时间轴上的 Convolution 操作与 ST-GCN 相同，是在 $C \times T \times N$ 的特征图上做 $K_t × 1$ 的 Convolution，不论在空间上或时间轴上的 Convolution 后面都接著 1 层 Batch normalization ( BN ) layer 和 ReLU layer，但在这两种组合之间有加入 Drop out layer ( Drop rate : 0.5 )，以上便构成一个 Basic block：

上图的 Convs 和 Convt 就是分别为空间上和时间轴上的 Convolution，另外为了训练过程的稳定性，在每个 Block 上会加入 Residual connection 。

4.3 Adaptive graph convolutional network（自适应图卷积）

整个 AGCN 是透过堆叠上述的 Basic block 而成：

一共有 9 个 Block ，最前面有先经过 BN 对输入数据做 Normalize ( 最左边的绿色层 )，透过一连串的特征抽取 ( B1 ~ B9 ) 后，会经过 Global average pooling layer ( GAP, 蓝色层 )，将不同 Sample 的特征图压回一样的尺寸，最后才通过 Softmax 做出分类的预测。

4.4 Two-stream networks

如同 Introduction 所提到的，骨架信息对行为辨识任务来说是重要的，因此透过前面几个章节提到的方法抽取相关信息，并透过一个 Two-stream 的架构来增强模型的辨别能力：

为了在各顶点上带入方向性的信息，该论文特别将骨架中重心近的顶点定义为 Source joint ，相对的，较远的点就是Target joint，而每一段骨架都是一个从 Source 指向 Target 的向量，以此带入强度以外的方向性信息。
给定一个样本，论文首先根据关节的数据计算骨骼的数据。然后，将关节数据和骨骼数据分别输入J-Stream和B-Stream。
最后，将两个流的softmax分数相加，得到融合分数，并预测动作标签。

五、Experiments

5.1 Datasets

该论文为了与 ST-GCN 进行比较，所以采用的资料集是 NTU-RGBD 和 Kinetics-Skeleton 。

5.2 Training details

而实验所使用的相关设定如下：

Framework：PyTorch
Optimizer：SGD
Momentum：0.9 ( Nesterov momentum )
Weight decay：0.0001
Loss function：Cross-entropy
Batch-size：64
Learning rate：
- NTU RGBD：初始为 0.1 ( 在第 10, 30, 40 Epoch 时分别除 10，最后中止在 50 个 Epoch )
- Kinetics-Skeleton：初始为 0.1 ( 在第 45, 55 Epoch 时分别除 10，最后中止在 65 个 Epoch )

5.3 Ablation Study

这边的 Baseline 是 ST-GCN ，它在 NTU-RGBD 资料集上以 X-View 评量标准测试的准确度为 88.3% ，经过该论文调整 Learning rate schedule 后，达到 92.7 % 。

Ablation Study — Adaptive graph convolutional block

在上个章节中，有提到 Adaptive graph convolutional block 有 3 种类型，分别是下表中的 A 、B 、C，这边就是要证明他们每个各自都有些作用：

Ablation Study — Two-stream framework

另一个造成模型成效便好的原因是 Two-stream 的架构，这边就分别把 2 个 Branch 的信息单独做测试得到以下结果：

而 2 种信息混用的状态是最好的。

5.4 Comparison with the state-of-the-art

这边就是与其他当时主流的研究结果相比，在 NTU-RGBD 资料集的结果：

在 Kinetics-Skeleton 资料集的结果：

在当时表现不错。

Visualization of the learned graphs

这边是将第二个 Subset 学到的特征做可视化，下图左边是原始的邻接矩阵，右边则是根据该类别学到的连接性与强度信息：

另外针对不同 Layer 学到的东西也做了以下的可视化：

由左至右分别对应到架构图的 B3 、B5 、B7 层，关节点上的圆半径则反应每个节点与右手拇指关节点 ( 编号为 25) 的强度。

这边是为了证明，传统生理上的骨架连结方式并不见得是最好的选择。可以看到最右边的绿色骨架，当特征经过多层的抽取后，也就能看到较远的地方，这时左右手的关联性就比生理上邻近节点来的强，这就是与行为类别更具备相关性的信息。

另外该论文也针对相同层数的特征做了可视化，下图为不同行为上的第 5 层信息：

这就证明了，相同网路架构、相同层数的参数，可以根据训练资料对不同类别的输入学到具有差异性的 Topology 。

六、Conclusion

该论文在当时提出了新颖的 Two-stream adaptive graph convolutional neural network ( 2s-AGCN )，对重现骨架的 Graph 做了参数化的动作，使模型具备更大的弹性来学习不同行为的特征。
过去研究并未重视那些每段骨架上的信息 ( Bone information )，而在该论文中以 Two-stream 的架构用这些信息来增强模型对行为的识别能力，并达到当时的最好表现。

415.字符串相加粉蒸妹 LeedCode每日一题
给定两个字符串形式的非负整数num1和num2，计算它们的和。注意：num1和num2的长度都小于5100.num1和num2都只包含数字0-9.num1和num2都不包含任何前导零。你不能使用任何內建BigInteger库，也不能直接将输入的字符串转换为整数形式。publicclassQuestion1{publicstaticvoidmain(String[]args){Scannerin=n
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
字符串的翻转小结是我真的是我
题目一给定一个字符串，如"csdn"，编写函数返回翻转为"ndsc"的结果。思路不考虑库函数的情况下，采用递归的方式，每次返回从第二位开始的子串（同时递归下去）加上第一位字符，直到递归到剩下一个字符则直接返回即可。publicclassSolution{publicstaticvoidmain(String[]args){Stringstr="csdn";System.out.println(My
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解文章目录基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解1.RELM原理2.分类问题求解3.基于探路者算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
神经网络常见激活函数 13-Softplus函数亲持红叶神经网络常见激活函数神经网络人工智能深度学习
文章目录Softplus函数+导函数函数和导函数图像优缺点PyTorch中的Softplus函数TensorFlow中的Softplus函数Softplus函数+导函数Softplus函数Softplus⁡(x)=ln⁡(1+e x)\begin{aligned}\operatorname{Softplus}(x)&=\ln\bigl(1+e^{\,x}\bigr)\end{aligned}Sof
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Spring AI从入门到精通：构建智能Spring应用的全面指南 java干货仓库 Spring 八股文汇总大模型 spring 人工智能 java
随着人工智能技术的快速发展，将大语言模型（LLM）与企业应用集成已成为趋势。SpringAI作为Spring官方推出的AI集成框架，为开发者提供了便捷、标准化的方式来构建智能应用。本文将从基础概念到高级应用，全面介绍SpringAI的核心功能与实践技巧。一、SpringAI概述1.1什么是SpringAI？SpringAI是VMware于2023年推出的开源框架，旨在简化大语言模型（LLM）与Sp
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
python 多线程拍照 NO1212 python 开发语言
相机为basler，logicbalser相机识别条码，进行拍照args[0]为logging的参数保证log实时传输到GUI界面调用方法:main_process(args[0]).camera_run()importsysimporterrnoimportcv2importnumpyasnpimportjsonimportloggingimportthreadingimportlogging.
手把手一步一步教你使用Java开发一个大型街机动作闯关类游戏09之sprite动画 __豆约翰__
项目源码项目源码sprite动画上一节，我们可以控制sprite移动了，但sprite的移动就是平移，比较呆板；这一节我们给sprite添加动画效果。Animation类继承Transform，这样就具备了平移和缩放的能力。主要思想是：1.包含一个图片的列表（动画的本质就是多张图片的连续播放）2.内部有个定时器，不断更换图片。@OverridepublicvoidactionPerformed(A
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt