亿点困难

【超分辨率】（RCAN）Image Super-Resolution Using Very Deep Residual Channel Attention Networks

论文名称：Image Super-Resolution Using Very Deep Residual Channel Attention Networks
论文下载地址：https://arxiv.org/pdf/1807.02758.pdf
论文补充材料：ECCV-2018-RCAN_supp：http://yulunzhang.com/papers/ECCV-2018-RCAN_supp.pdf
论文代码地址：https://github.com/yulunzhang/RCAN
论文参考翻译：https://blog.csdn.net/weixin_46773169/article/details/105560399

1.论文概述

1.本论文中作者提出了一种非常深（400层）的残差通道注意力网络（RCAN），为了解决不同类别的信息在通道间被平等对待的问题以及如何构建一个更深的可训练网络问题。低分辨率的输入和特征包含丰富的低频信息，这些信息在通道间被平等对待，从而阻碍了CNNs的表征能力，而RCAN就是为了解决这一问题而被提出的。
2.本论文的创新点有两个，首先作者提出了residual in residual（RIR）结构来形成非常深的网络，RIR由几个具有长跳连接的残差组组成。每个残差组包含几个具有短跳连接的残差块。其次作者将注意力机制融入到残差块中，形成RCAB模块。

2.论文提出的背景

最近基于深度卷积神经网络（CNN）的方法相对于传统的SR方法有了显著的改进。最开始Chao Dong等人提出了一个三层的SRCNN方法。Kim等人将VDSR和DRCN将网络深度提升到了20层，比SRCNN有了明显的改进。在图像分类网络中，何凯明提出的残差学习策略被引用到了SR领域。Lim等人利用简化的残差块构建了一个非常大的EDSR网络和一个非常深的MDSR网络，并使性能得到了很大的提升，但是仅仅通过堆叠残差块来构建更深的网络很难获得更好的提升效果。更深的网络是否能够促进图像SR，以及如何构建更深的可训练网络还有待进一步的探索。
另一方面，最新的基于CNN的方法对于通道特征的处理是平等的，在处理不同类型的信息（如低频、高频信息）时缺乏灵活性。图像SR可以被看作需要尽量恢复更多高频信息的过程。LR图像包含的低频信息最多，可以直接传送到最终的HR输出，而不需要太多的计算。而领先的基于CNN的方法将从原始LR输入中提取特征，并平等地对待每个通道特征。这样的操作会在大量的低频特征上浪费不必要的计算，缺乏跨特征通道的区别性学习能力，最终阻碍了深度网络的表征能力。
为了解决上述的这些问题，作者提出了一个残差通道注意力网络（RCAN）来获得非常深的可训练网络，同时自适应地学习更多有用的通道特征。具体来说，为了使超深的网络的训练变得容易，作者提出了残差嵌套（residual in residual, RIR）结构，其中残差组（RG）作为基本模块，长跳连接（LSC）允许粗级的残差学习。在每个RG组中，通过短跳连接（SSC）将几个简化的残差块堆叠起来。通过这些基于Identity的跳跃连接，长跳连接、短跳连接以及残差中的短跳连接可以绕过大量的低频信息，从而使信息的流动更加容易。在此基础上，作者提出通道注意力机制，通过对特征通道之间的相互依赖性进行建模，来自适应地重新缩放每个通道的特征。这样的CA机制使得作者所提出的网络可以专注于更多有用的通道并增强鉴别性学习能力。

3.Residual Channel Attention Network(RCAN)

3.1 网络架构

如图2所示。RCAN主要由四个部分组成：浅层特征提取、残差嵌套（RIR）深度特征提取、上采样模块和重建部分。
浅层特征提取：令 $I_{LR}$ 和 $I_{SR}$ 分别作为RCAN的输入和输出。作者仅使用一个卷积层从LR输入提取浅层特征 $F_0$ :
$F_{0}=H_{S F}\left(I_{L R}\right), \quad\quad\quad\quad\quad\quad\quad\quad (1)$
其中， $H_{S F}(\cdot)$ 表示卷积操作。
$F_0$ 随后用于RIR模块深层特征的提取。因此进一步可得：
$F_{D F}=H_{R I R}\left(F_{0}\right), \quad\quad\quad\quad\quad\quad\quad\quad (2)$
其中， $H_{RIR}(\cdot)$ 表示本论文提出的非常深的RIR模块，它包含G个残差组（RG）。
将RIR模块输出的深层特征 $F_{DF}$ 通过一个上采样模块进行上采样：
$F_{U P}=H_{U P}\left(F_{D F}\right), \quad\quad\quad\quad\quad\quad\quad\quad (3)$
其中， $H_{UP}(\cdot)$ 表示上采样模块。
上采样特征随后通过一个Conv层进行重建：
$I_{S R}=H_{R E C}\left(F_{U P}\right)=H_{R C A N}\left(I_{L R}\right), \quad\quad\quad\quad\quad\quad (4)$
其中， $H_{REC}(\cdot)$ 和 $H_{RCAN}(\cdot)$ 分别表示重建层和RCAN函数。
最后是损失函数的选择，本文中选择的是L1损失函数：
$L(\Theta)=\frac{1}{N} \sum_{i=1}^{N}\left\|H_{R C A N}\left(I_{L R}^{i}\right)-I_{H R}^{i}\right\|_{1}, \quad\quad\quad\quad\quad\quad (5)$
其中， $\Theta$ 表示网络的参数。损失函数通过梯度下降法进行优化。

3.2 Residual in Residual（RIR）

如图2所示，将在本下节中介绍更多关于RIR的细节。RIR模块包含G个残差组（RG）和长跳连接（LSC）。每个RG中又包含B个带有短跳连接（SSC）的残差通道注意力模块（RCAB）。作者提出的RIR模块允许训练非常深的CNN（超过400层）来获得高性能的图像SR。

研究表明，堆叠残差块和LSC可用于构造深度CNN。但是，在SR中，仅是这样简单的堆叠非常深的网络很难获得更大的性能增益，同时还会出现训练困难的问题。受到SRResNet和EDSR的启发，作者提出残差组（RG）作为更深层网络的基本模型。在第g个残差组中，RG计算为：
$F_{g}=H_{g}\left(F_{g-1}\right)=H_{g}\left(H_{g-1}\left(\cdots H_{1}\left(F_{0}\right) \cdots\right)\right), \quad\quad\quad\quad\quad\quad (6)$
其中， $H_g$ 表示第g个RG函数， $F_{g-1}$ 和 $F_g$ 是第g个RG的输入和输出。
仅堆叠许多RG将无法获得更好的性能。为了解决这个问题，RIR中进一步引入了长跳连接（LSC），以稳定非常深的网络训练。LSC还可以通过残差学习来得到更好的性能：
$F_{D F}=F_{0}+W_{L S C} F_{G}=F_{0}+W_{L S C} H_{g}\left(H_{g-1}\left(\cdots H_{1}\left(F_{0}\right) \cdots\right)\right) \quad (7)$
其中， $W_{LSC}$ 为RIR尾部Conv层的权值。为了简单起见，忽略了偏置项。LSC不仅可以简化RGs间的信息流动，而且可以使RIR在粗粒度层次上学习残差信息。LR输入和特征中包含大量丰富的信息,SR网络的目标就是恢复更多有用的信息丰富的低频信息可以通过identity的跳跃连接绕过(用长跳连接来实现)。
进一步地,作者在每个RG中堆叠B个残差通道注意力模块。在第g个RG中第b个残差通道注意力模块(RCAB)可以表示为下式:
$F_{g, b}=H_{g, b}\left(F_{g, b-1}\right)=H_{g, b}\left(H_{g, b-1}\left(\cdots H_{g, 1}\left(F_{g-1}\right) \cdots\right)\right), \quad (8)$
其中, $F_{g, b-1}$ 和 $F_{g, b}$ 是第g个RG中第b个RCAB的输入和输出,相应的函数为 $H_{g, b}$ 。
为了使主网络更加关注有价值的特征信息,在RCAB中引入短跳连接(SSC)来得到RCAB模块的输出:
$F_{g}=F_{g-1}+W_{g} F_{g, B}=F_{g-1}+W_{g} H_{g, B}\left(H_{g, B-1}\left(\cdots H_{g, 1}\left(F_{g-1}\right) \cdots\right)\right) \text {, } \quad (9)$
其中, $W_g$ 为第g个RG尾部中的Conv层的权值。SSC进一步允许网络的主要部分学习残差信息,使用LSC和SSC,在训练更容易绕过大量的低频信息(因为仅学习低频到高频之间的残差)。

1.在文中,长跳连接(LSC)是将浅层特征提取到的特征图与RIR模块输出的特征图求和,它跨越了数个RG模块。而短跳连接(SSC)是将一个RG模块的输入与输出求和,它没有跨越RG模块。
2.从整体上看,所有RG模块形成一个残差结构,而在每个RG模块内部又由数个RCAB构成了一个残差结构,因此是Residual in Residual。

3.3 Channel Attention(CA)

在以前的基于CNN的SR方法中对LR通道特征的处理是平等的,这对于实际情况来说缺乏了灵活性。为了使网络关注更加有价值的信息,作者利用特征通道间的相关性形成通道注意力机制。如图3所示。

如何为每个通道特征生成不同的注意力是关键的一步,在这里作者主要考虑了两点问题:第一,LR空间中信息具有丰富的低频成分和有价值的高频成分.低频部分似乎比较平坦.高频成分通常是充满边缘、纹理和其他细节的区域.另一方面,Conv层的每一个过滤器都有一个局部感受野.因此,卷积后的输出无法利用局部区域之外的上下文信息.
通道注意力机制操作:在上面的基础上,首先利用全局平均池化将通道相关的全局信息转化为通道描述符。如图3所示，令 $X=\left[x_{1}, \cdots, x_{c}, \cdots, x_{C}\right]$ 为输入， $X$ 表示C个大小为HxW的特征图集合。通过空间维数HxW对 $X$ 进行收缩（这里就相当进行了一个全局平均池化的操作），可以得到信道方向的统计量 $\in \mathbb{R}^{C}$ 。 $z$ 的第c个元素可以由下式计算：
$z_{c}=H_{G P}\left(x_{c}\right)=\frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} x_{c}(i, j) \quad\quad\quad\quad (10)$
其中， $x_{c}(i, j)$ 为第c个特征 $x_{c}$ 在 $(i, j)$ 处的值。 $H_{GP}(\cdot)$ 表示全局池化函数。这样的通道统计可以看作是局部描述符的集合，它们的统计有助于表达整个图像。
为了通过全局平均池化从聚合的信息中完全捕获通道依赖关系，作者引入了一种门控机制。在本文中，作者选择sigmoid函数作为门控机制：
$s=f\left(W_{U} \delta\left(W_{D} z\right)\right) \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (11)$
其中， $f(\cdot)$ 和 $\delta(\cdot)$ 分别表示sigmoid函数和ReLU函数。 $W_D$ 为卷积层的权值，卷积运算以缩减比 $r$ 进行通道缩减。在由ReLU激活后，低维信号随后通过权值为 $W_U$ 的通道上采样层以比率 $r$ 增加，恢复到与原来相同的高维信号。然后我们获得最终的特征统计量 $s$ ，用于重新缩放输入 $x_c$ ：
$\widehat{x}_{c}=s_{c} \cdot x_{c} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (12)$
其中， $s_c$ 和 $x_c$ 为第c个通道的缩放因子和特征图。在通道注意力机制下，对RCAB中的残差分量进行自适应缩放。

3.4 Residual Channel Attention Block(RCAB)

残差组（RG）和长跳连接（LSC）允许网络的主要部分关注LR特征中更有信息的成分。通道注意力机制提取通道间的通道统计量，进一步提高网络的鉴别性能力。同时受到EDSR中残差模块（RB）成功的启发，作者将CA融合到RB中，提出了残差通道注意块（RCAB），如下图4所示：
对于第g个RG中的第b个RCAB（原文中说的是RB，我觉得应该就是RCAB），由下式定义：
$F_{g, b}=F_{g, b-1}+R_{g, b}\left(X_{g, b}\right) \cdot X_{g, b} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (13)$
其中， $R_{g,b}$ 表示特征注意函数。 $F_{g,b}$ 和 $F_{g,b-1}$ 为RCAB的输入和输出，RCAB从输入中学习残差 $X_{g,b}$ 。残差成分主要由两个堆叠的卷积获得：
$X_{g, b}=W_{g, b}^{2} \delta\left(W_{g, b}^{1} F_{g, b-1}\right) \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (14)$
其中， $W^1_{g,b}$ 和 $W^2_{g,b}$ 为RCAB中的两个堆叠Conv层的权重集合。
作者在论文中进一步将RCAB模块与EDSR/MDSR模型中的RB模块进行比较。RB模块可以看作是RCAB模块的一种特例。MDSR中的RB模块没有残差缩放层，与将 $R_{g,b}( \cdot)$ 令为常数1时的RCAB模块相同。假定EDSR中的RB模块中的残差缩放层rescaling设为0.1，这与将 $R_{g,b}( \cdot)$ 令为常数0.1时的RCAB模块相同。在残差中引入残差缩放层是为了训练非常宽的网络，但是EDSR中没有考虑通道之间的相互依赖性。

3.5实现细节

在RIR结构中将RG的个数设为G=10。在每个RG中，作者将RCAB个数设置为20。所有卷积层的尺寸设为3x3，除了通道下采样和通道上采样，它们中的卷积核尺寸为1x1。对于卷积核大小为3x3的卷积层，采用补零操作保持特征图尺寸大小不变。在浅层特征提取和RIR结构中，Conv层有C=64个滤波器。通道下采样中卷积层有 $\frac{C}{r}=4$ 个滤波器，其中缩减比 $r$ 设为16。对于上采样模块 $H_{up}( \cdot)$ ，使用ESPCNN将粗分辨率特征提升到细分辨率特征，这与RDN相同（RDN和RCAN是同一个作者）。

4.实验

4.1设置

数据集和退化模型：采用DIV2K数据集的800图像进行训练。采用5个基准数据集进行测试：Set5、Set14、B100、Urban100和Manga109。采用双三次线性插值（BI）和模糊降级（BD）作为退化模型。
评估指标：采用PSNR和SSIM在转换后的YCbCr色彩空间的Y通道上评估SR结构。
训练设置：以90°、180°和270°随机旋转和水平翻转进行数据增强。在每个batch中，提取16个大小为48x48的patchLR作为输入。使用L1损失函数和Adam优化器， $\beta_{1}$ 和 $\beta_{2}$ 分别默认取0.9和0.999。初始学习率为1x $10^{-4}$ ，每2x $10^{5}$ 次反向传播减少一半。

4.2 RIR和CA的有效性

RIR：为了证明RIR结构的有效性，作者从很深的网络中移除长跳连接（LSC）和短跳连接（SSC）。在实现的细节中已经描述过，RG=10，每个RG中有20个RCAB模块，每个模块中包含两个Conv层，因此RCAN超过400个Conv层的非常深的网络。在表一中，当LSC和SSC同时被移除时，无论是否使用通道注意力机制（CA），在数据集Set5（x2）上的PSNR值都将对较低。

从上述的比较结构表明，LSC和SSC对于非常深的网络是必不可少的。
CA：当对表一的前四列和后四列进行比较，可以发现有CA的网络比没有CA的网络表现得更好。非常深的网络可以达到非常高的性能，但是很深的网络很难得到进一步的改善，但是通过CA可以使深层网络的性能得到进一步改善。即使在没有RIR的情况下（也就是简单的堆叠残差结构），CA也可以将性能从37.45dB提高到37.52dB。这些比较表明了对通道特征的自适应关注确实提高了性能。

4.3 在BI退化模型上的实验结果

作者将RCAN与11种最先进的方法进行了比较：SRCNN、FARCNN、SCN、VDSR、LapSRN、MemNet、EDSR、SRMDNF、D-DBPN、RDN（是的论文就给了10个）。同时作者也引入了自集成策略来进一步提升RCAN的性能，并称该模型为RCAN+。

定量性结果：表2显示了在x2、x3、x4和x8比例下SR的定量比较。RCAN+在所有比例下的所有数据集上执行得最好。即使没有自集成，RCAN也优于其他的方法。

可视化结果：在图5中，展示了在比例x4的可视化比较。对于最上面的图像，大多数的方法无法恢复里面的小圆格，并且会产生模糊的伪影。相比之下，RCAN可以更好的缓解模糊的伪影，并恢复更多的细节。对于中间图像，大多数的方法沿水平线的模糊伪影。在许多方法中很多线条完全都是混乱的，只有RCAN产生更接近ground truth。对于最下面的图像，裁剪部分可以看到充满了纹理。所有其他的方法都产生了严重的模糊伪影，只有RCAN能够明显地恢复它们，更接近ground truth。
之后的结构不在总结，有点过于浪费时间，想知道结果的同学可以详细看论文

当比例因子变大后（x8），双三次插值的结果会丢失很多结构，这种错误的缩放结果也会导致一些最先进的方法产生完全错误的结构。而RCAN能够恢复它们。

机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
Pytorch实现：LSTM-火灾温度预测骑猪玩狗 pytorch lstm 人工智能
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前期工作语言环境：Python3.9.18编译器：JupyterLab深度学习环境：Pytorch1.12.11.设置GPUimporttorchimporttorch.nnasnnimporttorchvisionfromtorchvisionimporttransforms,datasetsimportos,PIL,pathlibde
深度学习项目--基于LSTM的火灾预测研究(pytorch实现) 羊小猪~~ RNN LSTM神经网络案例机器学习/数据分析案例深度学习 lstm pytorch 人工智能机器学习 rnn gru
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言LSTM模型一直是一个很经典的模型，这个模型当然也很复杂，一般需要先学习RNN、GRU模型之后再学，GRU、LSTM的模型讲解将在这两天发布更新，其中：深度学习基础–一文搞懂RNN深度学习基础–GRU学习笔记(李沐《动手学习深度学习》)这一篇：是基于LSTM模型火灾预测研究，讲述了如何构建时间数据、模型如何构建、pytorch中LST
每天五分钟深度学习框架pytorch：基于vgg块搭建VGG卷积神经网络每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch cnn VGG 卷积神经网络
本文重点前面我们使用pytorch搭建了vgg块，本文我们使用vgg块搭建卷积神经网络VGG16，我们先来看一下vgg16的模型结构是什么样的：搭建vgg16importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kern
深度学习 Pytorch 张量（Tensor）的创建和常用方法白白糖深度学习pytorch python 深度学习 pytorch 人工智能
1张量的基本创建及其类型和Numpy中的array一样，张量的本质也是结构化地组织了大量的数据。并且在实际操作中，张量的创建和基本功能也与其非常类似。1.1张量(Tensor)函数创建方法张量的最基本创建方法和Numpy中创建Array的格式一致。#Numpy创建数组importnumpyasnp#导入numpya=np.array([1,2,3])importtorch#首次使用,导入torch
PyTorch 神经协同过滤 (NCF) 推荐系统教程陌北v1 pytorch python NCF 神经协同过滤
目录教程概述1.神经协同过滤模型概述NCF模型的主要组成部分：2.数据加载与预处理3.定义神经协同过滤模型4.训练模型5.模型评估6.推荐物品7.完整示例8.总结在本教程中，我们将使用PyTorch实现一个神经协同过滤（NeuralCollaborativeFiltering，简称NCF）推荐系统。神经协同过滤是一种基于深度学习的推荐系统模型，通过学习用户和物品的嵌入表示来预测用户对物品的评分，进
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
10 个免费的 AI 图片生成工具分享程序员
原文：https://openaigptguide.com/ai-picture-generator/在人工智能（AI）图像生成技术的推动下，各类AI图片生成网站如雨后春笋般涌现，为我们的日常生活提供了丰富多彩的视觉体验。AI图片生成技术原理人工智能（AI）图片生成技术原理是通过计算机程序使用深度学习算法从大量的数据中学习特征，并根据特征创建新的图片。该技术可以模拟人类的绘画过程，学习输入图像的潜
假新闻检测论文（24）A comprehensive survey of multimodal fake news detection techniques... weixin_41964296 假新闻检测自然语言处理
本文综述了利用深度学习架构和注意力机制进行假新闻检测的最新和全面的研究一介绍假新闻定义：虚假或误导性新闻，或“假新闻”，是任何捏造或故意欺骗的媒体内容。假新闻危害：它可以被利用来操纵公众情绪，传播错误信息，甚至干预政治选举。它的主要目的是扭曲、欺骗或操纵个人的信仰和观点。假新闻的形式（类型）：虚假信息在媒体上传播的形式多种多样，包括讽刺、谣言、点击诱饵、错误信息等。讽刺作品通常充满幽默，用来强调特
YOLOv8重磅升级：引入DenseOne密集网络革新主干设计，重塑YOLO目标检测性能新高度程序员杨弋 YOLO 目标检测人工智能
随着深度学习技术的不断进步，目标检测作为计算机视觉领域的重要任务之一，其性能和应用范围也在不断扩大。作为目标检测领域的佼佼者，YOLO（YouOnlyLookOnce）系列算法以其出色的性能和实时性受到了广泛关注。而最近提出的YOLOv8更是在前代版本的基础上进行了多项优化，进一步提升了检测精度和速度。然而，尽管YOLOv8已经取得了显著的进步，但在处理复杂场景和遮挡问题时，仍然存在一定的挑战。为
深度学习驱动的极端天气预测：时空数据异常检测与应用全解析（基于Python + TensorFlow） AI_DL_CODE 深度学习 python tensorflow 人工智能天气预测
摘要：时空数据异常检测在气象领域识别偏离正常模式的数据点，对极端天气预测至关重要。深度学习，尤其是LSTM网络，因其强大的特征学习能力在该领域显示出巨大潜力。通过整合多源气象数据，深度学习模型能够自动挖掘复杂模式和非线性关系，提高预测准确性。然而，挑战依然存在，包括数据质量问题、模型可解释性不足以及极端天气的内在复杂性和不确定性。未来，通过模型架构创新、训练算法优化以及探索深度学习在气候预测、气象
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！ YOLO大师 YOLO 网络 cnn 目标检测论文阅读 yolov8
YOLOv8目标检测创新改进与实战案例专栏专栏目录：YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸
基于深度学习的人脸表情识别系统：YOLOv5 + YOLOv8 + YOLOv10 + UI界面 + 数据集 2025年数学建模美赛深度学习 YOLO ui 分类人工智能
引言随着人工智能的飞速发展，深度学习技术已广泛应用于各个领域，尤其是在计算机视觉领域。人脸识别和表情识别是其中的一个重要应用，能够在多种场景下提供重要的信息，例如安全监控、情感分析、智能客服、健康监测等。在人脸表情识别任务中，准确识别人脸的情感状态（如高兴、愤怒、悲伤等）是一个极具挑战性的任务。随着YOLO系列算法的不断进步，YOLOv5、YOLOv8和YOLOv10的推出大大提高了目标检测的精度
基于YOLOv8深度学习的人脸年龄检测识别系统 2025年数学建模美赛 YOLO 深度学习人工智能 ui 数据挖掘分类
引言随着人工智能和计算机视觉的飞速发展，人脸分析技术在年龄检测领域取得了显著进展。人脸年龄检测系统在安全监控、广告推荐、健康监测等领域有广泛应用。本文将基于YOLOv8目标检测模型和UI界面，开发一个完整的人脸年龄检测识别系统。我们将详细介绍项目的技术实现、数据集构建、模型训练以及UI设计，并附上完整代码。目录引言系统架构设计数据准备公开人脸年龄数据集数据标注格式数据目录结构模型训练YOLOv8环
基于深度学习的人脸表情识别系统（YOLOv10+UI界面+数据集） 2025年数学建模美赛深度学习 YOLO ui 计算机视觉人工智能目标跟踪
在本篇博客中，我们将详细介绍如何构建一个基于深度学习的人脸表情识别系统。该系统主要由三部分组成：YOLOv10（深度学习模型）进行表情识别、UI界面展示识别结果以及数据集的准备和训练过程。我们将从系统架构、数据准备、模型训练、UI设计等多个方面进行全面讲解，最终实现一个能够实时识别并展示人脸表情的系统。目录1.系统架构2.数据集准备2.1FER2013数据集2.2数据预处理3.YOLOv10模型概
基于深度学习的人脸表情识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能代码
1.引言近年来，人脸表情识别在情感计算、智能人机交互、心理学研究等领域有着广泛的应用。深度学习的快速发展，使得高效、准确的人脸表情识别成为可能。通过利用卷积神经网络（CNN）和目标检测技术，可以实现实时、精准的人脸表情识别。本文将基于YOLOv8构建一个完整的人脸表情识别系统。系统集成了数据集准备、YOLOv8模型训练、实时推理以及基于PyQt5的图形用户界面（UI）。通过本文，你将学习如何实现一
AI大模型应用架构（ALLMA）白皮书解读百度_开发者中心人工智能大模型数据库自然语言处理
随着人工智能技术的不断发展，AI大模型成为推动生产、生活方式变革，助推产业智能化转型升级，驱动数字经济高质量发展等社会经济发展方面的新引擎。为了全面展示AI大模型的发展全貌，为各界提供新思路，本文将对AI大模型应用架构（ALLMA）白皮书进行解读。一、AI大模型应用架构（ALLMA）的内涵AI大模型应用架构（ALLMA）是一种基于深度学习的人工智能应用架构，旨在通过大规模无标注数据预训练、指令微调
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
气象海洋水文领域Python机器学习及深度学习实践应用能力提升 AAIshangyanxiu 农林生态遥感编程算法统计语言大气科学 python 机器学习深度学习
Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能。上述优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为气象、海洋和水文
【昇思25天学习打卡营打卡指南-第一天】基本介绍与快速入门 JeffDingAI MindSpore 学习
昇思MindSpore介绍昇思MindSpore是一个全场景深度学习框架，旨在实现易开发、高效执行、全场景统一部署三大目标。其中，易开发表现为API友好、调试难度低；高效执行包括计算效率、数据预处理效率和分布式训练效率；全场景则指框架同时支持云、边缘以及端侧场景。昇思MindSpore总体架构如下图所示：ModelZoo（模型库）：ModelZoo提供可用的深度学习算法网络，也欢迎更多开发者贡献新
NLP-语义解析(Text2SQL)：技术路线【Seq2Seq、模板槽位填充、中间表达、强化学习、图网络】 u013250861 #自然语言处理人工智能
目前关于NL2SQL技术路线的发展主要包含以下几种:Seq2Seq方法：在深度学习的研究背景下,很多研究人员将Text-to-SQL看作一个类似神经机器翻译的任务,主要采取Seq2Seq的模型框架。基线模型Seq2Seq在加入Attention、Copying等机制后,能够在ATIS、GeoQuery数据集上达到84%的精确匹配,但是在WikiSQL数据集上只能达到23.3%的精确匹配,37.0%
PyTorch 中的 expand 操作详解：用法、原理与技巧专业发呆业余科研深度模型底层原理 pytorch 人工智能 python 深度学习机器学习
在使用PyTorch进行深度学习时，张量形状与广播机制常常是让初学者感到困惑的地方。我们需要时常面对多维张量，并在批量、通道、空间位置等多个维度之间做运算。如果能熟练掌握各种维度变换操作——包括unsqueeze、expand、view/reshape、transpose/permute等，可以帮助我们灵活地操纵张量，写出高效而简洁的矩阵化（vectorized）代码。本文将重点聚焦于expand
注意力池化层：从概念到实现及应用专业发呆业余科研深度模型底层原理 python 人工智能 transformer 深度学习自然语言处理图像处理
引言在现代深度学习模型中，注意力机制已经成为一个不可或缺的组件，特别是在处理自然语言和视觉数据时。多头注意力机制（MultiheadAttention）是Transformer模型的核心，它通过多个注意力头来捕捉序列中不同部分之间的关系。然而，在多模态模型中，如何有效地将图像特征和文本特征结合起来一直是一个挑战。注意力池化层（AttentionPoolingLayer）提供了一种有效的解决方案，通
深入解析昇腾AI CPU算子开发：基于AI CPU引擎的自定义算子实现与优化快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析昇腾AICPU算子开发：基于AICPU引擎的自定义算子实现与优化随着深度学习模型复杂性的不断提升，AI处理器需要更强大的算力和更高效的计算架构来支撑模型的训练和推理。在华为昇腾AI处理器的架构中，AICPU承担着重要的计算任务，特别是针对标量和向量等通用计算的支持。AICPU算子开发成为开发者优化模型性能的重要步骤，而TBE（TensorBoostEngine）工具也为开发者提供了便捷的算
【AI系统】混合并行 ZOMI酱人工智能
混合并行混合并行（HybridParallel）是一种用于分布式计算的高级策略，它结合了数据并行和模型并行的优势，以更高效地利用计算资源，解决深度学习中的大模型训练问题。混合并行不仅能提高计算效率，还能在有限的硬件资源下处理更大的模型和数据集。在深度学习中，数据并行和模型并行各自有其适用的场景和局限性。数据并行适用于训练样本较多而模型较小的情况，通过将数据集分割成多个子集并在不同的设备上同时训练来
BladeDISC++：Dynamic Shape AI 编译器下的显存优化技术人工智能机器学习分布式阿里云
近年来，随着深度学习技术的迅猛发展，越来越多的模型展现出动态特性，这引发了对动态形状深度学习编译器(DynamicShapeAICompiler)的广泛关注。本文将介绍阿里云PAI团队近期发布的BladeDISC++项目，探讨在动态场景下如何优化深度学习训练任务的显存峰值，主要内容包括以下三个部分：DynamicShape场景下显存优化的背景与挑战BladeDISC++的创新解决方案Llama2模
【TVM 教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在ifname=="__main__":代码块中。importosi
交叉熵损失与二元交叉熵损失：区别、联系及实现细节专业发呆业余科研深度模型底层原理人工智能深度学习 python
在机器学习和深度学习中，交叉熵损失（Cross-EntropyLoss）和二元交叉熵损失（BinaryCross-EntropyLoss）是两种常用的损失函数，它们在分类任务中发挥着重要作用。本文将详细介绍这两种损失函数的区别和联系，并通过具体的代码示例来说明它们的实现细节。交叉熵损失（Cross-EntropyLoss）常用于多类分类问题，即每个样本只能属于一个类别，但总类别数量较多。例如，在手
2025年Photoshop详细教程：从新手到高手，手把手带你学PS Java徐师兄 photoshop Photoshop教程 Photoshop 视频教程 Photoshop 入门教程 Photoshop入门视频教程
2025年Photoshop详细教程：从新手到高手，手把手带你学PS大家好！今天给大家带来一份超实用的2025年Photoshop入门教程，让你从零开始，快速掌握PS的基础操作！如果你是图像处理小白，或者刚刚接触Photoshop的新手，那么这套课程就是专门为你量身定制的哦！这套课程叫做《PS教程-小白系统入门课》，包含了16节高质量的视频教程，搭配丰富的练手素材，跟着我一起，一步步深入了解Pho
深度学习YOLOv3压双黄线期末项目 yzx991013 giit YOLO
一、引言实现功能目录一、引言实现功能打开视频连续检测车辆能检测到道路中间的双黄线能检测出车辆是否压双黄线当车辆压到双黄线时给出提示要求使用多线程实现功能二、技术栈概览三、代码功能深度剖析视频文件选择功能（choosevideo函数）四、项目亮点提炼五、总结与展望1.打开视频2.连续检测车辆3.能检测到道路中间的双黄线4.能检测出车辆是否压双黄线5.当车辆压到双黄线时给出提示6.要求使用多线程实现功
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end