ytao_wang

ICCV2019超分辨率方向论文整理笔记

ICCV2019超分辨率篇

IEEE International Conference on Computer Vision，即国际计算机视觉大会，与计算机视觉模式识别会议（CVPR)）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议。不同于在美国每年召开一次的CVPR和只在欧洲每两年召开一次的ECCV，ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低，是三大会议中公认级别最高的。

ICCV共举行了4天，在超分辨率上收录文章13篇。这里仅对单图像超分辨率相关的5篇论文作介绍。

文章目录

- - ICCV2019超分辨率篇
  - - 1. EBRN: Embedded Block Residual Network
    - 2. KMSR: Kernel Modeling
    - 3. SROBB
    - 4. Wavelet Domain Style Transfer
    - 5. RankSRGAN
    - 个人总结

1. EBRN: Embedded Block Residual Network

Embedded Block Residual Network: A Recursive Restoration Model for Single-Image Super-Resolution，paper

块残差模块：不同的模块可恢复不同频率的信息，将前层难以恢复的信息传入更深的层进行恢复。

问题描述：

现有的模型方法无法区分图像频率，这些模型中每一层都是根据上一层恢复的恢复来恢复纹理。对于浅层，参数可能适合于低频信息（具有简单纹理），但不适合高频信息（具有复杂纹理）。对于较深的层，这些参数可以适合于高频信息，但在低频信息上过拟合。另外，低频信息由更简单的结构和纹理组成，可以用更简单的模块来进行恢复；较高频率的信息由复杂的结构和纹理组成，可以使用复杂的模块来实现。这就要求构建一个模块，将低频和高频分开。尽管残差连接提供了一种将信息拆分为已恢复和未恢复信息的方法，但其残差连接结构与分频原理无关。相反，这些方法主张残差连接以密集和直接的方式将浅层信息传递到深层。但是，深层很容易在图像的低频信息上过度拟合。

基于以上分析，本文提出一种块残差模块(Block Residual Modual, BRM)的结构，将低频和高频分开，旨在恢复部分HR信息，同时将剩余信息传递给更深层的模块以进行恢复。

如图，该模块包含两个数据流：超分辨率流和反投影流。

超分辨率流用以恢复较低频率的信息，是一个基本的反卷积网络，LR特征图 $I_x$ 通过使用一个反卷积层（也称为转置卷积，图中up块）和三个卷积层的堆叠，输出为超分辨率特征图 $O_x$ ，

反投影流用于计算超分辨率流尚未恢复的信息。反投影流采用一种操作，该操作首先将反卷积特征图下采样到LR空间大小，然后计算下采样特征图和输入LR特征图的负值。计算出的残差传达了超分辨率流无法恢复的信息。然后，该残差由局部残差学习阶段处理，输出一组编码特征 $I_{x+1}$ ，这些特征形成下一个BRM的输入。

BRM以嵌入的方式构成，而不是简单的堆叠方式。即，后一个BRM连接到前一个BRM的反投影流的输出，依此类推。每个BRM都负责恢复其先前BRM的反投影流所产生的残差特征图，反过来说，难以恢复的较高频率的信息将传递给后续模块。因此，较深的BRM总是尝试还原较浅的BRM尚未还原的内容。这符合我们的期望。

网络的整体架构：

为了结合所有BRM的输出，作者注意到深层模块恢复的信息可以帮助改善浅层模块的恢复。对此，论文提出了一种递归融合技术，而不是简单的求和。如图，将每个BRM的超分辨率流输出从最后一个BRM开始向前递归融合，然后接一个卷积层。与简单求和相比，该技术能够以平滑的方式处理输出，从而实现更好的重构。此外，为了避免训练中出现梯度消失的问题，作者建议将每个BRM的输出直接Concat连接到图像重建模块。最后利用3×3×64卷积核，产生3通道RGB图像。

作者使用L1损失作为训练目标，然后使用L2损失进行微调。

结果对比：

作者采样简单的相加方式和递归融合方式进行了实验对比

在测试集上的结果如下

参数比较

2. KMSR: Kernel Modeling

Kernel Modeling Super-Resolution on Real Low-Resolution Images，paper，code

模糊核估计：在网络训练时注入模糊核以模拟真实图像的退化过程。

问题描述：

给定高分辨率图像(HR) $y$ ，经过退化后的对应低分辨率图像(LR) $x$ ，这一过程可用下列公式表示：
$x=(y*k)\downarrow^s\large + n$

$k$ ：未知模糊核

$\downarrow^s$ ：尺度为 s 的下采样操作

$n$ ：噪声

这表明，LR图像本质上是通过HR图像使用不同类型的模糊核生成的。以前的大多数方案LR图像基本是从对应HR图像进行双三次插值获得，即单一已知模糊核，与真实世界图像退化的方式明显不同，因此其在现实场景中泛化和鲁棒性都不高。作者提出了一个内核建模超分辨率网络(Kernel Modeling Super-Resolution, KMSR)，该网络在训练中纳入了模糊核建模。KMSR包括两个阶段：首先使用生成的对抗网络(GAN)建立一个现实的模糊核池，然后使用HR和由生成的内核构建的相应LR图像训练超分辨率网络。

假设从 $n = 0$ ，使用传统的双三次插值(bicubic)将LR放大到低质量HR图像 $x^{\prime}$ ：
$x^{\prime}=(x*b_s)$

$b_s$ ：尺度为 s 的双三次放大核

于是有： $x^{\prime}=((y*k)\downarrow^s)*b_s$ ，简化为：
$x^{\prime}=y*k^{\prime}$

$k^{\prime}=(k*b_s)\downarrow^s$

要训练盲超分(模糊核未知)，根据等式，我们需要获得成对的训练数据 $y$ 和 $x^{\prime}$ 。而训练GAN比较困难且不稳定，并且很难生成无伪影的图像。因此，作者使用GAN产生模糊核而不是图像。整体流程如下：

第一个阶段：从真实图像中估计模糊核，这被用于训练GAN网络，以产生大量逼真的模糊核。

第二个阶段：将上面生成的模糊核用于创建相应的HR和LR图像的配对数据集，以训练CNN网络。

模糊核池构建：

对真实图像，使用基于暗通道先验方式进行核估计（具体见论文3.2节），得到模糊核集 $K^{\prime}$ 。输入的LR很难获得，且核估计算法比较昂贵，这导致收集的核数量核多样性可能会受到限制。因此，作者使用GAN对估计的模糊核集 $K^{\prime}$ 的分布进行建模，并生成一个更大的模糊核池 $K^+$ 。这里，作者使用WGAN-GP进行生成模糊核建模。

整体网络架构：

对HR图像y，从模糊核池中随机选取模糊核 $k^{\prime}$ 与HR卷积生成低质量HR图像 $x^{\prime}$ ，组成image-pairs进行训练。

训练设置：作者使用DPED数据集训练GAN以生成模糊核池，使用DIV2K数据集作为HR图像，随机选取模糊核池中模糊核与之进行卷积，得到输入图像，以此训练SR网络。

特别地：论文在3.1节中写到"We upscale the LR image to a coarse HR image $x^{\prime}$ with the desired size $r_1×r_2$ with traditional bicubic interpolation by the same factor $s$ "，表明粗（低质量）HR图像 $x^{\prime}$ 尺寸为 $r_1×r_2$ ，那么这里SR网络的输入为HR的尺寸大小，图2中也没有看到放大模块进行尺寸的放大。以此可以推理出，在实际测试的时候，对低分辨率图像LR（尺寸为 $r_1/s ×r_2/s$ ），先将其上采样到HR尺寸（即为低质量HR图像，按作者公式，上采样应为bicubic上采样），然后输入到SR网络中，进行高质量HR重建，即完全的模糊核估计，实际SR网络不包含上采样放大部分。

结果对比：

3. SROBB

SROBB: Targeted Perceptual Loss for Single Image Super-Resolution，paper

损失函数新设计方式：从分割标签生成OOB(Object, Background and Boundary) 标签，来估计边界合适的感知损失，同时考虑背景的纹理相似性。

现有的方法在整张图像上用相同的方式来估计重建误差，而不考虑语义信息。因此，作者提出基于感知损失的新估计方式，使用逐像素损失、对抗损失和所提的目标感知损失优化网络，对不同语义级别的图像执行不同的惩罚。

网络的整体架构：

主架构与一些经典方法没有太大的差别，作者主要关注于充分利用感知损失，使目标函数强制执行语义细节（图像包含对象、背景和边界）。新的目标感知损失的生成方式示意图如下：

分割标签经过OBB生成器生成OBB标签，与主网络生成的SR图像求其损失。

OBB标签创建：

使用来自COCO-Stuff数据集随机的50K张图像，其中包含91个类别的用于分割任务的的语义标签，考虑了具有“天空”、“植物”、“地面”和“水”类中的一个或多个景观。然后将这些类分为一个“背景”类，再通过下图的方式按像素分割注释转换成OBB标签。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7UcE43Tk-1603160437160)(ICCV2019.assets/OBB.png)]

首先，在颜色空间中通过边缘检测算法（这里为计算分割标签的导数）检测图像内不同对象的边缘，为了使检测出的对象类别的边缘条带更粗，使用大小为 $d_1$ 的圆盘进行膨胀，使条带穿过所有边界。最后，将结果区域标记为“边界”类，它涵盖了图像内不同类之间的边界。特别地，将细分标签中的“天空”、“植物”、“地面”和“水”类视为“背景”，所有剩余的对象类别都被视为“对象”类别。

总目标感知损失：

与边缘相对应的边界掩模： $M_{OBB}^{boundary}$ ，与纹理相对应的背景掩模： $M_{OBB}^{background}$ 。

$\mathcal{G}_b$ ， $\mathcal{G}_e$ ， $\mathcal{G}_o$ 为分别计算边界，背景和对象的任意两个给定图像之间的特征空间距离的函数。由于不考虑对象的任何感知损失，直接将 $\gamma$ 置0。

$\circ$ 表示逐像素相乘。

Background ( $\mathcal{G}_b$ ) ：计算任意两个给定图像之间特征将四个类别作为背景：“天空”，“植物”，“地面”和“水”，选择这些类别是因为它们的外观特殊。具有这些标签的区域的整体纹理比局部空间关系和边缘更重要。计算中级CNN特征以估计SR和HR图像之间的感知相似度。在这里，使用VGG-16的ReLU 4-3层。

Boundary ( $\mathcal{G}_e$ ) ：分离对象和背景的所有边缘均视为边界。估计SR和HR图像之间早期CNN层的特征距离，该特征距离更多地集中在低层空间信息上，主要是边缘和斑点。特别是，最小化VGG-16的ReLU 2-2层的感知损失。

Object ( $\mathcal{G}_o$ ) ：由于现实世界中形状和纹理方面的物体种类繁多，因此要决定是否更适合使用早期或较深层的特征来进行感知损失具有挑战性；例如，在斑马图像中，较锐利的边缘比整体纹理更重要。话虽如此，强迫网络估计树中的精确边缘可能会误导优化过程。因此，作者不对定义为对象的区域进行任何类型的知觉损失，方法是将它们加权为零，并依赖MSE和对抗损失。从直觉上讲，通过“背景”和“边界”感知损失项解决更逼真的纹理和更锐利的边缘，也将导致物体更具吸引力。

为了计算特定图像区域的感知损失，作者对语义类进行了二进制分割掩码（对于感兴趣的类，其像素值为1；在其他位置，其像素值为0）。每个掩模分类地表示图像的不同区域，并且分别与HR图像和估计的超分辨图像SR逐元素相乘。换句话说，对于给定的类别，在通过CNN特征提取器之前，图像会被转换为只有一个可见区域的黑色图像。

训练过程：

对SR解码器进行25 epochs的预训练，仅使用像素均方误差作为损失函数，然后加入所提的目标感知损失和对抗损失，继续执行训练55 epochs。

结果对比：

PSNR/SSIM指标不能反映重构的质量；使用所提的方法和SRGAN的重建图像没有排名第一，但他们产生了更现实和吸引力的超分辨图像。因此，在这里，作者只给出BSD100测试集上的定性结果。放大尺度为4。

LPIPS：the Learned Preceptual Image Patch Similarity，衡量SR与HR失真度的指标，越小越好。

图源自补充材料。

另外，作者经过用户研究，要求用户针对真实图像对各种方法生成的图像进行投票选出效果更好的图像，另外为了公平性，还设置了"无法决定"选项。结果如下：

（a）投票百分比

（b）多数投票赢得图像的百分比

4. Wavelet Domain Style Transfer

Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single Image Super-Resolution，paper

小波域风格迁移：二维平稳小波变换将图像分解为低频和高频分量，达到超分图像低失真和高感知质量之间的权衡。

问题描述：

在SISR中，人们希望找到一种既准确又逼真的高分辨率（HR）版本。最近，已经证明在低失真和高感知质量之间存在基本的权衡，并且生成对抗网络(GAN)被证明可以有效地接近感知失真(Perception-distortion, PD)。目前的很多方法在信噪比(PSNR)上获得很好的表现，但在感知方面却差强人意，如下图不同SISR方法的感知失真性能比较：

蓝点代表针对客观质量的方法，绿点代表针对感知质量的方法，橙色点代表针对感知与失真之间权衡的方法。PSNR值越高表示目标质量越好，NRQM(No-Reference Quality Metric)得分越高则感知质量越好，左下角是最好的。作者的方法在所有“橙色”方法中实现了最佳折衷。

客观和感知质量受图像中不同元素的影响。当整体进行优化时，客观质量的提高可能会导致感知质量的下降，反之亦然。为了获得最佳折衷，应该将影响客观质量的要素与影响感知质量的要素分开，并分别进行优化。而作者发现，低频分量在客观质量中起重要作用，而高频分量则可以显著影响感知质量。在论文中，作者使用小波变换来实现这种分离。分离后，为了获得最佳折衷，使用增强网络来改善低频子带的客观质量，并使用小波域风格迁移来提高高频子带的感知质量。

客观质量：为了提高客观质量，大多数方法都试图将重建图像与真实图像之间的MSE损失降至最低。这种方法可以生成具有高客观质量的HR图像。但是，由于缺少高频细节，这些图像通常在视觉上令人不快且边缘模糊，尤其是对于较大的放大系数。

感知质量：由于MSE损失无法测量两个图像之间的感知相似性，而VGG损失擅长表示两个图像之间的感知相似性，并且对抗性损失会使恢复的图像看起来逼真，因此感知损失定义为VGG损失和对抗损失的加权和，之后又有方法提出增加纹理匹配损失，在重建具有高感知质量的图像方面取得了良好的效果。

平稳小波变换：

小波变换允许对图像进行多分辨率分析。经典离散小波变换(DWT)不具有平移不变性，不适合SR任务。平稳小波变换(SWT)通过消除DWT中的下采样操作来克服这一缺点。下图给出了2D SWT过程：

其中 $LL_i$ 表示第 i 级的低频信息( i 为小波分解级数)， $LH_i,HL_i, HH_i$ 分别表示第 i 级的水平、垂直和对角的细节，即其高频信息。

2D SWT可以将图像分解为多个子带，包括一个低频子带和几个高频子。作者考虑了两个超分辨图像：具有高感知质量但客观质量较低的 $A_p$ 和具有高客观质量但感知质量较低的 $A_o$ ，图3显示了这两个图像以及SWT之后它们的子带的直方图。

可以看到，对低频子带， $A_o$ 与真实图像更相似，说明低频子带对图像的客观质量有重要影响；对高频子带， $A_p$ 与真实图像更相似，说明高频自带对感知质量有显着影响。

网络整体架构：

给定一个高感知质量的图像 $A_p$ 和一个高客观质量的 $A_o$ ，分别进行2D SWT。然后，使用LSE网络提高 $A_o$ 的客观质量（低频子带 $LL_o$ ）；对于高频子带，使用WDST将它们融合成一个新的子带。最后，将所有融合的高频子带和提高的 $LL_o$ 通过ISWT获得图像 $A_r$ 。

低频子带增强(Low-frequency sub-band enhancement, LSE)：对于低频子带 $LL_o$ ，旨在增强其客观质量。采样VDSR架构，网络输入为 $LL_o$ ，学习目标为真实图像的 $LL^{gt}$ ，损失函数为 L2 损失。

小波域风格迁移(Wavelet domain style transfer, WDST)：对于高频子带，旨在提高其感知质量。以子带对 $LH^p$ 和 $LH^o$ 为例， $LH^p$ 中的小波系数比 $LH^o$ 中的丰富，即 $LH^p$ 比 $LH^o$ 包含更多非零的小波系数。因此，我们希望在 $LH^p$ 到 $LH^o$ 中传递详细的小波系数，以使 $LH^o$ 具有更高的感知质量。网络采样VGG19架构， $LH^p$ 为风格样式输入， $LH^o$ 为生成内容输入，以生成输出子带 $LH^r$ 。与输入为像素值的传统风格转换算法不同，作者在WDST中使用小波系数作为输入。子带 $L H$ 的总损失为

$L_c$ ：内容损失，定义为两个特征图之间的MSE

$L_s$ ：风格损失，定义为两个特征图Gram矩阵之间的MSE

$LH^r||_1$ ： $\ell_1$ 正则损失，用以保存小波系数的稀疏性

训练设置：对2D SWT，使用 $b i o r 2.2$ 作为默认的小波滤波器，小波分解级数为2，意味着有一个低频子带和6个高频子带（如图2）。使用EDSR方法获得 $A_o$ ，使用CX方法获得 $A_p$ ，使用NRQM计算感知分数。

结果对比：

不同方式获取 $A_o$ 和 $A_p$ 的结果：

5. RankSRGAN

RankSRGAN: Generative Adversarial Networks with Ranker for Image Super-Resolution，paper，code

摘要：生成对抗网络（GAN）展示了为单个图像超分辨率（SISR）恢复现实细节的潜力。为了进一步改善超分辨结果的视觉质量，PIRM2018-SR Challenge使用了感知指标来评估感知质量，例如PI，NIQE和Ma。但是，现有方法无法直接优化这些不可区分的感知指标，这些指标与人类评级高度相关。为了解决该问题，我们提出了带有Ranker的SuperResolution生成对抗网络（RankSRGAN），以在感知指标的方向上优化生成器。具体来说，我们首先训练一个Ranker，它可以学习感知指标的行为，然后引入一种新颖的等级内容损失来优化感知质量。最吸引人的部分是，该方法可以结合不同SR方法的优势来产生更好的结果。大量的实验表明，RankSRGAN在视觉效果上达到令人愉悦的效果，并达到了最先进的性能。

参考解读：
ICCV 2019 | RankSRGAN:基于排序学习的生成对抗超分辨率重建方法

图像超分辨论文解读丨RankSRGAN

个人总结

第一篇论文采用嵌入块构建基本块，使用两支路的方式将低频和高频分开进行分别恢复，并使用反向级联的方式融合基本块的输出。

第二篇论文用HR图像估计模糊核，然后使用GAN生成模糊核池，并与前人不同的是，将同尺寸的低质HR图像作为CNN网络的输入，得到SR图像。

第三篇论文设计新的损失函数优化网络，使用HR图像的对象、背景核边界标签生成目标感知损失，强制网络学习细节信息。

第四篇论文是小波变换在超分的应用，作者创新地将低失真高感知图像和高感知低失真图像分别执行小波变换，提取其中地高感知和高保真信息，“强强联合”以生成高感知高质图像。

百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
使用Python和FFmpeg实现RGB到YUV444的转换追逐程序梦想者 ffmpeg python 开发语言
使用Python和FFmpeg实现RGB到YUV444的转换如果你需要将RGB图像转换为YUV444格式的图像，那么本文将为你提供一个简单且可靠的方法。我们将使用Python和FFmpeg来完成这个任务。首先，让我们了解一下什么是RGB和YUV。RGB表示红、绿、蓝三种颜色的组合，是最常见的图像格式之一。另一方面，YUV是一种亮度-色度编码，用于视频压缩和传输，它将图像分成明亮度（Y）和色度（U和
Python读取红外图像 - 实现红外图像的读取和处理程序员杨弋 Python全栈工程师学习指南 python 计算机视觉 opencv
在许多工业、安防等领域中，红外图像无疑是一种不可或缺的重要资源，因此，能够快速、准确地读取和处理红外图像，对于工程师和科学家来说非常必要。Python作为一种强大的编程语言，提供了丰富的图像处理库，允许我们轻松地读取和处理红外图像，本文将介绍如何使用Python读取红外图像，并对其进行简单的处理。首先需要准备一个目标红外图像文件，这里我们以bmp格式的文件为例：importcv2img=cv2.i
python解析风云4B生成真彩云图小天丶1 气象数据处理 python 开发语言
文章目录概要话不多数开整小结概要真彩色云图需要根据通道Channel01,通道Channel02,通道Channel03进行通道融合处理,大致思路:三个通道对于RGB三个颜色管道，然后合并成一个三通道图像,其余云图在历史文档里有python解析风云4B,生成红外云图、可见光云图、水汽云图https://blog.csdn.net/qq_38197010/article/details/146549
AR 地产互动沙盘：为地产沙盘带来变革广州华锐视点 ar
在科技飞速发展的今天，AR（增强现实）技术应运而生，为解决传统地产沙盘的困境提供了全新的思路和方法。AR技术，简单来说，是一种将计算机生成的虚拟信息与真实环境相融合的技术。它通过摄像头、传感器等设备获取真实场景的信息，再利用计算机图形学技术将虚拟内容与真实场景进行融合，最终通过显示器将合成图像呈现给用户，使用户在观察真实世界的同时，获得额外的信息和视觉体验。当AR技术与地产沙盘相结合，便产生了令人
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
UE 有意思的功能教程链接笔记 RunInto丶 UE笔记 UE教程视频笔记虚幻引擎
油管砍伐任何树砍伐任何树：虚幻引擎教程https://www.youtube.com/watch?v=JtXYJKTsf9QAI图像转变为简单的3D模型使用AI平台将2D图像转换为3D角色https://www.youtube.com/watch?v=Z-acdzKASZ4在几秒钟内将您的AI图像转变为简单的3D模型|教程UE5https://www.youtube.com/watch?v=tt9
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
【如何衡量相机标定结果的精度】相机标定评价函数王尼莫啊目标解算数码相机计算机视觉视觉检测
相关博客：【鱼眼＋普通相机】相机标定【opencv】图像畸变校正一、简介常用的衡量相机标定结果精度的评价标准：畸变矫正效果：标定过程中会估计畸变系数，畸变矫正的效果可以通过比较矫正前后的图像来评估。如果畸变得到有效矫正，说明标定过程较为成功。重投影误差（ReprojectionError）：这是最常用的评估相机标定精度的指标。它指的是在标定图像中检测到的特征点与通过相机参数投影得到的相应世界坐标点
重构未来开发范式：如何引领 AIGS 时代的技术革命小爱想睡懒觉重构
一、AIGS革命：AI重塑企业软件系统的三大趋势行业灵魂拷问：当所有企业系统都需要实时调用大模型能力时，您的开发框架能否支撑百万级并发？在数据安全成为刚需的时代，如何实现AI功能的合规化、私有化部署？JBoltAI的未来宣言：技术演进路径：从AIGC到AIGS的跃迁图谱技术代际核心特征JBoltAI实践成果行业价值AIGC1.0单点内容生成支持文本/代码/图像生成，提供智能客服对话模板效率提升30
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
DAY 40 训练和测试的规范写法 acstdm python打卡60天人工智能深度学习机器学习
目录一、单通道图片的规范写法图像任务中的张量形状NLP任务中的张量形状1.Flatten操作2.view/reshape操作总结二、彩色图片的规范写法知识点回顾：彩色和灰度图片测试和训练的规范写法：封装在函数中展平操作：除第一个维度batchsize外全部展平dropout操作：训练阶段随机丢弃神经元，测试阶段eval模式关闭dropout昨天我们介绍了图像数据的格式以及模型定义的过程，发现和之前
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
【大模型学习 | BLIP2原理】九年义务漏网鲨鱼人工智能深度学习语言模型多模态大模型
BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels目前（2023）的图文模型都是基于端到端训练方式，大规模的模型和数据集导致了在预训练过程需要的大量计算。作者提出一种从离线、梯度冻结的图像、语言模型中提升图文的预训练模型。为了联系两个不同模态预训练模型，作者提出一种使
CVPR2024 分割Segmentation相关论文37篇速览木木阳 CVPR2024 Segmentation 分割论文
Paper1MFP:MakingFullUseofProbabilityMapsforInteractiveImageSegmentation摘要小结:最近的交互式分割算法中，将先前的概率图作为网络输入，以帮助当前分割轮次的预测。然而，尽管使用了先前的掩膜，概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中，为了克服这一局限性，我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP，
【图像去噪】论文精读：Linear Combinations of Patches Are Unreasonably Effective for Single-Image Denoising 十小大深度学习图像处理计算机视觉图像去噪人工智能
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言AbstractI.INTRODUCTIONII.APARAMETRICVIEWOFTWO-STEPNON-LOCALMETHODSFORSINGLE-IMAGEDE
Qt 图像显示没学上了 qt 开发语言
根据Qt前端开发-CSDN博客前文可以知道Qt部署界面的思路和复杂嵌套的核心，接下来为了实现在前端点击按钮触发信号显示图像的功能我们需要做几点工作首先触发信号，显示界面；触发信号我们用按钮来实现；其次显示界面，上一章我们右侧留有空白可以用作显示，我们先建立Qlabel用作显示图像，将他嵌套进右侧留白的Widge中，代码如下之后通过按钮来触发相关事件connect(Photo,&QPushButto
3516cv610的aiisp效果张海森_168820 音视频
3516cv610的aiisp效果1.图像增强（AI+ISP协同）亮点：动态范围提升（AIHDR）：比纯ISP的线性HDR更自然，减少鬼影；智能降噪（AINR）：在低照/夜间噪点压制更干净，纹理保留好；颜色还原：色彩更接近人眼感知，尤其在人脸区域处理更出色；AI自动曝光/白平衡：识别场景特征（如人脸、车牌）优先调整曝光区域，实际效果更“智能”；适用场景：人脸识别入口、夜视监控、强背光场景示例提升前
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析嵌入式Jerry Linux+内核面试职场和发展 linux 服务器运维单片机 java
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析关于本篇博文，B站视屏讲解链接，点击进入深度学习一、引言：为什么要深入掌握I2C子系统？在嵌入式、驱动开发、BSP移植、甚至AIoT行业，I2C几乎是绕不开的“基础功”。不管你是应聘Linux驱动开发、嵌入式软件工程师、SoC底层支持，还是BSP/系统调试，I2C的核心架构和调试经验都是面试高频关注点。掌握I2C子系统，关键不止是能写驱动，更
CLIP之后，多模态模型将如何进化？三大技术路径解析老周聊AI AI大模型人工智能 MCP 机器学习神经网络深度学习 AI大模型大模型训练框架
多模态学习的革命：CLIP技术深度解析关注老周不迷路本文较长，建议点赞收藏以免遗失。由于文章篇幅有限，更多涨薪知识点，也可在主页查看最新AI大模型应用开发学习资料免费领取引言：多模态学习的时代来临在人工智能领域，多模态学习正成为最具前景的研究方向之一。传统AI系统通常专注于单一模态（如纯文本或纯图像），而人类认知的本质却是多模态的——我们通过视觉、听觉、触觉等多种感官协同理解世界。OpenAI于2
FFmpeg中TS与MP4格式的extradata差异详解码流怪侠音视频基础 ffmpeg MP4 TS 音视频 extradata 视频编解码实时音视频
在视频处理中，extradata是存储解码器初始化参数的核心元数据，直接影响视频能否正确解码。本文深入解析TS和MP4格式中extradata的结构差异、存储逻辑及FFmpeg处理方案。一、extradata的核心作用extradata是解码必需的参数集合，包含：H.264：SPS（序列参数集）、PPS（图像参数集）H.265：VPS（视频参数集）、SPS、PPS音频：采样率、声道数等配置其核心功
YUV420格式详解 lianghu666 嵌入式 Linux C/C++linux
以下从原理到实现逐步详解YUV420格式，结合Mermaid图表与C++代码，为音视频开发者提供系统指南。1.YUV420核心原理1.1采样结构与数据量原始像素Y分量全采样UV分量2x2降采样Y（亮度）：全分辨率存储（每个像素独立）U/V（色度）：每2x2像素共享一组UV值，水平和垂直分辨率减半数据量计算（8位深度）：//计算YUV420图像字节数inty_size=width*height;//
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

ICCV2019超分辨率方向论文整理笔记

ICCV2019超分辨率篇

文章目录

1. EBRN: Embedded Block Residual Network

2. KMSR: Kernel Modeling

3. SROBB

4. Wavelet Domain Style Transfer

5. RankSRGAN

个人总结

你可能感兴趣的:(图像高分辨率,深度学习)