倘若我问心无愧呢丶

【论文阅读】(2023.05.10-2023.06.03)论文阅读简单记录和汇总

(2023.05.10-2023.06.08)论文阅读简单记录和汇总

2023/05/10：今天状态，复阳大残，下午淋了点雨吹了点风，直接躺了四个小时还是头晕- -应该是阳了没跑了。

2023/06/03：前两周出差+复阳，这两周调整作息把自己又弄得累个半死。

2023/06/08：下周组会谁做汇报？原来是我做汇报啊艹艹艹

（arxiv 2023）MULTISCALE AUGMENTED NORMALIZING FLOWS FOR IMAGE COMPRESSION
（IJCAI 2023）Improve Video Representation with Temporal Adversarial Augmentation
（Tinypaper ICLR 2023）FAST ADVERSARIAL CNN-BASED PERTURBATION ATTACK ON NO-REFERENCE IMAGE QUALITY METRICS
（IEEE SPL 2023）Entropy-constrained Implicit Neural Representations for Deep Image Compression
（CVPR 2023）Video Compression with Entropy-Constrained Neural Representations
（arxiv 2023）Compression with Bayesian Implicit Neural Representations
（arxiv 2023）LEARNED WAVELET VIDEO CODING USING MOTION COMPENSATED TEMPORAL FILTERING
（ICLR 2020）Scalable Model Compression by Entropy Penalized Reparameterization
（Neurocomputing 2023）Multiple Hypotheses Based Motion Compensation for Learned Video Compression
（CVPRW 2023）Adaptive Human-Centric Video Compression for Humans and Machines

1. （arxiv 2023）MULTISCALE AUGMENTED NORMALIZING FLOWS FOR IMAGE COMPRESSION

Paper:https://arxiv.org/abs/2305.05451

1.1 摘要

大多数基于学习的图像压缩方法由于其不可逆设计而缺乏高图像质量的效率。常用的压缩自编码器结构的解码函数只是编码变换的近似逆。这个问题可以通过使用可逆潜变量模型来解决，如果没有进行量化，它可以进行完美的重建。此外，许多传统的图像和视频编码器采用动态块划分来根据图像的内容改变某些图像区域的压缩。受这种方法的启发，分层潜在空间被应用于基于学习的压缩网络。本文提出了一种新的概念，将层次潜空间应用于增广归一化流，即可逆潜变量模型。我们表现最好的模型实现了平均利率节省比近似的单比例尺模型超过7%。

1.2 结论

在本文中，我们提出了两种新的架构，它们扩展了基于ANF的具有分层潜在空间的图像压缩网络的概念。我们的两个模型是ANFIC架构的修改版本。我们通过添加基于RDONet的分层lsunit来重新设计ANFIC的潜在空间，并为我们的RDOANFIC-Split模型开发了一个可逆的潜在分裂网络，该网络可以从单尺度潜在中获得多尺度表示。

综上所述，与单尺度ANFIC相比，采用多尺度隐空间可以显著提高压缩性能。最后的ANF层使用了分层潜在空间，参见RDOANFIC-Split模型，我们能够节省平均超过7%的比特率。我们的研究结果证明，RDONet原理不仅可以提高压缩自编码器的性能，而且可以提高基于ANF的体系结构的性能。

看了一眼感觉是普通的A+B方法，没有进一步看下去的欲望，很朴素的两者混合，之前课题组也有其他人提到过DL-based图像压缩的可逆性问题，讨论中说的是可逆性会导致性能下降，不可逆的非线性变换又会导致不可避免的有损压缩。

2. （IJCAI 2023）Improve Video Representation with Temporal Adversarial Augmentation 通过时间对抗性增强改进视频表示

Paper:https://arxiv.org/abs/2304.14601
Code: https://github.com/jinhaoduan/TAF

挺有意思的啊，挂了库，但是404了hhhh，有点怀疑作者是不是在投稿期间建了个Coming Soon忽悠审稿人，等中了就把库删了以免有人上来提issue。不过这也是CV界的常态了，我的态度就是吃枣药丸

2.1 摘要

最近的研究表明，如果以适当的方式使用，对抗性增强有利于神经网络(nn)的泛化。本文介绍了一种利用时间注意力的新型视频增强技术——时间对抗增强技术(TA)。与传统的对抗性增强不同，时间对抗增强技术TA是专门设计用于通过最大化时间相关损失函数来转移神经网络对视频片段的注意力分布的。我们证明了时间对抗增强技术TA将获得不同的时间视图，这将显著影响神经网络的焦点。用这些例子进行训练，弥补了时间信息感知不平衡的缺陷，增强了防御时间变化的能力，最终导致更好的泛化。为了利用TA，我们提出用于改进视频表示的时间视频对抗微调(TAF)框架。TAF是一种与模型无关的、通用的、可解释的训练策略。我们使用四个强大的模型(TSM、GST、TAM和TPN)在三个具有挑战性的与时间相关的基准(Something-something V1&V2和diving48)上评估TAF。实验结果表明，在不引入额外参数或计算成本的情况下，TAF有效地提高了这些模型的测试精度，并且有显著的边际。作为副产物，TAF还提高了分布外(OOD)设置下的鲁棒性。

2.2 贡献

我们介绍了时间对抗增强技术(TA)。TA改变了视频片段的时间分布，为视频理解模型提供了更多的时间视图。
我们提出时间视频对抗性微调(TAF)框架利用时间对抗增强来规范网络的注意力分布。TAF是一个模型无关的、通用的、可解释性友好的训练方案。这是第一个通过明确地利用对抗性机器学习来改进视频理解模型的工作。
TAF在四个强大的视频理解模型上进行评估，包括TSM、TAM、GST和TPN，并通过三个与时间相关的基准(something -something V1 & V2和Diving48)进行评估。实验结果表明，在不增加任何参数和计算成本的情况下，TAF可以显著提高测试精度。
TAF是在分布外(out-of - distribution)的设置下进行测试的，它有效地提高了防御自然损坏数据的鲁棒性。

2.3 方法

在本节中，我们描述了如何使用提出的时间视频对抗微调框架TAF捕获平衡的时间信息。首先，我们重新审视普通对抗增强。然后，详细说明时间对抗增强技术TA以及基于CAM的度量。最后，我们概述了时间视频对抗微调框架TAF的训练和测试过程。TAF的管道如图2所示。

2.3.1 普通对抗增强

对抗性增强来源于对抗性扰动，这是一种难以察觉的噪声，可以很容易地干扰训练有素的神经网络的预测。在基于图像的视觉任务中，一些研究表明对抗性扰动可以被看作是一种特殊的增强，以提高泛化和鲁棒性。
对于一个给定的模型 $\mathcal{F}$ ,由权重 $\theta$ 参数化组成，输入为 $\in \R^{C \times H \times W}$ ，通道为 $C$ ，分辨率为 $\times W$ ，其对抗增强样例 $X^{'}$ 可以定义为

其中 $\delta$ 是每个单步解或迭代PGD攻击算法得到的对抗噪声， $\epsilon$ 是攻击预算， $\mathcal{L}$ 是一个常规分类损失，例如交叉熵损失。

普通对抗增强是图像任务的有效技术，但它不适合视频场景。视频理解模型经常遭受严重的过拟合问题，在Something-something V1数据集上观察到超过40%的过拟合差距(即，顶级训练精度vs顶级验证精度)。这种严重的过拟合表明在训练过程中引入了大量与泛化无关的噪声。对于神经网络来说，损失函数在决定吸收哪些特征或信息方面起着至关重要的作用。因此，单独使用分类损失可能会将这些不相关的噪声传播回对抗扰动，最终损害神经网络的泛化。

2.3.2 时间对抗增强

为了解决这个问题，提出的时间对抗增强(TA)利用基于CAM的时间损失函数来单独利用时间注意力相关信息，这是视频最基本和最基本的特征之一。在这里，我们展示了如何将时间信息纳入对抗性增强。
对于一个给定的由权重 $\theta$ 参数化的模型 $\mathcal{F}$ ，和视频素材 $\in \R^{T \times N_c \times H \times W}$ ，包含 $T$ 帧、 $N_c$ 个通道和 $\times W$ 的分辨率，对于 $X_i$ 帧，我们考虑模型 $\mathcal{F}$ 的CAMs。

3.（Tinypaper ICLR 2023）FAST ADVERSARIAL CNN-BASED PERTURBATION ATTACK ON NO-REFERENCE IMAGE QUALITY METRICS 对无参考图像质量指标的基于 CNN 的快速对抗扰动攻击

Paper:https://arxiv.org/pdf/2305.15544.pdf
Code:https://github.com/katiashh/FACPA

3.1 摘要

现代基于神经网络的无参考图像和视频质量指标表现出与全参考指标一样高的性能。这些度量被广泛用于提高计算机视觉方法的视觉质量和比较视频处理方法。然而，这些指标对于传统的对抗性攻击并不稳定，这可能导致不正确的结果。我们的目标是研究无参考度量适用性的边界，在本文中，我们提出了一种针对无参考质量度量的快速对抗性摄动攻击。提出的攻击(FACPA)可以作为实时视频处理和压缩算法的预处理步骤。本研究可以进一步帮助设计稳定的基于神经网络的无参考质量指标。

3.2 结论

在本文中，我们提出了一种基于cnn的快速攻击，提高了NR质量指标的得分。与以往方法的比较表明，我们的攻击比迭代方法快得多，比普遍的对抗性摄动方法更有效。提出的攻击速度表明，它可以注入到视频压缩和其他实时算法中。因此提出的攻击可以作为度量可靠性的额外验证。

4. （IEEE SPL 2023）Entropy-constrained Implicit Neural Representations for Deep Image Compression 用于深度图像压缩的熵约束隐式神经表示

Paper:https://ieeexplore.ieee.org/abstract/document/10132493

4.1 摘要

各种数据类型的隐式神经表示(INRs)由于其有效性，在深度学习领域获得了普及。然而，先前对INRs 的研究只关注于原始表征的恢复。本文利用熵约束神经网络的模型压缩技术，研究了一种基于INRs的图像压缩模型。具体来说，提出的模型训练一个多层感知器(MLP)来过拟合单个图像，然后使用其权重来优化其压缩表示使用加性均匀噪声。因此，提出的模型以端到端的方式有效地最小化了模型权重的大小。这个训练优化过程对于调整图像压缩的失真率是非常理想的。与其他模型压缩技术相比，所提出的模型在没有额外训练过程或内存成本的情况下实现。通过引入熵损失，本文证明了所提出的模型可以在保持较高图像质量的同时保持较小的模型尺寸。实验结果表明，该模型的性能与传统的图像压缩模型相当，且不会产生很高的存储成本。

4.2 方法

编码图像表示为 $I$ ， $I [x, y]$ 表示 $(x, y)$ 处像素的RGB值，映射函数可以定义为 $f_\theta: \R^2 \to \R^3$ ， $f_\theta$ 通常是一个参数为 $\theta$ 的MLP模型，整体表示为 $f_\theta (x,y)=(R,G,B)$ ,通常采用MSE作为损失函数：

熵可以表示为：

作者建模了一个量化逼近函数，从模型概率密度函数采样建模得到，可以通过一下函数进行熵编码：

$\mathcal{U}(-1/2,1/2)$ 是独立同分布均匀分布的噪声。这种加性噪声作为一个很好的近似熵使用负对数似然与噪声离散化。该技术已广泛应用于深度图像压缩模型中，通过熵编码来减小潜在特征的大小。这些模型利用一个近似函数来优化潜在特征的熵。另一方面，提出的模型使用这个函数来优化和压缩MLP 本身的权重，而不是潜在特征。为了提高模型权值的稀疏性，所提出的模型利用模型权值的一个可微的近似 $\hat{\theta}$ 来计算它作为损失函数。近似表达式为：

提出的模型结合了这个损失函数最小化量化表示中的熵。这导致模型权重的相对稀疏的离散表示，从而在执行熵编码时显著减小压缩模型的大小。该方法可以端到端、可训练地应用于现有的 INRs框架。因此，整体损失函数只是原始失真损失和模型权值重参数化的熵的相加组合:

通过在不同的实验中调整λ，我们可以研究RD性能，这表明压缩模型大小和模型性能之间的权衡。值得注意的是，所提出的模型不需要任何后训练过程，并以端到端方式有效地学习优化结果。

此外，本文还采用了权重正则化项来最小化熵。这个术语与权重稀疏性有关，但需要对其进行微调，以便在速率和失真之间获得更好的权衡。具体而言，L2范数正则化应用于模型权重，以实现以下优化目标:

其中 $k$ 是权值 $θ$ 的个数。对于这四个结果，本文考虑正则化加权参数 $λ_{reg} = 10^{−3}$ 。训练后的网络权值呈直方图分布，冗余值的频率很高，如图3所示。

4.3 结论

提出了一种含有熵损失基于inr的图像压缩模型。提出的模型的关键思想是最小化权参数的熵，这在模型尺寸减小中起着重要作用，进一步有助于以端到端的方式利用熵编码。为了学习最小权值表示，采用加性均匀噪声来准确估计模型权值的熵。与基于自动编码器的图像压缩模型相比，基于INR的方法只需要很小的模型权值就可以重建整个图像。实验结果还表明，该模型的性能明显优于传统的INR模型。

这性能也忒好了

5.（CVPR 2023）Video Compression with Entropy-Constrained Neural Representations 具有熵约束神经表示的视频压缩

Paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Gomes_Video_Compression_With_Entropy-Constrained_Neural_Representations_CVPR_2023_paper.pdf
看起来跟第四篇SPL的文章好像啊，不过作者和机构截然不同。

5.1 摘要

将视频编码为神经网络是最近提出的一种方法，它允许新形式的视频处理。然而，对于视频压缩任务，传统技术仍然优于神经视频表示(NVR)方法。这种性能差距可以用目前的NVR方法来解释:（1）使用的架构不能有效地获得时间和空间信息的紧凑表示;（2）没有联合优化率失真损失 (首先在视频上过拟合网络，然后使用启发式技术，如训练后量化或权值修剪来压缩模型)。我们提出了一种新的卷积视频表示架构，可以更好地表示时空信息和一种能够联合优化码率和失真的训练策略。所有的网络参数和量化参数都是端到端联合学习的，不需要之前工作中使用的后训练操作。我们在UVG数据集上评估我们的方法，获得了相较其他NVRs进行视频压缩的SOTA结果。此外，我们提供了第一个基于nvr的视频压缩方法，该方法改进了常用的HEVC基准 (x265，禁用b帧，“medium”预设)，缩小了与基于自动编码器的视频压缩技术的差距。本文的几点贡献总结如下：

我们提出了一种新颖的紧凑卷积架构用于神经视频表示，它具有比NeRV更好的表示能力和比E-NeRV更快的编码和解码速度.
我们正式地将信号压缩与INRs定义为R-D问题通过建模权值的熵和使用量化感知训练(允许端到端训练并消除对修剪等后训练技术的需要)
我们表明，这样的熵建模也可以改进其他方法，例如，NeRV;
我们在UVG数据集上评估了我们的方法，改进了使用INRs进行视频压缩的最新结果，并优于DVC，后者是一种成熟的神经视频压缩方法。

5.2 方法

有意思，确实跟第四篇图像INR的文章很像，我看上面一篇的时候还在想能不能用到视频中去转头就看到这篇视频的。

在结构方面的变动不大，基本是E-NeRV前面的MLP也丢掉了，换成了一个坐标连接形式的输入，并且添加了两个卷积层，在解码FPS上有略微提升。其实这里我也很不了解，按照我的经验E-NeRV的训练时间是要明显短于NeRV的，为什么表1中的结论是E-NeRV的训练时间是NeRV的两倍多。此外，表一就只在bigbuckbunny数据上进行实验有点太小儿科了，怎么不得多给点实验结果。

根据香农定理，计算熵需要采用一组离散符号。然而，对于网络优化需要使用连续的权重。为了解决这个问题，作者定义了：（1）一个包含可学习参数 $\gamma$ 的量化函数 $Q_\gamma$ ，将连续权重映射到离散符号；（2）一个逆量化函数 $Q_\gamma^{-1}$ ，将离散符号映射到各自量化区间的中心值。 $Q_\gamma^{-1}$ 显然不是 $Q_\gamma$ 的精准逆函数，因此 $Q_\gamma^{-1}(Q_\gamma(x))$ 在恢复 $x$ 时会产生一个误差除非 $x$ 刚好是其量化区间的中心点。

我们对连续权重 $\theta$ 进行优化，使用 $\hat{\theta}=Q_\gamma(\theta)$ 计算模型的码率，并且使用带有量化误差的权重 $Q_\gamma^{-1}(\hat{\theta})$ 通过网络前向传递得到信号的近似值。为了进一步简化，假设 $\hat{\theta}$ 是由无记忆信源产生的符号组成。优化问题可以由下式表示：

其中 $\hat{p}$ 是 $\hat{\theta}$ 的概率质量函数，可以很容易计算得到。为了优化这种损失，该过程通过学习可以适当地表示信号的参数θ和提供足够小的量化误差的γ来最小化失真。同时， $Q_γ(θ)$ 的分布也必须具有足够小的熵，以使 $R$ 最小。

由此，可以确定了这一过程中引入的两个误差源。第一个误差是根据映射函数 $f_\theta$ 估计信号 $s$ 导致的误差，其可以通过增加模型参数数量进行最小化，在INR架架构中进行更好的选择等等。第二个是由量化函数 $Q_\gamma$ 造成的量化误差，这可以通过适当地移动量化区间的中心或使用更多更小宽度的量化区间来最小化，但会增加分布熵的代价。

量化： 现在定义函数 $Q_γ$ ，类似于文献[12,23]，我们使用标量量化，将整数作为我们的离散符号集，并将 $Q_γ$ 定义为分别具有尺度和移位参数 $α$ 和 $β$ 的仿射变换，然后四舍五入到最接近的整数

则反量化函数可以自然地定义为：

如文献[12,23]，神经网络的每一层都是单独量化的，并且有自己的参数 $α$ 和 $β$ ，这两个参数本身是学习得到的。这允许在改变不同参数的量化时采用某种粒度级别，同时不会在必须存储的尺度和移位参数的数量上产生太大的开销。

这个过程的一个问题是舍入运算的不可微性。在文献中有两种主要的方法来解决这个问题。首先是用与量化区间相同尺度的均匀噪声替换舍入操作。这经常被用作替代量化[13]。第二种是在计算用于舍入操作的梯度时使用直通估计器(STE)。我们将它们定义为两个函数， $Q_{noise}$ 和 $Q_{ste}$ 。与Balle等人[4]一样，我们使用 $Q_{ste}$ 来计算失真度量获得了最好的结果，因为它避免了随机噪声的引入，并且 $Q_{noise}$ 用于计算熵项。

熵建模： 给定 $\hat{\theta}$ ，我们可以计算出对网络中所有权值进行编码的最小位长度，如下所示:
其中

这种方法的问题在于不可微分操作 $\mathbb{I}$ ~~（怎么用mathbb也打不出空心的1，尴尬）~~ 。为了使用梯度下降训练网络，我们需要找到对权重的离散分布进行可微分近似的方法。我们遵循Balle等人的方法[4]，通过用 $Q_{noise}$ 替换离散率项来用微分熵代替。然后，我们寻找一个参数化函数 $p_ϕ$ ，它近似于由均匀噪声 $\tilde{\theta}$ 扰动的参数的概率密度函数。

我们可以使用上文提出的损失函数[4]，优雅地将这个近似的参数与INR的参数联合拟合。此外，我们将近似 $p_φ$ 与标准均匀密度进行卷积。Balle等人[4]认为，这可以更好地近似潜在分布，这也是我们经验观察到的。(除了使用参数化函数 $p_ϕ$ 作为近似的概率密度函数之外，我们还将该函数与标准均匀密度进行卷积操作。这可以看作是将参数化函数 $p_ϕ$ 与均匀分布进行混合，以获得更精确的概率密度函数。通过卷积操作，可以将参数化函数与均匀分布进行融合，从而更好地逼近所需的概率密度函数。这样做的目的是提高模型的准确性和性能。)

给定 $p_\theta$ ，我们的完全体损失可以定义为

其中 $γ$ 从每一层收集所有的 $α$ 和 $β$ 。左边的项使用量化权重计算数据集上的失真度量，这些权重是使用每个层各自的 $α$ 和 $β$ 计算的。右边的项近似最小位长度，以使用 $p_ϕ$ 编码近似量化的参数。码率项除以总像素数，使λ不因视频的分辨率和帧数进行调整改变。

为了对神经网络的权重进行建模，我们将每层中的权重解释为来自独立来源的权重。在每一层中，权重取为独立同分布的样本。我们尝试了不同的模式，例如联合建模网络中的所有权重，但发现通过允许每个层独立建模，我们获得了更好的结果。根据Balle等人[5]，我们对每个层的权值分布拟合了一个小神经网络。这个过程的细节可以参考[5，附录6.1]。在训练过程结束时，我们使用上下文自适应二进制算术编码器(CABAC)进行熵编码，采用 DeepCABAC[32]提供的实现对神经网络的权值执行经典CABAC编码。

5.3 结论

我们提出了一种新颖的卷积架构，用于视频表示，能够实现更高保真度的编码。我们将其与端到端基于熵的神经网络压缩方法相结合来实现视频压缩，通过将损失形式化为率失真问题来弥合与神经视频压缩的差距。我们通过在UVG 数据集上进行测试来证明我们方法的有效性，在使用INRs的视频压缩中产生了最先进的结果。虽然目前的结果是有希望的，采用神经表示视频压缩作为可行的编码器仍然需要未来的研究成本更低的熵建模方法，以便加快编码时间，以及进一步的架构改进，在紧凑的网络中寻求参数的最佳分布。

6. （arxiv 2023）Compression with Bayesian Implicit Neural Representations 使用贝叶斯隐式神经表示进行压缩

6.1 摘要

许多常见类型的数据可以表示为将坐标映射到信号值的函数，例如在图像的情况下，将像素位置映射到RGB值。基于这种观点，可以通过将一个紧凑的神经网络过拟合到它的功能表示中，然后对网络权重进行编码来压缩数据。然而，目前大多数解决方案都是低效的，因为量化到低比特精度大大降低了重建质量。为了解决这个问题，我们提出对数据进行过拟合变分贝叶斯神经网络，并使用相对熵编码而不是量化和熵编码来压缩近似后验权重样本。该策略通过最小化 $β$ -ELBO来直接优化速率失真性能，并通过调整β来针对给定的网络架构实现不同的速率失真权衡。此外，我们引入了一种迭代算法来学习先验权重分布，并对变分后验采用渐进式改进过程显著提高了性能。实验表明，该方法在保持简单性的同时，在图像和音频压缩方面取得了较强的性能。本文贡献如下：

通过使用相对熵编码编码INR权重样本，我们提出了变分贝叶斯隐式神经表示用于模态不可知数据压缩。我们将我们的方法成为贝叶斯隐式神经表示压缩(COMBINER)。
我们提出了一种迭代算法来学习权重的先验分布，并提出了一种渐进策略来改进后验，这两种方法都显著提高了性能。
我们对CIFAR-10, Kodak和librisspeech数据集进行了实验，并证明了COMBINER虽然比相关方法简单，但却实现了强大的性能。

6.3 结论和局限性

结论： 在本文中，我们提出了一种新的神经压缩方法COMBINER，该方法首先将数据编码为变分贝叶斯隐式神经表示，然后使用相对熵编码传递近似后验权重样本。不像以前的基于INRE的神经网络编解码器，COMBINER支持联合速率失真优化，因此能够自适应激活和修剪网络参数。围绕这个框架，我们还引入了迭代算法来学习先验权重分布，并逐步改进变分后验，从而显著提高了率失真性能。实验证明了我们的在低分辨率和高分辨率图像和音频上的强大压缩性能，展示了变分贝叶斯隐式神经表示压缩的巨大潜力。

局限性： 我们提出的新压缩方法存在一些局限性。首先，如5.2节所述，虽然COMBINER的解码过程很快，但其编码时间却相当长。优化变分后验分布需要数千次迭代，并且逐步微调它们也很耗时。概率MAML[54]可能会减少编码时间，但它可能会导致更复杂的训练过程。其次，贝叶斯神经网络天生对初始化敏感[55]。有时需要相当大的努力来确定最佳的初始化设置，以实现训练稳定性和优越的率失真性能。尽管存在这些挑战，我们相信COMBINER为与INRs联合压缩率失真优化铺平了道路。

7.（arxiv 2023）LEARNED WAVELET VIDEO CODING USING MOTION COMPENSATED TEMPORAL FILTERING 使用运动补偿时间滤波的学习小波视频编码

Paper：https://arxiv.org/abs/2305.16211

7.1 摘要

本文提出了一种基于运动补偿时间滤波(MCTF)的端到端可训练小波视频编码器。从而，我们为可学习视频压缩引入了一种不同的编码方案，目前该方案主要由残差和条件编码方法主导。通过在时间、水平和垂直维度上执行离散小波变换，我们获得了一个具有空间和时间可扩展性的可解释框架。我们专注于研究一种新的可训练MCTF模块，该模块使用提升方案实现。我们展示了在训练期间如何考虑MCTF中的多个时间分解级别，以及如何处理由于MCTF编码顺序造成的较大时间位移。此外，我们提出了MCTF的内容自适应扩展，该扩展可以在推理过程中适应不同的运动强度。在我们的实验中，我们将基于mctf的方法与基于学习的条件编码器和传统混合视频编码进行了比较。特别是在高速率下，我们的方法具有很好的速率失真性能。我们的方法在UVG数据集上比HEVC平均节省了 21%的Bjøntegaard Delta，因此优于最先进的学习视频编码器。本文贡献总结如下：

介绍了首个端到端可训练小波视频编码方案。
我们提出了一种适合MCTF中多个时间分解层次的训练策略。
我们研究由于MCTF编码结构造成的大型时域位移，并提出了第一种解决方案，以更有效地处理这些情况。
我们提出了一种内容自适应MCTF方法，该方法可以适应推理过程中不同的运动类型。

7.2 结论

本文介绍了基于MCTF的首个端到端可训练的小波视频编码器。我们提出了一个训练策略，在训练过程中考虑多个时间分解层次。此外，我们提出了下采样策略，作为处理MCTF中较大时间位移的第一个解决方案。我们新颖的内容自适应MCTF 使我们的方法能够适应每个序列的不同运动类型。实验结果表明，我们的学习 MCTF视频编码器具有良好的率失真性能，特别是在高比特率下。在UVG数据集上，与 HM相比，当GOP大小为4和8时，我们的方法MCTF-CA实现了平均BD率节省 -21%和-9%。因此，它明显优于最先进的视频编码器DCVC-HEM。

作为学习小波视频编码器的初始版本，有各种改进的可能性。首先，我们将测试实际使用所需的不同时间子带编码器，因为iWave++的自回归上下文模型禁止并行化。其次，MCTF 结构需要扩展以处理大于8 的GOP大小和更多样化的运动类型。为此，我们将研究双向运动估计。为了减轻更大GOP大小的重影，我们将实现截断DWT的自适应选择，而不进行时间更新[29]。此外，内容自适应MCTF的复杂性可以通过来限制，使用预测器来选择自适应MCTF选项。基于mctf的方法为常见的基于自动编码器的视频编码器提供了一种可解释和可扩展的替代方案。我们迈出了进一步发展这一重要研究方向的第一步。

8. （ICLR 2020）Scalable Model Compression by Entropy Penalized Reparameterization 通过熵惩罚重新参数化的可扩展模型压缩

Paper: https://arxiv.org/abs/1906.06624
Unofficial Code: https://github.com/Dan8991/SMCEPR_pytorch
Code 2：https://www.tensorflow.org/tutorials/optimization/compression
貌似在tensorflow的官网代码中提供了一份。

8.1 摘要

我们描述了一种简单而通用的神经网络权重压缩方法，，其中网络参数(权重和偏差)在“潜在”空间中表示，相当于重新参数化。该空间配备学习概率模型，在训练过程中对参数表示施加熵惩罚，训练后使用简单的算术编码器对表示进行压缩。分类精度和模型可压缩性共同最大化，比特率和精度之间的权衡由超参数指定。我们使用六种不同的模型架构在MNIST、CIFAR-10和ImageNet 分类基准上评估了该方法。我们的研究结果表明，最先进的模型压缩可以以可扩展和通用的方式实现，而不需要复杂的过程，如多阶段训练。

本文的贡献是双重的。首先，我们提出了一种新的端到端可训练模型压缩方法，该方法在模型参数的重参化空间中使用标量量化和熵惩罚。重新参数化使我们能够使用有效的SQ，同时在表示模型参数方面实现灵活性。其次，我们在多个数据集上对各种网络架构提供了最先进的结果。这表明，许多之前的方法所采用的更复杂的策略，包括预训练、多阶段训练、稀疏化、自适应编码等，并不是获得良好性能所必需的。我们的方法适用于现代大型图像数据集和神经网络架构，如ImageNet上的ResNet-50。

总体表现出来的目标函数就是下图的形式，左边是使用图像分类任务的带量化映射函数的交叉熵损失，即精度损失；右侧是熵约束项，即码率损失。

8.2 结论

我们描述了一种简单的模型压缩方法，该方法基于两个要素:联合(即端到端) 在单个训练阶段优化可压缩性和任务性能，以及模型参数的重新参数化，这增加了标量量化表示的灵活性，并且适用于任意网络架构。我们证明，使用这个简单的框架可以实现最先进的模型压缩性能，优于依赖于复杂的多阶段训练程序的方法。由于其简单性，方法特别适用于较大的模型，例如VGG，特别是ResNets。在未来的工作中，我们可能会考虑更灵活(更深)参数解码器的潜在好处。

9.（Neurocomputing 2023）Multiple Hypotheses Based Motion Compensation for Learned Video Compression 基于多假设的学习视频压缩运动补偿

9.1 摘要

近年来，视频压缩技术引起了广泛的研究关注。然而，在现有的方法中，用于对齐的运动仅局限于一个假设，导致运动估计不准确，特别是对于具有复杂运动的复杂场景。基于传统视频压缩中的多假设思想，我们针对可学习视频压缩，提出了基于多假设的运动补偿方法，通过对多种假设进行有效的时间信息融合，提高运动补偿效率。特别提出了多假设模块，该模块产生多个运动和扭曲特征，以挖掘足够的时间信息，并从参考框架中提供各种假设推断。为了更充分地利用这些假设，我们采用了假设关注模块，引入了通道型挤压激励层和多尺度网络。此外，本文还采用上下文组合的方法，对加权假设进行融合，生成具有强大时间先验的有效上下文。最后，利用有效上下文通过合并加权扭曲特征来提高压缩效率。大量实验表明，所提出的方法可以显著提高学习视频压缩的率失真性能。与最先进的端到端视频压缩方法相比，在PSNR和MS-SSIM方面可以实现13%以上的平均比特率降低。
本文的贡献总结如下：

我们提出了基于多假设的运动补偿，目的是在学习视频压缩中利用解码后的运动来生成多个运动和扭曲特征。给定基于多个假设的多重翘曲，产生充分对齐的特征，从而充分利用参考帧中的多个参考样本进行运动补偿。
我们提出了假设关注模块来学习不同假设的权重，通过挤压激励层和多尺度网络探索不同运动扭曲的特征之间的关系。在此基础上，提出了上下文组合模块，通过合并加权扭曲特征生成有效上下文。
大量的实验结果表明，该方法在各种数据集上都优于当前最先进的方法。特别是，我们的方法可以实现超过13%的比特率平均降低，与PSNR和MS-SSIM近似时的DCVC方法比较。

9.2 结论

本文针对学习视频压缩，开发了基于多假设的运动补偿方案，包括多假设模块、假设关注模块和追求高级编码性能的上下文组合模块。方法的新颖之处在于采用了复杂的多假设机制，可以利用参照系的多种信息实现更好的时间先验挖掘。具体来说，多运动和扭曲特征由多假设模块产生，用于提供各种假设，其中当前框架中的样本可以参考参考框架中的多个样本。此外，提出了假设注意模块，通过注意基础结构探索多个假设之间的关系。最后，通过上下文组合对加权假设进行融合，生成提高压缩效率的有效上下文。实验结果表明，我们的方法优于目前最先进的方法。

10.（CVPRW 2023）Adaptive Human-Centric Video Compression for Humans and Machines 适用于人和机器的自适应以人为本的视频压缩

10.1 摘要

我们提出了一个新的框架来压缩以人为中心的视频，以供人类观看和机器分析。我们的系统使用三个编码分支来结合通用面部先验学习的能力和数据依赖的细节恢复。通用分支将人脸嵌入到由学习的高质量 (HQ)码本描述的离散代码空间中，以重建HQ基线人脸。域自适应分支通过补充代码本添加域特定信息来调整重建以适应当前数据域。任务自适应分支从低质量(LQ)输入中获取辅助细节，以帮助机器分析修复后的面部。引入自适应权重来平衡重建中域自适应和任务自适应特征的使用，推动包括感知质量、保真度、比特率和任务精度在内的标准之间的权衡。此外，提出的在线学习机制根据实际压缩需求自动调整自适应权值。通过共享主通用分支，与传统编码方案相比，我们的框架可以更灵活地扩展到多个数据域和多个任务。我们的实验表明，在非常低的比特率下，我们可以恢复具有高感知质量的人脸供人类观看，同时保持高识别精度供机器使用。

贡献总结如下：

一种新的基于鲁棒人脸恢复的以人为中心的视频压缩框架，以适应人类和机器的压缩需求。通用分支使用高效的离散通用代码本表示确保基线高质量面部重建。领域自适应分支使用特定于领域的代码本提供补充信息，以调整当前数据领域的重建。任务自适应分支从LQ输入中获得额外的详细线索对修复后的面部进行协助分析。我们的方法可以很容易地扩展到多个数据域和任务。
灵活的测试阶段质量控制。将高质量通用特征和域自适应特征加权结合，以平衡感知质量和对当前数据域的真实性。同样地，高质量通用特性和任务自适应低质量特性使用使用一个组合权重结合在一起用于平衡比特率和任务性能。
根据当前测试数据和实际压缩需要，自动调整域自适应特征和任务自适应特征组合权值的在线元学习机制。

10.2 结论

我们提出了一个以人为中心视频压缩的鲁棒框架，以适应人类观看和机器分析。通用分支使用高效通用码本表示，保证了高感知质量的人脸重建。在附加分支中提供了域自适应和任务自适应的细节，分别提高了当前数据域的视觉真实性，供人类使用，以及用于机器分析的任务性能。在线调整通用特征、领域自适应特征和任务自适应特征的组合权值，以适应不同的压缩需求。实验证明了在极低比特率下具有优异的感知质量和任务准确性。与传统的编码方法相比，我们的框架可以灵活配置，并且可以更好地扩展到多个数据域和任务。

你可能感兴趣的:(论文阅读,论文阅读,计算机视觉,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它