倘若我问心无愧呢丶

【论文阅读】（2023.06.09-2023.06.18）论文阅读简单记录和汇总

(2023.06.09-2023.06.12)论文阅读简单记录和汇总

2023/06/09：虽然下周是我做汇报，但是到了周末该打游戏还是得打的
2023/06/12：好累好困，现在好容易累。

（TCSVT 2023）Facial Image Compression via Neural Image Manifold Compression
（arxiv 2023）Exploring the Rate-Distortion-Complexity Optimization in Neural Image Compression
（arxiv 2023）High-Similarity-Pass Attention for Single Image Super-Resolution
（arxiv 2023）Reconstruction Distortion of Learned Image Compression with Imperceptible Perturbations
（IEEE T-BC 2023）End-To-End Compression for Surveillance Video With Unsupervised Foreground-Background Separation
（arxiv 2023）Improving Position Encoding of Transformers for Multivariate Time Series Classification
（arxiv 2023）Unsupervised haze removal from underwater images
（arxiv 2023）Human-imperceptible, Machine-recognizable Images

1. （TCSVT 2023）Facial Image Compression via Neural Image Manifold Compression 通过神经图像流形压缩进行面部图像压缩

1.1 摘要

虽然近年来基于学习的图像和视频编码技术得到了快速发展，但这些方法中信号保真度驱动的目标导致了对人和机器的高效编码框架的分歧。在本文中，我们的目标是通过利用生成模型的力量来弥合全保真度(用于人类视觉)和高分辨力 (用于机器视觉)之间的差距来解决这个问题。因此，依靠现有的预训练生成对抗网络(GAN)，我们构建了一个GAN反演框架，将图像投影到低维自然图像流形中。在这个流形中，特征具有很强的判别性，同时对图像的外观信息进行编码，称为潜码。采用变分比特率约束和超先验模型来建模/抑制图像流形码的熵，我们的方法能够在非常低的比特率下满足机器和人类视觉的需求。为了提高图像重建的视觉质量，我们进一步提出了多隐码和可伸缩反演。前者在反演过程中得到多个隐码，而则在此基础上进行压缩并传输一个浅压缩特征以支持视觉重构。实验结果证明了我们的方法在人类视觉任务(即图像重建)和机器视觉任务( 包括语义解析和属性预测)中的优越性。

贡献总结如下：

我们提出了一种新的压缩框架，它结合了生成模型的功能以及学习的比特率约束和非常低比特率图像/视频压缩的优化。
在我们提出的框架中，一个非常紧凑的特征向量首先被压缩并传输到解码器端，它可以以准确和计算高效的方式转换为机器分析结果，以支持协作智能范式。
在基线GAN反演框架之外，为了进一步提高人类对全像素重建结果的感知，我们提出了多隐码和可扩展反演，通过合理的比特率绕过流，显著提高了视觉重建质量。

1.2 结论

在本文中，我们开发了一个基于GAN反演的压缩框架，追求紧凑的低维低维自然图像流形用于面部图像压缩。利用 GAN训练的优点，该空间的隐码不仅具有高判别性，而且能够编码图像的外观信息。在应用比特率约束后，得到一个紧凑的代码，以非常低的比特率从机器和人类的角度执行多个任务。我们进一步扩展了隐码的形式，提出了多个隐码和可扩展的反演方案，以额外压缩和传输浅压缩特征，以支持视觉重建，以获得更好的视觉质量。实验结果证明了我们的方法在人类视觉和机器视觉任务中的优越性。

2. （arxiv 2023）Exploring the Rate-Distortion-Complexity Optimization in Neural Image Compression 探索神经图像压缩中的速率-失真-复杂度优化

2.1 摘要

尽管历史很短，神经图像编解码器已被证明在率失真性能方面优于经典图像编解码器。然而，它们中的大多数都有显着较长的解码时间，这阻碍了神经图像编解码器的实际应用。当采用有效但耗时的自回归上下文模型时，这个问题尤其明显，因为它会增加熵解码时间。在本文中，与大多数先前的作品追求最优RD性能而暂时忽略编码复杂性不同，我们系统地研究了神经图像压缩中的速率-失真-复杂性 (RDC)优化。通过量化解码复杂性作为优化目标中的一个因素，我们现在能够精确地控制RDC权衡，然后演示神经图像编解码器的率失真性能如何适应各种复杂性需求。除了对RDC优化的研究之外，还设计了一个可变复杂度神经编解码器，根据工业需求自适应地利用空间依赖性，通过平衡RDC权衡来支持细粒度的复杂性调整。通过在一个强大的基本模型中实现该方案，我们证明了RDC优化用于神经图像编解码器的可行性和灵活性。

贡献总结如下：

通过将熵解码的复杂性量化为优化，我们第一次能够很好地控制神经图像编解码器的速率-失真-复杂性权衡。
我们引入了一种统一的变复杂度图像压缩模型，该模型可以在单个模型内将解码复杂度调整到较细的粒度。
我们在一个强大的基础模型中实现了可变复杂度方案，并进行了全面的实验，验证了RDC优化在神经图像压缩中的潜力。

2.2 结论

本文系统地研究了神经图像压缩中的RDC优化问题。我们首次通过量化并将解码复杂性纳入优化中，实现了对速率-失真-复杂性权衡的宝贵控制。此外，提出了一种可变复杂度神经编解码器支持细粒度复杂度调整，该编解码器自适应控制上下文模型中的空间依赖关系建模。我们的综合实验结果证明了神经图像编解码器RDC优化的可行性和灵活性。

3.（arxiv 2023）High-Similarity-Pass Attention for Single Image Super-Resolution 单幅图像超分辨率的高相似度传递注意

3.1 摘要

非局部注意(NLA)领域的最新发展引起了人们对基于自相似性的单图像超分辨率(SISR)的新兴趣。研究者通常使用 NLA来探索SISR中的非局部自相似(NSS)，获得了令人满意的重建结果。然而，一个令人惊讶的现象，即标准 NLA的重建性能与随机选择区域的NLA相似，激发了我们重新审视NLA的兴趣。在本文中，我们首先从不同的角度分析了标准NLA的注意图，发现得到的概率分布总是完全支持每个局部特征，这意味着对不相关的非局部特征赋值是一种统计浪费，特别是对于需要用大量冗余的非局部特征来建模远程依赖的SISR。基于这些发现，我们引入了一种简洁但有效的软阈值操作来获得高相似度传递注意力(HSPA)，这有利于生成更紧凑和可解释的分布。此外，我们推导了软阈值操作的一些关键属性，使我们能够以端到端方式训练HSPA。 HSPA可以作为一个高效的通用构件集成到现有的深度SISR模型中。此外，为了验证HSPA的有效性，我们将几个HSPA整合到一个简单的骨干网络中，构建了一个深度高相似通道关注网络(HSPAN)。广泛的实验结果表明 HSPAN在定量和定性评估上都优于最先进的方法。

贡献总结如下：

我们对NLA在基于自相似性的深度SISR方法中的局限性提出了新的见解，并认为NLA中的softmax变换对于长序列的SISR存在不可克服的缺陷。(如图1、图2所示)
我们形式化了一个简洁而有效的软阈值操作，并探索了它的关键属性，这使得在深度SISR中端到端优化我们的高相似性传递注意力成为可能。
利用基于HSPAN的模块设计了一个深度高相似度注意网络(HSPAMs)，并取得了最先进的定量和定性结果。

3.2 结论

在本文中，我们对在SISR问题中使用的NLA提供了新的见解，并发现作为NLA的一个关键组成部分的softmax变换不适合探索远程信息。为了克服这个缺点，我们设计了一个灵活的高相似度传递注意(HSPA)，使我们的深度高相似度注意网络(HSPAN)专注于更有价值的非局部纹理，同时去除不相关的纹理。此外，我们探索了提出的软阈值(ST)操作的一些关键特性，以端到端方式训练我们的HSPA 。据我们所知，这是第一次尝试分析和解决在低级视觉问题中利用softmax变换进行远程序列建模的局限性。此外，广泛的实验表明，我们的HSPA和ST操作可以集成为现有的深度 SISR模型中有效的通用构建单元。

4. （arxiv 2023）Reconstruction Distortion of Learned Image Compression with Imperceptible Perturbations 具有不可察觉扰动的学习图像压缩的重建失真

4.1 摘要

学习图像压缩(LIC)由于其显著的性能成为近年来图像传输的趋势技术。尽管它很受欢迎，但LIC在图像重建质量方面的稳健性仍然未得到充分探索。在本文中，我们引入了一种难以察觉的攻击方法，旨在有效地降低LIC的重建质量，导致重建图像受到噪声的严重干扰，其中重建图像中的任何物体几乎都不可能。更具体地说，我们通过引入基于Frobenius范数的损失函数来生成对抗示例，以最大化原始图像与重建的对抗示例之间的差异。此外，利用高频组件对人类视觉的不敏感性，我们引入了不可感知约束(IC)以确保扰动保持不明显。在柯达数据集上使用各种LIC模型进行的实验证明了有效性。此外，我们提供一些发现和建议，以设计未来的防御。

贡献总结如下：

我们对LIC的鲁棒性进行了系统的研究，通过发起一系列攻击，通过引入Frobenius 基于范数的IC损失来破坏图像重建过程。
我们的实验表明，我们提出的攻击可以破坏LIC ，同时保持诱导扰动的不可感知性。
基于我们的实验，我们提供了几个有趣的发现和关于设计健壮的LIC的潜在见解。

4.2 发现

我们的实验得出了几个有趣的观察结果：（1）除了任意噪声外，产生的对抗性扰动还包含某些不规则模式。例如，可以在图3中观察到，在每个产生的扰动中都有小的方形图案。我们假设这些特定区域可能对重建质量有重大影响。未来的工作可能会研究设计检测和防御对抗性攻击的对策利用这些模式。（2）不同的LIC模型表现出不同程度的鲁棒性。从无花果。2、我们发现Hyperprior和Joint似乎比其他方法更健壮。基于此，我们假设具有更高质量重建能力的LIC模型也具有更好的鲁棒性。

4.3 结论

在本文中，我们通过发起基于 Frobenius范数损失函数的对抗性质量攻击来探索LIC的鲁棒性，以创建使原始图像和重建图像之间偏差最大化的对抗性示例，并引入IC以确保扰动对人类感知不可见。对柯达数据集和各种LIC模型的实验说明了的有效性，并揭示了有趣的发现，包括不规则的扰动模式和不同LIC模型的鲁棒性水平。

5. （IEEE T-BC 2023）End-To-End Compression for Surveillance Video With Unsupervised Foreground-Background Separation 具有无监督前景-背景分离的监控视频的端到端压缩

5.1 摘要

随着监控视频的指数级增长，对高效视频编码方法的需求越来越大。基于学习的方法要么直接使用通用的视频压缩框架，要么分离前景和背景，然后分两个阶段压缩它们。然而，它们没有考虑到监控视频相对静态的背景事实，或者在离线模式下简单地分离前景和背景，这降低了分离性能，因为它们没有很好地考虑时域相关性。在本文中，我们提出了一个端到端的无监督前景背景分离视频压缩神经网络，称为UVCNet。我们的方法主要由三部分组成。首先，Mask Net在线无监督地分离前景和背景，这充分利用了时间相关先验。然后，将传统的基于运动估计的残差编码模块应用于前景压缩。同时，利用背景压缩模块对背景残差进行压缩，充分利用相对静态的特性对背景进行更新。与之前的方法相比，我们的方法不需要提前分离前景和背景，而是端到端的方式。因此我们不仅可以利用相对静态的背景属性来节省比特率，还可以实现端到端的在线视频压缩。实验结果表明，所提出的UVCNet与现有方法相比，具有更好的性能。具体来说，UVCNet可以实现峰值信噪比 (PSNR)在监控数据集上比H.265平均提高了2.11 dB。

贡献总结如下：

我们是第一个提出端到端无监督监控视频压缩框架UVCNet。与之前的研究不同，该框架可以在线上分离前景和背景，并在整个网络中进行端到端训练。
提出了一种新的自适应背景更新策略。一旦背景变化超过一定阈值参考背景将被更新。与以往的静态或固定间隔更新不同，我们的自适应更新策略使参考背景更加准确，从而进一步降低了背景残差。
大量的实验证实了该框架的有效性。在Ewap_eth数据集和Ewap_hotel数据集上，与最先进的方法相比，所提出的方法在BD-PSNR方面分别获得了0.8 dB和0.34 dB的增益。

5.3 结论

本文通过观察和总结监控视频的特点，提出了一种端到端监控视频编码方法，命名为UVCNet (Unsupervised 基于前景背景分离的视频压缩神经网络)。简而言之，本文提出了自监督方法来训练一个前景背景分离网络 (Mask Net)，该网络可以细粒度地分析帧中变化较小的背景部分。在背景压缩模块(背景网)中，提出了一种简单的在线背景更新方法，利用相对静态的特性对背景残差进行了高效压缩。实验上常用的有三种监控视频数据集表明，我们的结果超越了现有方法，成为一种新的SOTA。

6. （arxiv 2023）Improving Position Encoding of Transformers for Multivariate Time Series Classification 改进用于多元时间序列分类的 Transformer 的位置编码

Code:https://github.com/Navidfoumani/ConvTran

6.1 摘要

Transformer在许多深度学习应用中表现出了出色的性能。当应用于时间序列数据时，变压器需要有效的位置编码来捕获时间序列数据的顺序。位置编码在时间序列分析中的有效性还没有得到很好的研究，并且仍然存在争议，例如，是注入绝对位置编码还是相对位置编码更好，还是两者结合更好。为了清楚这一点，我们首先回顾了在时间序列分类中应用时现有的绝对位置和相对位置编码方法。然后，我们提出了一种新的用于时间序列数据的绝对位置编码方法，称为时间绝对位置编码(tAPE)。我们的新方法在绝对位置编码中结合了序列长度和输入嵌入维数。此外，我们提出了计算效率相对位置编码(eRPE)的实现，以提高时间序列的通用性。然后，我们提出了一种新的多元时间序列分类(MTSC)模型，该模型结合了tAPE/eRPE和基于卷积的输入编码，称为ConvTran，以改善时间序列数据的位置和数据嵌入。本文提出的绝对位置和相对位置编码方法简单有效。它们可以很容易地集成到变压器块中，并用于下游任务，如预测、外部回归和异常检测。在32个多变量时间序列数据集上进行了广泛的实验，表明我们的模型比最先进的卷积和基于Transformer的模型要准确得多。

6.2 结论

本文首次研究了位置编码对时间序列的重要性，并对现有的绝对位置编码和相对位置编码方法在时间序列分类中的应用进行了综述。基于目前时间序列位置编码的局限性，我们提出了两种新的时间序列绝对位置编码和相对位置编码，分别称为tAPE和eRPE 。然后，我们将我们提出的两个位置编码集成到Transformer莫夸哦中，并将它们与卷积层结合起来，提出了一个用于多变量时间序列分类(ConvTran)的新型深度学习框架。大量实验表明，ConvTran受益于位置信息，在深度学习文献中实现了最先进的多元时间序列分类性能。未来，我们将在其他基于变压器的TSC模型和其他下游任务(如异常检测)中研究我们的新变压器块的有效性。

7. （arxiv 2023）Unsupervised haze removal from underwater images 从水下图像中去除无监督的雾霾

7.1 摘要

存在一些监督网络，它们使用配对数据集和逐像素损失函数从水下图像中去除雾霾信息。然而，训练这些网络需要大量的配对数据，这是繁琐的、复杂和耗时的。此外，直接使用对抗性和循环一致性损失函数进行无监督学习是不准确的，因为从干净图像到水下图像的底层映射是一对多的，导致对循环一致性损失的约束不准确。为了解决这些问题，我们提出了一种新的方法来去除雾霾从水下图像使用不成对的数据。我们的模型使用雾霾解纠缠网络(HDN)从水下图像中解纠缠雾霾和内容信息。解纠缠内容由恢复网络使用对抗损失生成干净的图像。然后将解纠缠雾霾用作水下图像再生的引导，从而对周期一致性损失产生强烈的约束，并提高了性能增益。不同消融实验表明，水下图像中的雾霾和内容被有效分离。详细的实验表明，精确的循环一致性约束和所提出的网络结构在生成优异结果中发挥了重要作用。在UFO-120、UWNet、 UWScenes和UIEB水下数据集上的实验表明，方法的结果在视觉和数量上都优于现有技术。

贡献总结如下：

据我们所知，这是第一个基于学习的方法，在水下图像中使用正确的循环一致性损失来去除不成对的雾霾。
在不同水下数据集上的详尽实验表明，与先前的无监督方法相比，精确的周期一致性匹配结合解纠缠内容的恢复网络可以获得高质量的去雾结果。

在我们的方法中，HDN使用特征正则化、特征对抗和循环损失来从输入图像中解耦雾霾和内容信息。不同的消融实验提供了水下图像中雾霾和内容信息的可视化结果。在不同的公开数据集上的详尽实验表明，精确的循环一致性约束结合 $G_c$ 的解纠缠内容与先前的无监督方法相比具有更好的结果。

7.2 结论

我们提出了一种基于雾霾解纠缠网络 (HDN)和恢复模块的水下图像的无监督雾霾去除算法。HDN用于从UW图像中分离雾霾和内容。而解纠缠内容作为恢复模块的输入，雾霾信息用于“一致”周期一致性。不同的消融研究表明，提出的HDN 网络成功地解耦了水下图像的雾和内容。相比于之前的方法，我们的方法在视觉比较和定量指标上都取得了提高。我们相信本文提出的损失函数和网络架构将有助于进一步提高无监督网络的性能。

8. （arxiv 2023）Human-imperceptible, Machine-recognizable Images 人类无法察觉、机器可识别的图像

Code:https://github.com/FushengHao/PrivacyPreservingML
这个大哥怎么在论文里把点号也算到超链接里去了，特么的点进去就是Page not found。

8.1 摘要

收集大量与人类相关的数据来训练神经网络，用于计算机视觉任务。对于软件工程师来说，在更好地开发人工智能系统和远离敏感的训练数据之间存在一个主要的冲突。为了调和这种冲突，本文提出了一种有效的隐私保护学习范式，其中图像首先通过两种加密策略之一加密为“人类无法察觉，机器可识别”：（1）随机排列成一组大小相等的补丁;(2)混合图像的子补丁。然后，对视觉转换器进行最小的调整，使其能够学习加密图像上的视觉任务，包括图像分类和对象检测。在ImageNet和COCO上的大量实验表明，所提出的范式与竞争方法的准确率相当。解密加密图像需要解决NP-hard拼图或不适定逆问题，经验表明难以被各种攻击者恢复，包括强大的基于视觉变换的攻击者。因此，我们表明，所提出的范式可以确保加密图像在保留机器可识别信息的同时成为人类无法感知的。

贡献总结如下：

我们提出了一种有效的保护隐私的学习范式，可以确保加密图像在保留机器可识别信息的同时变得不可感知。
RS（随机排列）是专用于基于ViT的标准图像分类。通过将基于参考的位置编码替换为原始的位置编码，ViT能够对经过RS加密的图像进行学习。
通过进一步设计MI（混合），隐私保护学习范式可以扩展到位置敏感任务，如对象检测，我们只需要调整图像补丁的嵌入方式。
大量的实验证明了所提出的隐私保护学习范式的有效性。

8.2 结论

在本文中，我们提出了一种有效的隐私保护学习范式，该范式可以破坏人类可识别的内容，同时保留机器可学习的信息。我们范例的关键见解是通过置换不变性将加密算法与网络优化解耦。提出了两种加密策略:随机洗牌到一组大小相等的图像补丁和混合图像补丁是具有排列不变性的。通过对ViT和YOLOS 进行最小的调整，它们可以(部分地)实现排列不变性，并且能够处理加密的图像。在ImageNet和COCO 上的大量实验表明，所提出的范式与竞争对手方法的准确率相当，同时破坏了人类可识别的内容。

[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion Model 论文阅读钟屿论文阅读人工智能深度学习学习图像处理计算机视觉
Diff-Retinex：用生成式扩散模型重新思考低光照图像增强摘要本文中，我们重新思考了低光照图像增强任务，并提出了一种物理可解释的生成式扩散模型，称为Diff-Retinex。我们的目标是整合物理模型和生成网络的优点。此外，我们希望通过生成网络补充甚至推断低光照图像中缺失的信息。因此，Diff-Retinex将低光照图像增强问题表述为Retinex分解和条件图像生成。在Retinex分解中，我
【论文阅读】人工智能在直升机航空电子系统中的应用肥鼠路易论文阅读人工智能航空电子系统应用
人工智能在直升机航空电子系统中的应用论文摘要文章结构参考文献论文摘要论文摘要:在现代战争形势日趋信息化、智能化的背景下，将人工智能应用于武器装备已经是大势所趋。针对直升机飞行任务的特征，对其发展状况进行了描述，并对其作业能力进行了分析，探索了人工智能技术在直升机航电系统中的应用方向，为推进人工智能在直升机上的转化与应用奠定基础。通过对国外先进直升机智能技术的运用现状及对其作业能力的要求进行分析，探
[论文阅读] 人工智能+软件工程 | 用大语言模型架起软件需求形式化的桥梁张较瘦_ 前沿技术人工智能论文阅读软件工程
用大语言模型架起软件需求形式化的桥梁：一篇ACM调查草案的深度解读论文信息arXiv:2506.14627ACMSurveyDraftonFormalisingSoftwareRequirementswithLargeLanguageModelsArshadBeg,DiarmuidO’Donoghue,RosemaryMonahanComments:22pages.6summarytablesSu
Reti-Diff: Illumination Degradation Image Restoration with Retinex-based Latent Diffusion Model论文阅读青铜锁00 深度学习论文阅读 #退化论文阅读
Reti-Diff:IlluminationDegradationImageRestorationwithRetinex-basedLatentDiffusionModel1.研究目标与实际意义1.1研究目标1.2实际意义2.创新方法与模型设计2.1整体框架2.2RetinexPriorExtraction(RPE)模块2.2.1Retinex分解2.2.2先验压缩2.3Retinex-guide
SIMPL论文阅读 ZHANG8023ZHEN 论文阅读
论文链接：https://arxiv.org/pdf/2402.02519文章还没细看，但主要贡献点应该是SymmetricFusionTransformer和Bezier-basedMotionDecoder.对Bezier-basedMotionDecoder比较感兴趣，之后对这块细看一下
【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
agentformer论文阅读 ZHANG8023ZHEN 论文阅读
参考了这篇博文：https://zhuanlan.zhihu.com/p/512764984主要有这几个部分a.map_encoderi.对地图进行CNNb.ContextEncoderi.timeencoder–将时间信息用transformer和positionemb进行融合，加入到特征中ii.agent-awareattention–self和selfattentionother和other
【论文阅读】DynamicControl ：一种新的controlnet多条件控制方法 prinTao pytorch Diffusion 论文阅读
背景现有方法要么处理条件效率低下，要么使用固定数量的条件，这并不能完全解决多个条件的复杂性及其潜在冲突。这强调了需要创新方法来有效管理多种条件，以实现更可靠和详细的图像合成。为了解决这个问题，我们提出了一个新的框架DynamicControl，它支持不同控制信号的动态组合，允许自适应选择不同数量和类型的条件。本文方法从一个双循环控制器开始，它通过利用预先训练的条件生成模型和判别模型为所有输入条件生
论文阅读：2018 arxiv CrowdHuman: A Benchmark for Detecting Human in a Crowd CSPhD-winston-杨帆论文阅读
https://www.doubao.com/chat/9226473480559618https://arxiv.org/pdf/1805.00123CrowdHuman:ABenchmarkforDetectingHumaninaCrowd文章目录论文翻译CrowdHuman：用于检测人群中人体的基准摘要1.引言2.相关工作2.1.人体检测数据集2.2.人体检测框架。论文翻译CrowdHuma
论文阅读：arxiv 2025 OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation CSPhD-winston-杨帆论文阅读
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328https://www.doubao.com/chat/8815924393371650https://arxiv.org/pdf/2506.02397#page=17.09OThink文章目录速览研究背景与问题核心思路与方法实验结果结论与意义速览这篇论文聚焦于
论文阅读：arxiv 2025 Not All Tokens Are What You Need In Thinking
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328https://arxiv.org/pdf/2505.17827https://www.doubao.com/chat/8814790364572162文章目录速览研究背景提出的解决方案：条件token选择（CTS）实验结果核心贡献研究局限总结速览这篇论文主要探
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
[论文阅读] 人工智能+软件工程 | 用 LLM + 静态代码分析自动化提升代码质量张较瘦_ 前沿技术论文阅读人工智能软件工程
用LLM+静态代码分析自动化提升代码质量论文信息AugmentingLargeLanguageModelswithStaticCodeAnalysisforAutomatedCodeQualityImprovements@article{abtahi2025augmenting,title={AugmentingLargeLanguageModelswithStaticCodeAnalysisfo
经典论文阅读《A Framework for Unifying Reordering Transformations》《统一重排序变换的框架》好好学习啊天天向上自动性能优化
1）摘要我们提出了一个用于统一迭代重排序变换的框架，这些变换包括循环交换、循环分布、倾斜、分块、索引集拆分和语句重排序。该框架基于这样一种思想：变换可以表示为将原始迭代空间映射到新迭代空间的调度。框架旨在为变换提供一种统一的表示和推理方式。作为框架的一部分，我们提供了辅助构建和使用调度的算法，特别是用于检验调度合法性、对齐调度以及为调度生成优化代码的算法。2）优化编译器会对语句的迭代进行重新排序，
[论文阅读] 系统架构 | 零售 IT 中的微服务与实时处理：开源工具链与部署策略综述张较瘦_ 前沿技术论文阅读大数据零售
零售IT中的微服务与实时处理：开源工具链与部署策略综述论文信息MicroservicesandReal-TimeProcessinginRetailIT:AReviewofOpen-SourceToolchainsandDeploymentStrategiesAaditaaVashisht(DepartmentofInformationScienceandEngineering,RVCollege
[论文阅读]人工智能 | CoMemo：给大视觉语言模型装个“图像记忆” 张较瘦_ 前沿技术人工智能论文阅读语言模型
【论文速览】CoMemo：给大视觉语言模型装个“图像记忆”论文信息Liu,S.,Su,W.,Zhu,X.,Wang,W.,&Dai,J.(2025).CoMemo:LVLMsNeedImageContextwithImageMemory.arXivpreprintarXiv:2506.06279.一、研究背景：当LVLMs遇到“视觉健忘症”想象一下，你在阅读一本图文并茂的小说时，随着文字篇幅越来越
[论文阅读] 人工智能+软件工程 | 结对编程中的知识转移新图景张较瘦_ 前沿技术人工智能软件工程结对编程
当AI成为编程搭档：结对编程中的知识转移新图景论文信息论文标题：FromDeveloperPairstoAICopilots:AComparativeStudyonKnowledgeTransfer（从开发者结对到AI副驾驶：知识转移的对比研究）作者及机构：AlisaWelter等来自德国萨尔兰大学，ChristofTinnes同时隶属于西门子公司发表平台：arXiv预印本平台发表时间：2025年
【论文阅读笔记】HaDes幻觉检测benchmark zsq 论文分享论文阅读笔记 NLP 大语言模型幻觉
0论文信息题目：AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org/ab
论文阅读：Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Ef clvsit RAG 论文阅读 LLM
检索增强生成（RAG）技术利用大型语言模型（LLM）的上下文学习能力，生成更准确、更相关的响应。RAG框架起源于简单的“检索-阅读”方法，现已发展成为高度灵活的模块化范式。其中一个关键组件——查询重写模块，通过生成搜索友好的查询来增强知识检索。这种方法能使输入问题与知识库更紧密地结合起来。作者的研究发现了将QueryRewriter模块增强为QueryRewriter+的机会，即通过生成多个查询来
论文阅读：HySCDG生成式数据处理流程
论文地址:TheChangeYouWantToDetect:SemanticChangeDetectionInEarthObservationWithHybridDataGenerationAbstract摘要内容介绍问题背景“Bi-temporalchangedetectionatscalebasedonVeryHighResolution(VHR)imagesiscrucialforEarth
[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析张较瘦_ 前沿技术人工智能论文阅读
【论文解读】SearchArena：搜索增强LLMs的用户偏好与性能分析论文信息作者:MihranMiroyan,Tsung-HanWu,LoganKing等标题:SearchArena:AnalyzingSearch-AugmentedLLMs来源:arXivpreprintarXiv:2506.05334v1,2025一、研究背景：当LLMs需要“上网查资料”时，我们如何评估它？想象你在问AI
[论文阅读] 人工智能 | 如何快速检测LLM生成的代码？这篇论文提出了一个巧妙的方法张较瘦_ 前沿技术人工智能论文阅读
如何快速检测LLM生成的代码？这篇论文提出了一个巧妙的方法论文引文格式@misc{ashkenazi2025zero,title={Zero-ShotDetectionofLLM-GeneratedCodeviaApproximatedTaskConditioning},author={MaorAshkenaziandOfirBrennerandTalFurmanShohetandEranTrei
[论文阅读] 人工智能+软件工程 | 理解GitGoodBench：评估AI代理在Git中表现的新基准张较瘦_ 前沿技术论文阅读人工智能软件工程
理解GitGoodBench：评估AI代理在Git中表现的新基准论文信息GitGoodBench:ANovelBenchmarkForEvaluatingAgenticPerformanceOnGitTobiasLindenbauer,EgorBogomolov,YaroslavZharovCiteas:arXiv:2505.22583[cs.SE]研究背景：当AI走进开发者的协作工具箱在软件开发
[论文阅读] 人工智能+软件工程（软件测试） | 当大语言模型遇上APP测试：SCENGEN如何让手机应用更靠谱张较瘦_ 前沿技术人工智能论文阅读软件工程
当大语言模型遇上APP测试：SCENGEN如何让手机应用更靠谱？一、论文基础信息论文标题：LLM-GuidedScenario-basedGUITesting（《大语言模型引导的基于场景的GUI测试》）作者及机构：ShengchengYu等（德国慕尼黑工业大学、南京大学、同济大学等）发表来源：IEEETransactionsonSoftwareEngineering（IEEE软件工程汇刊）发表时间
[论文阅读] 人工智能+软件工程 | 用大模型优化软件性能张较瘦_ 前沿技术论文阅读人工智能软件工程
用大模型优化软件性能？这篇论文让代码跑出新速度！arXiv:2506.01249SysLLMatic:LargeLanguageModelsareSoftwareSystemOptimizersHuiyunPeng,ArjunGupte,RyanHasler,NicholasJohnEliopoulos,Chien-ChouHo,RishiMantri,LeoDeng,KonstantinLäuf
Enhanced Sparse Model for Blind Deblurring论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
EnhancedSparseModelforBlindDeblurring1.研究目标与意义1.1研究目标1.2实际意义与产业价值2.论文提出的新思路、方法及模型2.1增强稀疏模型（EnhancedSparseModel,lel_ele）模型定义与数学表达闭式解与稀疏性增强机制2.2改进的噪声建模策略噪声拟合函数的构建空间随机性建模2.3整体优化框架与半二次分裂法目标函数设计优化步骤拆分参数设置与
[论文阅读] 人工智能+软件工程 | MemFL：给大模型装上“项目记忆”，让软件故障定位又快又准张较瘦_ 前沿技术论文阅读人工智能软件工程
【论文解读】MemFL：给大模型装上“项目记忆”，让软件故障定位又快又准论文信息arXiv:2506.03585ImprovingLLM-BasedFaultLocalizationwithExternalMemoryandProjectContextInseokYeo,DuksanRyu,JongmoonBaikSubjects:SoftwareEngineering(cs.SE)一、研究背景：
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

【论文阅读】（2023.06.09-2023.06.18）论文阅读简单记录和汇总

(2023.06.09-2023.06.12)论文阅读简单记录和汇总

目录

1. （TCSVT 2023）Facial Image Compression via Neural Image Manifold Compression 通过神经图像流形压缩进行面部图像压缩

1.1 摘要

1.2 结论

2. （arxiv 2023）Exploring the Rate-Distortion-Complexity Optimization in Neural Image Compression 探索神经图像压缩中的速率-失真-复杂度优化

2.1 摘要

2.2 结论

3.（arxiv 2023）High-Similarity-Pass Attention for Single Image Super-Resolution 单幅图像超分辨率的高相似度传递注意

3.1 摘要

3.2 结论

4. （arxiv 2023）Reconstruction Distortion of Learned Image Compression with Imperceptible Perturbations 具有不可察觉扰动的学习图像压缩的重建失真

4.1 摘要

4.2 发现

4.3 结论

5. （IEEE T-BC 2023）End-To-End Compression for Surveillance Video With Unsupervised Foreground-Background Separation 具有无监督前景-背景分离的监控视频的端到端压缩

5.1 摘要

5.3 结论

6. （arxiv 2023）Improving Position Encoding of Transformers for Multivariate Time Series Classification 改进用于多元时间序列分类的 Transformer 的位置编码

6.1 摘要

6.2 结论

7. （arxiv 2023）Unsupervised haze removal from underwater images 从水下图像中去除无监督的雾霾

7.1 摘要

7.2 结论

8. （arxiv 2023）Human-imperceptible, Machine-recognizable Images 人类无法察觉、机器可识别的图像

8.1 摘要

8.2 结论

你可能感兴趣的:(论文阅读)