路人贾'ω'

CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读（翻译＋精读）

学习资料：

论文题目：《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》（用于低光图像增强的零参考深度曲线估计）

原文地址：https://arxiv.org/abs/2001.06826

源码地址：项目概览 - Zero-DCE - GitCode

Abstract—摘要

翻译

精读

一、Introduction—简介

翻译

精读

二、Related Work—相关工作

Conventional Methods—传统方法

翻译

精读

Data-Driven Methods—数据驱动的方法

翻译

精读

三、Methodology—方法

3.1 Light-Enhancement Curve (LE-curve)—光增强曲线（LE曲线）

翻译

精读

Higher-Order Curve—高阶曲线

翻译

精读

Pixel-Wise Curve—像素曲线

翻译

精读

3.2 DCE-Net

翻译

精读

3.3 Non-Reference Loss Functions—无参考损失函数

翻译

精读

Spatial Consistency Loss—空间一致性损失

Exposure Control Loss—曝光控制损失

Color Constancy Loss—颜色恒定损失

Illumination Smoothness Loss—照明平滑度损失

Total Loss—总体损失

四、Experiments—实验

实施细节

翻译

精读

4.1 Ablation Study—消融实验

Contribution of Each Loss—各损失函数的贡献

翻译

精读

Effect of Parameter Settings—参数设置效果

Impact of Training Data—训练数据的影响

4.2 Benchmark Evaluations—基准评估

翻译

精读

4.2.1 Visual and Perceptual Comparisons—视觉和感知比较

翻译

精读

4.2.2 Quantitative Comparisons—定量比较

翻译

精读

4.2.3 Face Detection in the Dark—黑暗中的人脸检测

翻译

精读

五、Conclusion—结论

翻译

精读

Abstract—摘要

翻译

本文提出了一种新的方法，零参考深度曲线估计（Zero-DCE），它将光线增强作为一个具有深度网络的图像特定曲线估计任务。我们的方法训练了一个轻量级的深度网络DCE-Net，以估计给定图像的动态范围调整的像素和高阶曲线。曲线估计是专门设计的，考虑到像素值范围，单调性和可微性。Zero-DCE在其对参考图像的宽松假设中是有吸引力的，即，它在训练期间不需要任何配对或未配对的数据。这是通过一组精心制定的非参考损失函数来实现的，这些函数隐式地测量增强质量并驱动网络的学习。我们的方法是有效的，图像增强可以通过一个直观和简单的非线性曲线映射。尽管它的简单性，我们表明，它概括以及不同的照明条件。在各种基准上进行的大量实验表明，我们的方法在定性和定量方面优于最先进的方法。此外，我们的Zero-DCE在黑暗中的人脸检测的潜在好处进行了讨论。

精读

本文提出的方法

（1）提出了一个零参考深度曲线估计（Zero-DCE），将光线增强转换为了一个image-specific曲线估计问题(图像作为输入，曲线作为输出)，通过非参考损失函数实现，从而获得增强图像。

（2）通过训练一个轻量级的网络（DCE-NET），来预测一个像素级的，高阶的曲线；并通过该曲线来调整图像。

本文取得效果

整个方法在多个数据集上都取得了SOTA
在黑暗中的人脸检测取得成效

一、Introduction—简介

翻译

由于不可避免的环境和/或技术限制，许多照片通常在次优照明条件下捕获。这些问题包括环境中的照明条件不足和不平衡，物体在极端背光下的位置不正确，以及图像拍摄过程中曝光不足。这种低光照片的美学质量和信息传输不令人满意。前者影响观众的体验，而后者导致错误的信息被传达，例如不准确的物体/面部识别。

在这项研究中，我们提出了一种新的基于深度学习的方法，零参考深度曲线估计（ZeroDCE），用于弱光图像增强。它可以科普不同的照明条件，包括不均匀和光线不足的情况。而不是执行图像到图像的映射，我们重新制定的任务作为一个图像特定的曲线估计问题。特别地，所提出的方法以低光图像作为输入，并产生高阶曲线作为其输出。然后，这些曲线用于对输入的动态范围进行逐像素调整，以获得增强的图像。曲线估计是精心制定的，以便它保持增强图像的范围，并保留相邻像素的对比度。重要的是，它是可微的，因此我们可以通过深度卷积神经网络学习曲线的可调参数。所提出的网络是轻量级的，它可以迭代地应用于近似高阶曲线，以实现更鲁棒和更准确的动态范围调整。

我们基于深度学习的方法的一个独特优势是零引用，即，它在训练过程中不需要任何配对或甚至不配对的数据，如现有的基于CNN的方法[28，32]和基于GAN的方法[12，38]。这是通过一组专门设计的非参考损失函数，包括空间一致性损失，曝光控制损失，颜色恒定性损失和照明平滑性损失，所有这些都考虑到光增强的多个因素。我们表明，即使使用零参考训练，Zero-DCE仍然可以与其他需要配对或未配对数据进行训练的方法竞争。图1中示出了增强包括非均匀照明的低光图像的示例。与最先进的方法相比，Zero-DCE在保留固有颜色和细节的同时使图像变亮。相比之下，基于CNN的方法[28]和基于GAN的EnlightenGAN [12]都会产生（面部）和（橱柜）增强。

我们的贡献概述如下。

1)我们提出了第一个独立于配对和非配对训练数据的低光照增强网络，从而避免了过度拟合的风险。因此，我们的方法很好地推广到各种照明条件。

2)我们设计了一个图像特定的曲线，能够近似像素和高阶曲线迭代应用本身。这样的图像特定曲线可以在宽动态范围内有效地执行映射。

3)我们展示了在没有参考图像的情况下，通过任务特定的非参考损失函数来训练深度图像增强模型的潜力，该函数间接评估增强质量。

我们的Zero-DCE方法在定性和定量指标方面都取代了最先进的性能。更重要的是，它能够改善高级视觉任务，例如，人脸检测，而不会造成高的计算负担。它能够实时处理图像（在GPU上处理大小为640×480×3的图像约为500 FPS），训练时间仅需30分钟。

精读

本文提出零参考深度曲线估计(Zero-Reference Deep Curve Estimation, Zero-DCE)，用于弱光图像增强。

本文训练方法

本文训练一个轻量级的深度网络DCE-Net。

首先，以弱光图像为输入，以产生高阶曲线为输出
然后，利用这些曲线对输入图像进行像素级调整，以获得增强的图像
最后，输出图像

本文贡献

①是第一个不依赖于成对和非成对训练数据的弱光增强网络，从而避免了过拟合的风险。

②设计一种特定的曲线，能够迭代运用于自身来近似像素和高阶曲线。这种曲线能够在动态范围内有效的进行映射

③提出了一种无参的损失函数，来直接估计增强图像的质量。

二、Related Work—相关工作

Conventional Methods—传统方法

翻译

常规方法。基于HE的方法通过扩展图像的动态范围来执行光增强。图像的直方图分布在全局[7，10]和局部水平[15，27]进行调整。也有各种方法采用Retinex理论[13]，通常将图像分解为反射率和照明。反射率分量通常被假设为在任何照明条件下是一致的，因此，光增强被配制为照明估计问题。基于Retinex理论，已经提出了几种方法。Wang等人[29]设计了一种在处理非均匀照明图像时保持自然度和信息的方法; Fu等人[8]提出了一种加权变分模型来同时估计输入图像的反射率和照明; Guo等人。[9]首先通过搜索RGB通道中每个像素的最大强度来估计粗略的照明图，然后通过结构先验来细化粗略的照明图; Li等人。[19]提出了一种考虑噪声的新Retinex模型。通过求解一个优化问题来估计光照图。与传统的偶然改变图像直方图分布或依赖于可能不准确的物理模型的方法相反，所提出的ZeroDCE方法通过图像特定的曲线映射产生增强的结果。这样的策略使得能够在图像上进行光增强，而不会产生不真实的伪影。Yuan和Sun [36]提出了一种自动曝光校正方法，其中通过全局优化算法估计给定图像的S形曲线，并通过曲线映射将每个分割区域推到其最佳区域。与[36]不同的是，我们的Zero-DCE是一种纯数据驱动的方法，在非参考损失函数的设计中考虑了多个光增强因子，因此具有更好的鲁棒性，更宽的图像动态范围调整和更低的计算负担。数据驱动的方法。

精读

直方图增强：扩展图像动态范围来实现光增强【低照度图像增强系列（1）】传统方法（直方图、图像变换）算法详解与代码实现
基于Retinex理论：图像分解为反射图像和亮度图像，通常反射分量一致，则化为照明估计问题【低照度图像增强系列（2）】Retinex（SSR/MSR/MSRCR）算法详解与代码实现

Data-Driven Methods—数据驱动的方法

翻译

数据驱动方法主要分为两个分支，即基于CNN的方法和基于GAN的方法。大多数基于CNN的解决方案依赖于成对数据进行监督训练，因此它们是资源密集型的。通常情况下，配对数据是通过自动光降解、在数据捕获期间改变相机的设置或通过图像修饰合成数据来详尽收集的。例如，LLNet [20]是在随机伽马校正模拟的数据上训练的;配对的低/正常光图像的LOL数据集[32]是通过在图像采集期间改变曝光时间和ISO来收集的; MIT-Adobe FiveK数据集[3]包括5，000张原始图像，每张图像都有五张由训练有素的专家制作的修饰图像。

最近，Wang等人。[28]通过估计照明图提出了一种曝光不足的照片增强网络。这个网络是在由三位专家修改的配对数据上训练的。可以理解的是，考虑到收集足够的配对数据所涉及的高成本以及在训练深度模型时包含不真实和不切实际的数据，基于配对数据的光增强解决方案在许多方面都是不切实际的。这种约束反映在基于CNN的方法的泛化能力差。文物和颜色铸造是生成，当这些方法与各种光强度的真实世界的图像。基于无监督GAN的方法具有消除成对数据进行训练的优点。EnlightenGAN [12]，一种基于无监督GAN的先驱方法，它使用未配对的低/正常光数据来学习增强低光图像。通过考虑精心设计的鉴别器和损失函数来训练网络。然而，基于无监督GAN的解决方案通常需要仔细选择未配对的训练数据。提出的Zero-DCE在三个方面上级现有的数据驱动方法。首先，它探索了一种新的学习策略，即，一个需要零参考，因此消除了配对和非配对数据的需要。其次，考虑到仔细定义的非参考损失函数，训练网络。该策略允许隐式地评估输出图像质量，其结果将在网络学习中重复。第三，我们的方法是高效和成本效益。这些优势得益于我们的零参考学习框架，轻量级网络结构和有效的非参考损失函数。

精读

CNN：大多数使用配对的数据（低光、正常光图像）进行训练，通常通过改变相机的设置或用图像修饰来合成。这种数据集通常是通过人工收集或人工合成来得到的，用这种数据集训练出来的模型泛化能力不好。
GAN：无监督训练，有消除配对数据进行训练的优势，但要仔细选择未配对的训练数据。
Zero-DCE：
- 俺们不需要参考，消除了配对和非配对数据的需要。
- 该策略允许隐式地评估输出图像质量，其结果将在网络学习中重复。

本文的方法是高效和成本效益。这些优势得益于我们的零参考学习框架，轻量级网络结构和有效的非参考损失函数。

三、Methodology—方法

3.1 Light-Enhancement Curve (LE-curve)—光增强曲线（LE曲线）

翻译

我们在图2中展示了零DCE的框架。设计了一种深度曲线估计网络（DCE-Net），用于在给定输入图像的情况下估计一组最佳拟合的光增强曲线（LE-曲线）。然后，该框架通过迭代地应用曲线来映射输入的RGB通道的所有像素，以获得最终的增强图像。接下来，我们将详细介绍Zero-DCE中的关键组件，即LE曲线、DCE-Net和非参考损失函数。

受图片编辑软件中曲线调整的启发，本文尝试设计一种曲线调整方法，能够自动将弱光图像映射到增强图像，其中自适应曲线参数完全依赖于输入图像。该曲线的设计有三个目标：1）增强图像的每个像素值应在[0，1]的归一化范围内，以避免溢出截断引起的信息损失; 2）该曲线应是单调的，以保持差异（对比度）;以及3）该曲线的形式应该尽可能简单并且在梯度反向传播过程中是可微的。为了实现这三个目标，我们设计了一个二次曲线，它可以表示为：

其中x表示像素坐标，LE（I（x）; α）是给定输入I（x）的增强版本，α ∈ [−1，1]是可训练的曲线参数，它调整LE曲线的幅度，也控制曝光水平。每个像素都被归一化为[0，1]，所有操作都是逐像素的。我们将LE曲线分别应用于三个RGB通道，而不是仅应用于照明通道。三通道调节可以更好地保留固有颜色，降低过饱和的风险。我们在补充材料中报告更多细节。图2（B）示出了具有不同调整参数α的LE曲线。很明显，LEcurve符合上述三个目标。此外，LE曲线使我们能够增加或减少输入图像的动态范围。这种能力不仅有利于增强弱光区域，去除过度曝光的伪像。

精读

图2：（a）零DCE框架。设计了一个DCE-Net来估计一组迭代增强给定输入图像的最佳拟合光增强曲线（LE曲线）。（B，c）具有不同调整参数α和迭代次数n的LE曲线。在（c）中，α1、α2和α3等于-1，而n等于4。在每个子图中，横轴表示输入像素值，而纵轴表示输出像素值

曲线设计目的

能够自动将弱光图像映射到增强图像，其中自适应曲线参数完全依赖于输入图像。

曲线设计要求

增强图像的像素值归一化为[0,1]，这避免了由于溢出截断而导致的信息丢失
曲线应保持单调，以保持相邻像素的差异(对比度)
在梯度反向传播过程中，该曲线的形式应尽可能简单

曲线公式

：表示像素坐标
：输入图像
$LE(I(X);\alpha )$ ：输出图像
$\alpha$ ：为输入图像I(x)的增强结果，α∈[−1,1]是可学习参数，同时控制曲线的级数和曝光水平

在不同的α参数设置下，图像如下图所示：

Higher-Order Curve—高阶曲线

翻译

高阶曲线。方程中定义的LE曲线(1)可以反复应用，以实现更通用的调整，以科普具有挑战性的低光条件。具体来说

其中n是迭代次数，它控制曲率。在本文中，我们将n的值设置为8，这可以令人满意地处理大多数情况。当量(2)可以降级为Eq。(1)当n等于1时。图2（c）提供了一个例子，显示了具有不同α和n的高阶曲线，这些曲线具有更强大的调节能力（即，更大的曲率）比图2（B）中的曲线。

精读

通过迭代上式(1)定义的LE-Curve，可以使得调整变得更灵活，从而使得模型能够适应于各种challenging的弱光条件下：

：控制曲率的迭代次数。（本文n=8）当n为1时，式(2)就退化为了(1)。

Pixel-Wise Curve—像素曲线

翻译

像素曲线。高阶曲线可以在更宽的动态范围内调整图像。尽管如此，它仍然是一个全局调整，因为α用于所有像素。全局映射倾向于过度增强/不足增强局部区域。为了解决这个问题，我们将α公式化为逐像素参数，即，给定输入图像的每个像素具有相应的曲线，该曲线具有最佳拟合α以调整其动态范围。因此，Eq。(2)可以重新表示为：

其中A是与给定图像大小相同的参数映射。这里，我们假设局部区域中的像素具有相同的强度（也具有相同的调整曲线），因此输出结果中的相邻像素仍然保持单调关系。以这种方式，逐像素的高阶曲线也符合三个目标。我们在图3中给出了三个通道的估计曲线参数图的示例。如图所示，不同通道的最佳拟合参数图具有相似的调整趋势但具有不同的值，这表明弱光图像的三个通道之间的相关性和差异性。曲线参数图精确地指示不同区域的亮度（例如，墙上的两个闪光点）。利用拟合映射，可以直接通过逐像素曲线映射获得增强版本图像。如图3（e）所示，增强版本揭示了暗区域中的内容并保留了亮区域。

精读

高阶曲线的不足

由于α应用于所有的像素，所以仍为全局调整，会导致过度增强/不足增强局部区域、

为了实现局部调整，将高阶曲线的单一参数α改为像素级参数得到像素级曲线——即给定输入图像的每个像素都有一条与最佳拟合α 相对应的曲线来调整其动态范围。因此曲线公式重新定义为：

A ：与给定图像相同大小的参数映射。

CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读（翻译＋精读）_第5张图片

图3：逐像素曲线参数映射的示例。为了可视化，我们对所有迭代（n = 8）的曲线参数图进行平均，并将值归一化到[0，1]的范围。AR n、AG n和AB n分别表示R、G和B通道的平均最佳拟合曲线参数图。（B）、（c）和（d）中的图由热图表示。

3.2 DCE-Net

翻译

为了学习输入图像与其最佳拟合曲线参数映射之间的映射，我们提出了深度曲线估计网络（DCE-Net）。DCE-Net的输入是一个低光图像，而输出是一组对应高阶曲线的像素曲线参数图。我们采用了一个普通的CNN，它有七个卷积层，具有对称的级联。每一层由32个大小为3×3的卷积核组成，步长为1，后面是ReLU激活函数。我们放弃了向下采样和批量归一化层，相邻像素的关系。最后一个卷积层之后是Tanh激活函数，它为8次迭代（n = 8）产生24个参数图，其中每次迭代需要三个通道的三个曲线参数图。DCE-Net的详细结构见补充材料。值得注意的是，对于大小为256×256×3的输入图像，DCE-Net只有79，416个可训练参数和5.21G触发器。因此，它是轻量级的，可以用于计算资源有限的设备，如移动的平台。

精读

输入：一个低光图像
输出：一组对应高阶曲线的像素曲线参数图

DCE网络结构

（1）backbone：DCE-Net包含七个具有对称跳跃连接的卷积层：conv-ReLU 重复 6 次 + conv-Than，注意：它具有对称的级联，即第 1/2/3 层输出和第 6/5/4 层输出进行通道级联（concatenation）

（2）conv层：3x3x32，stride=1，n=8

（3）参数：整个网络的参数量为79,416

（4）Flops：Flops为5.21G(input 为256x256x3)

3.3 Non-Reference Loss Functions—无参考损失函数

翻译

为了在DCE-Net中实现零参考学习，我们提出了一组可区分的非参考损失，使我们能够评估增强图像的质量。采用以下四种类型的损失来训练我们的DCE-Net。

空间一致性损失。空间一致性损失Lspa通过保留输入图像与其增强版本之间的相邻区域的差异来促进增强图像的空间一致性：

其中K是局部区域的数量，并且k（i）是以区域i为中心的四个相邻区域（上、下、左、右）。我们将Y和I分别表示为增强版本和输入图像中局部区域的平均强度值。我们根据经验将局部区域的大小设置为4×4。在给定其他区域大小的情况下，该损失是稳定的。

曝光控制损失。为了抑制曝光不足/过度区域，我们设计了一个曝光控制损失Lexp来控制曝光水平。曝光控制损失测量局部区域的平均强度值与良好曝光水平E之间的距离。我们遵循现有的实践[23，24]将E设置为RGB颜色空间中的灰度级。我们在实验中将E设置为0.6，尽管我们没有发现将E设置在[0.4，0.7]范围内的性能差异。损失Lexp可以表示为：

其中M表示大小为16×16的非重叠局部区域的数目，Y是增强图像中局部区域的平均强度值。

颜色恒定性损失。根据灰色世界颜色恒定性假设[2]，即每个传感器通道中的颜色在整个图像上平均为灰色，我们设计了一个颜色恒定性损失来校正增强图像中的潜在颜色偏差，并建立了三个调整通道之间的关系。颜色恒定性损失Lcol可以表示为：

其中，Jp表示增强图像中p个通道的平均强度值，（p，q）表示一对通道。

照明平滑度损失。为了保持相邻像素之间的单调性关系，我们向每个曲线参数图A添加照明平滑度损失。光照平滑度损失LtvA被定义为：

其中N是迭代次数，分别表示水平和垂直梯度运算。

总体损失。总损失可以表示为：

其中Wcol和WtvA是损失的权重。

精读

Spatial Consistency Loss—空间一致性损失

目的

通过保持输入图像与增强图像相邻区域的梯度促进图像的空间一致性。

方法

首先计算输入图像和增强图像在通道维度的平均值（将R、G、B三通道加起来求平均），得到两个灰度图像
然后分解为若干个4×4patches（不重复，覆盖全图）
最后计算patch内中心i与相邻j像素差值，求平均

公式

：局部区域的数量
$\Omega (i)$ ：是以区域 i为中心的四个相邻区域（顶部、下、左、右）
：增强版本的局部区域的平均强度值
：输入版本的局部区域的平均强度值

Exposure Control Loss—曝光控制损失

目的

抑制曝光不足/过度区域，控制曝光水平。

方法

测量的是局部区域的平均强度值与良好曝光水平（E=0.6 ，经验设置）之间的距离。

首先将增强图像转为灰度图
然后分解为若干 16×16 patches（不重复，覆盖全图）
最后计算 patch 内的平均值

公式

：大小为16×16的不重叠局部区域个数
：增强图像中某个局部区域的平均强度值

Color Constancy Loss—颜色恒定损失

目的

用于纠正增强图像中的潜在色偏，同时也建立了三个调整通道之间的关系。

方法

首先将提亮图像分成RGB三通道，计算每个通道的平均亮度
然后将不同通道的平均亮度两两相减，求平均和

Color Constancy Loss值越小，说明提亮图像颜色越平衡，损失越大则说明提亮图像可能有色偏的问题

公式

$J^{p}$ ：增强后图像中p通道的平均强度值
：一对颜色通道

Illumination Smoothness Loss—照明平滑度损失

目的

保持相邻像素之间的单调关系。

启发

将所有通道、所有迭代次数的 A （也就是网络的输出），其横竖的梯度平均值应该很小

公式

：迭代次数
$\bigtriangledown x$ ：水平梯度
$\bigtriangledown y$ ：垂直梯度

Total Loss—总体损失

$W_{col}$ 和 $W_{tvA}$ ：损失的权重。(本文 $W_{col}$ =0.5， $W_{tvA}$ =20)

四、Experiments—实验

实施细节

翻译

实施细节。基于CNN的模型通常使用自捕获的配对数据进行网络训练[5，17，28，30，32，33]，而基于GAN的模型精心选择未配对的数据[6，11，12，16，35]。为了充分发挥宽动态范围调整的能力，我们将低光照和过度曝光的图像合并到我们的训练集中。为此，我们使用SICE数据集[4]第1部分中的360个多次曝光序列来训练所提出的DCE-Net。该数据集也被用作EnlightenGAN [12]中训练数据的一部分。我们将Part1子集[4]中不同曝光水平的3，022张图像随机分为两部分（2，422张用于训练，其余用于验证）。我们将训练图像的大小调整为512×512。

我们在NVIDIA 2080 Ti GPU上使用PyTorch实现了我们的框架。应用的批量为8。每一层的滤波器权重初始化为标准的零均值和0.02标准差高斯函数。偏差初始化为常量。我们使用带有默认参数和固定学习率1e −4的ADAM优化器进行网络优化。权重Wcol和WtvA分别设置为0.5和20，以平衡损失的规模。

精读

训练图像：2422 张
测试图像：600张
图像大小：512 × 512
batch size：8
权重初始化：均值为0，方差为0.02的标准差高斯函数
偏置初始化：常量
学习率：1e −4
优化器：ADAM
Wcol ：0.5
WtvA ：20

4.1 Ablation Study—消融实验

Contribution of Each Loss—各损失函数的贡献

翻译

我们进行了几项消融研究，以证明Zero-DCE每个组件的有效性，如下所示。更多的定性和定量比较见补充材料。每个损失的贡献。我们在图4中展示了通过各种损失组合训练的ZeroDCE的结果。没有空间一致性损失的结果Lspa具有相对较低的对比度（例如，云区域）比完整的结果。这表明了Lspa在保持输入和增强图像之间的相邻区域的差异方面的重要性。去除曝光控制损失Lexp无法恢复低光区域。当丢弃颜色恒常性损失Lcol时，出现严重的色偏。当应用曲线映射时，此变体忽略三个通道之间的关系。最后，去除光照平滑度损失LtvA阻碍了相邻区域之间的相关性，导致明显的伪影。

精读

图4：每种损失（空间一致性损失Lspa，曝光控制损失Lexp，颜色恒定性损失Lcol，illu）的贡献的消融研究

(c)去除Lspa ：对比度较低（例如：云区）
(d)去除Lexp ：无法恢复低光区域
(e)去除Lcol ：出现了严重的色偏
(f)去除LtvA ：出现了明显的伪影

Effect of Parameter Settings—参数设置效果

CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读（翻译＋精读）_第10张图片

图5：参数设置影响的消融研究。l-f-n表示具有l个卷积层、每个层（除了最后一层）的f个特征图和n次迭代的所提出的零DCE

（b）Zero-DCE 3 −32−8：已经可以产生令人满意的结果，表明零参考学习的有效性
（e）Zero-DCE 7 −32−8和（f）ZeroDCE 7 −32−16：在自然曝光和适当对比度下效果不错
（d）Zero-DCE 7 −32−1：性能明显下降

选择Zero-DCE 7 −32−8作为最终模型，因为它在效率和恢复性能之间有很好的权衡。

Impact of Training Data—训练数据的影响

CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读（翻译＋精读）_第11张图片

图6：消融研究对训练数据的影响

不同数据集

（b）Zero−DCE low ：2422 张图像，其中900张低光图像
（c）Zero−DCE LargeL ：暗脸数据集提供的9000张未标记的低光图像
（e）Zero−DCE LargeLH ：来自SICE数据集Part1和Part2子集的数据增强组合的4800幅多次曝光图像

实验效果对比

(c)、(d)：倾向过度增强光照良好的区域（例如：面部），表明了多曝光训练数据的合理性和必要性

(e)：能更好地恢复暗区域

4.2 Benchmark Evaluations—基准评估

翻译

我们将Zero-DCE与几种最先进的方法进行比较：三种传统方法（SRIE [8]，LIME [9]，Li等人。[19]），两种基于CNN的方法（RetinexNet [32]，Wang等人。[28]）和一种基于GAN的方法（EnlightenGAN [12]）。使用公开的源代码与推荐的参数的结果进行复制。

我们对以前的作品中的标准图像集进行了定性和定量实验，包括NPE [29]（84张图像），LIME [9]（10张图像），MEF [22]（17张图像），DICM [14]（64张图像）和VV ESTA（24张图像）。此外，我们在SICE数据集[4]的第2部分子集上定量验证了我们的方法，该子集由229个多次曝光序列和每个多次曝光序列对应的参考图像组成。为了进行公平的比较，我们仅使用第2部分子集[4]的低光图像进行测试，因为基线方法无法很好地处理过度曝光的图像。具体来说，我们选择前三个（分别为）。四个）低光图像，如果有七个（分别为九）图像在多重曝光序列，并调整所有图像的大小为1200×900×3。最后，我们获得了767对低/正常光图像。我们放弃了[37]中提到的低/正常光图像数据集，因为RetinexNet [32]和EnlightenGAN [12]的训练数据集包含来自该数据集的一些图像。请注意，[28]中构建的最新配对训练和测试数据集尚未公开。我们没有使用MIT-Adobe FiveK数据集[3]，因为它主要不是为曝光不足的照片增强而设计的。

精读

对比的方法

传统方法：SRIE等
基于CNN的方法：RetinexNet等
基于GAN的方法：EnlightenGAN等

使用数据集

NPE、LIME、MEF、DICM、VV以及SICE的Part2

4.2.1 Visual and Perceptual Comparisons—视觉和感知比较

翻译

我们在图7中展示了典型低光图像的视觉比较。对于具有挑战性的背光区域（例如，如图7（a）中的面部），Zero-DCE产生自然曝光和清晰的细节，而SRIE [8]，LIME [9]，Wang等人。[28]和EnlightenGAN [12]不能清晰地恢复面部。RetinexNet [32]会产生过度曝光的伪影。在以室内场景为特征的第二个例子中，我们的方法增强了暗区域，同时保留了输入图像的颜色。结果是视觉上令人愉悦的，没有明显的噪音和偏色。相比之下，Li等人。[19]过度平滑细节，而其他基线放大噪声，甚至产生颜色偏差（例如，墙的颜色）。

我们进行了用户研究，以量化各种方法的主观视觉质量。我们通过不同的方法处理来自图像集（NPE，LIME，MEF，DICM，VV）的低光图像。对于每个增强的结果，我们将其显示在屏幕上，并提供输入图像作为参考。邀请总共15名人类受试者独立地对增强图像的视觉质量进行评分。这些受试者过观察以下结果来训练：1）结果是否包含过度/不足曝光的伪像或过度/不足增强的区域; 2）结果是否引入颜色偏差;以及3）结果是否具有不自然的纹理和明显的噪声。视觉质量评分范围为1 - 5分（最差到最佳质量）。每个图像集的平均主观评分报告在表1中。如表1所示，Zero-DCE在上述图像集的总共202个测试图像中获得了最高的平均用户研究（US）分数。对于MEF、DICM和VV集，我们的结果最受试者的青睐。除了US评分外，我们还采用非参考感知指数（PI）[1，21，25]来评估感知质量。PI度量最初用于测量图像超分辨率中的感知质量。它也被用于评估其他图像恢复任务的性能，例如图像去雾[26]。较低的PI值指示较好的感知质量。PI值也报告在表1中。类似于用户研究表明，所提出的Zero-DCE在平均PI值方面上级其他竞争方法。

精读

图7：典型低光图像的视觉比较。红框表示明显的差异

结论：像SRIE、LME、等传统方法和目前的SOTA都会出现不能清晰恢复面部、出现伪影、放大噪声、颜色偏差等问题、但是本文提出的Zero-DCE可以实现不错的视觉效果。

CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读（翻译＋精读）_第12张图片

表1：用户研究（US）↑/图像集（NPE、LIME、MEF、DICM、VV）上的感知指数（PI）↓评分。较高的US分数指示较好的人类主观视觉质量，而较低的PI值指示较好的感知质量。最好的结果是红色的，而第二好的结果是蓝色的

结论：在人类主观评价中，Zero-DCE在多个数据集上取得了最好的结果。

4.2.2 Quantitative Comparisons—定量比较

翻译

对于全参考图像质量评估，我们采用峰值信噪比（PSNR，dB），结构相似性（SSIM）[31]和平均绝对误差（MAE）度量来定量比较不同方法在第2部分子集上的性能[4]。在表2中，提出的Zero-DCE在所有情况下都达到了最佳值，尽管它没有使用任何配对或未配对的训练数据。Zero-DCE也是计算效率高的，得益于简单的曲线映射形式和轻量级的网络结构。表3显示了不同方法在32个大小为1200×900×3的图像上的平均运行时间。

精读

表2：全参考图像质量评估指标的定量比较。最好的结果是红色的，而第二好的结果是蓝色的

结论：尽管没有使用任何配对或未配对的训练数据，Zero-DCE在所有情况下都达到了最佳值。

CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读（翻译＋精读）_第14张图片

表3：时间（RT）比较（以秒计）。最好的结果是红色的，而第二好的结果是蓝色的

结论：Zero-DCE计算效率最高。

4.2.3 Face Detection in the Dark—黑暗中的人脸检测

翻译

我们研究了弱光图像增强方法在弱光条件下人脸检测任务的性能。具体来说，我们使用最新的DARK FACE数据集[37]，该数据集由10，000张在黑暗中拍摄的图像组成。由于测试集的边界框不是公开的，我们对由6,000张图像组成的训练集和验证集进行了评估。使用在WIDER FACE数据集[34]上训练的最先进的深度面部检测器Dual Shot Face Detector（DSFD）[18]作为基线模型。我们将不同低光图像增强方法的结果馈送到DSFD [18]，并在图8中描绘了精确度-召回率（P-R）曲线。此外，我们还使用DARK FACE数据集[37]中提供的评估工具¶比较了平均精度（AP）。

如图8所示，在图像增强之后，与使用未经增强的原始图像相比，DSFD [18]的精度显著增加。在不同的方法中，RetinexNet [32]和Zero-DCE表现最好。这两种方法是可比的，但Zero-DCE在高召回率区域表现更好。实验结果表明，Zero-DCE算法能够有效地提高人脸在极暗区域的亮度，并保留光照良好的区域，从而提高了人脸检测器在黑暗环境中的检测性能。

精读

图8：黑暗中人脸检测的性能。PR曲线，AP，以及我们的Zero-DCE增强前后的两个人脸检测示例

结论：Zero-DCE算法能够有效地提高人脸在极暗区域的亮度，并保留光照良好的区域，从而提高了人脸检测器在黑暗环境中的检测性能。

五、Conclusion—结论

翻译

我们提出了一种用于弱光图像增强的深度网络。它可以用零参考图像进行端到端训练。这是通过将低光图像增强任务制定为图像特定的曲线估计问题，并设计一组可微的非参考损失来实现的。实验表明，我们的方法优于现有的光增强方法。在未来的工作中，我们将

精读

本文为实现低照度图像增强提出了Zero-Reference Deep Curve Estimation（Zero-DCE），零参考深度估计曲线，将光增强表示为使用深度神经网络估计特定曲线的任务。

优点：

设计一个零参考深度曲线估计（Zero-DCE），将光线增强转换为了一个image-specific曲线估计问题
通过非参考损失函数实现，不依赖于成对和非成对训练数据的弱光增强网络
设计了四种损失函数对网络进行训练，作者认为是实现光线增强的关键，这也是本文最主要的创新点
是轻量级网络，训练速度快，计算效率高

改进：

尝试引入语义信息来解决困难的情况下，并考虑噪声的影响。

你可能感兴趣的:(低照度图像增强,人工智能,深度学习,计算机视觉,低照度图像增强,神经网络)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Spring WebFlux 响应式编程原理与实战指南
SpringWebFlux响应式编程原理与实战指南一、技术背景与应用场景随着微服务与高并发的迅速发展，传统的阻塞式编程模型在处理大量并发请求时容易导致线程资源耗尽、响应延迟增高。SpringWebFlux基于ReactiveStreams规范，通过非阻塞、背压机制，实现高吞吐、低延迟的Web服务。典型应用场景包括：实时数据推送：WebSocket或Server-SentEvents场景。高并发AP
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
2025年UDP洪水攻击防护实战全解析：从T级流量清洗到AI智能防御上海云盾商务经理杨杨 udp 人工智能网络协议
一、2025年UDP洪水攻击的新特征AI驱动的自适应攻击攻击者利用生成式AI动态调整UDP报文特征（如载荷内容、发送频率），攻击流量与正常业务流量差异率低至0.5%，传统指纹过滤规则失效。反射放大攻击升级黑客通过劫持物联网设备（如摄像头、传感器）构建僵尸网络，利用DNS/NTP协议漏洞发起反射攻击，1Gbps请求可放大至50-500倍流量，峰值突破8Tbps。混合协议打击70%的UDP攻击伴随TC
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
（一）OpenCV——噪声去除（降噪）
高斯滤波器（针对高斯噪声）高斯噪声是指它的概率密度函数服从高斯分布（即正态分布）的一类噪声。常见的高斯噪声包括起伏噪声、宇宙噪声、热噪声和散粒噪声等等。高斯滤波(Gaussianfilter)包含许多种，包括低通、带通和高通等，我们通常图像上说的高斯滤波，指的是高斯模糊(GaussianBlur)，是一种高斯低通滤波，其过滤调图像高频成分（图像细节部分），保留图像低频成分（图像平滑区域），所以对图
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam