Adagrad

High Dynamic Range Image Tone MappingBased on Asymmetric Model of RetinalAdaptation

Abstract

使用对称视网膜对光响应模型的全局色调映射算子往往会产生低动态范围 (LDR) 图像，该图像在明亮或黑暗区域中显示出其对应的高动态范围 (HDR) 图像的细节丢失。在本文中，我们基于包含对称 S 形曲线的视网膜适应模型引入了一种新的非对称 S 形曲线（ASC），并利用 ASC 提出了两个全局色调映射算子。在所提出的方法中，通过使用众所周知的经典摄影技术，称为区域系统，获得基于 ASC 的色调映射函数。此外，通过使用输入 HDR 图像的亮度直方图和基于 ASC 的映射函数制定双准则优化问题，引入了对比度增强色调映射函数。实验结果表明，所提出的方法增强了全局对比度，同时保留了色调映射 LDR 图像中的图像细节。此外，使用图像质量度量的客观评估结果表明，所提出的方法对最先进的全局色调映射算子显示出高性能。

1. Introduction

随着高动态范围 (HDR) 技术的快速发展，HDR 图像可以提供远多于 24 位 RGB 图像的亮度和颜色信息 [1]。然而，由于大多数显示设备仍然具有低动态范围 (LDR)，因此已经提出了各种类型的色调映射算子来在 LDR 设备上表示 HDR 图像。这些方法可以大致分为两部分：全局[2]-[10]和局部[11]-[19]算子。

全局色调映射算子对每个像素应用空间不变的压缩函数来压缩 HDR 图像的动态范围。例如，一些量化函数（如伽马函数或对数函数）用于简单地压缩 HDR 图像的动态范围 [4]、[10]。另一方面，局部色调映射算子通过考虑相邻像素的局部信息，在每个像素处利用不同的压缩比来保留输出图像中的细节。例如，杜兰德等人[17] 使用局部边缘保留滤波器将输入的 HDR 图像分解为 HDR 基础层和 LDR 细节层。然后，只有 HDR 基础层被压缩并与 LDR 细节层重新组合。同样，Fattal 等人 [18] 通过使用仅压缩 HDR 图像的大梯度的梯度衰减函数，有效地保留了色调映射 LDR 图像的精细细节。

这两个算子的客观[20]和主观[21]比较表明，全局色调映射算子可以更好地再现全局对比度，但会导致细节信息的丢失。同时，局部色调映射算子具有更好的细节可见性，但与全局算子相比，在降低计算复杂度方面效率较低。此外，局部操作员往往会产生不自然的外观，例如振铃和光晕伪影。

由于人类视觉系统 (HVS) 成功地处理了大范围亮度强度的动态范围问题，许多色调映射操作员采用了各种模拟 HVS 的假设模型。例如，retinex 理论 [22]，它通过使用 HVS 再现对颜色刺激的感官反应，已在许多局部色调映射算子中实施。乔布森等人[11] 引入了多尺度中心/环绕视网膜来产生类似于人类视觉感知的 LDR 图像。 Meylan 和 Süsstrunk [12] 扩展了这种多尺度 retinex，以提供良好的色彩再现并防止色调映射过程中的光晕伪影。此外，Mantiuk 等人[19] 引入了一个感知框架，将 HVS 的特性纳入梯度衰减过程。他们通过采用金字塔对比度表示来重建色调映射图像的低频。然而，这些基于 HVS 的局部色调映射方法通常会受到光晕伪影的影响，并且需要很高的计算复杂度。

由于 Naka-Rushton 方程 [23] 代表了视网膜感光器根据亮度水平的响应，因此被 Pattanaik 等人采用。 [2] 为了重现人眼的时间依赖性视觉适应，已经提出了多种具有 Naka-Rushton 方程的全局色调映射算子。例如，莱达等人[3] 分别将 Naka-Rushton 方程应用于视杆和视锥细胞，以模拟视网膜的局部视觉适应。莱因哈德等人[6] 通过使用一个关键值扩展了 Naka-Rushton 方程，该关键值指示输入的 HDR 图像主观上是亮的、正常的还是暗的。此外，Reinhard 和 Devlin [7] 将色调映射过程与摄影进行了识别，并从类似于摄影师的可变相机设置的可控参数中获得了 Naka-Rushton 方程的色度和亮度适应。最近，费拉丹斯等人[9] 指出了锥饱和的重要性，并结合了 Naka-Rushton 方程和 Weber-Fechner 定律。然而，由于 Naka-Rushton 方程的曲线有一个缺点，即它在半对数坐标上具有对称的 S 形，因此使用 Naka-Rushton 方程的色调映射 LDR 图像往往会丢失其对应 HDR 的细节明亮或黑暗区域中的图像。

在本文中，我们首先在传统的视网膜适应模型的基础上引入了一种新的非对称 sigmoid 曲线（ASC）。受 HVS 特性的启发，其中视网膜响应曲线实际上具有不对称形状 [24]、[25] 并且其对称特性仅在低到中等亮度水平 [26] 中保持，所提出的 ASC 还包括一个不对称参数，该参数确定曲线的曲率。然后，我们提出了一个全局色调映射算子，它通过使用摄影技术确定 ASC 的不对称参数，称为区域系统 [27]。此外，通过将双准则优化问题公式化为两个目标的加权和，提出了对比度增强色调映射函数：一个用于保留基于 ASC 的色调映射函数，另一个用于调整映射函数的斜率就亮度直方图而言。

本文的其余部分安排如下。在第 2 节中，我们介绍了基于传统视网膜反应模型的不对称 sigmoid 曲线。第 3 节详细描述了基于 ASC 的全局色调映射方法。第 4 节介绍了实验结果。最后，第 5 节总结了本文。

2. Proposed asymmetric retinal response model

Michaelis-Menten 方程 [28] 是视网膜适应的常规响应模型，描述了视网膜神经元的典型响应 R 和亮度强度 I 之间的非线性关系，如下所示：

其中 σ 是表示适应水平的半饱和常数，n 是决定函数陡度的灵敏度参数。参数 Rmax 是最大响应，其值通常为 1.0 用于归一化。给定感光器的适应水平 σ 可以被认为是该感光器最近暴露于的光强度的函数，并计算为在静止照明条件下到达整个视场的平均光[7]。请注意，当 I=σ 时，视网膜神经元的响应变为最大值的一半。如图 1(a) 所示，该响应模型在半对数坐标上具有关于其中点 (σ, 0.5) 的对称 S 形。此外，类似于HVS的机制，其中感光器调整对背景照明条件的适应，随着适应水平的增加，Michaelis-Menten方程的曲线沿水平轴从左到右移动。图 1(b) 显示它显着压缩了场景中的明暗区域，而中间范围随着灵敏度参数的增加保持不变。

尽管 Naka-Rushton 方程是 Michaelis-Menten 方程的特例 (n=1)，已在色调映射文献中广泛使用，但该视网膜反应模型的曲线在半对数坐标上具有对称 S 形[29]。为了克服这一限制，我们提出了一种新的 ASC，它包含不对称和对称形状的曲线。

最近，为了从剂量反应数据中找到最佳拟合曲线，Gottschalk 和 Dunn [30] 采用了一种称为 5PL 函数的不对称 sigmoid 曲线，定义为

其中x表示输入数据，a、b、c、d和n是用于确定函数曲线形状的五个参数。由于视网膜反应在没有光的情况下变为零，即 R(0)=0，我们从 (2) 获得 a=0。因此，（2）可以重写为

当 b=1 时，ASC 在半对数坐标上具有关于其中点 (σ, 0.5) 的对称 S 形；否则，它变得不对称。随着参数 σ 的增加，ASC 从左向右移动，如图 1（c）所示。比较图1（b）和（d），随着参数n的增加，ASC在点（σ，1-0.5b）附近具有陡峭的斜率，类似于Michaelis-Menten方程的曲线。

如上一节所述，我们设计了 ASC 来获得全局色调映射函数。因此，困难在于确定如何根据 HDR 场景适当地选择不对称参数 b。下一节将解释图像自适应参数估计方法。

3. Proposed tone mapping operators

3.1. ASC-based tone mapping operator

控制照片最终外观的区域系统技术 [27] 用于确定输入 HDR 图像的 (5) 中的不对称参数 b。区域系统将一个场景在色调尺度上划分为 11 个区域，每个区域从纯黑色到纯白色都进行了适当的匹配。在这些区域中，V 区代表 18% 的中灰，通常用作标准灰卡。

在 [6] 中，区域系统与 Naka-Rushton 方程的修改版本一起使用，用于将 HDR 场景转换为 LDR 图像，如下所示：

其中 f (∙) 是映射函数； α表示键值； L 和 Lavg 分别是输入 HDR 图像的亮度和对数平均亮度； Lwhite 表示映射到纯白色的最小亮度值，例如，对于 8 位 LDR 图像，为 255。 HDR 图像的亮度 L 是通过对输入 HDR 图像的三个颜色通道的值进行加权平均获得的，如下所示：

在(9)中，由于k的范围是[-1,1]，所以参数α在[0.045,0.72]的范围内。这里，重要的问题是，在经典区域系统中，区域 III 和区域 VII 的适当反射率分别约为 4.5% 和 72%。因此，我们可以得出结论，如果 Lwhite=1，Reinhard 全局色调映射曲线总是经过一个点 (Lavg, α)，而关键值 α 表示以 k 表示的 Zone III 和 Zone VII 之间的反射率值。如图 1(d) 所示，提出的 ASC 总是通过点 (σ, $1-0.5^{b}$ )。此外，如上一节所述，适应水平 σ 通常计算为对数平均亮度。因此，我们设置 σ = Lavg 并将从区域系统获得的点 (Lavg, α) 与 ASC 上的点 (σ, $1-0.5^{b}$ ) 相等。换言之，非对称参数b由以下等式确定： $1-0.5^{b}=\alpha$ 。最后，基于 ASC 提出的色调映射函数 $f_{TM}(\cdot )$ 由下式获得

在最近的一项工作 [9] 中，亮度值的算术平均值和中位数之间的几何平均值比对数平均亮度更能代表背景亮度。因此，我们计算背景强度：（10）和（11）中的 $L_{avg}=median^{0.5}mean^{0.5}$ 。

3.2. Contrast-enhancing tone mapping operator

在本节中，我们提出了一种通过使用（10）中基于 ASC 的色调映射函数和输入 HDR 图像的亮度直方图来生成对比度增强色调映射函数的方法。沃德等人[8] 首先采用亮度直方图的累积分布作为全局色调映射函数。生成的色调映射 LDR 图像显示出类似于直方图均衡 LDR 图像的增强对比度。然而，基于直方图的全局色调映射算子往往会丢失 HDR 图像在明亮或黑暗区域的细节 [32]。尽管局部色调映射算子可以增强局部对比度和细节的可见性，但它需要很高的计算复杂度，如第 1 节所述

为了解决这个问题，我们提出了一个具有两个目标的优化问题：保持上一节中描述的基于 ASC 的色调映射函数的形状，并根据HDR 图像累积分布函数 (CDF) 调整目标映射函数的斜率。这个双准则优化问题可以表述为

在 (12) 中，CDF 的斜率 Dcx 等于输入 HDR 图像的概率分布函数。此外，我们最小化目标映射曲线的斜率与 Dcx 之间的差异，而不是绝对差异。这种策略对于只改变目标映射曲线的斜率而不改变 ASC 的形状很有用。我们将在本节末尾展示所提出的优化策略的有效性。

hx为列向量，hx第i个元素为i到i+1区间像素个数，i是以log域等分划分，然后归一化。

在所提出的方法中，基于 ASC 的映射函数通过解决优化问题而不是简单的插值方法与 CDF 相结合。图 2 显示了使用优化策略和插值方法的色调映射函数。基于插值的色调映射函数由下式获得

4. Experimental results

4.1. Implementation

在本节中，实施了大量实验来验证所提出的色调映射函数 $f_{TM}$ 和 $\tilde{f}_{TM}$ 的性能。

在评估所提出的方法之前，将颜色校正的线性公式 [34] 应用于每个颜色通道以进行色调映射中的颜色处理，如下所示：

其中 C 表示颜色通道之一（红色、绿色和蓝色），Lout 是建议的色调映射算子的输出亮度，s 是颜色饱和度的控制参数。

在实验中，从两个 HDR 图像数据集，即 MPI 和 sIBL 中选择了 40 个测试图像。请注意，MPI 数据集已广泛用于 HDR 色调映射，而 sIBL 数据集包含最新的 HDR 图像，主要覆盖超高分辨率的户外场景，如图 3 所示。

4.2. Subjective evaluation

图 4 显示了所提出的基于 ASC 的色调映射方法在 (10) 中具有不同 b 值的结果。对于色调映射，参数设置为 n=1。如图4（a）所示，所提出的色调映射函数（b = 1）的对称版本倾向于保留暗区的精细细节并去除亮区的纹理。随着 b 减小，色调映射结果变得更暗，如图 4（b）和（c）所示。因此，非对称参数 b 对色调映射 LDR 图像的图像质量具有显着影响。在图 4(d) 中，使用 (10) 计算的参数 b 在结果图像的明亮区域和暗区域的细节保留之间提供了良好的折衷。

与具有 256 个量化级别的 LDR 图像的直方图不同，HDR 图像的亮度值是连续的，并且 HDR 图像的直方图 bin 的数量 N 会影响我们的对比度增强色调映射结果的质量。图 5 显示了所提出的基于 ASC 的色调映射方法对（14）中不同 N 值的结果。由于较小的 N 在直方图生成过程中压缩了更多的 HDR 信息，图 5（a）和（b）表明，使用较小的 N 获得的结果在明暗区域表现出更多的细节损失。否则，使用较大 N 的色调映射算子会生成视觉上合理的图像细节，同时需要高计算复杂度。由于 N = 1000 的色调映射结果与 N = 3000 的结果之间没有显着差异，如图 5（c）和（d）所示，我们将所有实验设置为 N = 1000。

图 6 显示了使用所提出的具有不同 λ 的对比度增强色调映射方法的色调映射 LDR 图像。如第 III-B 节所述，参数 λ 控制色调映射过程中亮度直方图的影响。随着λ的增加，大概率区域附近的色调映射曲线的斜率变得更陡峭，色调映射图像的全局对比度也显着增强。在实验中，参数 λ 和 γ 分别根据经验确定为 400 和 50。

为了与所提出的方法进行性能比较，使用了其他最先进的全局色调映射方法，例如 Drago 方法 [4]、Mantiuk 方法 [5]、两种 Reinhard 方法 [6][7]、Ward 方法 [8 ] 和 Ferradans 的方法 [9]。图 7 显示了我们的两种色调映射方法和 sIBL 数据集的传统全局色调映射方法的结果。在实验中，基于 Naka-Rushton 方程的色调映射结果如图 7（d）和（e）所示。虽然结果在暗区有足够的细节，但它们也出现了低对比度。在传统方法中，Mantiuk 的方法 [5] 在保持全局对比度方面表现最好。然而，可以观察到明亮和昏暗区域中图像细节的可见度较差，如图7（c）所示。相比之下，输入 HDR 图像的重要细节和纹理在所提出的基于 ASC 的色调映射方法的结果中得到了很好的呈现，如图 7(g) 所示。在图 7（h）中，所提出的对比度增强色调映射方法不仅保留了图像细节，而且增强了色调映射 LDR 图像的全局对比度。这种趋势也清楚地显示在图 8 中，它使用了 MPI 数据集。

4.3. Objective evaluation

为了客观评估色调映射结果，采用了两种定量质量评估方法。第一种评估方法[35]使用两个输入图像，一个用于输入 HDR 图像作为参考图像，另一个用于色调映射 LDR 图像作为测试图像。评估结果包括一个失真图，它代表了每个像素的对比度失真误差。失真图的灰色、绿色、红色和蓝色分别表示没有失真、可见对比度损失、对比度反转和对比度放大。此外，每种颜色密度都意味着误差的大小。在图 9 中，我们展示了使用两种建议的色调映射算子和传统方法生成的色调映射 LDR 图像和失真图。如图 9(g) 和 (h) 所示，所提出的两种色调映射方法都比其他方法产生更少的失真。

为了分析数值误差，我们从包含 20 个 sIBL 图像和 20 个 MPI 图像的 40 个色调映射 LDR 图像中提取每个像素的误差值，并计算平均值，如表 1 所示。性能最好的方法是粗体，第二个是斜体。除了关于对比度损失的类别外，两种提出的方法都优于其他色调映射方法。在表 I 中，与其他传统方法相比，Ward 方法相对导致较低的损耗和较高的反转以及对比度的放大。此外，与基于 ASC 的色调映射算子相比，增强对比度的色调映射算子在放大和反转类别中产生了更多的错误。由于这两种方法的色调映射结果通常在图 1-2 中表现出增强的对比度。从图 7 和图 8 可以看出，带有亮度直方图的色调映射算子在增强全局对比度的同时，会导致对比度反转和放大的误差。

在第二个实验中，采用了由局部结构保真度测量和统计自然度测量组成的色调映射图像质量指数（TMQI）[20]。该指标给出了 [0, 1] 之间的整体性能得分，其中得分越高表示性能越好。为了公平比较，我们在第一个实验中使用了相同的 HDR 数据集，并计算了三个平均质量分数（结构保真度、统计自然度和整体质量）及其标准偏差。结果列于表II。尽管 Mantiuk 的方法 [5] 在结构保真度方面比提出的对比度增强色调映射方法略好，但在统计自然度和整体性能方面，提出的方法优于 Mantiuk 的方法。此外，表 II 中的标准差表明，所提出的对比度增强方法的每个质量得分往往接近平均质量得分。

使用所提出的对比度增强方法的色调映射结果获得了各种 HDR 图像的高分。请注意，这种趋势在图 1 和图 2 中清晰可见。如图 7 和 8 所示，与其他色调映射方法相比，所提出的对比度增强方法的色调映射 LDR 图像不仅保留了局部细节，而且显示出更好的视觉质量。

5. Conclusion

在本文中，我们介绍了一种新的基于人类视觉系统的不对称 S 型曲线 (ASC)，其中视网膜响应曲线具有不对称的形状。然后，我们提出了两个使用 ASC 的全局色调映射算子。第一个采用区域系统根据 HDR 图像确定映射曲线的曲率。第二个是通过使用 HDR 图像的亮度直方图制定双准则优化问题来增强色调映射 LDR 图像的全局对比度。由于可以以封闭形式计算该问题的最优解，因此它需要较低的计算复杂度。所提出的色调映射算子使用两种定量质量评估方法进行了评估，并显示出与先前方法相比的高性能。

Acknowledgements

这项工作得到了韩国政府 (MSIT) (2017-0-00250, Intelligent Defense Boundary Surveillance Technology Using Collaborative Reinforced Learning of Embedded Edge Camera and Image Analysis) 资助的信息和通信技术促进研究所 (IITP) 赠款的支持

【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
20.XLD轮廓 Echo`` Halcon系统化学习计算机视觉人工智能算法
目录1.xld概念2.画轮廓3.区域转轮廓4.边缘提取算子5.xld特征提取6.提取任意线条7.提取最长的线条8.xld分割10.xld合并11.xld拟合12.xld几何变换13.xld变换14.xld集合运算15.区域和轮廓精度16.轮廓的保存读取17.halcon操作CAD文件18.轮廓测量算子19.同心度计算1.xld概念*图像处理*1.处理对象HObject*1.图像-image*2.区
opencv-python与opencv-contrib-python的区别联系剑心缘零碎小知识 python opencv
opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。官网对contrib模块的简介（点击链接跳转）参考链接
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
Pillow 安装使用教程小奇JAVA面试安装使用教程 pillow microsoft 深度学习
一、Pillow简介Pillow是Python图像处理库PIL（PythonImagingLibrary）的友好分支，是图像处理的事实标准。它支持打开、编辑、转换、保存多种图像格式，常用于图像批量处理、验证码识别、缩略图生成等应用场景。二、安装Pillow2.1使用pip安装（推荐）pipinstallPillow2.2验证安装importPILprint(PIL.__version__)若无报错
Coze智能体开发：如何批量生成和处理图片王国平 Coze AI Agent智能体开发语言模型人工智能开发语言智能体 Agent
在绘本制作、图片后期制作等场景中，往往需要使用模型来批量生成和处理图片。扣子提供了多个图像处理类节点，支持图像生成、添加水印、画质优化等多种常见的图片处理方式，你可以在批处理节点中嵌套图像生成等图像处理节点，实现图片的批量操作。本文档以绘本制作工作流为例，演示如何通过批处理节点和图像节点实现图像的批量生成和批量处理。效果演示通过绘本制作工作流，你可以批量生成类似以下风格的图片。搭建过程中你也可以根
相机位姿估计：基于四个特征点的精准姿态解算童嘉航Denley
相机位姿估计：基于四个特征点的精准姿态解算【下载地址】相机位姿估计1根据四个特征点估计相机姿态随文Demo本资源文件提供了一个基于OpenCV的相机位姿估计Demo，主要功能是根据四个特征点来估计相机的姿态。通过该Demo，您可以学习如何使用OpenCV库中的相关函数来实现相机位姿的估计项目地址:https://gitcode.com/open-source-toolkit/df72a项目介绍在计
OpenCV教程——图像模糊。均值模糊，高斯模糊，中值模糊，双边模糊，高斯分布
1.图像模糊图像模糊是图像处理中最简单和常用的操作之一。⚠️使用该操作的原因之一是为了给图像预处理时降低噪声。图像模糊操作背后是数学的卷积计算。卷积操作的原理：常用的图像模糊的方法：均值模糊高斯模糊中值模糊双边模糊这四种模糊方式有时也被称为：均值滤波、高斯滤波、中值滤波和双边滤波。因为模糊属于一种滤波操作，具体关系可参照下图：其中，均值滤波、高斯滤波和中值滤波属于线性滤波；而双边滤波属于非线性滤波
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
二、OpenCV的第一个程序
文章目录一、第一个程序：显示图片1.1cv::imread1.2cv::namedWindow1.3cv::imshow二、第二个程序：视频2.1cv::VideoCapture三、加入了滑动条的基本浏览窗口一、第一个程序：显示图片示例：一个简单的加载并显示图像的OpenCV程序#include#include"./opencv2/opencv.hpp"intmain(){cv::Matimage
线性代数在图像处理中的应用 --- 纳尼? 2D的高斯核可以通过1D的高斯核直接生成？（秩为1的矩阵）松下J27 Linear Algebra 线性代数图像处理人工智能
二维高斯核，Rank秩等于一的矩阵之前，我在学习图像处理的时候，会经常用到Gaussianblur，也就是二维高斯低通滤波。当时用的都是Matlab中，现成的图像处理库。只需要输入sigma和kernelsize这些参数就行了，完全不需要考虑高斯核中的每个点长啥样。虽然教科书里面也会有一些配图，例如：直到后来，我学习高斯图像金字塔的时候发现，在别人的代码里面，他在生成二维高斯核的时候，并不是直接写
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Apple SoC 图像 ISP 与 Neural Engine 联合优化案例分析：性能与质量平衡的实战经验观熵影像技术全景图谱：架构调优与实战接口隔离原则影像 Camera
AppleSoC图像ISP与NeuralEngine联合优化案例分析：性能与质量平衡的实战经验关键词：AppleSoC、ISP优化、NeuralEngine协同、图像处理性能、DeepFusion、SmartHDR、实时推理、多核异构计算、功耗管理摘要：随着图像计算复杂度的不断提升，AppleSoC中的ISP与NeuralEngine（NE）联合优化成为提升拍照性能和图像质量的关键路径。本文结合最
Chapter6: ISP架构和处理模块-之-ISP模块 ifuleyou1668 Camera QC android
高通（Qualcomm）图像信号处理器（ISP）是摄像头系统中的核心组件，用于实时处理从摄像头传感器获取的图像数据。高通ISP包含多个模块，每个模块负责一部分图像处理任务。以下是高通CameraISP中常见的一些关键模块：1.RawDataInputInterfaceSensorInterface:接受来自摄像头传感器的原始数据，一般通过MIPICSI-2接口。2.LensShadingCorre
内嵌式触摸显示器在工业视觉设备中的应用 Jwest2021 计算机外设
内嵌式触摸显示器在工业视觉设备中的应用日益广泛，其重要性不容忽视。以下是对内嵌式触摸显示器在工业视觉设备中应用的具体分析：一、应用背景工业视觉设备是智能制造的重要组成部分，它依赖于先进的图像处理和机器视觉技术，实现对生产线上产品质量的自动化检测和控制。随着工业4.0和智能制造的推进，工业视觉设备在生产线上的作用愈发关键。而内嵌式触摸显示器作为人机交互的重要界面，为工业视觉设备提供了直观、便捷的操作
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
Ubuntu20.04切换源 dongdundun ubuntu linux 运维
一、ubuntu20.04系统重装二、工具安装1.更换Ubuntu源更换conda源更换pip源2.安装QQqq闪退卸载安装wine版QQ3.安装搜狗输入法及中文设置安装搜狗输入法中文设置4.安装vim5.安装google6.安装VsCode7.安装python3的opencv8.安装向日葵向日葵闪退9.ubuntu下识别不到U盘10.安装Typora11.安装百度网盘12.安装ceres库（优化
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
使用 C++/OpenCV 和 MFCC 构建双重认证智能门禁系统
使用C++/OpenCV和MFCC构建双重认证智能门禁系统引言随着物联网和人工智能技术的发展，智能门禁系统在安防领域的应用越来越广泛。相比于传统的钥匙、门禁卡或密码，生物识别技术（如人脸识别、指纹识别、虹膜识别等）提供了更高的安全性与便利性。然而，单一的生物识别方式在某些场景下可能存在安全隐患。例如，人脸识别可能被高清照片或视频欺骗（称为“欺骗攻击”），在光照、姿态变化剧烈时识别率也可能下降。为了
PHP接单涨薪系列（九）之计算机视觉实战：PHP+Stable Diffusion接单指南（2025高溢价秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI php 计算机视觉 stable diffusion
案例场景某电商公司使用本方案后，产品图制作成本降低90%，广告转化率提升35%，单月节省设计费用超¥80,000。本文将彻底解密如何用PHP+AI视觉技术接取高单价设计外包，让你在竞争激烈的市场中脱颖而出！一、视觉设计市场的AI革命1.1传统设计vsAI设计设计任务传统流程AI流程需求沟通初稿设计反复修改最终交付AI生成微调即时交付2025年设计市场数据对比：指标传统设计AI设计提升幅度单图制作时
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
用Python解锁图像处理之力：从基础到智能应用的深度探索熊猫钓鱼>_> python 图像处理开发语言
在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
纹理贴图算法研究论文综述点云SLAM 算法图形图像处理算法纹理贴图计算机图形学计算机视觉人工智能虚拟现实（VR）纹理贴图算法综述
纹理贴图（TextureMapping）是计算机图形学和计算机视觉中的核心技术，广泛应用于三维重建、游戏渲染、虚拟现实（VR）、增强现实（AR）等领域。对其算法的研究涵盖了纹理生成、映射、缝合、优化等多个方面。1.引言纹理贴图是指将二维图像纹理映射到三维几何表面上，以增强模型的视觉真实感。传统方法主要关注静态几何模型上的纹理生成与映射，而近年来，随着多视角图像重建、RGB-D扫描、神经渲染的发展，
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
数字图像处理学习笔记 andwhataboutit? 学习笔记
1-图像处理基础_哔哩哔哩_bilibili输出图像像素点需要将图象值要作类型转换，转成Int图像仿射变换线性变换+平移线性变换：1，变换前直线，变换后仍然直线2，直线比例不变3，直线到远点的距离不变仿射变换计算：常见变换：恒等变换：变换前后一致尺度变换：对尺寸作放大或缩小旋转变换：图像旋转但是尺寸不变平移：：位置移动尺寸不变偏移（垂直、水平）：垂直或者水平方向变化代码示例：importcv2im
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本