半岛铁子_

【图像修复】论文阅读笔记 ----- 《Image inpainting based on deep learning: A review》

文章目录

- 原文下载地址
- 概述
- **单阶段修复**
- - **单结果修复**
  - **多元修复方法**
- **渐进图像修复**
- - 低分辨率图像修复
  - 高分辨率图像修复
- 基于先验知识的修复
- - 轮廓边缘引导图像修复
  - 生成性先验引导图像修复
- 用于图像修复的数据集
- - **不规则掩模数据集：**
  - **图像修复数据集：**
- 分析
- **结论**

原文下载地址

原文下载链接1：https://www.sciencedirect.com/science/article/abs/pii/S0141938221000391

原文下载链接2：http://s.dic.cool/S/KSS4D4LC

概述

本篇论文综述发表于2021年。文章总结了基于深度学习的不同类型神经网络结构的修复方法，然后分析和研究了重要的技术改进机制；从模型网络结构和恢复方法等方面对各种算法进行了综合评述。并选择了一些有代表性的图像修复方法进行比较和分析。最后，总结了当前图像修复存在的问题，并展望了未来的发展趋势和研究方向。

当前的图像修复研究主要包括修复矩形块掩模、不规则掩模、目标移除、去噪、移除水印、移除文本、移除划痕和旧照片着色等任务。上述的八个图像修复的任务如下图所示：

传统的图像修复方法

基于补丁和基于扩散的方法，在2014年之前发展。

基于扩散的方法：将图像中受损孔洞周围的像素信息逐渐扩散，并合成新纹理来填充孔洞。

基于补丁的方法：寻找图像的可见区域中搜索最佳匹配的相似面片，然后复制信息以填充像素级的缺失区域。有时候可能在本图像中没有与缺失区域相似的内容，这就需要在现有图像库中搜索与目标受损图像语义相似的图像，然后选择合适的补丁信息进行移植和借用。

基于对抗生成网络的方法

论文将基于对抗生成网络的方法归纳为三类：单阶段修复、渐进图像修复和基于先验知识的修复。

单阶段修复

分为两类：单结果修复方法和多元修复。

单结果修复

(1) Context-encode

模型架构：

Pathak等人提出了一种名为上下文编码器的图像修复网络，该网络将基于上下文的像素预测驱动的无监督特征学习应用于大孔图像修复。总体架构是一个简单的编码器-解码器。编码器提取输入图像的特征表示，解码器逐步放大压缩的特征图，以恢复原始图像的大小。提出了一种基于步长1卷积的全连通层组跨信道传播信息方法，作为编码器和解码器之间的中间连接，以在每个特征映射的活动内传播信息。

上下文编码器采用重建丢失（L2）和对抗性丢失来处理上下文内的连续性和输出中的多个模式。重建损失负责捕获修复区域的整体结构以及与周围可见区域的一致性，对抗性损失使修复区域的预测看起来真实。

（2）Globally and Locally Consistent

模型架构：

该方法解决了上下文编码器的缺陷（处理固定的低分辨率图像，遮罩区域必须位于图像中心，整个区域无法与周围区域保持局部一致性）。

该网络使用两个辅助上下文鉴别器进行训练，其中全局鉴别器网络将整个图像作为输入，而局部鉴别器仅将完成区域周围的小区域作为输入，以分别确保恢复图像的全局和局部语义。扩展卷积用于完成网络的中间四层，以增加提取特征的感受野。

(3) Partial Convolutions

在使用标准卷积网络修复受损图像时，通常使用有效像素和缺失部分的平均值作为填充，这容易使大孔修复区域缺乏纹理信息，产生色差和模糊等伪影，严重影响视觉感觉。

Liu等人提出了部分卷积来解决上述问题。在掩模更新过程中，卷积结果取决于每层的非受损区域和对应于受损区域的二进制掩模，通过连续更新足够的层，最后只保留通过可见区域的像素卷积获得的特征。

(4) Pyramid-context Encoder

Zeng等人提出了金字塔上下文编码器网络（PEN网络），由金字塔上下文编码器、多尺度解码器和对抗性训练损失辅助训练，可以在图像级和特征级填充缺失区域，以提高图像修复能力。

主要的创新点：

引入注意力转移网络来学习受损区域和可见区域块之间的高级特征图中的相似性，然后根据块相似性权重将可见区域相关特征转换为低级别高分辨率特征图，以填充缺失内容，从而确保图像恢复的视觉和语义一致性。
提出了一种具有金字塔丢失和对抗性丢失深度监控的多尺度解码器。通过跳跃连接，将注意力转移网络学习到的相似特征和潜在特征一起解码以获得修复图像。

（5）PRVS (Progressive Reconstruction of Visual Structure)

PRVS（视觉结构的渐进重建）在部分卷积的基础上引入了视觉结构重建（VSR）层。编码器和解码器中分别部署了两个VSR层，以生成不同尺度的结构信息。

通过将结构信息逐步合并为特征，基于生成对抗网络输出合理的结构图像，并将转置卷积引入解码器采样层的原始部分卷积层，以解决现有模块部分卷积的局限性。在恢复图像的过程中，使用部分卷积和瓶颈块来恢复缺失区域中的一些边缘，然后将重建的边缘与带孔的输入图像相结合，通过填充语义有意义的内容来逐渐减小孔的大小，最终获得精细的图像修复结果。

**（6）Recurrent Feature Reasoning **

该方法使用相邻像素之间的相关性，增强了估计深像素的约束，重复推断卷积特征图的孔边界，然后将其用作进一步推理的线索。该模块不仅显著提高了网络性能，还绕过了渐进方法的一些限制，即网络的输入和输出需要在同一空间中表示。

提出了知识一致注意（KCA）模块，该模块可以自适应地组合来自不同循环过程的分数，并确保循环中的补丁交换过程之间的一致性，从而获得具有精美细节的更好结果。

(7) Mutual Encoder-Decoder

提出了一种用于结构和纹理联合恢复的互编码器-解码器CNN。使用来自编码器的深和浅CNN特征分别表示输入图像的结构和纹理。编码器深层特征传递到结构分支包含结构语义，而浅层特征传递到纹理分支包含纹理细节。

每个分支将使用CNN特征的多个尺度来填充空洞，连接两个分支的CNN特征，然后首先重新加权信道关注，并使用双边传播激活函数来实现不同CNN特征级别的空间均衡，解码器通过跳过连接生成修复图像。

多元修复方法

(1) Pluralistic Image Completion

在训练阶段，重建路径之一通过使用用于对抗训练的掩模区域的真实原始图像部分来重建整个原始图像，以获得缺失区域的先验分布。另一个生成路径通过使用先验分布来正则化编码器潜在向量所服从的分布，这相当于向编码器潜在向量添加附加约束。正是这种耦合设计策略使得生成路径能够获得个性化的完整图像。

在测试阶段，重建路径被丢弃，生成的路径可以利用有限的条件先验分布修复输入掩模图像，以获得多样化的高质量图像。

(2) UCTGAN

该网络由上下分支组成。主分支由分集映射模块和生成模块组成。主分支负责将实例图像空间映射到条件完成图像空间。次级分支在网络模型中充当条件标签，主要由条件编码器模块组成。在该模型中，通过输入不同的实例图像可以获得不同的修复图像，并且通过鉴别器评估和多个损失的综合评分排序可以返回具有最佳恢复效果的多个图像。

渐进图像修复

分为两类：低分辨率图像修复和高分辨率图像修复

低分辨率图像修复

**(1) Contextual Attention **

Yu等人提出了空间折扣重建损失，以提高大孔修复的视觉质量。它设计了一个从粗到细的两级网络架构，是一种前馈全卷积神经网络，没有批量归一化层。

网络分为两个阶段：

第一级中填充有白色像素的空穴及其相应大小的二进制掩模被用作第一级中的粗网络的输入对。在粗网络中还使用了扩展卷积，以有效地增加感受野大小，并使用重建损耗来稳定训练。

第二阶段中的细网络使用第一阶段中的粗预测作为输入，在精细网络阶段中对全局和局部输出使用改进的WGAN-GP损耗，以增强全局和局部一致性，并结合空间衰减重建损耗共同指导模型训练，从而学习比粗网络更精细的图像细节特征。细网络结构具有两个并行编码器。

上部编码器引入上下文注意层，并使用可见区域块作为卷积滤波器来处理生成的块，重点是提取感兴趣的背景区域。下部编码器通过扩展卷积来想象缺失区域的内容。在两个编码器的输出被聚合之后，它们被输入到解码器中以重构恢复的图像。

(2) Gated Convolution

门控卷积取代了网络中的传统卷积，更好地解决了将香草卷积中的所有输入视为合法像素的问题，为每个空间位置的每个信道提供了可学习的动态特征选择机制。组合的SN-patchGAN加速了模型训练，并且添加了用户引导，使得新方法能够产生比上下文注意更好的质量和更灵活的修复结果。

(3) Coherent Semantic Attention

Liu等人在粗略和精细阶段都使用了U-Net架构，并提出了一个一致语义注意（CSA）层，重点关注精细网络编码器第四层的空穴区域的语义相关性和特征连续性。

针对感知损失在图像修复中优化卷积层的能力有限的问题，这可能会误导CSA层的训练，引入一致性损失来解决编码和解码阶段相应层特征映射之间的一致性。并引入了与70×70面片鉴别器相结合的特征面片鉴识器，以加速和稳定模型对抗训练，从而使细化网络合成更多的平均高频细节。

**(4) PEPSI **

PEPSI采用了由共享编码网络和具有粗路径和修复路径的并行解码网络组成的结构，可以减少卷积运算的数量，并在很大程度上解决了粗和细网络图像修复占用计算机资源高的问题。改进了传统的上下文注意模块（CAM）。使用欧几里得距离代替余弦相似度来计算前景块和背景块的相似度分数。引入区域集成鉴别器（RED）分别处理多个特征区域，以解决实际场景中可以处理任意位置、形状和大小的不规则孔洞。

高分辨率图像修复

(1) Contextual Residual Aggregation

Yi 等人所提出的上下文残差聚合机制和在多个抽象级别上使用注意力转移通过融合薄型和深层配置、轻量级门控卷积（LWC）和低层卷积来提高修复质量，注意分数共享等技术设计了一种用于不规则孔洞填充的轻量级模型，可以在不占用大量计算能力的情况下对高分辨率图像进行推理和修复。

(2) Iterative Confidence Feedback and Guided Upsampling

修复过程分为两个阶段。在第一阶段，通过使用从粗到细的级联网络结构获得低分辨率图像的粗修复结果。然后，在细修复阶段，引入修复结果的置信图，以辅助对不满意区域的迭代校正，从而获得细修复结果。第二阶段使用引导修复上采样网络，以在给定第一阶段LR修复结果的情况下生成HR修复图像。引导上采样网络由两个浅层网络组成，一个用于通过patchGAN鉴别器学习块相似性，另一个用于图像重建。

基于先验知识的修复

分为两类：轮廓边缘引导图像修复和生成性先验引导图像修复

轮廓边缘引导图像修复

(1) FAII

FAII（前景感知图像修复）是一种前景感知图像修补模型。如图8所示，该模型首先采用DeepCut检测图像中的前景对象，然后使用边缘检测器提取前景轮廓，然后应用粗和细网络来完成轮廓，最后将完成的轮廓和不完整的图像一起发送到另一个粗和细的网络，最终获得优异的修复结果。

该方法的创新之处在于将图像结构推理和内容完成过程解耦，获得目标物体的自然轮廓，然后将完成的轮廓作为不完整图像的先验引导。提出并验证了使用结构先验来明确指导图像修复任务是一个非常有意义的研究方向。

**(2) EdgeConnect **

该方法分为图像边缘检测和图像完成两个阶段。掩模、带掩模原始图像的灰度图像和边缘图像是边缘生成器的输入，用于预测完整的边缘图。将边缘映射作为先验知识，将带掩模的原始图像作为图像完成网络的输入，得到修复后的图像。

EdgeConnect方法的修复结果：

EdgeConnect使用边缘生成器在丢失区域中生成粗略轮廓，并为第二阶段图像完成网络提供图像结构的先验信息。图像完成网络只需要结合先验模糊结构来填充和修复细节，从而获得结构和纹理良好的互补图像，这是网络的创新。如何在第一阶段生成丢失区域的合理边缘将是该方法未来需要解决的问题。

生成性先验引导图像修复

(1) PGG

在PGG（先验引导GAN）中，从训练的离线参数模型中提取与预测噪声相对应的最佳匹配受损图像作为噪声先验，发送到生成模型以重建自然图像。通过添加目标图像结构的先验来正则化网络。然后提出了一种递归网络来帮助序列化重建，并将该模型进一步扩展到高像素图像修复和视频恢复。

其中，图像修复被视为感知目标图像的最佳匹配潜代码的先验，并从新的角度进行深度学习图像修复，这不同于直接在受损图像上训练深度编码器-解码器驱动器的修复方法。

(2) DGP

DGP（深度生成先验）利用预先在大规模自然图像上训练的生成性对抗网络，捕获丰富的图像语义信息作为先验，其可以获得比单个图像更丰富的先验，包括颜色、空间一致性、纹理、高级语义等。通过使用鉴别器获得的特征距离进行正则化测量和生成器的渐进微调策略，DGP更好地保留了GAN学习的图像统计信息，从而提供更丰富的恢复和处理效果

在许多图像处理任务中，如图像着色、图像完成和超分辨率重建，都可以获得出色且令人信服的修复结果。

用于图像修复的数据集

目前，由于很难收集大量成对的真实受损图像，所以科研人员在进行图像修复实验时往往选择合适的图像数据集，然后在原始数据中添加相应的掩模。最广泛使用的掩模主要包括矩形孔和不规则掩模。

不规则掩模数据集：

论文 -：

Guilin Liu, Fitsum A. Reda, Kevin J. Shih, Ting-Chun Wang, Andrew Tao, Bryan Catanzaro, Image inpainting for irregular holes using partial convolutions, in: Proc. ECCV, 2018. 3, 4, 6, 7, 85–100.

中使用的是当前最常用的掩膜数据集。包含12000个掩模和总共六个不同的孔图面积比，每个类别包含1000个具有边界约束的掩模（孔确保距离边界至少50个像素）和1000个不具有边界约束。

部分掩膜样本如下图所示：

其中，左边的两个是带有边界限制的，右边两个是没有边界限制的，针对这两类也有相关的研究，没有边界限制的图像修复起来更为困难。

图像修复数据集：

还有之前看过的一篇图像修复的综述里总结的数据集，更为全面：

对于这些数据的下载可以到：https://paperswithcode.com/ 去下载

分析

从最近几年的图像修复的研究成果看：

（1）在网络选择方面，基于卷积神经网络的图像修复方法仍然是深度学习图像修复应用研究的主流方法。

（2）生成网络主要包括VAE和GAN，两者各有优缺点。基于VAE的图像修复方法的训练通常更稳定，生成结果容易模糊。基于GAN的图像修复方法可以提高图像修复生成的质量，但难以训练。因此，基于VAE和GAN结合的图像修复方法可以更好地平衡这两种方法的缺点。

（3）目前，虽然通过增加网络的宽度和深度可以更好地拟合数据特征。然而，盲目扩大网络的深度和宽度将导致模型参数爆炸和训练困难。因此，当前的图像修复网络模型一方面采用薄而深的网络结构来减少和控制参数的数量，另一方面将辅助多尺度特征层或跳跃连接残差结构来帮助解决梯度消失问题。

（4）在图像修复任务中，传统卷积通常将所有输入像素视为有效像素，这容易导致颜色差异和模糊等伪影。因此，引入部分卷积或门控卷积可以在一定程度上缓解这一问题，因此基于卷积的改进也是图像修复领域可行的突破方向。

（5）当使用粗到细的网络模型进行渐进图像修复时，容易遇到网络模型过于复杂的问题。因此，研究如何有效地重用编码器和解码器的特定网络层来控制模型参数的数量，从而提高模型的训练效率是一个有意义的尝试。例如，粗路径和细路径共享它们的权重以相互改进，并且它们在PEPSI中使用相同的编码器。

（6）在修复严重受损的非结构化复杂纹理对象时，多元修复可以提供多种合理的修复结果。生成多种合理的结果可满足不同情况下的需求选择。

（7）对于高分辨率图像的修复：由于在直接修复高分辨率图像时会占用更多资源的限制。因此，当前主流的高分辨率图像修复方法将首先修复通过对原始图像进行下采样获得的低分辨率图像。然后，对修复区域进行上采样或使用超分辨率重建的清晰度技术获得原始图像尺寸级别的修复区域，最后替换相应的受损区域，从而间接完成高分辨率图像修复任务。

（8）与纯数据驱动的深度学习图像修复方法相比，通过添加推理图像轮廓模块或结构先验的修复方法可以充分利用可见区域的先验知识进行更精确的纹理推理。因此，基于先验知识的复杂纹理图像修复在应用于特定场景时将是一项非常有意义的研究工作。

对于相关数据集的一些定量比较：

CelebA HQ人脸数据集上最先进方法的定量比较，是基于中心的矩形区域进行的修复：

结论

虽然图像修复近几年取得了重大的进展，但是仍有部分工作未解决，主要如下：

（1）当前的图像修复方法在处理规则结构数据、小孔修复和低分辨率图像修复时可以获得更好的修复效果。如何提高复杂纹理、大孔洞和高分辨率图像的修复效果？

（2）网络选择和设计、基于GAN网络的图像修复、自动编码器以及两者的结合是目前主要的基本框架。如何将其他深度学习模型应用于图像修复是值得探索的。

一般来说，网络结构越深，重建和修复效果越好，但也会导致训练和收敛困难等问题。如何平衡网络的复杂性与恢复图像的质量之间的矛盾是需要进一步研究的问题。

（3）如何在具体应用中更有效地结合领域知识、先验知识和深度学习框架，提高现有基于深度学习的图像恢复性能是一个值得探索的方向。如果能够充分利用领域和先验知识来指导深度学习模型，不仅可以提取丰富上下文信息的高级语义特征，进而学习受损图像和修复图像之间更复杂的映射关系，而且可以确保这种映射关系的合理性，从而进一步提高基于深度学习的图像修复模型的重建性能和可解释性。

（4）在视频流图像修复中，目前基于深度学习的图像修复方法得益于卷积神经网络良好的空间特征提取能力，大多采用深度卷积神经网构建网络层。递归神经网络能够在数据的时间序列特征层挖掘语义信息，在语音和自然语言处理领域有着良好的应用。如何有效地结合两种神经网络（卷积神经网络（CNN）和递归神经网络（RNN））来处理视频流图像修复将是一个非常有意义的研究方向。

Postman + Newman + Jenkins 接口自动化测试 Thomas Kant 自动化测试 postman newman jenkins allure
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Postman
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
论“人工智能生命体”站在那个高度？（之二）中國龍在廣州人工智能-智能体-具身智能人工智能
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
大模型开源王炸！Kimi K2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容 transformer chatgpt 深度学习 lstm kimi Agent AIGC
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十七开源王炸！KimiK2凭万亿参数撕开大模型天花板：代码、Agent、推理全碾压，32家企业疯抢接入一、架构
Prompt：开启与AI高效对话的钥匙
解密Prompt：开启与AI高效对话的钥匙一、什么是Prompt？——AI的“使用说明书”想象一下，你正在指挥一位无所不知但毫无主动性的“实习生”——人工智能（AI）。你不能指望它“心领神会”，你必须给出清晰、具体的指令，它才能准确地完成你想要的任务。这个指令，就是Prompt（提示或提示词）。简单来说，Prompt是你向AI（如大型语言模型LLM）发出的文本或问题，用以引导它生成特定的、高质量的
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
使用 C++ 和 OpenCV 进行表面划痕检测 whoarethenext c++opencv 开发语言划痕检测
使用C++和OpenCV进行表面划痕检测在工业自动化生产中，产品表面的质量控制至关重要。划痕作为一种常见的表面缺陷，其检测是许多领域（如金属、玻璃、塑料制造）质量保证流程中的一个关键环节。本文将介绍如何使用C++和强大的计算机视觉库OpenCV来实现一个基本的表面划痕检测算法。核心思路划痕通常在图像中表现为具有以下一个或多个特征的区域：高对比度的线性结构：划痕区域的像素强度通常会与其周围背景有明显
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域多模态大模型的发展历程回顾 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
AI人工智能领域多模态大模型的发展历程回顾关键词：AI人工智能、多模态大模型、发展历程、技术演变、应用场景摘要：本文旨在全面回顾AI人工智能领域多模态大模型的发展历程。通过对不同阶段核心概念、算法原理、数学模型等方面的深入剖析，结合实际项目案例，探讨其在各个领域的应用场景。同时，推荐相关的学习资源、开发工具和重要论文著作，最后总结多模态大模型的未来发展趋势与挑战，并对常见问题进行解答。1.背景介绍
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
深度剖析AI人工智能领域多模态大模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
深度剖析AI人工智能领域多模态大模型关键词：AI人工智能、多模态大模型、模型架构、算法原理、应用场景摘要：本文旨在对AI人工智能领域的多模态大模型进行深度剖析。首先介绍多模态大模型的背景知识，包括目的、预期读者等。接着阐述核心概念，分析其架构和原理，并给出相应的流程图。通过Python代码详细讲解核心算法原理和具体操作步骤，同时用数学模型和公式进一步阐释。在项目实战部分，给出实际案例及详细代码解读
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
探索AI人工智能领域Actor - Critic的无限潜力
探索AI人工智能领域Actor-Critic的无限潜力关键词：AI人工智能、Actor-Critic、强化学习、策略网络、价值网络摘要：本文将深入探索AI人工智能领域中Actor-Critic方法的无限潜力。我们会先介绍其背景知识，接着用通俗易懂的方式解释核心概念，包括Actor和Critic的含义及它们之间的关系，然后阐述其核心算法原理和具体操作步骤，还会给出数学模型和公式并举例说明。通过项目实
ROS2 通过相机确定物品坐标位置
要实现通过相机确定物品坐标位置，通常需要相机标定、物体检测和坐标转换几个步骤。下面我将提供一个完整的解决方案，包括相机标定、物体检测和3D坐标估计。1.系统架构相机标定-获取相机内参和畸变系数物体检测-使用OpenCV或深度学习模型检测物品坐标转换-将2D图像坐标转换为3D世界坐标ROS2集成-将上述功能集成到ROS2节点中2.实现步骤2.1创建功能包bashros2pkgcreateobject
AI人工智能领域多模态大模型的技术瓶颈与解决方案 AI学长带你学AI 人工智能 ai
AI人工智能领域多模态大模型的技术瓶颈与解决方案关键词：多模态大模型、技术瓶颈、跨模态对齐、计算效率、数据稀缺、模型泛化、解决方案摘要：本文深入探讨了AI人工智能领域多模态大模型发展过程中面临的主要技术瓶颈，包括跨模态对齐困难、计算资源消耗巨大、高质量多模态数据稀缺、模型泛化能力不足等问题。针对这些挑战，我们提出了系统性的解决方案，涵盖算法优化、架构创新、数据增强等多个维度。文章通过理论分析、数学
【杂谈】-人工智能：从无序部署到可问责治理的转型之路
人工智能：从无序部署到可问责治理的转型之路文章目录人工智能：从无序部署到可问责治理的转型之路1、失控的人工智能与“漂移”现象的潜在危机2、穿透迷雾：探寻人工智能治理的真谛3、民主化进程中的治理觉醒4、迈向未来：构建可问责的人工智能生态体系5、抉择时刻：关乎人工智能发展走向的关键权衡人工智能已然步入一个关键的转折阶段。当下，众多企业竞相投身于各类人工智能系统的部署浪潮之中，从功能多样的生成式人工智能
从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 chatgpt AIGC 神经网络 python 大模型思维链
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列十六从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？引言：当AI从“快
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
基于深度学习的和平精英（吃鸡）内置锁头训练摆烂仙君深度学习人工智能
前言本教程以和平精英为例，主要讲解如何构建深度学习模型对游戏中角色进行头部标注，并控制鼠标对其进行锁定射击，同时围绕其游戏防作弊系统进行算法攻防讲解，该方案对于csgo,cf等游戏也同样适用。请注意，该教程仅供娱乐教学，若本教程评论超过100，将会开源相关代码并对实际的代码部署进行进一步分析。一、和平精英伤害机制分析在《刺激战场》（现为《和平精英》）中，击中头部的伤害远高于身体其他部位，这是由游戏
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
迁移学习让深度学习更容易城市中迷途小书童
摘要：一文读懂迁移学习及其对深度学习发展的影响！深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点，使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏，检测癌症，和人类交谈，自动驾驶。深度学习变得强大的同时也需要很大的代价。进行深度学习需要大量的数据、昂贵的硬件、甚至更昂贵的精英工程人才。在ClouderaFastForward实验室，我们
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置