浅若清风cyf

论文笔记：U2Fusion A Unified Unsupervised ImageFusion Network（2020 TPAMI）

U2Fusion: A Unified Unsupervised Image Fusion Network

【引用格式】：

Xu H , Ma J , Jiang J , et al. U2Fusion: A Unified Unsupervised Image Fusion Network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
【论文网址】：https://ieeexplore.ieee.org/document/9151265/citations
【开源代码】：https://github.com/hanna-xu/U2Fusion
【开源数据集】VIS-IR数据集RoadScene：https://github.com/hanna-xu/RoadScene

一、瓶颈问题：

1、如何在无ground truth和通用参考指标情况下构建统一的图像融合模型？

传统的融合框架、融合规则的有限选择和手工设计的复杂性限制了性能的提高。在端到端模型中，融合问题通过依赖监督学习的ground truth或专门设计的无监督学习度量来解决。然而，不存在多个任务的通用基本事实或无参考指标。然而，不存在多个任务的通用基本事实或无参考指标。这些问题是构建统一模型和有监督或无监督学习应用的主要障碍。

2、对于不同场景的图像，如何有效保留不同图像的重要信息，从而构建泛化性良好的模型？

不同的融合任务往往有着相同的目标，即通过整合来自多个源图像的重要和互补信息来合成一幅图像。然而，在不同的任务中，由于源图像的类型不同，需要整合的重要信息也有很大差异，因此大多数方法的有效性仅限于特定任务。

3、其他动机：聚合多个任务的优势，可以获得更好的融合结果

通过在统一的模型中解决不同的融合问题，这些任务可以相互促进。例如，已被训练用于多曝光图像融合的统一模型，它能够改善多模态或多聚焦图像中曝光不足/曝光过度区域的融合性能。因此，通过整合多个任务的优势，统一模型可以获得更好的结果，每个单一的融合任务比多个单独训练的模型具有更强的泛化能力。

二、本文贡献：

1、为各种图像融合任务提出了一个统一的框架。

更具体地说，我们用统一的模型和统一的参数来解决不同的函数问题。我们的解决方案缓解了以往方法的缺点，例如对不同的问题需要采取单独的解决方案，用于训练的存储和计算问题，以及用于持续学习的灾难性遗忘。

2、提出了一种新的无监督图像融合网络

通过约束融合图像与源图像之间的相似性，提出了一种新的无监督图像融合网络，克服了大多数图像融合问题中的普遍障碍，即缺乏普遍的ground truth和无参考度量。

3、发布了一个新的红外和可见光图像数据集RoadScene

4、实验

在多模式、多曝光和多聚焦图像融合的六个数据集上测试了所提出的方法。定性和定量结果验证了U2Fusion的有效性和通用性。

三、解决方案：

提出了一个统一的无监督图像融合网络，称为U2Fusion。

关键点：
- ① 特征提取器：从源图像中提取丰富而全面的特征
- ② 确定特征重要性：通过测量特征中信息的丰富程度，确定这些特征的相对重要性。更高的相似性意味着在结果中保留了源图像中更多的信息，从而具有更高的信息保留程度。

1、问题定义

思想： 通过度量图像的信息丰富程度，来表征源图像与融合图像的相似度，信息越丰富，则这张源图像越重要。

关键问题： ①寻找一种统一的信息度量方法来决定源图像的信息保留程度；②如何解决不同类型的源图像的重要信息差异问题？

解决方法： 综合考虑源图像的多因素特性来解决——提取浅层特征（纹理、局部形状等）和深层特征（内容、空间结构等）来估计信息度量。

流程图：

上方：输入的源图像I1，I2，使用已训练的DenseNet生成融合图像If

下方：使用VGG模型对源图像进行特征提取得到5个层次的特征图（max-pooling前）；使用特征图对源图像进行信息度量，得到两个数值gI1，gI2；之后得到最终的信息保留水平w1，w2.

特征提取

使用预训练的VGG16特征提取得到5个层次的特征，通过综合各个层次的特征能够更好反应人类视觉感知情况。（浅层特征包含纹理、形状细节信息，深层特征包含内容和空间结构信息）

信息度量

基于特征图的梯度信息进行信息度量。图像梯度是一种基于局部空间结构的度量，具有较小的感受野。

其中：

表示第j个max-pooling前面的特征

k表示特征图的第k个通道

▽表示拉普拉斯算子（二阶微分算子）

F-范数：
信息保留水平

基于信息度量结果计算得到两个自适应权重ω1，ω2，度量两张源图像分别与融合图像的相似性。损失函数采用ω1和ω2来控制特定源图像的信息保存程度。

Softmax将权重映射到0~1之间

预定义常数c用于缩放（gI1和gI2数值较小，差异小），以便更好地分配权重。

2、设计损失函数

① 相似性约束（similarity constraint (SIM)）：结构相似、强度分布

A） structural similarity index measure (SSIM)：根据亮度、对比度和结构等信息的相似性来模拟失真

其中，Sx，y表示两个图像之间的SSIM值

B） mean square error(MSE)：由于SSIM对强度分布差异的约束较弱，因此引入均方误差（MSE）来约束强度分布。

通过约束MSE获得的结果会出现相对模糊的外观，而SSIM可以弥补这个问题。因此，这两项能够相互补偿。

②弹性权重合并（Elastic Weight Consolidation (EWC)）

**背景：**不同的融合任务通常会导致特征提取、融合的差异，这直接反映在DenseNet参数的不同值上。我们希望用统一的参数训练一个单一的模型，将这些模型集成在一起，从而适用于多个任务。

实现的两类方法： 联合训练、顺序训练

当任务数量增加时，联合训练会出现：存储问题、计算问题

顺序训练的问题：灾难性遗忘问题。（在新任务上优化参数的过程中会导致失去之前学习到的能力）

3、解决灾难性遗忘问题的方法：EWC

思想： 先前任务的重要参数赋予更大权重，使得在后续模型优化过程变化较小，而冗余参数赋予较小权重，用于后续任务的优化，在后续训练中变化较大。

其中，θ*为先前任务的参数，θ为当前任务的参数

为了评估重要性，将μi指定为费舍尔信息矩阵的对角项，并通过计算与先前任务中定义如下的数据的梯度平方来近似。

如果存在多个先前任务，Lewc（θ，D）将根据特定任务和相应数据进行调整。然后，对这些梯度的平方进行平均，得到最终μi。图7展示了训练过程和数据流。

多任务训练过程：

细线的数据流表示用于计算μi

4、网络架构

每一层的特征图均为44通道

有研究已经证明，如果在靠近输入层和靠近输出层之间建立较短的连接，CNN可以显著地更深入和有效地训练。因此，在前七层中，使用密集连接CNN的密集连接块来改善信息流和性能。这些层中，以前馈的方式从通道维度对特征图进行串联，可以减少渐变消失的问题。同时，可以在减少参数数量的同时进一步加强特征传播。后面的四层逐渐减少特征映射的通道，直到生成单通道融合结果

5、RGB转YCrCb

由于图像的结构细节主要在亮度（Y）通道中，且亮度变化比色度通道更加显著，因此，将亮度通道采用上述方法进行融合。Cb和Cr（色度）通道采用传统方法进行融合。

6、获得融合结果图像

将YCrCb空间中各通道的融合结果通过逆变换转换为RGB颜色空间

7、多张源图像输入情况

在多曝光/多聚焦图像融合任务中，输入的源图像往往不止2张，这种情况下可以先选取两张图像进行融合，之后将融合结果与第三张图像融合，依次类推。

四、实验结果：

1、实验设置

融合任务：3类

①multi-modal（VIS-IR and medical image (PET-MRI)）、②multi-exposure、③multi-focus

数据集：6个
训练集：
- 任务1：多模态图像融合：RoadScene1 (VIS-IR)【自制、开源】 and Harvard2 (PET-MRI)
- 任务2：多曝光图像融合：SICE
- 任务3：多聚焦图像融合：Lytro
测试集：
- 任务1：VIS-IR图像融合：TNO
- 任务2：多曝光图像融合：EMPA HDR

2、模型训练

源图像切片：64×64
α= 20
λ= 8e4
c = 3e3, 3.5e3, 1e2
epochs = 3,2,2
learning rate = 1e-4
optimizer: RMSPropOptimizer

3、Visible and Infrared Image Fusion

对比方法：HMSD, GTF, DenseFuse, FusionGAN，DDcGAN

数据集：TNO and RoadScene datasets

定性评估：

① U2Fusion保留了更多细节

② U2Fusion还用于融合道路场景中的可见光（RGB）和灰度红外图像。由于融合过程仅在Y通道上执行，因此融合结果更像由红外图像增强的VIS图像，以获得更好的场景表示。

定量评估：

评估指标：

correlation coefficient (CC)：测量源图像和结果之间的线性相关度

structural similarity index measure (SSIM)

peak signal-to-noise ratio (PSNR)：评估融合过程造成的失真

sum of the correlations of differences(SCD)：量化了融合图像的质量。

结果： 前三个指标取得第一名，SCD取得第二名。表明U2Fusion可以实现源图像的高保真度，减少失真、噪声或伪影。

4、Medical Image Fusion

对比方法： RPCNN, CNN, PA-PCNN, NSC

数据集： Harvard dataset

定性评估： U2Fusion在几乎不损失功能（颜色）信息的前提下，具有更多的结构（纹理）信息。

定量评估： 使用VIS-IR图像融合相同的四个指标进行对比，在CC、SSIM和PSNR上的最佳结果表明，U2Fusion与源图像具有较高的相关性和相似性，并且不会产生失真/噪声。在SCD上取得了次优结果。

5、Multi-exposure Image Fusion

对比方法： GFF, DSIFT, GBM, Deepfuse, FLER

数据集： SICE、EMPA HDR dataset

定性评估：

① 在U2Fusion中，GFF、DSIFT和FLER中的局部暗区得到了改善。

② 与GBM和Deepfuse相比，U2Fusion的结果更加丰富，细节更清晰，对比度更高，提供了更好的细节表现。

定量评估：

edge intensity (EI)：EI反映了边缘点的梯度幅值

使用SSIM、PSNR、CC、EI进行评估，结果表明U2Fusion的融合图像与源图像的相似性和相关性较高，失真较小，梯度幅度较大。

（部分指标取得最优结果，其他指标接近最优）

6、Multi-focus Image Fusion

对比方法： DSIFT, GBM, CNN, GFDF, SESF-Fuse

数据集： Lytro dataset

定性评估：

① U2Fusion方法缓解了其他方法在聚焦和散焦边界处的模糊问题

② U2Fusion在更大程度上保留了细节信息。

定量评估：

评估指标：

visual information fidelity (VIF)：通过计算源图像和融合结果之间的失真来测量信息保真度。

mean gradient (MG)：MG越大，图像包含的梯度越多，融合性能越好。

使用EI, CC, VIF, MG进行评估，EI的最佳结果和MG的次优结果表明，U2Fusion的结果中有更多的梯度，以获得更清晰的外观。CC上的最佳结果和VIF上的最佳结果表明，U2Fusion与源图像保持了最高的线性相关性，并实现了相当的信息保真度。

7、ABLATION EXPERIMENTS

① EWC

i) the similarity loss

结果： 在训练任务2时，有无使用EWC效果差不多；在训练任务3时，无EWC的模型任务2的验证集的损失明显增加，说明模型对任务2的性能下降，而有EWC的模型仍然保持稳定状态。

结论： 通过应用EWC，我们可以获得适用于这些任务的单一模型

ii) statistical distributions of μi

μi是由每个任务训练后的相似性损失和相应的数据集计算得出。μ越大说明前一个任务的θ越重要，越小说明对应的θ是冗余的。（个人理解：μ的分布一定程度上反映了前后两个任务的模型参数之间的关系。）

结果： 无EWC下，三个任务的分布差异不明显；而有EWC下，较大的μ显著增加，表明网络存在更多对前后两个任务都比较重要的参数，较小的μ显著减少，表明网络的冗余度在降低。

结论： 越来越多的参数在提高融合性能方面发挥着重要作用。

iii) intermediate fusion results during the training phase

结果： 在未训练任务3时，任务3的融合结果出现比较明显的边界模糊现象，训练任务3之后，任务3的融合结果得到锐化。在任务3训练后，无EWC的任务2融合结果性能下降（出现过暗现象），而有EWC的任务2仍表现良好。

②不同任务之间相互促进的统一模型

背景： 在U2Fusion中，我们使用EWC不断地从新任务中学习。这样，统一模型就能够使用多种类型的源图像。因此，使用统一的参数，通过U2Fusion从单个任务中学习到的信息可以促进其他任务。

方法： 为每个任务创建了一个单独的模型，将结果与U2Fusion进行对比。

结果： U2Fusion能改善多聚焦和多模态图像融合中的一些亮度过曝区域的效果；能够改善多曝光图像融合任务中的多聚焦区域，得到更加清晰、锐利的边缘。

结论： 通过收集多个任务的强度，U2Fusion不仅对多种类型的源图像，而且对同一类型的源图像中的多种类型的区域具有很强的泛化能力。因此，一个统一的模型可以实现不同融合任务的相互促进。

③关于自适应信息保存度的消融研究

方法： 将ω1和ω2固定为0.5，与U2Fusion结果对比

结果：

在多模态图像融合中，没有自适应信息保留度的结果显示出更差的细节表示，如云的边缘、吉普车的纹理、网络的细节和结构信息。
在多曝光图像融合中，过度曝光区域的差异非常明显。如果没有自适应度，这些区域看起来仍然过度曝光，例如花朵、窗户和太阳。这种现象在多聚焦图像融合的结果中最为明显。
当ω1和ω2直接设置为0.5时，网络无法区分聚焦区域和散焦区域。因此，结果出现了模糊的边缘，而U2Fusion生成更清晰的外观。

④ 训练顺序的影响

方法： 三种训练顺序进行对比

定性评估：

多模态、多曝光图像融合训练顺序的交换对多聚焦图像的融合影响不大。
将多聚焦图像融合作为任务1的融合图像表现得比较模糊。

定量评估：（两个指标：correlation coefficient (CC)和meangradient (MG)）

最后一行的MG指标都下降，同样反映出融合结果的清晰程度降低。

结论： 多模态和多曝光图像融合的训练顺序对融合结果影响不大，而多聚焦的训练顺序对融合结果影响相对显著。最佳性能顺序：多模态→多曝光→多聚焦

⑤*U2Fusion vs. FusionDN（本文方法的初版）

改进1： 信息保存度分配策略效果：保留了源图像中更多的细节

改进2： 损失函数效果：融合的强度更接近于源图像

改进3： 训练任务效果：边缘和纹理改善

深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

论文笔记：U2Fusion A Unified Unsupervised ImageFusion Network（2020 TPAMI）

U2Fusion: A Unified Unsupervised Image Fusion Network

一、瓶颈问题：

1、如何在无ground truth和通用参考指标情况下构建统一的图像融合模型？

2、对于不同场景的图像，如何有效保留不同图像的重要信息，从而构建泛化性良好的模型？

3、其他动机：聚合多个任务的优势，可以获得更好的融合结果

二、 本文贡献：

1、为各种图像融合任务提出了一个统一的框架。

2、提出了一种新的无监督图像融合网络

3、发布了一个新的红外和可见光图像数据集RoadScene

4、实验

三、 解决方案：

1、问题定义

2、设计损失函数

3、解决灾难性遗忘问题的方法：EWC

4、网络架构

5、RGB转YCrCb

6、获得融合结果图像

7、多张源图像输入情况

四、 实验结果：

1、实验设置

2、模型训练

3、Visible and Infrared Image Fusion

4、Medical Image Fusion

5、Multi-exposure Image Fusion

6、Multi-focus Image Fusion

7、ABLATION EXPERIMENTS

你可能感兴趣的:(计算机视觉,论文笔记,计算机视觉,人工智能,深度学习)

二、本文贡献：

三、解决方案：

四、实验结果：