清楓

低光照图像增强《Deep Retinex Decomposition for Low-Light Enhancement》论文笔记

论文链接— Github链接— 项目主页

1 原理

经典Retinex将图像分解为反射率 $R$ 和照明度 $I$ 。 $S$ 表示源图像，则表示为：
$S=R\circ I\tag{1}$

$R$ 代表反射率，描述了捕获物体的内在属性，它被认为在任何光照（ $I$ ）条件下都是一致的
$I$ 代表照明度(亮度)，代表各种物体上的亮度，在低光照图像上，它通常会受到黑暗和不平衡的照明分布影响
$\circ$ 代表元素间的叠加

本文所提照度、照明、照明度、照度图、照明图可理解为一个意思，即 $I$ ，都反映物体上的亮度

2 步骤

2.1 分解（Decomposition）

Retinex-Net通过Decom-Net将输入图像 $S_{normal}$ 和 $S_{low}$ 分别分解为R和I。在训练阶段输入 $S_{normal}$ 和 $S_{low}$ ，而在测试阶段只输入 $S_{low}$ 。在低照明度/正常照明度图像具有相同的反射率和照明平滑度的限制下，Decom-Net以一种数据驱动的方式学习到图像在不同照明度下具有一致性的R。

2.2 调整（Adjustment）

Enhance-Net被用来提高 $I_{low}$ 的照明度，基于编解码框架。一个多尺度的串联被用来保持大区域内照明度与上下文信息的全局一致性，同时集中注意力调整局部分布。此外，在低照明条件下经常产生的放大的噪声将从反射率 $R_{low}$ 中去除。

2.3 重建（Reconstruction）

在重建阶段将调整后的照明度 $\hat{I}_{low}$ 和反射率 $\hat{R}_{low}$ 按元素相乘法结合起来。

3 步骤详解

3.1 数据驱动的图像分解

在训练阶段，Decom-Net每次接收成对的低照明度/正常照明度图像。在低照明度和正常照明度图像具有相同反射率的指导下，学习低照明度和正常照明度的图像分解。训练时不需要提供真实的反射率和照明度。只需要知道反射率一致性和照明平滑度作为损失函数嵌入网络。因此，网络分解是自动从成对的低照明度/正常照明度图像中学习的，并且在本质上描述适合不同光照条件下的照明变化。

这个问题只是在形式上找到一个良好的代表来进行光线调整，不需要准确的获得实际的内在图像。因此，我们让网络学习在低照明度图像和其相应的增强结果之间找到一致的成分。

Decom-Net首先设置一个3×3的卷积层从输入图像 $S_{low}$ 和 $S_{normal}$ 中提取特征。然后，使用几个3×3的配有ReLU激活函数的卷积层，将RGB图像映射为反射率 $R$ 和照明度 $I$ 。最后，一个3×3的卷积层从特征空间映射出 $R$ 和 $I$ ，并用sigmoid激活函数将 $R$ 和 $I$ 约束在 [0,1] 内。

损失 $L$ 由重建损失 $L_{recon}$ 、不变反射率损失 $L_{ir}$ 和照明平滑度损失 $L_{is}$ 组成：
$L=L_{recon}+\lambda_{ir}L_{ir}+\lambda_{is}L_{is}\tag{2}$
其中 $\lambda_{ir}$ 和 $\lambda_{is}$ 表示平衡反射率一致性的照明平滑度的系数。

基于 $R_{low}$ 和 $R_{normal}$ 都能用相应的照明图 $I_{low}$ 和 $I_{normal}$ 重建图像的假设，重建损失 $L_{recon}$ 表示为：
$L_{recon}=\sum_{i=low,normal}\sum_{j=low,normal}\lambda_{ij}\left\|R_{i}\circ I_{j}-S_{j}\right\|_{1}\tag{3}$

L1范数： $\left\|x\right\|_1=|x_1|+|x_2|+|x_3|+...+|x_n|$

引入不变反射率损失 $L_{ir}$ 来约束反射率的一致性：
$L_{ir}=\left\|R_{low}-R_{normal}\right\|_{1}\tag{4}$
照明平滑度损失 $L_{is}$ 在下一节详细描述。

3.2 结构感知的平滑度损失

照度图一个基本假设是局部一致性和结构感知性。一个好的照度图应该在纹理细节上表现得平滑，同时可以保持整体结构的边界。

全变化最小化（TV），使整个图像的梯度最小化，通常作为各种图像恢复任务的平滑先验。然而，直接使用 TV 在图像具有强结构或亮度急剧变化的区域作为损失函数会失效。这是由于照度图梯度的均匀减小，无论区域是纹理细节还是强边界。换句话说，TV 的损失是无视结构的。

上图显示了反射率梯度加权 TV 损失对照明平滑度的有效性。第一行显示加权 TV 损失的输入图像（a）、反射率（b）和照明（c）。第二行显示一个放大区域，其中（d）是输入图像，（e）和（f）表示加权 TV 损失的 $R$ 和 $I$ ，（g）和（h）是原始 TV 损失的 $R$ 和 $I$ 。可以看出原始 TV 损失得到的照明模糊，并且在反射率上留下强黑色边缘。

为了使损失函数可以感知图像结构，用反射率图的梯度对原始 TV 函数进行加权，最终 $L_{is}$ 为：
$L_{is}=\sum_{i=low,normal}\left\|\nabla I_i\circ\exp(-\lambda_g\nabla R_i)\right\|\tag{5}$

无下标的范数指L2范数，即 $\left\|\vec{x}\right\|=\left\|\vec{x}\right\|_2=\vec{x}$ 的模长

其中， $\nabla$ 是梯度，包括 $\nabla_h$ （水平）和 $\nabla_v$ （垂直）， $\lambda_g$ 是平衡结构感知强度的系数。在权重 $\exp(-\lambda_g\nabla R_i)$ 的作用下， $L_{is}$ 在反射率梯度陡的地方（即图像结构定位的位置和照明度不连续的位置）放宽了平滑度的约束。

虽然LIME也考虑了在加权 TV 约束下保持照明图中的图像结构，但本文认为这两种方法是不同的。对于LIME，全变化约束由一个初始照明图进行加权，这是R、G和B通道中每个像素的最大强度。本文的结构感知平滑度损失是由反射率加权的。在LIME中使用的静态初始估计可能不能像反射率那样描述图像的结构，因为反射率被假定为图像的物理特性。由于Decom-Net是用大规模的数据离线训练的，所以照明和权重（反射率）可以在训练阶段同时更新。

3.3 多尺度的照明调整

照明增强网络采用了一个编解码架构的整体框架。为了分层去调整照明，引入了一个多尺度连接结构。

编解码架构在大区域内获取上下文信息。输入图像依次下采样到一个小尺度，这样网络可以看到大尺度的照明分布。这就给网络带来了自适应调整的能力。利用大尺度的照明信息，上采样块可以重建局部照明分布。通过元素级求加，从一个下采样块引入到其相应的镜像上采样块实现跳连，从而强制网络学习残差。

为了对照明进行分层调整，即在保持全局照明一致性的同时调整不同的局部照明分布，引入了多尺度连接方法。如果有M个逐步向上采样的块，每个块提取一个 $C$ 通道特征图，通过最邻近插值调整不同尺度的这些特征，并将它们连接到一个 $C \times M$ 通道特征图上。然后，通过1×1的卷积层，将连接的特征简化为C通道。采用3×3卷积层重建照明图 $\hat{I}$ 。

一个下采样块由一个步幅为2的卷积层和一个ReLU组成。在上采样块中，使用了一个可调整大小的卷积层。可调整大小的卷积层由一个最邻近插值操作、一个步幅为1的卷积层和一个ReLU组成。

3.4 反射率的去噪

在分解步骤中，对网络施加了几个约束，其中之一是照度图 $I_{low}$ 的结构感知平滑度，当估计的照度图 $I_{low}$ 是平滑的，反射率R上的细节被保留下来，包括提升的噪声。鉴于黑暗区域的噪声在分解过程中根据亮度强度被放大，因此需要与照明度相关的去噪方法。具体细节在 第5.4节 体现。

4 数据集

该实验所使用的数据集分为两类：真实摄影对（LOL数据集）和来自原始图像的合成对。第一类抓住了真实案例中的退化特征和属性，第二类在数据增强中起作用，使场景和物体多样化。

4.1 真实场景捕获的数据集

LOw-Light paired dataset：包含500个低光/正常光图像对，大多数低光图像通过改变曝光时间和ISO收集而来。图像包含房屋、校园、俱乐部、街道等。
上图为LOL数据集中的低/正光图像对的几个例子。在这个数据集中捕获的对象和场景是多种多样的。

4.2 从原始图像中合成图像对

收集了270张来自MEF、NPE、LIME、DICM、VV和Fusion数据集的低光图像，将图像转换为YCbCr通道并计算Y通道的直方图。从RAISE收集了1000张原始图像作为正常光图形并计算Y通道的直方图。

上图为基于YCbCr中Y通道直方图的拟合结果。为清晰起见，以曲线图和纵轴的形式表示的直方图按对数域进行缩放。横轴表示像素值，注意Y通道的范围为16到240。

通过尝试不同参数，使RAISE的1000张原始图像的Y通道直方图符合低光图像，合成图像的照明度分布与低光照图像的照明度分布一致。

5 实验

5.1 实验细节

在第4节提到的LOL数据集，其中485对用于训练，剩余15对用于评估。因此，网络是在485对真实案例和1000对合成图像上训练的。

Decom-Net包括5个带有ReLU的卷积层（位于两个不包含激活函数的卷积层之间），最后通过sigmoid将结果约束在 [0,1] 内。

Enhance-Net由3个下采样块和3个上采样块构成。

首先训练Decom-Net和Enhance-Net，然后使用随机梯度下降法（SGD）对网络进行带反向传播的端到端微调。

batch-size设置为16，patch-size设置为96×96。 $\lambda_{ir}$ 、 $\lambda_{is}$ 、 $\lambda_{g}$ 分别设置为0.001、0.1和10。当 $i \neq = j$ 时， $\lambda_{ij}$ 设置为0.001，否则设置为1。

5.2 分解结果

上图为在LOL数据集中使用Decom-Net和LIME的分解结果。结果表明，Decom-Net可以从纹理区域和平滑区域的一对图像中提取潜在的一致性反射率 $R$ 。低光图像的反射率与正常光图像的反射率相似，除了在真实场景中出现的黑暗区域的放大噪声。另一方面，照度图描绘了图像上的亮度和阴影。与Decom-Net的结果相比，LIME在反射率 $R$ 上留下了很多照明度信息。

5.3 评价

上图显示了在三幅自然图像上的视觉比较。

如红框所示，Retinex-Net在不过度曝光的情况下照亮暗淡的物体，这得益于基于学习的图像分解方法和多尺度定制照度图。

与LIME相比，Retinex-Net的结果并没有部分过度暴露（见静物中的叶子和房间中的外部叶子）。

与DeHz相比，Retinex-Net的结果中物体没有黑色的边缘，这得益于加权TV损失项（见街道上房屋的边缘）。

5.4 联合低光增强和去噪

考虑到综合性能，采用BM3D作为Retinex-Net的去噪操作。由于噪声在反射率 $R$ 上被不均匀地放大，故使用了一种照明相对策略。我们比较了我们的联合去噪Retinex-Net与两种方法，一种是去噪后处理的LIME，另一种是JED，一种最近的联合弱光增强和去噪方法。

如上图所示，Retinex-Net更好地保留了细节，而LIME和JED则模糊了边缘。

6 总结

本文提出了一种深度Retinex分解方法，该方法可以将数据驱动的观测图像分解为反射率和照明度，而不需要分解的反射率和照明度的真实数据。随后介绍了光照增强和对反射率的去噪操作。对分解网络和低光增强网络进行端到端训练。实验结果表明，该方法具有视觉上良好的增强效果，并很好地表示了图像分解。

7 代码复现

代码Github链接
由于实验代码使用的是TensorFlow1.x版本，而我本机安装的tensorflow2.x版本，故要进行版本替换。下载实验代码并保存于本地（我的保存在C:\Users\74269\PyProject）。打开Anaconda Prompt，进入实验虚拟环境（我的环境名称为TF2，提前安装好tensorflow和相关库，cpu或gpu版本都可以。没有虚拟环境的可以直接在base环境安装，或者自己查一下conda虚拟环境的设置。后者要把虚拟环境加载到jupyter中，教程很多，这里不再赘述）。

(base) C:\Users\74269>activate TF2
(TF2) C:\Users\74269>

进入项目根目录。

(TF2) C:\Users\74269>cd ./PyProject/RetinexNet-master

(TF2) C:\Users\74269\PyProject\RetinexNet-master>

安装了tensorflow后，使用 tf_upgrade_v2 可以将tensorflow文件从版本1.x转换为版本2.x，将代码中的三个py文件全部转换，转换后会生成report.txt文件，用于记录所修改的内容。

(TF2) C:\Users\74269\PyProject\RetinexNet-master>tf_upgrade_v2 --infile main.py --outfile main_v2.py
(TF2) C:\Users\74269\PyProject\RetinexNet-master>tf_upgrade_v2 --infile model.py --outfile model_v2.py
(TF2) C:\Users\74269\PyProject\RetinexNet-master>tf_upgrade_v2 --infile utils.py --outfile utils_v2.py

将文件main.py，model.py，utils.py删除，并将main_v2.py，model_v2.py，utils_v2.py重命名为main.py，model.py，utils.py。
打开jupyter，新建一个notebook（选择安装tensorflow的虚拟环境。创建了虚拟环境，但是没有虚拟环境可选的，需要将虚拟环境加载到jupyter）。

打开后，输入：%run main.py --phase=test，点击运行即可在test_results文件夹查看结果。

如果要测试自己的图片，可以在./data/test/low目录下添加自己的图片，注意尺寸不要过大，跟样例大小差不多即可，否则程序会崩溃，且每次运行代码都要重启核。

图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
深度学习框架PyTorch——从入门到精通（5）构建神经网络 Fansv587 Torch框架学习深度学习 pytorch 神经网络经验分享
构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作。在PyTorch里，torch.nn这个命名空间提供了你搭建自己神经网络所需要的所有基础组件。PyTorch里的每一个模块都是nn.Module类的子类。一个神经网络本身
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置