linchunmian

Learn to See in the Dark 论文解读

整理下最近一篇论文的学习笔记。这是由UIUC的陈晨和Intel Labs的陈启峰、许佳、Vladlen Koltun 合作提出的一种在黑暗中也能快速、清晰的成像系统，让机器“看破”黑暗。以下是论文的主要部分。

摘要

在暗光条件下，受到低信噪比和低亮度的影响，图片的质量会受到很大的影响。此外，低曝光率的照片会出现很多噪声，而长曝光时间会让照片变得模糊、不真实。目前，很多关于去噪、去模糊、图像增强等技术的研究已被相继提出，但是在一些极端条件下，这些技术的作用就很有限了。为了发展基于学习的低亮度图像处理技术，本文提出了一种在黑暗中也能快速、清晰的成像系统，效果令人非常惊讶。此外，我们引入了一个数据集，包含有原始的低曝光率、低亮度图片，同时还有对应的长曝光率图像。利用该数据集，提出了一种端到端训练模式的全卷积网络结构，用于处理低亮度图像。该网络直接使用原始传感器数据，并替代了大量的传统图像处理流程。最终，实验结果表明这种网络结构在新数据集上能够表现出出色的性能，并在未来工作中有很大前途。

简介

任何的图像成像系统都存在噪声，但这很大地影响在弱光条件下图像的质量。高ISO 可以用于增加亮度，但它同时也会放大噪音。诸如缩放或直方图拉伸等图像后处理可以缓解这种噪声影响，但这并不能从根本上解决低信噪比 (SNR) 问题。在物理学上，这可以解释为在弱光条件下增加SNR，包括开放光圈，延长曝光时间以及使用闪光灯等，但这些也都有其自身的缺陷。例如，曝光时间的延长可能会引起相机抖动或物体运动模糊。

众所周知，暗光条件下的快速成像系统一直都是计算摄影界的一大挑战，也是一直以来开放性的研究领域。目前，许多关于图像去噪，去模糊和低光图像增强等技术相继提出，但这些技术通常假设这些在昏暗环境下捕获到的图像带有中等程度的噪音。相反，我们更感兴趣的是在极端低光条件下，如光照严重受限 (例如月光) 和短时间曝光 (理想情况下是视频率) 等条件下的图像成像系统。在这种情况下，传统相机的处理方式显然已不适用，图像必须根据原始的传感器数据来重建。

为此，本文提出了一种新的图像处理技术：通过一种数据驱动的方法来解决极端低光条件下快速成像系统的挑战。具体来说，我们训练深度神经网络来学习低光照条件下原始数据的图像处理技术，包括颜色转换，去马赛克，降噪和图像增强等。我们通过端对端的训练方式来避免放大噪声，还能表征这种环境下传统相机处理的累积误差。

据我们所知，现有用于处理低光图像的方法，在合成数据或真实的低光图像上测试都缺乏事实根据。此外，用于处理不同真实环境下的低光图像数据集也相当匮乏。因此，我们收集了一个在低光条件下快速曝光的原始图像数据集。每个低光图像都有对应的长曝光时间的高质量图像用于参考。在新的数据集上我们的方法表现出不出色的结果：将低光图像放大300倍，成功减少了图像中的噪音并正确实现了颜色转换。我们系统地分析方法中的关键要素并讨论未来的研究方向。

下图1展示了我们的设置。我们可以看到，在很高的ISO 8,000条件下，尽管使用全帧的索尼高光灵敏度相机，但相机仍会产生全黑的图像。在ISO 409,600条件下，图像仍会产生朦胧，嘈杂，颜色扭曲等现象。换而言之，即使是当前最先进的图像去噪技术也无法消除这种噪音，也无法解决颜色偏差问题。而我们提出的全卷积网络结构能够有效地克服这些问题。

图1卷积网络下的极端低光成像。黑暗的室内环境：:相机的照度 <0.1 lux。Sony α7S II传感器曝光1/30秒。左图：ISO 8,000相机产生的图像。中间图：ISO 409,600相机产生的图像，图像受到噪声和颜色偏差的影响。右图：由我们的全卷积网络生生的图像。

数据集 (SID)

我们收集了一个新的数据集，用于原始低光图像的训练和基准测试。See-in-the-Dark(SID) 数据集包含5094张原始的短曝光图像，每张都有相应的长曝光时间的参考图像。值得注意的是，多张短曝光的图像可以对应于相同的长曝光时间的参考图像。例如，我们收集了短时间曝光图像用于评估去燥方法。序列中的每张图像都可视为一张独特的低光图像，这样包含真实世界伪像的图片能够更有利于模型的训练和培训测试。SID 数据集中长时间曝光的参考图像是424。

此外，我们的数据集包含了室内和室外图像。室外图像通常是在月光或街道照明条件下拍摄。在室外场景下，相机的亮度一般在0.2 lux 和5 lux 之间。室内图像通常更暗。在室内场景中的相机亮度一般在0.03 lux 和0.3 lux 之间。输入图像的曝光时间设置为1/30和1/10秒。相应的参考图像 (真实图像) 的曝光时间通常会延长100到300倍：即10至30秒。各数据集的具体情况如下表1中所示。

表1. SID 数据集包含5094个原始的短曝光率图像，每张图像都有一个长曝光的参考图像。图像由顶部和底部两台相机收集得到。表中的指标参数分别是(从左到右)：输入与参考图像之间的曝光时间率，滤波器阵列，输入图像的曝光时间以及在每种条件下的图像数量。

下图2显示了数据集中一部分的参考图像。在每种条件下，我们随机选择大约20％的图像是组成测试集，另外选定10％的数据用于模型验证。

图2 SID 数据库的实例。前两行是SID 数据集中室外的图像，底部两行是室内的图像。长曝光时间的参考图像 (地面实况) 显示在前面。短曝光的输入图像(基本上是黑色) 显示在背部。室外场景下相机的亮度一般在0.2到5 lux，而室内的相机亮度在0.03和0.3 lux 之间。

数据采集时，相机固定在三脚架上。我们用无反光镜相机来避免由于镜面拍打引起的振动。在每个场景中，相机设置 (如光圈，ISO，焦距和焦距) 进行了调整，以最大限度地提高参考图像(长曝光时间)的质量。此外，利用远程的智能手机 app 将曝光时间缩短一倍缩小后的曝光时间为100至300。该相机专门用于参考图像 (长曝光时间) 的拍摄，而没有触及短曝光的图像。我们收集了一系列短曝光的图像用于方法的比较和评估，以突出我们方法的优势。

虽然，数据集中的参考图像仍可能存在一些噪音，但感知质量足够高。我们目的是为了在光线不足的条件下产生在感知良好的图像，而不是彻底删除图像中所有噪音或最大化图像对比度。因此，这种参考图像的存在不会影响我们的方法评估。

方法

从成像传感器中得到原始数据后，传统图像处理过程会应用一系列模块，例如白平衡、去马赛克、去噪、增加图像锐度、 γ 矫正等等。而这些图像处理模块只在某些特定相机中才有。一些研究提出使用局部线性、可学习的L3 过滤器来模拟现代成像系统中复杂的非线性流程，但是这些方法都无法成功解决在低光条件中快速成像的问题，也无法解决极低的SNR 问题。此外，通过智能手机相机拍摄的照片，利用bursting imaging成像方法，结合多张图像也可以生成效果较好的图像，但是这种方法的复杂程度较高。

因此，我们提出了的端到端的学习方法，即训练一个全卷积网络FCN 来直接处理快速成像系统中的低亮度图像。纯粹的FCN 结构可以有效地代表许多图像处理算法。受此启发，我们调查并研究这种方法在极端低光条件下成像系统的应用。相比于传统图像处理方法使用的sRGB 图像，在这里我们使用原始传感器数据。下图3展示了我们所提出的方法结构。

图3 我们提出的图像处理方法

对于 Bayer 数组，我们将输入打包为四个通道并在每个通道上将空间分辨率降低一半。对于X-Trans 数组(图中未显示出)，原始数据以6×6排列块组成;我们通过交换相邻通道元素的方法将36个通道的数组打包成9个通道。此外，我们消除黑色像素并按照期望的倍数缩放数据(例如，x100或x300)。将处理后数据作为 FCN 模型的输入，输出是一个带12通道的图像，其空间分辨率只有输入的一半。

我们将两个标准的 FCN 结构作为我们模型的核心架构：用于快速图像处理的多尺度上下文聚合网络 (CAN) 和U-net 网络。影响我们模型选择的另一个因素是内存消耗：在 GPU 中，我们选择的模型结构可以处理全分辨率的图像(例如，在4240×2832或6000×4000分辨率)。同时，我们避免使用完全连接结构及模型集成方式。我们的默认架构是 U-net。

放大比率决定了模型的亮度输出。在我们的方法中，放大比率设置在外部指定并作为输入提供给模型，这类似于相机中的 ISO 设置。下图4显示了不同放大比率的影响。用户可以通过设置不同的放大率来调整输出图像的亮度。在测试时间，我们的方法能够抑制盲点噪声并实现颜色转换，并在sRGB 空间网络直接处理图像，得到网络的输出。

图4 SID 数据集中放大系数对室内图像 (Sony x100子集) 的影响。类似于摄像机中的ISO设置，这里的放大系数是作为外部输入提供给我们的模型。更高的放大倍数可以产生更明亮的图像。我们在我们的方法中引入了不同的放大因子，并展示了模型的输出图像。

模型训练

我们使用 L1 损失和 Adam 优化器，从零开始训练我们的网络。在训练期间，网络输入是原始的短曝光图像，在 sRGB 空间中的真实数据是相应的长曝光时间图像(由一个原始图像处理库 libraw 处理过得参考图像)。我们为每台相机训练一个网络，并将原始图像和参考图像之间曝光时间的倍数差作为我们的放大因子(例如，x100，x250，或x300)。在每次训练迭代中，我们随机裁剪一个512×512的补丁用于训练并利用翻转、旋转等操作来随机增强数据。初始学习率设定为0.0001，在2000次迭代后学习率降为0.00001，训练一共进行4000次迭代。

实验结果分析

首先，与传统方法的对比，我们提出的方法具有放大的功能。如下图5,6,7所示，传统的图像处理方法在极端低光条件下容易受到严重的噪声影响，导致生成图像颜色失真。我们提出的方法能够有效地抑制图像噪声，生成色彩均衡、逼真的图像。此外，由于在数据集中对齐数据序列，我们的方法也更优于 post-hocdenoising、brust denoising 等图像去燥方法

图5 (a) 由富士胶片 X-T2 相机拍摄的夜间图像，ISO 800，光圈f / 7.1，曝光时间1/30s，相机亮度约为1 lux。(b) 传统的图像处理方法不能有效处理原始数据中的噪声和颜色偏差。(c) 基于相同的数据，我们方法处理的结果。

图6 将 SID 数据集训练好的模型应用于用 iPhone 6s智能手机拍摄的原始低光图像。(a) iPhone 6s 在夜间所拍摄的原始图像，ISO 400，光圈f/2.2，曝光时间0. 05s。经传统的图像处理方法处理后的图像及缩放到相匹配的亮度的参考图像。(b)我们提出的方法处理后的结果

图7 Sony x300拍摄的图像。(a) 由传统图像处理方法处理的低光图像及其线性缩放的结果。(b) 同样用传统方法，并通过 BM3D 去噪方法处理后的结果。 (c) 我们提出的方法处理后的结果。

此外，我们还进行了一系列的控制实验，来分析方法中各组分对模型性能的影响，包括模型结构，输入的颜色空间，损失函数，数据排列，图像后处理等因素。

结语

由于图像低光子数和低信噪比的影响，快速低光成像系统是一个艰巨的挑战。黑暗中快速成像系统更是被认为是一种不切实际、与传统的信号处理相悖的技术。在本文中，我们创建了一个黑暗中的图像数据集 (SID) 以支持数据驱动方法的研究。利用 SID 数据集，我们提出一种基于 FCN 模型结构，通过端到端训练，改善了传统的处理低光图像的方法。实验结果表明我们的方法能够成功抑制噪声并正确地实现颜色转换，表现出不错的性能，并展现了不错的研究前景。未来的工作我们可以进一步研究低光成像网络的泛化能力。此外，对于模型的性能优化也是值得研究的一个热点方向。我们还将在未来的工作中进一步改善图像质量，如通过系统优化网络架构和训练程序。我们希望SID 数据集和我们的实验结果可以支持并刺激未来该领域的研究。

原文链接：arxiv.org/abs/1805.01934

项目地址：web.engr.illinois.edu/~cchen156/SID.html

GitHub地址：github.com/cchen156/Learning-to-See-in-the-Dark

以上是这篇论文解读的内容。欢迎指点补充。

D-FINE使用pth权重批量推理可视化图片悠悠海风代码调试深度学习人工智能 python 目标检测计算机视觉
关于D-FINE相关的内容可参考下面这篇博客：论文解读：ICLR2025|D-FINE_d-fine:redefineregressiontaskindetrsasfine--CSDN博客文章浏览阅读949次，点赞18次，收藏28次。D-FINE是一款功能强大的实时物体检测器，它将DETRs中的边界框回归任务重新定义为细粒度分布细化（FDR），并引入了全局最优定位自蒸馏（GO-LSD），在不引入额
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
大语言模型全流程开发技术详解：从架构、训练到对齐与量化艾墨舟启航大模型实战架构人工智能大语言模型
github：https://github.com/mlabonne/llm-course大语言模型全流程开发技术详解：从架构、训练到对齐与量化大模型实战指南：多模型生态实战与论文解读一、LLM架构（TheLLMarchitecture）不需要对Transformer架构有深入的了解，但了解现代LLM的主要步骤很重要：通过分词化将文本转换为数字，通过包括注意力机制在内的层处理这些分词，最后通过各种
VLM 系列——Qwen2 VL——论文解读 TigerZ* AIGC算法 AIGC 计算机视觉人工智能图像处理
一、概述1、是什么是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器（标准VIT输出后面接patchmerger）+LLM形式。比较创新的是统一视觉处理方式（3DCNN统一视频、图片）+图像缩放方式（自适应缩放）+3DLLM位置编码。能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、age
SAM2论文解读-既实现了视频的分割一切，又比图像的分割一切SAM更快更好 ↣life♚ 计算机视觉大模型通用模型人工智能计算机视觉深度学习通用分割视频分割算法
code：https://github.com/facebookresearch/sam2/tree/maindemo:https://sam2.metademolab.com/paper:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/这是SAM这是SAM2Facebook
【AI论文精读3】RAG论文综述1-P3-检索器 AI完全体 AI论文解读人工智能机器学习深度学习自然语言处理 RAG 论文阅读论文笔记
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】P1，P2，P4，P5，P6三、检索器在RAG中，有效地从数据源中检索相关文档至关重要。涉及的关键问题包括检索源、检索粒度、检索的预处理以及选择相应的嵌入模型。3.1.检索源RAG依赖外部知识来增强LLM，而检索源（RetrievalSource）的类型（数据结构）和检索单元的粒度都会影响最终的生成结果。3.1.1.数据结构1.非结构化数
【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent
1stauthro:PatrickJiangpaper:[2505.14146]s3:YouDon’tNeedThatMuchDatatoTrainaSearchAgentviaRLcode:pat-jj/s3:s3-EfficientYetEffectiveSearchAgentTrainingviaRLforRAG5.总结(结果先行)s3框架以其“解耦搜索与生成、仅训练搜索代理、采用GBR奖励
【论文解读】OmegaPRM：MCTS驱动的自动化过程监督，赋能LLM数学推理新高度 vlln Search &Learning 人工智能深度学习搜索引擎神经网络 transformer
1stauthorLiangchenLuo‪YinxiaoLiu‬-‪GoogleScholar‬paper:[2406.06592]ImproveMathematicalReasoninginLanguageModelsbyAutomatedProcessSupervisioncode:sanowl/OmegaPRM:thisisanimplementationforthepaperImprov
活动邀请 | SECon 全球软件工程技术大会深圳站将于6月20—21日举办！ github
SECon全球软件工程技术大会将于6月20日——6月21日在深圳举办！大会精心设置了16个专场，内容涵盖AI前沿论文解读、大数据平台与架构实践、大前端架构实践、AI知识工程体系：从零散知识到流水线、DeepSeek技术前瞻与应用实践、AI时代数据架构的演进、从Agent到Multi-Agent的智能跃迁、高可用架构、垂直深耕：小模型、大智慧、数据分析场景中AI应用、AI+研发的智能化升级、多模态生
CON:Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models 论文解读亦万大模型 RAG COT CON
目前RALM主要存在两个问题：搜索结果误导性：搜索结果依赖其召回和排序，所以不一定和问题相关，不相关的结果融合到大模型中会给大模型带来误导导致错误的答案（甚至有的时候大模型依靠内部记忆能够正确回答）；回复幻觉问题：针对无法回答的问题（不管是搜索结果还是内部记忆），大模型有时也会一本正经的胡说八道。本篇paperCON（Chain-of-Note）主要就是解决上面两个问题：如下图所示，有三种情况搜索
【2025智源大会论文解读】智能体-林衍凯 weixin_37763484 大模型人工智能算法
另一位人大老师的近期工作汇总，涉及数据合成（生成训练数据，指导agent模型）、奖励模型训练（用于监督agent进行规划）、主动行动（指导agent主动为人类提供服务）、工具选择（支持1600+工作调用）、多模态训练（操作手机）等。0新框架具体实现还没有找到0.1MiniCPM4-Survey：MiniCPM4-Survey是由THUNLP、中国人民大学和ModelBest联合开发的开源大语言模型
[论文阅读] 人工智能 | 搜索增强LLMs的用户偏好与性能分析张较瘦_ 前沿技术人工智能论文阅读
【论文解读】SearchArena：搜索增强LLMs的用户偏好与性能分析论文信息作者:MihranMiroyan,Tsung-HanWu,LoganKing等标题:SearchArena:AnalyzingSearch-AugmentedLLMs来源:arXivpreprintarXiv:2506.05334v1,2025一、研究背景：当LLMs需要“上网查资料”时，我们如何评估它？想象你在问AI
【论文解读实战篇】Cheetah mini MPC+WBC控制Whole-Body Impulse Control and Model Predictive Control RoboticsTechLab 机器人实战项目机器人算法
文章目录一、简介二、控制架构1、控制流程2、摆动腿落点规划器3、状态估计器（用于估计躯干的位置、速度、姿态）4、步态调度器和步态规划器三、模型预测控制MPC1.MPC使用的集中质量动力学模型（用于预测泛作用力f）2.模型简化假设四、WBC全身脉冲控制1.WBC使用的多体动力学模型（计算每个关节的力矩）2.优先任务执行（为了计算关节位置、速度和加速度）3.二次规划（为了计算关节转矩指令）4.计算最终
【论文解读】CVPR 2024 DSL-FIQA ：全新人脸面部图像质量评估算法（附论文地址）牧锦程论文解读算法
论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_DSL-FIQA_Assessing_Facial_Image_Quality_via_Dual-Set_Degradation_Learning_and_CVPR_2024_paper.pdf这篇论文标题为"DSL-FIQA:AssessingFacialImageQu
综述论文解读：Editing Large Language Models: Problems, Methods, and Opportunities cnblogs.com/qizhou/ 语言模型人工智能自然语言处理
论文为大语言模型知识编辑综述，发表于自然语言处理顶会ACL(原文链接)。由于目前存在广泛的模型编辑技术，但一个统一全面的分析评估方法，所以本文： 1、对LLM的编辑方法进行了详尽、公平的实证分析，探讨了它们各自的优势和劣势。 2、构建了一个新的数据集，旨在揭示当前模型编辑方法的缺点，特别是泛化和效率方面。 3、概述了模型编辑领域未来潜在的研究机会。阅读本文请同时参考原始论文图表。问题
论文解读：Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adapters cnblogs.com/qizhou/
论文发表于人工智能顶会NeurIPS(原文链接)。当前的模型编辑器会因多次编辑损害模型性能，提出用于连续编辑的通用检索适配器(GeneralRetrievalAdaptersforContinualEditing,GRACE)：使用一个类似字典的结构(适配器)为需要修改的潜在表示构建新的映射，通过更新适配器来实现持续的模型行为编辑。方法 GRACE是一种不修改模型权重编辑预训练模型行为的方法
论文解读：Locating and Editing Factual Associations in GPT（ROME）
论文发表于人工智能顶会NeurIPS(原文链接)，研究了GPT(GenerativePre-trainedTransformer)中事实关联的存储和回忆，发现这些关联与局部化、可直接编辑的计算相对应。因此： 1、开发了一种因果干预方法，用于识别对模型的事实预测起决定性作用的神经元。 2、为了验证这些神经元是否对应于事实关联的回忆，使用秩一模型编辑(Rank-OneModelEditing,
[论文阅读] 人工智能+软件工程 | MemFL：给大模型装上“项目记忆”，让软件故障定位又快又准张较瘦_ 前沿技术论文阅读人工智能软件工程
【论文解读】MemFL：给大模型装上“项目记忆”，让软件故障定位又快又准论文信息arXiv:2506.03585ImprovingLLM-BasedFaultLocalizationwithExternalMemoryandProjectContextInseokYeo,DuksanRyu,JongmoonBaikSubjects:SoftwareEngineering(cs.SE)一、研究背景：
[论文阅读] 人工智能 | 当AI遇见绿色软件工程：可持续AI实践的研究新方向张较瘦_ 前沿技术人工智能
【论文解读】当AI遇见绿色软件工程：可持续AI实践的研究新方向论文信息作者：MajaH.Kirkeby,EnriqueBarbaRoque,JustusBogner等标题：GreeningAI-enabledSystemswithSoftwareEngineering:AResearchAgendaforEnvironmentallySustainableAIPractices年份：2025来源：
【论文解读】MemGPT: 迈向为操作系统的LLM vlln transformer 人工智能深度学习自然语言处理
1stauthor:CharlesPackerpaperMemGPT[2310.08560]MemGPT:TowardsLLMsasOperatingSystemscode:letta-ai/letta:Letta(formerlyMemGPT)isthestatefulagentsframeworkwithmemory,reasoning,andcontextmanagement.这个项目现在已
科研学习论文解读——面向电商内容安全风险管控的协同过滤推荐算法研究(1) 2401_84296945 学习安全推荐算法
面向电商内容安全风险管控的协同过滤推荐算法研究-中国知网(cnki.net)")面向电商内容安全风险管控的协同过滤推荐算法研究*摘要：**[目的/意义]随着电商平台商家入驻要求降低以及商品上线审核流程简化，内容安全风险问题成为协同过滤推荐算法伦理审查的核心问题之一。[方法/过程]本文将内容安全风险问题纳入用户协同过滤推荐算法的优化过程，提出一种改进的推荐算法。首先，采用混合研究方法对内容安全风险商
Transformer目标检测 | DETR论文解读 DeepDriving 自动驾驶与深度学习 transformer 目标检测深度学习
0.前言DETR是首个将Transformer应用到2D目标检测任务中的算法，由Facebook于2020年在论文《End-to-EndObjectDetectionwithTransformers》中提出。与传统目标检测算法不同的是，DETR将目标检测任务视为一个直接的集合预测问题，采用基于集合的全局损失通过二分匹配实现一对一的预测输出，不需要非极大值抑制（NMS）和手工设计Anchor这些操作
【Strip-MLP论文解读】 A man protect you 计算机视觉图像处理
Strip-MLPAbstractIntroductionMethod——OverallArchitecturePatchEmbeddingPatchMergingMixingBlockStripMixingBlockStripMLPLayer：CascadeGroupStripMixingModule（CGSMM）：LocalStripMixingModule（LSMM）：ChannelMixi
《深入浅出多模态》（六）: 多模态经典模型BLIP GoAI 深入浅出多模态多模态大模型 BLIP LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
A Survey on Multimodal Large Language Models论文解读 call me by ur name large model 语言模型人工智能自然语言处理
AbstractRecently,MultimodalLargeLanguageModel(MLLM)representedbyGPT-4Vhasbeenanewrisingresearchhotspot,whichusespowerfulLargeLanguageModels(LLMs)asabraintoperformmultimodaltasks.Thesurprisingemergentc
ICLR2024论文解读|DP-OPT: MAKE LARGE LANGUAGE MODEL YOUR PRIVACY-PRESERVING PROMPT ENGINEER差分隐私离线提示微调 paixiaoxin 论文合集文献阅读知识图谱人工智能自然语言处理语言模型大型语言模型数据隐私
论文标题DP-OPT:MAKELARGELANGUAGEMODELYOURPRIVACY-PRESERVINGPROMPTENGINEER差分隐私离线提示微调：让大型语言模型成为你的隐私保护提示工程师论文链接DP-OPT:MAKELARGELANGUAGEMODELYOURPRIVACY-PRESERVINGPROMPTENGINEER论文下载论文作者JunyuanHong,JiachenT.Wa
【AI应用】免费的文本转语音工具：微软 Edge TTS 和开源版 ChatTTS 对比 AI完全体 AI应用人工智能机器学习 TTS Edge ChatTTS 文本转语音 AI 应用
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】【AI应用】我试用了下EdgeTTS，感觉还不错，不过它不支持克隆声音（比如自己的声音）微软EdgeTTS和开源版ChatTTS都是免费的文本转语音（TTS）工具，但它们在技术架构、语音质量、使用方式等方面有所不同，适用于不同的使用场景。以下是详细对比：1.EdgeTTSvs.ChatTTS总览对比项微软Edge
VLM 系列——MiniCPM-Llama3-V 2.5——论文解读 TigerZ* AIGC算法 AIGC 人工智能 transformer
一、概述1、是什么是一款面向终端设备的多模态大型语言模型（MLLM），论文全称《MiniCPM-V:AGPT-4VLevelMLLMonYourPhone》，它专注于实现在手机等资源受限设备上的高级AI功能，参数8B（llama37B+SigLIPViT-400m/14+视觉标记压缩层）。该模型能够处理包括文本、图像在内的多种数据类型，具备图片描
Loss-Free Balancing MoE论文解读：无损负载均衡的突破阿正的梦工坊 DL Papers LLM 负载均衡人工智能语言模型自然语言处理
Loss-FreeBalancingMoE论文解读：无损负载均衡的突破《AUXILIARY-LOSS-FREELOADBALANCINGSTRATEGYFORMIXTURE-OF-EXPERTS》是一篇由LeanWang等人于2024年发表的预印本论文，提出了一种新颖的MoE（Mixture-of-Experts）负载均衡策略——Loss-FreeBalancing（无损负载均衡）。该方法通过避免
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

Learn to See in the Dark 论文解读

你可能感兴趣的:(论文解读)