Mr . 孤独患者

CVPR_2022:Beyond a Pre-Trained Object Detector论文阅读

Beyond a Pre-Trained Object Detector:Cross-Modal Textual and Visual Context for Image Captioning

论文地址：Beyond a Pre-Trained Object Detector
论文代码地址：Github

Abstract

当前在视觉字幕方面取得的重大进展，主要依赖于将预训练得到的特征和经过object detector提取的特征作为自回归模型的输入。但是这种方法的受限关键是模型的输出受到了object detector的限制，特别是在跨数据集object detector的时候，认定这样的输出能表示所有必要的特征的假设是不成立的。在本文中，我们对基于这种假设的图模型进行推理，并且提出添加一个辅助输入来表示缺失的信息，如对象关系。我们特别建议从Visual Genome数据集中挖掘属性和关系，并根据它们来调整caption模型。更重要的是，我们提出（并表明这是至关重要的）使用多模态预训练模型（CLIP）来检索这些上下文的描述。此外，因为object detector models是被冻结的，在训练的时候不能够被优化。因此我们建议对object detector和图像的描述进行条件化处理，并在定性和定量上表明这可以改善grounding。我们在image caption上验证了我们的方法，对预训练多模态模型的每个组成部分和重要性进行了彻底分析，并证明了在当前技术状态下的显著改进，特别是CIDEr +7.5%和BLEU-4指标+1.3%。

图1：大多数现有的VL方法通过预先训练的对象检测器检测到的一组对象对输入图像进行编码。
这组被检测到的对象可能能够提供以对象为中心的信息，如对象类、位置和属性，但可能无法编码对目标VL任务同样重要的其他信息，如对象谓词和图像/场景级信息。（可以从图中看到仅仅进行object detection会丢失目标的运动状态信息以及目标所处的背景信息）

1.Introduction

对于视觉和语言(VL)任务，如image caption，将输入图像编码为包含下游语言任务相关信息的表示是至关重要的。早期的工作使用ImageNet预训练模型对输入图像进行编码，而最近的工作通过使用object detector检测到的对象(例如在Visual Genome上训练的Faster R-CNN)实现了更好的性能。通过object detector检测到的对象拥有图像更细粒度的信息，例如物体种类、位置和属性等，因此可以获得更好的性能。

尽管成功地用检测到的对象对输入图像进行编码，但object detector在Visual Genome等数据集上进行了预先训练，并在目标VL任务(在不同的数据集上)训练期间保持冻结。这导致了如图1所示的两个主要问题:(1)检测器可能擅长于编码以对象为中心的信息，但不擅长于目标VL任务所需的许多其他类型的信息，如对象和图像/场景级信息之间的关系;(2)被检测对象和输入图像之间的条件关系没有针对目标VL任务进行联合优化，因此在发送到VL模型之前，object detector计算出的特征不能被进一步细化。举个例子：

对（1）来说，现有的大部分工作都遵循之前的工作，在Visual Genome上对object detector进行预训练，以实现目标的检测和属性分类，这也意味着对象特征可能擅长编码以对象为中心的信息，如对象所属的类别、位置和属性，但不擅长编码其他关键信息，以image caption幕为例;如图1所示，这些关键信息包括对象之间的关系(对象谓词)，图像/场景级信息等。因此，本文的第一个目标是为被检测对象提供补充信息。

受视觉Visual Genome数据集构造方式的启发，我们提议以上下文文本描述的形式为图像子区域提供补充但必要的信息，然而，生成图像子区域的描述需要训练另一种图像字幕模型，这本身可能不是一项容易的任务。因此，我们建议将文本生成问题转化为一个跨模态检索问题:给定一个图像子区域，从描述数据库中检索最相关的前k个文本描述。进行跨模态检索的一种方法是搜索视觉上相似的图像，并返回该图像的配对文本。然而，我们认为，我们可以有效地利用最近在大规模图像和文本对(CLIP)上的跨模态预训练方面的进展，直接检索给定图像的相关文本。CLIP有两个分支，CLIP- i和CLIP- t，分别将图像和文本编码为全局特征表示，并训练将成对的图像和文本放到一起，将未成对的图像和文本放到一起。我们在第4.3节中表明，与通过视觉相似性间接检索的文本描述相比，通过CLIP检索的文本描述与图像内容更相关，通过CLIP检索到的文本描述提供了丰富和互补的信息，从而大大提高了性能。

对（2）来说，在训练VL任务的时候我们都会冻结object detector的参数，这意味着被检测对象和输入图像之间的条件作用关系没有与目标VL任务共同优化。因此，从object detector检测到的对象特征并不一定完全适用于image caption领域。因此，本文的第二个目标是通过结合目标VL任务来强化检测目标和输入图片的条件关系

为了加强(2)的条件关系，我们应该以一种尽可能保留与目标VL任务相关信息的方式将输入图像编码为一个全局特征表示。本文选择CLIP模型的图像分支CLIP- i作为图像编码器。由于CLIP也在跨模态VL任务上进行了预训练，我们在第4.3节中展示，与仅在图像数据集上预训练的模型相比，它可以更好地编码与目标VL任务相关的信息。然后，我们使用一个与目标VL任务联合优化的全连接(FC)层来建模条件关系。

在本文中，我们在图像字幕的VL任务上验证了我们提出的方法。通过解决上述使用冻结预训练目标检测器的两个问题，我们的方法改进了SoTA图像字幕模型M2, CIDEr中提高了+7.2%，BLEU-4中提高了+1.3%。
综上所述，我们作出了以下贡献:
1.发现了使用来自预训练对象检测器的被检测对象对输入图像进行编码的潜在问题
2.利用CLIP的跨模态联合嵌入空间，提出了一种跨模态检索模块，该模块能检索一组上下文文本描述，该描述用来补充检测到的对象信息
3.提出一种图像调理模块，加强和共同优化被检测对象与输入图像之间的条件关系，使特征更有效，支持接地等任务
4.大幅改进SoTA仅对象baseline模型，并为提议的两个模块和每个模块中的设计选择提供彻底的定量和定性分析。

2.Method

2.1Graphical Model

图2：(a)大多数现有的image caption模型的图形模型，其中X是输入图像，O是由预先训练过的冻结对象检测器检测到的一组对象;(b)我们提出的带有新引入节点T的模型，该模型表示图像子区域的一组文本描述。

现有的大多数工作都用如图2a所示的图形模型来建模图像配图问题，其中给定一个输入图像X，一个预先训练过的冻结对象检测器检测到一组对象O，并以O为条件生成标题Y。图2a所示的链结构图形模型可以推导为:

（1）能推导到（2）是因为我们假设了o完全编码x的所有必要信息，因此yi与x有条件独立。（3）约等于（2）是因为研究者通常采用argmax和阈值从对象检测器中选择一组固定的被检测对象。因此从上面导出的图形模型中，我们可以清楚地看到冻结的预先训练过的对象检测器所产生的两个主要问题。

首先，假设o完全编码了x的所有必要信息是不一定成立的。在实践中，在Visual Genome上预训练的用于对象检测和属性预测的对象检测器可能无法编码x的关键信息，如对象之间的关系和图像/场景级信息。其次，被检测对象o和输入图像x之间的条件关系由预先训练的冻结对象检测器计算，并没有与目标图像字幕任务联合优化。因此，在发送到自动回归标题生成模型之前，冻结的预先训练的对象检测器计算出的特征不能被优化，导致潜在的糟糕特征，特别是当它们在不同的数据集上训练时。

为了缓解问题(1)，一个基本的解决方案是预先训练对象检测器来预测其他信息，例如对象之间的谓词，以便o可以对更完整的信息进行编码。然而，有效地训练网络来建模对象之间的交互，特别是跨数据集仍然是一个开放的研究问题。因此，在本文中，我们建议在模型中增加一个节点T，如图2b所示，对与O互补的信息进行编码，而无需对目标检测器进行重新训练。通过同时包含O和T，对X的信息进行了更完整的编码，从而更好地支持了方程1和方程2之间的条件独立假设。因此我们的改进后的生成公式可以表示为

为了缓解问题(2)，我们建议使用一个全连接(FC)层，以输入图像X的特征为条件，细化每个检测目标的特征。FC层与图像字幕任务的训练目标联合优化，以加强O和X之间的条件关系。我们表明，这种特征细化可以定性和定量改进的结果。

图3：模型架构。我们提出(1)一个跨模态检索模块来检索一组上下文文本描述，这些文本描述提供了与被检测对象相补充的信息，如黄色框所示。我们还提出(2)一个图像调理模块来加强被检测对象和输入图像之间的条件关系，如绿色框所示。带有阴影模式的模型(文本编码器、图像编码器和对象检测器)被预先训练并保持固定。只有fc和字幕模型为目标VL任务进行训练。L符号表示沿特征维的拼接操作。每个标记(□符号)代表一个d维特征向量。图像特征(绿色令牌)在拼接操作之前被广播。

我们在图3中说明了整个模型。为了解决问题(1)，我们引入了一个跨模态检索模块(黄框)，从输入图像中检索一组文本描述T，其编码的信息与被检测对象O互补。为了解决问题(2)，我们引入了一个图像调理模块(绿框)来加强被检测对象和输入图像之间的条件关系。我们方法的关键在于，这两种方法都允许我们利用最近引入的大规模跨模态模型。在本节的其余部分中，我们将描述如何在第2.2节中获得T，以及如何在第2.3节中建模条件关系。

2.2Text Descriptions

图4：最相关的五个文本描述分别对应于(a)原始图像，(b)图像分成五块，©图像分成九块。对于分成五块和九块的图像，我们展示了对应蓝框里的图像所检索到的文本描述。

在上一节中，我们引入了T，这是一组文本描述，它提供了与被检测对象o相补充的信息。想象一下，当一个人被要求描述一幅图像时，他可能首先关注图像的局部区域，然后逐渐将局部信息合并，生成对整个图像的最终描述。同样，我们建议为图像子区域生成如图4所示的文本描述，以便这些描述包含更多的细节，并提供更完整的输入图像信息，以便在后期进行合并。与其训练另一种标题模型来生成图像子区域的描述(这本身可能不是一项容易的任务)，我们建议从描述数据库中检索每个图像子区域的前k个最相关的描述，从而将这变成一个跨模态检索问题。我们描述跨模态检索的三个步骤如下。

描述数据库：描述数据库是一个图像子区域的相关文本描述的来源，我们选择最相关的前k个。在本文中，我们建议解析来自Visual Genome数据集(该数据集已被普遍用于训练对象检测器)的标注，以构建描述数据库。我们没有从Visual Genome中获取包含许多相似句子的区域描述，而是解析属性和关系的注释。具体来说，属性注释采用“属性-对象”对的形式。我们首先将对象名称转换为其同义词集规范形式，然后收集所有“属性-对象”对。另一方面，关系注释采用“主语-谓词-对象”三连词的形式。类似地，我们将主题和对象名称转换为它们的同义词集规范形式，然后收集所有“主题-谓词-对象”三联。最终，我们将收集到的所有“属性-对象”对和“主题-谓词-对象”三元组合并，并删除重复的内容，以构建描述数据库。

文本描述检索。我们的目标是在给定图像子区域查询的描述数据库中检索最相关的前k个文本描述。这涉及到两个子问题:(1)如何生成图像子区域(2)如何在图像和文本之间进行跨模态检索。对于(1)，我们建议生成原图像的分成五份(图4b)和分成九份(图4c)。这些crop可能包含多个对象，而不仅仅是一个单一的对象，如果我们能够检索到crop的良好文本描述，这对于捕获对象之间的交互是有益的。对于(2)，我们建议利用CLIP[40]的跨模态联合嵌入来解决这个跨模态检索问题。CLIP模型有两个分支:图像分支CLIP- i和文本分支CLIP- t，分别将图像和文本编码为全局特征表示。CLIP针对大规模的图像和文本对进行训练，这样配对的图像和文本在嵌入空间中被放到一起，而未配对的图像和文本被分开。在预先训练的CLIP模型下，跨模态检索问题变成了在CLIP的跨模态嵌入空间中的最近邻搜索。具体来说，我们使用CLIP-T将描述数据库中的所有文本描述编码为搜索键。五个crop和九个crop的图像子区域以及原始图像被CLIP-I编码作为query。然后，我们在描述数据库中搜索余弦相似度分数最高的前k个文本描述。因此，我们将有一组检索到的文本描述T = {ti,j,k|i∈{original, five,nine}， j∈{1,2，…， #cropsi}， k∈{1,2，…, top-k}}，其中下标I表示它是来自原始图像、五个crop与九个crop;下标j表示ti的第j种crop(例如，左上、右下等表示5种crop);#crop {original, 5,9}分别等于{1,5,9};下标k表示前k次检索。图4显示了前5个结果的一些示例。

文本编码。在检索文本描述集T = {ti,j,k}后，我们使用预先训练的文本编码器将它们中的每一个编码为全局表示。在本文中，我们使用一个冻结的预训练CLIP- t作为文本编码器，因为CLIP在VL任务上也进行了类似的预训练，因此它可以更好地从检索到的文本描述中为目标VL任务编码相关信息。上面描述的三个步骤，从构建描述数据库到搜索描述数据库，最后为T编码检索到的文本描述，可以对基准数据集中的每个图像以与检测到的对象o相同的方式离线完成。为了进一步区分不同的i(原始的、五个crop或九个crop)和j(对于ti的第j种crop)，我们为不同的i和j对ti、j、k添加了一个可学习的嵌入。

2.3Image Conditioning

在2.1节中，我们提出对被检测对象O和输入图像X之间的条件关系进行建模和强化，以便在发送到字幕模型之前，对目标检测器计算出的特征进行细化。由于文本描述也是通过预训练的CLIP模型离线检索的，我们同样希望加强检索到的文本描述T和输入图像x之间的条件关系，如图3的绿色框所示，我们建议在输入图像上对每个检测到的对象和检索到的文本描述进行条件化，并通过完全连接(FC)层对这种条件关系建模。

Image Captioning

将图像条件对象(o)和文本描述(o)合并到图像标题模型中是很简单的。

如式1所示，图像标题模型通常是一个自回归模型p(yi|o, y1:i−1)，它以一个被检测对象的序列o为输入。因此，在不修改图像字幕模型的情况下，我们只需要沿着序列维数z = [ˆo, ˆtoriginal, ˆtfive, ˆtnine]将图像条件对象口令o和口令文本描述口令ti串联起来，并将z作为p(yi|z, y1:i−1)输入其中。然后，可以用常用的最大对数似然损失来训练模型，并使用CIDEr评分作为奖励对RL损失进行微调，方法与前面相同。

3. Experiments

MS-COCO Karpathy split测试集上的图像字幕结果

Detector pre-training v.s. transformer pre-training.

消融实验

用不同的图像编码器通过视觉相似度检索文本描述

Description of a Poisson Imagery Super Resolution Algorithm 论文阅读青铜锁00 论文阅读 Radar 论文阅读
DescriptionofaPoissonImagerySuperResolutionAlgorithm1.研究目标与意义1.1研究目标1.2实际意义2.创新方法与模型2.1核心思路2.2关键公式与推导2.2.1贝叶斯框架与概率模型2.2.2MAP估计的优化目标2.2.3超分辨率参数α2.3对比传统方法的优势3.实验验证与结果3.1实验设计3.2关键结果4.未来研究方向（实波束雷达领域）4.1挑战
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
CBNetV2: A Composite Backbone Network Architecture for Object Detection论文阅读 Laughing-q 论文阅读深度学习人工智能目标检测实例分割 transformer
CBNetV2:ACompositeBackboneNetworkArchitectureforObjectDetection论文阅读介绍方法CBNetV2融合方式对Assistant的监督实验与SOTA的比较在主流backbone架构上的通用性与更宽更深的网络比较与可变形卷积的兼容在主流检测器上的模型适用性在SwinTransformer上的模型适用性消融实验paper：https://arxi
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam