凝眸伏笔

论文阅读图片和文本联合训练：IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

论文地址：https://arxiv.org/abs/2001.07966v1https://arxiv.org/abs/2001.07966v1

摘要：

介绍了一种新的视觉语言预训练模型 ImageBERT 用于图像-文本联合表示。使用基于Transformer [1]的模型，该模型采用不同的模态(模态指代图片or文本)作为输入并对它们之间的关系进行建模。该模型同时针对四个任务进行了预训练：蒙版语言建模（MLM），蒙版对象分类（MOC），蒙版区域特征回归（MRFR）和图像文本匹配（ITM）。为了进一步提高预训练质量，从Web收集了大规模的weAk监督的图像文本（LAIT）数据集。首先在该数据集上对模型进行预训练，然后对概念字幕[2]和SBU字幕[3]进行第二阶段的预训练。实验表明，多阶段预训练策略优于单阶段预训练。还对图像检索和文本检索[4]任务进行了微调和评估了经过预训练的ImageBERT模型，并在MSCOCO [5]和Flickr30k [6]数据集上均获得了最新的最新结果。

最近，视觉语言任务在自然语言处理（NLP）和计算机视觉（CV）社区中都引起了很多关注。例如，Text-Image Retrieval [4]的目的是在给定文本的情况下检索最相关的图像，反之亦然。视觉问答（VQA）[7]的目的是预测给定图像和相关问题的正确答案。视觉常识推理（VCR）[8]要求模型不仅可以回答常识问题，还可以选择支持该回答的理由。图像标题[9]旨在为每个输入图像生成自然语言描述。基于分别由语言和视觉任务训练的预训练模型（例如，针对语言任务的BERT [10]和针对视觉任务的ResNet [11]），大多数以前的方法使用后期融合方式来融合下游的多模式输入任务。但是，这样的后期融合层在训练中通常需要任务特定的标记数据，但是对于许多多模式任务，获取足够的任务注释仍然非常具有挑战性且昂贵。

受NLP预训练模型（例如BERT [10]，XLNet [12]和RoBERTa [13]）成功的启发，交叉模式预训练已成为热门研究领域。这样的模型可以在早期基于大规模语料库学习语言和视觉内容的联合表示，然后通过任务特定的微调将其应用于下游任务。在本文中，首先回顾关于交叉模式预训练的最新工作，并比较它们的异同。然后，提出了ImageBERT作为交叉模式预训练的强大基线，它在MSCOCO [5]和Flicker30k上的文本到图像和图像到文本检索任务上获得了最新的最新结果。 [6]。还建立了一个新的语料库，其中包括从Web挖掘的1000万个文本图像对。希望这个语料库可以进一步推动跨模式预训练研究的发展。

1引言

2相关工作

•模型架构。 BERT [10]模型针对输入为一两个句子的NLP任务进行了预训练。要将BERT结构应用于交叉模式任务，可以有很多方法来处理不同的模式。ViLBERT [14]和LXMERT [15]分别将单模态转换器应用于图像和句子，然后将这两种模态与交叉模态转换器结合在一起。其他工作，例如VisualBERT [16]，B2T2 [17]，Unicoder-VL [18]，VL-BERT [19]，Unifineed VLP [20]，UNITER [21]等，都将图像和句子串联在一起变压器的单一输入。很难争论哪种模型结构更好，因为它的性能实际上取决于特定的场景。

•图像视觉标记。几乎所有最近的论文都将对象检测模型应用于图像，并将检测到的感兴趣区域（RoI）视为图像描述符，就像语言标记一样。与使用预先训练的检测模型的其他工作不同，VL-BERT对检测网络及其图像-文本联合嵌入网络进行了训练，并且还在模型训练中添加了全局图像功能。我们可以看到基于区域的图像特征是很好的图像描述符，它们形成了一系列可视标记，可以直接输入到Transformer中。

•训练前数据。与可以利用大量自然语言数据的语言模型预训练不同，视觉语言任务需要高质量的图像描述，而这些图像描述很难免费获得。鉴于概念字幕[2]具有3M图像描述，并且相对于其他数据集而言相对较大，因此是用于图像文本预训练的最广泛使用的数据。UNITER [21]将四个数据集（概念字幕[2]，SBU字幕[3]，Visual Genome [22]和MSCOCO [5]）组合在一起，形成了960万个训练语料库，并在许多图像文本跨模式任务。LXMERT [15]在预训练中添加了一些VQA训练数据，并获得了有关VQA任务的最新结果。我们可以看到，数据质量和数据量在模型训练中起着重要作用，在设计新模型时应更加注意。

3大规模弱监督的图文数据收集

与基于语言模型的预训练不同，它可以使用无限的自然语言文本，例如BooksCorpus [23]或Wikipedia，交叉模式的预训练需要大量和高质量的视觉语言对。例如，最新的跨模式预训练模型[16、17、18、19、20、21]在预训练中使用以下2个数据集：概念字幕（CC）数据集[2]，其中包含3M图像从网页的Alt-text HTML属性和SBU Captions [3]收集的描述，其中SBU Captions由1M图像和用户关联的标题组成。但是，这些数据集的大小仍然不足以预训练具有数亿个参数的模型，甚至在将来甚至更大的模型。另外，由人类手动书写的图像描述可能是高质量的但昂贵的。但是Internet上有无数带有相关图像的网页。

因此，本文设计了一种弱监督方法（如图1所示），用于从Web收集大规模的图像文本数据，该数据的数量和质量对于视觉语言的预训练任务至关重要。所得数据集LAIT（大型weAk监督的图像文本）包含10M图像及其描述，平均长度为13个单词。我们将在实验中证明LAIT对于视觉语言预训练是有益的。图2给出了一些示例。我们将在下面解释数据收集方法.

网页集合。鉴于所有下游任务都是英文的，从Web上检索了数十亿个网页并丢弃了所有非英文网页。然后，解析每个网页以收集图像URL，并通过HTML标签和DOM树功能检测主要图像。丢弃非主要图像，因为它们很可能与网页内容无关。

基于图像内容的过滤。根据图像内容进一步过滤数据。仅保留宽度和高度均大于300像素的图像。同样，包含色情或淫秽内容的图像也将被丢弃。此外，由于下游任务中的图像都是从现实世界中拍摄的自然，逼真的图片，因此我们应用了二元分类器来丢弃不自然/非现实且不可学习的图像。图3显示了在此过程中已丢弃的不合格图像的一些示例。

句子检测和清洁。使用以下数据源作为图像的文本描述：HTML中用户定义的元数据，例如Alt或Title属性，图像的周围文本等；制定了一系列启发式规则，以过滤出句子中的不良跨度和嘈杂的单词（垃圾邮件/色情内容），并仅使句子保持正常长度。最后们丢弃词汇率较高的句子。

图像文字语义评分。过滤不良图像并清除嘈杂的文本后，要确保文本和图像在语义上相关。利用少量监督的图像文本数据，训练了一个弱的图像文本语义模型来预测对在语义上是否相关，然后将其应用于十亿规模的图像文本对以筛选出不相关的对。语义模型针对数百种功能进行了训练，这些功能包括纯文本功能，图像内容功能和文本图像交叉模式功能。

图像-文本聚合。在某些情况下，一个图像是从多个网页下载的，因此具有不同的文本描述。在这种情况下，仅选择得分最高的对。如果太多图像具有相同的描述，将直接从语料库中删除所有这些图像-文本对。

图4展示了ImageBERT模型的整体架构。与BERT [10]类似，使用Transformer作为基本结构，但同时使用图像视觉标记和文本标记作为输入。图像和文本输入被编码为通过嵌入层进行不同的嵌入，其中图像视觉标记是从Faster-RCNN [24，25]模型中提取的RoI特征。然后，将这些嵌入内容馈送到多层双向自注意变压器中，以学习交叉模态变压器，以对视觉区域和语言标记之间的关系进行建模。

我们首先介绍如何处理输入.

文本embedding。我们采用与BERT类似的单词预处理方法。使用WordPiece [26]方法将输入句子标记为n个子词标记。特殊标记（例如[CLS]和[SEP]）也添加到标记化文本序列中。每个子词标记的最终嵌入是通过将其原始词嵌入，片段嵌入和序列位置嵌入相结合而生成的（稍后将对此进行详细说明）。所有这些嵌入都是从公共预训练的BERT模型初始化的

图像嵌入。与语言嵌入类似，也可以通过类似的过程从视觉输入生成图像嵌入。Faster-RCNN模型用于从图像的ROI中提取特征，以{r_0, r_1..... r_n-1}表示，以表示其视觉内容。检测到的对象不仅可以为语言部分提供整个图像的视觉环境，而且还可以通过详细的区域信息与特定术语相关。我们还通过将相对于全局图像的对象位置编码为5-D向量c .

每次嵌入都投影到一个向量，该向量的嵌入大小与Transformer子层中的隐藏大小相同，然后进行层归一化（LN）。我在标签预测任务中使用检测模型中每个区域的分类标签（将在第4.3节中进行说明）。在我们的消融研究中，我们还尝试在区域特征之外添加全局图像特征。

序列位置和片段嵌入。每个令牌的序列位置嵌入用于指示输入令牌的顺序。对所有视觉标记使用固定的虚拟位置，因为没有检测到的RoI的顺序，并且对象的坐标已经添加到图像嵌入中。对于语言部分，使用升序表示文本描述中的单词顺序。此外，将段嵌入添加到每个输入令牌以区分不同的模式.

由于从不同来源收集了不同的数据集，因此它们可能具有不同的质量水平和噪声分布。为了更好地利用不同种类的预训练数据，我们提出了一个多阶段的预训练框架，如图所示。

5.根据下游任务，应该首先使用大规模的域外数据再使用小规模的域内数据对预训练模型进行训练，以使模型可以更好地收敛于最终任务。在多阶段预训练中，可以将几个预训练阶段（例如，图5中的k + 2阶段）应用于同一网络结构，以依次利用不同种类的数据集。与[27]中提到的训练策略只有一个阶段的语言模型预训练，语言模型的微调和分类器微调分别不同，我们的多阶段框架主要适用于预训练阶段，以便更好地利用异构域外数据集。另一个也提到多阶段概念的工作[28]使用它来解决特征学习中的优化问题，这与我们的多阶段策略有很大的不同。

更具体地说，在我们的ImageBERT模型中，我们使用了两阶段的预训练策略。预训练的第一阶段使用第3节中提到的LAIT数据集，第二阶段使用其他公共数据集，例如概念字幕和SBU字幕。两个预训练阶段都使用相同的训练策略，其中包括我们所有的四个预训练任务。我们还对单阶段预训练进行了实验，该训练同时在所有数据集上进行训练。4.2多阶段预训练，但发现它不如多阶段预训练有效。最终的微调阶段在前两个阶段使用相同的模型和参数，但丢弃所有带有掩盖术语或虚构对象的任务。

在消融研究中，我们还针对图像文本检索任务对不同的微调目标进行了实验。我们将在下面介绍训练前的任务以及微调任务。

在模型预训练期间，我们设计了四个任务来对语言信息和视觉内容及其交互进行建模。

任务4：图像文字匹配（ITM）。除了语言建模任务和视觉内容建模任务之外，我们还添加了ITM任务来学习图像-文本对齐。对于每个训练样本，我们为每个图像随机抽取否定句子，为每个句子随机抽取否定图片，以生成否定训练数据。因此，我们将每个图像-文本对（v，w）的地面真理标签表示为y属于{0, 1}，指示输入样本对是否相关。与BERT相似，我们将[CLS]作为输入序列的第一个标记添加到ImageBERT模型，并在其顶部应用完全连接的层以获得图像-文本相似性评分(v，w）。二进制分类损失用于优化

经过预训练后，我们得到了关于视觉语言联合表示的训练有素的预训练模型。我们对图像文本检索任务进行进一步的微调和评估。该任务包含两个子任务：图像检索和文本检索。给定描述图像内容的输入字幕语句，图像检索的目标是检索正确的图像。文本检索在相反的方向上执行类似的任务。经过两阶段的预训练后，我们对MSCOCO和Flickr30k数据集进行微调。在微调期间，输入序列的格式与预训练中的相同，但在对象或单词上没有任何遮罩。我们提出了与不同的否定采样方法相对应的两个细调目标：图像到文本（每个图像采样否定句子）和文本到图像（每个文本采样负采样）。此外，我们对三种不同的损失进行了实验以获得最佳模型质量：

•二进制分类损失。这是为了确保阴性样本的预测是正确的：阴性样本的输出分数不仅应与阳性样本不同，而且还应使用正确的标签进行预测。对于具有地面真实性标签y属于{0,1},然后应用二进制分类损失进行优化：

•多类分类损失。这是扩大正负样本之间的余量的最广泛使用的损失。对于每个正对（v，w ），我们从不同的字幕或图像中采样.

5.1评估预训练模型

5.2对微调模型的评估我们还对Flickr3k上的训练前数据集的不同组合，全局视觉特征的存在，不同的训练任务等进行了消融实验，从而深入研究了我们的模型结构和训练策略。

训练前数据集。我们使用不同数据集的组合进行训练前实验。结果如表3所示。CC代表仅在概念字幕数据集上进行预训练，SBU代表仅对SBU字幕上进行预训练，LAIT + CC + SBU代表使用LAIT，Conceptual Caption数据集和SBU组合数据集进行预训练，LAIT→CC + SBU代表使用LAIT作为阶段1的预训练，然后继续使用概念字幕和SBU字幕作为阶段2的预训练。我们可以看到，与其他所有设置相比，以多阶段方式使用三个不同的域外数据集可获得明显更好的结果。

全局图像功能。值得注意的是，检测到的RoI可能不会包括整个图像的所有信息。因此，我们还尝试将全局图像功能添加到可视部分。我们使用三种不同的卷积神经网络（CNN）模型（DenseNet [32]，Resnet [11]和GoogleNet [33]）从输入图像中提取全局视觉特征，但发现并非所有度量标准都有改进。结果可以在表4的第1部分中看到。

训练前损失。我们还在预训练中增加了受UNITER [21]启发的MRFR损失，并实现了零射结果的巨大改进，如表4第2部分所示。这意味着添加一项艰巨的任务来更好地对视觉内容进行建模可以促进视觉文本联合学习。

图像中的对象数（RoIs）。为了了解模型中视觉部分的重要性，我们对不同数量的对象进行了实验。在上面的所有实验中，我们都使用100个对象的设置来为预训练任务提供足够的输入图像上下文。在我们的模型中，使用Faster R-CNN模型提取100个RoI，以从检测网络中获得由置信度得分排序的前100名对象。由于对象的某些边界框可能彼此重叠或包含重复信息，因此我们也进行实验以查看不同数量对象的影响。正如我们在表4的第3部分中看到的那样，对象较少（ViLBERT [14]中的对象数量相同），我们的模型在检索任务上没有更好的结果。我们可以得出5.3消融研究的结论，更多的对象确实可以帮助模型获得更好的结果，因为更多的RoI有助于理解图像内容。

微调损耗。对于我们在4.4节中提到的三种损耗，我们在微调过程中尝试将它们进行不同的组合。如表4的第4部分所示，使用二进制交叉熵损失本身可以对图像-文本检索任务提供最佳的优化结果。

在本文中，我们提出了一个新的视觉语言预训练模型ImageBERT，该模型基于Transformer架构并为视觉语言联合嵌入建模。我们还使用弱监督方法从Web上收集了一个大型图像文本训练语料库LAIT，该语料库在当前现有视觉语言数据集中是最大的，并已在多阶段预训练流水线的第一阶段证明了其有效性。。我们可以看到，尽管缺乏精确的人为标签，但大规模的域外数据可以为预训练模型的质量增加价值，并因此受益于相应的下游任务。我们的ImageBERT模型在MSCOCO和Flickr30k的图像检索和句子检索任务上均取得了最新的最新结果。将来，我们将尝试将我们的预训练模型扩展到其他交叉模式任务，例如VQA，VCR和图像字幕。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

论文阅读图片和文本联合训练：IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要：

1引言

2相关工作

3大规模弱监督的图文数据收集

5.1评估预训练模型

你可能感兴趣的:(论文阅读,深度学习,自然语言处理,机器学习)