旅途中的宽~

【计算机视觉】OFA：通过一个简单的seq2seq的学习框架来统一架构、任务和模态

文章目录

一、导读
二、摘要
三、介绍
四、OFA
- 4.1 I/O & Architecture
- - 4.1.1 I/O
  - 4.1.2 Architecture
- 4.2 Tasks & Modalities
- 4.3 预训练数据集
- 4.4 训练与推理
- 4.5 缩放模型
五、实验结果
- 5.1 跨模态任务的结果
- 5.2 单模态任务的结果
- 5.3 zero-shot学习和任务迁移
六、测试结果
七、总结

一、导读

OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE SEQUENCE-TO-SEQUENCE LEARNING FRAMEWORK

OFA支持的各种任务的示例：

论文地址：

https://arxiv.org/abs/2202.03052

代码开源的地址：

https://github.com/OFA-Sys/OFA

二、摘要

在这项工作中，我们追求多模态预训练的统一范式，以打破复杂任务/特定模态定制的框架。

我们提出OFA，一个支持任务全面性的任务不可知论和模态不可知论框架。

OFA在一个简单的序列到序列学习框架中统一了一系列不同的跨模式和单模式任务，包括图像生成、视觉基础、图像字幕、图像分类、语言建模等。OFA在预训练和调优阶段都遵循基于指令的学习（instruction-based learning），下游任务不需要额外的任务特定层。

与最近最先进的视觉和语言模型(依赖于超大的跨模态数据集)相比，OFA仅在2000万公开可用的图像-文本对上进行了预训练。尽管其简单且训练数据相对较小，但OFA在一系列跨模态任务中实现了新的sota，同时在单模态任务中获得了极具竞争力的性能。我们进一步的分析表明，OFA也可以有效地转移到不可见的任务和不可见的领域。

本篇论文的关键词为：

统一框架、多模态预训练、多任务学习、Zero-Shot 学习

三、介绍

在人工智能领域，建立一个无所不能的模型来处理和人类一样多的任务和模式是一个很有吸引力的目标。实现这一目标的可能性可能在很大程度上取决于能否仅用几种可以由单一模式或系统统一和管理的形式来表示大量不同的模式、任务和训练制度。

Transformer架构的最新发展显示了它作为通用计算引擎的潜力。在监督学习的环境中，“预训练-微调”范式在许多领域取得了卓越的成功。在少/零次学习机制下，具有提示/指令调优的语言模型证明了强大的零/少次学习器。

这些进步为全方位模式的出现提供了比以往任何时候都重要的机会。

为了在保持多任务性能和易用性的同时更好地支持开放式问题的泛化，我们主张一个全能模型应该具有以下三个属性：

任务不可知论（task - agnostic, TA）：统一的任务表示，支持不同类型的任务，包括分类、生成、自我监督的借口任务等，对预训练和微调都不可知。
模态不可知（MA）：在所有任务之间共享统一的输入和输出表示，以处理不同的模态。
任务全面性：任务种类足够丰富，能够稳健性地积累归纳能力。

然而，在满足这些特性的同时，在下游任务中保持优越的性能是具有挑战性的。

当前的语言和多模态预训练模型很容易在这些属性的部分上失败，因为它们的设计选择如下:

额外可学习的微调组件，例如，task-specific heads，adapters，soft prompts。

这使得模型结构具有任务特异性，并且在预训练和微调之间存在差异。这样的设计也不利于以Zero Shot的方式支持看不见的任务。

特定于任务的制定。对于目前的大多数方法，预训练、微调和零射击任务通常在任务形式和训练目标上有所不同。这违反了TA，并且为了实现TC而扩大任务数量是很麻烦的。
与下游任务纠缠模态表示。将检测到的物体作为图像输入特征的一部分是视觉语言模型的常见做法。虽然它在一些闭域数据集上展示了更好的下游任务性能，但它依赖于一个额外的对象检测器，而这个检测器通常在开放域数据上失败。

因此，探索了一个多模态预训练的全模型，并提出了OFA，希望是“One for All”，它实现了统一架构、任务和模态的目标，并支持上述三个属性。

通过手工制作的指令在统一的序列到序列抽象中制定预训练和微调任务，以实现任务不可知论。

采用Transformer作为模态不可知的计算引擎，它具有一个约束，即不能将可学习的任务或模态特定的组件添加到下游任务中。

它可用于在跨所有任务的全局共享多模态词汇表中表示来自不同模态的信息。

然后，我们通过对各种单模态和跨模态任务进行预训练来支持任务全面性。

总结如下：

我们提出了支持任务全面性的任务不可知论和模式不可知论框架OFA。OFA是第一次尝试通过一个简单的序列到序列的学习框架，通过统一的基于指令的任务表示，统一以下视觉和语言、纯视觉和纯语言任务，包括理解和生成，例如文本到图像的生成、视觉接地、视觉问答(VQA)、图像字幕、图像分类、语言建模等。
与最近依赖于更大规模配对数据的模型相比，OFA是在公开的2000万图像-文本对数据集上进行预训练的。OFA在图像字幕、视觉问答、视觉蕴涵、参考表情理解等一系列视觉和语言下游任务中取得了最先进的表现。
OFA作为一个多模态预训练模型，在单模态任务上的表现与SOTA在语言或视觉上的预训练模型相当。
我们验证了OFA在Zero Shot学习中达到了有竞争力的性能。此外，它还可以通过新的任务指令转移到不可见的任务，并且无需微调即可适应域外信息。

下图演示了预训练任务，包括视觉接地，接地字幕，图像-文本匹配，图像字幕，VQA，目标检测，图像填充以及文本填充：

四、OFA

提出了OFA，一个统一的Seq2Seq框架，用于统一I/O和架构，任务和模式。具体框架如上所示。

4.1 I/O & Architecture

4.1.1 I/O

多模态预训练最常见的方法是在图像-文本对语料库上大规模地预训练Transformer模型。这需要数据预处理或特定于模态的适配器，以便使用Transformer体系结构对视觉和语言信息进行联合训练。

为了在没有特定任务输出模式的情况下处理不同的模式，必须将各种模式的数据表示在一个统一的空间中。

一种可能的解决方案是将文本、图像和对象离散化，并用统一词汇表中的符号表示它们。图像量化的最新进展已经证明了文本到图像合成的有效性，因此我们将此策略用于目标侧图像表示。稀疏编码在减少图像表示的序列长度方面是有效的。例如，分辨率为256 × 256的图像表示为长度为16 × 16的代码序列。每个离散码与相应的补丁强相关。

除了表示图像之外，还必须表示图像中的对象，因为有一系列与区域相关的任务。接下来，我们将对象表示为离散令牌序列。更具体地说，对于每个对象，我们提取其标签和边界框。边界框的连续角坐标(左上和右下)被统一离散为整数，作为位置标记 $x_1, y_1, x_2, y_2)$ 。

至于对象标签，它们本质上是单词，因此可以用BPE令牌表示。

最后，我们对所有语言和视觉标记使用统一的词汇表，包括子词、图像代码和位置标记。

4.1.2 Architecture

根据之前在多模态预训练中的成功实践，我们选择Transformer作为主干架构，并采用编码器-解码器框架作为所有预训练、微调和零射击任务的统一架构。

具体来说，编码器和解码器都是Transformer层的堆栈。Transformer编码器层由自注意和前馈网络(FFN)组成，而Transformer解码器层由自注意、FFN和交叉注意组成，用于在解码器和编码器输出表示之间建立连接。

为了稳定训练并加速收敛，我们在自注意中加入了头部缩放、后注意层归一化(LN)，以及FFN第一层之后的LN。对于位置信息，我们分别对文本和图像使用两个绝对位置嵌入。我们不是简单地添加位置嵌入，而是将token嵌入和patch嵌入的位置相关性解耦。此外，我们还对文本使用1D相对位置偏差，对图像使用2D相对位置偏差。

4.2 Tasks & Modalities

统一的框架旨在提供跨不同模式和下游任务的体系结构兼容性，以便有机会推广到同一模型中未见过的任务。然后，我们必须在一个统一的范式中表示涉及不同模态的可能的下游任务。因此，预训练任务设计的一个要点是考虑多任务和多模态。

为了统一任务和模式，我们设计了一个统一的序列到序列学习范式，用于对所有涉及不同模式的任务进行预训练、微调和推理。无论是预训练任务，还是跨模态和单模态理解和生成的下游任务，都形成为Seq2Seq生成。可以对多模态和单模态数据进行多任务预训练，使模型具备综合能力。具体来说，我们在所有任务中共享相同的模式，同时我们指定了手工制作的区分指令。

对于跨模态表示学习，我们设计了5个任务，包括 visual grounding (VG)、grounded captioning (GC)、 image-text matching (ITM)、image captioning (IC)和 visual question answering (VQA)。

对于VG，模型根据图像的输入和“文本 $x_t$ 描述的是哪个区域”的指令，学习生成指定区域位置的位置令牌。，其中 $x_t$ 为区域标题。

GC是VG的逆任务。区域： $x_1, y_1, x_2, y_2)$ "对于ITM，我们使用每个原始图像-文本对作为正样本，并通过将图像与随机替换的标题配对来构建一个新的图像-文本对作为负样本。

模型根据输入图像 $x_i$ 和“图像描述 $x_t$ 吗?”的指令，通过学习生成“是”或“否”来区分给定的图像和文本是否配对。

对于图像字幕，这个任务可以自然地适应序列到序列的格式。

该模型根据给定的图像和指令学习生成标题"这个图像的描述是什么？"。

对于VQA，我们将图像和问题作为输入发送，并要求模型学习生成正确的答案。

对于单模态表示学习，我们分别设计了2个视觉任务和1个语言任务。利用图像填充和目标检测对模型进行预训练，用于视觉表征学习。计算机视觉生成式自监督学习的最新进展表明，masked image model是一种有效的预训练任务。

在实践中，我们将图像的中间部分作为输入。该模型根据损坏的输入和指定的指令“中间部分的图像是什么?”来学习生成图像中心部分的稀疏代码。我们还在以下预训练中加入了目标检测。该模型学习基于输入图像和文本“图像中的对象是什么?”生成人类注释的对象表示，即对象位置和标签序列。作为指示。这两个任务都在像素和对象层面上加强了表征学习。对于语言表示学习，在纯文本数据上使用文本填充预训练统一模型。

通过这种方式，我们将多个模式和多个任务统一到一个单一的模型和预训练范式中。OFA与这些任务和数据一起进行预训练。因此，它可以执行不同的任务，包括自然语言、视觉和跨模态。

4.3 预训练数据集

我们通过合并视觉和语言数据(即图像-文本对)，视觉数据(即原始图像数据，对象标记数据)和语言数据(即纯文本)来构建预训练数据集。对于复制，我们只使用公开可用的数据集。我们仔细过滤预训练数据，排除下游任务验证和测试集中出现的图像，以避免数据泄漏。

4.4 训练与推理

我们用交叉熵损失来优化模型

对于推理，我们应用解码策略，例如beam search，以提高生成的质量。

然而，这种范式在分类任务中存在几个问题。

对整个单词表进行优化是不必要的，也是低效的；
在推理过程中，模型可能从封闭的标签集中生成无效的标签。

为了克服这些问题，我们引入了一种基于前缀树（Trie）的搜索策略。实验结果表明，基于Trie的搜索可以提高OFA在分类任务上的性能。

4.5 缩放模型

为了研究不同模型规模的OFA在下游任务中的表现，开发了5个版本的OFA模型，参数规模从33M到940M，我们在表1中列出了它们的详细超参数。

更具体地说，建立了 Base 和 Large 尺寸的基本模型，即 OFABase 和 OFALarge。由于我们的网络配置与BART相似，它们的大小与BARTBase和BARTLarge相似。

此外，还开发了更大尺寸的OFA，将其命名为OFAHuge，或者在表格中没有具体提及的OFA。其规模与SimVLMHuge或ViTHuge相当。为了研究更小的OFA是否还能达到令人满意的性能，继续开发了OFAMedium和OFATiny，它们的大小只有OFBase的一半左右和不到20%。

五、实验结果

5.1 跨模态任务的结果

我们在不同的跨模态下游任务上评估了我们的模型，包括跨模态理解和生成。

具体来说，我们在多模态理解数据集上进行了实验，包括用于视觉问答的VQAv2和用于视觉蕴含的SNLI-VE，以及多模态生成，包括用于图像字幕的MSCOCO Image Caption、用于引用表达理解的RefCOCO / RefCOCO+ / RefCOCOg，因为该任务可被视为bounding boxes生成，以及用于文本到图像生成的MSCOCO Image Caption。

下表显示了OFA和基线模型在VQA和SNLI-VE上的表现。总的来说，OFA在这两项任务中都取得了最好的表现，在VQA测试-std集上取得了82.0分，在SNLI-VE测试集上取得了91.2分。对于较小的模型，OVALarge可以超过最近的SOTA，例如VLMo和SimVLM，而OFBase可以在两个任务中击败上述两个模型之前的SOTA。这表明OFA可以在跨模态理解任务上取得优异的表现，而且扩大OFA的规模可以带来明显的改进，反映了大规模预训练模型的强大潜力。

下表展示了OFA和基线模型在MSCOCO图像字幕数据集上的表现。

我们报告了Karpathy测试分割的结果，我们展示了用交叉熵优化和另外用基于强化学习的CIDEr优化训练的模型的性能。与之前的SOTA SimVLMHuge的交叉熵优化相比，OFA在CIDEr评估中优于它约2分。对于CIDEr优化，3种规模的OFA都超过了巨大规模的LEMON，OFA展示了一个新的SOTA，即154.9的CIDEr得分。到2022年5月31日，单一型号的OFA已经在MSCOCO图像字幕排行榜上名列前茅。

为了评估视觉定位的能力，我们对RefCOCO、RefCOCO+和RefCOCOg进行了实验。

虽然我们将位置统一到单词表上，但视觉定位可以被看作是一个序列生成任务。由于每个查询只有一个目标，我们将生成长度限制为4，以便通过< x1, y1, x2, y2>生成一个bounding boxes。

下表的实验结果显示，OFA在3个数据集上达到了SOTA的性能。与之前的SOTA UNICORN相比，OFA在RefCOCO和RefCOCO+的testA集以及RefCOCOg的test-u集上获得了3.61、6.65和4.85分的显著改善。

即使对于经过预训练的模型，文本到图像的生成也是一项具有挑战性的任务。由于我们用 "图像填充 "任务对OFA进行了预训练，即通过生成相应的代码来恢复被masked的碎片，因此OFA能够生成代码。

因此，我们在MSCOCO图像字幕数据集上直接对OFA进行微调，以实现文本到代码的生成。在推理阶段，我们另外用代码解码器将生成的代码转换为图像。具体来说，我们使用来自VQGAN的代码，遵循。实验结果表明，OFA在所有指标上都优于基线。需要注意的是，在推理过程中增加抽样大小预计会给FID和IS带来明显的改善。与DALLE、CogView和NÜWA相比，其采样规模分别为512、60和60，OFA在FID和IS上的表现优于这些SOTA方法，采样规模小得多24。这说明OFA在查询文本、图像和图像代码之间学会了更好的对应关系。

我们将OFA与CogView和GLIDE在正常和反事实查询的生成质量上进行了比较。正常查询描述了现实世界中的现有事物，而反事实查询指的是那些描述只能存在于我们想象中的事物。对于正常的查询，CogView和OFA都能生成与给定文本语义一致的图像，与GLIDE相比。从我们的模型中生成的例子可以提供更复杂的目标细节，例如马和双层巴士。对于反事实的查询，我们发现OFA是唯一能够生成三个想象中的场景的，这表明它的想象力是基于其强大的将文本与图像对齐的能力。

与最先进的文本-图像生成任务模型的定性比较：

5.2 单模态任务的结果

由于OFA的设计统一了不同的模态，我们对其在单模态任务上的表现进行评估，即自然语言和计算机视觉的任务。对于自然语言任务，我们在GLUE基准的6个自然语言理解任务和Gigaword抽象总结的自然语言生成任务中评估OFA。

对于计算机视觉，我们在经典的ImageNet-1K数据集上评估OFA，用于图像分类。

由于OFA已经在纯文本数据上进行了预训练，它可以直接迁移到自然语言的下游任务。

对于自然语言生成，它基本上是一个seq2seq的生成任务，对于自然语言表6：GLUE基准数据集的实验结果。

为便于比较，我们列出了多模态预训练模型以及最近只在自然语言数据上预训练的SOTA模型的性能。我们从MNLI上微调的checkpoint开始微调RTE和MRPC。

在理解方面，典型的是文本分类，我们把它们视为生成任务，其中标签基本上是单词序列。此外，对于每个任务，我们设计了一个手动指令，以表明模型应该回答什么类型的问题。

我们证明，即使是一个统一的多模态预训练模型也能在自然语言任务中取得极具竞争力的表现。具体来说，在自然语言理解的评估中，OFA在所有任务中都以较大的优势超过了多模态预训练模型。与最先进的自然语言预训练模型，包括RoBERTa、XLNET、ELECTRA和DeBERTa相比，OFA达到了相当的性能。在自然语言生成的评估中，OFA甚至在Gigaword数据集上达到了新的最先进的性能。

同时，OFA在图像分类方面也能达到一个有竞争力的性能。下表显示了OFA在图像分类上的表现。OFALarge比以前的主干模型如EfficientNet-B7和ViT-L取得了更高的准确性。

我们还将OFA与基于对比学习和masked图像建模的自监督预训练模型进行比较。OFA的性能优于基于对比的模型，如SimCLR和MoCo-v3，参数相似。与基于masked图像建模的预训练模型，如BEiT-L和MAE-L相比，OFA可以达到类似的性能。

上述在自然语言和视觉任务中的结果表明，一个统一的多模态预训练模型不仅在多模态任务中有效，而且还能处理单模态任务，在未来，这样的模型可能足以解决有关不同模态组合的复杂任务。

5.3 zero-shot学习和任务迁移

指令指导下的预训练使OFA能够进行zero-shot推理。继Uni-Perceiver之后，我们在GLUE基准的6个任务中评估我们的模型，包括单句分类和句对分类。下表显示，OFA总体上优于Uni-Perceiver。然而，两个模型在句对分类中都没有达到令人满意的表现（Acc. < 60%）。我们假设，预训练数据集中缺失的句对数据导致了性能的下降。

另外，我们发现模型的性能对指令的设计非常敏感。为了获得最好的结果，应该在可能的情况下从大量的候选指令库中寻找一个合适的指令模板。手动提示或模型参数的轻微变化可能会极大地影响模型的性能，这并不稳健。我们把这个问题留给未来的工作。

我们观察到，该模型可以通过新的任务指令很好地迁移到未见过的任务中。我们设计了一个新的任务，叫做定位的问答，并在下图中展示了例子。

在这种情况下，给定一个关于图像上某一区域的问题，模型应该提供一个正确的答案。我们发现，该模型在这个新任务中能取得令人满意的表现，这反映了其强大的可迁移性。此外，OFA可以解决域外输入数据的任务。例如，在域外图像的VQA中，不经过微调的OFA就取得了令人满意的性能。

下图中展示了一些例子。OFA还可以对域外图像，如动漫图片、合成图像等，进行准确的视觉定位。

对一个未见过的任务接地的QA的定性结果。我们设计了一个新的任务，叫做定位的问答，模型应该回答关于图像中某个区域的问题。

未见过的领域VQA的定性结果。在预训练期间，只有真实世界的照片被用于VQA。我们介绍了域外图像的VQA案例，即标志性的和科幻性的图像，并展示了它们迁移到未见域的能力。

文本到图像生成的例子。为了更好地演示，我们继续在LAION-400M的一个子集上对OFA进行微调。

更多关于未见过的领域的VQA任务的样本。答案是由预训练的OFA产生的，没有进行微调。用于VQA预训练任务的数据集只包含真实世界的照片。我们提出了更多关于域外（非照片）图像的VQA任务案例，并展示了将OFA迁移到这些未见域的能力。

未见过的定位问答任务的样本。在这个任务中，模型应该回答一个关于图像中某个特定区域的问题。这个任务在预训练中是未见过的。我们证明，直接将预训练的OFA迁移到这个新的任务，而不进行微调，效果很好。

六、测试结果

七、总结

在这项工作中，我们提出了OFA，一个支持任务全面性的任务无关和模态无关框架。OFA实现了架构、任务和模态的统一，因此能够实现多模态和单模态的理解和生成，而不需要额外的层或任务的规范。我们的实验表明，OFA在一系列的任务中创造了新的SOTA，包括图像字幕、VQA、视觉蕴含和指代表达理解。在单模态理解和生成任务中，例如GLUE、抽象概括和图像分类，OFA也表现出与语言/视觉预训练的SOTA模型相当的性能。我们提供了进一步的分析，以证明其在zero-shot学习和领域及任务迁移方面的能力，同时我们也验证了预训练任务的有效性。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S