Marlowee

【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

Name: ALBEF
Key words: Multimodal; Contrastive Learning; Knowledge Distillation
Year: 2021
Source: NeurIPS
Paper: https://arxiv.org/abs/2107.07651
Code: https://github.com/salesforce/ALBEF

本文介绍了一种名为ALBEF的高效视觉语言模型，采用了对比学习预训练的方式，能够学习到图像和文本之间的丰富关系，为视觉问答、图像分类、图像生成等下游任务提供更好的表征。ALBEF主要由三部分组成：image encoder、text encoder&multimodal encoder、momentum model。它的预训练目标主要包括对比损失、掩码语言重建任务和图像文本匹配任务的损失函数。此外，作者还提出了一种Momentum Distillation的方法，用于从动量模型生成的伪目标中学习，以便有效学习带噪声的图像文本对。实验结果表明，ALBEF在多个下游任务中表现出色，具有广泛的应用前景。

1 讲故事

视觉语言模型的目的在于从大规模的图像文本对中学习多模态表征，用以提升下游的视觉语言任务性能。目前的大多数方法都依赖预训练的目标检测器来提取图像特征，然后再使用一个multimodal encoder来融合图像特征和token embedding，虽然这种方法有效，但是却有三点限制

1）基于object detector的region feature需要较高的注释成本和计算成本，有效但不高效

2）图像的区域特征和文本的嵌入向量都是在各自的特征空间提取的，只在multimodal encoder中进行特征交互，具有一定的建模困难

3）现在的大多数网络收集的大规模图像文本对数据集具有一定程度的噪声，上述方法的预训练目标（MLM、ITM）可能会过拟合，消解网络的泛化能力

因此，针对上述限制，作者提出了align before fuse模型，首先分别使用object-free的图像特征编码器和文本编码器分别提取到图像和文本输入的特征，随后使用multimodal encoder融合文本图像中的跨模态信息，并使用image-text contrastive loss来对齐不同模态的特征信息。ALBEF模型有三个优点

(1) 该模型调整了图像和文本特征之间的对齐关系，使跨模态编码器更容易执行跨模态学习

(2) 改善了单模态编码器对图像和文本语义意义的理解

(3) 学习了一个常见的低维空间来嵌入图像和文本，这使得图像-文本匹配目标通过对比hard-negative样本的挖掘来找到更有信息量的样本

2 看故事

除了ALBEF之外，还有一些重要的视觉语言模型，例如：

VisualBERT：使用Transformer编码器和解码器来执行多模态任务，单流模型，在输入端进行text-image-feature拼接
ViLBERT：使用视觉和语言双向嵌入来处理视觉问答和自然语言推断等任务，双流模型，单独使用region-feature encoder和text-encoder提取特征，通过transformer layer（encoder）进行co-attention的阔模态交互
LXMERT：在ViLBERT的基础上进行了改进，使用了更强大的特征提取器和更复杂的多模态交互机制
UNITER：使用Transformer编码器和解码器来执行多模态任务，同时使用了对比学习和知识蒸馏等技术
ViLT：使用对比学习来预训练视觉语言模型，为下游任务提供强大的多模态表征。单流模型，输入前就特征拼接。由于单流模型无法分别提取text or image feature，故作者在得到encoder输出后又过了一层pooler，目的在于将输出投影到2d上进行logits，选择对数似然最为ITM的损失

每个模型都有其独特的结构和预训练目标，旨在学习多模态表征以提高下游任务的性能。接下来可以通过网络模型及预训练目标的对比更好地理解ALBEF模型。

2.1 网络结构概览

主要看单流模型VisualBERT、ViLT以及双流模型ViLBERT与ALBEF的对比

2.1.1 VisualBERT

VisualBERT是一种强大的单流视觉语言模型，采用Transformer编码器和解码器架构来学习多模态表征，以用于各种下游任务。在输入端，VisualBERT接受文本和图像特征的拼接，得到文本和图像的联合表示。

该模型的预训练目标包括Masked Language Modeling（MLM）和Image-Text Matching（ITM）。MLM是一种语言建模目标，模型在此目标下受到训练，以预测输入文本中的掩码单词。ITM是一种目标，模型在此目标下受到训练，以评分图像和相应文本说明之间的相似性。这些目标确保VisualBERT能够理解文本和图像输入之间的关系，并生成能够捕捉两种模态的语义意义的有意义表示。

VisualBERT使用对比损失函数来训练模型，旨在最大化正样本图像-文本对之间的相似性，并最小化负样本之间的相似性。对比损失函数包括图像和文本输入之间的相似度度量和负样本度量，鼓励模型区分相似和不相似的图像-文本对。这种训练方法使VisualBERT能够学习到强大的多模态表示，可用于各种下游任务。

总的来说，VisualBERT是一种非常有效的模型，用于学习文本和图像的联合表示，并在各种视觉语言任务中取得了最先进的性能。它采用了Transformer编码器和解码器架构，以及预训练目标和对比损失函数，使其成为自然语言处理和计算机视觉任务中涉及多模态数据的强大工具。

WARNING：上面几段话是GPT生成的

2.1.2 ViLBERT

ViLBERT是一种先进的视觉语言模型，利用了BERT（双向编码器表示来自Transformer）的强大功能，学习图像和文本的联合表示。ViLBERT是双流模型，包含两个独立的编码器：一个用于处理文本，另一个用于处理图像。每个编码器由多个Transformer层组成，这是一种在自然语言处理和计算机视觉任务中取得巨大成功的神经网络架构类型。

ViLBERT的输入是图像和文本，其中图像输入是一组视觉区域，每个区域由特征向量表示，文本输入是由单词嵌入向量组成的句子。ViLBERT的输出是表示图像和文本之间关系的向量。

ViLBERT的预训练目标包括Masked Language Modeling（MLM）和Image-Text Matching（ITM）。MLM是一种语言建模目标，ViLBERT在此目标下受到训练，以预测输入文本中的掩码单词。ITM是一种目标，ViLBERT在此目标下受到训练，以评分图像和相应文本说明之间的相似性。

ViLBERT使用对比损失函数来训练模型，它旨在最大化正样本图像-文本对之间的相似性，同时最小化负样本之间的相似性。对比损失函数包括图像和文本输入之间的相似度度量和负样本度量，鼓励模型区分相似和不相似的图像-文本对。

WARNING：上面几段话是GPT生成的

ViLBERT的设计其实就跟ALBEF对比学习任务很像了，拿fig3(b)来看，ViLBERT使用的预训练目标是图像文本对匹配任务，具体而言是抽取image encoder输出的IMG token和text encoder输出的CLS token，二者代表了各自模态上的全局特征，因此可以直接将二者相乘计算相似度，从而判断文本信息和图像信息是否匹配，得出Aligned or Not Aligned的最终输出。

其实fig(a)也有好玩的一点，因为还有一个MML多模态掩码重建的训练目标，所以不仅要对文本掩码重建（这一点大家都熟，就不赘述了），还要对图像掩码重建。这里的图像其实更具体而言是特征区域（feature-region），也就是通过预训练的Faster-RCNN提取的区域，显而易见他们的尺寸也是不相同的，所以直接预测这个特征区域像素点是不可行的。所以作者这里转化了一下思路，从元素个体而言，不同的特征区域像素值肯定有差异，而从区域整体而言，不同特征区域的分布肯定也存在差异，所以作者直接去预测特征区域的分布，使用KL散度来衡量预测分布与真实分布之间的差异，并最小化这个差异

概念

KL散度（Kullback-Leibler Divergence）是一种度量两个概率分布之间差异的方法。它可以用来比较两个概率分布的相似性或差异性，也可以用来评估一个概率分布对另一个概率分布的逼近程度

公式

$D_{KL}=(P||Q)=\sum_{i=1}^{N}[p(x_i)\log p(x_i)-p(x_i)\log q(x_i)]$

其中 $P$ 和 Q 分别表示两个概率分布，i表示样本空间中的第 i 个元素。KL的值越小，表示两个概率分布越相似；KL 的值越大，表示两个概率分布越不相似。

举个例子：

班里男生占40%，女生占60%，则班里随机抽取一个人的性别的概率分布是Q = [0.4, 0.6]

小明猜测班里男生占30%，女生占70%，则小明拟合的概率分布P1 = [0.3, 0.7]

小红猜测班里男生占20%，女生占80%，则小红拟合的概率分布P2 = [0.2, 0.8]

$KL_1=[0.3\times\log(0.3)-0.3\times\log(0.4)]+[0.7\times\log(0.7)-0.7\times\log(0.6)]=0.0216$

$KL_1=[0.2\times\log(0.2)-0.2\times\log(0.4)]+[0.7\times\log(0.8)-0.8\times\log(0.6)]=0.0915$

$KL_1KL1<KL2$

2.1.3 ViLT

ViLT（Vision-and-Language Transformer）是一种使用对比学习预训练的视觉语言模型，设计目的是学习多模态表征以提高下游任务的性能。具体而言，ViLT采用单流模型，输入前特征拼接，输入由文本和图像特征组成。

ViLT的输入包括图像和文本信息。其中，图像输入是一组图像特征，每个特征是对图像的不同区域进行编码得到的。文本输入是由单词嵌入向量组成的句子，这些单词嵌入向量可以通过预训练的方式得到。

在预训练阶段，ViLT使用了对比学习的方法，最大化正样本的相似性并最小化负样本之间的相似性。具体而言，该模型使用了多种损失函数，包括图像和文本输入之间的相似度度量和负样本度量，以鼓励模型区分相似和不相似的图像-文本对。该模型使用的损失函数旨在最小化正样本图像-文本对之间的距离，同时最大化负样本之间的距离。这种训练方法使ViLT能够学习到强大的多模态表示，可用于各种下游任务。

ViLT的预训练目标是使用对比学习来预训练视觉语言模型，以便为下游任务提供强大的多模态表征。模型输出是表示图像和文本之间关系的向量。该向量可以用于下游任务，如视觉问答、图像分类、图像生成等。ViLT的设计目的是学习多模态表征以提高下游任务的性能。

总的来说，ViLT是一种高效的视觉语言模型，具有强大的多模态表征能力。使用对比学习预训练的方式，ViLT能够学习到图像和文本之间的丰富关系，从而为下游任务提供更好的表征。ViLT的设计使其适用于多种下游任务，是一种在视觉语言领域有着广泛应用前景的模型。

WARNING：上面几段话是GPT生成的

感觉Transforemrs提出来之后，图像端再用object-detector去提特征的方法就慢慢被舍弃了，主要是由于CNN的计算消耗大而且这种方法后处理也挺费劲

2.1.4 ALBEF

网络结构

ALBEF主要包括三部分：1）image encoder，使用的12层的视觉Transformer ViT-B/16，使用ImageNet-1k上的预训练权重提特征；2）text encoder&multimodal encoder：两部分加起来相当于一个bert-base模型，也就是说相当于用了一个解耦的bert模型，前半部分作为text-encoder，后半部分联合image-tokens就行跨模态学习；3）momentum model，主要是为了有效学习带噪声的图像文本对，具体细节后边再说

输入输出

ALBEF的输入跟大部分的双流网络相同，即各自encoder接收的视觉特征或文本特征

输出有两部分，一部分是用于对比学习的输出，这部分输出只提取cls token来计算相似度；另一部分则是multimodal的输出，用于掩码重建任务及图像文本对匹配任务；

损失函数&预训练目标

首先是对比损失，利用image encoder、text encoder输出的特征做对比，但是这部分输出只提取cls token来计算相似度，并且会将这个768-d的token映射到256-d后，再计算image与text的相似度，公式如下图所示，其中的g是768→256的线性投影层

其次是掩码语言重建任务的建模损失，这部分主要是用图像和上下文的文本信息进行掩码重建，不再赘述

最后是图像文本匹配任务的损失。也是使用multimodal encoder的cls token作为多模态的联合表示，通过一个线性投影层预测是否匹配，其损失函数如下

其实刚开始我都没区分清楚图像文本对比ITC和图像文本匹配ITM的差异在哪里，于是又回头看了之前综述讲过的VisualBERT、ViLBERT、ViLT，才有点头绪。

用我的理解来说，ITC主要是利用单个模态的输出进行对比学习，而ITM则需要利用跨模态中的信息进行匹配，虽然说二者都是使用代表全局信息的cls token，但是token所包含的信息是有不同的侧重点的。所以在ITC中，要计算图像文本是不是相关，还需要将二者点乘后得到联合信息投影，而ITM则直接将最后得到的CLS token进行投影。

ALBEF总损失/总预训练目标：

Momentum Distillation

用于预训练的图像文本对大多都收集自网络，往往都包含噪声。因此，正样本对经常是弱相关的，即文本包含和图像无关的文字或图像包含文本中没有描述的实体。对于ITC学习，图像的负样本文本可能也会匹配图像的内容。对于MLM，可能存在其他和标注不同的词能够更好地描述图像。但是ITC和MLM的one-hot标签会惩罚所有负标签预测，不考虑它们的正确性。

为了解决这一问题，作者提出从动量模型生成的伪目标中学习。动量模型是一个不断发展的教师模型，包含单模态和多模态编码器的指数移动平均版本。在训练过程中，作者训练基本模型使得它的预测值和动量模型的相匹配。对于ITC，作者首先使用来自动量单模态编码器的特征计算图像文本相似度，然后计算伪目标。

作者展示了伪目标中前5个候选对象的示例，有效地捕捉了图像的相关单词或文本。

2.2 下游任务表现

作者首先在加噪的总共14.1M的Conceptual数据集上进行预训练，结果如下

table1展示了不同变体在各种下游任务上的性能表现，基本上添加新的预训练目标在一定程度上能够提升模型性能，并且模型性能也会受到参数规模的影响

table2-4展示了不用下游任务中的模型表现，ALBEF在图像文本检索任务Flickr30k中的性能还是比较出色的，在参数量只有CLIP的1/28情况下超了6个点

其实最让我感兴趣的还是作者在附录中展示的交叉注意力图的可视化，可以看到模型不仅能分辨出真实世界中的客观实体，还能学习到抽象的关系或者动作，像working、wearing、old这种信息都能学到，牛的！

复盘

Q1 故事讲完整了吗

我觉得应该算是比较完整了。对于开篇提出的三个问题：image encoder效率低、input info交互性低、带噪数据泛化能力低，分别提出了解决方法：pretrained ViT-B/16、ITC&ITM、Momentum Distillation

Q2 故事新颖在哪里

主要是把bert-base解耦，也就是针对第二个问题的部分吧。其实这篇文章并不是一开始就找到研读的，一开始是在看CVPR2023的一篇多模态预训练工作CoCa（性能炸裂，争取过两天读明白写个博客），CaCo的创新点跟ALBEF的创新点不是完全相同，就是一模一样，这里放个CoCa的网络结构，所以先看了这篇早期的工作。

ALBEF的故事中把ITC&ITM都用上了，属于是既要又要了，既要学习单个模态在各自空间上的关联，又要学习交叉注意力后的联合信息。

Q3 为什么想到解耦bert-base，还有其他方法吗？

没想清楚，留个坑

掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
深度剖析AI人工智能在自动驾驶中的系统优化 AI云原生与云计算技术学院人工智能自动驾驶机器学习 ai
深度剖析AI人工智能在自动驾驶中的系统优化关键词：AI人工智能、自动驾驶、系统优化、传感器融合、决策算法摘要：本文深入探讨了AI人工智能在自动驾驶系统中的优化问题。从自动驾驶的背景入手，详细解释了相关核心概念，如传感器、决策算法等。阐述了这些核心概念之间的关系，介绍了核心算法原理和具体操作步骤，还通过数学模型和公式进行了理论支持。给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探
AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安 | 不摸鱼的独立开发者日报（第36期）不摸鱼_ 不摸鱼的独立开发者日报人工智能科技产品经理 microsoft 个人开发游戏
✍️说明日报相关信息：网站：https://daily.nomoyu.com/RSS：https://daily.nomoyu.com/rss/rss.xml欢迎一起沟通交流AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安“人工智能教父”GeoffreyHinton在访谈中表示，他对自己毕生的工作成果表示深切忧虑，并致力于警告世界AI带来的巨大风险，他的主要观点如
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
openai-go v1.6.0版本详解：新增功能与优化全面解析福大大架构师每日一题文心一言vschatgpt golang easyui 开发语言
一、前言openai-go作为OpenAI官方提供的Go语言客户端库，一直备受广大Go语言开发者关注和喜爱。随着人工智能技术的飞速发展，openai-go的迭代速度也在不断加快。最近，openai-go发布了v1.6.0版本，该版本带来了多项新功能和优化，进一步提升了API的灵活性和开发者体验。本文将基于官方发布的完整更新日志，深入解析v1.6.0版本的新增功能、改进细节及实际应用，帮助读者全面掌
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Deepseek：多轮对话与上下文拼接 chilavert318 熬之滴水穿石 ai
今天的内容，应该很好理解。我们先从场景切入来理解。首先，你回想一下，有没有遇到过这样的情况：和朋友聊天时，聊了一会儿，突然朋友说起之前的某个话题，你却有点反应不过来，得努力回忆之前说了啥。人工智能之所以“智能”，因为它就不可能这么健忘。在和Deepseek聊天，在多轮对话中，Deepseek就像一个记忆力超强的小伙伴，能清楚记得你们聊过的每一个重要细节，让对话一直顺顺畅畅。这背后呀，藏着Deeps
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
智能体综述和参考资料整理木鱼时刻大模型人工智能
目录总体介绍核心组件记忆系统工具系统计划与推理开发框架Single-AgentMulti-Agent智能体平台技术实现通信协议角色系统对话记忆MCP协议参考链接总体介绍智能体（AIAgents）是人工智能领域的重要发展方向，它们能够通过传感器感知环境并通过执行器对环境采取行动。根据罗素和诺维格在《人工智能：一种现代方法》（2016年）中的定义，AIAgent是任何可以通过传感器感知其环境并通过执行
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
Deepoc大模型在半导体技术芯片性能应用协助突破物理极限 Deepoch 人工智能网络智能化 AI 科技数据分析硬件工程信息与通信
半导体垂直大模型在芯片设计中的应用与技术突破半导体垂直大模型（SemiconductorVerticalLLM）是专为芯片设计、制造与优化领域训练的大规模人工智能模型，其通过融合半导体物理、工艺知识、设计规则及行业经验，正在重构芯片开发全流程。以下从设计流程革新、性能优化、可靠性提升三大维度，结合具体技术路径与行业案例，解析其应用场景与价值。Deepoc模型在半导体技术应用中取得了巨大突破，可以协
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

1 讲故事

2 看故事

2.1 网络结构概览

2.1.1 VisualBERT

2.1.2 ViLBERT

2.1.3 ViLT

2.1.4 ALBEF

2.2 下游任务表现

复盘

你可能感兴趣的:(文献阅读,NLP,计算机视觉,深度学习,人工智能)