TechBeat人工智能社区

【无标题】大模型时代，视觉推理任务竟然只用语言数据也能学习

原文链接：https://www.techbeat.net/article-info?id=4394
作者：seven_

要让AI模型真正具备智能感知和认知的功能，我们就不得不把视觉分析和自然语言理解二者结合起来进行研究。AI大模型社区的成长为我们带来了很多极具想象力和创造力的新应用，例如CLIP加持下的文本图像合成模型，以及GPT-3加持下的智能问答机器人等等。这些模型无疑都是通过大规模的文本图像数据对训练得到的，如果我们深究这些模型的训练结果，我们会发现，在这种训练设置下，模型会构建出一个相比以往单模态模型更加丰富、鲁棒的视觉语言联合嵌入空间。如果能够将该嵌入空间独立提取出来，我们是否能够在其基础上开发出具有更多功能的AI模型呢。
基于这种灵感，本文作者提出了一种名为CLOSE（Cross modaL transfer On Semantic Embeddings）的跨模态大模型，需要注意的是，CLOSE仅需要语言数据训练，而抛弃对图像的特征提取就可以完成大多数视觉任务，这在其他传统视觉任务框架中是不敢想象的。这都得益于其加载了利用对比学习范式训练的视觉语言编码器联合嵌入空间，CLOSE可以在图像字幕生成（Image Captioning）、视觉蕴含推理（Visual Entailment）和视觉问答（Visual Question Answering）三个高层次视觉任务上得到非常好的推理性能。此外作者还考虑到在实际应用时，不同模态的嵌入空间在对比模型中可能存在一些系统性的差异，本文分析了这些差异对模型的影响，并研究了各种策略来缓解这一问题。

论文链接：
https://arxiv.org/abs/2211.09778
代码链接：
https://github.com/allenai/close

一、引言

虽然视觉分析和自然语言处理通常被认为是两种截然不同的任务，但模型完成这些任务所需的推理能力往往有很大程度的重合。例如

视觉问答（visual question answering）和阅读理解问答（reading comprehension question
answering）都需要模型能够解析和理解问题。
视觉蕴涵（visual entailment）和文本蕴涵（textual entailment）都需要模型能够对不同的语义进行比较。
字幕生成（captioning）和摘要生成（summarization）都需要模型能够编写总结性的文本。

作者在此基础上提出了一个假设：如果一个模型学会了使用输入文本的高级语义表征来完成其中的一项任务，那么从理论上讲，只要输入的图像被编码为相同的语义表征，它就可以无需训练而完成其他相应的视觉任务。因此作者仅使用自然语言数据来训练模型，然后使用视觉输入得到语义表征进而完成推理任务。作者称之为零样本跨模态迁移（zero-shot cross-modal transfer），因为它需要将从一种模态学到的知识应用到另一种模态中。

为了实现上述的零样本跨模态迁移，首先需要将图像和文本编码到一个共享的语义空间中，作者使用了CLIP模型[1]作为基础backbone，CLIP编码器可以将语义匹配的图像和文本向量在嵌入空间中拉近，而将不相关的对象拉远。在此基础上作者提出了跨模态迁移CLOSE模型，下图展示了CLOSE的整体框架，在训练阶段，使用冻结的文本编码器将文本输入编码为一个向量，然后将其作为模型的输入。在测试阶段中，通过一个图像编码器来对输入图像进行编码，用来代替之前的文本嵌入。由于这些编码器可以产生较为接近的语义向量，这使得在下游任务中实现跨模态迁移成为可能。

但是这种方式的一个潜在风险是，不同模态的嵌入向量或多或少都存在一些差异，为了解决这一问题，作者提出了一个适应模块（adapter）在训练阶段对文本向量和视觉向量进行修正，作者通过实验发现，对其添加一些高斯噪声会对最终模型的性能有所提升。作者发现仅通过上述方式训练得到的CLOSE模型已经可以与在图像数据上训练的方法性能保持持平，这也证明了两种模态的高度可迁移性。

此外，作者还表明CLOSE模型也可以通过机器生成数据进行训练，而无需费时费力的人工标注，要知道目前机器生成文本相比生成图像的成本小得多。作者选用GPT-3[2]来生成图像字幕，并结合一些真实数据，例如来自互联网上的评论数据、书籍等等训练模型，CLOSE在这些文本上训练得到的结果可以为任意给定的真实图像生成准确逼真的字幕描述，生成效果如下图所示。

二、本文方法

CLOSE模型的构建整体上呈现简洁的特点，其首先通过对比学习范式得到较为理想的视觉文本联合嵌入空间，随后在此基础上构建模型，在模型训练阶段，主要对已加载的预训练语言模型进行微调，微调时遵循生成式任务的训练范式。最后通过高斯噪声干扰的方式缓解不同模态之间的空间差异，提高模型性能。下面我们将详细介绍其中的一些技术细节。

2.1 对比学习基础范式

对比学习模块的主要目的是对语义相近的图像输入和文本输入得到一个联合嵌入，这需要两个独立的视觉和文本编码器，这些编码器通过InfoNCE损失函数进行训练，其中对于N个成对图像文本进行编码以生成一组视觉向量 $\left\langle u_{1}, u_{2}, \ldots u_{n}\right\rangle$ 和文本向量 $\left\langle v_{1}, v_{2}, \ldots v_{n}\right\rangle$ 。然后对于其中的每对图像和文本向量，计算logits为 $l_{i j}=e^{t} \frac{v_{i}}{\left\|v_{i}\right\|} \frac{u_{j}}{\left\|u_{j}\right\|}$ ，logits代表向量之间的余弦相似度乘上相应的学习比例系数 $t$ 。然后，这些logits向量输入到交叉熵损失中进行优化。我们可以将语义匹配图像和文本向量作为正样本，将不匹配的图像和文本向量作为负样本。这就满足了对比学习的基本范式，使配对的图像和文本向量之间的余弦相似度变大，而未配对的图像和文本向量之间的相似度变小，这种方式目前已经被证明可以较为完美的应用在很多大规模数据场景中。

2.2 模型构建

CLOSE的构建过程本质上仍然遵循对比学习模型的微调过程，主要针对输入文本进行微调。具体而言，首先对输入的图像和文本特征向量进行规范化到单位长度，使其在特征维度方面与对比嵌入空间进行匹配。随后该向量会通过一个线性层来转换为若干个向量，向量维度与语言编码器保持一致。接下来，其他类型输入，例如VQA任务中的问题文本被标记化编码到语言模型的嵌入层中，与已编码好的文本图像向量进行拼接，构成一个语言模型可处理的输入序列。为了简单起见，作者对所有的任务都进行生成式的训练，例如分别为图像字幕生成，视觉问答，视觉蕴含推理任务生成一段描述、一个问题的答案和一个类别的名称。在模型训练阶段，文本编码器的参数需要冻结，而只微调语言模型和线性层，以确保在预训练期间模型已学到的文本和图像向量之间的对应关系得到保留。

2.3 模态差异和高斯噪声干扰

在跨模态的模型迁移中，来自同一个对比模型的文本和图像向量仍有可能具有很大的差异，这种现象被称为模态差异。例如在COCO captions数据集中，一幅图像与其成对的标题之间的平均余弦相似度只有0.26，而两个不相关的标题之间的平均相似度是0.35，作者在下图（a）中对这种差异进行了可视化。出现这一现象的根本原因是，对比模型使用的交叉熵损失只要求配对的图像和文本向量相对于随机的一组图像和文本对接近即可，这种设定其实是不合理的。

因此作者提出了一种简单有效的解决方案，即在训练阶段为模型加入一个适应模块，将从标准正态分布中提取的高斯噪声添加到文本向量中，然后通过超参数 $w$ 进行缩放。直观地说，这种噪声要求模型对输入向量的微小变化保持一定的稳定性，从而更好地应对从文本向量切换到图像向量产生的特征波动。上图（b）为加入高斯噪声的结果，我们可以观察到，即使是在 $w = 0.1$ 尺度下，加入噪声也会增强嵌入空间的稳定性。当输入的语义略有改变时，添加噪声还可以帮助模型产生具有相似输出的正则化效果，作者还加入了一些其他噪声扰动的对比方法。

三、实验结果

在本文的实验部分，作者重点在三个视觉语言任务上对CLOSE模型进行了性能评估，分别是图像字幕生成、视频问答和视觉蕴含推理。对于图像字幕生成任务，作者在COCO Captioning数据集上进行实验，实验结果如下表所示：

其中（CLOSE Single）表示单字幕生成设置，（Multi CLOSE）表示多字幕生成设置，通过与另一个基于CLIP的字幕模型ClipCap[3]进行比较，可以发现，CLOSE在仅使用文本数据训练的情况下与图像数据训练得到的ClipCap性能基本持平，CLOSE在多字幕和单字幕设置中分别获得了98.4和95.4的分数。此外，CLOSE模型还明显优于零样本方法，这可以是因为零样本方法无法对特定目标的字幕描述进行学习，而CLOSE方法则可以从海量的纯文本数据中获得这些知识。

视觉蕴含推理任务会给定一幅图像和一段与该图像相关的文本描述，要求模型对该文本描述与图像的相关性进行判断，判断类型有三种：蕴含、矛盾和中性。在本文的实验中，作者先在SNLI（一个只含有语言的数据集）上进行训练，然后再SNLIVE（一个视觉语言数据集）上进行评估。实验结果如下表所示，可以看到，CLOSE在无图像参与训练的情况下仍然能够获得与图像模型相近的性能。

对于视觉问答任务，作者选用VQA 2.0 benchmark进行实验，实验数据包含描述场景的短句（使用文本编码器编码）、问题语句和目标答案。下表展示了CLOSE模型在VQA 2.0数据集上的实验结果。

此外，作者还展示了CLOSE模型的零样本图像字幕生成效果，如下图所示，给定一幅任意图像，CLOSE均能准确的识别当前场景，并为其生成一段风格完善的图像描述。

四、总结

在这项工作中，作者巧妙地利用了目前较为成熟的AI大模型的语义嵌入空间，构建了一个跨模态语义迁移框架CLOSE，并且获得了非常惊人的效果。这也证明了目前基于对比学习范式训练大模型的实用性。此外CLOSE模型仅通过语言数据训练，就可以在图像字幕生成、视觉问答和视觉蕴含等多个任务上达到良好的推理效果，这也向社区指明了一条道路，如果能够合理的利用已有的AI大模型，就可以大大减小对图像数据的人力标注工作。最后作者也期望未来社区能够开发出更多的基于对比范式的跨模态模型。

参考

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.
[2] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Sub- biah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakan- tan, Pranav Shyam, Girish Sastry, Amanda Askell, Sand- hini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, T. J. Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeff Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Rad- ford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. ArXiv, abs/2005.14165, 2020.
[3] Ron Mokady, Amir Hertz, and Amit H Bermano. Clipcap: Clip prefix for image captioning. arXiv preprint arXiv:2111.09734, 2021.

Illustration by Pixel True from IconScout

-The End-

关于我“门”
▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”：
[email protected]

【机器学习】多模态AI——融合多种数据源的智能系统 2的n次方_ 人工智能
随着人工智能的快速发展，单一模态（如文本、图像或语音）已经不能满足复杂任务的需求。多模态AI（MultimodalAI）通过结合多种数据源（如文本、图像、音频等）来提升模型的智能和表现，适用于多样化的应用场景，如自动驾驶、医疗诊断、跨语言翻译等。一、多模态AI简介多模态AI是一种将不同形式的数据（如文本、图像、音频等）融合在一起的技术，旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从
2.6 聚焦：Word Embedding 少林码僧 AI大模型应用实战专栏 word embedding
聚焦：WordEmbeddingWordEmbedding（词嵌入）是一种将词语转化为低维向量表示的技术，使得词语在数学空间中具有语义上的相似性。它是自然语言处理（NLP）中不可或缺的一部分，为文本数据提供了强大的表示能力。与传统的基于词频的词袋模型（Bag-of-Words）相比，WordEmbedding能够捕捉到词语之间更深层的语义和上下文信息。1.词嵌入的定义与作用WordEmbeddin
LLama 架构一览 Debroon llama
LLama架构一览预训练Transformer架构RMSNorm归一化：为什么大模型llama选RMSNorm，而不是其他？SwiGLU激活函数：为什么大模型llama选SwiGLU激活函数，而不是其他？RoPE旋转位置编码：为什么大模型llama选RoPE旋转位置编码，而不是其他？GQA分组查询注意力：为什么大模型llama选GQA分组查询注意力，而不是其他？KVCache推理加速llama、l
DETRs with Collaborative Hybrid Assignments Training论文阅读与代码分享总结快乐论文阅读
关键词：协作混合分配训练【目标检测】Co-DETR：ATSS+FasterRCNN+DETR协作的先进检测器（ICCV2023）-CSDN博客摘要：在这篇论文中，作者观察到在DETR中将过少的Query分配为正样本，采用一对一的集合匹配，会导致对编码器输出的监督稀疏，严重损害编码器的区分特征学习，反之亦然，也会影响解码器中的注意力学习。为了缓解这个问题，作者提出了一种新颖的协同混合分配训练方案，名
Golang学习笔记_28——工厂方法模式 LuckyLay Golang学习笔记 golang 学习笔记设计模式工厂方法模式
Golang学习笔记_25——协程Golang学习笔记_26——通道Golang学习笔记_27——单例模式文章目录工厂方法模式1.介绍2.优点3.类图4.实现源码工厂方法模式1.介绍工厂方法模式（FactoryMethod）是一种创建型设计模式，它提供了一种创建对象的接口，但由子类决定要实例化的类是哪一个。工厂方法模式让类的实例化推迟到子类中进行2.优点解耦：将对象的创建与使用分离，客户端不需要知
Python3.13来了！编程爱好者必看 Python之栈人工智能 python 开发语言
Python3.13于近期发布，其中包含大量重要更新。Python作为机器学习、数据科学和人工智能领域使用最广泛的编程语言，一直在不断发展，以满足这些领域日益增长的需求。最新发布的Python3.13提供了多项具有影响力的改进，旨在提高性能和生产力，对于从事ML和AI项目的开发人员来说是一个重要的里程碑。Python在ML和AI领域的主导地位主要归功于它的简单性、广泛的库支持和庞大的社区。然而，随
ubuntu安装Redis详细教程开机重启大熊苏尔 ubuntu redis linux 运维服务器
我整理的一些关于【Ubuntu】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/f2PFnNUbuntu安装Redis详细教程（开机自动重启）在这篇文章中，我将带你通过一个详细的过程，帮你在Ubuntu系统上安装Redis，并设置为开机自动启动。下面我们将通过一个表格概述整个流程，然后深入每一步的具体操作。整体流程步骤操作1更新系统包2安装Redis3
vue2和vue3组件传值——父传子 MvemiZ javascript vue.js 前端经验分享笔记
****近期学习vue3的组件传值，发现和之前的vue2版本并没有什么区别，实现的思路都是一样的，文章底部我会用大白话叙述一下vue组件传值的思路过程。下面就一起学习vue的组件传值吧，不足之处大家多批评指正！**vue2-父传子//父组件中通过v-bind绑定了list这个自定义的属性，并赋了一个值dateimportSonViewfrom'@/components/SonView.vue';e
Python（四）——SVG 图坐标轴数字和其他文本设置总结八年。。 python 开发语言笔记
在学术论文中，图像的质量和规范性直接影响文章的专业性和表达效果。尤其是在使用Python绘制SVG图时，图像的字体选择、大小设置、以及整体样式需要符合期刊或会议的要求。这不仅能提升视觉呈现的清晰度，还能增强论文内容的可读性和说服力。因此，合理设置坐标轴字体（如数字使用“TimesNewRoman”、文字使用“宋体”）和调整图像细节是学术制图中不可忽视的重要环节。1.设置全局字体frommatplo
卷积调制空间自注意力SPATIALatt模型详解及代码复现清风AI 深度学习人工智能 python 神经网络 conda
背景与意义SPATIALaTT模型的提出源于对自注意力机制和卷积神经网络（CNN）的深入研究。在计算机视觉领域，CNN长期占据主导地位，而自注意力机制的引入为视觉任务带来了新的思路。SPATIALaTT模型的意义在于融合了这两种强大的特征提取方法，充分发挥了它们的优势。这种融合不仅提高了模型的性能，还为设计更高效的视觉模型提供了新的思路，推动了计算机视觉技术的发展。通过结合自注意力机制和卷积神经网
Python学习：Pandas库使用（二）之读写Excel文件——read_excel()和to_excel()函数及其参数详解爬虫俗手小马达 python 学习 pandas
在Python的Pandas库中，读取和写入Excel文件主要使用read_excel和to_excel函数。以下是详细用法和示例：1.读取Excel文件：pd.read_excel()importpandasaspd#读取Excel文件df=pd.read_excel('文件路径.xlsx',sheet_name='Sheet1',header=0,usecols='A:C',skiprows=
Python学习——装饰器（一）：两个简单例子爬虫俗手小马达 python 学习开发语言
例一计时器#创建一个装饰器，用于计算函数执行时间importtimedeftime_this(func):defwrapper(*args,**kwargs):start_time=time.time()result=func(*args,**kwargs)end_time=time.time()execution_time=end_time-start_timeprint(f"Execution
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
2025 年成为 AI 独立开发者的 3 个步骤程序员陆通人工智能
2025年成为AI独立开发者的3个步骤每天拆解一个AI应用或模型功能选择一个热门的AI应用或开源模型（如ChatGPT、MidJourney、Whisper），深度体验其核心功能，分析背后的技术实现。用笔记工具记录其亮点、缺点，以及你认为可以改进的地方。思考如何通过自己的开发能力优化这些功能，形成自己的产品思路。每天学习1小时AI开发相关技能针对独立开发者需要的核心技能，每天学习一点点，比如：如何
HarmonyOS 开发实践——基于设置应用的应用权限、通知设置跳转六号嘉宾鸿蒙开发移动开发 HarmonyOS harmonyos 架构 ui 鸿蒙鸿蒙系统移动开发鸿蒙开发
往期学习笔录：鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……场景描述引导用户跳转到系统设置页进行权限，通知
人工智能之数学基础：一个小例子帮你快速搞懂极大线性无关向量组每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能线性代数机器学习极大线性无关向量组深度学习神经网络
本文重点在上一节课程中，我们学习了线性相关和线性无关。当线性相关的时候，那么说明这组向量至少存在一个向量可以被其它向量给表示，可以被表示就说明这个向量就是可有可无的，可以被替代的，这里就涉及到极大线性无关向量组的概念了，本文对此进行学习。极大无关向量组的定义与性质定义在线性空间中，如果存在一个向量组，它满足以下两个条件：一是它本身是线性无关的；二是向量空间中的任何包含它的向量组，如果仍然保持线性无
SpringCloud系列——5Spring Cloud 源码分析之OpenFeign 木木_2024 SpringCloud系列 spring cloud java spring 架构
学习目标为什么加一个注解就能实现远程过程调用呢？推导它底层的实现主流程？OpenFeign怎么实现RPC的基本功能的通过源码验证第1章OpenFeign主流程推导要明确OpenFeign的主流程首先我们还是要明确它的核心目标是什么？说白了，OpenFeign最核心的目标就是让客户端在远程调用过程中不需要做什么多余的操作，只要拿到一个对象，然后调用该对象的方法就好了，剩下的操作都交给OpenFeig
ReactNative进阶（三十五）：应用脚手架 Yo 构建 RN 页面_reactnative 脚手架 2401_84438654 程序员 react native arcgis react.js
算法冒泡排序选择排序快速排序二叉树查找:最大值、最小值、固定值二叉树遍历二叉树的最大深度给予链表中的任一节点，把它删除掉链表倒叙如何判断一个单链表有环由于篇幅限制小编，pdf文档的详解资料太全面，细节内容实在太多啦，所以只把部分知识点截图出来粗略的介绍，每个小节点里面都有更细化的内容！如果你觉得对你有帮助，可以戳这里获取：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】sudo
小白WEB前端学习（五） Sun ᥫᩣ涵 WEB前端前端学习
续：小白WEB前端学习（四）继续正式学习CSS（三）6.float布局！主要用于左右做图片，右文字的题目标准流标准流也叫文档流，指的是标签在页面中默认的排布规则，使⼀个元素脱离标准文档流有三种方式1.浮动2.绝对定位3.固定定位例如:块元素独占一行，行内元素可以一行显示多个。浮动作用：让块元素水平排列属性名：float属性值：left和right浮动后会脱离标准流，等于开了一个新的页面，内容在的话
寒假集训1.21 学长学姐我该怎么办算法
问题A:TYVJ1025单数？双数？内存限制：128MB时间限制：0.000S评测方式：文本比较命题人：外部导入提交：521解决：230返回比赛提交提交记录侧边提交题目描述Bessie那惨无人道的二年级老师搞了一个有N(1=n/2:print(key)问题N:寻找第K大的数内存限制：20MB时间限制：1.000S评测方式：文本比较命题人：liuyong提交：4033解决：1744返回比赛提交提交记
使用Python开发PPT文本提取工具 winfredzhang python powerpoint 提取文字
在日常工作中，我们经常需要从PowerPoint文档中提取文本内容进行处理。本文将详细介绍如何使用Python开发一个带图形界面的PPT文本提取工具，该工具可以轻松地从PPTX文件中提取所有文本内容，并按页码显示。C:\pythoncode\new\GetContentOFPPT.py全部代码importwximportosfrompptximportPresentationclassPPTExt
Python googletrans库使用爬虫俗手小马达 python 前端
googletrans是一个用于翻译文本的Python库，使用谷歌翻译的API。它可以将文本从一种语言翻译为另一种语言，支持多种语言自动检测。以下是基本的用法示例：安装googletrans库在终端或命令行中执行以下命令安装：pipinstallgoogletrans==4.0.0-rc1使用示例fromgoogletransimportTranslator#初始化翻译器translator=Tr
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
零基础小白学习网络安全的必备指南！ Stanford_1106 学习网络运维网络微信开放平台微信小程序微信公众平台 twitter web安全安全
成长路上不孤单【14后///计算机爱好者///持续分享所学///如有需要欢迎收藏转发///】今日分享关于网络安全方面的相关内容！关于【网络安全】目录：一、了解网络安全基础知识二、学习计算机和网络基础知识三、掌握网络安全技术四、使用网络安全工具五、实战操作六、了解法律法规与职业道德七、持续学习与提升网络安全对于现代社会的重要性不言而喻，它关乎到个人信息安全、企业机密保护乃至国家安全。然而，对于许多零
《冲动》V1.6官方学习版私人珍藏库学习
《冲动》官方版https://pan.xunlei.com/s/VODiYvUAE1lECHcq66BR1np_A1?pwd=fxc6#具有侦探小说、戏剧和恐怖元素的惊悚片。主角结束了漫长的商务旅行回到家，他的妻子和年幼的儿子热切地等待着他。然而，当他到达时，他发现有些不对劲：房子感觉奇怪地空荡荡的，空气中弥漫着一种不自然的寂静。很快，他就陷入了一系列神秘而无法解释的事件中，深入探究那些让他质疑正
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
月之暗面今日发布k1.5多模态思考模型百态老人笔记人工智能
月之暗面k1.5多模态思考模型的问世一、月之暗面k1.5多模态思考模型介绍2025年1月20日，月之暗面发布了k1.5多模态思考模型。这一模型在基准测试成绩方面展现出了非凡的性能，它实现了SOTA（state-of-the-art）级别的多模态推理和通用推理能力。多模态推理即模型能够对多种类型的数据（如文本、图像等）进行整合分析推理，通用推理能力则表明它可以广泛应用于多种任务场景进行有效的逻辑推理
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
Node.js 版本管理工具完全指南九情丶 node.js
Node.js版本管理工具完全指南目录1.nvm(NodeVersionManager)2.n(NodePackageManager)3.fnm(FastNodeManager)4.Volta5.工具对比1.nvm(NodeVersionManager)1.1安装指南macOS/Linux#使用curl安装curl-o-https://raw.githubusercontent.com/nvm-s
Git 规范化管理指南九情丶前端 gitee
Git规范化管理指南：打造优雅的协作流程本文将详细介绍如何在团队中规范化Git的使用，包括分支管理、提交规范、CodeReview流程等最佳实践。通过本文，您将学习到如何建立一个清晰、高效的Git工作流程。为什么需要Git规范化？在团队协作中，规范化的Git使用流程能带来以下好处：提高协作效率统一的分支命名便于理解和管理规范的提交信息方便追踪变更清晰的Review流程保证代码质量减少沟通成本标准化
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite