Debroon

BLIP-2：低计算视觉-语言预训练大模型

BLIP-2

BLIP 对比 BLIP-2

BLIP

BLIP-2

如何在视觉和语言模型之间实现有效的信息交互，同时降低预训练的计算成本？

视觉语言表示学习

视觉到语言的生成学习

模型架构设计

总结

主要问题: 如何在计算效率和资源有限的情况下，有效地结合冻结的图像编码器和大型语言模型，来提高在视觉语言任务上的性能？

子解法1: 视觉语言表示学习

子解法2: 视觉到语言的生成学习

子解法3: 模型预训练

论文：https://arxiv.org/pdf/2301.12597.pdf

代码：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

BLIP 对比 BLIP-2

BLIP：跨越视觉-语言界限：BLIP的多任务精细处理策略

BLIP（Bootstrapping Language-Image Pre-training）和BLIP-2都是在视觉-语言预训练领域的重要工作，旨在通过学习视觉和语言之间的联系来提升模型在多种下游任务上的性能。

然而，这两个模型在设计理念、实现方法以及目标任务上存在显著的差异。

BLIP

设计理念：

BLIP采用了一种创新的预训练框架，通过结合图像编码器和语言模型，并引入标题生成与过滤（CapFilt）机制来优化训练数据的质量。

实现方法：

通过多模态混合编解码器（MED），BLIP能够灵活处理不同的视觉-语言任务，包括图像-文本检索、图像描述生成等。
CapFilt机制通过生成合成标题并过滤掉噪声数据，提高了模型学习的效率和准确性。

目标任务：

BLIP旨在提升模型在多种视觉-语言任务上的表现，特别是在数据质量和多任务适用性方面进行了优化。

BLIP-2

设计理念：

BLIP-2关注于降低视觉-语言预训练的计算成本，通过利用现成的、冻结的图像编码器和大型语言模型来实现预训练策略。

实现方法：

引入了轻量级的查询变换器（Querying Transformer，简称Q-Former），它在两个阶段中进行预训练：首先从冻结的图像编码器学习视觉-语言表示，然后从冻结的语言模型学习视觉到语言的生成学习。
Q-Former作为信息瓶颈，将图像特征有效地传递给语言模型，以生成相关的文本描述。

目标任务：

BLIP-2在多种视觉-语言任务上实现了最先进的性能，包括视觉问答、图像描述和图像-文本检索等。
特别地，BLIP-2展示了零样本图像到文本生成的能力，能够遵循自然语言指令生成文本，开启了如视觉知识推理、视觉对话等新能力。

对比总结：

BLIP强调通过数据质量优化和多任务灵活性来提升性能，而BLIP-2则侧重于计算效率的提升，利用冻结的单模态模型和轻量级转换器降低预训练成本。
BLIP-2相比于BLIP，在保持高性能的同时，大大减少了可训练参数的数量，显示出在计算资源有限情况下的优势。
两者均展现了视觉-语言模型的强大潜力，但各自通过不同的策略和技术实现来解决视觉和语言联合理解的挑战。

如何在视觉和语言模型之间实现有效的信息交互，同时降低预训练的计算成本？

BLIP-2 结构：

该模型通过两个阶段的预训练Querying Transformer来连接视觉和文本模态。

第一阶段通过冻结的图像编码器启动视觉与语言的表示学习。

第二阶段通过冻结的大型语言模型（LLM）启动视觉到语言的生成学习，使得模型能够实现零样本的图像到文本生成。

子问题: 如何有效地从图像中提取特征以供语言模型使用，而不需要重新训练图像编码器？
子解法: Bootstrapping Pre-trained Image Models。
利用冻结的预训练图像编码器来提取图像特征，降低了额外的计算成本，同时利用了图像编码器强大的视觉理解能力。
之所以使用此解法，是因为预训练图像模型已经具有高质量的视觉表示能力，这样可以直接利用这些能力，而无需通过昂贵的重新训练来适应视觉任务。

假设有一张图片，图片上是一只在公园里追球的小狗。

使用BLIP-2的方法，我们不需要对图像编码器进行任何新的训练。

这个冻结的预训练图像编码器已经学会如何识别图片中的对象，比如小狗、球和公园。

当这张图片通过图像编码器时，它能有效地提取出这些特征（小狗、球和公园）。

这些特征随后被用作语言生成模型的输入，即使这个语言模型原本并不直接处理图像数据。

这样，我们就能利用已有的高质量视觉表示，而无需额外的计算成本来重新训练图像编码器。

子问题: 如何使冻结的大型语言模型能理解和生成与图像内容相关的文本？
子解法: Bootstrapping Pre-trained Large Language Models (LLMs)。
通过连接一个轻量级的Querying Transformer（查询变换器）到冻结的LLM，使其能够基于图像特征生成相关的文本描述。
之所以使用此解法，是因为大型语言模型虽然在文本生成方面能力强大，但它们未经训练以直接处理图像数据。引入查询变换器可以将图像特征转换成语言模型能理解的格式，从而实现跨模态学习。

现在我们有了小狗追球的图像特征，接下来的挑战是如何让一个未曾直接处理过图像的大型语言模型理解这些特征，并生成相关的文本。

这里，BLIP-2引入了一个轻量级的查询变换器。

这个查询变换器被训练以从图像编码器提取的特征中挑选出最有意义的信息，然后以一种语言模型能理解的方式呈现这些信息。

在这个例子中，查询变换器可能会学习到如何将“小狗”、“球”和“公园”的视觉特征转换成语言模型可以利用的提示，比如“一只小狗在公园里追一个球”。

因此，即使语言模型原先并不直接处理图像数据，它现在也能基于这些转换后的提示生成描述性文本，如“快乐的小狗在阳光下追逐着球”，实现了有效的视觉到语言的跨模态学习。

子问题: 如何确保从图像编码器提取的特征对语言生成最有用？
- 子解法: 学习查询向量。
- 通过训练Querying Transformer中的查询向量来选择性地提取对语言模型最有意义的图像特征。
- 例子: 假如我们要从一张图片中生成描述，查询变换器学习到的查询向量可能专注于图像中的关键物体或场景，以便生成准确的描述。

子问题: 如何优化这种跨模态的信息流动，以提高效率和性能？
- 子解法: 两阶段预训练策略。
- 第一阶段，专注于视觉语言表示学习，强化视觉特征和文本之间的相关性。
- 第二阶段，专注于视觉到语言的生成学习，优化查询变换器以便其输出能被语言模型有效解释。
- 例子: 在第一阶段，系统可能学习将图像中的狗与“狗”这个词联系起来。在第二阶段，系统则学习如何基于图像生成如“一只在草地上玩耍的狗”的详细描述。

通过这种方式，BLIP-2框架有效地解决了视觉和语言之间的信息交互问题，同时显著降低了预训练所需的计算资源。

视觉语言表示学习

子问题: 如何让视觉和语言模型在保持冻结状态下有效交互以提高多模态理解？
子解法: Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder。
通过将Q-Former连接到冻结的图像编码器并使用图像-文本对进行预训练，训练Q-Former使查询能够提取最具文本信息的视觉表示。
之所以使用此解法，是因为冻结的图像编码器已经具备高质量的视觉表示能力，而Q-Former通过学习这些表示与文本的关系，可以在不增加计算成本的前提下提高模型的视觉语言理解能力。

Q-Former模型架构：

Q-Former由图像变换器和文本变换器组成，共享自注意力层。

上图展示了三个预训练目标：图像-文本对比学习、基于图像的文本生成和图像-文本匹配。

图的右侧显示了用于每个目标的不同自注意力遮罩策略，以控制查询和文本之间的交互。

视觉到语言的生成学习

子问题: 在不直接修改大型语言模型的情况下，如何利用其语言生成能力以响应视觉输入？
子解法: Bootstrap Vision-to-Language Generative Learning from a Frozen LLM。
在预训练的第二阶段，将Q-Former（附带冻结的图像编码器）连接到冻结的LLM，使用全连接层将输出查询表示投影到与LLM文本嵌入相同的维度，作为视觉提示输入LLM。
之所以使用此解法，是因为LLM的强大语言生成能力可以通过预训练的Q-Former来触发，其中Q-Former作为信息瓶颈，筛选最有用的视觉信息输入LLM，减轻LLM学习视觉语言对齐的负担，同时避免灾难性遗忘问题。

BLIP-2如何使用不同类型的冻结LLM进行视觉到语言的生成学习：

顶部展示了基于解码器的LLM（例如OPT）的启动过程，其中全连接层将Q-Former的输出维度适配到LLM解码器的输入维度。

底部展示了基于编解码器的LLM（例如FlanT5）的启动过程，其中全连接层将Q-Former的输出适配到LLM的编码器，投影后的查询作为视觉提示用于文本生成。

模型架构设计

子问题: 如何设计一个能够有效桥接冻结的视觉和语言模型的中间模块？
子解法: Q-Former Model Architecture。
Q-Former设计为能够从冻结的图像编码器提取固定数量的输出特征并与冻结的LLM交互的可训练模块。它包括图像转换器和文本转换器两个子模块，通过自注意力层共享信息，使用可学习的查询嵌入作为输入。
之所以使用此解法，是因为需要一个轻量级但灵活的桥梁来提取和传递图像特征给LLM，而Q-Former正好提供了这样一个桥梁，它通过精心设计的查询机制和自注意力层，确保了有效的信息提取和传递。

假设我们有一张图片显示一只猫在窗边晒太阳，目标是生成描述这一场景的文本。

在视觉语言表示学习阶段，Q-Former学习从图像中提取代表“猫”、“窗户”和“晒太阳”等元素的特征。

这一阶段通过图像-文本对比学习和图像-文本匹配任务来优化，使得Q-Former能够识别和提取与文本信息最相关的视觉特征。

在视觉到语言的生成学习阶段，这些特征被用作触发冻结LLM生成描述文本的软提示。

例如，Q-Former的输出可能被转换成LLM能理解的形式：“一只猫坐在窗户旁边享受阳光”。

这时，冻结的LLM基于这些视觉提示开始生成文本，可能会产生如“一只悠闲的猫咪在温暖的阳光下打盹，享受着宁静的午后时光。”

这样详细且富有情感的描述。这个过程展示了Q-Former作为桥梁如何有效地将视觉信息转换成LLM可以理解和进一步加工的语言信息。

通过这个实例，我们看到了BLIP-2框架如何解决跨模态学习的挑战：

通过预训练的Q-Former桥接冻结的视觉和语言模型，使得无需对这些大型模型进行昂贵的再训练或微调，就能有效地结合它们的能力来解决复杂的视觉语言任务。
利用Q-Former的灵活架构和预训练策略，提取和传递最有意义的视觉信息给LLM，从而实现精确且自然的语言生成，这不仅提升了生成文本的质量，也展示了模型在理解和生成与视觉内容紧密相关的描述方面的能力。

这种方法的优点在于它结合了预训练模型的强大能力与新颖的训练策略，创造了一个既高效又强大的视觉语言学习框架。

BLIP-2证明了即使在资源有限的情况下，也能通过智能的模型设计和预训练策略，实现高水平的视觉语言任务性能。

总结

主要问题: 如何在计算效率和资源有限的情况下，有效地结合冻结的图像编码器和大型语言模型，来提高在视觉语言任务上的性能？

子解法1: 视觉语言表示学习

子问题: 如何提取并学习图像的特征表示，使之能够与文本有效结合，而不需要重新训练图像编码器？
子解法: 使用Q-Former进行视觉语言表示学习。Q-Former通过与冻结的图像编码器的交互来提取视觉特征，并通过自注意力和交叉注意力层来学习这些视觉特征与相关文本之间的对应关系。
之所以使用此解法，是因为冻结的图像编码器具有高质量的视觉表示，而Q-Former可以在不改变这些预训练模型的前提下，学习这些特征与文本之间的关联。

子解法2: 视觉到语言的生成学习

子问题: 在不修改大型语言模型的前提下，如何实现基于视觉输入的语言生成？
子解法: 从冻结的LLM进行视觉到语言的生成学习。Q-Former的输出通过全连接层适配到LLM的输入维度，使得冻结的LLM能够基于这些视觉提示来生成文本。
之所以使用此解法，是因为LLM具有强大的语言生成能力，但不直接处理视觉数据。Q-Former作为一个信息瓶颈，筛选并传递关键视觉信息给LLM，使得LLM能够在没有视觉训练的情况下生成与图像相关的文本。

子解法3: 模型预训练

子问题: 如何有效地预训练Q-Former来实现上述两个子问题的目标？
子解法: Q-Former的双阶段预训练。第一阶段是视觉语言表示学习，第二阶段是视觉到语言的生成学习。
之所以使用此解法，是因为需要一个逐步学习和优化的过程来确保Q-Former能够有效地提取视觉特征，并且这些特征能够被LLM用于生成文本。

假设我们的目标是生成一张图片的描述文本，其中图片显示一只戴着太阳镜的猫。

在视觉语言表示学习阶段，Q-Former学习如何从图像中提取代表“猫”和“太阳镜”等关键特征，并学习这些特征与“戴太阳镜的猫”这样的文本描述之间的关联。
在视觉到语言的生成学习阶段，这些视觉特征被转换成LLM能够理解的形式，并作为生成描述文本的输入。例如，Q-Former提取的特征被用来提示LLM生成文本描述“一只戴着太阳镜的猫”。

通过这个双阶段预训练过程，BLIP-2在视觉语言任务上实现了高性能，同时避免了对大规模预训练模型的昂贵重新训练。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

BLIP-2：低计算视觉-语言预训练大模型

BLIP-2

BLIP 对比 BLIP-2

BLIP

BLIP-2

如何在视觉和语言模型之间实现有效的信息交互，同时降低预训练的计算成本？

视觉语言表示学习

视觉到语言的生成学习

模型架构设计

总结

主要问题: 如何在计算效率和资源有限的情况下，有效地结合冻结的图像编码器和大型语言模型，来提高在视觉语言任务上的性能？

子解法1: 视觉语言表示学习

子解法2: 视觉到语言的生成学习

子解法3: 模型预训练

你可能感兴趣的:(大模型：以全人类健康长寿为已任,人工智能)