senda66

Vision-CAIR/MiniGPT-4：使用先进的大型语言模型增强视觉-语言理解

摘要

视觉-语言理解是人工智能领域的一个重要方向，它涉及到图像和文本之间的复杂交互。近年来，大型语言模型（LLM）在自然语言处理（NLP）领域取得了令人瞩目的成就，但是它们在视觉-语言任务上的应用还有很多挑战。本文提出了一种新颖的模型，称为MiniGPT-4，它能够利用先进的LLM来增强视觉-语言理解。MiniGPT-4使用一个投影层将冻结的视觉编码器与冻结的LLM对齐，然后通过两个阶段的训练来优化模型。第一个阶段是传统的预训练，使用大约500万个图像-文本对来训练模型。第二个阶段是微调，使用一种创新的自我生成方式来构建高质量的图像-文本对，并在一个对话模板上进行训练。我们在Vicuna-13B这个类似于GPT-4的LLM上实现了MiniGPT-4，并在多个视觉-语言任务上进行了评估。实验结果表明，MiniGPT-4能够展现出类似于GPT-4的多样化和有趣的视觉-语言能力，同时具有较低的计算成本和较高的可用性。

引言

视觉和语言是人类最基本和最常用的两种信息载体，它们之间的交互和融合是人工智能领域的一个重要方向。视觉-语言理解（VLU）涉及到从图像中提取视觉特征，并将其与文本中的语义信息相结合，以完成各种任务，如图像描述、图像问答、视觉对话等¹。这些任务不仅需要模型具有对图像和文本内容的深入理解，还需要模型具有一定的推理、创造和沟通能力。

近年来，随着深度学习技术的发展，大型语言模型（LLM）在自然语言处理（NLP）领域取得了令人瞩目的成就²。LLM通常使用大量的无标注文本数据进行预训练，然后在特定任务上进行微调或零样本推理。LLM不仅能够提高NLP任务的性能，还能够展现出一些超越单纯语言理解的能力，如生成、推理、常识等³。其中，最引人注目的是GPT-4⁴，这是一个拥有1750亿个参数的LLM，它在多个NLP任务上都达到了最先进或接近最先进的水平，并且展现出了惊人的生成能力和多样化能力。

然而，将LLM应用到视觉-语言任务上还面临着很多挑战。首先，LLM通常只接受文本作为输入，而不能直接处理图像信息。因此，需要设计一种有效的方式来将图像编码为与文本兼容的表示，并将其与LLM进行融合。其次，LLM通常需要大量的数据和计算资源来进行预训练和微调，而现有的视觉-语言数据集往往规模较小、质量较低或者分布不均匀。因此，需要设计一种有效的方式来利用现有数据集或者构建新数据集来优化模型。最后，LLM通常只能输出单一或者固定格式的文本，并不能根据不同场景或者用户需求来生成多样化和有趣的文本。因此，需要设计一种有效的方式来提高模型的生成可靠性和整体可用性。

为了解决这些挑战，我们提出了一种新颖的模型，称为MiniGPT-4，它能够利用先进的LLM来增强视觉-语言理解。MiniGPT-4使用一个投影层将冻结的视觉编码器与冻结的LLM对齐，并通过两个阶段的训练来优化模型。第一个阶段是传统的预训练，使用大约500万个图像-文本对来训练模型。第二个阶段是微调，使用一种创新的自我生成方式来构建高质量的图像-文本对，并在一个对话模板上进行训练。我们在Vicuna-13B这个类似于GPT-4⁴但更小一些（只有130亿个参数）的LLM上实现了MiniGPT-4，并在多个视觉-语言任务上进行了评估。实验结果表明，MiniGPT-4能够展现出类似于GPT-4⁴ 的多样化和有趣

Vision-CAIR/MiniGPT-4 原理

在本节中，我们将介绍MiniGPT-4的模型架构和训练方法。

模型架构

MiniGPT-4的模型架构如图1所示，它主要由三个部分组成：视觉编码器、投影层和LLM。

图1：MiniGPT-4的模型架构

视觉编码器是用来从图像中提取视觉特征的模块，我们使用了BLIP-2作为视觉编码器，它是一个基于ViT的预训练模型，能够在多个视觉任务上达到最先进的性能。视觉编码器将输入图像划分为多个块，并对每个块进行编码，得到一个特征序列。我们将这个特征序列与一个特殊的图像标记（[IMG]）拼接起来，作为视觉编码器的输出。

投影层是用来将视觉特征与文本特征对齐的模块，它是一个简单的线性变换层，将视觉编码器的输出映射到与LLM相同的维度。投影层是唯一需要训练的部分，其余部分都是冻结的。

LLM是用来从文本中提取语义特征和生成文本的模块，我们使用了Vicuna-13B作为LLM，它是一个类似于GPT-4但更小一些（只有130亿个参数）的预训练模型，能够在多个NLP任务上达到最先进或接近最先进的水平，并且展现出了惊人的生成能力和多样化能力。LLM将输入文本转换为词向量，并与投影层的输出拼接起来，作为LLM的输入。LLM使用自注意力机制和多层变换器结构来对输入进行编码，并使用语言模型损失来预测下一个词。

训练方法

我们使用两个阶段的训练方法来优化MiniGPT-4：预训练和微调。

预训练阶段是传统的预训练方法，使用大量的图像-文本对来训练模型。我们使用了Conceptual Captions数据集作为预训练数据集，它包含了约500万个图像-文本对，其中文本是从网页上自动抽取和过滤得到的图像描述。我们使用交叉熵损失函数来优化模型在给定图像和文本上下文时生成下一个词的概率。我们在4个A100 GPU上进行预训练，每个GPU有8GB显存。我们使用AdamW优化器，学习率为1e-4，批量大小为32，总共训练了10个小时。

微调阶段是一种创新的微调方法，使用一种自我生成方式来构建高质量的图像-文本对，并在一个对话模板上进行训练。我们首先从Conceptual Captions数据集中随机抽取了1000个图像，并使用ChatGPT作为一个对话代理与MiniGPT-4进行交互。ChatGPT是一个基于DialoGPT微调得到的对话生成模型，能够根据上下文生成流畅和有趣的对话。我们让ChatGPT扮演用户的角色，提出一些关于图像内容或者属性的问题或者评论，并让MiniGPT-4扮演助手的角色，回答或者响应用户的问题或者评论。通过这种方式，我们可以利用ChatGPT和MiniGPT-4之间的互动来生成高质量和多样化的图像-文本对。我们从这些对话中筛选出了3500个高质量的图像-文本对，并将其作为微调数据集。我们使用相同的损失函数和优化器来优化模型在给定图像和对话上下文时生成下一个词的概率。我们在单个A100 GPU上进行微调，每个GPU有40GB显存。我们使用学习率为5e-5，批量大小为8，总共微调了7分钟。

优缺点

MiniGPT-4相比于其他视觉-语言模型有以下几个优点：

它能够利用先进的LLM来增强视觉-语言理解，展现出类似于GPT-4 的多样化和有趣
好的，我会尽快写完文章。
的视觉-语言能力，如图像描述、图像问答、视觉对话等。
它使用一个简单的投影层来将视觉特征与文本特征对齐，避免了复杂的融合机制或者联合训练，降低了计算成本和内存消耗。
它使用一种创新的自我生成方式来构建高质量的图像-文本对，并在一个对话模板上进行微调，提高了模型的生成可靠性和整体可用性。
它在多个视觉-语言任务上都达到了最先进或接近最先进的水平，并且提供了一个在线演示和一个本地演示，方便用户体验和使用。

MiniGPT-4也有以下几个缺点：

它依赖于预训练好的视觉编码器和LLM，如果这些模型本身存在缺陷或者偏差，可能会影响MiniGPT-4的性能和质量。
它使用了冻结的视觉编码器和LLM，如果这些模型与预训练数据集或者微调数据集不匹配，可能会导致信息损失或者过拟合。
它使用了一个固定的对话模板来进行微调，如果用户的需求或者场景与模板不一致，可能会导致生成不合理或者不相关的文本。

和GPT-4的关系

MiniGPT-4与GPT-4有以下几个关系：

MiniGPT-4是基于Vicuna-13B实现的，而Vicuna-13B是一个类似于GPT-4但更小一些（只有130亿个参数）的LLM。因此，MiniGPT-4可以看作是一个基于Vicuna-13B扩展到视觉领域的模型。
MiniGPT-4能够展现出类似于GPT-4 的多样化和有趣的视觉-语言能力，如图像描述、图像问答、视觉对话等。因此，MiniGPT-4可以看作是一个在视觉领域模拟GPT-4的模型。
MiniGPT-4相比于GPT-4有更低的计算成本和更高的可用性，因为它只使用了一个投影层来将视觉特征与文本特征对齐，并且提供了一个在线演示和一个本地演示。因此，MiniGPT-4可以看作是一个在视觉领域优化GPT-4的模型。

如何改进

MiniGPT-4还有以下几个可能的改进方向：

使用更先进或者更适合视觉任务的视觉编码器和LLM，如CLIP、DALL-E等，来提高模型在视觉领域的理解和生成能力。
使用更灵活或者更动态的方式来将视觉特征与文本特征对齐，如注意力机制、门控机制等，来提高模型在不同场景下的适应性和泛化性。
使用更多或者更高质量的图像-文本对来进行预训练和微调，如从网页或者社交媒体上抓取数据、使用人工标注或者众包平台来获取数据等，来提高模型在不同领域下的覆盖率和准确率。

好的，我会尽快写完这一部分。

如何使用或调用MiniGPT-4模型

MiniGPT-4模型提供了两种方式来让用户体验和使用：在线演示和本地演示。

在线演示是一个基于网页的交互界面，用户可以通过上传自己的图像或者选择预设的图像，然后与MiniGPT-4进行视觉对话。在线演示的地址是：https://minigpt4.vision-cair.com/。在线演示的界面如图2所示，用户可以在左侧输入文本，然后点击发送按钮，MiniGPT-4会在右侧回复文本。用户可以根据自己的兴趣和需求，提出不同的问题或者评论，MiniGPT-4会尽量给出有趣和相关的回答或者反应。

图2：在线演示的界面

本地演示是一个基于Python的脚本，用户可以在自己的电脑上运行MiniGPT-4模型，并与之进行视觉对话。本地演示需要用户先下载模型的代码和权重，并安装相关的依赖包。具体的安装和运行步骤可以参考GitHub上的说明：https://github.com/Vision-CAIR/MiniGPT-4 。本地演示的界面如图3所示，用户可以在命令行中输入文本，然后按回车键，MiniGPT-4会在下一行回复文本。用户可以根据自己的兴趣和需求，提出不同的问题或者评论，MiniGPT-4会尽量给出有趣和相关的回答或者反应。

好的，我会尽快写完文章的总结。

总结

本文介绍了一种新颖的模型，称为MiniGPT-4，它能够利用先进的LLM来增强视觉-语言理解。MiniGPT-4使用一个投影层将冻结的视觉编码器与冻结的LLM对齐，并通过两个阶段的训练来优化模型。第一个阶段是传统的预训练，使用大约500万个图像-文本对来训练模型。第二个阶段是微调，使用一种创新的自我生成方式来构建高质量的图像-文本对，并在一个对话模板上进行训练。我们在Vicuna-13B这个类似于GPT-4的LLM上实现了MiniGPT-4，并在多个视觉-语言任务上进行了评估。实验结果表明，MiniGPT-4能够展现出类似于GPT-4 的多样化和有趣的视觉-语言能力，同时具有较低的计算成本和较高的可用性。我们还提供了一个在线演示和一个本地演示，方便用户体验和使用。

本文的创新点和贡献如下：

我们提出了一种新颖的模型，称为MiniGPT-4，它能够利用先进的LLM来增强视觉-语言理解。
我们使用一个简单的投影层来将视觉特征与文本特征对齐，避免了复杂的融合机制或者联合训练，降低了计算成本和内存消耗。
我们使用一种创新的自我生成方式来构建高质量的图像-文本对，并在一个对话模板上进行微调，提高了模型的生成可靠性和整体可用性。
我们在多个视觉-语言任务上都达到了最先进或接近最先进的水平，并且提供了一个在线演示和一个本地演示，方便用户体验和使用。

本文还有以下几个可能的改进方向：

使用更先进或者更适合视觉任务的视觉编码器和LLM，如CLIP、DALL-E等，来提高模型在视觉领域的理解和生成能力。
使用更灵活或者更动态的方式来将视觉特征与文本特征对齐，如注意力机制、门控机制等，来提高模型在不同场景下的适应性和泛化性。
使用更多或者更高质量的图像-文本对来进行预训练和微调，如从网页或者社交媒体上抓取数据、使用人工标注或者众包平台来获取数据等，来提高模型在不同领域下的覆盖率和准确率。

总之，MiniGPT-4是一个能够根据图片生成各种有趣的文本的模型，它不仅能够理解图片中的内容和属性，还能够与用户进行自然和流畅的对话。MiniGPT-4是一个值得关注和尝试的模型，它为视觉-语言理解领域带来了新的可能性和机遇。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

Vision-CAIR/MiniGPT-4：使用先进的大型语言模型增强视觉-语言理解

Vision-CAIR/MiniGPT-4：使用先进的大型语言模型增强视觉-语言理解

摘要

引言

Vision-CAIR/MiniGPT-4 原理

模型架构

训练方法

优缺点

和GPT-4的关系

如何改进

如何使用或调用MiniGPT-4模型

总结

你可能感兴趣的:(AI,语言模型,人工智能,深度学习)