BLIP 第2页

当 BLIP-2 遇上 Diffusion！可控图像生成的最优解，图像主题、风格任意切换，指哪改哪

夕小瑶科技说原创作者|智商掉了一地、ZenMoore关于P图，本懒人想说的简直太多了，之前想换个背景总会把主体抠成毛边，随着最近越来越多的强大图像或多模态工具的诞生，人们在图像创作方面的技术实力越来越强大。比如，现在有许多智能P图工具，可以自动识别图像中的人物和背景，并将其快速地抠出。越来越多的基于深度学习的图像生成模型也得到了发展，包括利用GAN进行图像生成、将文本转化为图像的模型等等。这些技术

夕小瑶·2023-10-11 21:36

BLIP-2小结

paper：BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels引用量：

莫叶何竹·2023-10-11 21:59

BLIP 小结

论文：BootstrappingLanguage-ImagePre-training(BLIP)代码：https://github.com/salesforce/BLIP1motivation目前多模态模型在图片理解类任务

莫叶何竹·2023-10-08 06:00

记录本地部署Stable-diffusion所依赖的repositories和一些插件

BLIP:https://github.com/salesforce/BLIPk-diffusion:https://git

KO_NO_JOJO·2023-10-07 06:26

【BLIP/BLIP2/InstructBLIP】一篇文章快速了解BLIP系列（附代码讲解说明）

文章目录BLIP系列1.BLIP1.1动机1.2整体架构1.3损失函数1.4CaptioningandFiltering(CapFilt)1.4.1Why？

莫余·2023-10-02 08:42

【学习笔记】多模态综述

多模态综述前言1.CLIP&ViLT2.ALBEF3.VLMO4.BLIP5.CoCa6.BeiTv3总结参考链接前言本篇学习笔记虽然是多模态综述，本质上是对ViLT后多模态模型的总结，时间线为2021

HERODING77·2023-09-23 20:08

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModelsPaperReadingNoteURL:https://arxiv.org/pdf/2301.12597.pdfTL;DR2023年Salesforce出的文章，提出了BLIP

kebijuelun·2023-09-17 04:10

【论文精读02】BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation

【论文精读02】BLIP-Diffusion:Pre-trainedSubjectRepresentationforControllableText-to-ImageGenerationandEditing

Yozu_Roo·2023-09-04 02:23

ALBEF、VLMO、BLIP、BLIP2、InstructBLIP要点总结（WIP）

ALBEF（ALignBEforeFuse）为什么有5个loss？两个ITC+两个MIM+1个ITM。ITM是基于groundtruth的，必须知道一个pair是不是groundtruth，同时ITMloss是用了hardnegative，这个是和MomentumDistillation（动量蒸馏）是有冲突的，所以ITM只有一个loss没有给基于MomentumDistillation的loss。

taoqick·2023-09-04 02:40

哪个视觉语言模型更优？InstructBLIP、MiniGPT-4？全面评估基准LVLM-eHub告诉你

如今，构建强大的多模态模型已经成为了社区的共识，BLIP2、LLaVA、MiniGPT-4、mPLUG-Owl、InstructBLIP等大量的视觉语言模型（Vision-LanguageModels

夕小瑶·2023-09-02 08:38

多模态论文串讲(bryanyzhu老师)记录

文章目录回顾ViLT和CLIP序言ALBEF摘要方法实验VLMo引言方法实验BLIP引言实验CoCaBeiTv3摘要方法实验总结传统的多模态:检索,视觉问答(闭集,分类,开集,生成),视觉推理(判断文本能否描述图像

右边是我女神·2023-08-30 21:40

【多模态】26、视觉-文本多模态任务超详细介绍「CLIP/LSeg/ViLD/GLIP/ALBEF/BLIP/CoCa/BEIT」

1.1.1LSeg1.1.2GroupViT1.2CLIP在目标检测上的改进工作1.2.1ViLD1.2.2GLIPv11.2.3GLIPv2二、ViLT/ALBEF：多模态融合在VQA/VR任务中更重要三、BLIP

呆呆的猫·2023-08-21 20:09

VisualGLM-6B：一个基于ChatGLM-6B模型的图像理解模型

介绍VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁

A雄·2023-08-18 15:16

BLIP-Diffusion

论文大意BLIP2结合StableDiffusion，实现主题驱动的图像生成与编辑。

52Tiramisu·2023-08-15 23:48

使用 Gradio 构建生成式 AI 应用程序(一): 图片内容读取app

来部署机器学习算法应用程序,今天我们来学习第一课：Imagecaptioningapp，该课程主要讲述如何从图片中读取图片的内容信息，如下图所示：今天我们会使用huggingface的Salesforce/blip-image

-派神-·2023-08-12 21:21

VQA评测evaluation代码：gqa / aokvqa / vqav2 / scienceQA

一、gqa评测（只有一个answer）数据集下载及格式：blip中json地址图片下载#gqa格式已重新整理，特点是每个question对应的gt_answers只有一个[{'image':'n161313

joyce_peng·2023-08-12 15:23

BLIP2

BLIP2的任务是基于已有的固定参数的图像encoder和语言大模型（LLM）搭建一个具有图像理解能力的图文模型，输入是图像和文本，输出是文本。BLIP2基于Q-Former结构，如下图所示。

冰冰冰泠泠泠·2023-08-09 04:13

【计算机视觉】BLIP：统一理解和生成的自举多模态模型

文章目录一、导读二、背景和动机三、方法3.1模型架构3.2预训练目标3.3BLIP高效率利用噪声网络数据的方法：CapFilt四、实验4.1实验结果4.2各个下游任务BLIP与其他VLP模型的对比一、导读

旅途中的宽~·2023-08-04 12:14

类Blip2的视觉文本多模态算法

一、Blip2出现的意义不比ChatGPT差BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels

魔峥·2023-08-01 17:41

MiniGPT-4(大型语言模型增强视觉语言理解)介绍、体验、部署教程

其利用视觉编码器BLIP-2和大语言模型Vicuna进行结合训练，共同提供了新兴视觉语言能力。

AI 研习所·2023-07-27 18:14

基于LoRA进行Stable Diffusion的微调

的微调数据集本次微调使用的数据集为：LambdaLabs的Pokemon数据集使用gitclone命令下载数据集gitclonehttps://huggingface.co/datasets/lambdalabs/pokemon-blip-captions

dzysunshine·2023-07-26 06:02

笔记：BLIP源码之（1）数据集预处理【仅考虑Image-Text Retrieval on COCO】

BLIP：BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGenerat论文的两个贡献如下

chnyi6_ya·2023-07-21 12:33

Stable Diffusion - 图像反推 (Interrogate) 提示词算法 (BLIP & DeepBooru)

欢迎关注我的CSDN：https://spike.blog.csdn.net/本文地址：https://spike.blog.csdn.net/article/details/131817599图像反推(Interrogate)功能，是指根据给定的图像生成一个或多个文本提示，这些提示可以描述图像的内容、风格、细节等方面。这个功能可以帮助用户快速找到合适的文本提示，从而生成自己想要的图像变体。图像反

SpikeKing·2023-07-20 19:37

AIGC行业周刊【2023-0709】【第六期】2023年世界人工智能大会大佬发言汇总

StabilityAI老板大胆预测，一众大佬狂怼：大错特错，都懒得解释大模型时代，解析周志华教授的「学件」思想：小模型也可做大事不要叫我程序员，我是「AI工程师」，马斯克：开始卷自然语言编程二、大模型评测：BLIP

linxid【智子纪元】·2023-07-14 01:30

【论文解读系列】Blip-2：引导语言图像预训练具有冻结图像编码器和大型语言模型

Blip-2BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModelsBLIP

JackCrum·2023-06-24 05:56

【论文笔记】BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and

1.背景1.1之前存在的两个问题（1）模型视角：大多数方法要么采用基于编码器的模型，要么采用编码器-解码器模型。基于编码器的模型不太容易直接转移到文本生成任务（例如，图像字幕），而编码器-解码器模型尚未成功用于图像文本检索任务。(2)数据集j角度：存在噪声，训练次优基于编码器的模型：CLIP，缺少decoder对文本生成的能力相对较弱采用编码器-解码器：SimVLM1.2提出的解决办法（a）编码器

weixin_50862344·2023-06-24 00:34

《VisualGLM-6B的原理与微调》资料学习分享

VisualGLM-6B官方项目地址在这里，如下所示：VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2

Together_CZ·2023-06-22 22:57

AIGC下的CV多模态原理解析：从CLIP/BLIP到stable diffusion/Midjourney、GPT4

前言终于开写本CV多模态系列的核心主题：stablediffusion相关的了，为何执着于想写这个stablediffusion呢，源于三点去年stablediffusion和midjourney很火的时候，就想写，因为经常被刷屏，但那会时间错不开去年11月底ChatGPT出来后，我今年1月初开始写ChatGPT背后的技术原理，而今年2月份的时候，一读者“天之骄子呃”在我这篇ChatGPT原理文章

v_JULY_v·2023-06-22 08:23

BLIP2原理解读——大模型论文阅读笔记二

一.论文与代码论文：https://arxiv.org/abs/2301.12597代码：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

CV-deeplearning·2023-06-21 12:41

CLIP损失函数的理解

加上最近有探究任务研究CLIP，BLIP这些，遂决心把这个模型弄懂。参考资料

思念殇千寻·2023-06-19 02:11

【论文系列解读】MiniGPT-4: 增强视觉语言理解与先进的大型语言模型

EnhancingVision-LanguageUnderstandingwithAdvancedLargeLanguageModelsMiniGPT-4:增强视觉语言理解与先进的大型语言模型(0)总结&实测minigpt是先提出来的，将视觉编码器和LLM对齐，blip2

JackCrum·2023-06-18 11:23

多模态之论文笔记BLIP，BLIP2，Instruct BLIP

文章目录BLIP一.简介1.1摘要与引言1.2相关工作1.3方法模型结构预训练目标函数CapFilt噪声过滤1.4实验以及讨论实验设置CapFilt的讨论BLIP2一.简介1.1摘要与引言1.2相关工作

猴猴猪猪·2023-06-18 10:42

【stable diffusion】图片批量自动打标签、标签批量修改（BLIP、wd14）用于训练SD或者LORA模型

sd-scripts/blob/main/docs/train_README-en.md#automatic-captioning一、sd-webui通用的打标界面1.1打标界面根据需求，选择通用打标模型（BLIP

曾小蛙·2023-06-16 20:48

【OpenMMLab】AI实战营第二期Day4：深度学习预训练与MMPretrain

概述这是一节介绍深度学习预训练和MMPretrain的相关课程，其中包括任务组成和框架概览、经典主干网络的介绍、自监督学习、多模态算法中的clip以及blip两个算法等。

songyuc·2023-06-16 03:03

BLIP使用教程

文章目录准备测试示例一示例二：结论源代码原理篇：BLIP2-图像文本预训练论文解读准备如果无网络需提前下载相关模型安装torch、transformerspipinstalltorchtrtransformers

‘Atlas’·2023-06-14 04:13

大模型部署实战（二）——Ziya-BLIP2-14B-Visual

Chaos_Wang_·2023-06-13 02:40

BLIP和BLIP2

文章主要是对BLIP2（使用冻结图像编码器和大型语言模型的Bootstrapping语言图像预训练）论文的阅读笔记，也对BLIP（用于统一视觉语言理解和生成的Bootstrapping语言图像预训练）算法进行了简单的介绍

*pan·2023-06-12 02:13

argparse使用方法

/blip.txt"python../test_t2i_bliplist.py\--save_dir=$SAVE_DIR\--blip_txt=$BLI

计算机视觉-Archer·2023-06-10 16:03

Visualglm-6b

pwd=8wpc提取码:8wpcVisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer

Kun Li·2023-06-09 08:23

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

article：LiJ,LiD,XiongC,etal.Blip:Bootstrappinglanguage-imagepre-trainingforunifiedvision-languageunderstandingandgeneration

游不动的鱼-learning·2023-06-07 23:44

Dreambooth简单实用

BLIP生成描述caption，deepbooru生成tags创建基础模型（dreambooth->创建）自定义模型name添加

hei_hei_hei_·2023-06-07 22:58

简单尝试：ChatGLM-6B + Stable diffusion管道连接

2.BLIP2所代表的一类多模态模型走的路线是"扩展赋能LLM模型"，思路简单清晰，收益明显。LLM+Stablediffusion的问题应该也不大。

是魏小白吗·2023-06-07 14:48

Grounded-SAM真的能卷掉国内大多数标注工具

Grounded-SAM把SAM和BLIP、StableDiffusion集成在一起，将图片「分割」、「检测」和「生成」三种能力合一，成为最强Zero-Shot视觉应用。

YQ1104·2023-06-07 08:05

【图像分割】Grounded Segment Anything根据文字自动画框或分割环境配置和基本使用教程

github.com/IDEA-Research/Grounded-Segment-AnythingMarryingGroundingDINOwithSegmentAnything&StableDiffusion&BLIP

Father_of_Python·2023-06-07 08:41

深度学习竞赛进阶技巧 - BLIP使用说明与实战

BLIP-2:图像到文本的生成器BLIP-2:ScalablePre-trainingofMultimodalFoundationModelsfortheWorld’sFirstOpen-sourceMultimodalChatbot1

kaggle竞赛指南·2023-04-19 07:06

MiniGPT4，开源了

具体来说，在文本方面，作者利用Vicuna作为语言解码器，在视觉感知方面，使用了与BLIP-2相同的视觉编码器，并且语言和视觉模型都是开源的。

kuokay·2023-04-19 03:47

【AIGC】9、BLIP-2 | 使用 Q-Former 连接冻结的图像和语言模型实现高效图文预训练

Vision-LanguageRepresentation2.3使用FrozenLLM来自主学习Vision-to-Language生成2.4Modelpre-training三、效果四、局限性论文：BLIP

呆呆的猫·2023-04-15 13:15

多模态大模型系列论文（ALBEF、BLIP、BLIP-2）

1.ALBEF:ALigntheimageandtextBEforeFusing1.1论文与代码链接：https://arxiv.org/abs/2107.07651GitHub-salesforce/ALBEF:CodeforALBEF:anewvision-languagepre-trainingmethod1.2目标任务：视觉-文本融合任务，如图文检索、视觉问答、NLVR（naturalla

yafee123·2023-04-07 23:30

[linux-sd-webui]api化之训练lora

1.训练数据准备使用deepbooru/blip生成训练数据，建筑类建议使用blip来生成。

Kun Li·2023-04-07 00:02

成功解决FileNotFoundError: [Errno 2] No usable temporary directory found in [‘/tmp‘, ‘/var/tmp‘, ‘/usr/t

上午想尝试一下BLIP-2在自建图像数据集上的描述生成效果，但由于当前环境的python版本不能够支持最新版本的transformers库，于是新建一个python3.7的环境在其上安装较新版本的transformers

Meilinger_·2023-04-05 10:14

推荐频道

BLIP