多模态 MiniGPT4 正式开源了!

火爆的 ChatGPT!还记得 GPT-4 发布的时候根据图片生成网站的功能吗?

就是下面这个视频!

GPT4 根据一个图片,然后立马生成网站的 HTML 代码

当时大家的第一感觉是震撼,这也太强了吧!可惜 OpenAI 直到现在还没公开这个功能!!不过最近有个同样技术的项目它开源了!!地址

https://github.com/Vision-CAIR/MiniGPT-4

多模态 MiniGPT4 正式开源了!_第1张图片

项目说明

MiniGPT-4 是一个很酷的开源项目,它能让计算机更好地理解图片和文字!

MiniGPT-4 通过训练一个超大的语言模型 Vicuna 和一个视觉编码器 BLIP-2,使得两者可以互相“通话”。这样,计算机就能同时理解图片和文字了,也能生成两者,这听起来像科幻电影里的人工智能啊!

多模态 MiniGPT4 正式开源了!_第2张图片

MiniGPT-4 的训练分两步:

  • 第一步用大量的图片和文字数据进行预训练

  • 第二步用小量优质的数据进一步调优。经过第一步,语言模型就能理解视觉特征了

  • 第三步使其能更流畅地描述图片,也更容易使用

MiniGPT-4 展示了许多酷炫的视觉语言技能,就像 OpenAI 在 GPT-4 发布会上展示的那些。

作者提供了一个线上的 DEMO

https://minigpt-4.github.io/

MiniGPT-4 为研究和应用多模态人工智能开拓了新道路,具有很高的研究价值

部署方式

要玩转 MiniGPT-4, 首先要准备 Python 环境和下载 Vicuna 的预训练模型。

然后下载 MiniGPT-4 的预训练检查点,或者自己训练一个

我们可以在本地部署一个,首先准备好 Python 环境,这个没啥好说的

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

准备预训练的 Vicuna 权重,下载 Vicuna-13B 的模型参数,已经开源提供

vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin
...

准备预训练的 MiniGPT-4 checkpoint.

然后,在第 11 行的 eval_configs/minigpt4_eval.yaml 中的评估配置文件中设置预训练检查点的路径

运行项目:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

以上就是 MiniGPT-4 项目的部署步骤。

主要需要准备环境、下载预训练模型与数据集、训练模型、评估模型效果等。

由于项目开源, 数据集和预训练模型也都可以公开获取, 大家可以动手实践起来哦!

如果你想了解更多关于 ChatGPT 有趣的项目和玩法,欢迎点击下面的链接,加入我们的社群一起交流探讨

每个进群的人,都会收到我们赠送的独享 ChatGPT 账号,以及 AI 绘画的教程!!

chatGPT 每个人都应该掌握的技能

597c0f58d30cd7a0604546911e9b3586.gif

推荐阅读

• ChatGPT最强竞争对手,无需魔法,直接用

• 免氪金免等待体验GPT-4

你可能感兴趣的:(人工智能,python,开发语言)