夕小瑶科技说 原创
作者 | 付奶茶、王二狗
大离谱!
我用GPT-4(V)和DALL·E 3 「混合双打」之下,生成了一张张 牛鲨图,那么问题来了,这到底是牛还是鲨?
起因是这样的!
GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!
最近推特上出现了一种有趣的玩法,要求GPT-4(V)详细地描述一张图片,然后DALL·E 3 基于该描述生成对应的图像,再循环往复, 根据这个测试的结果来观察图文之间转换、复原的过程。
首先输入想要测试的原图,让GPT-4(V)尽可能详细地生成图片的描述语:
然后我们再将生成的描述语喂给DALL·E 3让其根据文本产生对应的图片。
然后,我们再将图片喂给GPT-4(V)生成描述.....
循环几次后,我们可以看到蒙娜丽莎在反复的循环测试中,虽然面部出现了改变,但是在大方向上比如人物性别、背后场景上仍然能看到相似之处:
▲蒙娜丽莎
但是!小乌龟就没那么幸运了!
小乌龟在一轮轮的转换中逐渐变样,先是失去了自己的形状,后来竟然变成了猫头鹰!
▲乌龟->猫头鹰
这个小测试可以直观展现GPT-4V和DALL·E 3之间图文信息处理与生成上的协同与差异。小编们挑选了一些可爱又有趣的小例子,让我们一同欣赏它们生成的结果吧!
它还是一如既往的灰常稳定,尽管在不断循环的测试中,画风和场景不断变化,但形象是固定的,那就是卡皮巴拉的身影!
▲选取代表性描述
再来看看师徒四人~
另外再看看八戒单猪照~
在八戒的测试中,DALL·E 3识别出来是人假扮的,但是描述没有明确猪的概念。因此在后续的循环测试中,出现了主体形象的改变~图片中的八戒逐渐变成了一只戴着贵族礼帽的富贵猫猫!
在究竟裙子的颜色究竟是“白色与金色”或是“黑色与蓝色”上,GPT4V在测试的初期给出了确定的答复:(我猜测,应该是过去的训练学习到了相关)
▲小编试图找到高清图,但是原图就很糊wwww
然而抓马的来了!DALL·E 3根据GPT-4V生成的描述绘图后再让其对生成后的图片进行描述时:
▲第二轮的生成结果
已经被固定成蓝金!【狗头】
我们川沙坦己在测试中被认出来了是小狐狸!被心软软的GPT-4V和DALL·E 3大大保留了水灵灵的蓝色眼睛和长睫毛~
而这只名叫做“夕小瑶”的小狐狸可就没那么幸运了!!!!
喂!你在说谁是猫头鹰!
让我们一起来看看GPT-4V和DALL·E 3的答案吧!
在初级题上,GPT-4V很坚定这是一条棕色的鱼~
虽然在循环测试中,模型没有偏向牛,但是在后续的描述逐渐放大了海洋生物的眼睛,生成的图像逐渐跑偏...最终转向为一张海洋鱼的眼睛。
最后,我们回到我们文章开头抛出的问题,那么这张到底是牛还是鲨?
GPT-4V一眼认出了他是合成图!在测试的过程中不会下定义指定究竟是哪一种生物,在文本和图像转换的循环测试中也只是将两种生物的元素一直合成在一起。
别等了,大家赶紧上手试试看吧!