DALL·E 3:大语言模型和文本生图模型的强强联合

1. 概要

就在不久之前,openAI官网发布了DALLE3相关内容,虽然现在还没有开放直接体验DALLE3的途径,但是我们可以先来一览DALLE3的牛逼之处。

相比之前的DALL.E2,DALL.E3对细节方面把握的更好。此外之前的文生图模型对prompt要求比较高,这样促使人人都是prompt工程师,这给一些新用户或者文生图小白设置了一定的门槛,而DALL.E3能够轻松地将想法转化为非常准确的图像。话不多说,先上一张效果图,如下图所示每个prompt的细节都在生成图片中展示。

DALL·E 3:大语言模型和文本生图模型的强强联合_第1张图片
与DALL.E2的对比效果如下图所示,输入prompt为:An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula,如下图所示左边为DALLE2的结果,右边为DALLE3的结果

2. 加持chatGPT

DALL·E 3 最厉害之处在于它与ChatGPT进行强强联合,ChatGPT可以作为prompt的优化器,当输入prompt后,ChatGPT将自动为DALL·E 3生成量身定制的更加详细的prompt。如果你喜欢某个特定的图像,但是无法很好的表述prompt时,可以输入ChatGPT几个字就可以进行调整生成更加详细的表述。

3. 安全性

在安全性方面,DALLE3和之前的模型一样,致力于防止生成暴力、色情等有害的内容。通过与red teamers的领域专家合作,DALLE3提高了防止生成公众人物或者有害偏见的内容的能力。与此同时openAI也训练了一个分类器来判断一张图片是否为DALLE3生成的,从而能让用户确定当前图片的来源。

当前DALLE3还未开放,预计在10月份会有API开放出来使用。最后再来欣赏几张DALLE3的艺术作品

DALL·E 3:大语言模型和文本生图模型的强强联合_第2张图片

关注公众号 funNLPer 查看DALLE3相关视频

参考

https://openai.com/dall-e-3

你可能感兴趣的:(计算机视觉,语言模型,人工智能,chatgpt,AIGC)