整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
走在 AI 前沿的 OpenAI 于今天又一次刷新了自己,其最新发布了图像生成工具 DALL-E 第三个版本的预览版。不仅如此,DALL-E 3 与 ChatGPT 集成,允许用户使用 ChatGPT 创建提示并包含更多安全选项。
为此,OpenAI CEO Sam Altman 也亲自为这款产品站台表示,「DALL-E 3 在我看来相当惊人“。
一夕之间,设计师不知是几家欢喜几家愁。
颠覆 AI 绘画,DALL-E 3 来了!
与其前身一样,DALLE-3 也是一款文本生成图像工具,可以通过自然语言提示让系统创建新奇的图像。
“DALL-E 3 能够理解的细微差别和细节明显多于我们以前的系统,让你可以轻松地将想法转换为非常精确的图像”,OpenAI 在介绍 DALL-E 3 时在官网上写道。
在官方示例中,OpenAI 分享了使用相同的提示词,DALL-E 3 与 DALL-E 2 带来的不同效果:
看完之后,不少网友调侃,DALL-E 2 是抽象派,而 DALL-E 3 则是印象派,更加基于现实的基础上,能够更有效地完善细节内容,使得生成的图片更加真实与吸引人。
如果说这是 DALL-E 3 的第一个改进,那么第二个则是最新的 DALL-E 3 在图像合成模型方面的能力要远远强于现有的任何其他模型,可以更好地理解上下文,前提还是无须让使用者专门去学习 Prompt 工程。
在官方发布的示例中,使用者只需要随意想象,给出一些简单的词语,如满月、行人享受夜生活、年轻女子、红头发、脾气暴躁的老头讨价还价、高大与老道的人....
就能通过 DALL-E 3 得到下面这样一幅画,没有什么提示词门槛限制:
那要问它是怎么实现的?
这就正如文章伊始所述,DALL-E 3 是在 ChatGPT 上 "原生构建"的,并将作为 ChatGPT Plus 的集成功能推出,允许以 AI 助手作为头脑风暴伙伴的方式对图像进行对话式改进。
这也意味着 ChatGPT 将能根据当前对话的上下文生成图像,这可能会带来新颖的功能。
举个例子,当打开 ChatGPT 对话窗口,
问:“我五岁的儿子一直在说"超级无敌向日葵刺猬",它长什么样子?”
ChatGPT 能在你说话的时间给出答案:
问:“我女儿说它叫 Larry。可以给我展示一下更像的吗?”
ChatGPT:
问:她会喜欢这些的!你能带我看看 Larry 的房子吗?
ChatGPT 展示:
问:你能告诉我 Larry 是“友好”的吗?
ChatGPT:
这一点,DALL-E 3 的竞品 Midjourney 虽然能很好地渲染逼真的细节,但仍需要对提示词不断修改优化,才能获得自己想要的图像。
而对于 OpenAI 的用户而言,ChatGPT 帮助设计师完善想法、阐明设计思想,DALL-3 则帮助设计师解放双手,二者的搭配使用也将带来巨大潜力。
阻挡各种潜在风险的 OpenAI
不过,也需要注意的是,自 DALL-E 于 2021 年 1 月问世,以及 OpenAI 于 2022 年 4 月推出 DALL-E 2 以来,后者主要采用了潜在扩散模型(ldm)技术,需要通过对数据集的训练和提示信息,将 GAN(生成对抗网络)的感知能力、扩散模型的细节保存能力和 Transformer 的语义能力三者结合,创造出更优质的画像。
行业中,也不乏有使用这种技术的开发商,如 Stable Diffusion。
然而,这种方式通过在训练中抓取大量人类制作的艺术品数据集来让 DALL-E 学习图像概念等,自然也就带来了一系列关于版权、道德的争议,甚至在去年不少艺术家在很多平台开始抗议 AI 生成的艺术品,批评这些 AI 艺术品会没有道德地复制其创作风格等等。
针对这些争议,OpenAI 在官方博客上表示,DALL-E 3 在设计上拒绝了要求使用在世艺术家风格图像的请求。OpenAI 还提供了一个表格(https://share.hsforms.com/1_OuT5tfFSpic89PqN6r1CQ4sk30),创作者可以选择不将自己的图像用于训练未来的模型。
除此之外,不久之前,OpenAI 发布公告,宣布启动全球招募“红队”网络成员,旨在引入外部力量,提前挖掘出 AI 系统存在的缺陷和风险。
在 DALL-E 3 开发维度,OpenAI 表示已经和“红队”成员合作,让 DALL-E 3 系统设定为拒绝生成带有公众人物名字的图像的请求,并实施了关键词和图像检测过滤器,限制使用者制作暴力、性或仇恨内容的能力,以识别和降低潜在风险,提高了风险领域的安全等级。
另外,OpenAI 还透露其正在尝试使用一种 "出处分类器 "工具,以帮助识别图像是否由 DALL-E 3 生成。不过,对于这一点,很多已经使用过 AI 检测工具的用户认为,想要真实地检测出 AI 图像,近乎天方夜谭。
DALL-E 3 vs Midjourney
事实上,因为时下关于 AIGC 工具与内容的监管政策、法律法规、道德规范等标准的缺失,各种工具的落地自然利弊兼存。
不过,从技术维度来看,DALL-E 3 是否能够代表 AIGC 工具再一次向前跃进的标志?有一位名为 MattGarcia.eth 的用户通过使用 OpenAI 官网上 DALL-E 3 相同的提示词, 又用 Midjourney 生成了一版,我们不妨来直观地感受一下二者的较量:
"一幅牛油果的插图,牛油果坐在治疗师的椅子上,说着'我觉得内心很空虚',中间有一个坑大小的洞。治疗师是一把勺子,正在潦草地记录着"。
”这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕缕阳光穿透云层,照亮了这颗心,揭示了其中的微小宇宙。地平线上镌刻着一行醒目的大字‘寻找你心中的宇宙’。“
「舒适的客厅里摆放着一张充满活力的黄色香蕉形沙发,它的曲线支撑着一堆色彩缤纷的垫子。木地板上的图案地毯增添了一丝不拘一格的魅力,一盆盆栽坐落在角落里,伸向窗外。阳光透过窗户。」
「一幅细致的油画,描绘了一位老船长驾驶他的船穿过暴风雨。盐水溅在他饱经风霜的脸上,他的眼睛里充满了决心。头顶上看到旋转的云,汹涌的波浪威胁着要被淹没……」
「水墨素描风格的插图,一只小刺猬用它的小爪子抓着一块西瓜,高兴地闭着眼睛咬了一口。」
「一幅古老的植物插图,用细线和一丝水彩奇思妙想绘制,描绘了一朵奇怪的百合与维纳斯捕蝇草交叉,它的花瓣准备好捕捉任何毫无戒心的昆虫。」
「一幅完全由各种肉类组成的广阔景观展现在观众面前。温柔多汁的烤牛肉山、鸡腿树、培根河和火腿巨石创造了一个超现实而又令人垂涎的场景。天空装饰着意大利辣香肠太阳和萨拉米香肠云。」
「一张以荔枝为灵感的球形椅子的照片,具有凹凸不平的白色外观和豪华的内部,衬托着热带壁纸。」
「一幅篮球运动员扣篮的富有表现力的油画,被描绘成星云的爆炸。」
「寄居蟹坐落在湿沙中的特写照片,附近有海泡沫,其外壳的细节和沙子的纹理得到了增强。」
「一部由拟人化的秋叶组成的民间乐队的 2D 动画,每个人都演奏传统的蓝草音乐,在乡村森林环境中,点缀着满月的柔和光线。」
你觉得两种工具,谁更胜一筹?
最后,DALL-E 3 目前并没有对外开放,OpenAI 表示,“目前 DALL-E 处于预览阶段,未来将于 10 月初向 ChatGPT Plus 和企业客户提供。”
更多详情见官方公告:https://openai.com/dall-e-3
推荐阅读:
▶孟晚舟:华为致力于打造中国算力底座,支持大模型百花齐放 ;OpenAI 发布 DALL-E 3;传高通中国裁员|极客头条
▶不到11个月成型,100%完全自研,他立志:要把这门编程语言打造成“世界级”!
▶Unity “妥协”,将改变按安装量收费模式!