北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理
人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典
“哇,你拍到的吗?等一下——那是专业摄影师拍的……?”
这是我们老板的反应,当我向他展示下面的图像时:OpenAI 的 DALL·E 2 生成的逼真的图像,在几秒钟内创建,使用我输入的提示“向日葵上蝴蝶的微距照片” .
逼真的 AI 生成的向日葵上的蝴蝶图像
这是一张看起来如此真实的照片,它捕捉到了前景中蝴蝶的锐度和颜色以及背景中向日葵的柔和焦点。事实上,如此之多,以至于你很难找到很多人可以找到任何明显的尾巴标志、人工制品或错误感,这在 AI 生成的图像中很常见。
那一刻我意识到我们已经进入了高级人工智能系统可以理解和创建在许多情况下与现实生活无法区分的逼真图像的阶段。这对于在创意和数字行业工作的任何人,或者实际上涉及图像采购或图像处理的任何角色都有有趣的影响。
在本文中,我探讨了在创意和数字营销领域使用 OpenAI 的 DALL·E 2 的一些实际应用,以及如何使用 DALL·E 2 最近升级的编辑工具来支持创意工作。
什么是DALL·E 2?
OpenAI 的 DALL·E 2 是一款基于 AI 的图像生成器,它采用简单的基于文本的提示,并根据 AI 对该提示的理解生成图像。在几秒钟内,您将获得四个生成的图像变体,然后可以在您的 OpenAI 帐户中下载、共享或保存为收藏夹。
可以根据以下内容生成图像:
只需使用自然语言结合以上任何内容来帮助描述您想要的内容,例如“Homer Simpson in a Parisian cafe in a Picasso style”,几秒钟内您就会获得几张不错的图片。
从提示“荷马辛普森在 [康定斯基][梵高] 风格的巴黎咖啡馆”中不同艺术风格的例子
在探索 DALL·E 2 功能时,很容易迷失在各种可能性中,但该工具也有许多实际应用,尤其是在设计和营销方面,本文稍后将对此进行探讨。
DALL·E 2 是如何工作的?
我不会假装我完全理解,甚至会尝试解释 DALL·E 2 AI 图像生成是如何工作的——有很多文章可以做到这一点。但我能说的是,它不仅仅是使用一组复杂逻辑的智能算法。是机器学习。随着时间的推移,从数十亿个源图像和自然语言以及两者之间的关系中训练出来的人工智能。
它的核心是一个扩散模型,它从随机噪声开始,并在多个周期内迭代完善,直到出现类似于 AI 对所请求提示的理解的东西。
DALL·E 2 工具本身使用简单。登录后,您会看到一个简单的输入字段,您可以在其中根据文本提示开始生成图像,也可以上传自己的图像进行编辑。
许多图像编辑工具可用于生成和上传的图像,我们将在本文后面进行探讨。
使用 DALL·E 2 进行图像采购
基于 AI 的图像生成最明显的用途之一是获取照片或其他图像样式以用于博客文章、演示文稿、网站、广告和各种其他媒体。在图像采购方面,ShutterStock、iStockPhotos 或 Unsplash 等库存照片库通常是流行的选择,但我们可能会看到人们越来越多地转向 DALL·E 2 之类的工具,以寻求更快、成本更低的替代方案,以及创建真正独特的图像,在网上其他任何地方都不存在。
DALL·E 2 在获取具有非常特定主题的图像时特别有用,例如“金毛猎犬坐在沙滩上,望向日落”或“狐狸在阳光下穿过林地中的风信子的照片透过树木闪耀”。从各种库存照片库中获取类似图像可能需要更长的时间,而且在许多情况下,主题不太可能存在。
使用 DALLE 2 生成的摄影图像
我发现图像生成的摄影风格真正令人惊讶的是,DALL·E 2 可以准确地复制各种环境设置。从刺眼的阳光和精确的阴影投射到近处物体的锐度和更远距离元素的逐渐模糊。您还可以包括各种基于相机的设置的提示,例如“35 毫米微距”、“鱼眼”或“镜头光晕”。
在生成照片质量的图像时,我从更常见的主题中观察到了更真实的生成。例如,海滩上的狗的照片比在风铃草中跳跃的狐狸要多得多,因此 AI 可以从中获取更多参考资料。
值得指出的一个关键限制是所有生成的图像都限制在 1024 x 1024 像素,所以我们不会很快为广告牌生成照片……
扩展图像尺寸
我在创意和营销领域看到的 DALL·E 2 更常见的用途之一是增强和编辑现有图像,而不是完全生成新图像。作为一名 Web 开发人员,我经常会遇到一些挑战,即找到一张不错的图像,但由于图像容器与图像的比例不同,因此在上传图像时,比例和尺寸会导致裁剪效果不佳。
这是一个例子。一张可爱的狗从车窗探出的库存图片,该图片被指定用于特色英雄单位,但源照片的标准横向比例与特色英雄的超宽 21:9 比例并不能很好地配合横幅。
通过将图像上传到 DALL·E 2 并使用“生成框架”工具,我们可以通过让 AI 填补空白来扩展图像。使用生成框架时,您总是希望在框架内保留部分原始图像,以便为 AI 提供更多工作信息。
提示文本在这里也很重要,通常您希望在生成框架中描述您想要的内容,而不是整个图像。对于这个提示,我只使用了“hills and sky”,让 DALL·E 2 完成其余的工作。
对于每一代,DALL·E 2 都会为您提供四种变体供您选择。上图我觉得是最可信的;有一个很好的道路延伸,几棵生成的树,一些有趣的云而不是戏剧性的叠加,还有一条小溪(我没有要求,但一个很好的补充)在树后面流淌。
北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理
人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典
编辑人工制品
使用 DALL·E 2 也可以快速有效地对图像的问题部分进行编辑。下面的示例是我们最近提出的要求,我们必须更换施工经理安全眼镜中分散注意力的反射。
使用橡皮擦工具编辑掉左上角图像的反射部分,同时提供提示“戴安全眼镜的女人正在看 iPad”,DALL·E 2 生成其余部分,一直到边缘和高光眼镜、底纹和准确的颜色匹配。
使用 DALL·E 2 编辑视觉伪影
向现有图像添加内容
同样,向图像中添加元素就像删除它们一样容易。这是一个人从山谷中向外看的照片示例。如果他们最好的朋友在他们身边不是很好吗?没问题,只需使用橡皮擦工具从图像中擦除一个狗大小的空间并给出适当的提示;下面的例子中使用了“坐在女人旁边看着远方的金毛猎犬”
DALL·E 2 向现有图像添加内容
生成视觉上相似的图像
也许你在构图和主题方面找到了一个非常好的图像,但无论出于何种原因,它都不能很好地发挥作用。无需对提示文本进行任何编辑或更改,您就可以使用“生成变体”功能来创建风格和构图相似的图像。
在下面的示例中,照明、阴影、摄像机角度都非常相似,并且重新生成了相同类型的狗,以及一个穿着夹克的女人望向山丘,道路穿过山丘,但元素都有改变了;山路新,女人狗不一样。
DALL·E 2 使用“生成变体”工具的图像
北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理
人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典
创建情绪板
在创意项目的早期阶段,情绪板通常用于通过混合现有的屏幕截图、文本和图像来设置视觉风格、基调和创意方向。由于您可以提示 DALL·E 2 使用任何类型的视觉风格,从铅笔画和绘画到像素艺术和 3D 渲染,生成式 AI 可以提供一个很好的起点来设置视觉色调或方向。
DALL·E 2 代使用提示“A futuristic synthwave city with flight cars”
DALL·E 2代使用提示“100m比赛的铅笔素描”
支持品牌推广
在推出新品牌时,通常会模拟新设计在不同固定物品上的外观,或者在不同设备上原位可视化网站设计。DALL·E 2 或许能够支持生成与客户业务相关的独特背景。
例如,为面向生态的品牌在野花田野中生成名片图像,或为房屋建筑行业的企业模拟具有现代房屋背景的笔记本电脑。
DALL·E 2 代使用提示“野花草地上一堆名片的照片”和“Macbook Pro 的特写镜头,背景是一座现代大房子,摄影”
获得灵感
我认为我们距离为创意推广生成可打印或完全设计的视觉效果还有很长的路要走,但 DALL·E 2 可用于支持设计过程的一个领域是提供一些快速灵感来让创意源源不断.
例如,我生成了以下内容,以尝试使用提示“蒸汽朋克啤酒的徽标设计”为新的蒸汽朋克主题啤酒生成徽标。虽然 DALL·E 2 擅长理解文本提示,但文本生成是 DALL·E 2 苦苦挣扎的一个领域。在所有产生的变体中,文本要么是合格的,要么是荒谬的。尽管如此,我认为仍然有可能从这些世代中汲取灵感,无论是色彩、构图还是所制作图像中使用的元素。
北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理
人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典
制作粗略的布局
DALL·E 2 可能支持的另一个领域是采购粗略的布局和构图,它们可以用作广告和网站设计之类的想法或起点。以下网站设计和宣传册广告示例基于提示“可持续能源公司的 [网站] [宣传册] 设计”
借助机器学习和对数十亿源图像的理解,DALL·E 2 在布局方面自然会采用标准约定。对于网站设计示例,所有变体的主导航都显示在顶部,品牌徽标通常位于左上角,并且几乎总是在标题下方有一个大英雄单元和大标题,然后是下面的文本段落。同样,绿色是这些变化的常见颜色主题,因为它自然与“可持续性”这个词有很强的联系。
文字明显难以辨认,布局中的许多图像也很模糊,但从构图的角度来看,我认为 DALL·E 2 有足够的潜力在寻找布局灵感时担任配角。
DALL·E 2 使用提示“暗模式下可持续能源公司的网站设计”进行设计
DALL·E 2 广告使用提示“可持续能源公司的 A4 整页宣传册广告”
结论
OpenAI 的 DALL·E 2 以及我们现在看到的其他许多基于 AI 的图像生成模型的进步无疑令人印象深刻,我认为它们在数字营销和创意领域中的作用更多的是支持,而不是对基于创意和营销的角色的直接威胁。正如我们在上面的一些示例中看到的那样,存在一些明显的限制,尤其是在输出大小和文本生成方面。即使文章中使用了大多数基于摄影的图像,大多数人也可能能够分辨出大多数不是真实照片,但随着时间的推移,这将变得越来越难以发现。
我们仍处于基于 AI 图像生成的早期阶段,但我看到了创意和营销领域的许多有用应用,从产生灵感和想法,到图像采购和高级图像编辑。不久之后,这些工具的 API 将可用并嵌入到流行的设计工具中,例如 PhotoShop 或 Figma。这是一个引人入胜的领域,我将在接下来的几个月和几年里关注它的进展。
北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理
人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典