艺术创造力是人类最无可替代的能力之一,曾几何时,艺术是AI无法涉足的疆域。但从2014年推出的GAN,到近年的DALL-E、CogView、MidJourney,再到今年横空出世的Stable Diffusion,AI艺术生成不仅掀起了一股大众艺术创作热潮,并开始对人工智能技术和产业发展方向产生重要影响。AI从很大程度上加速了工业设计的流程,提升了效率,而反对者则认为,AI生成的作品无外乎机械复制、拼凑组合,远不能称之为艺术。
AI创造艺术的起源和挑战是什么?如何评价AI所创造的艺术?AI真的能替代一部分创作者的工作吗?在本年度青源Workshop第10期「AI+艺术:应用与挑战」主题研讨活动上,北京智源人工智能研究院基础模型研究中心伍昱、中央音乐学院音乐人工智能系李子晋、中国传媒大学副教授吴卓浩、设计师西乔、中央美术学院设计学院教授费俊等分享了他们的观点,另有10余位AI及艺术领域学者参与了本次讨论,智源社区将本次活动报告与讨论公开部分的主要内容整理如下。
AI技术发展带来的革新和思考
北京智源人工智能研究院 基础模型研究中心 伍昱
2018年左右,AI科学家Jason Weston在Facebook AI Research的一场讲座里提到了对未来的展望和AI研究者应该重点关注的方向,其中就有AI for Creativity。当时的AI技术在搜索、广告、推荐、翻译等任务上取得了不错的效果,很大程度上可以替代人工和传统的方法。但在全新的创造领域,AI创造力还是非常弱的,或者说没被真正有艺术创造力的人认可。但从去年到现在,极速发展的文生图技术,可以说很大程度上向我们展示了AI的创造力。
2021年1月,OpenAI推出了DALL-E,引起极大轰动,这项技术展现了,人们可以通过输入「牛油果椅子」让AI生产相应的概念,也可以创造出一些真实世界中很少的概念。智源研究院也在2021年5月推出了中文的文图生成模型CogView,这项工作和OpenAI的工作算是同时期的探索。2021年11月MSRA提出了女娲模型,该工作不仅能生成图片,还能生成视频。同年12月百度提出了更大规模的ViLG。如果说2021年这项技术还停留在科研探索层面,那么2022年的大爆发则揭示了这项技术在商业落地上的成熟,更多的商业级产品开始出现,这其中就包括DALLE-2、MidJourney、以及最近开源的Stable Diffusion,Diffusion成为文生图的主流技术。
智源研究院也在今年上半年推出了CogView 2.0 和视频生成的CogVideo,当时也引起了不小的关注。在Stable Diffusion开源之后,我们也基于Stable Diffusion尝试做了一个中文版和国画版,生成效果的惊艳程度超过了我们的预期。
此外,我们把一张北大的图片尝试转换为Hogwarts School,生成效果很酷,这个工具让我们很简单地就能创造出一些脑海中的场景。
“罗马数字时代,乘法被认为是极艰深的概念,只有真正的数学家才懂得如何演算;而当阿拉伯数字出现,六七岁的孩童也能理解和用纸笔做计算——并非乘法本身困难,只因为数字的表示方法——UI获得了升级。”创造力曾被认为是少数幸运儿才能拥有的天赋,而随着十年前深度学习的爆发,创造力的新UI已被AI逐渐打开。如今,甚至“创造力新UI”这门技艺本身以及更先进AI技术的诀窍也不再局限于少数精英。
虽然AI技术的蓬勃发展,带来了很繁荣的景象和讨论度,但是我们确实也非常需要关注技术发展所带来的一些问题。
(1)AI生成图片的安全、合法性、版权问题。
(2)AI作品是否会损害艺术家的利益?
(3)怎样更好、更全面的评估AI生成的作品?
(4)如何做好中文世界的AI生成?
(5)未来AI与创作者、艺术家的关系。
万物有声
中央音乐学院音乐人工智能系教授 李子晋
李子晋认为,人工智能时代下,对音乐创造力的理解可以拆解成几个关键词:
第一,音乐。音乐可以看作是一种数据(包括乐谱、音频、文字等各类数据),AI创造音乐最基础的就是数据构建工作。这些数据如何与计算连接,其中涉及到专家知识。
第二,计算。涉及到理解和分析,除了专家知识的加入,还依赖于听觉主观心理学,声音要依赖于专业技术人员的翻译,才能打上标签。
第三,创造力。创造力是在分析理解的基础上,要考虑数据与理解之间的逻辑关系,而不是凭空想象出来的。此外设计方法的介入,可能是将创造力很好展现给公众的一个途径。
在音乐数据方面,李子晋团队构建了用于计算音乐学研究的大型音乐数据分享平台,其中包括用于MIR研究的多功能音乐数据库、中国传统乐器音响数据库、流行歌曲midi-wav双向数据库等,每个数据库又有多个数据集。基于这些数据,团队进行了很多数据库衍生相关的研究,在乐器分类方面有《基于卷积循环神经网络的复音音乐中国民族乐器检测》,在演奏技巧的识别方面有《用于琵琶指法自动识别的网络图特征》,在音色空间研究方面,有《基于主观感知得分与客观音频特征的中国民族乐器音色相似性的研究》等。
「万物有声」,团队希望基于对数据和声音的理解,做出艺术表达。比如团队成员采用洋流和鲸鱼迁徙的数据,做出「呐海」。这些艺术表达也包括实体界面的交互,交互设计的方式与大众沟通。
艺术创作与AI技术的狭路相逢
设计师 西乔
西乔认为,由于DALL-E、CogView、MidJourney、DALLE-2、Stable Diffusion等的出现,数字艺术行业无论现在从事的细分领域是设计、插画、3D、游戏、动画、VR,在未来几年内都会面临AI技术带来的挑战。作为生成模型的使用者,西乔提出几个问题。
一,在视觉生成领域,AI在未来能做到什么程度?AI在多大程度上解放创作生产力,和现在的工作流、工具链做整合?创作本身是一个有很多环节的长链条,不仅仅只局限于图像生成这一步,涉及到需求、原型阶段、创作阶段,大量修订、返工,涉及写作、交付、复杂现实环境中的应用。现在大部分AI艺术使用者还停留在玩家阶段,不停去发现新模型、适用新模型,优化自己的prompt,做出满意的作品。乐趣很大,满足感很强。但如何让这些作品成为传统有收藏价值或者有交易价值的作品?能否融合到现有工作中让这些作品达到商业需求的标准?这是现在这些玩家很关心的问题。用AI图像生成模型来创作,是一件既容易又非常困难的事情,容易在于使用者可以直接调用模型,困难在于生成结果打磨到符合你的设计诉求、构想,质量上能够达到商业交付标准,达到形式上和内涵上的完美程度。
二,AI技术对于整个数字媒体创业行业的影响。所有人都会问,AI最先会冲击哪些工种,换言之,AI会优先敲掉哪些人的饭碗,时间窗口还有多久?西乔认为,新技术会淘汰适应性差的人,但是那些拥抱变革、适应力强的人,最终往往能驾驭新技术、发现新机遇,从此获得新收益。新的生产方式会被替代,新的工作岗位、新产业甚至新的艺术表现形式,会从变革中诞生。
三,AI艺术生成模型大火以后,会面临伦理上的争议,产生舆论问题。对于AI的仇视和恐惧是一种历史悠久的对于新技术的鄙视,可以称之为21世纪的卢德主义。对新技术的抵制数见不鲜,大部分普通人会恐惧新技术带来的变化和负面后果,担心会导致残酷竞争、失业、淘汰,会损害一部分脆弱群体的利益。同时也源于对AI技术的误解和无知。
四,AI模型的训练是否的确侵害了一部分群体,尤其是艺术家群体的利益,比如刚刚泄露了模型代码的Novel AI和二次元插画圈短兵相接的事件。Novel AI是一个封闭的收费商业模型,他们使用二次元分享社区的数据训练数据的模型,使得社区插画师分享者愤怒,产生强烈冲突。
AI创造力行动:小朋友与AI的共创
中国传媒大学副教授、阿派朗创造力乐园联合创始人 吴卓浩
吴卓浩展示了阿派朗创造力乐园中「小朋友与AI共创」的项目。小朋友画的画,经常被成人认为「不像」,是因为他们的身心还没有成长到能够对造型做精确控制的时候,但其实他们画中的创意往往非常好,反而是很多成人无法达到的;如果让AI学习小朋友绘画的方式,再去绘制或者生成画面,就会既有小朋友画画的色彩、笔触风格,又有更成熟的造型能力。
小朋友还可以通过说出、写出自己的创意,让AI去生成影像变成设计作品、绘本故事;或者用表情和身体动作控制虚拟角色做表演,让AI帮助自己变身变脸,变成动画片;或者通过敲击音符、或者哼唱一段音调作为起始,让AI帮助自己作曲……通过自然的互动,小朋友和AI可以共创很多非常有意思的成果。小朋友做、AI学,小朋友想、AI做,小朋友和AI一起做,小朋友与AI可以用各种各样的方式进行合作探索,人类与AI的共创是无止境的。
新媒体艺术与人工智能创作者的边界
中央美术学院设计学院教授 费俊
费俊教授展示了新媒体艺术作品「水曰」。该作品在武汉公墓所做,公墓很适合表达生命,因此选择了一个人工湖。该作品全部埋在水下。费俊团队设计了一个人工智能交互的装置,人只有与湖面进行对话时,才看到湖面会以涟漪的方式回应。这是一个「看不见」的作品,既看不见技术也看不见作品本身,这个作品成为激活自然表达的一个不可见的能量。它的互动方式很特殊,人可以在现场对水说任何话,可以去哼一首小曲,也可以讲一段心里话,水会通过我们提供的一个声纹情绪识别的算法,解读声音中的情绪,并基于人的情绪做出回应。很多人以为它是声音可视化的作品,他们会去想通过呐喊激活水面的涟漪甚至看到喷泉,但是算法恰恰产生一个反面结果,当你情绪越激动、越极端时,水面往往会产生非常缓慢,甚至充满禅意的涟漪。费俊团队与中科院人工智能团队进行合作,用声纹识别方式完成该作品,并在展览中获得将近10万条数据,这些数据比原始数据更有效,通过打标签的方式再反哺模型。
新媒体艺术作品「水曰」
费俊认为,研究者普遍追求用人工智能模拟人的创造力,像人一样画画、唱歌、下象棋。同时,从另一个视角出发,机器拥有机器本身的智能,能否利用机器智能完成不一样的叙事。从这样的观点出发,费俊团队开发了一套基于氛围的模糊算法,通过捕捉人的基本属性,职业、人种、表情,甚至衣服色彩等数据源,共同构建了一个氛围值。该氛围值决定算法会把人带到地球上的某个角落。原因是他可能和某个角落的人、物、景,有某种氛围上的相似性。研究者通过把谷歌大量街景图片下载进行机器学习,再下载大量互联网上的家庭录像,构建了AI学习的数据库。基于氛围关联性算法加上语意联想式的算法,机器开始举一反三。算法可能无休止地在它认为有关联的图像之间进行关联,呈现一种失控的叙事状态。人为无法预计和设定。这样的关联突破了艺术家可能完成的关联多样性。
一位中年男性被算法关联到一个铺满黄花的墓地,显然黄花和他的衣服之间有某种相似性。
费俊还介绍了团队的其他尝试,其中包括培训了3个戏剧角色式的AI机器人,利用3个月的时间将市场上成熟的语音机器人改造为服务态度不好,甚至有点「扎心」的机器人。在构建语料库过程中,不断让他口无遮拦地「说真话」。训练的结果是让AI在聊天过程中产生了非常尴尬的效果。费俊认为,只有这种破冰式的对话才能产生精神疗愈,这是一个极具精神疗愈式的实验。
问答环节
问题1:AI艺术创作,或者说广义上的AI创作,如何形成有效的工作流?(AI艺术跟现有产业在工具链和工作流上的融合)
纪蕾:让AI去设计或者去生成脑子里东西的时候,会花很多的时间在调整prompt,目前的一个研究方向就是,引导模型去发现比较好的prompt,并引导大家怎么使用这个产品。近期发现有prompt的网站是收费的,如果设计出来生成效果比较好,就比如说定价15美元,可以形成这样的产业链。此外,无代码或者低代码,也是现在研究的一个方向,意在尽量简化现在的模型,让模型更加易用。
吴卓浩:在创作过程中,一方面AI真的能帮到很多忙,另一方面很碎片化,各个环节串不起来。有的艺术家是做3D的,有做平面的,有的偏向于设计,每个人都在试图构建自己的工作流。在这个过程中,一方面源源不断新的AI出来,肯定是好事。另一方面,构建这个工作流过程中,任务管理很重要。专业创作者,经常工作状态是睡觉前让(系统)跑,第二天早上起来对着一万张生成的图片,从中筛选。如果有比较好的任务管理方式,把所有想法微调的方向,全部作为程序输入,对于设计者来说更友好一些。
问题2:如何判断AI生成艺术的效果?(AI和艺术更有机地结合)
林咏华:我在AI+艺术上的一个工作是,2018年做的AI剪辑,当时和腾讯体育合作,需要给整场3、4个小时的篮球赛,在MVP公布之后,剪辑出一个一分钟的高亮。当时AI还不能生成视频,而是找到相应的片段完美地拼凑起来。合作的方式是,剪辑师事先定义好他们认为很不错的故事线框架,比如前10秒是高潮,第二个10秒是低谷,第三个10秒是什么。再用AI去分析NBA的视频,插到故事线中。我认为,在这方面,第一,未来要考虑走向人机协同;第二,怎样将人类创作的灵魂以某种形式注入进去。AI只是做了low level的工作,而故事线的设计还是需要人类剪辑师来做。
费俊:我认为,今天AI科学家如果想要深入挖掘AI+艺术,还是需要了解当代艺术。我们对艺术的理解还停留在古典艺术阶段。艺术史已经不关心图像了。当然对于插画师设计师来讲,AI的工具价值是肯定的,但它已经不是当代艺术中最核心的部分。我们已经从图像过渡到图像与图像的语境。AI生成的图像,不是技术问题。而是观念问题。举个例子,马赛尔杜尚把小便池放在美术馆里,起名叫《喷泉》就打开了当代艺术的新篇章,一个现成工业品被当做艺术品了。这件事颠覆美术史,产生新的观念价值。如果可以通过简单的方法论进行迁移的,显然不是艺术。如果可以去迁移这种颠覆性的观念,而不仅仅是图像的拼贴,更符合当代艺术的核心命题。这是我个人的观点。
李子晋:在音乐中也是如此。目前来看这种革新性和创造性的内容一定是人为的,甚至都不是普通人能创造出来的。所以我在想可能我们现在AI做的事情可以予以一定的包容度,把它理解成是一个6、7岁的小朋友,你怎么去教他?现在我们主要讨论的还是模仿性质的AI。比如音乐创作上,一小段旋律的生成是没问题的,但和声的进行,曲式的变化, 这些都是结构性的,也是我们一直解决不好。可能涉及到音域、场域等更高级的问题。
李军:艺术可能是计算机最后能达到的人类自己的一块高地。我认为,如果基于我们对艺术这个词本身的界定来讲,这个词可能国际上是有冲突的,因为艺术本身是针对人而不是针对工具。艺术家和匠人靠积淀,而AI需要依靠大量重复技能训练。基于模型数据训练的逻辑来讲,大概率方向还是生产效率提升的工具。刚才报告中跟水来对话,我相信如果人类历史上没有这样艺术家的创想,想让AI凭空生成这样的创想,几乎是不可能的。
黄铁军:艺术本身也在变,我认为,生成一幅画,一段音乐,其实只是一个短期的现象。艺术一定会产生一种新的形式,这种新的形式,比如照相、电影、电视,总的来说它是很多人去欣赏的一种形态。
我想象中的艺术是无处不在的,是综合性的。不是简单地挂在墙上,不只是一部电影、几首歌曲。艺术家可能是一种导演的角色或者上帝视角。比如我想听什么就给你生成什么,我想看什么,你眼前出现的景象就是最符合你此刻心境的。
问题3:AI+艺术的定义是什么?
吴子薇:AI艺术的定义是什么?刚刚我们讨论的那些例子可以分成三个类别:一个是人类的作者来选择是什么样的网络或者什么样的network architecture,第二是人类作者来设置training set。第三个在生成之后,人类作者来选择他们觉得什么是最成功的一个作品。但是目前并没有对AI艺术确切的定义。
有两种AI+艺术的定义,第一种,回到AI的定义,AI或者计算机能够实现人类认知的一个再现,实现人类艺术家的一些认知。第二,因为人类身体、头脑或其他局限无法创造的艺术,机器来实现。
十三维:AI和艺术,要从艺术的起源和脉络来看。很早以前,艺术就有生成式的创作方式,在古代,达芬奇等画家就利用过水流、波纹等自然系统产生图案。
计算机产生之后,菲利普·加兰特提出了「生成艺术」的概念,即只要利用一个创造系统进行创作。这个系统可以是自然规则,可以是计算机程序或AI大模型,甚至可以是另外一个系统,比如生态系统等,大家一起跳舞或者一起有一些行为艺术,都叫生成艺术。
今年的一篇论文将AI创造系统分为五个层级,前两层就是机器艺术家,最简单的一层就是单纯的生成系统。输入某些外部数据参数,改变了参数会有不同的输出。第二层加入了鉴赏系统,这个鉴赏系统说到底什么好的图片,什么不好的图片,还是用人类的一些价值观或者学习到的一些东西,给它设定好一些判别,类似于GAN。
达到第三、四、五层,说明这个艺术系统可能通过图灵测试了。第三层为单纯的艺术系统,这个系统是能够发明自己的审美函数或者适应度函数。这个艺术品的好坏,不是人类通过外部数据输入决定的。这里的艺术创作结果可以部分改变世界,甚至可以影响我们人类的价值观。
第四层,共生系统,是指能与人类进行交流,我们人类说这个好看不好看,艺术家也会给出意见,图灵艺术系统也会给出意见。交流后的结果,大家会有一个共识,即好不好看。这个系统通过传感器、外面的摄像头、声音等等捕捉外面的环境等等作为自己的输出,这一层已经能够通过图灵测试了,我们甚至可以说它有了自己的审美和个性。
第五层,真实系统,可以在线检测人类的反应,比如交流时图灵艺术家可能会看我们的反应,将我们的现场动态转化成自己的数据和经验,同时也会储存自己的一些思想、所有审美的价值等等,最终自己也会运转反映到和真实世界共生的创造系统中,这可能是最高级的创造系统。
问题4:如何解决AI+艺术落地的问题?
西乔:AI落地的问题。第一,现有的AI模型需要有更高的可控性包括更精确的编辑能力,支持对细节反复的打磨、迭代。第二,能够在输出质量上有提升。第三,满足自定义需求的同时,又让成本变得可负担,对现有的生成模型做一些针对性的微调。现在会有越来越多模型关注编辑和细调的需求,去关注定制化。这对于AI图像生成技术应用于实际商业级的创作工作流会带来非常乐观的预期。
关于数据源的问题,有大量艺术家的作品没有经过同意就被作为了训练数据,这是现在一些模型训练商或者厂商的做法,这么做到底有没有问题?艺术家的知识产权在这个场景下到底受不受保护?基于现有的艺术品版权法律而言,艺术家能不能对一种风格主张版权。如果艺术家的作品被未经许可拿去做了训练,大家除了舆论谴责,这是无能为力的,这是现在法律框架下的现状。推己及人,联想一下以后,我们如果作为AI艺术的创造者,我们用模型生成出来的作品,这中间还包括我们的偏好数据,我们创作过程中迭代挑选标记修改的行为数据,是不是以后也会被不经许可用于训练,我们也是无法主张这个权利的,这也是我对于现在模型AI开发方提出的一个问题。
整理:李梦佳