姓名:吕海森
学号:17011210545
转载自:https://www.huxiu.com/article/225176.html
【嵌牛导读】:我们都知道,许多以讹传讹,引起过舆论轰动的假照片都是PS过的,不光看起来非常不真实,而且经过一些技术手段是可以检测的。但是如果AI介入到图像、视频造假当中呢?如果逼真到检测设备都无法分辨,那被混淆视听的我们又该如何分辨真假?
【嵌牛鼻子】:AI造假、生成式对抗网络
【嵌牛提问】:AI也会成为双刃剑?有没有可能打造良善 AI 专门对抗邪恶 AI?
【嵌牛正文】:
一直以来,人类想要判断事件真假、是非对错,常常会说“眼见为凭”、“有图有真相”,但这些准则很有可能即将失灵,因为一项被誉为近十年来机器学习领域最有趣的突破——生成式对抗网络(GAN,Generative Adversarial Networks),很有可能因为误用而扰乱我们的认知。
Google Brain 研究科学家 Ian Goodfellow 上个月在《麻省理工科技评论》举办的 EmTech 大会上警告:“未来我们可能会不得不退回到 100 年前阅读新闻的方式”。他也是生成式对抗网络的发明人,并因为发明 GAN 这项革命性技术而被评为本年度《麻省理工科技评论》35 岁以下 35 名科技创新先锋之一。
过去,我们可以将一段视频视为是某件事情发生的证据,但像 GAN 这样的人工智能技术出现之后,可以创造出更容易让人信以为真的假图片、假视频。“从历史的角度来看,我们依靠视频来证明事情真的发生过,这其实有点侥幸的意味。” 他承认,在未来,研究人员或俄罗斯特务将有可能创造出政客们说出各种言论的视频,这种情况将与GAN相关。“我们正在让可能发生的事情加速发生”。
“未来面对新闻,我们只能更加小心,时时刻刻保持怀疑的态度。也许要习惯不相信你在网上看到的大多数影音或图像,就像回到 100 年前那个不通过照片、影像来传递信息的时代。”
身为 GAN 发明人的Ian Goodfellow,说出这番话显得有些讽刺,GAN 可能对信息传播、舆论造成巨大影响、甚至是一种危机,恐怕这也是他始料未及的。“在这种情况下,人工智能正在关上某些大门,而我们这一代早已习惯了这些大门处于敞开的状态。”
2014 年,Ian Goodfellow 还在蒙特利尔大学(Université de Montréal)念博士时,某日他在酒吧与朋友讨论该如何解决训练 AI 需要大量标注数据的问题,给了他开发出 GAN 的灵感。
想要建立一个神经网络学习识别人、猫、狗,方法就是把每张图像上的人、猫、狗仔细的标注(labeling)起来,再让系统分析这些成千上万张的照片,但如果没有做好标注,这些照片就无法用来训练网络,要不然就是训练出来的网络的识别力很差,因此发展深度学习往往需要大量的人力及时间。
GAN 能利用现有的数据来建立已经带有标注的图像,如此就能减少上述提及需要大量人力来标注数据的麻烦。因此,被人工智能先驱、Facebook 人工智能研究院(FAIR)院长 Yann LeCun 赞许是“机器学习最近 10 年来最有趣的想法”,NVIDIA 创始人黄仁勋口中的“一项突破性的发展”。
GAN 独到之处在于同时训练两个网络,一个是生成网络(generator network),又称生成器(generator),另一个是判别网络(discriminator network),又称判别器(discriminator),而且让这两个网络相互对抗、彼此竞争却又互相学习。
生成器想的是骗过判别器,或是让判别器觉得它做的东西是好的,而判别器的任务就是去抓什么是真实的,什么是生成器做的。可以想象成是一个是罪犯,另一个是警察,互相斗智,谁也不让谁。而你想要变得超强,就是要有一个神一般的对手,就是 GAN 的核心精神。
在 GAN 的训练过程,会先有一个生成器 V1,产生影像,判别器 V1 看了这个影像之后,分辨究竟这是一个假的影像还是真实的,有了判别器 V1 的回馈后,生成器进化成 V2,再产生新的影像,如果成功骗过判别器 V1,判别器 V1 就会更新其参数,制造一个进化版的判别器 V2,但如果没有骗过判别器 V1,生成器 V2 就会更新其参数以生成更逼真的影像,继续诈欺判别器...... 此过程不断循环、更新,生成器或及判别器一代比一代厉害。
而 GAN 与另一项技术强化学习(RL,Reinforcement Learning),听起来有点异曲同工,不过,两者还是有所差异。GAN 有一个生成器、一个判别器。在强化学习里则是有一个 Agent,一个环境,两者会不断互动,环境会给 Agent 奖惩分数(reward),Agent 会不断更新参数,以争取环境给它的分数值越大越好。所以,Agent 的角色类似生成器,环境就象是判别器,但环境的参数是固定的,判别器的参数是会不断更新,这就是 RL 和 GAN 的最大差异。
“GAN 做的事很像‘演化’”,专门研究 GAN 的台湾大学电机工程学系教授李宏毅道出重点,他解释,演化是突变跟自然选择的结果,例如眼睛是怎么产生的呢?复杂的器官并不会凭空出现,可能会先出现一个例如感光细胞的简单版本,通过很多步骤慢慢演变成眼睛,GAN 也是如此。刚开始 GAN 生成出来的东西可能不太好,但经过多次更新之后,就可能创造出非常逼真的东西。
李宏毅进一步指出:“GAN 有利于 AI 在结构学习(structured learning)研究的突破,当你今天想要机器输出的东西(output)是具有结构性,也就是由许多零件构成的,例如句子、音乐、图片,使用 GAN 会比其他技术得到更好的结果。”
专以程序、 AI 进行艺术创作的德国艺术家 Mario Klingemann 在 YouTube 上发了一段名为“替代脸孔 v1.1”(Alternative Face v1.1)的视频,内容是法国音乐家 Françoise Hardy 评论美国总统特朗普的言论,但在现实世界 Françoise Hardy 根本没说过这些话。
原来是 Mario Klingemann 只花了几天时间利用 GAN 就完成了这一个把 Françoise Hardy 的脸配上了特朗普顾问 Kellyanne Conway 声音的假视频,但由于视频的品质不太好,很容易让人发现破绽,不过 Mario Klingemann 只是想借此表达“当代即时新闻抄袭、截取、杜撰,正在摧毁世界”,而不是真的要让人误以为真。
但事实上,一个训练良好的 GAN 再配上丰富的计算资源,想要制造出以假乱真的图片或影像,已经是可以实现的事了。
NVIDIA 研究人员以真实名人的照片作为训练数据集,利用 GAN 创造出极为逼真、分辨率 1024 X 1024 的假社交名人照,“这个研究最让人惊艳的是,可以生成很高分辨率的图片,大幅提升假人物的细腻度,突破了过去 GAN 的瓶颈”,李宏毅说。
为什么这件事会让人感到毛骨悚然?研究机器人或 AI 的人,都会听过恐怖谷(uncanny valley)理论,是一个探讨人类对于机器人和非人类物体有何感觉的假设理论。
日本机器人专家森政弘认为,由于机器人与人类在外表、动作上相似,所以人类会对机器人产生正面的情感,但若这个相似程度超过了某一个水准,人类的反应就会变得极为负面,会认为机器人僵硬、恐怖、令人头皮发麻,例如先前获得沙乌地阿拉伯公民权身份的女性机器人索菲亚(Sophia),曾说了一句“我想摧毁人类”,就引起不小的话题,人类无法知道它究竟是开玩笑、机器有 bug,还是它真的有此打算。
但是,如果利用 GAN 来制造假新闻,或是把假图像、假视频发布在社交媒体上,恐怖程度就不只是恐怖谷讲的情感面的厌恶而已,很可能成为别有用心者操弄人民跟社会的工具,甚至是造成群体对立,上升为一种外交冲突、国家安全等级的问题。
这几年外国的社交媒体如 Facebook 一直深受假新闻、假信息的散布所苦恼,特别是先前美国大选期间,更是将此问题推到了顶点,日前 Google、Facebook、微软、Twitter 等科技公司宣布加入由曾经获得美国专业新闻记者协会(SPJ)、皮博迪奖(Peabody Award)等奖项的记者 Sally Lehrman 及圣塔克拉拉大学(SCU)应用伦理中心主导的“信任专案”(The Trust Project),希望辨别“可信”新闻来源,打击网络不实信息。
回想一下,过去出现的假新闻多利用似是而非的图片配上错误的文字内容,或是利用现有的 Photoshop 或合成技术,就已经造成严重影响。而今,GAN 之类的 AI 技术 将使得这件事变得愈加复杂,让人更难以分辨真假。
“生成 YouTube 假影片有可能在三年内实现……AI 会改变我们所信赖的证据——图像和音频”,Ian Goodfellow 被媒体询问如果要预估用 AI 制作假影片时这么回答。不过,他也表示,GAN 还需要更多研究做进一步突破,目前 GAN 在生成“单一”图像时可以表现得很好,但无法同时画猫、狗又会画其他影像,它距离制造复杂的数据还有很长的路。
李宏毅也提出类似看法,利用 GAN 或 AI 来造假图片、假影像以影响新闻或舆论,“是有这个可能,但是,在当下这个时间,机器充其量只能做到骗过机器,应该还无法骗过人类”,他说。
他进一步解释,单看一两张照片或许可以骗过人,但如果你要机器产生大量图片,例如几百张,就会发现它生成的图片看来看去就是那个样子,背后还是有固定的模式。如果是生成影片,目前还是很困难,画面通常很模糊。但这些问题会随着时间而被突破。