不知道各位差友们玩的第一款游戏是什么呢?《 魂斗罗 》、《 拳皇系列 》还是 1980 年面世的《 吃豆人 》?
不过大家即使没有玩过也一定见过被困在蓝色迷宫的的像素风格开口小黄豆以及四个颜色各异的小精灵。
而今年作为《 吃豆人 》面世四十周年,整个互联网都在举办各式各样的庆祝活动!而英伟达作为一个 “ 豪横 ” 的GPU大厂,也用独特的方式参与了这场致敬活动!
在 5 月 22 日也就是《 吃豆人 》1980 年问世的同一天,英伟达公开了一款利用 AI 模型 GameGAN 复刻的完整版《 吃豆人 》游戏,并宣布在下半年开放此 AI 复刻版游戏供玩家试玩。
那么完成这次复刻任务的核心 GameGAN 是一个什么来头呢?官方解释为:GameGAN 是利用生成式对抗网络( GAN )模仿电脑游戏引擎的一个神经网络模型,也就是一个可以通过 “ 我打我自己 ” 来自我提升的 AI。
要理解 GameGAN,就要先把 GAN 揪出来了解一下,传统的深度学习模型我们可以大致分为两类:生成模型( Generative Model )与判别模型( Discriminative Model )。
在 2014 年 Goodfellow 将生成模型与判别模型紧密结合,就形成了 GAN(Generative Adversarial Networks )
为了便于理解,我们可以将生成模型比作推销员小 G,而判别模型可以比作用来识别并屏蔽垃圾推销短信的拦截软件小 D,小 G 的目的就是骗过拦截软件小 D 将推销信息发给我们。
小 D 的目标就是帮我们过滤识别并屏蔽垃圾短信发送者小 G,当小 G 发现推销信息被屏蔽以后,他会吸取经验,然后换一种口吻或者号码再次发送。
而小 D 也会通过学习不断提升自己识别垃圾短信的能力。双方会不断重复这个相互竞争的学习过程,直到达到某种平衡。
完成这次出色复刻任务的 AI 模型:NVIDIA GameGAN,就属于应用于游戏领域的 GAN。
总结来说,GameGAN 是首个利用 GAN 模拟计算机游戏引擎的神经网络模型,通过上述的小 G 与小 D 两个神经网络的相互竞争,在不需要知道游戏底层的编程逻辑与开发规则的前提下,仅仅通过观看了五万个游戏回合视频,就自己 “ 山寨” 出了《 吃豆人 》。
整个自主学习过程主要由动态引擎、记忆模块以及渲染引擎三部分组成。
我们可以将 GameGAN 的三部分理解成我们去买一块蛋糕的过程!
动态引擎就是用来将眼睛所看到的蛋糕颜色、形状等信息发送给大脑。
渲染引擎通过将眼睛看到的基础信息进行分析,例如红色是樱桃,黑色是巧克力,当然,红色也有可能是葡萄。
记忆模块则负责将我们这次完整的购买过程进行记忆并存储以供后续的学习进步。
整个自主学习过程就是我们通过与店员交流,不断更新我们对蛋糕的了解,从最开始只对颜色形状提出意见,到最后我们可以对材质、做工方法作出要求。
其实 AI 自诞生以来就一直参与着各式各样的体育竞技和电子游戏,当然也不断刷新人们对 AI 的认知。
比如在 2017 年,DeepMind 所开发的 AlphaGo 与当时世界第一的围棋手冠军柯洁进行对抗,最终 AlphaGo 以 3 比 0 的碾压优势获胜,从那时开始围棋界也公认了 AlphaGo 的棋力已经超过人类职业围棋的顶尖水平。
而在游戏这块,Open AI 也在 2018 年 Dota2 5V5 比赛中,几乎碾压战胜了均分 4000 分的 Dota2 玩家,并且在之后的开放 5V5 模式中,577 场的比赛中人类仅获胜了两场。
而在复刻版的《 吃豆人 》游戏中,GameGAN 依靠自主学习能力,不仅保证 AI 模型生成了与原版游戏一样的静态环境元素,例如迷宫形状、豆子以及强化道具等,还生成了敌方幽灵以及吃豆人本身这样的动态元素。并且能够对游戏规则进行学习复刻,例如吃豆人无法穿越围墙、吃到强化道具会使幽灵四处逃窜、被鬼魂抓到即游戏结束等规则。
并且 AI 渲染模块也可以方便的对游戏内各类元素进行替换或更改,例如改变游戏的背景或将吃豆人换成我们熟知的马里奥等!
《 毁灭战士(Doom)》是由 id Software 开发的第一人称射击游戏,在近两年《 毁灭战士 》也一直是人工智能研究的宠儿。来自卡耐基梅隆大学、清华大学等人工智能团队分别开发各自的 AI 机器人,在《 毁灭战士(Doom)》游戏中展开生存竞赛,以各自 AI 的总击杀数与自杀数进行最终排名。
而英伟达完成对 Doom 的复刻,也意味着 GameGAN 可以通过从录制的游戏视频以及玩游戏时的物理按键轨迹来学习任何一款游戏的内容及规则,并进行复刻,而不仅仅是参与到游戏中。
不过虽然是一个简单的像素级《 吃豆人 》小游戏,英伟达投入的开发成本却是十分之高,不仅包括游戏开发商万代南梦宫为英伟达团队提供的 50000 集( 共几百万帧 )的《 吃豆人 》剧本,英伟达 AI 研究团队还动用了 4 台配备 Quadro GV100GPU 的 DGX 计算机进行学习训练。
同时由于 GameGAN 的动态引擎对图像捕捉的能力还不够成熟,使现有模型存在保真度的问题,导致 GameGAN 复刻的游戏画面都比较模糊。复刻的吃豆人游戏分辨率最高只有 128x128,每秒也只有 50 帧。
但是 NVIDIA 实验室也表示:GAN 的最终目标是只需要通过观看视频和观察目标在环境中所采取的行动,就能模仿驾驶规则或物理规律。
比如对游戏开发者来说,他们不再需要再苦思冥想新的游戏关卡或模式,完全可以交给成熟的 GAN 通过自主学习来生成新的游戏内容,而 GameGAN 复刻的《 吃豆人 》就是实现这一目标的第一步。