捉迷藏的游戏自古已有之,它给无数小孩带来了童年乐趣。如果让一群AI来玩躲猫猫,会发生什么呢?看看下面这个视频:
该实验主要基于两种人工智能算法:多智能体学习以及强化学习。从上面结果可以得出以下几点启示:
启示一:DeepMind和OpenAI在游戏领域运用AI最牛的两个公司,DeepMind搞出了AlphaGO等一些列产品,而OpenAI则搞出了玩dota的机器人。尽管都是用“深度强化学习”玩游戏,但在技术流派上,还是有些许的差别。DeepMind推崇Value-based RL的思想,搞出了Deep Q-learning, DDPG之类的东西;而OpenAI则推崇Policy-based RL,它的TRPO以及后来的PPO,都是在实验中几乎必用的算法。照理讲,Policy-based应该是强化学习的终极目标,但架不住DeepMind背靠谷歌这颗大树,Value-based更消耗资源也能跑起来,DeepMind让其他研究者只能远观。
启示二:在模拟人类物理环境的智能体行为中,多个智能体之间是可以学习出人类的技能,比如借助工具,甚至还能出现一些意想不到的结果,找到环境的bug,就如同下面捉迷藏游戏中学会了飞。在OpenAI另一个项目《
启示三:人工智能一旦用于实际应用中,一定要小心翼翼,只要有一点点小bug,会被智能体无限放大,很容易出现极端情况。就像这个捉迷藏游戏一样,智能体进化出能起飞这种完成超出常理的状态。虽然谁这个环境是人为构造的,但是人会陷入既定的思维模式,而AI就可以跳出这个思想牢笼,没准 AI 才是许多奥秘的关键。
启示四:诞生于DeepMind和OpenAI等一系列好玩的AI程序,之所有诞生在我们看起来的“民营”企业,主要有四个原因:一是这些企业以实际产业需求作为研究的推力,二是做研究时申请项目压力较小,三是日常事务效率高,四是有多种专业背景的人密切交流。真的很羡慕这些顶级的研究机构,想研究什么就研究什么。国内学术机构要人工智能原创研究,恰恰缺乏这些推动力。近年来BAT等为代表的互联网公司,花了大量资源研究人工智能,也出了不少成果,但是离国外差距仍然很大。
启示五:OpenAI与DeepMind还有一个差别,DeepMind每个成果都会发一篇《Nature》,详细解释设计的细节和步骤,OpenAI完全没有打算发顶级杂志。从这次他们发的论文就看得出来,只给了程序结果,最关键的模型细节一概不说,却在附录里给出了模型的参数,这叫人怎么复原嘛,要想了解其中的奥秘,只能花时间看他们的源代码。
启示六:金融领域的投资者行为,与多智能体竞争过程非常类似,面对一个开放的问题,上亿投资者参与其中。金融市场是一个经典的多智能体生态系统,其中普遍存在着二阶效应:每个智能体根据生态系统的变化调整各自策略和行为,智能体之间会互相影响。而计算机可以在没有监督的情况下学习复杂的策略和技能,用模拟人类投资过程,经过一段时间的博弈,得到与现实生活非常类似的投资者结构。
启示七:人工智能在金融领域的应用中,目前绝大多数还只是依赖“深度学习”算法,对金融领域的大数据建模。但金融领域很多场景涉及连续决策问题,且对单次决策的评价和衡量存在滞后效应。需要利用强化学习方法,解决连续决策的问题。强化学习之所以在游戏领域能够成功,是因为环境边界确定而且规则简单,能自动生成海量样本数据,但大量数据难以基于固定不变规则模拟现实金融运行场景自动生成数据,限制了强化学习技术的应用。
下面是躲猫猫的具体的过程,还是很有意思的。
在2500万场捉迷藏游戏后,智能体们掌握了四种基本的游戏策略。
第一阶段:追逐和隐藏。游戏一开始设定红队队员有一段时间是不能动的,蓝队就趁着这段时间赶快躲起来。
第二阶段:把自己藏起来。经过几百万次失败,光是躲起来很快就会被红队发现,蓝队很快就找到了新的方法:用场地中黄色方块把路堵住。
第三阶段:突破掩体。红队发现有带着斜坡的木块,红队突破了蓝队的防护。
第四阶段:防止冲浪。蓝队也很快学会了在游戏开始阶段,先把斜坡藏起来。
第五阶段:合理运用“潜”规则。红队找到一处 BUG ,居然能站在方块上滑行,很快又突破了蓝队的障碍。因为在游戏设定中,只要人和木块有接触就可以移动木块。而蓝队发现以一个特殊角度,可以把木块推到训练地图之外。这个小小的 “ BUG ”,在现实生活中人是很难发现的,在游戏中经过多轮进化很快被机器人发现了。
第六阶段:“起飞”。在不断尝试后,红队发现有个特殊角度能飞起来,欣赏下面这个动画。