AlphaGo家族如虎添翼,新增成员“AlphaGo Zero”

  • 先前版本的AlphaGo通过结合数百万人类专家的签名和强化学习的监督学习进行自我训练。但是,AlphaGoZero在击败AlphaGo的专业大师之前,它已经接受了几个月的培训,依靠多台机器和48个热塑性聚氨酯AlphaGo Zero的功能在此基础上得到了质的改进。最大的区别是它不再需要人类数据。
  • 换句话说,它一开始并没有接触到人类的国际象棋。研发团队只需让它在棋盘上自由移动,然后玩自己的游戏。值得一提的是,AlphaGo Zero也非常“低碳”,仅使用一台机器和四个CPU,这大大节省了资源。
  • AlphaGo Zero增强了学习中的自我娱乐。经过几天的培训,AlphaGo Zero已经完成了近500万套自我游戏,并且能够超越人类并击败AlphaGo的所有以前版本。DeepMind团队在官方博客中表示,Zero采用更新的神经网络和搜索算法进行了重组,随着培训的深入,系统性能逐渐提高。自我游戏的结果也越来越好。同时,神经网络变得更加准确。
  • AlphaGo Zero获取知识的过程“这些技术细节比以前版本更强大的原因是我们不再受到人类知识的限制,它可以从阿尔法狗本身学习,这是Go的最高领导者。” AlphaGo团队负责人David Dave Sliver说。
  • 根据大卫席尔瓦,AlphaGo Zero使用一种新的强化学习方法成为一名教师。该系统甚至不知道该怎么做,但从一个单一的神经网络开始,神经网络通过一个强大的搜索算法,一个自我象棋。随着自我游戏的增加,神经网络逐渐调整以提高预测下一步的能力并最终赢得比赛。更重要的是,通过深度训练,DeepMind团队发现AlphaGo Zero还独立发现了游戏规则并提出了新的策略,为古老的游戏Go带来了新的见解。
  • 席尔瓦继续说道:“每场比赛结束后,AlphaGo Zero实际上训练了一个新的神经网络,它改进了自己的神经网络,预测了AlphaGo Zero的自己的路径,并预测了比赛的胜利者。
  • 当AlphaGo Zero这样做时,它实际上会产生更强大的神经网络,这将导致“玩家”的新迭代。”
  • 因此,人类终于获得了新版本的AlphaGo Zero,它比以前的版本更强大。随着过程的不断重复,它还可以生成更高质量的数据并用于训练更好的神经网络。 这些创造性的时刻让我们相信,人工智能将成为人类智慧的增强者,并帮助我们解决人类面临的一些严峻挑战。 即使AlphaGo Zero刚刚开始发展,AlphaGo Zero也走出了实现这一目标的关键一步。

你可能感兴趣的:(阿尔法狗)