机器人学中的状态估计 中文版_通用AlphaGo诞生?DeepMind的MuZero在多种棋类游戏中超越人类...
DeepMind近期的一项研究提出了MuZero算法,该算法在不具备任何底层动态知识的情况下,通过结合基于树的搜索和学得模型,在雅达利2600游戏中达到了SOTA表现,在国际象棋、日本将棋和围棋的精确规划任务中可以匹敌AlphaZero,甚至超过了提前得知规则的围棋版AlphaZero。MuZero算法在国际象棋、日本将棋、围棋和雅达利(Atari)游戏训练中的评估结果。横坐标表示训练步骤数量,纵