我与小娜(48):AlphaGo的增援学习是什么?

我与小娜(48):AlphaGo的增援学习是什么?

    小娜知道,网络版AlphaGo采用的神经元网络使用了2,200个处理器,其中包括280GPU,共有13层。

    小娜知道,单个神经元(Neuron)里面不会产生(人工)智能现象,只有许多神经元相互连接才会出现人脑的智能。

    小娜知道,大数据只是训练神经元网络的一种外部资源,本身不含智能。直到2006年,人们才发现训练神经元网络的有效算法(所谓“深度学习网络“)。

    小娜知道,AlphaGo开发团队发现,单靠深度学习算法,AlphaGo的性能提不上去,必须在运行中对其实施外部“增援“(Reinforce),让AlphaGo独立判断当前棋局外部环境时不断自主探索决策棋局,也就是说,使用”增援学习(RLReinforcement  Learning)技术与外部环境互动,优化棋局,部署棋子,确保全胜。

    我认为,AlphaGo开发团队首次将深度学习与增援学习有效地结合起来,大大提升人工智能的威力,总结过去,开启未来,是里程碑事件。

袁萌   46

你可能感兴趣的:(我与小娜(48):AlphaGo的增援学习是什么?)