1 导语
这个实验是14年上半年在公司实习做的,很多都已经忘记了,就基本参考以前的总结写在这。用机器学习去玩游戏最牛掰的当属google deep mind的DRL[1]系列,这个是完全图像输入,我等也只能膜拜的份。博主这个实验是用的是人工特征,因此与DRL不可同日而语,效果也不是很好,不过个人觉得这个实验还是挺有趣的,又没有license的问题,所以在这里分享给大家。这里面的思想很简单,就是得到鸟的位置然后送入到CRBM网络去学习当前适合是否要点击屏幕。
2 数据采集
大家都知道flappy bird特别难,那要怎么采集学习数据呢。2014年初的时候有两哥们做了一个机械臂去玩flappy bird[2], 博主的这部分工作比他们晚点,但技术上是独立的。我也做了一个状态机去玩flappy bird来采数据,效果还挺好,最高能到200多分。
3 RBM
本来不太想介绍RBM的,但是为了CRBM统一符号,因此在这里简要介绍RBM,这部分不太形象,有点偏论文你们可以参考网上其他的文章,可能要通俗易懂些。由于个人比较懒,参考文献都已以前的文档为准,所有可能文献标号会不连续,另外有些术语有可能在我文档其他部分引用了相应的参考文献,但这部分没有引用,非常抱歉。
RBM的内容主要以Bengio文献[52]为基础。
(1) 限制波尔兹曼机
4 CRBM
5 实验结果
印象中最高分是18分。
[1]Mnih V, Kavukcuoglu K,Silver D, et al. Human-level control through deep reinforcement learning[J].Nature, 2015, 518(7540): 529-533.
[2]Robot to play Flyppy Bird. http://cloudteastudio.com/bird.html
[28]Hinton G E, Osindero S, TehY W. A fast learning algorithm for deep belief nets[J]. Neural computation,2006, 18(7): 1527-1554.
[36]Bengio Y, Lamblin P,Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances inneural information processing systems, 2007, 19: 153.
[52]Bengio Y. Learning deeparchitectures for AI[J]. Foundations and trends® in Machine Learning, 2009,2(1): 1-127
[53]Nair V, Hinton G E.Rectified linear units improve restricted boltzmann machines[C].Proceedings ofthe 27th International Conference on Machine Learning (ICML-10). 2010: 807-814
[54]Le Roux N, Bengio Y.Representational power of restricted Boltzmann machines and deep beliefnetworks[J]. Neural Computation, 2008, 20(6): 1631-1649.
[55]Carreira-Perpinan M A,Hinton G E. On contrastive divergence learning[C].Artificial Intelligence andStatistics. 2005, 2005: 17.
[56]Tang Y, Sutskever I. Datanormalization in the learning of restricted Boltzmann machines[R]. TechnicalReport UTML-TR-11-2, Department of Computer Science, University of Toronto,2011.
[68]Spiliopoulou A.Investigation of Deep CRBM Networks in modeling Sequential Data[J].