20170904——丁酉年七月十四

之前一个月半月,学习基本处于停滞状态。现在心态也调整好了,事情也办完了。回过头来发现RL的很多理论方法,以前只是知道怎么写代码,但是并不清楚背后的原理。无论从数学、还是从自然规律,还是需要建立一个体系,所以打算重新精读这些文章。

精读论文:

1. J.Schulman 2015Trust Region Policy Optimization

2. D.Silver 2014  Deterministic Policy Gradient Algorithms

*3. S.Levine 2014 Learning Complex Neural Network Policies with Trajectory Optimization

完成任务:

1. 深入理解1、2两篇论文,并形成笔记;

2. 有时间的话选读论文 3

你可能感兴趣的:(20170904——丁酉年七月十四)