强化学习面试

1.什么是mdp

2.reward,return(之前用的属于都是gain),和value的关系

3.dqn的两个gaijin

4.为什么从replay buffer里要随机的取样本(答案打破相关性)

5.什么是belman方程,马尔可夫性是什么时候被引入bellman方程的

6.极大似然估计

7.贝叶斯分类器

8.如何复制一个带随即指针的链表

9.git 的常用命令

10. linux常用命令

你可能感兴趣的:(深度学习)