强化学习各概念整理(value/policy-based、on/off-policy、model-based/free、offline)
前言如果你对这篇文章可感兴趣,可以点击「【访客必读-指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。value-based&policy-basedvalue-based:通过建模训练Q(s,a),测试时基于s选取使Q值最大的a典型算法:Sarsa、Q-learning、DQNpolicy-based:通过建模训练p(s,a),即基于s得到不同a的概率,测试时选取概率最大的a典