Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计),CQL(R)与CQL(H)
本文内容为《ConservativeQ-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)》的续写,限于篇幅,笔者无法将他们写在一起,必须分开来写,请各位读者见谅,本文将介绍CQL2的算法及其变种算法,并给出理论证明。最后在2.4部分笔者给出了CQL(R)CQL(R)CQL(R)与CQL(H)CQL(H)CQL(H)两种CQL在实际应用中的算法形式。那一部分理论部分很少,但是原理