【读邹伟等著强化学习】第1章~第7章

ISBN: 9787302538295

第二章
p21
这个矩阵运算与p18下方的值函数自迭代公式相比,似乎少了对于a的求和号。因此我认为只有在确定性策略下这个式子才成立。

第三章
p29
策略评估中,书中说由于其他未知量已知,因此该方法的反复迭代终将收敛。这个说服力不足够。
p29
倒数第二行,类似p21的问题。另外sigma号固然可以如此安放,但是没有限定求和范围的括号。
p30
倒数第五行缺括号
p37
\pi * 那行缺括号

第四章
p53
【读邹伟等著强化学习】第1章~第7章_第1张图片
p53
【读邹伟等著强化学习】第1章~第7章_第2张图片p59
【读邹伟等著强化学习】第1章~第7章_第3张图片
第六章
p113
【读邹伟等著强化学习】第1章~第7章_第4张图片

你可能感兴趣的:(强化学习)