Reinforcement learning an introduction example 6.2 i.e. exercise 6.6
在第二版的p125中有写道:Thus,thetruevaluesofallthestates,AthroughE,are16\frac{1}{6}61,26\frac{2}{6}62,36\frac{3}{6}63,46\frac{4}{6}64,and16\frac{1}{6}61.那么这些结果哪里来的。在本书大部分的时间里,value可以由Bellmanequation获得:vπ(s)=∑aπ