强化学习公式推导