强化学习第二章总结: e-greedy算法,梯度上升算法,the 10-armed bandit problem
学习强化学习《ReinforcementLearningAnIntroduction》,总结第二章的知识,包含一个问题,两个算法。问题:the10-armedbanditproblem算法:e-greedy、剃度上升仿真代码见附带资料:the10-armedbanditproblem1.问题描述:the10-armedbanditproblem这是一个重复做选择的问题。一共有10个选择,重复选择1