【强化学习】多臂老虎机——E_greedy、UCB、Gradient Bandit 算法 代码实现
多臂老虎机importnumpyasnpimportmatplotlib.pyplotaspltclassE_greedy:def__init__(self,arm_num=10,epsilon=0.5):self.arm_num=arm_numself.epsilon=epsilonself.arms=np.random.uniform(0,1,self.arm_num)self.Q=np.ze