云端FFF

RL 实践（1）—— 多臂赌博机

参考：《动手学强化学习》
多臂赌博机是一种简化版的强化学习问题，这种设定下只有动作和奖励，不存在状态信息（或者说全局只有一个状态，不存在状态转移）。在 RL 研究早期，很多关于评估性反馈的研究都是在这种 “非关联性的简化情况” 下进行的
关于多臂老虎机及相关算法原理的详细说明，请参考强化学习笔记（2）—— 多臂赌博机，本文主要对平衡探索和利用的诸多方法进行编程实践
注意：由于本文是jupyter文档转换来的，代码不一定可以直接运行，有些注释是jupyter给出的交互结果，而非运行结果!!

文章目录

1. 多臂老虎机
- 1.1 问题设定
- 1.2 形式化描述
- 1.3 程序实现
2. 各种平衡探索和利用的策略
- 2.1 $\epsilon$ - greedy
- 2.2 Decaying $\epsilon$ - greedy
- 2.3 基于置信度上界的动作选择（UCB）
- 2.4 汤普森采样算法（Thompson sampling）
3. 总结

1. 多臂老虎机

1.1 问题设定

多臂老虎机(multi-armed bandit，MAB) 有k个摇臂，每拉动一个摇臂，都会落下一些金币。每个拉杆都对应一个关于即时金币收益的未知分布，应该使用什么策略，才能在有限的尝试次数中获得最多金币呢？

如果拉杆的收益分布已知，直接使用贪心策略一直拉最优拉杆即可，但当分布未知时，我们一方面需要足够多的交互来估计拉杆的期望收益，另一方面又要充分利用当前的估计结果尽量最大化收益，这个简单的问题很好地反映了强化学习中的 “探索-利用困境”
多臂老虎机问题相比完整 RL 问题的显著简化是不存在状态转移。不妨设系统一直处于一个固定状态 $s$ ，操作第 $i$ 根拉杆记为动作 $a_i$ ，则该设定下任何 $s,a_i)$ 的真实价值 $Q(s,a_i)$ 都仅和此处的即时 reward $r(s,a_i)$ 相关，所有反馈都是纠正性反馈，可以保证（交互次数足够多时）经验期望就是对真实价值的良好估计。因此我们不用特别考虑价值估计方法导致的误差，特别适合研究如何平衡开发和试探

1.2 形式化描述

多臂老虎机问题可以表示为一个元组 $<\mathcal{A,R}>$ ，其中 $\mathcal{A}$ 是动作集合， $\mathcal{R}$ 是 reward 概率分布，拉动每一根拉杆的动作 $a$ 都对应一个奖励概率分布 $\mathcal{R}(r|a)$ ，不同拉杆的奖励分布通常是不同的
MAB 的优化目标：最大化有限时间 $T$ 内的累积奖励
$G_T = \max\sum_{t=1}^T r_t ,\quad r_t \sim \mathcal{R}(·|a_t)$
对于每个动作定义其价值为期望 reward，即 $Q(a)=\mathbb{E}_{r\sim\mathcal{R}(·|a)}[r]$ ，最优动作具有最大的价值 $Q^*=\max_{a\in\mathcal{A}}Q(a)$ 。定义后悔为拉动当前拉杆的动作 $a$ 与最优拉杆的期望奖励差（价值差） $R(a)=Q^*-Q(a)$ ，则一次完整的 $T$ 步决策的累计后悔为 $\sigma_R = \sum_{t=1}^T R(a_t)$ 。MAB 的优化目标最大化累积奖励等价于最小化累积懊悔
本文在 “计算经验期望作为价值估计” 和 “平均实验结果” 时都使用增量式的求均值方法，以价值估计为例，更新公式如下
$\begin{aligned} Q_{n+1} &= \frac{1}{n} \sum_{i=1}^n R_i \\ &= \frac{1}{n}(R_n+\sum_{i=1}^{n-1}R_i) \\ &= \frac{1}{n}(R_n+(n-1)\frac{1}{(n-1)}\sum_{i=1}^{n-1}R_i) \\ &= \frac{1}{n}(R_n+(n-1)Q_n) \\ &= \frac{1}{n}(R_n + nQ_n-Q_n) \\ &= Q_n + \frac{1}{n}[R_n-Q_n] \end{aligned}$

1.3 程序实现

这里实现高斯分布和伯努利分布的两个赌博机类，后面实验会用到

from typing import Tuple
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
from abc import ABCMeta
import abc
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

class BernoulliBandit:
    """ K臂伯努利多臂老虎机, 每个拉杆有p的概率 reward=1, 1-p 概率 reward=0, p 从0-1均匀分布采样 """
    def __init__(self, K):
        self.K = K
        self.values = np.random.uniform(size=K)   # 随机生成K个0～1的数, 作为拉动每根拉杆的期望reward
        self.bestAction = np.argmax(self.values)  # 获奖概率最大的拉杆
        
    def step(self, k):
        return np.random.rand() < self.values[k]  # python 中 True/False 等价于 1/0

class GaussBandit:
    """ K臂高斯老虎机, 每个拉杆期望收益采样自标准正态分布, 即时 reward 是收益期望加上高斯噪声 """
    def __init__(self, K=10):
        self.K = K                                # 摇臂数量
        self.values = np.random.randn(K)          # 从标准正态分布采样K个拉杆的收益均值
        self.bestAction = np.argmax(self.values)  # 最优动作索引
    
    def step(self, k):
        return np.random.normal(loc=self.values[k], scale=1, size=1) 

    def showDistribution(self):
        # 绘制K个拉杆即时 reward 分布的小提琴图
        fig = plt.figure(figsize=(8,5))
        foo = pd.DataFrame(columns =['Arm','Reward'])
        for i in range(10):
            foo.loc[i] = ['no'+str(i+1),np.random.normal(loc=self.values[i], scale=1, size=1000)]
            
        foo = foo.explode('Reward')
        foo['Reward'] = foo['Reward'].astype('float')
        sns.violinplot(data=foo, x='Arm', y='Reward')
        plt.show()

# 随机生成一个10臂高斯老虎机，观察拉杆 reward 分布
bandit = GaussBandit(10)
bandit.showDistribution()

2. 各种平衡探索和利用的策略

在多臂老虎机乃至完整 RL 问题中，平衡探索和利用的常用思路是在开始时做比较多的探索，在对每根拉杆都有比较准确的估计后，再进行利用。目前已有一些比较经典的算法来解决这个问题，例如 $\epsilon$ -贪婪算法、上置信界算法和汤普森采样算法等，我们接下来将分别介绍这几种算法

首先定义求解器的基类

class Solver(metaclass=ABCMeta):
    """ 多臂老虎机算法基本框架 """
    def __init__(self, bandit, initValues):
        self.bandit = bandit
        self.counts = np.zeros(self.bandit.K)  # 每根拉杆的尝试次数
        self.initValues = initValues
        self.qValues = initValues              # 当前价值估计

    @abc.abstractmethod
    def run_one_step(self) -> Tuple[int, float]:
        # 返回当前动作选择的拉杆索引以及即时reward, 由每个具体的策略实现
        pass

    def rollout(self,num_steps):
        # 运行 num_steps 次
        G, B, R = 0,0,0                         # 当前收益, 当前最优选择次数, 当前步的累积懊悔

        returnCurve = np.zeros(num_steps)       # 收益曲线
        proportionCurve = np.zeros(num_steps)   # 比例曲线
        regretCurve = np.zeros(num_steps)       # 后悔曲线
        
        self.counts = np.zeros(self.bandit.K)   # 计数清零
        self.qValues = self.initValues          # 初始化价值估计

        for i in range(num_steps):
            k, r = self.run_one_step()
            self.counts[k] += 1
            self.qValues[k] += 1. / (self.counts[k]) * (r - self.qValues[k])
            
            B += (k == self.bandit.bestAction)
            G += r
            R += self.bandit.values[self.bandit.bestAction] - self.bandit.values[k]
            
            returnCurve[i] = G/(i+1)
            proportionCurve[i] = B/(i+1)
            regretCurve[i] = R
            
        return returnCurve, proportionCurve, regretCurve

定义测试和绘图的代码

def plot(banditParas, sloverParas):
    """ 绘制收益、最优动作比例以及累计后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(9,9))
    a1 = fig.add_subplot(3,1,1,label='a1')
    a2 = fig.add_subplot(3,1,2,label='a2')
    a3 = fig.add_subplot(3,1,3,label='a3')

    a1.set_xlabel('训练步数')
    a1.set_ylabel('平均收益')
    a2.set_xlabel('训练步数')
    a2.set_ylabel('最优动作比例')
    a3.set_xlabel('训练步数')
    a3.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRCurve, avePCurve, aveRegCurve = np.zeros(banditSteps), np.zeros(banditSteps), np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            returnCurve, proportionCurve, regretCurve = solver.rollout(banditSteps)
            
            aveRCurve += 1/(i+1)*(returnCurve-aveRCurve)        # 增量式计算均值
            avePCurve += 1/(i+1)*(proportionCurve-avePCurve)    # 增量式计算均值
            aveRegCurve += 1/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRCurve,'-',linewidth=2, label=paraLabel)
        a2.plot(avePCurve,'-',linewidth=2, label=paraLabel)
        a3.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)
        
    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容
    a2.legend(fontsize=10)  
    a3.legend(fontsize=10) 

    plt.show()  

def plotRegret(banditParas, sloverParas):
    """ 只绘制后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(10,5))
    a1 = fig.add_subplot(1,1,1,label='a1')
    a1.set_xlabel('训练步数')
    a1.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRegCurve = np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            _, _, regretCurve = solver.rollout(banditSteps)
            aveRegCurve += 1.0/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容

    plt.show()

2.1 $\epsilon$ - greedy

如下选择动作，以较大概率进行贪心利用，同时以 $\epsilon$ 小概率随机探索
$a_t \leftarrow \begin{cases}\arg \max _a Q(a) & \text { with probability } 1-\varepsilon \\ \text { a random action } & \text { with probability } \varepsilon\end{cases}$

使用10臂高斯赌博机进行测试

class EpsilonGreedy(Solver):
    """ epsilon贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, epsilon = args
        super(EpsilonGreedy, self).__init__(bandit, initValues)
        self.epsilon = epsilon

    def run_one_step(self):
        if np.random.binomial(1,self.epsilon) == 1:
            k = np.random.randint(self.bandit.K)  # 随机选择一根拉杆
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])
        r = self.bandit.step(k)                      # 得到本次动作的奖励
        return k, r
        
if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 100         # 赌博机数量
    STEPS = 4000      # 交互次数
    
    banditParas = (GaussBandit, K, NUM, STEPS)
    sloverSettings = [('0.001-greedy', 0.001), ('0.1-greedy',0.1), ('0.15-greedy',0.15), ('0.25-greedy',0.25), ('0.50-greedy',0.50)]
    sloverParas = (EpsilonGreedy, np.ones(K), sloverSettings)
    
    # 根据参数列表进行对比试验
    plot(banditParas, sloverParas)

观察实验结果发现
1. 随机探索比例 $\epsilon$ 太大会导致性能上限下降，最终次优收敛
2. 随机探索比例 $\epsilon$ 太小会导致收敛缓慢
3. 无论 $\epsilon$ 如何取值，累计后悔最终都是线性增长的，这是因早期确定最优动作后就会较高比例一直执行它，其他动作只有 $\epsilon$ 概率访问，即使真的是更优动作也需要较长时间收敛实现替代。如果贪心动作一直没有变化，则策略是固定的，每一步交互的期望后悔都一致。另外注意到上图中 0.001-greedy 曲线斜率在后期变平缓，说明它在后期已经实现了最优动作的替代，如果所有策略都找到了真正的最优动作，则累计后悔曲线的斜率和 $\epsilon$ 成正比例
注意到 $\epsilon$ - greedy 方法一直以固定的比例进行探索和利用，因而很容易落入一个静态策略，导致累计后悔线性增长，我们希望随着交互的增加，对系统理解的越来越深入，策略应能一直动态调整探索和利用的倾向性。下面介绍的几个方法都针对该问题进行了改进，为了简便考虑，下面方法统一使用伯努利赌博机，只观察后悔曲线

2.2 Decaying $\epsilon$ - greedy

注意到 $\epsilon$ 控制着探索的比例，因此简单地使 $\epsilon$ 随时间减小就能达到 “早期重探索，晚期重利用” 的效果。下面设置 $\epsilon=\frac{100}{t}$ 进行实验

注：这里理论上应该设 $\epsilon=\frac{1}{t}$ ，以保证 $\epsilon<1$ 是一个合法的概率，但是测试发现这样的探索还是有点不足，这里简单地增大分子就能在早期进行更多的纯随机试探

使用伯努利赌博机测试，观察后悔曲线

class DecayingEpsilonGreedy(Solver):
    """ epsilon值随时间衰减的epsilon-贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(DecayingEpsilonGreedy, self).__init__(bandit, initValues)
        self.total_count = 0

    def run_one_step(self):
        self.total_count += 1
        if np.random.random() < 100 / self.total_count:  # 试探概率（epsilon）值随时间衰减，这里分子可以设置超过 1 来增强随机探索
            k = np.random.randint(0, self.bandit.K)
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])

        r = self.bandit.step(k)
        return k, r    

if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10          # 赌博机数量
    STEPS = 5000      # 交互次数
    
    #np.random.seed(0)
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (DecayingEpsilonGreedy, np.ones(K), [('DecayingEpsilonGreedy',)])
   
    plotRegret(banditParas, sloverParas)

从实验结果图中可以发现，随时间做反比例衰减的 $\epsilon$ - greedy 算法能够使累积懊悔与时间步的关系变成次线性（sublinear）的，这明显优于固定 $\epsilon$ 值的 $\epsilon$ -greedy 算法
Decaying $\epsilon$ - greedy 方法的问题在于 $\epsilon$ 的衰减过程是启发式设定的，并不能根据实际价值估计情况实现探索利用的自动权衡，只是强行实现了 “早期重探索，晚期重利用” 的效果

2.3 基于置信度上界的动作选择（UCB）

综合考虑 “动作价值估计有多接近最大值” 以及 “估计的不确定性” 这两个因素，根据下式选择动作
$a_t =\argmax_a\big[\hat{Q}_t(a)+c\sqrt{\frac{lnt}{2(N_t(a)+1)}}\big]$ 其中开方项代表对估计不确定性的度量， $c$ 为考虑不确定性的程度超参数， $N_t(a)$ 代表时刻 $t$ 之前 a 被选择的次数，对它加 1 以免分母出现 0。这个式子来自于 霍夫丁不等式，具体推导和说明请参考强化学习笔记（2）—— 多臂赌博机第 5 节

使用伯努利赌博机测试，观察后悔曲线

class UCB(Solver):
    """ UCB算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, coef = args
        super(UCB, self).__init__(bandit, initValues)
        self.total_count = 0
        self.coef = coef

    def run_one_step(self):
        self.total_count += 1
        ucb = self.qValues + self.coef * np.sqrt(np.log(self.total_count) / (2 * (self.counts + 1)))  # 计算上置信界
        k = np.argmax(ucb)  # 选出上置信界最大的拉杆
        r = self.bandit.step(k)
        return k, r


if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10          # 赌博机数量
    STEPS = 5000      # 交互次数
    
    #np.random.seed(0)
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (UCB, np.ones(K), [('UCB',1)])
   
    plotRegret(banditParas, sloverParas)

2.4 汤普森采样算法（Thompson sampling）

汤普森采样(Thompson sampling)是适用于 MAB 问题的一个经典算法，其核心思想就是利用交互数据直接估计出各个拉杆的奖励分布 $\mathcal{R}(r|a)$ ，然后根据它来选择动作。具体实现时
1. 使用 Beta 分布对拉杆 reward 分布进行建模（因此只适用于伯努利赌博机），关于 beta 分布请参考这里
2. 由于计算所有拉杆分布 $\mathcal{R}(r|a)$ 期望的代价比较高，汤普森采样算法使用采样的方式，每轮迭代根据当前每个动作的估计分布 $\mathcal{R}(r|a)$ 进行一轮采样，选择样本中奖励最大的动作执行，示例如下
  
  这里三个颜色就是三个动作的估计 $\mathcal{R}(r|a)$ 分布， $Q_1,Q_2,Q_3$ 则是一轮采样得到的结果， $Q_3$ 最大，执行动作 $a_3$

使用伯努利赌博机测试，观察后悔曲线

class ThompsonSampling(Solver):
    """ 汤普森采样算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(ThompsonSampling, self).__init__(bandit, initValues) # 这里 initValues 其实没用
        self._a = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为1的次数
        self._b = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为0的次数

    def run_one_step(self):
        samples = np.random.beta(self._a, self._b)  # 按照Beta分布采样一组奖励样本
        k = np.argmax(samples)                      # 选出采样奖励最大的拉杆
        r = self.bandit.step(k)

        self._a[k] += r        # 更新Beta分布的第一个参数
        self._b[k] += (1 - r)  # 更新Beta分布的第二个参数
        return k, r
    
if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10          # 赌博机数量
    STEPS = 5000      # 交互次数
    
    #np.random.seed(0)
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (ThompsonSampling, np.ones(K), [('ThompsonSampling',)])
   
    plotRegret(banditParas, sloverParas)

3. 总结

本文在多臂赌博机环境下编程验证了四种常用的平衡探索和利用的方法
1. $\epsilon$ - greedy：思想最简单，始终以固定的比例进行探索和利用，容易落入一个静态策略，累计后悔线性增长
2. Decaying $\epsilon$ - greedy：使 $\epsilon$ - greedy 中的 $\epsilon$ 逐渐减小，实现 “早期重探索，晚期重利用” 的效果，可以使累积懊悔随时间次线性增长，但是 $\epsilon$ 减小曲线是手工设定，不能完全匹配实际情况
3. 上置信界算法：综合考虑 “动作价值估计有多接近最大值” 以及 “估计的不确定性” 这两个因素设计的指标，可以使累积懊悔随时间次线性增长，能一定程度匹配实际情况，不易推广到完整 RL 问题
4. 汤普森采样算法：利用交互数据建模真实分布，再用蒙特卡洛采样选择动作的方法，最能匹配实际情况，但是仅适用于伯努利赌博机，而且没有价值估计的概念了，无法推广到完整 RL 问题

最后给出完整代码，可以直接复制粘贴到 vscode 运行

from typing import Tuple
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
from abc import ABCMeta
import abc
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# ======================================= 老虎机 =================================================
class BernoulliBandit:
    """ K臂伯努利多臂老虎机, 每个拉杆有p的概率 reward=1, 1-p 概率 reward=0, p 从0-1均匀分布采样 """
    def __init__(self, K):
        self.K = K
        self.values = np.random.uniform(size=K)   # 随机生成K个0～1的数, 作为拉动每根拉杆的期望reward
        self.bestAction = np.argmax(self.values)  # 获奖概率最大的拉杆
        
    def step(self, k):
        return np.random.rand() < self.values[k]  # python 中 True/False 等价于 1/0

class GaussBandit:
    """ K臂高斯老虎机, 每个拉杆期望收益采样自标准正态分布, 即时 reward 是收益期望加上高斯噪声 """
    def __init__(self, K=10):
        self.K = K                                # 摇臂数量
        self.values = np.random.randn(K)          # 从标准正态分布采样K个拉杆的收益均值
        self.bestAction = np.argmax(self.values)  # 最优动作索引
    
    def step(self, k):
        return np.random.normal(loc=self.values[k], scale=1, size=1) 

    def showDistribution(self):
        # 绘制K个拉杆即时 reward 分布的小提琴图
        fig = plt.figure(figsize=(8,5))
        foo = pd.DataFrame(columns =['Arm','Reward'])
        for i in range(10):
            foo.loc[i] = ['no'+str(i+1),np.random.normal(loc=self.values[i], scale=1, size=1000)]
            
        foo = foo.explode('Reward')
        foo['Reward'] = foo['Reward'].astype('float')
        sns.violinplot(data=foo, x='Arm', y='Reward')
        #plt.show()


# ======================================= 选择动作的策略 =================================================
class Solver(metaclass=ABCMeta):
    """ 多臂老虎机算法基本框架 """
    def __init__(self, bandit, initValues):
        self.bandit = bandit
        self.counts = np.zeros(self.bandit.K)  # 每根拉杆的尝试次数
        self.initValues = initValues
        self.qValues = initValues              # 当前价值估计

    @abc.abstractmethod
    def run_one_step(self) -> Tuple[int, float]:
        # 返回当前动作选择的拉杆索引以及即时reward, 由每个具体的策略实现
        pass

    def rollout(self,num_steps):
        # 运行 num_steps 次
        G, B, R = 0,0,0                         # 当前收益, 当前最优选择次数, 当前步的累积懊悔

        returnCurve = np.zeros(num_steps)       # 收益曲线
        proportionCurve = np.zeros(num_steps)   # 比例曲线
        regretCurve = np.zeros(num_steps)       # 后悔曲线
        
        self.counts = np.zeros(self.bandit.K)   # 计数清零
        self.qValues = self.initValues          # 初始化价值估计

        for i in range(num_steps):
            k, r = self.run_one_step()
            self.counts[k] += 1
            self.qValues[k] += 1. / (self.counts[k]) * (r - self.qValues[k])
            
            B += (k == self.bandit.bestAction)
            G += r
            R += self.bandit.values[self.bandit.bestAction] - self.bandit.values[k]
            
            returnCurve[i] = G/(i+1)
            proportionCurve[i] = B/(i+1)
            regretCurve[i] = R
            
        return returnCurve, proportionCurve, regretCurve

class EpsilonGreedy(Solver):
    """ epsilon贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, epsilon = args
        super(EpsilonGreedy, self).__init__(bandit, initValues)
        self.epsilon = epsilon

    def run_one_step(self):
        if np.random.binomial(1,self.epsilon) == 1:
            k = np.random.randint(self.bandit.K) 
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])
        r = self.bandit.step(k)                     
        return k, r
    
class DecayingEpsilonGreedy(Solver):
    """ epsilon值随时间衰减的epsilon-贪婪算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(DecayingEpsilonGreedy, self).__init__(bandit, initValues)
        self.total_count = 0

    def run_one_step(self):
        self.total_count += 1
        if np.random.random() < 100 / self.total_count:  # 试探概率（epsilon）值随时间衰减，这里分子可以设置超过 1 来增强随机探索
            k = np.random.randint(0, self.bandit.K)
        else:
            k = np.random.choice([a for a in range(self.bandit.K) if self.qValues[a] == np.max(self.qValues)])

        r = self.bandit.step(k)
        return k, r    

class UCB(Solver):
    """ UCB算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues, coef = args
        super(UCB, self).__init__(bandit, initValues)
        self.total_count = 0
        self.coef = coef

    def run_one_step(self):
        self.total_count += 1
        ucb = self.qValues + self.coef * np.sqrt(np.log(self.total_count) / (2 * (self.counts + 1)))  # 计算上置信界
        k = np.argmax(ucb)      # 选出上置信界最大的拉杆
        r = self.bandit.step(k)
        return k, r

class ThompsonSampling(Solver):
    """ 汤普森采样算法,继承Solver类 """
    def __init__(self, *args):
        bandit, initValues = args
        super(ThompsonSampling, self).__init__(bandit, initValues) # 这里 initValues 其实没用
        self._a = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为1的次数
        self._b = np.ones(self.bandit.K)  # 列表,表示每根拉杆奖励为0的次数

    def run_one_step(self):
        samples = np.random.beta(self._a, self._b)  # 按照Beta分布采样一组奖励样本
        k = np.argmax(samples)  # 选出采样奖励最大的拉杆
        r = self.bandit.step(k)

        self._a[k] += r         # 更新Beta分布的第一个参数
        self._b[k] += (1 - r)   # 更新Beta分布的第二个参数
        return k, r

# ======================================= 绘图方法 =================================================
def plot(banditParas, sloverParas):
    """ 绘制收益、最优动作比例以及后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(9,9))
    a1 = fig.add_subplot(3,1,1,label='a1')
    a2 = fig.add_subplot(3,1,2,label='a2')
    a3 = fig.add_subplot(3,1,3,label='a3')

    a1.set_xlabel('训练步数')
    a1.set_ylabel('平均收益')
    a2.set_xlabel('训练步数')
    a2.set_ylabel('最优动作比例')
    a3.set_xlabel('训练步数')
    a3.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRCurve, avePCurve, aveRegCurve = np.zeros(banditSteps), np.zeros(banditSteps), np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            returnCurve, proportionCurve, regretCurve = solver.rollout(banditSteps)
            
            aveRCurve += 1/(i+1)*(returnCurve-aveRCurve)        # 增量式计算均值
            avePCurve += 1/(i+1)*(proportionCurve-avePCurve)    # 增量式计算均值
            aveRegCurve += 1/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRCurve,'-',linewidth=2, label=paraLabel)
        a2.plot(avePCurve,'-',linewidth=2, label=paraLabel)
        a3.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)
        
    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容
    a2.legend(fontsize=10)  
    a3.legend(fontsize=10) 

    plt.show()  

def plotRegret(banditParas, sloverParas):
    """ 只绘制后悔曲线 """
    banditClass, banditArms, banditNum, banditSteps = banditParas
    sloverClass, initValues, sloverSettings = sloverParas
    
    # 解决 plt 中文显示的问题
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    
    fig = plt.figure(figsize=(10,5))
    a1 = fig.add_subplot(1,1,1,label='a1')
    a1.set_xlabel('训练步数')
    a1.set_ylabel('后悔')
    
    # 测试各种设置
    for setting in sloverSettings:
        paraLabel = setting[0]
        
        # 实例化 Num 个赌博机
        aveRegCurve = np.zeros(banditSteps)
        for i in range(banditNum):
            bandit = banditClass(banditArms)
            solver = sloverClass(*(bandit,initValues)+setting[1:])
            
            _, _, regretCurve = solver.rollout(banditSteps)
            aveRegCurve += 1.0/(i+1)*(regretCurve-aveRegCurve)    # 增量式计算均值

        a1.plot(aveRegCurve,'-',linewidth=2, label=paraLabel)    
    a1.legend(fontsize=10)  # 显示图例，即每条线对应 label 中的内容

    plt.show()  


if __name__ == '__main__':
    K = 10            # 摇臂数
    NUM = 10         # 赌博机数量
    STEPS = 4000      # 交互次数
    

    # 高斯老虎机 + epsilon-greedy 完整测试
    banditParas = (GaussBandit, K, NUM, STEPS)
    sloverSettings = [('0.001-greedy', 0.001), ('0.1-greedy',0.1), ('0.15-greedy',0.15), ('0.25-greedy',0.25), ('0.50-greedy',0.50)]
    sloverParas = (EpsilonGreedy, np.ones(K), sloverSettings)
    plot(banditParas, sloverParas)
    

    '''
    # 伯努利老虎机 + epsilon-greedy 观察后悔曲线线性增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverSettings = [('0.001-greedy', 0.001), ('0.1-greedy',0.1), ('0.15-greedy',0.15), ('0.25-greedy',0.25), ('0.50-greedy',0.50), ('0.75-greedy',0.75), ('1.00-greedy',1.00)]
    sloverParas = (EpsilonGreedy, np.ones(K), sloverSettings)
    plotRegret(banditParas, sloverParas)
    '''

    '''
    # 伯努利老虎机 + decaying epsilon-greedy 观察后悔曲线对数增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (DecayingEpsilonGreedy, np.ones(K), [('DecayingEpsilonGreedy',)])
    plotRegret(banditParas, sloverParas)
    '''
    
    '''
    # 伯努利老虎机 + UCB 观察后悔曲线对数增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (UCB, np.ones(K), [('UCB',1)])
    plotRegret(banditParas, sloverParas)
    '''

    '''
    # 伯努利老虎机 + ThompsonSampling 观察后悔曲线对数增长
    banditParas = (BernoulliBandit, K, NUM, STEPS)
    sloverParas = (ThompsonSampling, np.ones(K), [('ThompsonSampling',)])
    plotRegret(banditParas, sloverParas)
    '''

你可能感兴趣的:(#,实践,#,强化学习,算法,贪心算法)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
微软 Bluetooth LE Explorer 实用工具的详细使用分析悟空胆好小 microsoft
微软BluetoothLEExplorer实用工具的详细使用分析文章目录微软**BluetoothLEExplorer**实用工具的详细使用分析1.**工具定位与核心功能**2.**关键特性与更新**3.**使用场景示例**4.**系统要求与依赖**5.**与专业工具对比**6.**局限性**7.**实践建议**结论以下是微软BluetoothLEExplorer实用工具的详细使用分析：1.工具定
蓝牙MTU含义，协商修改的过程案例分析悟空胆好小嵌入式硬件网络人工智能
蓝牙MTU含义，协商修改的过程案例分析文章目录**蓝牙MTU含义，协商修改的过程案例分析****一、MTU含义解析****二、MTU协商过程详解****步骤流程****三、修改MTU的实践案例分析****案例1：中心设备主动设置（主控端）****案例2：外设端响应优化（从设备）****案例3：调试工具强制修改****四、关键限制与注意事项**蓝牙MTU（MaximumTransmissionUni
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
C#接口实现详解：从理论到实践，掌握面向对象编程的核心技巧钢铁男儿 C#图解教程 c#java 前端
在C#的世界里，接口是实现多态性和解耦设计的利器接口实现的核心规则实现主体限制只有类和结构体（struct）能实现接口。接口本身不包含实现代码，而是定义一组必须由实现类提供的成员契约。双重实现要求声明关联：在类/结构体的基类列表中明确包含接口名称classMyClass:IMyInterface//接口声明在冒号后成员实现：为接口声明的每个成员提供具体的实现代码，包括匹配的方法签名、属性和返回值类
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
Kubernetes自动扩缩容方案对比与实践指南浅沫云归后端技术栈小结 kubernetes autoscaling devops
Kubernetes自动扩缩容方案对比与实践指南随着微服务架构和容器化的广泛采用，Kubernetes自动扩缩容（Autoscaling）成为保障生产环境性能稳定与资源高效利用的关键技术。面对水平Pod扩缩容、垂直资源调整、集群节点扩缩容以及事件驱动扩缩容等多种需求，社区提供了HPA、VPA、ClusterAutoscaler、KEDA等多种方案。本篇文章将从业务背景、方案对比、优缺点分析、选型建
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

RL 实践（1）—— 多臂赌博机

文章目录

1. 多臂老虎机

1.1 问题设定

1.2 形式化描述

1.3 程序实现

2. 各种平衡探索和利用的策略

2.1 ϵ \epsilon ϵ - greedy

2.2 Decaying ϵ \epsilon ϵ - greedy

2.3 基于置信度上界的动作选择（UCB）

2.4 汤普森采样算法（Thompson sampling）

3. 总结

你可能感兴趣的:(#,实践,#,强化学习,算法,贪心算法)

2.1 $\epsilon$ - greedy

2.2 Decaying $\epsilon$ - greedy