XD_MaoHai

强化学习丨蒙特卡洛方法及关于“二十一点”游戏的编程仿真

一、蒙特卡洛方法简介

二、蒙特卡洛预测

2.1 算法介绍

2.2 二十一点（Blackjack）

2.3 算法应用

三、蒙特卡洛控制

3.1 基于试探性出发的蒙特卡洛（蒙特卡洛ES）

3.1.1 算法介绍

3.1.2 算法应用

3.2 同轨策略（on-policy）MC控制算法

3.2.1 算法介绍

3.2.2 算法应用

3.3 离轨策略（off-policy）

3.3.1 重要度采样

3.3.2 离轨策略MC预测算法

3.3.3 离轨策略MC控制算法

一、蒙特卡洛方法简介

在上一篇文章中，笔者介绍了动态规划算法（Dynamic Programming）的概念和实现，不难发现，动态规划是基于贝尔曼方程提出的一种迭代解法，即利用策略评估迭代计算价值，利用策略改进让智能体进行策略学习，但该算法需要完备的环境知识，即动态函数 $p(s^{'},r|s,a)$ ，另一方面，动态规划算法的迭代过程是自举的过程，即当前价值估计需要基于其他价值的估计。

假设智能体处在一个未知的环境中（其实现实生活中这种环境占大多数），环境的动作收益和状态转移都不能提前预知，这时智能体就需要仅从与环境交互的经验中做出决策，即通过平均样本的回报来解决强化学习问题，同时各个价值的估计互不影响，不具有自举特性，这就是蒙特卡洛方法（Monte Carlo method，MC），运用该算法的一个典型例子就是利用随机点占比来计算 $\pi$ 值，另一个例子就是计算积分，这两个例子比较简单常见，由于篇幅有限这里就不赘述了。

另外，之前笔者也有写过关于多臂老虎机的文章：强化学习丨多臂老虎机相关算法的总结及其MATLAB仿真https://blog.csdn.net/qq_56937808/article/details/120473326?spm=1001.2014.3001.5501https://blog.csdn.net/qq_56937808/article/details/120473326?spm=1001.2014.3001.5501

其实多臂老虎机的问题也是在没有环境的先验知识下，基于平均每个动作的收益来进行决策的，但其与蒙特卡洛方法的区别在于，蒙特卡洛算法对应多个状态，每个状态都是单独的老虎机问题，类似于上下文相关的老虎机，并且这些老虎机是相互关联的。虽有此区别，但在价值函数的估计上蒙特卡洛方法可沿用多臂老虎机的诸多方法（如UCB，ε-贪心算法）。

此外，为了保证得到有良好定义的回报，本篇文章我们只定义用于分幕式人物的蒙特卡洛算法。

二、蒙特卡洛预测

2.1 算法介绍

对于解决有限马尔科夫决策问题，最先考虑的应是一个策略对应的价值预测，即策略评估，了解过多臂老虎机问题的朋友应该不难想到，一个显而易见的方法就是根据经验进行估计，即对该状态后的回报进行平均，随着观测的次数逐渐增多，平均值就会收敛到期望值，这就是蒙特卡洛预测算法的基本思路。

在给定的一幕中，每次状态s出现都成为对其的一次访问，而对于回报的平均有两种访问方法，一种是首次访问，另一种是每次访问。首次访问是利用每幕中第一次对s访问的回报的平均值进行价值估计，而每次访问则是对s所有访问的回报的平均值进行价值估计。

两者虽访问方式不同，但当s的访问次数趋向于无穷时，两种方法下的价值估计都会收敛到正确值 $v_{\pi}(s)$ 。两者不同之处在于，对于首次访问而言，算法的每个回报都是对 $v_{\pi}(s)$ 的一个独立同分布估计，且估计方差有限，且每次平均都是无偏估计，误差的标准差也会随访问次数的增多而慢慢衰减。而在每次访问型中，估计值会二阶收敛到 $v_{\pi}(s)$ 。但在采样样本较少时，为拓展样本量可选用每次访问。以下给出首次访问型MC预测算法流程：

首次访问型MC预测算法

Step1：输入待评估的策略 $\pi$

Step2：初始化状态价值函数、状态回报为零向量

Step3：根据需要幕数量进行循环：

根据 $\pi$ 生成一幕序列： $S_{0},A_{0},R_{1},S_{1},A_{1},R_{2},\cdots ,S_{T-1},A_{T-1},R_{T}$

初始化回报

对本幕中的每一步进行倒叙循环,即 $t=T-1,T-2,\cdots,0:$

   $G=\gamma G+R_{t+1}$

若 $S_{t}$ 在 $S_{0},S_{1},\cdots,S_{t-1}$ 中已经出现过：

否则：

           $Returns(S_{t})=Returns(S_{t})+G$

   $V(S_{t})=average(Returns(S_{t}))$

若将上述算法流程中的“ 若 $S_{t}$ 在 $S_{0},S_{1},\cdots,S_{t-1}$ 中已经出现过”的判断条件删去而无条件进行下面的回报平均，算法就成为了每次访问型MC预测算法。

2.2 二十一点（Blackjack）

二十一点游戏是蒙特卡洛算法的一个经典问题，接下来本篇文章都会基于此问题来对算法进行实例应用与编程仿真，先给出该游戏规则的介绍：

二十一点（Blackjack）

二十一点游戏是一种卡牌游戏，其目标是使得玩家的牌点数总和在不大于21点的情况下越大越好。所有的人头牌（J,Q,K）的点数为10，A除可用过1点外，在牌点数总和不超过21点的情况下也可以看作为11，并把A叫做“可用A”，若只能当作1就叫做“无可用A”。

游戏开始时会给玩家（Player）和庄家（Dealer）各发两张牌，庄家的牌一张正面朝上，一张背面朝上，若此时玩家的两张牌总和为21则称为天和，除非庄家也是天和，否则玩家直接获胜。之后玩家先根据需要选择是否一张一张的要牌，直到他主动停止要牌（停牌）或是牌总点数大于21（爆牌），若玩家爆牌则直接输掉游戏，否则轮到庄家行动，庄家会根据一个固定的策略进行游戏，假设庄家策略为一直要牌，直到点数等于或超过17时停牌，若庄家爆牌，则玩家获胜，否则谁的牌总点数大谁就获胜。获胜者得到+1的收益，失败者获得-1的收益，平局则均获得0的收益。

若将每局游戏看为一幕（episode），则每次玩家决策时的考量则是自己手牌的总和（12~21），庄家显示的牌（A~10），以及是否有可用A，其中，由于每次要的牌最大不会超过10，即在点数小于11时玩家都会要牌，因此可将玩家手牌的总和区间简化为[12,21]。这样一来，玩家决策的考量依据就可以看作玩家的状态，不难计算玩家的状态数为200。

又由于该游戏中玩家动作有限，即要牌和停牌，且收益仅为-1、+1与0，二十一点游戏是一个典型的分幕式有限马尔可夫决策过程。虽然可根据一定的概率论知识计算出动态函数构建完备的环境知识，进而利用动态规划的算法计算出价值函数，但这一过程无疑是非常困难的。例如假设玩家手牌为13，庄家名牌为2，无可用A，然后选择停牌，则决策后的下一状态和收益分布该怎么计算呢，这是一个非常复杂且易错的过程。

因此，在这种环境知识不好建立的情况下，可选择蒙特卡洛方法。我们不妨将玩家策略定为：在牌点数之和小于20时一直要牌，否则停牌，并利用蒙特卡洛预测算法对其进行价值计算。

2.3 算法应用

首先导入需要用到的库：

# Project Name: BlackJack
# Algorithm   : First visit prediction（首次访问策略评估）
# Author      : XD_MaoHai
# Reference   : Jabes

import matplotlib
import numpy as np
import gym
import sys
from collections import defaultdict
from matplotlib import pyplot as plt

根据算法流程编写首次访问MC预测算法函数：

# 首次访问MC预测算法
def firstvisit_prediction(policy, env, num_episodes):
    """
    policy      : 待评估策略
    env         : 问题环境
    num_episodes: 幕数量
    return      : 返回状态价值函数
    """
    # 初始化回报和
    r_sum = defaultdict(float)
    # 初始化访问次数
    r_count = defaultdict(float)
    # 初始化状态价值函数
    r_v = defaultdict(float)

    # 对各幕循环迭代
    for each_episode in range(num_episodes):
        # 输出迭代过程
        print("Episode {}/{}".format(each_episode, num_episodes), end="\r")
        sys.stdout.flush()

        # 初始化空列表记录幕过程
        episode = []
        # 初始化环境
        state = env.reset()

        # 生成（采样）幕
        done = False
        while not done:
            # 根据当前状态获得策略下的下一动作
            action = policy(state)
            # 驱动环境的物理引擎得到下一个状态、回报以及该幕是否结束标志
            next_state, reward, done, info = env.step(action)
            # 对幕进行采样并记录
            episode.append((state, action, reward))
            # 更新状态
            state = next_state

        # 对生成的单幕内进行倒序迭代更新状态价值矩阵
        G = 0
        episode_len = len(episode)
        episode.reverse()
        for seq, data in enumerate(episode):
            # 记录当前状态
            state_visit = data[0]
            # 累加计算期望回报
            G += data[2]
            # 若状态第一次出现在该幕中则更新状态价值
            if seq != episode_len - 1:
                if data[0] in episode[seq+1:][0]:
                    continue
            r_sum[state_visit] += G
            r_count[state_visit] += 1
            r_v[state_visit] = r_sum[state_visit] / r_count[state_visit]
    return r_v

定义玩家策略：

# 玩家策略
def player_policy(state):
    """
    state : 当前状态
    return: 返回当前状态下的采取动作
    """
    player_score, _, _ = state
    return 0 if player_score >= 20 else 1

绘制状态价值函数三维图像需生成三维数据：

# 处理价值矩阵方便后续绘图
def process_data_for_draw(v, ace):
    """
    v     : 状态价值函数
    ace   : 是否有可用A
    return: 返回处理好的三个坐标轴
    """

    # 生成网格点
    x_range = np.arange(12, 22)
    y_range = np.arange(1, 11)
    X, Y = np.meshgrid(x_range, y_range)

    # 根据是否有可用的A选择绘制不同的3D图
    if ace:
        Z = np.apply_along_axis(lambda _: v[(_[0], _[1], True)], 2, np.dstack([X, Y]))
    else:
        Z = np.apply_along_axis(lambda _: v[(_[0], _[1], False)], 2, np.dstack([X, Y]))
    return X, Y, Z

编写三维画图函数：

# 编写三维画图函数
def plot_3D(X, Y, Z, xlabel, ylabel, zlabel, title):
    fig = plt.figure(figsize=(20, 10), facecolor = "white")
    ax = fig.add_subplot(111, projection = "3d")
    surf = ax.plot_surface(X, Y, Z, rstride = 1, cstride = 1,
    cmap = matplotlib.cm.rainbow, vmin=-1.0, vmax=1.0)
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)
    ax.set_zlabel(zlabel)
    ax.set_title(title)
    ax.view_init(ax.elev, -120)
    ax.set_facecolor("white")
    fig.colorbar(surf)
    return fig

编写主函数：

# 主函数
if __name__ == '__main__':
    # 从gym库中调用Blackjack-v1环境
    env = gym.make("Blackjack-v1")
    # 对策略进行评估（预测）
    v = firstvisit_prediction(player_policy, env, num_episodes=1000000)
    print(v)
    # 3D绘图
    X, Y, Z = process_data_for_draw(v, ace=True)
    fig = plot_3D(X, Y, Z, xlabel="Player Sum", ylabel="Dealer Open Card", zlabel="Value", title="Usable Ace")
    fig.show()
    fig.savefig("./result_picture/Usable_Ace.jpg")
    X, Y, Z = process_data_for_draw(v, ace=False)
    fig = plot_3D(X, Y, Z, xlabel="Player Sum", ylabel="Dealer Open Card", zlabel="Value", title="No Usable Ace")
    fig.show()
    fig.savefig("./result_picture/NO_Usable_Ace.jpg")

在引入的库中，gym库是构造强化学习环境的专用库，其中包含了包括二十一点游戏在内的诸多游戏环境，想具体学习该库及其函数的用法的朋友可参以下链接，由于篇幅有限这里就不班门弄斧了：

会飞的小鸡：强化学习之Gym基础入门(1)https://blog.csdn.net/woshi_caibi/article/details/82344436https://blog.csdn.net/woshi_caibi/article/details/82344436

此外需要注意的是，为了简化程序，文中多次用到了defaultdict函数来构建字典，而不是利用普通的dict函数并逐个遍历状态初始化，这样一来当字典里的key不存在但被查找时，返回的不是keyError而是返回一个和括号里同一类型的默认值，如int对应整数0，float对应浮点数0。

运行程序，学习1000000幕后得到有可用A与无可用A两种情况下的状态函数三维图如下：

将以下代码注释掉，原程序即成为每次访问型算法：

# # 若状态第一次出现在该幕中则更新状态价值
            # if seq != episode_len - 1:
            #     if data[0] in episode[seq+1:][0]:
            #         continue

同样得到结果图如下：

可见两种访问形式下得到的预测结果均收敛且基本一致。

三、蒙特卡洛控制

在明白如何进行策略价值预测即策略评估后，就需要考虑如何基于估计的价值来对策略进行改进，在动态规划算法中就运用了这种策略评估和策略改进相互作用的广义策略迭代思想，其策略改进的方法就是贪心的选择该状态下动作价值函数最高的动作，由于环境知识完备，这种选择方法可以基于评估好的状态价值函数，如下：

但是对于一个未知环境，如果仅得到评估好的状态价值函数，由于不知道动态函数，就无法计算得到在状态s下采取哪个动作会得到最高的期望回报，因此在这种情况下就需要对动作的价值 $Q_{\pi}(s,a)$ 进行评估，这样一来，在利用MC预测算法得到的动作价值函数基础上，贪心的选择某状态对应的最大动作价值的动作，如下：

$\pi(S_{t})=\underset{a}{argmax}\ Q_{\pi}(S_{t},a)$

这样不断的利用MC算法进行策略评估和策略改进的过程就是蒙特卡洛控制（MC控制）。

但是这个算法存在的一个问题就是，因为贪心的选择，被访问过的状态的动作会固定，这样一来其他动作的价值就会得不到预测，智能体就无法学习其他动作，因此最后的策略会局部最优，而非全局最优。这个问题仍是多臂老虎机所提到的开发与试探之间的矛盾所产生的，因此为解决开发（贪心）带来的负面效果，就需要加大试探力度，在本问题中就是如何获得贪心动作之外的其他动作样本，这就是后面几个算法要讨论的问题核心。

3.1 基于试探性出发的蒙特卡洛（蒙特卡洛ES）

3.1.1 算法介绍

很容易想到的一个获取贪心动作之外的其他动作样本的方法就是，在每幕的开始随机生成状态和动作，然后从此出发以策略 $\pi$ 生成一幕序列，这样就在幕的开始采样到了贪心动作外的其他动作，之后根据生成的幕进行策略评估和改进即得到基于试探性出发的蒙特卡洛算法，其首次访问型算法流程如下：

基于试探性出发的蒙特卡洛（蒙特卡洛ES）（首次访问型）

Step1：任意初始化策略 $\pi(s)\in A(s)$

             初始化状态价值函数、动作回报为零向量

Step2：根据需要幕数量进行循环：

基于状态和动作空间随机生成状态和动作

                      之后以策略 $\pi$ 生成一幕序列： $S_{0},A_{0},R_{1},S_{1},A_{1},R_{2},\cdots ,S_{T-1},A_{T-1},R_{T}$

                      初始化回报

对本幕中的每一步进行倒叙循环,即 $t=T-1,T-2,\cdots,0:$

   $G=\gamma G+R_{t+1}$

若 $S_{t}$ 在 $S_{0},S_{1},\cdots,S_{t-1}$ 中已经出现过：

否则：

   $Returns(S_{t},A_{t})=Returns(S_{t},A_{t})+G$

   $Q(S_{t},A_{t})=average(Returns(S_{t},A_{t}))$

   $\pi(S_{t})=\underset{a}{argmax}\ Q_{\pi}(S_{t},a)$

注意到这里有平均的计算，这里可以用增量式实现来代替求和再求平均，如下：

$Q_{n+1}(S_{t},a)=Q_{n}(S_{t},a)+\frac{1}{n}(G-Q_{n}(S_{t},a))$

其中n是某状态-动作二元组首次访问的次数。

3.1.2 算法应用

根据上述算法流程针对二十一点问题进行编程，现给出整个代码文件如下：

# Project Name: BlackJack
# Algorithm   : MCES(基于试探性出发的蒙特卡洛)
# Author      : XD_MaoHai
# Reference   : Jabes


import matplotlib
import numpy as np
import gym
import sys
import random
from collections import defaultdict
from matplotlib import pyplot as plt
import seaborn as sns


# 编写三维画图函数
def plot_3D(X, Y, Z, xlabel, ylabel, zlabel, title):
    fig = plt.figure(figsize=(20, 10), facecolor = "white")
    ax = fig.add_subplot(111, projection = "3d")
    surf = ax.plot_surface(X, Y, Z, rstride = 1, cstride = 1,
    cmap = matplotlib.cm.rainbow, vmin=-1.0, vmax=1.0)
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)
    ax.set_zlabel(zlabel)
    ax.set_title(title)
    ax.view_init(ax.elev, -120)
    ax.set_facecolor("white")
    fig.colorbar(surf)
    return fig


# 首次访问MC预测算法
def MCES(env, num_episodes):
    """
    env         : 问题环境
    num_episodes: 幕数量
    return      : 返回状态价值函数与最优策略
    """

    # 初始化策略(任何状态下都不要牌)
    policy = defaultdict(int)
    # 初始化回报和
    r_sum = defaultdict(float)
    # 初始化访问次数
    r_count = defaultdict(float)
    # 初始化状态价值函数
    r_v = defaultdict(float)

    # 对各幕循环迭代
    for each_episode in range(num_episodes):
        # 输出迭代过程
        print("Episode {}/{}".format(each_episode, num_episodes), end="\r")
        sys.stdout.flush()

        # 初始化空列表记录幕过程
        episode = []
        # 初始化环境
        state = env.reset()
        # 选择试探性的初始状态动作
        action = random.randint(0, 1)

        # 生成（采样）幕
        done = False
        while not done:
            # 驱动环境的物理引擎得到下一个状态、回报以及该幕是否结束标志
            next_state, reward, done, info = env.step(action)
            # 对幕进行采样并记录
            episode.append((state, action, reward))
            # 更新状态
            state = next_state
            # 根据当前状态获得策略下的下一动作
            action = policy[state]

        # 对生成的单幕内进行倒序迭代更新状态价值矩阵
        G = 0
        episode_len = len(episode)
        episode.reverse()
        for seq, data in enumerate(episode):
            # 记录当前状态
            state_visit = data[0]
            action = data[1]
            # 累加计算期望回报
            G += data[2]
            # 若状态第一次出现在该幕中则进行价值和策略更新
            if seq != episode_len - 1:
                if data[0] in episode[seq+1:][0]:
                    continue
            r_sum[(state_visit, action)] += G
            r_count[(state_visit, action)] += 1
            r_v[(state_visit, action)] = r_sum[(state_visit, action)] / r_count[(state_visit, action)]
            if r_v[(state_visit, action)] < r_v[(state_visit, 1-action)]:
                policy[state_visit] = 1 - action
    return policy, r_v


# 处理价值矩阵方便后续绘图
def process_q_for_draw(q, policy, ace):
    """
    v     : 状态价值函数
    ace   : 是否有可用A
    return: 返回处理好的三个坐标轴
    """
    # 根据动作价值函数到处最优状态价值函数
    v = defaultdict(float)
    for state in policy.keys():
        v[state] = q[(state, policy[state])]
    # 生成网格点
    x_range = np.arange(12, 22)
    y_range = np.arange(1, 11)
    X, Y = np.meshgrid(x_range, y_range)

    # 根据是否有可用的A选择绘制不同的3D图
    if ace:
        Z = np.apply_along_axis(lambda _: v[(_[0], _[1], True)], 2, np.dstack([X, Y]))
    else:
        Z = np.apply_along_axis(lambda _: v[(_[0], _[1], False)], 2, np.dstack([X, Y]))
    return X, Y, Z


# 处理策略方便后续绘图
def process_policy_for_draw(policy, ace):
    """
    policy:输入策略
    ace   :是否有可用A
    return:以二维数组形式返回
    """
    policy_list = np.zeros((10, 10))
    # 将字典形式换为列表，方便后续作图
    if ace:
        for playerscores in range(12, 22):
            for dealercard in range(1, 11):
                policy_list[playerscores - 12][dealercard - 1] = policy[(playerscores, dealercard, 1)]
    else:
        for playerscores in range(12, 22):
            for dealercard in range(1, 11):
                policy_list[playerscores - 12][dealercard - 1] = policy[(playerscores, dealercard, 0)]
    return policy_list


# 主函数
if __name__ == '__main__':
    # 从gym库中调用Blackjack-v1环境
    env = gym.make("Blackjack-v1")
    # 对策略进行评估（预测）
    policy, q = MCES(env, num_episodes=5000000)
    print(policy)
    # 绘制最优策略矩阵热力图
    # 准备画布大小，并准备多个子图
    _, axes = plt.subplots(1, 2, figsize=(40, 20))
    # 调整子图的间距，wspace=0.1为水平间距，hspace=0.2为垂直间距
    plt.subplots_adjust(wspace=0.1, hspace=0.2)
    # 这里将子图形成一个1*2的列表
    axes = axes.flatten()
    # 有可用ACE下的最优策略
    fig = sns.heatmap(np.flipud(process_policy_for_draw(policy, 1)), cmap="Wistia", ax=axes[0])
    fig.set_ylabel('Player Sum', fontsize=20)
    fig.set_yticks(list(reversed(range(10))))
    fig.set_xlabel('Dealer Open Card', fontsize=20)
    fig.set_xticks(range(10))
    fig.set_title('Usable Ace', fontsize=20)
    # 无可用ACE下的最优策略
    fig = sns.heatmap(np.flipud(process_policy_for_draw(policy, 0)), cmap="Wistia", ax=axes[-1])
    fig.set_ylabel('Player Sum', fontsize=20)
    fig.set_yticks(list(reversed(range(10))))
    fig.set_xlabel('Dealer Open Card', fontsize=20)
    fig.set_xticks(range(10))
    fig.set_title('NO Usable Ace', fontsize=20)
    plt.show()
    plt.savefig("./result_picture/MCES/Optimal Policy.jpg")

    # 3D绘图-状态价值矩阵
    X, Y, Z = process_q_for_draw(q, policy, ace=True)
    fig = plot_3D(X, Y, Z, xlabel="Player Sum", ylabel="Dealer Open Card", zlabel="Value", title="Usable Ace")
    fig.show()
    fig.savefig("./result_picture/MCES/Usable_Ace.jpg")
    X, Y, Z = process_q_for_draw(q, policy,  ace=False)
    fig = plot_3D(X, Y, Z, xlabel="Player Sum", ylabel="Dealer Open Card", zlabel="Value", title="No Usable Ace")
    fig.show()
    fig.savefig("./result_picture/MCES/NO_Usable_Ace.jpg")

运行程序，学习5000000幕后得到有可用A与无可用A两种情况下的最优策略如下：

其中横轴为庄家明的牌（从左到右为A~10），纵轴为玩家当前牌点数之和（从下到上为12~21），橙色部分动作为要牌，绿色部分动作为停牌。运行出来的结果图和Richard S.Sutton,Andrew G.Barto所著《强化学习》给出的最优策略一致。

运行程序后同样可得到最优策略下的状态价值函数三维图：

由于最优策略为固定动作，因此最优策略下的状态价值函数与动作价值函数一致，且比上一部分普通策略相应状态的价值要高，可见MCES算法起到了改进策略的作用。

3.2 同轨策略（on-policy）MC控制算法

3.2.1 算法介绍

虽然基于试探性出发的MC控制算法有时非常有效，但是也并非总是那么可靠，特别是当直接从真实环境中进行学习时，我们就很难保证试探性出发的随机性。

其实，除在幕的开始以试探的方式随机选取初始状态和动作外，还可以在幕的每一步都有试探的几率，这种方法在多臂老虎机中体现为ε-贪心算法，而在MC控制算法中则称作ε-软性策略。

在MC控制算法中，被改进的策略称为目标策略（target policy），用于生成幕序列的策略称为行为策略（behavior policy），当目标策略与行为策略一致时，将该MC算法称为同轨策略方法，否则称为离轨策略方法。

由于被改进后的策略为固定动作，再用此策略生成幕序列的话会失去试探力度，因此在同轨策略算法中，策略一般都是软性的，即在绝大多数时候都采取获得最大估计值的动作价值函数所对应的动作，但同时以一个较小的ε概率随机选择一个动作，这样一来，就会有 $\frac{\epsilon}{|A(s)|}$ 的概率选中某一非贪心动作（其中表示动作数），而以 $1-\epsilon+\frac{\epsilon}{|A(s)|}$ 的概率选择贪心动作，这样的算法就是同轨策略的MC控制算法，以下给出首次访问型的算法步骤：

同轨策略的MC控制算法（首次访问型）

Step1：任意初始化一个软性策略 $\pi(s)\in A(s)$

             初始化状态价值函数、动作回报为零向量

定义一个较小的试探概率 $\epsilon$

Step2：根据需要幕数量进行循环：

策略 $\pi$ 生成一幕序列： $S_{0},A_{0},R_{1},S_{1},A_{1},R_{2},\cdots ,S_{T-1},A_{T-1},R_{T}$

                      初始化回报

对本幕中的每一步进行倒叙循环,即 $t=T-1,T-2,\cdots,0:$

   $G=\gamma G+R_{t+1}$

若 $S_{t}$ 在 $S_{0},S_{1},\cdots,S_{t-1}$ 中已经出现过：

否则：

   $Returns(S_{t},A_{t})=Returns(S_{t},A_{t})+G$

   $Q(S_{t},A_{t})=average(Returns(S_{t},A_{t}))$

   $A^{*}=\underset{a}{argmax}\ Q(S_{t},a)$

对于所有 $a\in A(S_{t})$ ：

           $\pi(a|s)=\left\{\begin{matrix} 1-\epsilon+\frac{\epsilon}{|A(s)|}&if\ a = A^{*} \\ \frac{\epsilon}{|A(s)|}& if\ a\neq A^{*} \end{matrix}\right.$

以下给出上述算法可以进行策略改进的证明：

$\begin{aligned} Q_{\pi}(s,\pi^{'}(s))&=\sum_{a}\pi^{'}(a|s)Q_{\pi}(s,a)\\ &=\frac{\epsilon}{|A(s)|}\sum_{a}Q_{\pi}(s,a)+(1-\epsilon)\underset{a}{max}\ Q_{\pi}(s,a)\\ &\geq\frac{\epsilon}{|A(s)|}\sum_{a}Q_{\pi}(s,a)+(1-\epsilon)\sum_{a}\frac{\pi(a|s)-\frac{\epsilon}{|A(s)|}}{1-\epsilon}Q_{\pi}(s,a)\\ &=\frac{\epsilon}{|A(s)|}\sum_{a}Q_{\pi}(s,a)-\frac{\epsilon}{|A(s)|}\sum_{a}Q_{\pi}(s,a)+\sum_{a}\pi(a|s)Q_{\pi}(s,a)\\ &=V_{\pi}(s) \end{aligned}$

其中 $\pi^{'}$ 表示改进后的策略， $\pi$ 表示原策略。其中的 $\geq$ 是因为右边第二项期望累加是一个和为1的非负权重进行的加权平均值，所以一定小于等于其中的最大值。通过上式可知，任何一个根据 $Q_{\pi}$ 生成的ε-贪心策略都是对其的一个改进。

3.2.2 算法应用

同轨策略的MC控制算法仅在蒙特卡洛ES代码的基础上将MCES函数换为OnPolicy函数即可，先给出该函数代码如下：

# Project Name: BlackJack
# Algorithm   : On Policy Control(同轨策略控制算法)
# Author      : XD_MaoHai
# Reference   : Jabes

……
……

# 同轨策略控制算法
def OnPolicy(env, num_episodes):
    """
    env         : 问题环境
    num_episodes: 幕数量
    return      : 返回状态价值函数与最优策略
    """
    # 试探概率
    epsilon = 0.1
    # 初始化策略(任何状态下都不要牌)
    policy = defaultdict(int)
    # 初始化回报和
    r_sum = defaultdict(float)
    # 初始化访问次数
    r_count = defaultdict(float)
    # 初始化状态价值函数
    r_v = defaultdict(float)

    # 对各幕循环迭代
    for each_episode in range(num_episodes):
        # 输出迭代过程
        print("Episode {}/{}".format(each_episode, num_episodes), end="\r")
        sys.stdout.flush()

        # 初始化空列表记录幕过程
        episode = []
        # 初始化环境
        state = env.reset()

        # 生成（采样）幕
        done = False
        while not done:
            # 根据当前状态获得策略下的下一动作
            action_list = np.random.choice([policy[state], 1-policy[state]], 1, replace=False, p=[1-epsilon/2, epsilon/2])
            action = action_list[0]
            # 驱动环境的物理引擎得到下一个状态、回报以及该幕是否结束标志
            next_state, reward, done, info = env.step(action)
            # 对幕进行采样并记录
            episode.append((state, action, reward))
            # 更新状态
            state = next_state

        # 对生成的单幕内进行倒序迭代更新状态价值矩阵
        G = 0
        episode_len = len(episode)
        episode.reverse()
        for seq, data in enumerate(episode):
            # 记录当前状态
            state_visit = data[0]
            each_action = data[1]
            # 累加计算期望回报
            G += data[2]
            # 若状态第一次出现在该幕中则进行价值和策略更新
            # if seq != episode_len - 1:
            #     if data[0] in episode[seq+1:][0]:
            #         continue
            r_sum[(state_visit, each_action)] += G
            r_count[(state_visit, each_action)] += 1
            r_v[(state_visit, each_action)] = r_sum[(state_visit, each_action)] / r_count[(state_visit, each_action)]
            # r_v[(state_visit, each_action)] = r_sum[(state_visit, each_action)] + 1/r_count[(state_visit, each_action)]*(G - r_v[(state_visit, each_action)])
            if r_v[(state_visit, each_action)] < r_v[(state_visit, 1-each_action)]:
                policy[state_visit] = 1 - each_action
    return policy, r_v
……
……

其中笔者运用了 np.random.choice函数进行概率选择。运行程序，学习5000000幕后得到有可用A与无可用A两种情况下的最优策略如下：

可见与MCES控制算法运行结果基本一致。同样得到最优策略下的状态价值函数三维图如下：

运行结果同样和MCES一致。

3.3 离轨策略（off-policy）

前面我们已经提到，MCES、同轨策略MC控制以及离轨策略MC控制等算法的提出都是为了加大试探力度以获得真实的状态-动作价值从而改进策略，MCES是仅在幕的开头试探性的随机选择状态和动作，同轨策略MC控制则是在幕的每步以一定概率尝试贪心动作外的其他动作，那我们不妨考虑下，如果生成的幕样本可以脱离目标策略，而是选择一个可以试探到任何状态-动作二元组的行为策略来生成幕样本，进而来对目标策略进行训练不就解决了试探的问题吗？而这其实就是离轨策略MC控制等算法的基本思想。

3.3.1 重要度采样

利用行为策略生成的样本来训练目标策略 $\pi(s|a)$ 需要解决两个问题，其一是要求在 $\pi$ 下发生的每个动作都至少偶尔能在下发生，即对任意的 $\pi(s,a)>0$ ，需要有，这一问题只需合理构建随机行为策略一般都不难做到；另一个问题是，利用行为策略产生的幕序列所得到的回报无法真实体现目标策略的实际回报，这就需要引入重要度采样（Importance Sampling）来估计目标策略的实际回报。

为了了解重要度采样，我们不妨先来考虑日常我们求积分的问题，假设被积函数为定义在[a,b]上的，则积分公式为：

$I=\int^{b}_{a} f(x)dx$

当的原函数不太容易求解时，我们可利用离散的思想将分为N个宽为 $\frac{b-a}{N}$ ，高为 $f(x_{n})$ 的矩形，其中：

$x_{n}=n\cdot \frac{b-a}{N}+a,\ n=0,1,2,\cdots,N-1$

则原积分值可由下式估计：

$I=\int^{b}_{a} f(x)dx\approx \frac{b-a}{N}\sum_{n=0}^{N-1}f(x_{n})$

当上式中的N趋向于无穷时，估计值便趋向于真实积分值。

这是我们高中时就学到的一种极限思路，然而这其实就是一个利用样本来估计变量期望的一种方法，我们在中小学就学到过根据统计量计算期望的方法，那就是利用样本进行求和相加再平均，然而不知道你有没有注意到这样的题目都有一个前提，就是“随机取样”，也就是在变量的取值区间内均匀取样。

然而，如果我们不均匀取样，而是让依据某种非均匀分布来进行采样，即让每个矩形的宽度不同，我们依旧能给出显式的估计积分的式子，并且合理构建还能提高估计精度。

不难发现，计算积分时函数的较大值对积分结果影响较大，如下图：

即上图中圆形框中的部分要比矩形框中的部分对计算计算更有意义些，其实这并不难理解，比如统计一个国家的经济实力，根据经济学中的“二八定律”，就是说，社会上20%的人，占有80%的社会财富，我们则会把更多的采样力度放在这20%的人身上，这就是重要度采样的基本思想。

这样一来在样本数一样的情况下，这种非均匀采样的估算方法要比均匀采样算法好。我们不妨将上面采样策略定为，即采样点 $x\sim p(x)$ ，则这里先直接给出估计积分的公式如下：

$I=\int^{b}_{a} f(x)dx\approx \frac{1}{N}\sum_{n=0}^{N-1}\frac{f(x_{n})}{p(x_{n})}$

这就是蒙特卡洛积分。以下给出上述式子是对积分的一种无偏估计的证明：

$E[\frac{1}{N}\sum_{n=0}^{N-1}\frac{f(x_{n})}{p(x_{n})}]=\frac{1}{N}\sum_{n=0}^{N-1}E[\frac{f(x_{n})}{p(x_{n})}]=\frac{1}{N}\sum_{n=0}^{N-1}\int_{a}^{b}p(x_{n}) \frac{f(x_{n})}{p(x_{n})}dx=\frac{1}{N}\sum_{n=0}^{N-1}\int_{a}^{b}f(x_{n}) dx$

又因为 $x_{n}$ 独立同分布，所以：

$\frac{1}{N}\sum_{n=0}^{N-1}\int_{a}^{b}f(x_{n}) dx=\int_{a}^{b}f(x_{n}) dx=I$

因此证毕。

此外，上面已经提到，合理构建还能提高估计精度，并且数值大的地方对估计意义较大，因此不难联想到让在数值大的地方也大些。事实上，从理论的角度来说，任意一个被积函数，它的最优概率密度函数是：

$p_{op}(x)=\frac{f(x)}{\int f(x) dx}$

不过一般我们不知道 $\int f(x) dx$ 的值，因为这就是我们求解的问题，但是这对于我们构造已经很有指导意义了，即使得的曲线形状接近于。

在一些求解期望的问题中，其实随机变量已经服从一定的分布，则关于的一个函数的期望公式为：

$E[f(x)] = \int_{a}^{b}p(x)f(x)dx$

对其进行无偏估计：

$E[f(x)] = \int_{a}^{b}p(x)f(x)dx=\frac{1}{N}\sum^{N}_{x_{n}\sim p(x),n=1}f(x)$

然而当的形式较为复杂时采样会比较困难，此时我们可以利用一个形式较为简单或者其其CDF已知的概率密度函数 $\tilde{p}(x)$ 来进行采样，则期望公式如变为：

$E[f(x)] = \int_{a}^{b}p(x)f(x)dx=\int_{a}^{b}\tilde{p}(x)\frac{p(x)}{\tilde{p}(x)}f(x)dx$

此时可将上式看作求解服从 $\tilde{p}(x)$ 分布的随机变量 $\frac{p(x)}{\tilde{p}(x)}f(x)$ 的期望，其中 $\frac{p(x)}{\tilde{p}(x)}$ 称为重要度采样比，可以看作是对改变采样分布后对所得样本的一种修正，则期望的无偏估计为：

$\underset{x\sim \tilde{p}(x)}{E}[\frac{p(x)}{\tilde{p}(x)}f(x)]=\frac{1}{N}\sum_{x_{n}\sim \tilde{p}(x),n=1}^{N}\frac{p(x)}{\tilde{p}(x)}f(x)$

其实，不单是当随机变量原分布密度函数比较复杂时比较可以采用重要度采样，在一些问题中也可以利用该方法进行样本拓展。比如回到我们的蒙特卡洛离轨策略问题，前面已经提到，在离轨策略中，利用行为策略产生的幕序列所得到的回报无法真实体现目标策略的实际回报，其实反映的就是改变采样策略后随机变量样本需要加权修正的问题，比如给定以下用行为策略生成的一幕序列：

$S_{t},A_{t},R_{t+1},S_{t+1},A_{t+1},R_{t+2},\cdots,S_{T}$

该幕序列在行为策略下发生的概率为：

$\begin{aligned} Pr\{S_{t},A_{t},R_{t+1},S_{t+1},A_{t+1},R_{t+2},\cdots,S_{T}|b(a|s)\}\\ &=b(A_{t}|S_{t})p(S_{t+1}|S_{t},A_{t})b(A_{t+1}|S_{t+1})\cdots p(S_{T}|S_{T-1},A_{T-1})\\ &=\prod_{k=t}^{T-1}b(A_{k}|S_{k})p(S_{k+1}|S_{k},A_{k}) \end{aligned}$

同理得该幕序列在目标策略 $\pi$ 下发生的概率为：

$\begin{aligned} Pr\{S_{t},A_{t},R_{t+1},S_{t+1},A_{t+1},R_{t+2},\cdots,S_{T}|\pi(a|s)\}\\ &=\pi(A_{t}|S_{t})p(S_{t+1}|S_{t},A_{t})\pi(A_{t+1}|S_{t+1})\cdots p(S_{T}|S_{T-1},A_{T-1})\\ &=\prod_{k=t}^{T-1}\pi(A_{k}|S_{k})p(S_{k+1}|S_{k},A_{k}) \end{aligned}$

则将 $Pr\{S_{t},A_{t},R_{t+1},S_{t+1},A_{t+1},R_{t+2},\cdots,S_{T}|\pi(a|s)\}$ 视为原分布， $Pr\{S_{t},A_{t},R_{t+1},S_{t+1},A_{t+1},R_{t+2},\cdots,S_{T}|b(a|s)\}$ 视为 $\tilde{p}(x)$ ，随机变量为：

$f(x)=G_{t}=\sum_{k=t+1}^{T}R_{k}$

则重要度采样比为：

$\rho _{t:T-1}=\frac{\prod_{k=t}^{T-1}\pi(A_{k}|S_{k})p(S_{k+1}|S_{k},A_{k})}{\prod_{k=t}^{T-1}b(A_{k}|S_{k})p(S_{k+1}|S_{k},A_{k})}=\prod_{k=t}^{T-1}\frac{\pi(A_{k}|S_{k})}{b(A_{k}|S_{k})}$

则利用重要度采样比修正后的回报 $G_{t}$ 的期望即是策略 $\pi$ 的价值函数，如下：

$E[\rho_{t:T-1}G_{t}|S_{t}=s]=v_{\pi}(s)$

策略 $\pi$ 在上述幕序列的回报的无偏估计为：

$V(s)\doteq \frac{\sum_{n=1}^{N}\rho_{t(n):T(n)-1}G_{t(n)}}{N}$

其中N表示一共状态s的首次访问次数，t(n)表示第n幕中首次访问s的时刻，T(n)表示第n幕的终止时刻。

上述估计公式又叫做普通重要度采样，虽然是无偏估计，但由于与 $\pi$ 相差较大时会使得 $\rho _{t:T-1}$ 较大，而分母又是有界定值，所以这种情况下估计方差会比较大。另一种估计公式如下：

$V(s)\doteq \frac{\sum_{n=1}^{N}\rho_{t(n):T(n)-1}G_{t(n)}}{\sum_{n=1}^{N}\rho_{t(n):T(n)-1}}$

这种估计方法叫做加权重要度采样，由于引入了权重分母，因此其估计方差是有界的，另外这种估计方法是有偏的，但是偏差值会渐进收敛于零，我们在实际应用中也常用这种方法。

其实，如果仔细探究你会发现，利用上述的重要度采样比来整体修正回报值也是一种粗糙的方式，这会带来估计方差加大的负面影响，为了减小方差还可以运用折扣敏感的重要度采样以及每次决策型重要度采样方法，感兴趣的朋友可做拓展学习，这里就不赘述了（不难）。

3.3.2 离轨策略MC预测算法

上面我们已经给出了如何在离轨策略中，利用行动策略产生的样本来对目标策略进行价值估计，即利用重要度采样，那么仿照着同轨策略方法我们就不难得出离轨策略的MC预测算法。

而在给出预测算法之前，我们不妨先来观察下加权重要度采样公式，该式形式比较复杂，直接计算加权平均值的过程中需要记录诸多中间变量，我们已经知道了普通采样平均的增量式实现公式，那么我们就先来推导下加权平均的增量式实现公式：

考虑一个一般的加权平均公式：

$V_{n}\doteq \frac{\sum_{k=1}^{n-1}W_{k}G_{k}}{\sum_{k=1}^{n-1}W_{k}}$

令：

$C_{n}\doteq \sum_{k=1}^{n}W_{n}$

则原等式：

$V_{n}C_{n-1}=\sum_{k=1}^{n-1}W_{k}G_{k}$

又有：

$V_{n+1}C_{n}=\sum_{k=1}^{n}W_{k}G_{k},eq1$

$V_{n}(C_{n}-W_{n})=\sum_{k=1}^{n-1}W_{k}G_{k},eq2$

则

$V_{n+1}C_{n}-V_{n}(C_{n}-W_{n})=W_{n}G_{n}$

移项合并同类项，并且方程两边同除以 $C_{n}$ 得：

$V_{n+1}=V_{n}+\frac{W_{n}}{C_{n}}(G_{n}-V_{n})$

这就是加权重要度采样的增量式实现。得到此式后不难得出离轨策略的MC预测算法流程如下：

离轨策略的MC预测算法（首次访问型）

Step1：定义目标策略 $\pi(s)$ 与行动策略

             初始化状态价值函数、为零向量

Step2：根据需要幕数量进行循环：

策略生成一幕序列： $S_{0},A_{0},R_{1},S_{1},A_{1},R_{2},\cdots ,S_{T-1},A_{T-1},R_{T}$

                      初始化回报,

对本幕中的每一步进行倒叙循环,即 $t=T-1,T-2,\cdots,0:$

   $G=\gamma G+R_{t+1}$

   $C(S_{t},A_{t})=C(S_{t},A_{t})+W$

   $Q(S_{t},A_{t})=Q(S_{t},A_{t})+\frac{W}{C(S_{t},A_{t})}[G-Q(S_{t},A_{t})]$

   $W=W\frac{\pi(A_{t}|S_{t})}{b(A_{t}|S_{t})}$

如果，则退出内层循环，进行下一幕的学习

可以看到当时，即说明我的目标策略 $\pi$ 不可能采取这样的行动，那么这个幕就没有了训练意义，即退出该幕学习。另外，你会发现值的更新是在值的更新之后，但是按照重要度采样值的更新应该在值的更新之前，但笔者通过仿真发现这两中顺序不影响预测结果，但其背后数学机理笔者还没搞明白，欢迎高人指点。

现给出二十一点问题的离轨策略的MC预测算法代码如下（目标策略与MC预测部分相同）：

# Project Name: BlackJack
# Algorithm   : Off Policy Prediction(离轨策略预测算法)
# Author      : XD_MaoHai
# Reference   : Jabes


import matplotlib
import numpy as np
import gym
import sys
import random
from collections import defaultdict
from matplotlib import pyplot as plt


# 编写三维画图函数
def plot_3D(X, Y, Z, xlabel, ylabel, zlabel, title):
    fig = plt.figure(figsize=(20, 10), facecolor = "white")
    ax = fig.add_subplot(111, projection = "3d")
    surf = ax.plot_surface(X, Y, Z, rstride = 1, cstride = 1,
    cmap = matplotlib.cm.rainbow, vmin=-1.0, vmax=1.0)
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)
    ax.set_zlabel(zlabel)
    ax.set_title(title)
    ax.view_init(ax.elev, -120)
    ax.set_facecolor("white")
    fig.colorbar(surf)
    return fig

# 试探因子
epsilon = 0.1


# 行为策略
def behavior_policy(state):
    """
    state : 当前状态
    return: 返回行为策略下的采取动作
    """
    action_list = np.random.choice([target_policy(state), 1 - target_policy(state)], 1, replace=False, p=[1 - epsilon / 2, epsilon / 2])
    action = action_list[0]
    return action


# 目标策略
def target_policy(state):
    """
    state : 当前状态
    return: 返回当前状态下的采取动作
    """
    player_score, _, _ = state
    return 0 if player_score >= 20 else 1


# 离轨策略预测算法
def OffPolicy(env, num_episodes):
    """
    env         : 问题环境
    num_episodes: 幕数量
    return      : 返回状态价值函数
    """
    # 初始化重要比和
    C = defaultdict(float)
    # 初始化状态价值函数
    q = defaultdict(float)

    # 对各幕循环迭代
    for each_episode in range(num_episodes):
        # 输出迭代过程
        print("Episode {}/{}".format(each_episode+1, num_episodes), end="\r")
        sys.stdout.flush()

        # 初始化空列表记录幕过程
        episode = []
        # 初始化环境
        state = env.reset()

        # 生成（采样）幕
        done = False
        while not done:
            # 根据当前状态获得策略下的下一动作
            action = behavior_policy(state)
            # 驱动环境的物理引擎得到下一个状态、回报以及该幕是否结束标志
            next_state, reward, done, info = env.step(action)
            # 对幕进行采样并记录
            episode.append((state, action, reward))
            # 更新状态
            state = next_state

        # 对生成的单幕内进行倒序迭代更新状态价值矩阵
        G = 0
        W = 1.0
        episode_len = len(episode)
        episode.reverse()
        for seq, data in enumerate(episode):
            # 记录当前状态
            state_visit = data[0]
            each_action = data[1]
            if each_action == target_policy(state_visit):
                W = W / (1 - epsilon)
            else:
                break
            # 累加计算期望回报
            G += data[2]
            C[(state_visit, each_action)] = C[(state_visit, each_action)] + W
            # 若状态第一次出现在该幕中则进行价值和策略更新
            # if seq != episode_len - 1:
            #     if data[0] in episode[seq+1:][0]:
            #         continue
            q[(state_visit, each_action)] = q[(state_visit, each_action)] + W/C[(state_visit, each_action)]*(G - q[(state_visit, each_action)])

    return q


# 处理价值矩阵方便后续绘图
def process_q_for_draw(q, ace):
    """
    v     : 状态价值函数
    ace   : 是否有可用A
    return: 返回处理好的三个坐标轴
    """
    # 生成网格点
    x_range = np.arange(12, 22)
    y_range = np.arange(1, 11)
    X, Y = np.meshgrid(x_range, y_range)

    # 根据是否有可用的A选择绘制不同的3D图
    if ace:
        Z = np.apply_along_axis(lambda _: q[((_[0], _[1], True), target_policy((_[0], _[1], True)))], 2, np.dstack([X, Y]))
    else:
        Z = np.apply_along_axis(lambda _: q[((_[0], _[1], False), target_policy((_[0], _[1], False)))], 2, np.dstack([X, Y]))
    return X, Y, Z


# 主函数
if __name__ == '__main__':
    # 从gym库中调用Blackjack-v1环境
    env = gym.make("Blackjack-v1")
    # 对策略进行评估（预测）
    q = OffPolicy(env, num_episodes=500000)
    # 3D绘图-状态价值矩阵
    X, Y, Z = process_q_for_draw(q, ace=True)
    fig = plot_3D(X, Y, Z, xlabel="Player Sum", ylabel="Dealer Open Card", zlabel="Value", title="Usable Ace")
    fig.show()
    fig.savefig("./result_picture/OffPolicy/Prediction/Usable_Ace.jpg")
    X, Y, Z = process_q_for_draw(q, ace=False)
    fig = plot_3D(X, Y, Z, xlabel="Player Sum", ylabel="Dealer Open Card", zlabel="Value", title="No Usable Ace")
    fig.show()
    fig.savefig("./result_picture/OffPolicy/Prediction/NO_Usable_Ace.jpg")

运行程序，学习500000幕后得到状态函数三维图如下：

可见运行结果和第二部分（MC预测）结果一致。

3.3.3 离轨策略MC控制算法

能做到策略评估（预测）后，就可以利用估计好的价值函数来进行策略改进，离轨策略MC控制算法依旧用的是这种广义策略迭代思想。和同轨策略MC控制算法一致，我们依旧在策略评估后贪心的选取价值最高的动作来进行策略改进，现给出离轨策略MC控制算法流程如下：

  离轨策略的MC控制算法（首次访问型）

Step1：任意初始化一个策略 $\pi(s)\in A(s)$ ，并定义行动策略

             初始化状态价值函数、为零向量

Step2：根据需要幕数量进行循环：

策略生成一幕序列： $S_{0},A_{0},R_{1},S_{1},A_{1},R_{2},\cdots ,S_{T-1},A_{T-1},R_{T}$

                      初始化回报,

对本幕中的每一步进行倒叙循环,即 $t=T-1,T-2,\cdots,0:$

   $G=\gamma G+R_{t+1}$

   $C(S_{t},A_{t})=C(S_{t},A_{t})+W$

   $Q(S_{t},A_{t})=Q(S_{t},A_{t})+\frac{W}{C(S_{t},A_{t})}[G-Q(S_{t},A_{t})]$

   $\pi(S_{t})=\underset{a}{argmax}\ Q(S_{t},a)$

如果 $A_{t}\neq \pi(S_{t})$ 则退出内层循环

   $W=W\frac{1}{b(A_{t}|S_{t})}$

注意到最后的更新，重要度采样比是 $\frac{1}{b(A_{t}|S_{t})}$ ，而非 $\frac{\pi(A_{t}|S_{t})}{b(A_{t}|S_{t})}$ ，这是因为策略改进是贪心的选择最优动作，若该最优动作不为采样动作则该幕样本失去学习意义即退出本幕学习，若两者一致则因为目标策略是固定的，所以 $\pi(S_{t},A_{t})$ 为1。

对于二十一点问题，利用离轨策略MC控制算法的代码就在同轨策略MC控制算法代码的基础上增加行为策略，并将OnPolicy函数换为OffPolicy即可，此两部分代码如下：

# Project Name: BlackJack
# Algorithm   : Off Policy Control(离轨策略控制算法)
# Author      : XD_MaoHai
# Reference   : Jabes

……
……
# 行为策略中每步选择1的概率
alpha = 0.5


# 行为策略
def behavior_policy(state):
    """
    state : 当前状态
    return: 返回行为策略下的采取动作
    """
    action_list = np.random.choice([1, 0], 1, replace=False, p=[alpha, 1-alpha])
    action = action_list[0]
    return action

# 离轨策略控制算法
def OffPolicy(env, num_episodes):
    """
    env         : 问题环境
    num_episodes: 幕数量
    return      : 返回状态价值函数与最优策略
    """
    # 初始化策略(任何状态下都不要牌)
    target_policy = defaultdict(int)
    # 初始化重要比和
    C = defaultdict(float)
    # 初始化状态价值函数
    q = defaultdict(float)

    # 对各幕循环迭代
    for each_episode in range(num_episodes):
        # 输出迭代过程
        print("Episode {}/{}".format(each_episode+1, num_episodes), end="\r")
        sys.stdout.flush()

        # 初始化空列表记录幕过程
        episode = []
        # 初始化环境
        state = env.reset()

        # 生成（采样）幕
        done = False
        while not done:
            # 根据当前状态获得策略下的下一动作
            action = behavior_policy(state)
            # 驱动环境的物理引擎得到下一个状态、回报以及该幕是否结束标志
            next_state, reward, done, info = env.step(action)
            # 对幕进行采样并记录
            episode.append((state, action, reward))
            # 更新状态
            state = next_state

        # 对生成的单幕内进行倒序迭代更新状态价值矩阵
        G = 0
        W = 1.0
        episode_len = len(episode)
        episode.reverse()
        for seq, data in enumerate(episode):
            # 记录当前状态
            state_visit = data[0]
            each_action = data[1]
            # 累加计算期望回报
            G += data[2]
            C[(state_visit, each_action)] = C[(state_visit, each_action)] + W
            # 若状态第一次出现在该幕中则进行价值和策略更新
            # if seq != episode_len - 1:
            #     if data[0] in episode[seq+1:][0]:
            #         continue
            q[(state_visit, each_action)] = q[(state_visit, each_action)] + W/C[(state_visit, each_action)]*(G - q[(state_visit, each_action)])
            if q[(state_visit, each_action)] < q[(state_visit, 1-each_action)]:
                target_policy[state_visit] = 1 - each_action
            if each_action == target_policy[state_visit]:
                if each_action == 1:
                    W = W / alpha
                else:
                    W = W / (1 - alpha)
            else:
                break
    return q, target_policy
……
……

运行程序，学习5000000幕后得到有可用A与无可用A两种情况下的最优策略如下：

同样得到最优策略下的状态价值函数三维图如下：

结果图均与上面结果基本一致。

你可能感兴趣的:(强化学习,算法,python,马尔可夫链蒙特卡洛方法)

python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
iPhone XS 上的 Siri 没反应怎么办？苹果手机无法使用嘿 Siri 解决方法编程大乐趣
iPhoneXSMax上的Siri没反应怎么办？苹果手机无法使用嘿Siri解决方法。Siri已经成为iPhone上必不可少的智能语音助手，提供了很多便利，但是Siri突然不工作没有响应应该如何解决呢？检查网络连接如果收到「抱歉，我无法连接到网络」或「请您稍后再试」的提示，请确保设备已经连接至互联网并重试。确认已开启Siri前往「设置」-「Siri与搜索」，确保「听取嘿Siri」、「按下主屏幕按钮使
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于推理的强化学习智能体设计与开发由数入道人工智能人工智能多智能体强化学习知识推理
1.理论基础与核心概念1.1推理强化学习（Reasoning-EnhancedRL）定义核心思想：在传统强化学习的马尔可夫决策过程（MDP）基础上，引入符号推理、因果推断和知识引导机制，解决复杂环境中的长程依赖和稀疏奖励问题。数学建模：扩展MDP为R-MDP：⟨S,A,P
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
【前端构建】使用Docker打包多个前端项目到一个Nginx镜像，并给conf文件动态传递参数 Zacks_xdc 前端 docker nginx
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录背景正文DockerFileNginx配置模板接收变量并替换Shell脚本将Nginx配置模板替换成配置文件使用构建镜像运行容器总结背景公司给一些客户要部署三个前端项目。最初，每个前端项目都以独立的镜像形式交付并部署。然而，随着客户数量的增加，每个客户都提出了一些自定义需求，后端也进行了对应改造。这导致了部署过程变得复杂且繁琐
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
【Go】Go语言继承-多态模拟菜萝卜子 Golang golang 开发语言后端
继承（结构体嵌入）多态（接口实现和空接口）1.继承（结构体嵌入）Go语言没有传统的面向对象的继承机制，但可以通过“结构体嵌入”实现类似继承的效果。结构体嵌入：在结构体中嵌入另一个结构体，使得子结构体可以直接访问父结构体的字段和方法。字段重写：若子结构体定义了与嵌入的结构体同名的字段，则可以认为“重写”了父结构体的同名字段，访问时默认访问子结构体自己的字段，若需要访问父结构体的字段，则使用Struc
Java 在运行期、源码级别和字节码级别处理的对比分析，涵盖定义、实现方式、优缺点及典型应用场景爱的叹息 Java 基础整理 java python 开发语言
以下是Java在运行期、源码级别和字节码级别处理的对比分析，涵盖定义、实现方式、优缺点及典型应用场景：1.对比维度维度运行期处理源码级别处理字节码级别处理工作阶段程序运行时动态操作编译阶段生成/修改代码编译后到运行前修改字节码实现方式反射、动态代理、JVM工具注解处理器（APT）、模板引擎ASM、Javassist、ByteBuddy修改内容对象/类的属性、方法调用源代码文件字节码（.class文
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
前端简单数据存储：跳过后端数据库的一种高效策略，应对一些不需要后端访问数据库的简单操作：静态 Markdown 文件存储【D＇accumulation】前端数据库学习 vscode html5 vue.js
问题提出：在一些应用场景中，有些数据并不重要，也不需要频繁地进行动态增删改查，比如品牌历史、产品介绍等说明性内容。为此，我选择在前端直接存储这些静态数据，跳过后端数据库调用。本文将分享如何利用Vue工程中直接存放Markdown文件与内嵌数据，将数据管理与业务逻辑解耦，从而实现快速开发、便于维护和灵活更新的目的。静态Markdown文件存储方法案例：原理：将Markdown文件（如brandHis
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
Java 数组终极详解可问可问春风 java基础 java 开发语言
以下是Java数组终极详解，覆盖底层原理、操作技巧、高频陷阱及性能优化方法，帮助您全面掌握数组的精髓：一、数组核心概念速查表特性描述存储类型相同数据类型元素的连续内存块长度固定数组长度在创建时确定，不可动态扩展索引访问从0开始索引，支持随机存取（时间复杂度O(1)）内存分配数组变量存储的是堆内存中数组对象的引用地址默认值初始化int[]默认0，boolean[]默认false，对象数组默认null
Vue解析 chaitoufeng2002 vue.js javascript 前端
父组件调用子组件的方法父组件：调用子组件方法import{ref}from'vue';importChildComponentfrom'./ChildComponent.vue';constchildRef=ref(null);constcallChildMethod=()=>{if(childRef.value){childRef.value.childMethod();}};子组件：const
LLM大模型提示工程Prompt Engineering Langchain prompt langchain 私有化大模型人工智能产品经理 ai大模型 LLM
在LLM中影响词汇的分布主要通过两种方式，一种是通过提示（Prompting），另外一种就是通过训练（Training）。提示是影响词汇分布最简单的方法，通过给LLM输入提示文本（有时会包含指令和示例）使得词汇的分布概率发生变化。以上一篇中提到的例子说明，最初的语句是“我写信给农场，希望他们送我一个宠物，他们送给我一只（）“词汇的分布如下：代码语言：javascript**复制牛0.1羊0.2狗0
用ACM模式模板刷hot100 boguboji java
面试手撕给的模板基础上写给的模板一般是下面这样把while内容删除（一般刷hot100题目输入不需要同时输入几组）第一个方法里写处理输入输出自己再写一个方法，就是力扣里的核心代码（加上static）第一个处理输入输出的方法里面调用第二块的方法importjava.util.*;publicclassMain{publicstaticvoidmain(String[]args){Scannerin=
深入浅出JVM性能优化：从理论到实践 rider189 java jvm
一、JVM架构与内存模型深度解析1.1JVM运行时数据区全景图方法区（元空间）：存储类信息、常量池等元数据堆内存：对象实例存储核心区域YoungGeneration（新生代）Eden区（对象诞生地）Survivor区（S0/S1，存活对象过渡区）OldGeneration（老年代）虚拟机栈：线程私有，存储栈帧本地方法栈：Native方法调用程序计数器：线程执行位置指示器1.2对象生命周期管理对象创
Centos7搭建Zabbix4.x监控HCL模拟网络设备：zabbix-server搭建及监控基础02 wusam zabbix HCL SNMP 网络监控
兰生幽谷，不为莫服而不芳；君子行义，不为莫知而止休。2.HCL网络设备的远程登录及snmp-agent配置华三网络设备的snmp-agent设置方法(1)配置Agent#配置Agent的IP地址为1.1.1.1/24，并确保Agent与NMS之间路由可达。（配置步骤略）#设置Agent使用的SNMP版本为v1/v2c、只读团体名为public，读写团体名为private。system-view[A
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin