Wwwilling

【强化学习纲要】3 无模型的价值函数估计和控制

- 3.1 回顾MDP的控制
- 3.2 Model-free prediction
- - 3.2.1 Monte Carlo policy evaluation
  - 3.2.2 Temporal Difference (TD) learning
- 3.3 Model-free control
- - 3.3.1 Sarsa: On-Policy TD Control
  - 3.3.2 On-policy Learning vs. Off-policy Learning
  - 3.3.3 Off-policy Control with Q-Learning
  - 3.3.4 Sarsa与Q-Learning的比较
  - 3.3.5 Sarsa and Q-learning Example

周博磊《强化学习纲要》
学习笔记
课程资料参见：https://github.com/zhoubolei/introRL.
教材：Sutton and Barton
《Reinforcement Learning: An Introduction》

实际生活中，很多MDP是不可知的，因此要使用Model-free的方法。

3.1 回顾MDP的控制

什么时候MDP已知？
- 马尔科夫决策过程中 $R$ 和 $P$ 都是暴露给agent的
- 因此agent可以通过policy iteration和value iteration来寻找最佳策略
Policy iteration
- Policy evaluation：给定当前算法，利用Bellman expectation backup来更新我们的价值函数，通过迭代的办法来得到每一个状态的价值是什么
- Policy improvement：得到价值过后，算得q函数，进行第二步的策略的改进，在q函数上面进行贪心策略
  
  在这两个式子中，奖励函数和转移矩阵都是暴露给agent的。
Value iteration
利用Bellman optimality backup来更新价值函数，当把max操作运行很多很多次以后会得到每一个策略的价值函数

利用policy retrieve来更新最终的策略

3.2 Model-free prediction

但是很多MDP是未知的，或者太复杂。因此我们需要用Model-free RL，Model-free 就是典型的agent与环境交互获得观测和奖励来调整它的行为，通过一系列的观测收集到的数据来调整它的策略。
并没有直接获得转移状态和奖励函数
通过agent与环境进行交互，采集到了很多轨迹数据
轨迹表现为：
在不能获取MDP model的情况下估计expected return
- Monte Carlo policy evaluation(蒙特卡洛)
- Temporal Difference (TD) learning

3.2.1 Monte Carlo policy evaluation

蒙特卡洛的方法主要是基于采样的方法，让agent与环境进行交互，得到很多轨迹。每一个轨迹都会得到一个实际的收益
然后直接从实际的收益来估计每个状态的价值
MC simulation：在算取每个轨迹实际的return后，把很多轨迹进行平均，得到每个状态下面对应的价值。
MC policy evaluation是根据empirical mean return来估计，而不是expected return
因此并不需要MDP的转移函数和奖励函数，也不要像动态规划一样有bootstrapping的过程。
只能用于有终止的MDP
算法概括

当要估计某个状态的时候，从这个状态开始通过数数的办法，数这个状态被访问了多少次，从这个状态开始我们总共得到了多少的return，最后再取empirical mean，就会得到每个状态的价值。

通过大数定律，得到足够的轨迹后，就可以趋近策略对应得价值函数

Incremental Mean

写成逐步叠加的办法。

通过采样很多次，就可以平均；然后进行分解，把加和分解成最新的 $x_t$ 的值和最开始到t-1的值；然后把上一个时刻的平均值也带入进去，分解成(t-1)乘以上一个时刻的平均值；这样就可以把上一个时刻的平均值和这一个时刻的平均值建立一个联系。

通过这种方法，当得到一个新的 $x_t$ 的时候，和上一个平均值进行相减，把这个差值作为一个残差乘以一个learning rate，加到当前的平均值就会更新我们的现在的值。这样就可以把上一时刻的值和这一时刻更新的值建立一个联系。

Incremental（增量） MC Updates

把蒙特卡洛方法也写成Incremental MC更新的方法。

当我们采集数据得到新的轨迹后
在每一个state上面，访问的数counter+1，用Incremental MC的方法更新
将 $1 / c o u n t i n g$ 变成 $\alpha$ ，也叫learning rate（学习率），我们希望值更新的速率有多快
MC与DP的差异
DP（动态规划）
- 动态规划里用的bootstrapping（自举法）的方法，bootstrapping的意思是要估计一个量，我们这个量是基于之前量进行迭代，最后进行收敛得到的。
- 动态规划里面用的Bellman expectation backup：
  
  通过上一时刻 $v_{i-1}$ 这个值推算到 $v_i$ 这个值。
  是把一步所有的状态都加和起来了，内部加和是把每一个状态转移加和上去，外部加和是基于每个策略都加和上去，算了两次expectation然后得到更新。
MC（蒙特卡洛）
- 是通过empirical return，实际得到的收益来更新它

MC表现出来得到的是这条从起始到终止的蓝色的轨迹，我们得到的是一条实际的轨迹，每一个采取的什么行为以及它到达的状态都是决定的。现在是只是利用得到的实际价值来更新在轨迹上的所有状态，而和轨迹没有关系的状态我们都没有更新

MC相对于DP的好处
- MC可以在环境不知道的情况下进行工作，是model-free状态。
- MC每次只需要更新一条轨迹，和轨迹不相关的是不需要更新的，极大的减少了更新的成本；DP是算了两次加和，需要把MDP里面所有状态都迭代一边才能更新，如果样本数量太大，就会非常慢。

3.2.2 Temporal Difference (TD) learning

TD是介于MC和DP之间的方法
TD是model-free的，不需要知道MDP的转移矩阵或奖励函数
TD结合了bootstrapping的思想，对于不完整的episode也可以工作。

算法框架

目标：在policy $\pi$ 中在线学习 $v_{\pi}$
最简单的TD算法（TD(0)）算法：
- 每次往前走一步，bootstrapping得到的estimated return来更新上一时刻的状态 $v_(S_t)$ 的值
- estimated return也叫TD target：
  
  由两部分组成，第一部分表示走了某一步过后得到的奖励，第二部分是通过bootstrapping找到 $v_(S_{t+1})$ ，再乘以一个折扣系数。
- TD error:
  
  TD target减去当前的v值
- 与Incremental MC对比
  
  $G_{i,t}$ 是实际得到的值，一条轨迹跑完了后算每个状态实际的return，TD是没有等轨迹结束，在往前走了一步后就可以更新它的价值函数

TD和MC的差别

TD是在决策树上只走了一步，MC是把整个决策树全部走完了，走到终止状态后，回算每个return，更新它的值。

TD可以通过online learning，每完成一步更新一步，效率高；MC需要等到整个序列完成后才可以学习。
TD可以学习不完整的序列，MC要学习完成的序列。
TD可以在连续（没有终止）的环境下面进行学习；MC必须在有终止的情况下学习。
TD利用了Markov特征，在Markov环境下效率更高；MC并没有这个假设，当前状态与之前状态是没有关系的，是用最终实际的奖励来估计中间每一个状态的价值。

n-step TD

TD(0)是从当前状态走到下一个状态，走了一步。通过调整这个步数，可以得到不同的步数的算法，比如两步TD算法，就是向前走两步，然后最前面那个state进行bootstrapping，然后根据两步得到的实际奖励来更新它的值。
这样就可以通过调整步数来调整究竟需要多少的实际奖励以及多少bootstrapping，这也是TD比较灵活的地方。
当步数增加到很多(infinite）的时候，整个TD target就变成了MC target
可以把n- step return再定义成

当走到它最前面的一个state的时候，利用 $v(S_{t+n})$ 来bootstrapping来回到return
然后利用incremental learning的方法来更新state的价值

Bootstrapping and Sampling for DP, MC, and TD

Bootstrapping
- MC没有用到之前的bootstrap，它没有用到任何之前的估计
- DP用了bootstrap
- TD用来bootstrap
Sampling
- MC是纯sampling的办法
- DP没有sampling
- TD用了sampling，它的TD target一部分是sampling，一部分是bootstrap

可视化展示

DP backup

直接算expectation，直接算某状态相关联的未来一步的状态，加和起来，如图红色区域。
MC backup

直接找一个状态开始的一条轨迹，在这条轨迹上更新所有状态。
TD backup

把当前状态开始往前走一步，关注的只是很局部的一个步骤。

3.3 Model-free control

在没法的到MDP模型的情况下，如何优化价值函数，如何得到最佳的策略呢？
Generalized Policy Iteration(GPI)，把policy iteration进行广义的推广使得它能够兼容MC和TD。

Policy iteration

两部分：

迭代的过程估计价值函数 $v$
得到价值函数后，通过greedy的算法改进

然而得到了价值函数后，我们并不知道它的奖励函数和状态转移，所以没法估计q函数。

所以当我们不知道奖励函数和状态转移矩阵的时候，如何进行策略的优化？

Generalized Policy Iteration with Action-Value Function

可以直接用MC的方法代替DP的方法去估计q函数，当得到q函数后，可以通过greedy的方法去改进。

假设每个episode都有一个exploring starts， exploring starts意味着希望每个状态每个步骤都采样到，所以需要episode start作为保证。

通过蒙特卡洛采样的方法采集到很多轨迹，每个轨迹都可算得它的价值；然后通过average的方法去估计q函数，可以把q函数看成一个table，横轴是状态，纵轴是action，通过采样的方法把表格上面每一个值都填上；得到表格后，可以通过第二步得policy improvement选取它的更好的一个策略。
核心：如何利用MC方法去填Q table。

怎么确保MC有足够的贪婪函数？

面临一个exploration和exploitation的trade-off
$\epsilon$ -Greedy exploration：
在每一步选取策略的时候，有 $\epsilon$ 的概率， $\epsilon$ 在开始的时候是比较大的，比如80%，逐渐它会减小。
- 每次它有 $\epsilon$ 的概率随机选取一个行为， $\epsilon$ 可以确保你对于不同的行为有足够的探索，有更高的概率可以获取更高奖励的行为。
- 另外有1- $\epsilon$ 的概率采取greedy的策略，因为greedy的策略可以确保你获取足够的奖励。
- $\epsilon$ greedy概率的表达形式：
  
  这个等式是确保加和它还是一个概率。

Monte Carlo with $\epsilon$ -Greedy Exploration

当我们follow $\epsilon$ -greedy policy的时候，整个q函数以及价值函数是单调递增的。

$\epsilon$ -Greedy算法表示

注释：
1:刚开始时q table是随机初始化的；
4: MC的核心是利用当前的策略利用环境进行探索，得到一些轨迹；
7:得到轨迹后，开始更新return，通过incremental mean的方法更新q table, q table有两个量：状态，action；
10:得到q table后，进步更新策略，policy improvement，这样就可以得到下一阶段的策略；得到更好的策略后，又用更好的策略来进行数据的采集。
这样通过迭代的过程，就得到广义的policy iteration。

MC vs. TD for Prediction and Control

TD的好处
- 变化性低
- Online(对于没有结束的游戏已经可以处理它的q table)
- 不完整的序列
把TD放到control loop里面
- 估计它的q table
- 采取 $\epsilon$ -Greedy improvement的方式
- 在同一个episode没有结束的时候就可以更新它没有采集的状态

回顾TD prediction的步骤

TD prediction给定了一个策略，我们估计它的价值函数
TD(0)的方法是
- 我们根据当前策略 $\pi$ 采取了一个行为，然后我们执行了这个行为 $A_t$ ；
- 然后可以观测到执行的奖励 $R_{t+1}$ 和进入下一个状态 $S_{t+1}$ ；
- 然后我们可以构造出TD target（由获取的奖励 $R_{t+1}$ 以及bootstrapping下一步状态的值），然后更新当前状态 $V(S_t)$ 的值。
那么怎么用TD prediction来估计action value function Q(S)呢？

3.3.1 Sarsa: On-Policy TD Control

On-Policy的意思是我们现在只有同一个policy，既利用这个policy来采集数据，policy同时也是我们优化的policy。

需要采集到两个state。从当前S开始，执行了一个action（第一个A），会得到一个reward，然后会进入下一个状态S；然后进一步执行action，得到第二个A…，缩写得到Sarsa
Sarsa算法与TD prediction类似，它是直接去估计Q table, Q table也是构造出TD target，由它已经得到的reward，以及bootstrapping下一步要更新的Q，来更新当前Q table的值。
得到Q table后，可以采取greedy的策略更新它的策略。

Sarsa具体的算法

刚开始我们初始化Q table；先通过Q table采样一个A；采取A，会得到奖励R和S‘(进入到下一个状态）；再一次通过Q table采样得到A’；收集到所有data后，就可以更新Q table；更新后我们会向前走一步，S变成S’，A变成A’；一步一步进行迭代更新。

n-step Sarsa

前面我们说可以把TD算法扩展它的步数，我们可以得到n-step 的Sarsa。

一步Sarsa是往前走一步过后就更新它的TD target；两步就得到两个实际得到的奖励，再bootstrapping Q的价值，更新TD target；进一步推广到整个结束过后，Sarsa就变成MC的这种更新的方法。

3.3.2 On-policy Learning vs. Off-policy Learning

Sarsa属于On-policy Learning

On-policy Learning：因为需要学到最新（最佳）的策略 $\pi$ ，但在学习的过程中只利用一种策略，既利用这个策略进行数据（轨迹）的采集，也进一步进行策略的优化，都是用的同一个策略。
Off-policy Learning：在策略的学习过程中，可以保留两种不同的策略。一种是保持优化的策略，我们希望学到最佳的策略；另一种是拿来探索的策略，可以更激进的对环境探索。我们需要学习策略policy $\pi$ ，但我们利用的数据（轨迹）是用第二个策略 $\mu$ 产生的。
- $\pi$ ： target policy，需要学习的policy；
- $\mu$ ：behavior policy，采集数据，然后喂给 target policy进行学习。

Off-policy Learning

在behavior policy $\mu(a|s)$ 中收集data的时候
- 观测，轨迹等都是通过 $\mu$ 与环境进行交互产生的
- 然后去update $\pi$ policy
Off-policy Learning 好处
- 利用一个更加激进的exploratory policy，学到一个最佳的策略，使得学习效率非常高
- 可以学习其他agent的行为，如模仿学习
- 可以重用之前老的策略产生的轨迹。探索的过程需要消耗非常多的计算资源来产生roll out，产生轨迹；如果我们之前产生的轨迹对于当前产生的轨迹不能利用的话，会浪费很多资源。这也是Q learning, Deep Q learning采取的思想；用一个replay buffer来存储老的轨迹生的经验，然后通过对这些老的策略进行采样，来构建新的training back来更新target policy。

3.3.3 Off-policy Control with Q-Learning

behavior and target policy
target policy $\pi$ 直接在Q table上greedy

对于某一个状态，下一步的最佳策略应该是argmax操作取得下一个能得到的所有状态。
behavior policy $\mu$ 可以是随机的policy，但是这里是让它在Q table上遵循 $\epsilon$ -Greedy policy
这两种policy在策略优化的开始是非常不同的，因为 $\epsilon$ -Greedy的 $\epsilon$ 值在刚开始的时候是非常大的；在逐渐收敛的时候， $\epsilon$ 的值也会逐渐变小；因此这两个策略在后面会越来越像。
Q-learning target：

每一步后面采取的策略都应该是argmax操作，变换知乎直接取的max值。所以就构建出当前TD target要优化的值。
把Q-learning update写成incremental的形式

Q-learning 算法

我们采取当前行为过后，然后用 $\epsilon$ -Greedy选择A，得到R，S’。
与Sarsa很大的不同的是，Q-learning 算法并没有采样第二个Action，因为第二个Action是需要构造TD target的，所以在Sarsa中需要遵从target policy去采样第二个A；
在Q-learning并没有去采样，采取的操作是直接去看Q table，然后取它的max值，这样就构造出了它的TD target，然后就可以对它的Q值进行优化，优化后就进入下一步的S状态。

3.3.4 Sarsa与Q-Learning的比较

Sarsa: On-Policy TD control
- 有两个Action， $A_t$ 和 $A_{t+1}$ 都是通过同一个policy采样得来的；
- 得出两个Action后才能对Q进行更新
Q-Learning: Off-Policy TD control
- 只执行了第一个Action $A_t$ ， $A_t$ 是从behavior policy里面采样出来的；
- $A_{t+1}$ 是想象出来的，实际上并没有采取这个行为，使得 $argmaxQ(S_{t+1},a')$ 达到极大化的Action是下一个Action，所以在TD target里面由max，然后进行incremental learning去得到Q
Backup diagram for Sarsa and Q-learning
- Sarsa只有一条路，通过当前S采样出A得到奖励R，然后到达S’，再采样target policy得到A’，就可以更新了。A和A’都是同一个policy产生的，是on-policy。
- Q-learning有了S,A采样过后有了reward，然后得到S’，接着有一个max operator的操作，当前的max operator作为下一步最可能的action。A和A’是从不同的policy产生的，是off-policy。

Example on Cliff Walk

https://github.com/cuhkrlcourse/RLexample/blob/master/modelfree/cliffwalk.py

agent需要从S格子到G格子，可以上下左右移动，但是要避免cliff格子，如果走到cliff有-100的奖励；每走一步有一个-1的奖励。
Sarsa得到的结果（最佳轨迹）与Q-learning非常不同，因为Sarsa是on-policy learning，因为如果掉到cliff就会得到很负的奖励，所以它会采取非常保守的策略。
R是走的轨迹，Sarsa的会逐渐往上走，这样使得agent尽量远离cliff的位置；Q-learning会非常激进，沿着悬崖边上走，得到最优的策略。
Q-learning的learning curve相对于Sarsa是更低的，因为它采取的policy非常激进，有一个behavior policy随机探索环境，所以有更大的概率掉到cliff。

DP和TD的总结

3.3.5 Sarsa and Q-learning Example

https://github.com/cuhkrlcourse/RLexample/tree/master/modelfree

cliffwalk.py

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.colors import hsv_to_rgb

def change_range(values, vmin=0, vmax=1):
    start_zero = values - np.min(values)
    return (start_zero / (np.max(start_zero) + 1e-7)) * (vmax - vmin) + vmin

class GridWorld:
    terrain_color = dict(normal=[127/360, 0, 96/100],
                         objective=[26/360, 100/100, 100/100],
                         cliff=[247/360, 92/100, 70/100],
                         player=[344/360, 93/100, 100/100])
        
    def __init__(self):
        self.player = None
        self._create_grid()  
        self._draw_grid()
        self.num_steps = 0
        
    def _create_grid(self, initial_grid=None):
        self.grid = self.terrain_color['normal'] * np.ones((4, 12, 3))
        self._add_objectives(self.grid)
        
    def _add_objectives(self, grid):
        grid[-1, 1:11] = self.terrain_color['cliff']
        grid[-1, -1] = self.terrain_color['objective']
        
    def _draw_grid(self):
        self.fig, self.ax = plt.subplots(figsize=(12, 4))
        self.ax.grid(which='minor')       
        self.q_texts = [self.ax.text(*self._id_to_position(i)[::-1], '0',
                                     fontsize=11, verticalalignment='center', 
                                     horizontalalignment='center') for i in range(12 * 4)]     
         
        self.im = self.ax.imshow(hsv_to_rgb(self.grid), cmap='terrain',
                                 interpolation='nearest', vmin=0, vmax=1)        
        self.ax.set_xticks(np.arange(12))
        self.ax.set_xticks(np.arange(12) - 0.5, minor=True)
        self.ax.set_yticks(np.arange(4))
        self.ax.set_yticks(np.arange(4) - 0.5, minor=True)
        
    def reset(self):
        self.player = (3, 0)    
        self.num_steps = 0    
        return self._position_to_id(self.player)
    
    def step(self, action):
        # Possible actions
        if action == 0 and self.player[0] > 0:
            self.player = (self.player[0] - 1, self.player[1])
        if action == 1 and self.player[0] < 3:
            self.player = (self.player[0] + 1, self.player[1])
        if action == 2 and self.player[1] < 11:
            self.player = (self.player[0], self.player[1] + 1)
        if action == 3 and self.player[1] > 0:
            self.player = (self.player[0], self.player[1] - 1)
        
        self.num_steps = self.num_steps + 1
        # Rules
        if all(self.grid[self.player] == self.terrain_color['cliff']):
            reward = -100
            done = True
        elif all(self.grid[self.player] == self.terrain_color['objective']):
            reward = 0
            done = True
        else:
            reward = -1
            done = False
            
        return self._position_to_id(self.player), reward, done
    
    def _position_to_id(self, pos):
        ''' Maps a position in x,y coordinates to a unique ID '''
        return pos[0] * 12 + pos[1]
    
    def _id_to_position(self, idx):
        return (idx // 12), (idx % 12)
        
    def render(self, q_values=None, action=None, max_q=False, colorize_q=False):
        assert self.player is not None, 'You first need to call .reset()'  
        
        if colorize_q:
            assert q_values is not None, 'q_values must not be None for using colorize_q'            
            grid = self.terrain_color['normal'] * np.ones((4, 12, 3))
            values = change_range(np.max(q_values, -1)).reshape(4, 12)
            grid[:, :, 1] = values
            self._add_objectives(grid)
        else:            
            grid = self.grid.copy()
            
        grid[self.player] = self.terrain_color['player']       
        self.im.set_data(hsv_to_rgb(grid))
               
        if q_values is not None:
            xs = np.repeat(np.arange(12), 4)
            ys = np.tile(np.arange(4), 12)  
            
            for i, text in enumerate(self.q_texts):
                if max_q:
                    q = max(q_values[i])    
                    txt = '{:.2f}'.format(q)
                    text.set_text(txt)
                else:                
                    actions = ['U', 'D', 'R', 'L']
                    txt = '\n'.join(['{}: {:.2f}'.format(k, q) for k, q in zip(actions, q_values[i])])
                    text.set_text(txt)
                
        if action is not None:
            self.ax.set_title(action, color='r', weight='bold', fontsize=32)

        plt.pause(0.01)

def egreedy_policy(q_values, state, epsilon=0.1):
    ''' 
    Choose an action based on a epsilon greedy policy.    
    A random action is selected with epsilon probability, else select the best action.    
    '''
    if np.random.random() < epsilon:
        return np.random.choice(4)
    else:
        return np.argmax(q_values[state])


def q_learning(env, num_episodes=500, render=True, exploration_rate=0.1,
               learning_rate=0.5, gamma=0.9):    
    q_values = np.zeros((num_states, num_actions))
    ep_rewards = []
    
    for _ in range(num_episodes):
        state = env.reset()    
        done = False
        reward_sum = 0

        while not done:            
            # Choose action    
            #第一个action， $\epsilon$-Greedy产生的
            action = egreedy_policy(q_values, state, exploration_rate)
            # Do the action
            #往前走了一步
            next_state, reward, done = env.step(action)
            reward_sum += reward
            # Update q_values    
            #可以通过bootstrapping去看max的值，构造出当前的TD target  
            td_target = reward + 0.9 * np.max(q_values[next_state])
            td_error = td_target - q_values[state][action]
            #得到TD target后可以立刻更新q value的值，并不需要执行第二个action
            q_values[state][action] += learning_rate * td_error
            # Update state
            #进入到下一个state
            state = next_state

            if render:
                env.render(q_values, action=actions[action], colorize_q=True)
            
        ep_rewards.append(reward_sum)
    
    return ep_rewards, q_values

def sarsa(env, num_episodes=500, render=True, exploration_rate=0.1,
          learning_rate=0.5, gamma=0.9):
    q_values_sarsa = np.zeros((num_states, num_actions))
    ep_rewards = []
    
    for _ in range(num_episodes):
        state = env.reset()    
        done = False
        reward_sum = 0
        # Choose action  
        #第一个action      
        action = egreedy_policy(q_values_sarsa, state, exploration_rate)

        while not done:        
            # Do the action
            next_state, reward, done = env.step(action)
            reward_sum += reward
            
            # Choose next action
            #第二个action，通过采样得到
            next_action = egreedy_policy(q_values_sarsa, next_state, exploration_rate)
            # Next q value is the value of the next action
            #构造TD target
            td_target = reward + gamma * q_values_sarsa[next_state][next_action]
            #计算TD error
            td_error = td_target - q_values_sarsa[state][action]
            # Update q value
            #对Q值进行更新
            q_values_sarsa[state][action] += learning_rate * td_error

            # Update state and action        
            state = next_state
            action = next_action
            
            if render:
                env.render(q_values, action=actions[action], colorize_q=True)
                
        ep_rewards.append(reward_sum)
        
    return ep_rewards, q_values_sarsa

def play(q_values):
	# simulate the environent using the learned Q values
    env = GridWorld()
    state = env.reset()
    done = False

    while not done:    
        # Select action
        action = egreedy_policy(q_values, state, 0.0)
        # Do the action
        next_state, reward, done = env.step(action)  

        # Update state and action        
        state = next_state  
        
        env.render(q_values=q_values, action=actions[action], colorize_q=True)


UP = 0
DOWN = 1
RIGHT = 2
LEFT = 3
actions = ['UP', 'DOWN', 'RIGHT', 'LEFT']

### Define the environment
env = GridWorld()
num_states = 4 * 12  #The number of states in simply the number of "squares" in our grid world, in this case 4 * 12
num_actions = 4 # We have 4 possible actions, up, down, right and left

### Q-learning for cliff walk
q_learning_rewards, q_values = q_learning(env, gamma=0.9, learning_rate=1, render=False)
env.render(q_values, colorize_q=True)

q_learning_rewards, _ = zip(*[q_learning(env, render=False, exploration_rate=0.1,
                                         learning_rate=1) for _ in range(10)])
avg_rewards = np.mean(q_learning_rewards, axis=0)
mean_reward = [np.mean(avg_rewards)] * len(avg_rewards)

fig, ax = plt.subplots()
ax.set_xlabel('Episodes using Q-learning')
ax.set_ylabel('Rewards')
ax.plot(avg_rewards)
ax.plot(mean_reward, 'g--')

print('Mean Reward using Q-Learning: {}'.format(mean_reward[0]))


### Sarsa learning for cliff walk
sarsa_rewards, q_values_sarsa = sarsa(env, render=False, learning_rate=0.5, gamma=0.99)

sarsa_rewards, _ = zip(*[sarsa(env, render=False, exploration_rate=0.2) for _ in range(10)])
avg_rewards = np.mean(sarsa_rewards, axis=0)
mean_reward = [np.mean(avg_rewards)] * len(avg_rewards)

fig, ax = plt.subplots()
ax.set_xlabel('Episodes using Sarsa')
ax.set_ylabel('Rewards')
ax.plot(avg_rewards)
ax.plot(mean_reward, 'g--')

print('Mean Reward using Sarsa: {}'.format(mean_reward[0]))


# visualize the episode in inference for Q-learing and Sarsa-learning
play(q_values)
play(q_values_sarsa)

普通话的调域中值音元系统语音识别自然语言处理语言模型 python
普通话调域中值测算为五度标调法的3.81及其取整为4的准确性与合理性研究摘要本研究通过对比分析不同计算方法得出的普通话调域中值，探讨了将调域中值测算为3.81并取整为4的准确性与合理性。研究比较了本中值算法与刘俐李(2004)算法的差异，结合石锋(1986)等实证研究数据，验证了3.81作为调域中值的科学性。结果表明，该取值不仅符合普通话声调的实际分布特征，也为五度标调法的应用提供了更精确的参考标
Java 多线程并发编程面试笔录一览 weixin_34318272 面试 python java
2019独角兽企业重金招聘Python工程师标准>>>知识体系图：1、线程是什么？线程是进程中独立运行的子任务。2、创建线程的方式方式一：将类声明为Thread的子类。该子类应重写Thread类的run方法方式二：声明实现Runnable接口的类。该类然后实现run方法推荐方式二，因为接口方式比继承方式更灵活，也减少程序间的耦合。3、获取当前线程信息？Thread.currentThread()4
ros学习之路径规划许卿768503 学习
一、全局路径规划中的地图1、栅格地图（GridMap）2、概率图（CostMap）3、特征地图（FeatureMap4、拓扑地图（TopologicalMap）二、全局路径规划算法1、Dijkstra算法2、最佳路径优先搜索算法（BFS）3、A*搜索算法双向A*搜索算法重复A*搜索算法AnytimeRepairingA*(ARA*)搜索算法实时学习A*搜索（LRTA*）算法实时适应性A*搜索（RT
python为指定目录下的文件名批量加前缀 jghhh01 python java 前端
功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为“目录名_原文件名”。代码importargparseimportosimportsysimportloggingdefgen_args():"""说明-----解析命令行参数"""parser=argparse.ArgumentParser(prog="批量文件重命名工具",description="批量重命名目录中的文件名,新文件名
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
ROS常用的路径规划算法介绍 Xian-HHappy 机器人-Robot 算法机器人路径规划 ROS
在ROS中，常用的路径规划算法主要有以下几种：全局路径规划算法A*算法：在Dijkstra算法基础上加入启发式函数，如曼哈顿距离或欧氏距离，优先探索靠近目标的节点，效率更高。需使用可容许的启发式函数以保证最优性，其通过配置启发式权重可平衡最优性与速度。在ROS中，nav2_planner中的SmacPlanner支持2D/3D的A*算法。Dijkstra算法：代价地图中的基础路径搜索方法，采用广度
Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
遥感影像数据处理-大图滑窗切分为小图 GIS潮流遥感语义分割
功能需求据所周知，遥感影像的尺寸有大有小，大的达到几万x几万像素，而图像分割算法模型在训练中尺寸适中，比如256x256，512x512，1024x1024等等，如果直接将遥感影像的原图输入模型中进行训练，大概率会提示内存和显存不足，因此针对遥感影像的模型训练，一般都需要将影像裁剪为小图。裁剪后的效果图如下：解决思路基于上面的需求，写了一套裁剪算法流程。主要考虑的是在裁剪过程中，从左往右、从上到下
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
数据结构学习——KMP算法 uwvwko 算法数据结构学习 c++kmp
//KMP算法#include#include#include#includeusingnamespacestd;//next数组值的推导voidgetNext(string&str,vector&next){intstrlong=str.size();//next数组的0位为0next[0]=0;//i为当前字符的位置，从1位（第2个开始）inti=1;//length为当前字符之前的最长匹配子
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
python递归实现乘法_算法-递归 weixin_39817012 python递归实现乘法
我们在前面学习过递归函数，递归函数采用的就是递归算法，前面我们通过最常见的菲波那切数列去学习了递归函数，这一节我们再来详细了解一下递归算法。1.递归算法递归算法(英语：recursionalgorithm)在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。递归式方法可以被用于解决很多的计算机科学问题，因此它是计算机科学中十分重要的一个概念，递归算法有三个特点：1)递归的过程一
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
算法-基础算法-枚举算法（Python）总裁余(余登武) 算法与数据结构算法 leetcode
文章目录前言解题思路题目1两数之和2计数质数前言枚举算法（EnumerationAlgorithm）：也称为穷举算法，指的是按照问题本身的性质，一一列举出该问题所有可能的解，并在逐一列举的过程中，将它们逐一与目标状态进行比较以得出满足问题要求的解。在列举的过程中，既不能遗漏也不能重复。枚举算法的核心思想是：通过列举问题的所有状态，将它们逐一与目标状态进行比较，从而得到满足条件的解。由于
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
论软件设计方法及其应用怎么可能-怎么可能系统架构软件设计方法
20250427-作题目软件设计（SoftwareDesign，SD)根据软件需求规格说明书设计软件系统的整体结构、划分功能模块、确定每个模块的实现算法以及程序流程等，形成软件的具体设计方案。软件设计把许多事物和问题按不同的层次和角度进行抽象，将问题或事物进行模块化分解，以便更容易解决问题。分解得越细，模块数量也就越多，设计者需要考虑模块之间的耦合度。请围绕“论软件设计方法及其应用”论题，依次从以
从 O(n³) 到按需计算：Swift 玩转稀疏矩阵乘法网罗开发 Swift swift 矩阵开发语言
文章目录摘要描述解题思路代码实现（Swift）分析这个代码是怎么做的？示例测试与输出结果时间复杂度空间复杂度总结摘要在大多数算法题里，矩阵乘法都不算太陌生了。但一旦题目提示“稀疏矩阵”——也就是大部分值都是0的那种，这就提示我们：有优化空间。这篇文章就用Swift带大家一步步搞懂怎么写一个更高效的稀疏矩阵乘法逻辑，顺便聊聊背后的思路。描述我们手上有两个矩阵，A和B，想把它们乘起来。和普通乘法不同的
使用SQL-Ollama与自然语言交互SQL数据库的指南 antja_ 数据库 sql
#使用SQL-Ollama与自然语言交互SQL数据库的指南##技术背景介绍随着人工智能技术的发展，能够使用自然语言与SQL数据库交互的需求越来越大。这种技术可以帮助用户轻松访问和操作数据库，而无需深刻理解SQL语法。SQL-Ollama是一个专门设计的模板，利用Zephyr-7b模型，通过Ollama在本地运行推理，使这一过程变得简单而高效。##核心原理解析SQL-Ollama通过将自然语言转换为
Python全栈数据工程师养成攻略-全部代码实战详解国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本攻略提供全面资源，帮助初学者系统掌握Python全栈数据工程师的核心技能，包括数据处理、分析、数据库管理及Web开发。攻略详细指导如何使用.gitignore保持项目整洁，通过README.md文档深入了解项目内容，以及如何操作data目录中的数据集和codes目录中的Python代码，实现从数据处理到Web应用构建的全流程。学习内容涵盖数据ETL、Pand
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

【强化学习纲要】3 无模型的价值函数估计和控制