sunwq06

深度强化学习：Policy-Based methods、Actor-Critic以及DDPG

Policy-Based methods

在上篇文章中介绍的Deep Q-Learning算法属于基于价值(Value-Based)的方法，即估计最优的action-value function $q_*(s,a)$，再从$q_*(s,a)$中导出最优的策略$\pi_*$(e.g., $\epsilon$-greedy)。但是有没有方法能不经过中间过程，直接对最优策略进行估计呢？这样做又有什么好处呢？该部分要介绍的就是这类方法，即基于策略(Policy-Based)的方法。下面先介绍一下这类方法的好处：

能够处理连续的动作空间(continuous action space)。在上篇文章中可以看出Value-Based方法适合离散有限的动作空间，但对于连续的动作空间就不能很好地处理。
能够得到最优的随机策略(stochastic policy)。尽管$\epsilon$-greedy等方式为策略选择加入了一定的随机性，但本质上Value-Based方法得到的最优策略是确定的，即对于同一状态$s$，对应同一动作$a$。举两个例子说明随机策略相对于确定策略的优势：

假设训练智能体玩石头、剪刀、布的游戏，最终的最优策略就是一个完全随机的策略，不存在确定的最优策略，因为任何固定的套路都可能会被对手发现并加以利用。
在和环境的交互过程中智能体常常会遇到同一种状态(aliased states)，若对遇到的同一种状态都采用固定的动作有可能得不到最优的结果，特别是当智能体处在一个只能部分感知的环境(partially observable environment)中时。如下图所示，假设智能体的目标是吃到香蕉并且不吃到辣椒，但是它只能感知到与它相邻的格点的状况，在两个灰色的格点时智能体感知到的状况(即state)是相同的。假设智能体学习到的确定策略如箭头所示，则若智能体位置在黄框范围内时会出现来回地震荡，这显然不是最优的情况。

问题定义

假设策略$\pi$满足概率分布$\pi(s, a, {\theta})$，参数$\theta$控制着分布的形态，是需要进行优化的参数。首先定义目标函数$$J(\theta)=E_{\pi}[R(\tau)]\text{, }\tau=S_0,A_0,R_1,S_1,\cdots$$其中$R(\tau)$为score function, 用于评价策略的好坏，根据$R(\tau)$的不同形式可以有不同的目标函数，例如：$$\text{Average Action Value }J_{\bar{q}}(\theta)=E_{\pi}[q(s,a)]=\int_{s} \int_{a} \pi(s, a, {\theta}) q(s, a)dads$$

Policy Gradient

使用梯度上升的方式对参数进行求解: $\theta\leftarrow\theta+\alpha \nabla_{\theta}J(\theta)$，目标函数的梯度$\nabla_{\theta}J(\theta)$可写为如下形式：$$\nabla_{\theta}J(\theta)=\nabla_{\theta}E_{\pi}[R(\tau)]=E_{\pi}[\nabla_{\theta}(\log{\pi(s, a, {\theta})})R(\tau)]$$一种常用的计算方式是采用Monte Carlo方法对梯度进行估计:

下面举一个例子来进行说明，该例使用的是OpenAI的gym环境CartPole-v0，具体代码如下：

import tensorflow as tf
import numpy as np
import gym

### Create ENVIRONMENT
env = gym.make('CartPole-v0')
env = env.unwrapped
env.seed(1) # Policy gradient has high variance, seed for reproducability

### ENVIRONMENT Hyperparameters
state_size = 4
action_size = env.action_space.n

### TRAINING Hyperparameters
max_episodes = 300
learning_rate = 0.01
gamma = 0.95 # Discount rate

### 计算一个episode中每个时间步的Gt并进行归一化处理
def discount_and_normalize_rewards(episode_rewards):
    discounted_episode_rewards = np.zeros_like(episode_rewards)
    cumulative = 0.0
    for i in reversed(range(len(episode_rewards))):
        cumulative = cumulative * gamma + episode_rewards[i]
        discounted_episode_rewards[i] = cumulative
    # normalize
    mean = np.mean(discounted_episode_rewards)
    std = np.std(discounted_episode_rewards)
    discounted_episode_rewards = (discounted_episode_rewards - mean) / std
    return discounted_episode_rewards

### Create Policy Gradient Neural Network model
tf.reset_default_graph()
with tf.name_scope("PolicyNetwork"):
    input_ = tf.placeholder(tf.float32, [None, state_size], name="input_")
    actions = tf.placeholder(tf.int32, [None, action_size], name="actions")
    discounted_episode_rewards_ = tf.placeholder(tf.float32, [None,], name="discounted_episode_rewards")
    # Network Architechture
    fc1 = tf.contrib.layers.fully_connected(inputs = input_, num_outputs = 10, activation_fn=tf.nn.relu, \
                                            weights_initializer=tf.contrib.layers.xavier_initializer())
    fc2 = tf.contrib.layers.fully_connected(inputs = fc1, num_outputs = action_size, activation_fn=tf.nn.relu, \
                                            weights_initializer=tf.contrib.layers.xavier_initializer())
    fc3 = tf.contrib.layers.fully_connected(inputs = fc2, num_outputs = action_size, activation_fn=None, \
                                            weights_initializer=tf.contrib.layers.xavier_initializer())
    action_distribution = tf.nn.softmax(fc3, name='action_distribution')
    # Loss Function
    neg_log_prob = tf.nn.softmax_cross_entropy_with_logits_v2(logits = fc3, labels = actions) # -log(policy distribution)
    loss = tf.reduce_mean(neg_log_prob * discounted_episode_rewards_)
    # Optimizer
    train_opt = tf.train.AdamOptimizer(learning_rate).minimize(loss)
    
### Train the Agent
allRewards = []
total_rewards = 0
maximumRewardRecorded = 0
episode = 0
episode_states, episode_actions, episode_rewards = [],[],[]
saver = tf.train.Saver() #save model
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())  
    for episode in range(max_episodes):        
        episode_rewards_sum = 0
        state = env.reset() # Launch the game
        env.render()
        while True:
            # Choose action a from action distribution
            action_probability_distribution = sess.run(action_distribution, feed_dict={input_: state.reshape([1,4])})
            action = np.random.choice(range(action_probability_distribution.shape[1]), p=action_probability_distribution.ravel())
            # Perform action a
            new_state, reward, done, info = env.step(action)
            # Store s, a, r
            episode_states.append(state)
            action_ = np.zeros(action_size)
            action_[action] = 1 #one-hot encode for action
            episode_actions.append(action_)
            episode_rewards.append(reward)
            if done:
                ### Reward Info
                episode_rewards_sum = np.sum(episode_rewards) # Calculate sum reward for an episode
                allRewards.append(episode_rewards_sum)
                total_rewards = np.sum(allRewards)
                mean_reward = np.divide(total_rewards, episode+1) # Mean reward
                maximumRewardRecorded = np.amax(allRewards)
                print("==========================================")
                print("Episode: ", episode)
                print("Reward: ", episode_rewards_sum)
                print("Mean Reward", mean_reward)
                print("Max reward so far: ", maximumRewardRecorded)
                ### Calculate discounted accumulated reward Gt in each timestep 
                discounted_episode_rewards = discount_and_normalize_rewards(episode_rewards)
                ### Feedforward, gradient and backpropagation
                loss_, _ = sess.run([loss, train_opt], feed_dict={input_: np.vstack(np.array(episode_states)), \
                                                                  actions: np.vstack(np.array(episode_actions)), \
                                                                  discounted_episode_rewards_: discounted_episode_rewards})
                episode_states, episode_actions, episode_rewards = [],[],[] # clean episode info
                break
            state = new_state
        ### Save Model
        if episode % 100 == 0:
            saver.save(sess, "./models/model.ckpt")
            print("Model saved")

### Play the game using the trained agent
with tf.Session() as sess:
    env.reset()
    rewards = []
    saver.restore(sess, "./models/model.ckpt") # Load the model
    for episode in range(100):
        state = env.reset()
        step = 0
        done = False
        total_rewards = 0
        print("****************************************************")
        print("EPISODE ", episode)
        while True:
            ### Choose action a
            action_probability_distribution = sess.run(action_distribution, feed_dict={input_: state.reshape([1,4])})
            action = np.random.choice(range(action_probability_distribution.shape[1]), p=action_probability_distribution.ravel())  
            new_state, reward, done, info = env.step(action)
            total_rewards += reward
            if done:
                rewards.append(total_rewards)
                print ("Score", total_rewards)
                break
            state = new_state
    env.close()
    print ("Score over time: " +  str(sum(rewards)/len(rewards)))

View Code

Constrained Policy Gradient

参数$\theta$的更新可能会导致更新前后策略发生较大变化，使得训练过程不稳定，学习效率降低，因此考虑在目标函数中加入一个惩罚项（类似于机器学习中的正则项），防止策略的剧烈变化。$$J(\theta)=E_{\pi}[R(\tau)]-\beta D\left(\pi(\cdot, \cdot \theta), \pi\left(\cdot,\cdot,\theta^{\prime}\right)\right)$$其中$D$表示更新前后两种策略的变化，常用KL divergence来度量，即$$D\left(\pi(\cdot, \cdot \theta), \pi\left(\cdot,\cdot,\theta^{\prime}\right)\right)=D_{K L}\left(\pi\left(\cdot, \cdot, \theta^{\prime}\right) \| \pi(\cdot, \cdot, \theta)\right)=\int_s\int_a\pi(s, a, \theta^{\prime})\ln\frac{\pi(s, a, \theta^{\prime})}{\pi(s, a, \theta)}dads$$

Actor-Critic

基于策略的方法的难点在于如何评价策略的好坏，方法的主要缺点是收敛速度慢，训练花费时间长，并且容易收敛到局部最优值。例如在上一部分使用Monte Carlo进行计算的过程中由于不能直接计算action value $q(s,a)$，我们使用了$G_t$这个指标（$G_t$、$q(s,a)$等概念的具体说明参考文章强化学习基础：基本概念和动态规划），因此需要等每个episode结束后才能开始更新$\theta$，并且$G_t$也不适用于continuing tasks。Actor-Critic结合了基于价值的方法和基于策略的方法，该方法通过Actor来计算并更新policy $\pi(s,a,\theta)$，通过Critic来计算并更新action value $\hat{q}(s,a,w)$：$$\text{Policy Update: }\Delta \theta=\alpha \nabla_{\theta}\left(\log \pi\left(S_{t}, A_{t}, \theta\right)\right) \hat{q}\left(S_{t}, A_{t}, w\right)$$

$$\text{Value Update: }\Delta {w}=\beta\left(R_{t+1}+\gamma \hat{q}\left(S_{t+1}, A_{t+1}, w\right)-\hat{q}\left(S_{t}, A_{t}, w\right)\right) \nabla_{w} \hat{q}\left(S_{t}, A_{t}, w\right)$$

Advantage Actor-Critic

在上篇文章介绍Deep Q-Learning算法的改进时提到了advantage value function $A(s,a)=Q(s,a)-V(s)$，这里使用该函数代替action value $Q(s,a)$，可以减少直接使用$Q(s,a)$带来的不稳定。$A(s,a)$的意义是用来度量在某个状态$s$下采取动作$a$相比在状态$s$的期望奖励额外多出的部分，若$A(s,a)>0$则参数朝着有利于该动作的方向更新，$A(s,a)<0$则朝着相反的方向更新。$A(s,a)$在实际应用时的公式如下所示：$$A(S_t,A_t)=R_{t+1}+\gamma{V(S_{t+1})}-V(S_t)$$因此Critic只需要更新和计算state value $\hat{v}(s,w)$即可。具体计算公式如下：$$\text{Policy Update: }\Delta \theta=\alpha \nabla_{\theta}\left(\log \pi\left(S_{t}, A_{t}, \theta\right)\right) \left[R_{t+1}+\gamma{\hat{v}(S_{t+1},w)}-\hat{v}(S_t,w)\right]$$

$$\text{Value Update: }\Delta {w}=\beta\left[R_{t+1}+\gamma{\hat{v}(S_{t+1},w)}-\hat{v}(S_t,w)\right] \nabla_{w} \hat{v}\left(S_{t}, w\right)$$使用该算法的一个具体的例子可以参考该文件，文件使用的gym环境为MountainCarContinuous-v0。

DDPG

DDPG(Deep Deterministic Policy Gradients)方法是一种基于Actor-Critic框架的方法，该方法适用于连续的动作空间，得到的策略是一个确定性策略(i.e., $\pi(s)=a$)，但是通过在动作上加入一些噪音产生一定的随机性，有利于对整个动作空间的探索。DDPG具有较高的学习和训练效率，常被用于机械控制等方面。Actor部分用来计算并更新策略$\pi(s,\theta)$，Critic部分用来计算并更新action value $\hat{q}(s,a,w)$，和上一部分中的Critic区别不大，但是使用了Fixed Q-targets这一技术（具体介绍见上篇文章）：$$A_t=\pi(S_t,\theta)+\mathcal{N}_t\text{, }\mathcal{N}\text{ is a random process}$$

$$\Delta {w}=\beta\left(R_{t+1}+\gamma \hat{q}\left(S_{t+1}, \pi(S_{t+1},\theta^{\prime}), w^{\prime}\right)-\hat{q}\left(S_{t}, A_{t}, w\right)\right) \nabla_{w} \hat{q}\left(S_{t}, A_{t}, w\right)$$针对策略梯度的求解，令$J(\theta)=E_{\rho(s)}[\hat{q}(s,a,w)]=E_{\rho(s)}[\hat{q}(s,\pi(s,\theta),w)]$，其中$\rho(s)$为状态$s$的分布。利用链式法则，参数$\theta$的更新规则如下：$$\Delta \theta=\alpha \nabla_{a}\hat{q}(S_t,a,w)|_{a=\pi(S_t,\theta)}\nabla_{\theta}[\pi(S_t,\theta)]$$此外对target networks中的参数$w^{\prime},\theta^{\prime}$，使用soft update的策略，即每次更新$w,\theta$后，有$$w^{\prime}=\tau{w}+(1-\tau)w^{\prime}\text{, }\theta^{\prime}=\tau{\theta}+(1-\tau)\theta^{\prime}$$

代码实现

使用的环境是关于四轴飞行器的控制问题，飞行器共有四个马达来提供推力，它们之间的相互配合使得飞行器可以完成多种飞行动作，飞行器的控制代码如下：

import numpy as np
import csv

def C(x):
    return np.cos(x)

def S(x):
    return np.sin(x)

def earth_to_body_frame(ii, jj, kk):
    # C^b_n
    R = [[C(kk) * C(jj), C(kk) * S(jj) * S(ii) - S(kk) * C(ii), C(kk) * S(jj) * C(ii) + S(kk) * S(ii)],
         [S(kk) * C(jj), S(kk) * S(jj) * S(ii) + C(kk) * C(ii), S(kk) * S(jj) * C(ii) - C(kk) * S(ii)],
         [-S(jj), C(jj) * S(ii), C(jj) * C(ii)]]
    return np.array(R)

def body_to_earth_frame(ii, jj, kk):
    # C^n_b
    return np.transpose(earth_to_body_frame(ii, jj, kk))

class PhysicsSim():
    def __init__(self, init_pose=None, init_velocities=None, init_angle_velocities=None, runtime=5.):
        self.init_pose = init_pose
        self.init_velocities = init_velocities
        self.init_angle_velocities = init_angle_velocities
        self.runtime = runtime

        self.gravity = -9.81  # m/s
        self.rho = 1.2
        self.mass = 0.958  # 300 g
        self.dt = 1 / 50.0  # Timestep
        self.C_d = 0.3
        self.l_to_rotor = 0.4
        self.propeller_size = 0.1
        width, length, height = .51, .51, .235
        self.dims = np.array([width, length, height])  # x, y, z dimensions of quadcopter
        self.areas = np.array([length * height, width * height, width * length])
        I_x = 1 / 12. * self.mass * (height**2 + width**2)
        I_y = 1 / 12. * self.mass * (height**2 + length**2)  # 0.0112 was a measured value
        I_z = 1 / 12. * self.mass * (width**2 + length**2)
        self.moments_of_inertia = np.array([I_x, I_y, I_z])  # moments of inertia

        env_bounds = 300.0  # 300 m / 300 m / 300 m
        self.lower_bounds = np.array([-env_bounds / 2, -env_bounds / 2, 0])
        self.upper_bounds = np.array([env_bounds / 2, env_bounds / 2, env_bounds])

        self.reset()

    def reset(self):
        self.time = 0.0
        self.pose = np.array([0.0, 0.0, 10.0, 0.0, 0.0, 0.0]) if self.init_pose is None else np.copy(self.init_pose)
        self.v = np.array([0.0, 0.0, 0.0]) if self.init_velocities is None else np.copy(self.init_velocities)
        self.angular_v = np.array([0.0, 0.0, 0.0]) if self.init_angle_velocities is None else np.copy(self.init_angle_velocities)
        self.linear_accel = np.array([0.0, 0.0, 0.0])
        self.angular_accels = np.array([0.0, 0.0, 0.0])
        self.prop_wind_speed = np.array([0., 0., 0., 0.])
        self.done = False

    def find_body_velocity(self):
        body_velocity = np.matmul(earth_to_body_frame(*list(self.pose[3:])), self.v)
        return body_velocity

    def get_linear_drag(self):
        linear_drag = 0.5 * self.rho * self.find_body_velocity()**2 * self.areas * self.C_d
        return linear_drag

    def get_linear_forces(self, thrusts):
        # Gravity
        gravity_force = self.mass * self.gravity * np.array([0, 0, 1])
        # Thrust
        thrust_body_force = np.array([0, 0, sum(thrusts)])
        # Drag
        drag_body_force = -self.get_linear_drag()
        body_forces = thrust_body_force + drag_body_force

        linear_forces = np.matmul(body_to_earth_frame(*list(self.pose[3:])), body_forces)
        linear_forces += gravity_force
        return linear_forces

    def get_moments(self, thrusts):
        # (thrusts[2] + thrusts[3] - thrusts[0] - thrusts[1]) * self.T_q])  # Moment from thrust
        thrust_moment = np.array([(thrusts[3] - thrusts[2]) * self.l_to_rotor,(thrusts[1] - thrusts[0]) * self.l_to_rotor, 0]) 
        drag_moment =  self.C_d * 0.5 * self.rho * self.angular_v * np.absolute(self.angular_v) * self.areas * self.dims * self.dims
        moments = thrust_moment - drag_moment # + motor_inertia_moment
        return moments

    def calc_prop_wind_speed(self):
        body_velocity = self.find_body_velocity()
        phi_dot, theta_dot = self.angular_v[0], self.angular_v[1]
        s_0 = np.array([0., 0., theta_dot * self.l_to_rotor])
        s_1 = -s_0
        s_2 = np.array([0., 0., phi_dot * self.l_to_rotor])
        s_3 = -s_2
        speeds = [s_0, s_1, s_2, s_3]
        for num in range(4):
            perpendicular_speed = speeds[num] + body_velocity
            self.prop_wind_speed[num] = perpendicular_speed[2]

    def get_propeler_thrust(self, rotor_speeds):
        ### calculates net thrust (thrust - drag) based on velocity of propeller and incoming power
        thrusts = []
        for prop_number in range(4):
            V = self.prop_wind_speed[prop_number]
            D = self.propeller_size
            n = rotor_speeds[prop_number]
            J = V / n * D
            # From http://m-selig.ae.illinois.edu/pubs/BrandtSelig-2011-AIAA-2011-1255-LRN-Propellers.pdf
            C_T = max(.12 - .07*max(0, J)-.1*max(0, J)**2, 0)
            thrusts.append(C_T * self.rho * n**2 * D**4)
        return thrusts

    def next_timestep(self, rotor_speeds):
        self.calc_prop_wind_speed()
        thrusts = self.get_propeler_thrust(rotor_speeds)
        self.linear_accel = self.get_linear_forces(thrusts) / self.mass

        position = self.pose[:3] + self.v * self.dt + 0.5 * self.linear_accel * self.dt**2
        self.v += self.linear_accel * self.dt

        moments = self.get_moments(thrusts)

        self.angular_accels = moments / self.moments_of_inertia
        angles = self.pose[3:] + self.angular_v * self.dt + 0.5 * self.angular_accels * self.angular_accels * self.dt ** 2
        angles = (angles + 2 * np.pi) % (2 * np.pi)
        self.angular_v = self.angular_v + self.angular_accels * self.dt
        
        new_positions = []
        for ii in range(3):
            if position[ii] <= self.lower_bounds[ii]:
                new_positions.append(self.lower_bounds[ii])
                self.done = True
            elif position[ii] > self.upper_bounds[ii]:
                new_positions.append(self.upper_bounds[ii])
                self.done = True
            else:
                new_positions.append(position[ii])
        self.pose = np.array(new_positions + list(angles))
        
        self.time += self.dt
        if self.time > self.runtime:
            self.done = True
        return self.done

View Code

接下来选取起飞动作做为需要训练飞行器完成的任务。飞行器的动作由四个发动机施加的推力$(v_1,v_2,v_3,v_4)$构成，为了保证飞行动作的连续性，将同一个动作重复三个时间步，飞行器的状态由这三步的空间坐标以及飞行角度构成：$(x_i,y_i,z_i,\phi_i,\theta_i,\psi_i),\text{ }i=1,2,3$，具体代码和奖励函数如下：

class Task():
    ### Task (environment) that defines the goal and provides feedback to the agent
    def __init__(self, init_pose=None, init_velocities=None, init_angle_velocities=None, runtime=5., target_pos=None):
        """Initialize a Task object.
        Params
        ======
            init_pose: initial position of the quadcopter in (x,y,z) dimensions and the Euler angles
            init_velocities: initial velocity of the quadcopter in (x,y,z) dimensions
            init_angle_velocities: initial radians/second for each of the three Euler angles
            runtime: time limit for each episode
            target_pos: target/goal (x,y,z) position for the agent
        """
        # Simulation
        self.sim = PhysicsSim(init_pose, init_velocities, init_angle_velocities, runtime) 
        self.action_repeat = 3 # repeat the same action for 3 timesteps 
        self.state_size = self.action_repeat * 6
        self.action_low = 0
        self.action_high = 900
        self.action_size = 4
        # Goal
        self.target_pos = target_pos if target_pos is not None else np.array([0., 0., 10.]) 

    def get_reward(self, done):
        ### Uses current pose of sim to return reward
        done_final = done
        #reward = zero for matching target z, <0 as you go farther, upto -20
        reward = -min(abs(self.target_pos[2] - self.sim.pose[2]), 20.0) 
        if done_final: 
            reward -= 10.0
        elif self.sim.pose[2] >= self.target_pos[2]: # agent has crossed the target height
            reward += 10.0  # bonus reward
            done_final = True
        return reward, done_final

    def step(self, actions):
        ### Uses action to obtain next state, reward, done
        reward = 0
        pose_all = []
        rotor_speeds = [a*(self.action_high-self.action_low)+self.action_low for a in actions]
        for _ in range(self.action_repeat):
            done = self.sim.next_timestep(rotor_speeds) # update the sim pose and velocities
            r,done_final = self.get_reward(done)
            reward += r
            pose_all = pose_all + list(self.sim.pose)
        next_state = np.array(pose_all) 
        return next_state, reward, done_final

    def reset(self):
        ### Reset the sim to start a new episode
        self.sim.reset()
        pose_all = list(self.sim.pose) * self.action_repeat 
        state = np.array(pose_all)
        return state

View Code

对于随机过程$\mathcal{N}$，采用Ornstein-Uhlenbeck过程，此外在训练过程中还使用了上篇文章中介绍的Experience Replay，具体代码如下：

class OUNoise:
    ### Ornstein-Uhlenbeck process
    def __init__(self, size, mu, theta, sigma):
        """Initialize parameters and noise process."""
        self.mu = mu * np.ones(size)
        self.theta = theta
        self.sigma = sigma
        self.reset()

    def reset(self):
        """Reset the internal state (= noise) to mean (mu)."""
        self.state = copy.copy(self.mu)

    def sample(self):
        """Update internal state and return it as a noise sample."""
        x = self.state
        dx = self.theta * (self.mu - x) + self.sigma * np.random.randn(len(x))
        self.state = x + dx
        return self.state


class ReplayBuffer:
    ### Fixed-size buffer to store experience tuples
    def __init__(self, buffer_size, batch_size):
        """Initialize a ReplayBuffer object.
        Params
        ======
            buffer_size: maximum size of buffer
            batch_size: size of each training batch
        """
        self.memory = deque(maxlen=buffer_size)  # internal memory (deque)
        self.batch_size = batch_size
        self.experience = namedtuple("Experience", field_names=["state", "action", "reward", "next_state", "done"])

    def add(self, state, action, reward, next_state, done):
        ### Add a new experience to memory
        e = self.experience(state, action, reward, next_state, done)
        self.memory.append(e)

    def sample(self, batch_size=64):
        ### Randomly sample a batch of experiences from memory
        return random.sample(self.memory, k=self.batch_size)

    def __len__(self):
        ### Return the current size of internal memory
        return len(self.memory)

View Code

接下来对Actor、Critic以及DDPG建立模型：

Actor

import copy
import random
from collections import namedtuple, deque
from keras import layers, models, optimizers, initializers, regularizers
from keras import backend as K

class Actor:
    ### Actor (Policy) Model
    def __init__(self, state_size, action_size):
        """Initialize parameters and build model.
        Params
        ======
            state_size (int): Dimension of each state
            action_size (int): Dimension of each action
        """
        self.state_size = state_size
        self.action_size = action_size
        self.build_model() # Initialize any other variables here

    def build_model(self):
        ### Build an actor (policy) network that maps states -> actions
        states = layers.Input(shape=(self.state_size,), name='states') # Define input layer (states)
        # Add hidden layers
        net = layers.Dense(units=400, activation='relu')(states)
        net = layers.Dense(units=300, activation='relu')(net)
        # Add final output layer with sigmoid activation
        actions = layers.Dense(units=self.action_size, activation='sigmoid', bias_initializer='zeros', name='actions', \
                        kernel_initializer=initializers.RandomUniform(minval=-0.0001, maxval=0.0001))(net)
        # Create Keras model
        self.model = models.Model(inputs=states, outputs=actions)
        # Define loss function using action value (Q value) gradients
        action_gradients = layers.Input(shape=(self.action_size,))
        loss = K.mean(-action_gradients * actions)
        # Define optimizer and training function
        optimizer = optimizers.Adam(lr=0.0001)
        updates_op = optimizer.get_updates(params=self.model.trainable_weights, loss=loss)
        self.train_fn = K.function(inputs=[self.model.input, action_gradients, K.learning_phase()], \
                          outputs=[], updates=updates_op)

View Code

Critic

class Critic:
    ### Critic (Value) Model
    def __init__(self, state_size, action_size):
        """Initialize parameters and build model.
        Params
        ======
            state_size (int): Dimension of each state
            action_size (int): Dimension of each action
        """
        self.state_size = state_size
        self.action_size = action_size
        self.build_model() # Initialize any other variables here

    def build_model(self):
        ### Build a critic (value) network that maps (state, action) pairs -> Q-values
        states = layers.Input(shape=(self.state_size,), name='states') # Define input layers
        actions = layers.Input(shape=(self.action_size,), name='actions')
        # Add hidden layer(s) for state pathway
        net_states = layers.Dense(units=400, activation='relu')(states)                          
        net_states = layers.Dense(units=300)(net_states)
        # Add hidden layer(s) for action pathway
        net_actions = layers.Dense(units=300)(actions)
        # Combine state and action pathways
        net = layers.Add()([net_states, net_actions])
        net = layers.Activation('relu')(net)
        # Add final output layer to prduce action values (Q values)
        Q_values = layers.Dense(units=1, name='q_values')(net)
        # Create Keras model
        self.model = models.Model(inputs=[states, actions], outputs=Q_values)
        # Define optimizer and compile model for training with built-in loss function
        optimizer = optimizers.Adam(lr=0.01)
        self.model.compile(optimizer=optimizer, loss='mse')
        # Compute action gradients (derivative of Q values w.r.t. to actions)
        action_gradients = K.gradients(Q_values, actions) # one element list:[tensor shape=(batch_size,4)]
        # Define an additional function to fetch action gradients (to be used by actor model)
        self.get_action_gradients = K.function(inputs=[*self.model.input, K.learning_phase()], \
                                  outputs=action_gradients)

View Code

DDPG

class DDPG():
    ### Reinforcement Learning agent that learns using DDPG
    def __init__(self, task):
        self.task = task
        self.state_size = task.state_size
        self.action_size = task.action_size
        # Actor (Policy) Model
        self.actor_local = Actor(self.state_size, self.action_size)
        self.actor_target = Actor(self.state_size, self.action_size)
        # Critic (Value) Model
        self.critic_local = Critic(self.state_size, self.action_size)
        self.critic_target = Critic(self.state_size, self.action_size)
        # Initialize target model parameters with local model parameters
        self.critic_target.model.set_weights(self.critic_local.model.get_weights())
        self.actor_target.model.set_weights(self.actor_local.model.get_weights())
        # Noise process
        self.exploration_mu = 0
        self.exploration_theta = 1.0
        self.exploration_sigma = 0.01 
        self.noise = OUNoise(self.action_size, self.exploration_mu, self.exploration_theta, self.exploration_sigma)
        # Replay memory
        self.buffer_size = 1000000
        self.batch_size = 64
        self.memory = ReplayBuffer(self.buffer_size, self.batch_size)
        # Algorithm parameters
        self.gamma = 0.99  # discount factor
        self.tau = 0.0002  # for soft update of target parameters

    def reset_episode(self):
        self.noise.reset()
        state = self.task.reset()
        self.last_state = state
        return state

    def step(self, action, reward, next_state, done):
        # Save experience
        self.memory.add(self.last_state, action, reward, next_state, done)
        # Learn, if enough samples are available in memory
        if len(self.memory) > self.batch_size:
            experiences = self.memory.sample()
            self.learn(experiences)
        # Roll over last state
        self.last_state = next_state

    def act(self, state, mode='train'):
        ### Returns actions for a given state as per current policy
        state = np.reshape(state, [-1, self.state_size]) #(1,state_size)
        action = self.actor_local.model.predict(state)[0]
        # add some noise for exploration
        return list(np.clip(action+self.noise.sample(), 0.01, 1)) if mode=='train' else list(np.clip(action, 0.01, 1))
    
    def learn(self, experiences):
        ### Update policy and value parameters using given batch of experience tuples
        # Convert experience tuples to separate arrays for each element (states, actions, rewards, etc.)
        states = np.vstack([e.state for e in experiences if e is not None])
        actions = np.array([e.action for e in experiences if e is not None]).astype(np.float32).reshape(-1, self.action_size)
        rewards = np.array([e.reward for e in experiences if e is not None]).astype(np.float32).reshape(-1, 1)
        dones = np.array([e.done for e in experiences if e is not None]).astype(np.uint8).reshape(-1, 1)
        next_states = np.vstack([e.next_state for e in experiences if e is not None])
        # Get predicted next-state actions and Q values from target models
        # Q_targets_next = critic_target(next_state, actor_target(next_state))
        actions_next = self.actor_target.model.predict_on_batch(next_states)
        Q_targets_next = self.critic_target.model.predict_on_batch([next_states, actions_next])
        # Compute Q targets for current states and train critic model (local)
        Q_targets = rewards + self.gamma * Q_targets_next * (1 - dones) #set Q_targets_next=0 if done
        self.critic_local.model.train_on_batch(x=[states, actions], y=Q_targets) #在一个 batch 的数据上进行一次参数更新
        # Train actor model (local)
        action_gradients = np.reshape(self.critic_local.get_action_gradients([states, actions, 0]), (-1, self.action_size))
        self.actor_local.train_fn([states, action_gradients, 1]) # custom training function
        # Soft-update target models
        self.soft_update(self.critic_local.model, self.critic_target.model)
        self.soft_update(self.actor_local.model, self.actor_target.model)   

    def soft_update(self, local_model, target_model):
        ### Soft update model parameters
        local_weights = np.array(local_model.get_weights())
        target_weights = np.array(target_model.get_weights())
        assert len(local_weights) == len(target_weights), "Local and target model parameters must have the same size"
        new_weights = self.tau * local_weights + (1 - self.tau) * target_weights
        target_model.set_weights(new_weights)

View Code

智能体的训练和测试过程如下所示：

import sys
import Task
import DDPG
from collections import defaultdict
import pandas as pd
import matplotlib.pyplot as plt

### Initialize the agent
init_pose = np.zeros(6)
target_pos = np.array([0., 0., 10.])
task = Task(init_pose=init_pose, target_pos=target_pos)
agent = DDPG(task) 
### Train
num_episodes = 800
rewards = defaultdict(list)
positions = defaultdict(list)
actions = defaultdict(list)
for i_episode in range(1, num_episodes+1):
    state = agent.reset_episode() # start a new episode
    positions[i_episode].append(state)
    while True:
        action = agent.act(state) 
        next_state, reward, done = task.step(action)
        agent.step(action, reward, next_state, done)
        state = next_state #roll state
        actions[i_episode].append(action)
        rewards[i_episode].append(reward)
        positions[i_episode].append(next_state)
        if done:
            print("\rEpisode = {:4d}, Final Reward = {:7.3f}, Final Position = {}" \
                  .format(i_episode, rewards[i_episode][-1], positions[i_episode][-1][-6:-3]), end="")
            break
    sys.stdout.flush()

### Plot the final reward of each episode 
def plot_rewards(rewards, rolling_window=20):
    # Plot rewards and optional rolling mean using specified window
    plt.plot(rewards)
    plt.title("Final Rewards");
    rolling_mean = pd.Series(rewards).rolling(rolling_window).mean()
    plt.plot(rolling_mean)
rewards_p = np.array([rewards[i][-1] for i in range(1, num_episodes+1)])
plot_rewards(rewards_p) #左图

### Simulate using the deterministic policy
positions_sim = []
rewards_sim = []
actions_sim = []
state = agent.reset_episode() # start a new episode
positions_sim.append(state)
while True:
    action = agent.act(state, mode='test') 
    next_state, reward, done = task.step(action)
    state = next_state #roll state
    actions_sim.append(action)
    rewards_sim.append(reward)
    positions_sim.append(next_state)
    if done: break

### Plot the position curve .
from mpl_toolkits.mplot3d import Axes3D
def plot_positions(xs,ys,zs):
    fig = plt.figure()
    ax = fig.gca(projection='3d')
    ax.set_title("Position Curve")
    ax.set_xlabel("x"); ax.set_xlim(-6,6)
    ax.set_ylabel("y"); ax.set_ylim(-6,6)
    ax.set_zlabel("z"); ax.set_zlim(0,12)
    ax.plot(xs, ys, zs, c='r')
positions_p = np.array(positions_sim)
plot_positions(positions_p[:,-6], positions_p[:,-5], positions_p[:,-4]) #右图
final_p = [round(p,3) for p in positions_p[-1,-6:-3]] 
print("The Final Reward = {:7.3f}".format(rewards_sim[-1])) #8.794
print('The Final Position is {}'.format(final_p)) #[-0.001, 0.0, 10.126]

View Code

你可能感兴趣的:(深度强化学习：Policy-Based methods、Actor-Critic以及DDPG)

大学毕业生们需了解的我国近期就业市场现状劲能就业说
近日，国家统计局公布，2019年前三季度我国城镇新增就业1097万人，基本完成全年就业目标。第三季度就业市场求人倍率为1.24，岗位供应总量充足。漂亮的数据背后，自然离不开政府将稳就业放在各项工作首位的高度重视，以及全国数千场大型招聘会的作用；也离不开随着我国产业结构调整，吸纳就业能力不断增强的综合国力支撑。不过，我国当前的就业市场仍存在着比较严重的供求匹配度失衡问题，就业市场的主要矛盾已经从总量
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
性能优化实践：Modbus 在高并发场景下的吞吐量提升（一）
一、引言**在工业自动化领域，Modbus协议凭借其简单易用、开放性高以及广泛的设备支持等特点，成为了设备间通信的重要标准之一。自1979年由Modicon公司（现为施耐德电气）首次开发以来，Modbus协议历经多年发展，已广泛应用于各类工业场景，从工厂自动化生产线到智能建筑控制系统，从能源管理系统到远程监控平台，Modbus协议无处不在，连接着各种不同类型的设备，实现数据的交换与控制指令的传递。
手机兼职价格（手机兼职赚零花钱）趣闲赚手机做任务赚佣金
随着社会的发展，人们对于时间管理的需求越来越高。有很多人希望在无需离开家门的情况下，能够赚取一些零花钱或稳定的额外收入。近年来，随着智能手机的广泛普及，手机兼职成为了越来越多人的选择。本文将从手机兼职的价值、价格、方式、风险以及相关注意事项等几个要素入手，详细解析手机兼职的特点和运作方式，并且为读者提供全面的信息和实践建议。趣闲赚上面的任务单价也就是几块钱到几十元一单，做的多挣的多。【趣闲赚】拿着
react native(ios)使用react-native-image-crop-picker 孟宪磊mxl react native ios react.js
该库实现了本地相册和照相机来采集图片，并且提供多选、图片裁剪等。1.安装：npminstallreact-native-image-crop-picker2.podinstall3.配置Xcode,打开项目名.xcworkspace:在Xcode中打开Info.plist，并添加带有值的字符串NSPhotoLibraryUsageDescription，描述为什么需要访问用户照片以及NSCamer
微信131~140
1.在组件中使用store对象的数据//要想使用store中的数据以及方法//需要从mobx-miniprogram-bindings方法将ComponentWithStore方法import{ComponentWithStore}from'mobx-miniprogram-bindings'//导入store对象import{numStore}from'../../../stores/numst
react native 之自定义顶部导航栏，实现标题居中可控铁柱同学 React Native react native基础讲解 react-native 导航栏标题居中
本来一直用的都是RN自带的组件react-navigation，但是后面需求有变，需要顶部导航栏目的标题可以自己控制，同一页面的标题根据数据库查出来的内容变化。因此自定义了一个导航栏目，实现需求。关于RN自带的顶部导航栏以及底部导航栏目，请看我的另一篇博客，地址：http://blog.csdn.net/ljfphp/article/details/77940284一、背景1、根据需求，要求点击列
RAID的介绍和实战操作
一RAID的介绍RAID（RedundantAarryofIndependentDisks）：廉价磁盘冗余阵列是一种通过将多个物理磁盘组合成一个逻辑单元来提高数据存储性能、可靠性或两者兼顾的技术。作用：提高性能：通过并行读写（数据分块）加速数据访问。增强容错能力：通过冗余数据（如镜像或校验）防止磁盘故障导致的数据丢失。扩展存储容量：将多个磁盘合并为更大逻辑单元。（简单说就是提高容错以及读写速率）类
优先队列的实现久念祈数据结构
目录引言堆的基本概念与特性堆的插入与向上调整堆的删除与向下调整优先队列的设计思路模板参数设计比较器的作用核心接口实现pushpoptop附录(完整代码)引言优先队列（PriorityQueue）是一种特殊的队列数据结构，其中每个元素都有一个优先级。与普通队列不同，优先队列中的元素不是按照先进先出的原则出队，而是按照优先级的高低出队。本文将详细介绍优先队列的实现，包括其底层数据结构——堆的原理，以及
阅读‖《大概念教学》刘徽（第一章）楠木终有香
（引言）图解大概念和它的概念小伙伴这个部分作者列举了当下教育改革中出现的许多新的概念，讲解了这些概念为什么出现以及它们之间的关键。首先要明白，在社会的发展下，教育的生活价值显得尤为迫切，学生在校所学对学生的未来有多大的价值和意义。因此，学校教育就不能只是教教材，而要用教材教。作者解释:教教材是指只教书上的专家结论，而用教材教指的是通过专家结论来建立学生的专家思维，就是俗称的“像科学家一样思考，像文
2023-02-03 每天微笑愉婉柔
20230203《会痛的不是爱》69笔记每场权力斗争都提醒了我曾经受伤的地方笔记：1有斗争，有挣扎，想防卫，这很正常。会受伤，难受，痛苦，这也很正常。无需去否认，抵触，想要尽快摆脱逃离这些。只需要去承认，去接受，去经历体验这些，并从这些里探索，哪些是过往的自己，以及现在的自己又可以如何。2权力斗争意味着我们活在经验中、恐惧中、防卫中；成长和疗愈带领我们活在体验中、对恐惧的直面中、对当下和关系伙伴的
3.5增值税｜纳税人划分标准一缕雨露
一般规定:年应征增值税销售额500万元及以下为小规模纳税人，其余则为增值税一般纳税人。特殊规定:1、超过标准的其他个人按小规模纳税人纳税；2、超过标准但不经常发生应税行为的单位和个体工商户，以及非企业性单位、不经常发生应税行为的企业，可以选择按照小规模纳税人纳税。这条规定里面，不经常发生应税行为的单位指哪些单位呢？感觉这个分类有重合的纳税人，按说法律应该是很严密的，肯定不会出现这么低级的错误。即使
C++中vector和list的优缺点对比以及deque WangJiaLeLeLeLe c++开发语言数据结构
两者基本上优缺点互补vector：优点：1、尾插尾删效率不错，支持高效下标随机访问2、物理空间连续，所以告诉缓存利用效率高缺点：1、空间需要扩容，扩容有代价2、头部和中间插入删除效率低list优点：1、按需申请释放空间，不需要扩容2、任意位置插入删除缺点：1、不支持下标的随机访问vector和list的缝合怪——deque开辟若干个数组（buff），还有一个中控数（是一个指针数组ptr），会试图把
《金字塔原理》读后感 shuaigefeng
这本书对于那些考虑问题经常一团乱，做事情想到哪做到哪儿经常出现返工的人来说非常值得一看，这本书分别从表达、思考、解决问题以及演示四个方面帮读者建立逻辑思维，本书里面提到的逻辑性的做法乍一看觉得很简单，好像自己平时做事就是按照这个方式来的，但是实际上在一个陌生的行业或者处理一个不熟悉的事情，思考以及处事的方式经常会按照自己一种想当然的方式就开始，这个时候就经常会出现很多时候感觉大脑是糊的，事情也要一
如果目前什么都不能做，就暂且先把自己交给生活七汐子
在生活中，我们都想成为主宰者，让生活按照自己的想法进行，于是，我们定下很多目标，计划，实施步骤以及做好完成记录，可是，在很多时候，我们在和生活较真时，往往是惨不忍睹，要么输得很惨，要么赢得很惨，前者是没有坚持计划，半途而废既浪费时间也浪费了精力；后者是完成了计划，却也在坚持中体无完肤。虽然骨子里的我们并不喜欢过着一种忙忙碌碌的生活，不喜欢成为一个碌碌无为的人，不喜欢半途而废，不喜欢被理想的自己抛弃
C++博弈论善良的小乔博弈 c++算法开发语言
C++中的博弈算法主要用于解决两人对弈或多方博弈中的策略问题，常用于解决在棋类、卡牌、游戏等情景下的最优策略。这类算法通常基于数学博弈论，重点在于模拟玩家的策略选择并寻找最优解。下面将逐步介绍博弈算法的基本思想、常用算法以及具体实现思路。一、博弈算法的基本思想博弈算法的核心在于状态空间搜索，通过模拟玩家的所有可能动作，推导出局面评价和策略选择，常见特性包括：零和博弈：一个玩家的得分增加意味着另一个
基于R语言的极值统计学及其在相关领域中的实践技术应用科研的力量语言类课程极值统计学
受到气候变化、温室效应以及人类活动等因素的影响，自然界中极端高温、极端环境污染、大洪水和大暴雨等现象的发生日益频繁；在人类社会中，股市崩溃、金融危机等极端情况也时有发生；今年的新冠疫情就是非常典型的极端现象。研究此类极端现象需要新的统计学方法，该类统计学的理论和方法都与传统的基于高斯分布的统计学模型有极大的不同。极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的
约练收获（517～518）胡晓会
胡晓会中原焦点，高级七期讲师八期中级九期、心理咨询师婚姻家庭咨询师2021.11.13坚持分享第1346天第517场自3.26以来做咨询师88次，目标100次六年级学生实地心理疏导。建立关系很重要。尊重学生的各种感受以及他的有所保留不断确认知觉该阳谋时就阳谋眼里有来访者不要期待做一次就能有很多的改变，或者希望让学生明白的道理无论何时，来访者的感受想法在乎看重想要的以及做的努力都是很重要的。第518
宝妈兼职群哪些兼职适合在家工作(宝妈们的优选兼职) 幸运副业
宝妈兼职群哪些兼职适合在家工作(宝妈们的优选兼职)越来越多的宝妈们选择在家工作，以更好地照顾家庭和孩子。而宝妈兼职群成为她们分享工作机会、经验的重要平台。在这篇文章中，我们将探讨哪些兼职适合在家工作，以及为宝妈们提供的优选兼职机会。推荐一篇找兼职必看的免费教程：《手机兼职，300-500/天，一单一结，大量要人》在这里可以找到各种打字聊天员兼职，视频编辑兼职，小说抄写兼职等适合大家的岗位。1.在家
原生前端JavaScript/CSS与现代框架(Vue、React)的联系、区别与运行环境(精简版)
原生前端JavaScript/CSS与现代框架(Vue、React)的联系、区别与运行环境随着Web技术的不断发展，前端开发已经从最初的原生JavaScript和CSS时代，逐步演进到以Vue、React等为代表的现代前端框架时代。对于许多刚入门或正在转型的前端开发者来说，理解原生技术和现代框架之间的联系、区别，以及各自的运行环境和条件，有助于更好地把握前端技术栈的演变趋势和实际应用场景。一、原生
枫桥夜泊游海盗杰克
踏上枫桥那些历经沧桑的石阶，原本粗粝的石条与其说是被无数的脚底板，不如承认是历经岁月的磨砺已是滑溜似镜，就像现代的光盘承载着无数的故事记录着多彩的人生，只是芸芸众生早已失去了依靠触摸与凝视与之神交互通的能力。桥堍下的铁岭关仍然据守着古道咽喉，只是古运河早已被江心洲和连廊以及更多的通往城区的拱桥打通，更别说身后的一众高楼大厦了，再也找不到一夫当关万夫莫开的雄风，城头的旌旗更像是古戏台的幡帘，平添了许
深入理解空对象模式：优雅处理缺失对象的艺术 vvilkin的学习备忘设计模式 java jvm javascript
在软件开发中，我们经常需要处理对象可能不存在的情况。传统的方法是使用null引用，但这会导致代码中充斥着大量的null检查，不仅降低了代码的可读性，还容易引发空指针异常。空对象模式（NullObjectPattern）正是为了解决这一问题而诞生的设计模式。本文将深入探讨空对象模式的概念、实现方式、优缺点以及实际应用场景。一、空对象模式概述1.1什么是空对象模式空对象模式是一种行为设计模式，它通过提
简简单单的过好每一天峰高_e6e8
在生命的旅途中，活着是一种多么幸福的事情。其实更是一场，自己和自己的较量。那么就让积极去打败消极，让快乐打败忧郁，让勤奋打败懒惰，让坚强打败脆弱。努力去做个心中有爱、目中有人、口中有德、行中有善的人。支撑你变得越来越好的，是你坚强的意志，修养的品行，以及不断的反思和修正。永远不要小看善念的力量，它可能在你不知不觉中，带来巨大的福报。行善，是与人玫瑰、手有余香的欣喜。是春风化雨，细腻中的润物无声。心
说说我为何加入007 心女宝贝
读书的时候我就特别的喜欢语文，对数学是不怎么爱的。记得从开始接触看图写作文的时候我就已经很喜欢摆弄文字了，到后来的写作文我就一直都非常酷爱。虽然写出来的文章没有什么头绪，有点乱，但从内心来讲我觉得真爱用这些文字来表达我对这个世界对某一时刻某一瞬间的某些感想！从小就有一个梦想，能出版属于自己的一本书，而且希望写出来的东西能引起一些有着共同点读者的一些共鸣认知以及认可。人在这个世界上似乎都会有一些一直
2021-11-13 芷灵君
打卡时间：11月12日-11月13日打卡内容：1.“两个教学大纲”具体指什么？两个教学大纲指的是:1、必须学会并记住的材料；2、课外阅读以及其他知识来源。2.“两个教学大纲”，是如何发展学生的思维能力的？为了牢固地记住公式、规则、结论和其他的概括，学生应该阅读和思考许多无需记住的材料。阅读应和学习紧密联系。如果阅读加深了对事实、现象和事物的认识，而这些事实、现象和事物是保存在记忆中的概括的基础，那
2023-07-23 弗莱斯曼
凡事预则立，不预则废。记忆力以及理解能力，需要不断的用事情去打磨，越磨越灵光，越刺激越好用。不是在总结，就是在总结的路上。把自己的事情束之高阁的人将终生痛苦。闲言碎语1、上午过去澳新羽毛球馆参加了自己每周都特别期待的活动，这次碰到对的搭档玩的极其酣畅淋漓，基本上整个上午场能妥妥达到50%以上的胜率；简单的小复盘下，针对边线球，自己在处理的时候，除了要把球打到对面足够深的位置，还需要适当的对球做下控
hamburger-react项目安装与使用指南毕腾鉴Goddard
hamburger-react项目安装与使用指南项目简介本指南旨在帮助开发者了解并快速上手hamburger-react项目。该项目托管在GitHub上，可通过此链接访问。它是一个基于React的组件库，专注于实现汉堡菜单效果，为Web应用提供简洁易用的导航解决方案。1.项目目录结构及介绍hamburger-react/│├──public/-包含index.html以及可能的静态资源，如图标或初
关于优点和缺点翩翩心理
每个人都有自己的优点和缺点。坚韧，我们可以把它称为优点，因为我们十分赞赏它所表现出的不屈不挠、不放弃的行为特点。而冲动，我们就会把它当成缺点，因为我们十分讨厌那种被情绪和本能驱使，不动脑筋的鲁莽行为。那什么是固执呢？一意孤行，坚持己见。什么又是果断？胸有成竹，即刻决断。你会发现，坚韧和固执、果断和冲动所表现出来的行为特点是如此相似。其实决定它们成为优点和缺点的是我们正在做的事情正确与否以及我们自己
我不管！我在生气呢！！不二大人_7419
今天和蔡大美以及陈小文一起和下午茶，蔡大美又和男朋友吵架了我问，吵架的原因是什么？蔡大美答：忘了，肯定不是大事儿。但是真的生气啊，你说哪有那么气人的啊，给我气的把家里盘子都摔了，还打他来着，不过他那么壮，一直用胳膊挡着来着，就胳膊上被我挠了两道，也没啥大事儿，但是我真的来气啊，你们是不知道当时给我气什么样儿啊我说，你生气归生气，你摔盘子打人算怎么个事儿呢陈小文说，事情谁对谁错的就坐那儿掰扯呗，聊着
pytest-bdd 行为驱动自动化测试东汉末年出bug pytest python pytest-bdd
引言pytest-bdd是一个专为Python设计的行为驱动开发（BDD）测试框架，它允许开发人员使用自然语言（如Gherkin）来编写测试用例，从而使测试用例更易于理解和维护。安装通过pip安装pipinstallpytest-bdd介绍特性文件（FeatureFile）：定义了要测试的系统功能。通常以.feature为扩展名，并使用Gherkin语言编写。特性文件包含特性名称、描述以及一个或多
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f