aohun0743

基于Keras的OpenAI-gym强化学习的车杆/FlappyBird游戏

强化学习

课程：Q-Learning强化学习(李宏毅)、深度强化学习

强化学习是一种允许你创造能从环境中交互学习的AI Agent的机器学习算法，其通过试错来学习。如上图所示，大脑代表AI Agent并在环境中活动。当每次行动过后，Agent接收到环境反馈。反馈包括回报Reward和环境的下个状态State，回报由模型设计者定义。如果类比人类学习自行车，可以将车从起始点到当前位置的距离定义为回报。

分类：

1）基于价值Value的强化学习算法 - Q-learning

基本思想：根据当前的状态，计算采取每个动作的价值，然后根据价值贪心地选择动作，即预测某个环境下所有Action的期望值(即Q值）

例如：Deep Q Network、Double DQN、Prioritised replay、Dueling Network、NatureDQN

2）基于策略梯度的强化学习算法 - Policy Gradients

基本思想：省略中间步骤，直接根据当前的状态来选择动作，即直接预测在某个环境下应该采取的Action

例如：Policy Network

一般来说，Q-learning方法只适合有少量离散取值的Action环境，而Policy Gradients方法适合有连续取值的Action环境。在与深度学习方法结合后，这两种算法就变成了Policy Network和DQN(Deep Q-learning Network)

对比：

（1）Policy Network可以处理连续的action，而DQN则只能处理离散问题，通过枚举的方式来实现，连续的action只能离散化后再处理。

（2）Policy Network通过输出的action概率值大小随机选择action，而DQN则通过贪婪选择法ε-greedy选择action。

（2）DQN的更新是一个一个的reward进行更新，即当前的reward只跟邻近的一个相关；Policy Network则将一个episode的reward全部保存起来，然后用discount的方式修正reward，标准化后进行更新。

深度强化学习

2013年，在DeepMind发表的论文Playing Atari with Deep Reinforcement Learning中，介绍了一种新算法——深度Q网络(DQN)，展示了AI Agent如何在没有任何先验信息的情况下通过观察屏幕学习玩游戏。从而开启了所谓的“深度强化学习”新时代，其是混合了深度学习与强化学习的新算法。

在Q学习算法中，有一种函数被称为Q函数，它用来估计基于一个状态的回报。同样地，在DQN中，我们使用一个神经网络估计基于状态的回报函数。

使用Keras与Gym环境基于DQN玩CartPole游戏

Github：https://github.com/keon/deep-q-learning

Cart-Pole车杆游戏

CartPole是OpenAI gym中最简单的一个环境，CartPole的目的就是杆子平衡在移动的小车上。游戏规则很简单，游戏里面有一个小车，上有竖着一根杆子。小车需要左右移动来保持杆子竖直。如果杆子倾斜的角度大于15°，那么游戏结束。同时，小车也不能移出一定范围（中间到两边各2.4个单位长度）。其中，除了像素信息，还有四种信息可以用作状态，例如：杆子的角度、车在滑轨的位置。Agent可以通过施加左(0)或右(1)的动作，使小车移动。

Cart-Pole环境包括一个沿水平轴移动的车和一个固定在车上的杆子。在每个时间步，你可以观察它的位置（x），速度（x_dot），角度（theta）和角速度（theta_dot）。这是这个环境的可观察的状态。在任何状态下，车只有两种可能的行动：向左移动或向右移动。换句话说，Cart-Pole的状态空间有四个维度的连续值，行动空间有一个维度的两个离散值。

Gym

Gym 是 OpenAI 发布的用于开发和比较强化学习算法的工具包。使用它我们可以让 AI 智能体做很多事情，比如行走、跑动，以及进行多种游戏。

# 安装Gym
pip install gym

# 基于Gym进行游戏环境交互
next_state, reward, done, info = env.step(action)

其中，action可以选择0或1，输入环境中将会反馈结果。env是游戏环境类。done为标记游戏结束与否的布尔量。当前状态“state”，“action”，“next_state”与“reward”是用于训练Agent的数据。

使用Gym实现Cart-Pole

# -*- coding: utf-8 -*-

import gym
import numpy as np


def try_gym():
    # 使用gym创建一个CartPole环境
    # 这个环境可以接收一个action，返回执行action后的观测值，奖励与游戏是否结束
    env = gym.make('CartPole-v0')
    # 重置游戏环境
    env.reset()

    # 游戏轮数
    random_episodes = 0
    # 每轮游戏的Reward总和
    reward_sum = 0
    count = 0
    while random_episodes < 10:
        # 渲染显示游戏效果
        env.render()
        # 随机生成一个action，即向左移动或者向右移动。
        # 然后接收执行action之后的反馈值
        observation, reward, done, _ = env.step(np.random.randint(0, 2))
        reward_sum += reward
        count += 1
        # 如果游戏结束，打印Reward总和，重置游戏
        if done:
            random_episodes += 1
            print("Reward for this episode was: {}, turns was: {}".format(reward_sum, count))
            reward_sum = 0
            count = 0
            env.reset()


if __name__ == '__main__':
    try_gym()

输出的是每一轮游戏从开始到结束得到的Reward的总和与操作次数

使用Keras实现简单神经网络

训练神经网络，从成对的输入与输出数据学习某种模式并且可以基于不可见的输入数据预测输出。

使用一个包含四种输入信息的输入层和三个隐藏层，以及两个节点的输出层 - 对应游戏中的两个按钮（0与1）

# Neural Net for Deep Q Learning
 
# Sequential() creates the foundation of the layers.
model = Sequential()
 
# Dense is the basic form of a neural network layer
# Input Layer 4 and Hidden Layer with 128 nodes
model.add(Dense(64, input_dim=4, activation='tanh')) 
# Hidden layer with 128 nodes
model.add(Dense(128, activation='tanh'))
# Hidden layer with 128 nodes
model.add(Dense(128, activation='tanh'))
# Output Layer with 2 nodes
model.add(Dense(2, activation='linear'))
 
# Create the model based on the information above
model.compile(loss='mse', optimizer=RMSprop(lr=self.learning_rate))

为了让模型可以基于环境数据理解与预测，需要传入数据。其中，fit()方法为模型提供“states”和“target_f”信息

model.fit(state, target_f, nb_epoch=1, verbose=0)

当模型调用predict()函数时，模型根据学习之前训练过的数据，来预测现在状态的回报函数

prediction = model.predict(state)

实现深度Q算法(DQN)

DQN算法最重要的特征是记忆(remember)与回顾(replay)方法

记忆：需要记录下先前的经验与观察值以便利用这些先前数据训练模型。将调用代表经验的数组数据memory和remember()函数来添加状态、动作、回报、下次状态到memory中

# memory列表
memory = [(state, action, reward, next_State)...]

# 存储
def remember(self, state, action, reward, next_state, done):
    self.memory.append((state, action, reward, next_state, done))

回放：基于存储在memory中的数据(经验)训练神经网络

# 从memory中抽出部分数据，给训练数据bathces
batches = min(batch_size, len(self.memory))
# 打乱memory中的bathces的索引数，例如batchce为[1,5,2,7]- 样本在memory中的索引数为1,5,2,7
batches = np.random.choice(len(self.memory), batches)

# 为了使Agent在长期运行中表现得更好，不仅仅需要考虑即时回报(immediate rewards)，还要考虑未来回报(future rewards)。为了实现这一目标，定义discount rate折扣因子(即gamma)。这样，Agent将学习已有的状态然后想方设法最大化未来回报
for i in batches:
    # Extract informations from i-th index of the memory
    state, action, reward, next_state = self.memory[i]
  
    # if done, make our target reward (-100 penality)
    target = reward
  
    if not done:
      # predict the future discounted reward
      target = reward + self.gamma * np.amax(self.model.predict(next_state)[0])
    
    # make the agent to approximately map
    # the current state to future discounted reward
    # We'll call that target_f
    target_f = self.model.predict(state) target_f[0][action] = target # Train the Neural Net with the state and target_f self.model.fit(state, target_f, nb_epoch=1, verbose=0)

Agent选择行为：Agent在最初一段时间会随机选择行为，由exploration rate或epsilon参数表征。这是因为在最初对Agent最好的策略就是在其掌握模式前尝试一切。当Agent没有随机选择行为，它会基于当前状态预测回报值选择能够实现回报最大化的行为

# np.argmax()函数可以取出act_values[0]中的最大值
def act(self, state):
    if np.random.rand() <= self.epsilon:
        # The agent acts randomly
        return env.action_space.sample()
  
    # Predict the reward value based on the given state
    act_values = self.model.predict(state)
  
    # Pick the action based on the predicted reward
    return np.argmax(act_values[0])
# act_values[0]中的数据类似[0.67, 0.2]，每个数字分别代表0和1的回报，于是argmax()会取出更大数值所代表的的行为。比如在[0.67, 0.2]中，argmax()返回0因为0索引代表的数据的回报最大

超参数 - 强化学习Agent所必需的部分超参数：

·episodes：让Agent玩游戏的次数
·gamma discount rate：折扣因子，以便计算未来的折扣回报
·epsilon exploration rate：表征一个Agent随机选择行为的程度(比率)
·epsilon_decay：上述参数的衰减率，使得随着Agent更擅长游戏的同时减少它探索的次数
·epsilon_min：希望Agent采取的最少的探索次数
·learning_rata：决定神经网络在每次迭代时的学习率(学习程度)

设计深度Q学习Agent - DQNAgent

# Deep-Q learning Agent
class DQNAgent:
    def __init__(self, env):
        self.env = env
        self.memory = []
        self.gamma = 0.9  # decay rate
        self.epsilon = 1  # exploration
        self.epsilon_decay = .995
        self.epsilon_min = 0.1 self.learning_rate = 0.0001 self._build_model() def _build_model(self): model = Sequential() model.add(Dense(128, input_dim=4, activation='tanh')) model.add(Dense(128, activation='tanh')) model.add(Dense(128, activation='tanh')) model.add(Dense(2, activation='linear')) model.compile(loss='mse', optimizer=RMSprop(lr=self.learning_rate)) self.model = model def remember(self, state, action, reward, next_state, done): self.memory.append((state, action, reward, next_state, done)) def act(self, state): if np.random.rand() <= self.epsilon: return env.action_space.sample() act_values = self.model.predict(state) return np.argmax(act_values[0]) # returns action def replay(self, batch_size): batches = min(batch_size, len(self.memory)) batches = np.random.choice(len(self.memory), batches) for i in batches: state, action, reward, next_state, done = self.memory[i] target = reward if not done: target = reward + self.gamma * \ np.amax(self.model.predict(next_state)[0]) target_f = self.model.predict(state) target_f[0][action] = target self.model.fit(state, target_f, nb_epoch=1, verbose=0) if self.epsilon > self.epsilon_min: self.epsilon *= self.epsilon_decay

训练DQNAgent

if __name__ == "__main__":
  
    # 为Agent初始化gym环境参数
    env = gym.make('CartPole-v0')
    agent = DQNAgent(env)
  
    # 游戏的主循环
    for e in range(episodes):
  
        # 在每次游戏开始时复位状态参数
        state = env.reset()
        state = np.reshape(state, [1, 4]) # time_t 代表游戏的每一帧 # 我们的目标是使得杆子尽可能长地保持竖直朝上 # time_t 越大，分数越高 for time_t in range(5000): # turn this on if you want to render # env.render() # 选择行为 action = agent.act(state) # 在环境中施加行为推动游戏进行 next_state, reward, done, _ = env.step(action) next_state = np.reshape(next_state, [1, 4]) # reward缺省为1 # 在每一个Agent完成了目标的帧Agent都会得到回报 # 并且如果失败得到-100 reward = -100 if done else reward # 记忆先前的状态，行为，回报与下一个状态  agent.remember(state, action, reward, next_state, done) # 使下一个状态成为下一帧的新状态 state = copy.deepcopy(next_state) # 如果游戏结束done被置为ture # 除非Agent没有完成目标 if done: # 打印分数并且跳出游戏循环 print("episode: {}/{}, score: {}" .format(e, episodes, time_t)) break # 通过之前的经验训练模型 agent.replay(32)

结果

【探索】

Agent通过随机行为探索游戏环境

【训练】

算法会经过多个阶段训练Agent

1.小车操作Agent试图平衡杆子
2.但是出界，游戏结束
3.当它距离边界太近时它不得不移动小车，于是杆子掉了
4.Agent最后掌握了平衡并学会控制杆子

经过几百个episodes的训练后，它开始学习如何最大化分数

使用Keras与Gym环境基于Nature-DQN玩CartPole游戏

Blog：https://www.jianshu.com/p/e037d42ab6b1

Github：https://github.com/xiaochus/Deep-Reinforcement-Learning-Practice

Nature DQN

DQN使用单个网络来进行选择动作和计算目标Q值；Nature DQN使用了两个网络，一个当前主网络用来选择动作，更新模型参数，另一个目标网络用于计算目标Q值，两个网络的结构是一模一样的。目标网络的网络参数不需要迭代更新，而是每隔一段时间从当前主网络复制过来，即延时更新，这样可以减少目标Q值和当前的Q值相关性。Nature DQN和DQN相比，除了用一个新的相同结构的目标网络来计算目标Q值以外，其余部分基本是完全相同的。

实现流程：
（1）首先构建神经网络，一个主网络，一个目标网络，他们的输入都为obervation，输出为不同action对应的Q值。
（2）在一个episode结束时（游戏胜利或死亡），将env重置，即observation恢复到了初始状态observation，通过贪婪选择法ε-greedy选择action。根据选择的action，获取到新的next_observation、reward和游戏状态。将[observation, action, reward, next_observation, done]放入到经验池中。经验池有一定的容量，会将旧的数据删除。
（3）从经验池中随机选取batch个大小的数据，计算出observation的Q值作为Q_target。对于done为False的数据，使用reward和next_observation计算discount_reward。然后将discount_reward更新到Q_traget中。
（4）每一个action进行一次梯度下降更新，使用MSE作为损失函数。注意与DPG不同，参数更新不是发生在每次游戏结束，而是发生在游戏进行中的每一步。
（5）每个batch我们更新参数epsilon，egreedy的epsilon是不断变小的，也就是随机性不断变小。
（6）每隔固定的步数，从主网络中复制参数到目标网络。

使用keras实现Nature DQN

# -*- coding: utf-8 -*-
import os
import gym
import random
import numpy as np

from collections import deque

from keras.layers import Input, Dense
from keras.models import Model
from keras.optimizers import Adam
import keras.backend as K


class DQN:
    def __init__(self):
        self.model = self.build_model()
        self.target_model = self.build_model()
        self.update_target_model()

        if os.path.exists('./model/ndqn_.h5'):
            self.model.load_weights('./model/ndqn_.h5')

        # 经验池
        self.memory_buffer = deque(maxlen=2000)
        # Q_value的discount rate，以便计算未来reward的折扣回报
        self.gamma = 0.95
        # 贪婪选择法的随机选择行为的程度
        self.epsilon = 1.0
        # 上述参数的衰减率
        self.epsilon_decay = 0.995
        # 最小随机探索的概率
        self.epsilon_min = 0.01

        self.env = gym.make('CartPole-v0')

    def build_model(self):
        """基本网络结构.
        """
        inputs = Input(shape=(4,))
        x = Dense(16, activation='relu')(inputs)
        x = Dense(16, activation='relu')(x)
        x = Dense(2, activation='linear')(x)

        model = Model(inputs=inputs, outputs=x)

        return model

    def update_target_model(self):
        """更新target_model
        """
        self.target_model.set_weights(self.model.get_weights())

    def egreedy_action(self, state):
        """ε-greedy选择action

        Arguments:
            state: 状态

        Returns:
            action: 动作
        """
        if np.random.rand() <= self.epsilon:
            return random.randint(0, 1)
        else:
            q_values = self.model.predict(state)[0]
            return np.argmax(q_values)

    def remember(self, state, action, reward, next_state, done):
        """向经验池添加数据

        Arguments:
            state: 状态
            action: 动作
            reward: 回报
            next_state: 下一个状态
            done: 游戏结束标志
        """
        item = (state, action, reward, next_state, done)
        self.memory_buffer.append(item)

    def update_epsilon(self):
        """更新epsilon
        """
        if self.epsilon >= self.epsilon_min:
            self.epsilon *= self.epsilon_decay

    def process_batch(self, batch):
        """batch数据处理

        Arguments:
            batch: batch size

        Returns:
            X: states
            y: [Q_value1, Q_value2]
        """
        # 从经验池中随机采样一个batch
        data = random.sample(self.memory_buffer, batch)
        # 生成Q_target。
        states = np.array([d[0] for d in data])
        next_states = np.array([d[3] for d in data])

        y = self.model.predict(states)
        q = self.target_model.predict(next_states)

        for i, (_, action, reward, _, done) in enumerate(data):
            target = reward
            if not done:
                target += self.gamma * np.amax(q[i])
            y[i][action] = target

        return states, y

    def train(self, episode, batch):
        """训练
        Arguments:
            episode: 游戏次数
            batch： batch size

        Returns:
            history: 训练记录
        """
        self.model.compile(loss='mse', optimizer=Adam(1e-3))

        history = {'episode': [], 'Episode_reward': [], 'Loss': []}

        count = 0
        for i in range(episode):
            observation = self.env.reset()
            reward_sum = 0
            loss = np.infty
            done = False

            while not done:
                # 通过贪婪选择法ε-greedy选择action。
                x = observation.reshape(-1, 4)
                action = self.egreedy_action(x)
                observation, reward, done, _ = self.env.step(action)
                # 将数据加入到经验池。
                reward_sum += reward
                self.remember(x[0], action, reward, observation, done)

                if len(self.memory_buffer) > batch:
                    # 训练
                    X, y = self.process_batch(batch)
                    loss = self.model.train_on_batch(X, y)

                    count += 1
                    # 减小egreedy的epsilon参数。
                    self.update_epsilon()

                    # 固定次数更新target_model
                    if count != 0 and count % 20 == 0:
                        self.update_target_model()

            if i % 5 == 0:
                history['episode'].append(i)
                history['Episode_reward'].append(reward_sum)
                history['Loss'].append(loss)

                print('Episode: {} | Episode reward: {} | loss: {:.3f} | e:{:.2f}'.format(i, reward_sum, loss,
                                                                                          self.epsilon))

        self.model.save_weights('./model/ndqn_.h5')

        return history

    def play(self):
        """使用训练好的模型测试游戏.
        """
        observation = self.env.reset()

        count = 0
        reward_sum = 0
        random_episodes = 0

        while random_episodes < 10:
            self.env.render()

            x = observation.reshape(-1, 4)
            q_values = self.model.predict(x)[0]
            action = np.argmax(q_values)
            observation, reward, done, _ = self.env.step(action)

            count += 1
            reward_sum += reward

            if done:
                print("Reward for this episode was: {}, turns was: {}".format(reward_sum, count))
                random_episodes += 1
                reward_sum = 0
                count = 0
                observation = self.env.reset()

        self.env.close()


if __name__ == '__main__':
    model = DQN()
    history = model.train(600, 32)
    model.play()

训练结果

随着训练次数的增加，DQN模型在游戏中获得Reward不断的增加，并且Loss不断降低。在batch=32的条件下600次Episode的训练后进行模型测试， DQN也有不错的表现，如果进一步训练应该能达到和Policy Network同样的效果。

相比Policy Network，DQN的训练过程更稳定一些，但是DQN有个问题，就是它并不一定能保证Q网络的收敛。也就是说，我们不一定可以得到收敛后的Q网络参数，这会导致我们训练出的模型效果很差，因此也需要反复尝试选取最好的模型。

测试结果

使用Keras与Gym环境基于Policy Gradient玩CartPole游戏

Github：https://github.com/princewen/tensorflow_practice/tree/master/Basic-Policy-Network

Policy Gradients

基本思想：直接根据状态输出动作或者动作的概率

实现：神经网络 - 输入当前的状态，输出当前状态下采取每个动作的概率

算法输出的是动作的概率，而不是Q值
损失函数的形式为：loss= -log(prob)*v_t
需要一次完整的episode才可以进行参数的更新

算法&训练：

网络应该如何训练来实现最终的收敛呢？
一般在训练神经网络时，使用最多的方法就是反向传播算法，其需要一个误差函数，通过梯度下降来使损失最小。但对于强化学习来说，由于不知道动作的正确与否，只能通过奖励值来判断这个动作的相对好坏。
基于上面的想法，有个非常简单的想法：如果一个动作得到的reward多，那么就使其出现的概率增加，如果一个动作得到的reward少，就使其出现的概率减小。
根据这个思想，构造如下的损失函数：loss= -log(prob)*v_{t（Why we consider log likelihood instead of Likelihood in Gaussian Distribution）}

log(prob)：代表在状态 s 对所选动作 a 的吃惊度, 如果概率越小, 反向的log(prob) 反而越大
v_t：代表的是当前状态s下采取动作a所能得到的奖励，这是当前的奖励和未来奖励的贴现值的求和。也就是说，该策略梯度算法必须要完成一个完整的eposide才可以进行参数更新，与‘基于价值Value的强化学习方法可以基于每一个(s,a,r,s')进行参数更新’不同
如果在prob很小的情况下, 得到了一个大的Reward, 也就是大的vt, 那么-log(prob)*vt就更大, 表示更吃惊(即选了一个不常选的动作, 且发现原来它能得到了一个好的reward, 那就得对这次的参数进行一个大幅修改)

Policy Gradient的核心思想是更新参数时有两个考虑：如果这个回合选择某一动作，下一回合选择该动作的概率大一些，然后再看奖惩值，如果奖惩是正的，那么会放大这个动作的概率，如果奖惩是负的，就会减小该动作的概率。

Policy Gradient算法实现

1）定义参数
首先定义一些模型的参数 - self.ep_obs,self.ep_as,self.ep_rs分别存储当前episode的状态、动作和奖励

self.n_actions = n_actions
self.n_features = n_features
self.lr = learning_rate
self.gamma = reward_decay

self.ep_obs,self.ep_as,self.ep_rs = [],[],[]

2）定义模型输入
模型的输入包括三部分，分别是观察值、动作和奖励值

with tf.name_scope('inputs'):
    self.tf_obs = tf.placeholder(tf.float32,[None,self.n_features],name='observation')
    self.tf_acts = tf.placeholder(tf.int32,[None,],name='actions_num')
    self.tf_vt = tf.placeholder(tf.float32,[None,],name='actions_value')

3）构建模型
模型定义了两层的神经网络，网络的输入是每次的观测值，而输出是该状态下采取每个动作的概率，这些概率在最后会经过一个softmax处理

layer = tf.layers.dense(
    inputs = self.tf_obs,
    units = 10,
    activation= tf.nn.tanh,
    kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.3),
    bias_initializer= tf.constant_initializer(0.1),
    name='fc1'
)

all_act = tf.layers.dense(
    inputs = layer,
    units = self.n_actions,
    activation = None,
    kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.3),
    bias_initializer = tf.constant_initializer(0.1),
    name='fc2'
)

self.all_act_prob = tf.nn.softmax(all_act,name='act_prob')

4）模型的损失
模型的损失函数计算公式为：loss= -log(prob)*v_t，可以直接使用tf.nn.sparse_softmax_cross_entropy_with_logits来计算前面一部分，即-log(prob)，不过为了更清楚地显示计算过程，可以使用了如下的方式：

with tf.name_scope('loss'):
    #neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=self.all_act_prob,labels =self.tf_acts)

    neg_log_prob = tf.reduce_sum(-tf.log(self.all_act_prob) * tf.one_hot(indices=self.tf_acts,depth=self.n_actions),axis=1)
    loss = tf.reduce_mean(neg_log_prob * self.tf_vt)

选择AdamOptimizer优化器进行参数的更新

with tf.name_scope('train'):
    self.train_op = tf.train.AdamOptimizer(self.lr).minimize(loss)

5）动作选择
动作的选择不再根据贪心的策略来选择，而是根据输出动作概率的softmax值

def choose_action(self,observation):
    prob_weights = self.sess.run(self.all_act_prob,feed_dict={self.tf_obs:observation[np.newaxis,:]})
    action = np.random.choice(range(prob_weights.shape[1]),p=prob_weights.ravel())
    return action

6）存储经验
其是在一个完整的episode结束后才开始训练的，因此在一个episode结束前，要存储这个episode所有的经验即状态、动作和奖励。

def store_transition(self,s,a,r):
    self.ep_obs.append(s)
    self.ep_as.append(a)
    self.ep_rs.append(r)

7）计算奖励的贴现值
之前存储的奖励是当前状态s采取动作a获得的即时奖励，而当前状态s采取动作a所获得的真实奖励应该是即时奖励加上未来直到episode结束的奖励贴现之和

def _discount_and_norm_rewards(self):
    discounted_ep_rs = np.zeros_like(self.ep_rs)
    running_add = 0
    # reserved 返回的是列表的反序，这样就得到了贴现求和值。
    for t in reversed(range(0,len(self.ep_rs))):
        running_add = running_add * self.gamma + self.ep_rs[t]
        discounted_ep_rs[t] = running_add

    discounted_ep_rs -= np.mean(discounted_ep_rs)
    discounted_ep_rs /= np.std(discounted_ep_rs)
    return discounted_ep_rs

8）模型训练
注意，输入给模型的并不是之前存储的奖励值，而是在经过上一步计算的奖励贴现之和。另外，需要在每一次训练之后清空经验池。

def learn(self):
    discounted_ep_rs_norm = self._discount_and_norm_rewards()

    self.sess.run(self.train_op,feed_dict={
        self.tf_obs:np.vstack(self.ep_obs),
        self.tf_acts:np.array(self.ep_as),
        self.tf_vt:discounted_ep_rs_norm,
    })

    self.ep_obs,self.ep_as,self.ep_rs = [],[],[]
    return discounted_ep_rs_norm

使用Keras与Gym环境基于DQN玩FlappyBird游戏

Github：https://github.com/yanpanlau/Keras-FlappyBird

使用Keras实现CNN

输入：使用了灰度图做输入，并在输入时连续拼接4帧动画 - 以便让CNN可以知道小鸟当前的速度信息

输出：两个神经元，分别表示两个动作(什么都不做 / 跳一下)对应的Q值。在游戏的每一步，选取Q值更高的动作作为Agent实际执行的动作。为了让游戏尽可能得到高分，目标则是让CNN逼近真实的状态-动作值函数

训练DQN

1）探索：首先定义一个列表 - 储存之前经历过的状态转移信息(S_t,A_t)→(S_t+1,R_t)，分别为当前状态、当前执行动作、下一状态、当前动作带来的奖励。

D = deque()

最初一段时间，先让小鸟随机执行动作，并把所有的状态转移信息及奖励存入D

CNN对应状态-行为值函数Q(S_t,A_t)，虽然神经网络输入只有S，但因为输出限定了各个维度代表对应的动作(只有两个动作，即两个维度)，同时输出了Q(S_t, a_{1_t})和Q(S_t, a_{2_t})，因此本质上还是Q(S_t,A_t)。

2）训练：达到指定次数之后，开始一边从D中随机采样训练神经网络（更新CNN参数），一边利用最新的CNN参数输出来指导小鸟行为，并把最新的状态转移信息存入D，这就是记忆回放机制。为了让动作依然具有一定随机性，定义了一个值epsilon来决定动作由网络指导还是随机采样。

if random.random() <= epsilon:
    print("----------Random Action----------")
    action_index = random.randrange(ACTIONS)
    a_t[action_index] = 1
else:
    q = model.predict(s_t)       # input a stack of 4 images, get the prediction
    max_Q = np.argmax(q)
    action_index = max_Q
    a_t[max_Q] = 1

其中之所以使用回放，是因为连续的状态S具有高度的相关性，如果总是使用最新的环境交互数据来训练会导致CNN很不稳定（类似于神经网络训练中的遗忘灾难问题），如果使用回放随机采样，则可以消除该不稳定性，让训练变得平滑。

minibatch = random.sample(D, BATCH)  #1、从历史经验随机采样

inputs = np.zeros((BATCH, s_t.shape[1], s_t.shape[2], s_t.shape[3]))   #32, 80, 80, 4
targets = np.zeros((inputs.shape[0], ACTIONS))                         #32, 2

#Now we do the experience replay
for i in range(0, len(minibatch)):
    state_t = minibatch[i][0]
    action_t = minibatch[i][1]
    reward_t = minibatch[i][2]
    state_t1 = minibatch[i][3]
    terminal = minibatch[i][4]
    # if terminated, only equals reward

    inputs[i:i + 1] = state_t    #I saved down s_t

    targets[i] = model.predict(state_t)  # Hitting each buttom probability #2、预测的Q(S_t,A_t)值
    Q_sa = model.predict(state_t1)#3、预测Q(S_t+1,A_t+1)

    if terminal:
        targets[i, action_t] = reward_t
    else:
        targets[i, action_t] = reward_t + GAMMA * np.max(Q_sa)  #4、R_t + gamma*Q_t+1 作为标签

# targets2 = normalize(targets)
loss += model.train_on_batch(inputs, targets)   #5、训练CNN

其类似于有监督训练，大部分情况下(游戏没有结束)使用S _t作为输入，理论上来说，应该用R _t + γ*R _t+1 + γ ² R_t+2 + ... 作为CNN标签，但需要注意的是，实际上并不知道后续的R _t+k，如果要知道真实R _t+1的话，需要继续执行A _t+1，以此类推，这就变成了一个无限递归的过程，理论证明，后续累计奖励等于γQ _t+1——这就是著名的贝尔曼方程。

贝尔曼方程：Q_t  = R_t + γR_t+1 + γ²*R_t+2 + γ³*R_t+3 = ... = R_t + γ*Q_t+1

改进：1）实际执行训练的过程中，会发现小鸟非常容易在很长一段时间内连第一个柱子都过不去，这里可以考虑一些优化手段来获取更加高质量的样本。比如随机初始化大量小鸟同时运行，仅仅保留分数较高的作为样本加入记忆D。同样，当记忆容量达到上限时，可以优先删除R较低的样本。2）可以对每个样本增加采样权重，如果奖励更高，则使其被采样几率更大一些。

转载于:https://www.cnblogs.com/YSPXIZHEN/p/11399370.html

你可能感兴趣的:(基于Keras的OpenAI-gym强化学习的车杆/FlappyBird游戏)

H743定时器输出PWM波方法（基于STM32CubeMX） NW嵌入式开发单片机开发 stm32 定时器 PWM模式
0工具准备1.STM32CubeMX2.《STM32H743参考手册中文版》3.《stm32h743xi数据手册》1前言本文介绍基于STM32CubeMX，使用stm32h743xi，使用TIM15的通道2输出PWM波的方法。2H743定时器输出PWM波方法（基于STM32CubeMX）《STM32H743参考手册中文版》对PWM模式的描述如下：其中，有关PWM模式1和模式2的介绍见TIM15_C
B3843 [GESP202306 三级] 密码合规一台Redmi Note 12 Pro 算法 c++数据结构
题目描述网站注册需要有用户名和密码，编写程序以检查用户输入密码的有效性。合规的密码应满足以下要求:。只能由a∼z之间26个小写字母、A∼Z之间26个大写字母、0∼9之间10个数字以及!@#$四个特殊字符构成。密码最短长度:6个字符，密码最大长度:12个字符。大写字母，小写字母和数字必须至少有其中两种，以及至少有四个特殊字符中的一个。输入格式输入一行不含空格的字符串。约定长度不超过100。该字符串被
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
STM8L1xx利用定时器实现毫秒和微妙延时荣070214 STM8单片机单片机毫秒和微妙延时
采用单片机的定时计数器进行毫秒和微妙级延时，精度较准。检测溢出时产生的标志位来判断延时到达。下面以STM8L101芯片为例及配合代码说明。一、实现原理：1、初始化Timer2时钟源（附上相应代码）voidTIM2Init(void){TIM2_DeInit();CLK_PeripheralClockConfig(CLK_Peripheral_TIM2,ENABLE);TIM2->CR1&=((ui
大语言模型微调和大语言模型应用的区别？ AI Echoes 人工智能深度学习 deepseek 机器学习算法
大语言模型微调和大语言模型应用的区别？关键要点微调大型语言模型（LLM）是调整预训练模型以适应特定任务或领域的过程，研究表明这能显著提升性能。大型语言模型应用是指将LLM用于实际问题解决或任务执行，如聊天机器人或文本生成。微调和应用的不同在于：微调是准备阶段，应用是最终使用；使用微调模型通常在特定领域表现更好，而预训练模型更适合通用任务。什么是微调大型语言模型？微调大型语言模型是指取一个已经预训练
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
golang slice 切片数组下标的截取方式用户昵称不能为空 golang 开发语言后端
需求使用golang截取的下标，按照下标顺序截取代码//Youcaneditthiscode!//Clickhereandstarttyping.packagemainimport"fmt"funcRows(page,pageSizeint)(items[]int){alls:=[
jupyter的一些操作翻滚吧键盘 Debian12使用日记 jupyter ide python
Linux，mac中可以直接通过在输入代码的地方输入pip等终端命令，并可以执行运行所有cell“Cell"菜单，然后选择“RunAll”选项来运行全部代码
自动驾驶系统的车辆动力学建模：自行车模型与汽车模型的对比分析赛卡自动驾驶自动驾驶数学建模 python numpy matplotlib 算法
在自动驾驶系统的车辆动力学建模中，自行车模型（BicycleModel）和更复杂的汽车模型（如双轨模型或多体动力学模型）各有其适用场景和优缺点。以下是两者的详细对比及选择原因解析：1.模型定义与核心差异特性自行车模型复杂汽车模型（如双轨模型）简化假设将四轮车辆简化为两轮（前轮转向，后轮驱动）考虑四轮独立运动、悬架系统、轮胎侧偏特性自由度2-3自由度（位置x,y，航向角θ）6+自由度（含横向、俯仰、
【今日EDA行业分析】2025年3月21日知梦EDA EDA行业分析大数据人工智能半导体 EDA 行业分析
智算时代EDA行业新变局：技术突围与生态重构一、EDA产业格局剧变：技术壁垒与地缘博弈交织在半导体产业链的宏大版图中，EDA工具宛如数字时代的“工业母机”，其重要性伴随芯片复杂度的指数级攀升而愈发显著。据SEMI数据显示，2023年全球EDA市场规模成功突破200亿美元大关，中国本土市场增速更是达到了18%。然而，Synopsys、Cadence、Mentor这三大行业巨头依旧牢牢占据着超过85%
后端安全可靠性 Small踢倒coffee_氕氘氚 python自学笔记经验分享
第一步应该提到参数化查询，也就是预编译语句。这是最有效的方法，比如用PDO或者预处理语句来分离数据和指令。然后，ORM框架也是一个好办法，因为它们通常自动处理参数化，减少手写SQL的机会。接下来，输入验证和过滤很重要。虽然不能完全依赖，但白名单验证比如只允许特定字符，或者转义特殊字符，比如MySQL的mysqli_real_escape_string。不过要注意转义不是绝对安全，尤其是不同数据库有
每日一题一一Leetcode128. 最长连续序列 - 力扣 Blue.ztl 写写算法 leetcode 算法数据结构
每日一题一一Leetcode128.最长连续序列-力扣作者：blue时间：2025.3.14128.最长连续序列-力扣（LeetCode）本题的要求是：给定一个未排序的整数数组nums，找出其中数字连续的最长序列（不要求序列元素在原数组中连续）的长度。本题用排序加遍历的方法非常容易解决，但是算法的效率太低。本题正真的解题思路如下，首先，数组中是有可能出现重复的数字，但是重复的数字其实并不影响我们找
TS类型体操：实现axios的链式调用类型提示 console.log 战略储备局局长前端
调用方法A调用方法B调用方法C对象实例返回对象自身返回对象自身最终结果一、为什么需要链式调用类型提示？在TypeScript中实现axios的链式调用类型提示，能显著提升开发体验：智能补全：开发者无需记忆API参数顺序，IDE自动提示方法链类型安全：拦截器配置、请求参数、响应数据全程类型校验代码自解释：通过类型声明即可理解API设计规范重构友好：修改底层实现不影响上层调用逻辑痛点场景：//传统方式
3步教你轻松在WinForms 应用程序中内嵌控制台（System.Console）墨瑾轩 C#乐园 c#开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣3步教你轻松在WinForms应用程序中内嵌控制台（System.Console）引言：为什么要在WinForms中内嵌控制台？在开发WinForms应用程序时，有时候我们需要一个控制台来显示日志信息、调试输出或者执行命令行操作。虽然WinForms提供了丰富
Flowable 6.6.0应用指南 - Flowable UI应用安装月满闲庭 #应用指南中英文对照版
培训视频推荐CSDN上提供了Flowable6.6.0的系列培训视频课程，欢迎有兴趣的朋友前往学习。《Flowable流程入门课程》《Flowable流程高级课程》《Flowable从入门到精通》Flowable6.6.0用户指南相关文档下载BPMN用户指南第一部分-中文PDF精编版BPMN用户指南第二部分-中文PDF精编版BPMN用户指南第三部分-中文PDF精编版应用程序指南-中文PDF精编版应
区块链在医疗数据共享中的应用：解锁安全与透明的新维度 Echo_Wish 人工智能前沿技术区块链安全
区块链在医疗数据共享中的应用：解锁安全与透明的新维度近年来，区块链技术在金融领域取得了显著的突破，然而，它的潜力不仅仅局限于数字货币和支付领域。随着医疗数据的数字化和信息化程度不断提升，区块链技术在医疗数据共享中的应用正逐渐成为一个热门话题。区块链以其去中心化、不可篡改、透明且高效的特点，为医疗行业的数据管理提供了全新的解决方案，尤其是在患者隐私保护、数据共享以及医疗服务的透明度方面。那么，区块链
XPipe：一款新型开源终端管理神器修己xj 工具开源
最近，一位朋友在使用Docker时遇到了一个问题：他对宿主机与容器之间的文件复制以及在容器内执行命令等操作感到困惑。这让我开始思考，如果有一款远程管理工具能够直接连接到容器内部，操作是否会变得更加便捷？恰巧，今天在浏览GitHub时，我发现了这样一款名为XPipe的工具。工具介绍XPipe是一款创新的Shell连接中心和远程文件管理器，它能够让你从本地机器轻松访问整个服务器基础设施。这款工具运行在
入门级带你实现一个安卓智能家居APP（2）kotlin版本一粒程序米 android kotlin 智能家居 WiFi 单片机
前言上一篇写过java版本的实现，这一篇就写一下kotlin版本的吧。效果展示本APP是通过tcp/ip协议与连了WiFi的单片机通信。其实除了主活动类和新建项目时有一丢丢不同，其他的都是一样的哈~第一步：你得会一点点kotlin基础，建议看一本书，是郭霖大神些的《第一行代码》第三版，里面除了安卓的基础教学，还有kotlin的。第二步：建议看一本书，是郭霖大神些的《第一行代码》，先入门安卓基础。不
什么是C++对象之间的view proxies 东北豆子哥 C++c++
在C++中，viewproxies是一种轻量级的对象，用于提供对另一个对象的间接访问或视图，而不直接拥有或管理该对象的数据。它们通常用于简化对复杂数据结构的访问，或在不需要复制数据的情况下提供特定的视图。1.ViewProxies的核心概念轻量级：Viewproxies通常不拥有数据，而是引用或包装另一个对象的数据。间接访问：通过viewproxies，可以以特定的方式访问或操作底层数据，而不需要
vscode如何找letax模板_VScode如何实时预览LaTeX？ weixin_39789327
好像感觉我要火了,这个必须专业回答下啊,看完别忘了点赞啊!!用户友好型实时预览的定义即不用手动编译,不用手动刷新文档(PDF)的LaTeX写作方式.实现方式与工具目前主要用的是Latexmk这个perl脚本或者支持实时预览的Markdown编辑器.关于TeX集成系统的一个建议个人建议用TeXLive而非MikTeX甚至CTeX套装,相比而言我用TeXLive时碰到的问题最少.后两种你可能发现好好的
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
Kubernetes配置全解析：从小白到高手的进阶秘籍 ivwdcwso 操作系统与云原生 kubernetes 容器云原生 k8s 配置
导语在Kubernetes（K8s）的世界里，合理且精准的配置是释放其强大功能的关键。无论是搭建集群、部署应用，还是优化资源利用，配置都贯穿始终。然而，K8s配置涉及众多参数与组件，错综复杂，令不少初学者望而却步。本文将带你一步步深入K8s配置领域，从小白进阶为配置高手，轻松驾驭K8s集群。一、Kubernetes集群配置Master节点配置kube-api-server：这是K8s集群的“门面”
C语言-排序 <三木> C/C++杂碎的知识点 c语言算法数据结构
C语言-排序冒泡排序选择排序冒泡排序两两比较，大的放后面。每比较一轮，记录交换的次数。当交换的次数为零时，则表示排序完成。chara[10]={9,5,1,2,4,7,6,8,3,0};9大于5交换59124768309大于1交换51924768309大于2交换51294768309大于4交换51249768309大于7交换51247968309大于6交换51247698309大于8交换51247
【C++开源库】tinyxml2解析库使用介绍小庞在加油 C++知识 c++开源 tinyxml2解析库
TinyXML-2是一个在C++中使用的轻量级、简单且高效的XML解析库。它由LeeThomason开发，旨在提供快速解析和生成XML数据的功能，同时保持代码的简洁性和易于使用。TinyXML-2支持多种编译器和平台，包括Windows、Linux和macOS。特点与优势简单易用：TinyXML-2提供了直观的API，使得解析和生成XML文档变得简单。高性能：它经过优化，能够快速解析大型XML文件
vscode设置console.log的快捷输出方式活宝小娜 vscode vscode ide 编辑器
vscode设置console.log的快捷输出方式编辑器中输入clg回车，可以直接输出console.log，并且同步输出变量的字符串和值1、打开vscode点击左上角的文件2、找到首选项3、点击用户代码配置4、在顶部输入框种输入javas，选择JavaScript选项5、打开里面注释的代码，写入如下内容{//Placeyoursnippetsforjavascripthere."Printto
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
GPT-4o mini TTS：OpenAI 推出轻量级文本转语音模型！情感操控+白菜价冲击配音圈蚝油菜花每日 AI 项目与应用实例开源人工智能
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->丰富的AI工具库->每日更新->尽在微信公众号->搜一搜：蚝油菜花️“声优连夜转行送外卖！OpenAI新模型每分钟语音成本仅9分钱”大家好，我是蚝油菜花。当同行还在用机械音合成器折磨听众时，这个AI怪物已
Dify-Plus：企业级AI管理核弹！开源方案吊打SaaS，额度+密钥+鉴权系统全面集成蚝油菜花每日 AI 项目与应用实例人工智能开源开源人工智能
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->丰富的AI工具库->每日更新->尽在微信公众号->搜一搜：蚝油菜花“CTO集体失眠！这个开源项目让企业AI管理进入上帝模式”大家好，我是蚝油菜花。当同行还在为API调用次数和预算超支扯皮时，这个国产神器已
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s