J.Q.Wang2011

深度强化学习系列(10): NoisyNet-DQN原理及实现

论文地址： https://arxiv.org/pdf/1706.10295v1.pdf
本篇论文是DeepMind发表于顶会ICLR2018上的论文，第一作者Meire，里面也有熟悉的Mnih等大佬，还是往常的阅读顺序：

本文解决的是强化学习中的“探索问题”(efficient exploration)，作者通过给训练网络中添加噪音参数（和梯度更新同时更新网络权重参数），通过权重网络的训练来更新参数，结果表明能够使用额外较小的计算成本，在A3C、DQN、Dueling DQN等算法上实现相对于传统的启发式更优的结果。

1。背景及问题

我们知道，对于探索-利用而言，目前通常采用以下两种方法：

epsilon-greedy： $\epsilon$ - $g r e e d y$ （以超参数形式给出）很有可能会导致智能体采取随机步骤，而不是按照它学到的策略采取行动。通常的做法是，在训练开始时使该 $\epsilon$ - $g r e e d y = 1$ ，然后慢慢减小到一个较小的值，例如0.1或0.02。
熵正则化：将策略的熵添加到损失函数中时，在策略梯度方法中使用它，以惩罚我们的模型过于确定其行为。

而常见的启发式搜索在强化学习中的原则是“Optimism in the face of uncertainty”，这种面对不确定性乐观的属性就导致了启发式需要在智能体的性能表现上有理论保证，而这些方法的缺点在于仅限于使用在较小的状态、动作空间比较小或者是线性函数逼近的问题上效果还可以，对于一些问题复杂的函数毕竟问题并不能够很好的进行解决。

本文作者提出了一种NoisyNet，该方法主要包括将高斯噪声添加到网络的最后（完全连接）层。噪声的参数可以在训练过程中通过模型进行调整，这使智能体可以决定何时以及以什么比例将权重引入不确定性。

2.原理与数学过程

NoisyNet是一个神经网络，其权重和偏置会受到噪音的影响，

一般的，如果将NoisyNet数学表示为 $y=f_{\theta}(x)$ (x表示输入，y表示输出， $\theta$ 表示噪音参数)，作者在此处将 $\theta$ 定义为：
$\theta \stackrel{\text { def }}{=} \mu+\Sigma \odot \varepsilon$
其中 $\zeta \stackrel{\text { def }}{=}(\mu, \Sigma)$ 定义为是一组可学习参数向量的集合, “ $\varepsilon$ ”是零均值噪声的矢量，具有固定统计量， $\odot$ 表示逐元素乘法。那么关于噪音参数的的损失函数我们表示为：
$\varepsilon: \bar{L}(\zeta) \stackrel{\text { def }}{=} \mathbb{E}[L(\theta)]$
那么接下来的过程就是对 $\zeta$ 进行优化。那如何优化呢？

接下来让我们思考这样一个问题
对于一个 $p$ 个输入 $q$ 个输出来说，数学表示为 $y = w x + b$ ，其中可知 $\in \mathbb{R}^{q \times p}$ , $\in \mathbb{R}^{p}$ , $\in \mathbb{R}^{p}$ ，这个理解起来很简单。那么如果给参数中添加噪音呢(也就是给网络结构添加噪音)？下面是作者给出的带有噪音参数的线性层数学表示：
$\stackrel{\text { def }}{=}\left(\mu^{w}+\sigma^{w} \odot \varepsilon^{w}\right) x+\mu^{b}+\sigma^{b} \odot \varepsilon^{b}$
乍看起来挺复杂，其中$w $等价于$ \left(\mu^{w}+\sigma{w} \odot \varepsilon^{{w}\right)$，$b$等价于$(\mu}{b}+\sigma^{b} \odot \varepsilon^{b})$，每个参数的维度如下：

$\mu$	$\sigma$	$\varepsilon$
$\mu^{w} \in \mathbb{R}^{q \times p}$	$\sigma^{w} \in \mathbb{R}^{q \times p}$	$\varepsilon^{w} \in \mathbb{R}^{q \times p}$
$\mu^{b} \in \mathbb{R}^{q}$	$\sigma^{b} \in \mathbb{R}^{q}$	$\varepsilon^{b} \in \mathbb{R}^{q}$

其中 $\varepsilon$ 是随机噪音参数，下图是对该过程进行图表示：

其含义如下：

以上是如何引入噪音的问题，在论文中，作者尝试噪音参数引入的两种分布：

独立高斯噪声(Independent Gaussian Noise)：噪声层的每个权重都是独立的，并且具有模型自己学习的 $\mu$ 和 $\sigma$ 。也就是对于任意的 $\varepsilon^{w}_{i,j}$ (对应 $\varepsilon^{b}_{j}$ )和 $\varepsilon^{w}$ (对应 $\varepsilon^{b}$ )的参数都是来自高斯分布。共 $(p q + q)$ 个变量
分解高斯噪声(Factorised Gaussian Noise)：包含噪音的输入输出：第一个具有输入p个单位的高斯分布 $\varepsilon_{i}$ 噪音输入，第二个具有q个单位的高斯噪音输出。共 $(p + q)$ 个变量，其分解如下：
$\begin{aligned} \varepsilon_{i, j}^{w} &=f\left(\varepsilon_{i}\right) f\left(\varepsilon_{j}\right) \\ \varepsilon_{j}^{b} &=f\left(\varepsilon_{j}\right) \end{aligned}$
这里的 $f(x)=\operatorname{sgn}(x) \sqrt{|x|}$ 函数是一个实值函数

$\nabla \bar{L}(\zeta)=\nabla \mathbb{E}[L(\theta)]=\mathbb{E}\left[\nabla_{\mu, \Sigma} L(\mu+\Sigma \odot \varepsilon)\right]$
使用蒙特卡罗近似梯度，单步优化如下：
$\nabla \bar{L}(\zeta) \approx \nabla_{\mu, \Sigma} L(\mu+\Sigma \odot \xi)$

3. Deep NoisyNet原理以及初始化过程

注：本文的Noisy是针对于值函数(动作-值函数)的，不是针对策略输出的action的

3.1 各种算法的NoisyNet更新公式

其实数学的更新公式很简单，重新构造优化目标 $\bar{L}(\zeta)$ 和优化参数（在原来的值函数基础上加入对应参数即可）

NoisyNet-DQN
$\bar{L}(\zeta)=\mathbb{E}\left[\mathbb{E}_{(x, a, r, y) \sim D}\left[r+\gamma \max _{b \in A} Q\left(y, b, \varepsilon^{\prime} ; \zeta^{-}\right)-Q(x, a, \varepsilon ; \zeta)\right]^{2}\right]$
NoisyNet-DuelingDQN
$\begin{aligned} \bar{L}(\zeta) &=\mathbb{E}\left[\mathbb{E}_{(x, a, r, y) \sim D}\left[r+\gamma Q\left(y, b^{*}(y), \varepsilon^{\prime} ; \zeta^{-}\right)-Q(x, a, \varepsilon ; \zeta)\right]^{2}\right] \\ \text { s.t. } \quad b^{*}(y) &=\arg \max _{b \in \mathcal{A}} Q\left(y, b(y), \varepsilon^{\prime \prime} ; \zeta\right) \end{aligned}$
NoisyNet-A3C
$\hat{Q}_{i}=\sum_{j=i}^{k-1} \gamma^{j-i} r_{t+j}+\gamma^{k-i} V\left(x_{t+k} ; \zeta, \varepsilon_{i}\right)$

3.2 噪音的初始化过程

1. 对于没有分解的高斯参数来说，每个元素 $\mu_{i,j}$ 的采样来自于独立正态分布 $\mathcal{U}[-\sqrt{\frac{3}{p}},+\sqrt{\frac{3}{p}}]$ ，其中 $p$ 表示神经网络的输入层的输入。
1. 分解高斯参数来说，采样来自于分布 $\mathcal{U}[\frac{1}{-\sqrt{{p}}},+\frac{1}{\sqrt{{p}}}]$

参见代码：

# Added by Andrew Liao
# for NoisyNet-DQN (using Factorised Gaussian noise)
# modified from ```dense```function
def noisy_dense(x, size, name, bias=True, activation_fn=tf.identity):

    # the function used in eq.7,8
    def f(x):
        return tf.multiply(tf.sign(x), tf.pow(tf.abs(x), 0.5))
    # Initializer of \mu and \sigma 
    mu_init = tf.random_uniform_initializer(minval=-1*1/np.power(x.get_shape().as_list()[1], 0.5),     
                                                maxval=1*1/np.power(x.get_shape().as_list()[1], 0.5))
    sigma_init = tf.constant_initializer(0.4/np.power(x.get_shape().as_list()[1], 0.5))
    # Sample noise from gaussian
    p = sample_noise([x.get_shape().as_list()[1], 1])
    q = sample_noise([1, size])
    f_p = f(p); f_q = f(q)
    w_epsilon = f_p*f_q; b_epsilon = tf.squeeze(f_q)

    # w = w_mu + w_sigma*w_epsilon
    w_mu = tf.get_variable(name + "/w_mu", [x.get_shape()[1], size], initializer=mu_init)
    w_sigma = tf.get_variable(name + "/w_sigma", [x.get_shape()[1], size], initializer=sigma_init)
    w = w_mu + tf.multiply(w_sigma, w_epsilon)
    ret = tf.matmul(x, w)
    if bias:
        # b = b_mu + b_sigma*b_epsilon
        b_mu = tf.get_variable(name + "/b_mu", [size], initializer=mu_init)
        b_sigma = tf.get_variable(name + "/b_sigma", [size], initializer=sigma_init)
        b = b_mu + tf.multiply(b_sigma, b_epsilon)
        return activation_fn(ret + b)
    else:
        return activation_fn(ret)

4.算法伪代码：

5. 实验结果

6.算法实现（仅在部分Atari游戏中使用）

本部分代码包含两种算法 NoisyNet-DQN，NoisyNEt-A3C

(1)NoisyNet-DQN

# code source: https://github.com/wenh123/NoisyNet-DQN/blob/master/train.py
import argparse
import gym
import numpy as np
import os
import tensorflow as tf
import tempfile
import time

import baselines.common.tf_util as U

from baselines import logger
from baselines import deepq
from baselines.deepq.replay_buffer import ReplayBuffer, PrioritizedReplayBuffer
from baselines.common.misc_util import (
    boolean_flag,
    pickle_load,
    pretty_eta,
    relatively_safe_pickle_dump,
    set_global_seeds,
    RunningAvg,
    SimpleMonitor
)
from baselines.common.schedules import LinearSchedule, PiecewiseSchedule
# when updating this to non-deperecated ones, it is important to
# copy over LazyFrames
from baselines.common.atari_wrappers_deprecated import wrap_dqn
from baselines.common.azure_utils import Container
from model import model, dueling_model
from statistics import statistics

def parse_args():
    parser = argparse.ArgumentParser("DQN experiments for Atari games")
    # Environment
    parser.add_argument("--env", type=str, default="Pong", help="name of the game")
    parser.add_argument("--seed", type=int, default=42, help="which seed to use")
    # Core DQN parameters
    parser.add_argument("--replay-buffer-size", type=int, default=int(1e6), help="replay buffer size")
    parser.add_argument("--lr", type=float, default=1e-4, help="learning rate for Adam optimizer")
    parser.add_argument("--num-steps", type=int, default=int(2e8), help="total number of steps to run the environment for")
    parser.add_argument("--batch-size", type=int, default=32, help="number of transitions to optimize at the same time")
    parser.add_argument("--learning-freq", type=int, default=4, help="number of iterations between every optimization step")
    parser.add_argument("--target-update-freq", type=int, default=40000, help="number of iterations between every target network update")
    # Bells and whistles
    boolean_flag(parser, "noisy", default=False, help="whether or not to NoisyNetwork")
    boolean_flag(parser, "double-q", default=True, help="whether or not to use double q learning")
    boolean_flag(parser, "dueling", default=False, help="whether or not to use dueling model")
    boolean_flag(parser, "prioritized", default=False, help="whether or not to use prioritized replay buffer")
    parser.add_argument("--prioritized-alpha", type=float, default=0.6, help="alpha parameter for prioritized replay buffer")
    parser.add_argument("--prioritized-beta0", type=float, default=0.4, help="initial value of beta parameters for prioritized replay")
    parser.add_argument("--prioritized-eps", type=float, default=1e-6, help="eps parameter for prioritized replay buffer")
    # Checkpointing
    parser.add_argument("--save-dir", type=str, default=None, required=True, help="directory in which training state and model should be saved.")
    parser.add_argument("--save-azure-container", type=str, default=None,
                        help="It present data will saved/loaded from Azure. Should be in format ACCOUNT_NAME:ACCOUNT_KEY:CONTAINER")
    parser.add_argument("--save-freq", type=int, default=1e6, help="save model once every time this many iterations are completed")
    boolean_flag(parser, "load-on-start", default=True, help="if true and model was previously saved then training will be resumed")
    return parser.parse_args()


def make_env(game_name):
    env = gym.make(game_name + "NoFrameskip-v4")
    monitored_env = SimpleMonitor(env)  # puts rewards and number of steps in info, before environment is wrapped
    env = wrap_dqn(monitored_env)  # applies a bunch of modification to simplify the observation space (downsample, make b/w)
    return env, monitored_env


def maybe_save_model(savedir, container, state):
    """This function checkpoints the model and state of the training algorithm."""
    if savedir is None:
        return
    start_time = time.time()
    model_dir = "model-{}".format(state["num_iters"])
    U.save_state(os.path.join(savedir, model_dir, "saved"))
    if container is not None:
        container.put(os.path.join(savedir, model_dir), model_dir)
    relatively_safe_pickle_dump(state, os.path.join(savedir, 'training_state.pkl.zip'), compression=True)
    if container is not None:
        container.put(os.path.join(savedir, 'training_state.pkl.zip'), 'training_state.pkl.zip')
    relatively_safe_pickle_dump(state["monitor_state"], os.path.join(savedir, 'monitor_state.pkl'))
    if container is not None:
        container.put(os.path.join(savedir, 'monitor_state.pkl'), 'monitor_state.pkl')
    logger.log("Saved model in {} seconds\n".format(time.time() - start_time))


def maybe_load_model(savedir, container):
    """Load model if present at the specified path."""
    if savedir is None:
        return

    state_path = os.path.join(os.path.join(savedir, 'training_state.pkl.zip'))
    if container is not None:
        logger.log("Attempting to download model from Azure")
        found_model = container.get(savedir, 'training_state.pkl.zip')
    else:
        found_model = os.path.exists(state_path)
    if found_model:
        state = pickle_load(state_path, compression=True)
        model_dir = "model-{}".format(state["num_iters"])
        if container is not None:
            container.get(savedir, model_dir)
        U.load_state(os.path.join(savedir, model_dir, "saved"))
        logger.log("Loaded models checkpoint at {} iterations".format(state["num_iters"]))
        return state


if __name__ == '__main__':
    args = parse_args()
    # Parse savedir and azure container.
    savedir = args.save_dir
    if args.save_azure_container is not None:
        account_name, account_key, container_name = args.save_azure_container.split(":")
        container = Container(account_name=account_name,
                              account_key=account_key,
                              container_name=container_name,
                              maybe_create=True)
        if savedir is None:
            # Careful! This will not get cleaned up. Docker spoils the developers.
            savedir = tempfile.TemporaryDirectory().name
    else:
        container = None
    # Create and seed the env.
    env, monitored_env = make_env(args.env)
    if args.seed > 0:
        set_global_seeds(args.seed)
        env.unwrapped.seed(args.seed)

    with U.make_session(4) as sess:
        # Create training graph and replay buffer
        act, train, update_target, debug = deepq.build_train(
            make_obs_ph=lambda name: U.Uint8Input(env.observation_space.shape, name=name),
            q_func=dueling_model if args.dueling else model,
            num_actions=env.action_space.n,
            optimizer=tf.train.AdamOptimizer(learning_rate=args.lr, epsilon=1e-4),
            gamma=0.99,
            grad_norm_clipping=10,
            double_q=args.double_q,
            noisy=args.noisy,
        )
        approximate_num_iters = args.num_steps / 4
        exploration = PiecewiseSchedule([
            (0, 1.0),
            (approximate_num_iters / 50, 0.1),
            (approximate_num_iters / 5, 0.01)
        ], outside_value=0.01)

        if args.prioritized:
            replay_buffer = PrioritizedReplayBuffer(args.replay_buffer_size, args.prioritized_alpha)
            beta_schedule = LinearSchedule(approximate_num_iters, initial_p=args.prioritized_beta0, final_p=1.0)
        else:
            replay_buffer = ReplayBuffer(args.replay_buffer_size)

        U.initialize()
        update_target()
        num_iters = 0

        # Load the model
        state = maybe_load_model(savedir, container)
        if state is not None:
            num_iters, replay_buffer = state["num_iters"], state["replay_buffer"],
            monitored_env.set_state(state["monitor_state"])

        start_time, start_steps = None, None
        steps_per_iter = RunningAvg(0.999)
        iteration_time_est = RunningAvg(0.999)
        obs = env.reset()
        # Record the mean of the \sigma
        sigma_name_list = []
        sigma_list = []
        for param in tf.trainable_variables():
            # only record the \sigma in the action network
            if 'sigma' in param.name and 'deepq/q_func/action_value' in param.name:
                summary_name = param.name.replace('deepq/q_func/action_value/', '').replace('/', '.').split(':')[0]
                sigma_name_list.append(summary_name)
                sigma_list.append(tf.reduce_mean(tf.abs(param)))
        f_mean_sigma = U.function(inputs=[], outputs=sigma_list)
        # Statistics
        writer = tf.summary.FileWriter(savedir, sess.graph)
        im_stats = statistics(scalar_keys=['action', 'im_reward', 'td_errors', 'huber_loss']+sigma_name_list)
        ep_stats = statistics(scalar_keys=['ep_reward', 'ep_length'])  
        # Main trianing loop
        ep_length = 0
        while True:
            num_iters += 1
            ep_length += 1
            # Take action and store transition in the replay buffer.
            if args.noisy:
                # greedily choose
                action = act(np.array(obs)[None], stochastic=False)[0]
            else:
                # epsilon greedy
                action = act(np.array(obs)[None], update_eps=exploration.value(num_iters))[0]
            new_obs, rew, done, info = env.step(action)
            replay_buffer.add(obs, action, rew, new_obs, float(done))
            obs = new_obs
            if done:
                obs = env.reset()

            if (num_iters > max(5 * args.batch_size, args.replay_buffer_size // 20) and
                    num_iters % args.learning_freq == 0):
                # Sample a bunch of transitions from replay buffer
                if args.prioritized:
                    experience = replay_buffer.sample(args.batch_size, beta=beta_schedule.value(num_iters))
                    (obses_t, actions, rewards, obses_tp1, dones, weights, batch_idxes) = experience
                else:
                    obses_t, actions, rewards, obses_tp1, dones = replay_buffer.sample(args.batch_size)
                    weights = np.ones_like(rewards)
                # Minimize the error in Bellman's equation and compute TD-error
                td_errors, huber_loss = train(obses_t, actions, rewards, obses_tp1, dones, weights)
                # Update the priorities in the replay buffer
                if args.prioritized:
                    new_priorities = np.abs(td_errors) + args.prioritized_eps
                    replay_buffer.update_priorities(batch_idxes, new_priorities)
                # Write summary
                mean_sigma = f_mean_sigma()
                im_stats.add_all_summary(writer, [action, rew, np.mean(td_errors), np.mean(huber_loss)]+mean_sigma, num_iters)

            # Update target network.
            if num_iters % args.target_update_freq == 0:
                update_target()

            if start_time is not None:
                steps_per_iter.update(info['steps'] - start_steps)
                iteration_time_est.update(time.time() - start_time)
            start_time, start_steps = time.time(), info["steps"]

            # Save the model and training state.
            if num_iters > 0 and (num_iters % args.save_freq == 0 or info["steps"] > args.num_steps):
                maybe_save_model(savedir, container, {
                    'replay_buffer': replay_buffer,
                    'num_iters': num_iters,
                    'monitor_state': monitored_env.get_state()
                })

            if info["steps"] > args.num_steps:
                break

            if done:
                steps_left = args.num_steps - info["steps"]
                completion = np.round(info["steps"] / args.num_steps, 1)
                mean_ep_reward = np.mean(info["rewards"][-100:])
                logger.record_tabular("% completion", completion)
                logger.record_tabular("steps", info["steps"])
                logger.record_tabular("iters", num_iters)
                logger.record_tabular("episodes", len(info["rewards"]))
                logger.record_tabular("reward (100 epi mean)", np.mean(info["rewards"][-100:]))
                if not args.noisy:
                    logger.record_tabular("exploration", exploration.value(num_iters))
                if args.prioritized:
                    logger.record_tabular("max priority", replay_buffer._max_priority)
                fps_estimate = (float(steps_per_iter) / (float(iteration_time_est) + 1e-6)
                                if steps_per_iter._value is not None else "calculating...")
                logger.dump_tabular()
                logger.log()
                logger.log("ETA: " + pretty_eta(int(steps_left / fps_estimate)))
                logger.log()
                # add summary for one episode
                ep_stats.add_all_summary(writer, [mean_ep_reward, ep_length], num_iters)
                ep_length = 0

(2)NoisyNet-A3C

# using Pytorch
# code source: https://github.com/Kaixhin/NoisyNet-A3C
import gym
import torch
from torch import nn
from torch.autograd import Variable

from model import ActorCritic
from utils import state_to_tensor


# Transfers gradients from thread-specific model to shared model
def _transfer_grads_to_shared_model(model, shared_model):
  for param, shared_param in zip(model.parameters(), shared_model.parameters()):
    if shared_param.grad is not None:
      return
    shared_param._grad = param.grad


# Adjusts learning rate
def _adjust_learning_rate(optimiser, lr):
  for param_group in optimiser.param_groups:
    param_group['lr'] = lr


def train(rank, args, T, shared_model, optimiser):
  torch.manual_seed(args.seed + rank)

  env = gym.make(args.env)
  env.seed(args.seed + rank)
  model = ActorCritic(env.observation_space, env.action_space, args.hidden_size, args.sigma_init, args.no_noise)
  model.train()

  t = 1  # Thread step counter
  done = True  # Start new episode

  while T.value() <= args.T_max:
    # Sync with shared model at least every t_max steps
    model.load_state_dict(shared_model.state_dict())
    # Get starting timestep
    t_start = t

    # Reset or pass on hidden state
    if done:
      hx = Variable(torch.zeros(1, args.hidden_size))
      cx = Variable(torch.zeros(1, args.hidden_size))
      # Reset environment and done flag
      state = state_to_tensor(env.reset())
      done, episode_length = False, 0
    else:
      # Perform truncated backpropagation-through-time (allows freeing buffers after backwards call)
      hx = hx.detach()
      cx = cx.detach()
    model.sample_noise()  # Pick a new noise vector (until next optimisation step)

    # Lists of outputs for training
    values, log_probs, rewards, entropies = [], [], [], []

    while not done and t - t_start < args.t_max:
      # Calculate policy and value
      policy, value, (hx, cx) = model(Variable(state), (hx, cx))
      log_policy = policy.log()
      entropy = -(log_policy * policy).sum(1)

      # Sample action
      action = policy.multinomial()
      log_prob = log_policy.gather(1, action.detach())  # Graph broken as loss for stochastic action calculated manually
      action = action.data[0, 0]

      # Step
      state, reward, done, _ = env.step(action)
      state = state_to_tensor(state)
      reward = args.reward_clip and min(max(reward, -1), 1) or reward  # Optionally clamp rewards
      done = done or episode_length >= args.max_episode_length

      # Save outputs for training
      [arr.append(el) for arr, el in zip((values, log_probs, rewards, entropies), (value, log_prob, reward, entropy))]

      # Increment counters
      t += 1
      T.increment()

    # Return R = 0 for terminal s or V(s_i; θ) for non-terminal s
    if done:
      R = Variable(torch.zeros(1, 1))
    else:
      _, R, _ = model(Variable(state), (hx, cx))
      R = R.detach()

    # Calculate n-step returns in forward view, stepping backwards from the last state
    trajectory_length = len(rewards)
    values, log_probs, entropies = torch.cat(values), torch.cat(log_probs), torch.cat(entropies)
    returns = Variable(torch.Tensor(trajectory_length + 1, 1))
    returns[-1] = R
    for i in reversed(range(trajectory_length)):
      # R ← r_i + γR
      returns[i] = rewards[i] + args.discount * returns[i + 1]
    # Advantage A = R - V(s_i; θ)
    A = returns[:-1] - values
    # dθ ← dθ - ∂A^2/∂θ
    value_loss = 0.5 * A ** 2  # Least squares error

    # dθ ← dθ + ∇θ∙log(π(a_i|s_i; θ))∙A
    policy_loss = -log_probs * A.detach()  # Policy gradient loss (detached from critic)
    # dθ ← dθ + β∙∇θH(π(s_i; θ))
    policy_loss -= args.entropy_weight * entropies.unsqueeze(1)  # Entropy maximisation loss
    # Zero shared and local grads
    optimiser.zero_grad()
    # Note that losses were defined as negatives of normal update rules for gradient descent
    (policy_loss + value_loss).sum().backward()
    # Gradient L2 normalisation
    nn.utils.clip_grad_norm(model.parameters(), args.max_gradient_norm, 2)

    # Transfer gradients to shared model and update
    _transfer_grads_to_shared_model(model, shared_model)
    optimiser.step()
    if not args.no_lr_decay:
      # Linearly decay learning rate
      _adjust_learning_rate(optimiser, max(args.lr * (args.T_max - T.value()) / args.T_max, 1e-32))

  env.close()

参考内容

https://arxiv.org/pdf/1706.10295v1.pdf
https://arxiv.org/abs/1602.01783
https://github.com/openai/baselines
https://github.com/Kaixhin/NoisyNet-A3C
https://github.com/wenh123/NoisyNet-DQN/

探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
7. 深度强化学习：智能体的学习与决策 Network_Engineer 机器学习学习机器学习深度学习神经网络 python 算法
引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。1.强化学习的基本框架强化学习是机器学习的一个分支，专注于智能体在与环境的交互过程中，学习如何通过最大
深度强化学习之DQN-深度学习与强化学习的成功结合 CristianoC
目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。image通常的做法是把
（18-1）基于深度强化学习的股票交易模型：项目介绍+准备环境码农三叔强化学习从入门到实践人工智能深度学习股票交易模型 DRL Double DQN Dueling DQN
在本章的这个项目中，实现了一个用于股票交易的DRL模型，旨在展示DRL在金融领域的潜力，提供其在股票交易中应用的实际例子。希望通过本章内容的学习，能够为那些对金融与机器学习交叉领域感兴趣的人士提供有益的参考。1.1项目介绍在金融市场中，股票交易是一项充满挑战的任务，需要在高度波动和复杂的市场环境中做出快速且精准的决策。传统的交易策略通常依赖于经验、基本面分析或技术分析。然而，这些方法往往无法在快速
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
学习日志6 Simon#0209 学习
关于量子强化学习：论文Variational_Quantum_Circuits_for_Deep_Reinforcement_Learning：变分量子电路在深度强化学习中的应用论文主要内容：将经典深度强化学习算法（如经验重放和目标网络）重塑为变分量子电路的表示摘要当前最先进的机器学习方法基于经典冯·诺伊曼计算架构，并在许多工业和学术领域得到广泛应用。随着量子计算的发展，研究人员和技术巨头们试图为
【科技前沿】用深度强化学习优化电网，让电力调度更聪明！风清扬雨人工智能人工智能 python 智能电网深度强化学习
Hey小伙伴们，今天我要跟大家分享一个超级酷炫的技术应用——深度强化学习在电网优化中的典型案例！如果你对机器学习感兴趣，或是正寻找如何用AI技术解决实际问题的方法，这篇分享绝对不容错过！‍✨开场白大家好，我是你们的技术小助手！今天我们要聊的是如何利用深度强化学习（DRL）来优化电网的调度，让电力系统变得更智能、更高效。引入话题想象一下，如果你能够通过一种先进的技术手段，自动调整电网中的能源分配，不
基于人工智能的期权量化交易阿岛格人工智能.量化投资人工智能机器学习大数据强化学习
基于人工智能的期权量化交易基于人工智能的期权量化交易基于人工智能的期权量化交易该文基于人工智能AI的深度强化学习,进行股票期权的量化投资策略研究及回测评估。作者建立了人工智能学习及交易系统。基于实时/历史期权行情大数据挖掘,通过自行开发的人工智能多agent强化学习模型及评估系统(基于Python/Linux),对接实时交易接口进行了实盘环境的交易回测和评估。专题：人工智能.量化投资纲要：一、前言
强化学习入门到不想放弃-1 周博洋K 人工智能
本来想写到深度学习里的，但是线下和别人聊RLHF，和PPO,DPO的时候，我发现大家一脑袋问号，其实也正常，深度学习里面数学的东西没那么多，入门容易一点，强化学习（现在也都谈强化深度学习，或者深度强化学习了）反而没那么要算力，要一堆算法和数学，所以就单开一个系列，专门写强化学习吧其实强化学习，某种程度上比深度学习更早的走进大家的视野，没错，就是那个把李昌镐，柯洁给打败的Alpha第一课我们先讲点基
王树森：学 DRL 走过的弯路太多，想让大家避开（文末赠送福利）人工智能与算法学习
大家都知道，深度强化学习（DeepReinforcementLearning，DRL）就是应用了神经网络的强化学习。而强化学习是机器学习的一个分支，研究如何基于对环境的观测做出决策，以最大化长期回报。从20世纪80年代至今，强化学习一直是机器学习领域的热门研究方向。大家耳熟能详的经典强化学习方法——Q学习、REINFORCE、actor-critic——就是20世纪80年代提出的，一直沿用至今。而
深度强化学习系列【1】- 强化学习的背景、基础理论等 cnjs1994 人工智能自动驾驶
引言：这篇博客主要是学习清华大学车辆学院李升波老师（ShengboEbenLi）的PPT课件的一些心得体会。深度强化学习系列【1】-强化学习的背景、基础理论等1.深度强化学习的背景、发展与理论变迁1.1序1.2AlphaGo的崛起1.3Waymo(谷歌收购)加州公共道路无人驾驶项目获批1.4关于生物的神经元数1.5AI的主要类别2.一些典型的问题2.1如何求解-连续、离散空间下的序列决策优化问题?
深度强化学习基础【1】-动态规划问题初探（leetcode算法的63题-不同路径II） cnjs1994 算法动态规划 leetcode
引言：这篇博客的算法问题来源于leetcode算法的63题，一个网格世界的机器人运动规划问题。通过这篇博客可以使得读者更加了解强化学习关于动态规划方面的基础知识。这深度强化学习基础【1】-动态规划问题初探（leetcode算法的63题-不同路径II）1.问题描述2.问题分析3.Python编程实现3.1For循环遍历3.2滚动数组实现3.3试验测试结果1.问题描述1个机器人位于一个mxn网格的左上
PyTorch 2.2 中文官方教程（八）绝不原创的飞龙人工智能 pytorch
训练一个玛丽奥玩游戏的RL代理原文：pytorch.org/tutorials/intermediate/mario_rl_tutorial.html译者：飞龙协议：CCBY-NC-SA4.0注意点击这里下载完整的示例代码作者：冯元松,SurajSubramanian,王浩,郭宇章。这个教程将带你了解深度强化学习的基础知识。最后，你将实现一个能够自己玩游戏的AI马里奥（使用双深度Q网络）。虽然这个
深度强化学习——基本概念(1) Tandy12356_ 深度强化学习人工智能深度学习神经网络
一、基本概念1、状态、动作、智能体可以认为状态就是第一张图的环境，虽然状态和observation还是有区别智能体Agent是马里奥，动作Action就是上下左右的运动2、策略函数（policyΠ）强化学习的重点就是求出这个策略函数，使得在任意一个给定状态S可以做出最应该采取的动作，只要有了policy函数，就可以让超级玛丽自动做出动作来打赢游戏，agent的动作是随机的，根据policy输出的概
OpenAI Gym 高级教程——深度强化学习库的高级用法 Echo_Wish Python算法 Python 笔记 python 算法开发语言
PythonOpenAIGym高级教程：深度强化学习库的高级用法在本篇博客中，我们将深入探讨OpenAIGym高级教程，重点介绍深度强化学习库的高级用法。我们将使用TensorFlow和StableBaselines3这两个流行的库来实现深度强化学习算法，以及Gym提供的环境。1.安装依赖首先，确保你已经安装了OpenAIGym、TensorFlow和StableBaselines3：pipins
论文阅读-一种用于大规模分布式文件系统中基于深度强化学习的自适应元数据管理方案向来痴_ 论文阅读
名称：AnAdaptiveMetadataManagementSchemeBasedonDeepReinforcementLearningforLarge-ScaleDistributedFileSystemsI.引言如今，大型集群文件系统的规模已达到PB甚至EB级别，由此产生的数据呈指数级增长。系统架构师不断设计和优化技术和方法，以向用户提供理想的服务。在这种情况下，元数据管理在提高系统性能中扮
机器学习---强化学习---目前的坑 Iverson_henry
当前（2019年）机器学习中有哪些研究方向特别的坑？微尘强化学习MAB嗑盐ing；nlp/推荐系统预备卒53人赞同了该回答深度强化学习~1.深度强化学习可能是非常采样低效的（sampleinefficient）：强化学习也有其规划谬误，学习一个策略通常需要比想象更多的样本。在DeepMind的跑酷论文（EmergenceofLocomotionBehavioursinRichEnvironment
深度强化学习（王树森）笔记11 阿正的梦工坊 Reinforcement Learning 强化学习
深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。参考链接DeepReinforcementLearning官方链接：https://github.com/wangshusen/DRL源代码链接：https://github.com/DeepRLChinese/DeepRL-ChineseB站视频：【王树森】深度强化学习(DRL)豆瓣:深度强化学习文章目录
时空AI技术：深度强化学习在智能城市领域应用介绍 JUST极客
深度强化学习是近年来热起来的一项技术。深度强化学习的控制与决策流程必须包含状态，动作，奖励是三要素。在建模过程中，智能体根据环境的当前状态信息输出动作作用于环境，然后接收到下一时刻状态信息和奖励。以众所周知的AlphaGo为例，盘面就是当前的状态，动作就是下一步往哪里落子，奖励就是最终的输赢。整个强化学习过程就是不断与环境交互，在交互的过程中产生数据，并利用这些交互产生的数据来学习的过程。正是在深
使用Isaac Gym 来强化学习mycobot 机械臂执行抓取任务大象机器人协作机器人桌面六轴机械臂人工智能机器人人工智能 python 计算机视觉
我现在将介绍一个利用myCobot的实验。这一次，实验将使用模拟器而不是物理机器进行。当尝试使用机器人进行深度强化学习时，在物理机器上准备大量训练数据可能具有挑战性。但是，使用模拟器，很容易收集大量数据集。然而，对于那些不熟悉它们的人来说，模拟器可能看起来令人生畏。因此，我们尝试使用由Nvidia开发的IsaacGym，它使我们能够实现从创建实验环境到仅使用Python代码进行强化学习的所有目标。
一起学习飞桨深度强化学习算法DQN 路人与大师学习 paddlepaddle 算法
LEARN_FREQ=5#trainingfrequencyMEMORY_SIZE=200000MEMORY_WARMUP_SIZE=200BATCH_SIZE=64LEARNING_RATE=0.0005GAMMA=0.99#trainanepisodedefrun_train_episode(agent,env,rpm):total_reward=0obs=env.reset()step=0w
icra2021 reinforcement learning paper list 吃醋不吃辣的雷儿
reinforcementlearningAutonomousVehicleNavigationDeepReinforcementLearningforMaplessNavigationofaHybridAerialUnderwaterVehiclewithMediumTransition自从在Atari类游戏中将深度Q学习应用于连续动作域以来，用于运动控制的深度强化学习(Deep-RL)技术得到
深度强化学习（王树森）笔记09 阿正的梦工坊 Reinforcement Learning 强化学习
深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。参考链接DeepReinforcementLearning官方链接：https://github.com/wangshusen/DRL源代码链接：https://github.com/DeepRLChinese/DeepRL-ChineseB站视频：【王树森】深度强化学习(DRL)豆瓣:深度强化学习文章目录
深度强化学习（王树森）笔记07 阿正的梦工坊 Reinforcement Learning 强化学习
深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。参考链接DeepReinforcementLearning官方链接：https://github.com/wangshusen/DRL源代码链接：https://github.com/DeepRLChinese/DeepRL-ChineseB站视频：【王树森】深度强化学习(DRL)豆瓣:深度强化学习文章目录
深度强化学习基本概念-王树森课程笔记淀粉爱好者机器学习深度学习
学习资料：深度强化学习课程-王树森目录一、概率论知识二、强化学习专业术语三、强化学习的随机性来源1.action2.statetransition四、Rewards,Returns&ValueFuctions1.Return2.ValueFunction五、强化学习用AI控制agent1.Policy-basedlearning2.Value-basedlearning一、概率论知识RandomV
深度强化学习 _Actor-Critic 王树森课程笔记淀粉爱好者神经网络深度学习机器学习
Actor-CriticMethod一、ValueNetwokandPolicyNetwork1.Policynetwork(Actor):π(a∣s;θ)\pi(a|s;\bm\theta)π(a∣s;θ)2.Valuenetwork(Critic):q(s,a;w)q(s,a;\textbf{w})q(s,a;w)二、训练神经网络1.用TD算法更新价值网络2.用策略梯度算法更新策略网络三、Ac
深度强化学习（王树森版）学习笔记（一）——机器学习基础向南而行灬机器学习人工智能深度学习
前言由于本人的工作与深度强化学习相关，想找个机会重新复习下深度强化学习的相关知识，正好手上有这本书，粗略一看感觉知识点挺简洁的，内容也挺全面，也提供了一些学习资料。所以开个坑记录一下这本书的学习过程。这本书的相关资料（PPT，源代码）可以在以下链接获取：https://www.ituring.com.cn/book/2982首先我们会按照这本书的顺序讲一下机器学习的一些基础理论部分。1.1线性模型
深度强化学习（王树森）笔记06 阿正的梦工坊 Reinforcement Learning 强化学习
深度强化学习（DRL）本文是学习笔记，如有侵权，请联系删除。本文在ChatGPT辅助下完成。参考链接DeepReinforcementLearning官方链接：https://github.com/wangshusen/DRL源代码链接：https://github.com/DeepRLChinese/DeepRL-ChineseB站视频：【王树森】深度强化学习(DRL)豆瓣:深度强化学习文章目录
深度强化学习_AlphaGo 王树森课程笔记淀粉爱好者深度学习机器学习人工智能
AlphaGo一、游戏规则二、设计思路三、Training1.策略网络1.1State(ofAlphaGoZero)1.2PolicyNetwork1.3BehaviorCloning1.4策略梯度2.价值网络2.1PolicyValueNetworks(AlphaGoZero)2.2训练价值网络四、Execution：MonteCarloTreeSearch1.主要思想2.MCTS步骤2.1St
深度强化学习之价值学习-王树森课程笔记淀粉爱好者机器学习神经网络深度学习
学习资料深度强化学习课程-王树森目录一、Value-basedlearning二、DeepQ-Network(DQN)1.原理2.DQN结构（以超级玛丽为例）3.用DQN操作Agent打游戏三、TemporalDifferenceLearning（TD算法）1.原始算法（类似BP）2.TD算法3.用TD算法学习DQN3.1应用条件3.2更新模型参数【基本思想】学习一个函数来近似Q∗Q^*Q∗函数一
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring