Wwwilling

【强化学习纲要】4 价值函数近似

- 4.1 价值函数近似基本原理
- - 4.1.1 Introduction: Scaling up RL
  - 4.1.2 梯度下降法
  - 4.1.3 线性价值函数近似
- 4.2 价值函数近似for prediction
- - 4.2.1 Incremental VFA(价值函数近似) Prediction Algorithms
  - 4.2.2 Monte-Carlo Prediction with VFA
  - 4.2.3 TD Prediction with VFA
- 4.3 价值函数近似for control
- - 4.3.1 Action-Value Function Approximation
  - 4.3.2 Incremental Control Algorithm
  - 4.3.3 Mountain Car Example
  - 4.3.4 Batch Reinforcement Learning
- 4.4 Deep Q networks
- - 4.4.1 Deep Neural Networks
  - 4.4.2 Deep Reinforcement Learning
  - 4.4.3 Deep Q-Networks(DQN)
  - 4.4.4 DQNs: Experience Replay（经验回放）
  - 4.4.5 DQNs: Fixed Targets
  - 4.4.6 Demo of DQNs

周博磊《强化学习纲要》
学习笔记
课程资料参见：https://github.com/zhoubolei/introRL.
教材：Sutton and Barton
《Reinforcement Learning: An Introduction》

4.1 价值函数近似基本原理

4.1.1 Introduction: Scaling up RL

之前我们遇到的都是状态很少的小规模问题，然后实际生活中很多问题都是大规模问题，如象棋( $10^{47}$ states），围棋( $10^{170}$ states)，那么怎么用model-free的方法去估计和控制这些大规模问题的价值函数呢？

用查表的方式展现
- Q table，横轴是所有状态，纵轴是所有的action，通过查表，我们找到某列最大值的action是需要采取的action。但是如果状态非常多，table会非常大。
- 挑战：状态或者action太多；很难单独学习每个状态
怎样避免用一个table表征每个状态的模式？
- reward function or dynamics function
- value function, state-action function
- policy function
  都是需要表示每一个状态的。
解决方案：用函数近似的方法估计

给定一个价值函数，我们可以用带参数的近似函数去近似它，如式子中用 $w$ 来拟合真实的价值函数。
好处：可以把见到的状态泛化到没有见到的状态，如果状态非常多，我们采样的状态是非常有限的。因此我们引入一个近似函数，通过插值的方法，把中间没有见到的函数估计出来。
用MC或TD learning的方法近似估计参数 $w$

价值函数的类别

类别1：输入是一种状态，输出是价值函数的值
类别2：对于q函数，将state和action作为输入，然后输出是给定状态和action的价值是多少
类别3：对于q函数，输入是状态，输出是对于所有哦action可能的q值，然后再输出后取argmax，就可以把最可能的action选出来

函数估计

多种表示形式：

Linear combinations of features。把特征用线性的形式叠加出来。
神经网络。
决策树
Nearest neighbors
主要使用前两类，因为是可微分的，我们可以很方便的优化近似函数里面的参数。

4.1.2 梯度下降法

有一个objective function $J (w)$ ，怎样优化参数 $w$ 能够极小化 $J (w)$
定义 $J (w)$ 关于参数 $w$ 的梯度：
Adjust $w$ in the direction of the negative gradient, $\alpha$ 是step-size（步长），得到极小值

Value Function Approximation with an Oracle

价值函数估计的时候也是用的梯度下降法。如果已知每个状态，应该如何优化价值函数？

Oracle真值函数，假设我们知道真实的价值函数 $v^{\pi}(s)$ 是多少，就可以去拟合逼近它。
因此可以把 $J (w)$ 写成通过优化 $w$ 可以使得mean squared error极小化。
直接计算gradient，通过gradient descend可以迅速迭代然后找到可以极小化对应客观函数的 $w$

用特征向量描述状态

比如：

Mountain Car
特征：车的位置，和速度
Cart Pole
特征：位置，速度，木杆的角度，旋转的角度
AlphaGo
特征：棋子位置，…每一个特征都是19*19的feature map，48个feature map叠加起来作为alphago的输入特征，传给价值函数

4.1.3 线性价值函数近似

用特征的线性叠加表示价值函数

状态转化成特征向量 $x (s)$ ，参数为 $w$
优化objective function，使得线性加和的函数和真实的函数尽量的接近，mean square loss尽量的小
取一个gradient

Update = StepSize × PredictionError × FeatureValue
这个形式只有线性模型近似价值函数的时候才有
Stochastic gradient descent（随机梯度下降SGD)可以达到一个global optimum（全局优化）的值，因为是线性的，得到的local optimum（局部优化）接近global optimum（全局优化）。因此可以找到一个最佳的拟合价值函数 $v^{\pi}(s)$ 的模型。

Linear Value Function Approximation with Table Lookup Feature

Table lookup feature是one-hot vector。

向量基本上都是0，只有一个元素是1，当前状态等于某一个状态，对应的那个元素会变成1，除了那个状态其他都是0.
one-hot vector用线性模型来表示

参数向量 $w_1$ … $w_n$ 乘以状态state的feature
由于是one-hot vector，可以得到拟合价值函数就等于当前对应于某个位置的 $w_k$ ；因此现在优化的就是去估计 $w_k$

4.2 价值函数近似for prediction

实际上，如果没有oracle(真值函数）如何去拟合价值函数呢？
回顾model-free prediction
- 给定一个policy，估计每个状态它的价值是多少。
- 使用MC或TD的方法来优化价值函数
可以再model-free的过程中，把函数近似放到loop里面去，同时进行优化：一边优化价值函数，一边利用优化好的价值函数优化价值函数的近似。

4.2.1 Incremental VFA(价值函数近似) Prediction Algorithms

假设我们有真值 $v^{\pi}(s)$ 的话，可以计算gradient：
但是实际情况是并没有真值，并没有oracle，只有reward
因此我们直接用target来替代真值
- 对于MC，用 $G_t$ 去替代
- 对于TD(0)，用TD target来替代，由两部分组成：实际走完这一步的reward；bootstrapping估计得到下一个状态的近似价值函数

4.2.2 Monte-Carlo Prediction with VFA

因为MC是采样得到的，因此 $G_t$ 是unbiased无偏值的，但是对于真值是noisy sample
unbiased的意思是：取 $G_t$ 的期望是可以直接等于真值的，是noisy的，要采样很多次。
因此可以通过MC的方法得到很多状态，每一个状态得到对应的return，这样就得到很多的training pair
得到training pair后，使用类似于监督的方法产生gradient；如果是线性的话，可以提出特征 $x(s_t)$
利用MC产生的gradient可以对价值函数估计参数进行优化，这样就可以得到一个近似的价值函数。

4.2.3 TD Prediction with VFA

TD target是biased偏置的
因为如果取target的期望的话是不等于 $v^{\pi}(s_t)$ 的，因为TD target是包含了正在优化的参数 $w$ 的
也可以产生一些training pair
同样放入gradient里面

也叫做semi-gradient，不是真实的gradient，因为它包含优化的参数 $w$ ，不同的时刻 $w$ 不同所以gradient不一定很准。
TD(0)如果采取的是线性特征 $x (s)$ ，得到的是全局最优解。

4.3 价值函数近似for control

通过Generalized policy iteration达到

Policy evaluation：approximate近似 policy evaluation，将q table用一个带参数 $w$ 的函数来近似
Policy improvement：采用 $\epsilon$ -greedy 改进算法

4.3.1 Action-Value Function Approximation

用一个函数去拟合价值函数
假设是知道ture action-value(oracle) $q^{\pi}(s,a)$ 的，因此可以比较容易的写出objective function
写出gradient，可以优化找到local minimum

Linear Action-Value Function Approximation

定义特征，给定状态和行为，定义一些对应的特征向量，来刻画状态是怎么被描述的
用线性拟合，定义好特征以后直接可以加和，元素的强度 $w_j$ 是我们需要学习的参数
这样我们就可以用gradient descent写出来

gradient等于step-size乘以估计的差异乘以特征向量

4.3.2 Incremental Control Algorithm

实际上，这里没有oracle，因此

用MC的return $G_t$ 去替代oracle
对于Sarsa，可以用Sarsa TD target去替代oracle
对于Q-learning，用Q-learning TD target去替代oracle，与Sarsa不同的是TD target是取一个max，估计q函数的近似并对应下一步的状态 $s_{t+1}$ 并取对应得a(action这个值）最大得值作为target一部分

这样就可以得到gradient，然后用这个gradient去更新q函数近似函数的参数。

Semi-gradient Sarsa for VFA Control

开始的时候初始化需要优化的 $w$ ；如果是结束状态的话就用return；如果不是结束状态的话就往前走一步，采样出A’，构造出它的TD target作为oracle，然后算出它的gradient；每往前走一步更新一次 $w$ ；S和A都更新。

4.3.3 Mountain Car Example

目标：控制车能够到达的位置
- 可以控制的：油门，油门的前后，以及不踩油门
定义状态，state feature actor描述状态特征
- 把2D平面画格子，看当前位置，落在哪个格子就用哪个格子的index来作为它的特征来描述它
构造出特征后，q函数的近似：

用线性函数近似它，把构造的特征 $weight^T$ 求和。
可视化q函数的变化
拟合形式：cost-to-go function

得到拟合的q函数后，在每一个action取最大值表示出来。
随着training的过程，episode越来越多，会得到一个螺旋上升的形状。表示在某一个位置(position)以及velocity，action最大的值是多少。

学到q函数后，可以进行插值把形状表示出来。
代码：（如何构造特征函数，以及怎么把特征函数放到q-learning里面的）
https://github.com/cuhkrlcourse/RLexample/blob/master/modelfree/q_learning_mountaincar.py

Convergence收敛的问题

对于Sarsa和Q-learning这两种gradient：
- Sarsa:
- Q-learning:
TD这个方法如果是有VFA（价值函数估计）的话，它的gradient是不正确的，因为它的gradient本身包含了 $w$ 。
并且update包含了两个近似过程：Bellman backup和underlying value function。两个近似都会引入很多的噪声。
因此TD方法用off-policy或者用non-linear function approximation拟合的时候，优化过程不是很稳定，这也是强化学习为什么不稳定容易crash，相对于监督学习非常不稳地，因为它并没有一个值可以收敛。
Off-policy control的挑战：behavior policy（采集数据的策略）和target policy（实际优化的策略）并不相同，导致价值函数估计也非常不准确。

The Deadly Triad(死亡三角) for the Danger of Instability and Divergence

潜在不确定因素：

Function approximation：当利用一个函数来近似价值函数或者q函数时，因为用了近似，就会引入误差，这样就会导致很多问题。
Bootstrapping：TD方法采取bootstrapping，基于之前的估计来估计当前的函数，这样也是引入了噪声，有时会使网络over confident；MC方法相对于TD方法好一些，因为MC使用的实际的return，且是unbiased，期望总是等于真值。
Off-policy training：采集的data是用behavior policy采集的，但是优化的函数又是用的另一个函数，引入了不确定因素。
这也是前言研究想要克服的问题。

控制算法的收敛性问题

MDP是小规模的，状态有限的时候，用Lookup table来表示它，对于MC,Sarsa,Q-learning都是可以找到一个最优解的；
如果MDP是比较大规模的，采取的方法是线性特征拟合的话，MC和Sarsa是可以找到一个近似最优解的价值函数，Q-learning不行；
如果选取的是非线性函数近似，比如神经网络，这三种算法都很难保证最后得到的解是最优解。

4.3.4 Batch Reinforcement Learning

前面的算法都是单步的强化学习算法，但实际的优化过程中，单步的incremental gradient descent是效率很低的。
因此有了Batch的方法，有了training batch，直接优化整个batch里面所有样本，使得函数可以拟合。

Least Square Prediction

假设有一个数据库(experience $D$ )里面包含了采集到的pair $< s_{1}, v_{1}^{π} >$ ,value可以用return或者TD target来替换
目标：优化 $w$ 来拟合整个采集到的数据 $D$ ，使得在这个数据库里面每个pair都极小化。
实际是想得到 $w^*$ 这样极小化的值

得到一个 $w^*$ 使得可以在数据集 $D$ 上面mean square loss极小化

Stochastic Gradient Descent（采样） with Experience Replay

如果 $D$ 集合非常大的话，数据没法全部放进来，因此可以采用采样的办法。
一个Batch包含10个或者20个样本，这些样本是从pair中随机采样如20个样本
可以把这20个样本的gradient算出来，用gradient优化函数

然后重复，随机采样，优化…
通过这个迭代的办法，最后可以收敛到mean square solution

通过迭代的方法得到的 $w$ 和直接一步优化得到的 $w$ 是一样的。

4.4 Deep Q networks

如何用非线性函数来拟合价值函数?

线性价值函数拟合

先定义好特征函数，当给定状态的时候用 $x (s)$ 这个函数可以提取出对应的特征，然后把线性价值叠加来估计 $v$ 值。
Objection function
梯度
不同的MC或TD方法可以把真值 $v^{\pi}(s)$ 替换
- MC，用sample return作为target
- TD，用one- step的奖励和bootstrap的 $v$ 值作为target算它的梯度进行优化

线性vs非线性价值函数拟合

线性价值函数拟合需要人为设计好的特征，但是这是非常困难的一件事情。
用非线性价值函数拟合，可以把特征提取和价值函数学习结合起来。
神经网络是非常常用的方法。

4.4.1 Deep Neural Networks

Multiple layers of linear functions, with non-linear operators between layers
优化神经网络参数的时候，用的chain rule（链式法则）的方法backpropagate（反向传播）将梯度传回，将每一个参数都进行优化。

卷积神经网络

Convolution encodes the local information in 2D feature map
卷积核，reLU非线性函数，batch normalization, etc
常用于计算机视觉领域
推荐CNN课程：http://cs231n.github.io/convolutional-networks/

4.4.2 Deep Reinforcement Learning

深度学习和强化学习的结合。

用神经网络来拟合强化学习的各个参数，如：
- 价值函数(value function)
- 策略函数(policy function)
- 环境模型(world model)
损失函数常用stochastic gradient descent(sGD随机梯度下降)来进行优化
挑战：
- 有很多模型参数要优化
- “死亡三角”
  - 非线性拟合
  - Bootstrapping
  - Off-policy training

4.4.3 Deep Q-Networks(DQN)

2015年DeepMind提出的网络结构，发表到Nature的论文：Human-level control through deep reinforcement learning
用神经网络来拟合Q 函数
在Atari游戏有很好的效果

4 Atari Games: Breakout, Pong, Montezuma’s Revenge, Private Eye

回顾：Action-Value Function Approximation

参数 $w$ ，拟合q函数
构造出MSE(mean-square error)去优化，使得函数可以近似q函数
用sGD（随机梯度下降法）优化找到局部最优值

回顾：Incremental Control Algorithm

DQN for Playing Atari Games

用神经网络来拟合q函数；
游戏页面连续的4帧的pixel作为输入；
输出是18个操作
奖励是游戏的增减分数

Q-learning with Value Function Approximation

两个要克服的问题
- 样本之间的相关性(correlation)。在强化学习里面收集的数据是一个时序的玩游戏的序列，如果是在像素级别，关联性是很高的，因为很可能只有很小的一部分有变化，其他都很类似。所以不同时序之间的correlation是非常高的，这样就使得学习非常困难。
- Non-stationary targets。因为target里面已经自带了模型的参数，使得训练变得困难。
Deep Q-learning用了两种方法克服：
- 针对第一个问题，采用Experience replay的方法。
- 针对第二个问题，采用Fixed Q targets的方法。使得TD target在构建的时候，用第二个网络来构建，另外还有一个学习的网络，这样就有两个网络，就会有一些时间差。

4.4.4 DQNs: Experience Replay（经验回放）

采用一个容器(container)作为一个replay memory $D$ ，在replay memory里面存了很多不同环节得到的sample。

每一个格子存的sample叫做transition tuple，包含四个变量 $s_t,a_t,r_t,s_{t+1})$ ，分别是当前的位置（状态）、采取的某个行为、得到的奖励、下一个状态。把每一个tuple打散存在replay memory里面。
在做experience replay（经验回放），在训练的过程中：
- 有一个网络一直在玩游戏，采集新的tuple，然后把tuple放到容器里面；另一方面，为了训练这个网络，有一个采样的过程，如在replay buffer里面进行随机的采样，因此每次采集到的sample都有可能是在不同的episode里面出现的。
- 这样就得到了相关度比较低的tuple后，构建q-learning的target
- 有了TD target以后，就可以构造出q函数拟合函数的Δw

4.4.5 DQNs: Fixed Targets

为了提高稳定性，target网络有确定的weights，或者target network和实际优化的网络之间存在一定时间差。
target里面的权重用 $w^-$ 来表征， $w$ 则用来更新。
产生target的过程
- 先从replay buffer里面采集一些transition tuple，相关度较低
- 然后target network用 $w^-$ 来产生
- 然后进行优化，得到Δw
  
  $w^-$ 和 $w$ 有一定的时间差，在很多时候都是不同的， $w^-$ 更新的要慢一些，这就使得TD target和实际的不同。

Why fixed target

例子：想要优化一个网络使得它能够更好的估计出它的q target。猫是q优化的过程，猫要能够追上（预测）到q target(老鼠）
开始的时候猫可能离老鼠很远，但是猫追老鼠的同时老鼠也在动，因为q target与模型是相关的，在每次优化后，随着网络的更新，q target也会改变。
导致猫和老鼠都在动，在优化空间里面乱动
这样就会产生非常奇怪的优化轨迹，相当于使得整个训练过程非常不稳定
因此修复这个问题的方法是可以固定target，让老鼠动的不是那么频繁，如让它每5步动一次，这样猫就有足够的时间去接近target，逐渐距离会越来越小，这样就可以最终拟合得到最好的q network。这就是为什么需要fixed target。

DQNs在Atari上的结果

Abalation Study on DQNs

4.4.6 Demo of DQNs

Demo of Breakout by DQN:
https://www.youtube.com/watch?v=V1eYniJ0Rnk
Demo of Flappy Bird by DQN:
https://www.youtube.com/watch?v=xM62SpKAZHU
Code of DQN in PyTorch:
https://github.com/cuhkrlcourse/DeepRL-Tutorials/blob/master/01.DQN.ipynb
Code of Flappy Bird:
https://github.com/xmfbit/DQN-FlappyBird

Code of DQN in PyTorch:

Imports

import gym
from gym import wrappers

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

import numpy as np

from IPython.display import clear_output
from matplotlib import pyplot as plt
%matplotlib inline

import random
from timeit import default_timer as timer
from datetime import timedelta
import math
from utils.wrappers import make_atari, wrap_deepmind, wrap_pytorch

from utils.hyperparameters import Config
from agents.BaseAgent import BaseAgent

Hyperparameters

config = Config()

config.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

#epsilon variables
config.epsilon_start = 1.0
config.epsilon_final = 0.01
config.epsilon_decay = 30000
config.epsilon_by_frame = lambda frame_idx: config.epsilon_final + (config.epsilon_start - config.epsilon_final) * math.exp(-1. * frame_idx / config.epsilon_decay)

#misc agent variables
config.GAMMA=0.99
config.LR=1e-4

#memory
config.TARGET_NET_UPDATE_FREQ = 1000
config.EXP_REPLAY_SIZE = 100000
config.BATCH_SIZE = 32

#Learning control variables
config.LEARN_START = 10000
config.MAX_FRAMES=1000000

Replay Memory

class ExperienceReplayMemory:
    def __init__(self, capacity):
        self.capacity = capacity
        self.memory = []

    def push(self, transition):
        self.memory.append(transition)
        if len(self.memory) > self.capacity:
            del self.memory[0]

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

Network Declaration

class DQN(nn.Module):
    def __init__(self, input_shape, num_actions):
        super(DQN, self).__init__()
        
        self.input_shape = input_shape
        self.num_actions = num_actions

        self.conv1 = nn.Conv2d(self.input_shape[0], 32, kernel_size=8, stride=4)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=4, stride=2)
        self.conv3 = nn.Conv2d(64, 64, kernel_size=3, stride=1)

        self.fc1 = nn.Linear(self.feature_size(), 512)
        #输出action
        self.fc2 = nn.Linear(512, self.num_actions)
        
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.relu(self.conv3(x))
        x = x.view(x.size(0), -1)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)

        return x
    
    def feature_size(self):
        return self.conv3(self.conv2(self.conv1(torch.zeros(1, *self.input_shape)))).view(1, -1).size(1)

Agent

class Model(BaseAgent):
    def __init__(self, static_policy=False, env=None, config=None):
        super(Model, self).__init__()
        self.device = config.device

        self.gamma = config.GAMMA
        self.lr = config.LR
        self.target_net_update_freq = config.TARGET_NET_UPDATE_FREQ
        self.experience_replay_size = config.EXP_REPLAY_SIZE
        self.batch_size = config.BATCH_SIZE
        self.learn_start = config.LEARN_START

        self.static_policy = static_policy
        self.num_feats = env.observation_space.shape
        self.num_actions = env.action_space.n
        self.env = env

        self.declare_networks()
        #构造target model  
        self.target_model.load_state_dict(self.model.state_dict())
        self.optimizer = optim.Adam(self.model.parameters(), lr=self.lr)
        
        #move to correct device
        #原来的model
        self.model = self.model.to(self.device)
        #target model
        self.target_model.to(self.device)

        if self.static_policy:
            self.model.eval()
            self.target_model.eval()
        else:
            self.model.train()
            self.target_model.train()

        self.update_count = 0

        self.declare_memory()
        

    def declare_networks(self):
        self.model = DQN(self.num_feats, self.num_actions)
        self.target_model = DQN(self.num_feats, self.num_actions)

    def declare_memory(self):
        self.memory = ExperienceReplayMemory(self.experience_replay_size)

    def append_to_replay(self, s, a, r, s_):
        self.memory.push((s, a, r, s_))


    def prep_minibatch(self):
        # random transition batch is taken from experience replay memory
        transitions = self.memory.sample(self.batch_size)
        
        batch_state, batch_action, batch_reward, batch_next_state = zip(*transitions)

        shape = (-1,)+self.num_feats

        batch_state = torch.tensor(batch_state, device=self.device, dtype=torch.float).view(shape)
        batch_action = torch.tensor(batch_action, device=self.device, dtype=torch.long).squeeze().view(-1, 1)
        batch_reward = torch.tensor(batch_reward, device=self.device, dtype=torch.float).squeeze().view(-1, 1)
        
        non_final_mask = torch.tensor(tuple(map(lambda s: s is not None, batch_next_state)), device=self.device, dtype=torch.uint8)
        try: #sometimes all next states are false
            non_final_next_states = torch.tensor([s for s in batch_next_state if s is not None], device=self.sdevice, dtype=torch.float).view(shape)
            empty_next_state_values = False
        except:
            non_final_next_states = None
            empty_next_state_values = True

        return batch_state, batch_action, batch_reward, non_final_next_states, non_final_mask, empty_next_state_values

    def compute_loss(self, batch_vars):
        batch_state, batch_action, batch_reward, non_final_next_states, non_final_mask, empty_next_state_values = batch_vars

        #estimate
        current_q_values = self.model(batch_state).gather(1, batch_action)
        
        #产生target的过程
        with torch.no_grad():
        #构造 max_next_q_values
            max_next_q_values = torch.zeros(self.batch_size, device=self.device, dtype=torch.float).unsqueeze(dim=1)
            if not empty_next_state_values:
                max_next_action = self.get_max_next_state_action(non_final_next_states)
                #构造max_next_q_values的时候是使用target network，
                #把上一帧的状态放到target network里面，然后取max action
                max_next_q_values[non_final_mask] = self.target_model(non_final_next_states).gather(1, max_next_action)
                
            expected_q_values = batch_reward + (self.gamma*max_next_q_values)

		#loss
        diff = (expected_q_values - current_q_values)
        loss = self.huber(diff)
        loss = loss.mean()

        return loss

    def update(self, s, a, r, s_, frame=0):
        if self.static_policy:
            return None

        self.append_to_replay(s, a, r, s_)

        if frame < self.learn_start:
            return None

        batch_vars = self.prep_minibatch()

        loss = self.compute_loss(batch_vars)

        # Optimize the model
        self.optimizer.zero_grad()
        loss.backward()
        for param in self.model.parameters():
            param.grad.data.clamp_(-1, 1)
        self.optimizer.step()

		#每个一段时间更新一次target model，把优化的model copy到target里面来，
		#这样开始两个network就一致，然后又让target network慢一些再更新一下
        self.update_target_model()
        self.save_loss(loss.item())
        self.save_sigma_param_magnitudes()


    def get_action(self, s, eps=0.1):
        with torch.no_grad():
            if np.random.random() >= eps or self.static_policy:
                X = torch.tensor([s], device=self.device, dtype=torch.float)
                a = self.model(X).max(1)[1].view(1, 1)
                return a.item()
            else:
                return np.random.randint(0, self.num_actions)

    def update_target_model(self):
        self.update_count+=1
        self.update_count = self.update_count % self.target_net_update_freq
        if self.update_count == 0:
            self.target_model.load_state_dict(self.model.state_dict())

    def get_max_next_state_action(self, next_states):
        return self.target_model(next_states).max(dim=1)[1].view(-1, 1)

    def huber(self, x):
        cond = (x.abs() < 1.0).to(torch.float)
        return 0.5 * x.pow(2) * cond + (x.abs() - 0.5) * (1 - cond)

Plot Results

def plot(frame_idx, rewards, losses, sigma, elapsed_time):
    clear_output(True)
    plt.figure(figsize=(20,5))
    plt.subplot(131)
    plt.title('frame %s. reward: %s. time: %s' % (frame_idx, np.mean(rewards[-10:]), elapsed_time))
    plt.plot(rewards)
    if losses:
        plt.subplot(132)
        plt.title('loss')
        plt.plot(losses)
    if sigma:
        plt.subplot(133)
        plt.title('noisy param magnitude')
        plt.plot(sigma)
    plt.show()

Training Loop

start=timer()

env_id = "PongNoFrameskip-v4"
env    = make_atari(env_id)
env    = wrap_deepmind(env, frame_stack=False)
env    = wrap_pytorch(env)
model = Model(env=env, config=config)

episode_reward = 0

observation = env.reset()
for frame_idx in range(1, config.MAX_FRAMES + 1):
    epsilon = config.epsilon_by_frame(frame_idx)

    action = model.get_action(observation, epsilon)
    prev_observation=observation
    observation, reward, done, _ = env.step(action)
    observation = None if done else observation

    model.update(prev_observation, action, reward, observation, frame_idx)
    episode_reward += reward

    if done:
        observation = env.reset()
        model.save_reward(episode_reward)
        episode_reward = 0
        
        if np.mean(model.rewards[-10:]) > 19:
            plot(frame_idx, model.rewards, model.losses, model.sigma_parameter_mag, timedelta(seconds=int(timer()-start)))
            break

    if frame_idx % 10000 == 0:
        plot(frame_idx, model.rewards, model.losses, model.sigma_parameter_mag, timedelta(seconds=int(timer()-start)))

model.save_w()
env.close()

DQNs总结

DQN uses experience replay and fixed Q-targets
Store transition $s_t ,a_ t ,r_{t+1} ,s_{t+1})$ in replay memory D
Sample random mini-batch of transitions $(s, a, r, s^{'})$ from D
Compute Q-learning targets w.r.t. old, fixed parameters $w^−$
Optimizes MSE between Q-network and Q-learning targets using stochastic gradient descent

改进DQN

Double DQN： Deep Reinforcement Learning with Double Q-Learning.Van Hasselt et al, AAAI 2016
Dueling DQN： Dueling Network Architectures for Deep Reinforcement Learning. Wang et al, best paper ICML 2016
Prioritized Replay： Prioritized Experience Replay. Schaul et al, ICLR 2016
技术实现：
https://github.com/cuhkrlcourse/DeepRL-Tutorials

March 31, 2020: Agent57
五年内的改进集合
https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

Optional Homework

Go through the Jupytor tutorial and training your own gaming agent:
https://github.com/cuhkrlcourse/DeepRL-Tutorials
Optional Homework 2:
https://github.com/cuhkrlcourse/ierg6130-assignment

你可能感兴趣的:(强化学习纲要,神经网络,算法,python,人工智能,强化学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri