Angel濠梁之上

强化学习 DQN Pytorch

本文是参考莫凡的代码，参考up主"Explorer2612"，up主“EvilGeniusMR”以及自己的一些理解进行的DQN代码总结。

1.游戏环境

采用gym中的实例CartPole-v0环境，环境简介如下

2.强化学习伪代码

（1）原文

DQN的基本思想最开始在如下文章内提出

文中DQN的伪代码如下

（2）原文中提出的DQN步骤：

1. 初始化

定义经验池的大小和形状，初始化经验池
初始化评估网络 Q Network，该网络是较新的网络
初始化目标网络 Q-Target Network，该网络较稳定，隔一段时间才与Q更新成一样

2. 循环各局游戏——循环1

将agent初始化，得到原始状态
在该局游戏内，反复进行操作，直到游戏结束（循环2）

3. 每一局游戏内的循环——循环2

设置一个（0，1）之间的数ε，生成随机数，根据该随机数与ε的大小关系判断是随机选取一个动作a还是通过Q网络选取一个动作a
执行动作a，与环境交互，得到奖励和下一个状态
将学到的经验，即四元组作为一个transition放入经验池
判断游戏是否结束
- 如果游戏结束了，直接得到奖励
- 如果游戏没结束，计算Q_value和Q_target value，根据TD error更新Q网络的参数
经过指定回合后，将Q_Target网络的参数与Q网络的参数更新为一致

3.初始化环境等参数

（1）导入环境

import torch,gym
import torch.nn.functional as F
import torch.nn as nn
import numpy as np

（2）定义超参数（Hyper Parameters）

1）批量大小

根据MBGD（小批量梯度下降）的思想，每次学习选用一小批的样本进行学习，而不用单一样本，因为单一样本在计算梯度下降时非常不平稳。

BATCH_SIZE = 32

2）优化器的学习率 $\upsilon$

优化器optimizer能加速神经网络的训练，Adam优化器是最常用的优化器（融合了动量和自适应，采用修正避免了冷启动的问题），本质仍是梯度下降，计算梯度 $g$ 后通过学习率 $\upsilon$ 更新参数： $\theta_k⬅\theta_{k-1}-\upsilon g$

学习率 $\upsilon$ 一般设置为0.01

LR = 0.01

3）策略选择时的参考值 $\epsilon$

生成一个在[0, 1)内的随机数，根据随机数与 $\epsilon$ 的大小比较来判断是选择最优动作还是随机选择动作

EPSILON = 0.9

4）折扣因子 $\gamma$

用于计算TD Target： $y_j = r_j +\gamma max Q'$

GAMMA = 0.9

5）目标网络更新频率

学习100次以后，将目标网络的参数与评估网络的参数更新为一致（100）

TARGET_REPLACE_ITER = 100

6）经验池的大小

经验池最多存储1000条数据，此数可以更改

MEMORY_CAPACITY = 1000

（3）环境与输入输出

1）获取环境

env = gym.make('CartPole-v0').unwrapped

2）获得输入与输出的数量大小

N_ACTIONS = env.action_space.n
N_STATES = env.observation_space.shape[0]

（4）代码总结

import torch,gym
import torch.nn.functional as F
import torch.nn as nn
import numpy as np

# 超参数：Hyper Parameters
BATCH_SIZE = 32
LR = 0.01                    # 学习率 learning rate
EPSILON = 0.9                # greedy policy
GAMMA = 0.9                  # 折扣因子 reward discount
TARGET_REPLACE_ITER = 100    # target网络更新频率 Target Update Frequency
MEMORY_CAPACITY = 1000

# 环境与输入输出
env = gym.make('CartPole-v0').unwrapped
N_ACTIONS = env.action_space.n
N_STATES = env.observation_space.shape[0]
ENV_A_SHPAE = 0 if isinstance(env.action_space.sample(),int) else env.action_space.sample().shape

4.定义神经网络

（1）神经网络的简要解释

基于神经网络的机器学习是自己会学习的算法。

机器学习的目标：找到神经网络的系数
机器学习的模型：系数
别人训练好的模型：已经找好的系数
不断试错，不断改正，找到正解
- 初始化权重
- 按照权重计算结果
- 计算误差
- 根据误差调整权重
- 重复

参考教学视频：大话神经网络

（2）DQN的神经网络

1）初始化网络

①执行父类构造函数

nn.Module的子类函数必须在构造函数中执行父类的构造函数

super(Net, self).__init__()

②定义第一个全连接层并初始化参数

设置第一个全连接层，即输入层到隐藏层

注：

该实例里，输入为状态数，即N_STATES = 4，隐藏层神经元设置为20个
初始化可以让神经网络在学习的过程中更容易收敛，这里将权重初始化为<均值为0，方差为0.1的正态分布>

self.fc1 = nn.Linear(N_STATES,20)
self.fc1.weight.data.normal_(0,0.1)

③定义第二个全连接层并初始化参数

设置第二个全连接层，即隐藏层到输出层

注：

该实例里，隐藏神经元设置为20个，输出为动作数，即N_ACTIONS = 2
权重初始化为均值为0，方差为0.1的正态分布

self.out = nn.Linear(20,N_ACTIONS)
self.out.weight.data.normal_(0,0.1)

2）前向传播

输入到第一层隐藏层进行计算，对结果使用激活函数，输入到输出层进行计算，得到的结果即为该神经网络的最后输出结果，最后一层的结果无需使用激活函数，因为此时输出结果为各动作的得分而不是概率

x = self.fc1(x)
x = F.relu(x)
action_value = self.out(x)
return action_value

3）总结：神经网络类的代码

# 定义Net类 (定义网络)
class Net(nn.Module):
    def __init__(self):     # 定义Net的一系列属性
        super(Net, self).__init__()             # nn.Module的子类函数必须在构造函数中执行父类的构造函数
        self.fc1 = nn.Linear(N_STATES,20)       # 设置第一个全连接层(输入层到隐藏层): 状态数个（4个）神经元到20个神经元
        self.fc1.weight.data.normal_(0,0.1)     # 初始化，为了让神经网络在学习过程中更加容易收敛
        self.out = nn.Linear(20,N_ACTIONS)      # 设置第二个全连接层(隐藏层到输出层): 20个神经元到动作数个（2个）神经元
        self.out.weight.data.normal_(0,0.1)     # 权重初始化(均值为0，方差为0.1的正态分布)

    def forward(self,x):    # 定义forward函数 (x为状态)
        x = self.fc1(x)                         # 连接输入层到隐藏层
        x = F.relu(x)                           # 使用激励函数ReLU来处理经过隐藏层后的值
        action_value = self.out(x)              # 连接隐藏层到输出层，获得最终的输出值 (即动作值)
        return action_value                     # 返回动作值

5.定义DQN类

（1）初始化DQN并定义一系列属性

考虑到DQN的实现流程，在初始化类的操作里，需要定义两个神经网络、定义学习的次数、定义经验池的相关属性、定义学习率的大小、并定义优化器相关属性。

1）创建两个神经网络

DQN的核心是采用两个神经网络，即评估网络和目标网络。评估网络是DQN选择动作的核心，每次选择Q值最大的动作，每次都根据TD error和梯度计算更新评估网络的参数；而目标网络定期更新，较为稳定。

self.eval_net = Net()
self.target_net = Net()

3）定义学习的次数

由于目标网络是定期更新，需要定义学习了多少次，以便将目标网络的参数与评估网络的参数更新为一致

self.learn_step_counter = 0

4）定义经验池的相关属性

经验池用于存储已经学过的经验，经验池的大小可以人为设置，根据场景的不同设置为不同值，在CartPole实例中一般设置为1000
每次学习后都将学习到的经验转化为一条transition存入经验池，如果经验池已满就覆盖之前的经验，保证经验池的数据最多为1000条
存储的经验即四元组，当前状态，选择动作，与环境交互得到的奖励和下一个状态，数量为N_STATES + 1 + 1 + N_STATES = 10

self.memory_counter = 0   # 用于计数，已经存储了多少条经验
self.memory = np.zeros((MEMORY_CAPACITY, N_STATES * 2 + 2))	# 经验池的大小为1000×10

5）定义优化器相关属性

使用Adam优化器和均方损失函数

self.optimizer = torch.optim.Adam(self.eval_net.parameters(),lr = LR)
self.loss_func = nn.MSELoss()

6）总结：初始化代码

def __init__(self):     # 定义DQN的一系列属性
    self.eval_net,self.target_net = Net(),Net()     # 利用Net创建两个神经网络: 评估网络和目标网络
    self.learn_step_counter = 0         # for target updating
    self.memory_counter = 0             # for storing memory
    self.memory = np.zeros((MEMORY_CAPACITY, N_STATES * 2 + 2))              # 初始化记忆库，一行代表一个transition,1000×10
    self.optimizer = torch.optim.Adam(self.eval_net.parameters(),lr = LR)   # 使用Adam优化器 (输入为评估网络的参数和学习率)
    self.loss_func = nn.MSELoss()       # 使用均方损失函数(loss(xi, yi)=(xi-yi)^2)

（2）定义动作选择函数

1）输入状态处理

输入状态x为numpy.ndarray形式，大小为4的一维数组。为了便于计算，需要转变为tensor形式，大小为torch.Size([1, 4])。因此，需要在dim=0处增加维数为1的维度。

x = torch.unsqueeze(torch.FloatTensor(x),0)

unsqueeze()函数
函数功能：升维，参数表示在哪个地方加一个维度，简单理解如下：

0表示在张量最外侧加一个中括号变成第一维

1表示在每个数外面都加一个中括号

举例：

import torch  
input = torch.arange(0,3)  
print(input)          # --→ tensor([0, 1, 2])  
print(input.shape)    # 大小为3 --→ torch.Size([3])  
print(input.unsqueeze(0))   # --→ tensor([[0, 1, 2]])  
print(input.unsqueeze(0).shape)     # 大小为1x3 --→ torch.Size([1, 3])  
print(input.unsqueeze(1))   # --→ tensor([[0],[1],[2]])  
print(input.unsqueeze(1).shape)     # 大小为3x1 --→ torch.Size([3, 1])
t = torch.as_tensor(np.array([1,0,0])).unsqueeze(-1)      # -> tensor([[1],[0],[0]], dtype=torch.int32)

2）动作选择

生成一个在[0, 1)内的随机数，如果该随机数小于 $\epsilon$ ，则选择最优动作，否则选择随机动作

①选择最优动作

将一个batch内的状态输入评估网络，通过前向传播，获得各动作对应的价值，找到各状态的动作最大价值所对应的动作

if np.random.uniform() < EPSILON:
	actions_value = self.eval_net.forward(x)                # 把状态x输入评估网络，前向传播获得动作值
	action = torch.argmax(actions_value,1).data.numpy()     # 输出每一行最大值的索引，转化为numpy ndarray的形式
	action = action[0]                                      # 输出动作最大的索引

②选择随机动作

动作只有两个值，0和1

else:
	action = np.random.randint(0,N_ACTIONS)                 # 这里action随机等于0或1 (N_ACTIONS = 2)

③动作选择改进

上述示例中， $\epsilon$ 是个定值，但是在训练初始阶段，希望尽可能的选择随机动作，在训练的后期，更多的选择已有的经验，因此可以在动作选择时加入学习次数的考虑。即学习次数较少时，随机数小一点

decline = 0.6  # 衰减系数
if random.randint(0, 100) < 100 * (decline ** learn_time):
    action = np.random.randint(0,N_ACTIONS)
else:
	actions_value = self.eval_net.forward(x)                # 把状态x输入评估网络，前向传播获得动作值
	action = torch.argmax(actions_value,1).data.numpy()     # 输出每一行最大值的索引，转化为numpy ndarray的形式
	action = action[0]                                      # 输出动作最大的索引

3）总结：动作选择函数代码

   def choose_action(self,x):              # 定义动作选择函数 (x为状态)
       x = torch.unsqueeze(torch.FloatTensor(x),0)     # 将x转换成32-bit floating point形式，并在dim=0增加维数为1的维度
       if np.random.uniform() < EPSILON:   # 生成一个在[0, 1)内的随机数
           # 随机数如果小于EPSILON，选择最优动作
           actions_value = self.eval_net.forward(x)                # 把状态x输入评估网络，前向传播获得动作值
           action = torch.argmax(actions_value,1).data.numpy()     # 输出每一行最大值的索引，转化为numpy ndarray的形式
           action = action[0]  # 输出动作最大的索引
       else:
           # 随机数如果大于等于EPSILON，随机选择动作
           action = np.random.randint(0,N_ACTIONS)                 # 这里action随机等于0或1 (N_ACTIONS = 2)
       return action     # 返回选择的动作 (0或1)

（3）定义记忆存储函数

1）拼接数组

根据上文所述，存储的经验为四元组，经验池的每条transition长度为10，即我们希望每一行的transition是一个大小为10的数组，因此使用np.hstack()函数进行拼接

注：
这里a和r都单独的数值，因此加[]把它们变成一个数组再做拼接

transition = np.hstack((s,[a,r],s_))

np.hstack()
函数功能：将参数元组的元素数组按水平方向进行叠加
举例：

import numpy as np  
arr1 = [1, 2, 3]  
arr2 = [4, 5]  
arr3 = [6, 7]  
res = np.hstack((arr1, arr2, arr3))     # -> [1 2 3 4 5 6 7]

2）向记忆库添加新的数据

如果记忆库满了，就覆盖旧的数据

index = self.memory_counter % MEMORY_CAPACITY   # 获取transition要置入的行数
self.memory[index,:] = transition               # 置入transition
self.memory_counter += 1                        # 计数加1

3）总结：记忆存储函数代码

  def store_transition(self,s,a,r,s_):        # 定义记忆存储函数 (这里输入为一个transition),每次将四个量存入并更新下标
      transition = np.hstack((s,[a,r],s_))    # 在水平方向上拼接数组(拼接的所有数组外面必须加括号，a和r是动作不是数组，需要转变为数组)
      # 如果记忆库满了，覆盖旧的数据
      index = self.memory_counter % MEMORY_CAPACITY   # 获取transition要置入的行数
      self.memory[index,:] = transition               # 置入transition
      self.memory_counter += 1                        # 计数加1

（4）定义学习函数

1）目标网络参数更新

每次训练都进行计数，当训练到一定次数后，更新目标网络的参数

if self.learn_step_counter % TARGET_REPLACE_ITER == 0:
    self.target_net.load_state_dict(self.eval_net.state_dict())     # 将评估网络的参数赋给目标网络
self.learn_step_counter += 1    # 学习步数加1

2）抽取批数据并存储到新数组

从经验池中随机抽取一定数量的数据，本实例中设置为抽取32个数，这些数不一定相邻，完全随机抽取，且有可能重复。

sample_index = np.random.choice(MEMORY_CAPACITY, BATCH_SIZE)     # 在[0, 2000)内随机抽取32个数
b_memory = self.memory[sample_index,:]                          # 将32个索引对应的那一行transition存入b_memory
 # 分别将这32个transition中的s，a，r，s_取出存储到如下新的数组
 b_s = torch.FloatTensor(b_memory[:, : N_STATES])    # 32×4
 b_a = torch.LongTensor(b_memory[:,N_STATES:N_STATES+1].astype(int)) # 32×1
 b_r = torch.FloatTensor(b_memory[:,N_STATES+1: N_STATES+2]) # 32×1
 b_s_ = torch.FloatTensor(b_memory[:, -N_STATES: ])  # 32×4

3）获取批数据的评估值

利用评估网络得到各动作对应的值，这里不是选择值最大的动作，而是根据经验池里取出的批数据来选择动作，原来存储的是什么动作，现在就选择什么动作

action_values_b = self.eval_net(b_s)          # 利用前向网络得到各动作的值(默认会调用forward函数)
q_eval = action_values_b.gather(1,b_a)        # 原来选择什么动作，这次依然选择什么动作，得到该动作对应的值

4）获得批数据的目标值

对下一个状态，使用目标网络求取动作代价值，并预测动作。
注：

这时不进行反向传递（使用detach()隔绝梯度）
直接求取的索引是32×1的张量，为了后续计算，需要变成1×32的张量

q_next = self.target_net(b_s_).detach()           # q_next不进行反向传递误差，所以detach
q_next_max = q_next.max(1)[0]                     # 返回最大值，不返回索引，32×1
q_next_max_shape = q_next_max.view(BATCH_SIZE,1)  # 将32×1的张量变成1×32
q_target = b_r + GAMMA * q_next_max_shape

5）更新的常用步骤

将32个评估值和目标值依次输入优化器，使用均方损失函数

self.optimizer.zero_grad()    # 清空上一步的残余更新参数值
loss.backward()               # 误差反向传播, 计算参数更新值
self.optimizer.step()         # 更新评估网络的所有参数

6）总结：学习函数代码

def learn(self):        # 定义学习函数(记忆库已满后便开始学习)
    # 目标网络参数更新
    if self.learn_step_counter % TARGET_REPLACE_ITER == 0:
        self.target_net.load_state_dict(self.eval_net.state_dict())     # 将评估网络的参数赋给目标网络
    self.learn_step_counter += 1    # 学习步数加1

    # 抽取记忆库中的批数据
    sample_index = np.random.choice(MEMORY_CAPACITY, BATCH_SIZE)     # 在[0, 2000)内随机抽取32个数，可能会重复
    b_memory = self.memory[sample_index,:]                          # 将32个索引对应的那一行transition存入b_memory
    # 分别将这32个transition中的s，a，r，s_取出存储到如下新的数组
    b_s = torch.FloatTensor(b_memory[:, : N_STATES])    # 32×4
    b_a = torch.LongTensor(b_memory[:,N_STATES:N_STATES+1].astype(int)) # 32×1
    b_r = torch.FloatTensor(b_memory[:,N_STATES+1: N_STATES+2]) # 32×1
    b_s_ = torch.FloatTensor(b_memory[:, -N_STATES: ])  # 32×4

    # 获取批数据的评估值和目标值，利用损失函数和优化器对评估网络进行参数更新
    # 评估值
    action_values_b = self.eval_net(b_s)          # 利用前向网络得到各动作的值(默认会调用forward函数)
    q_eval = action_values_b.gather(1,b_a)        # 原来选择什么动作，这次依然选择什么动作，得到该动作对应的值
    # 目标值
    q_next = self.target_net(b_s_).detach()          # q_next不进行反向传递误差，所以detach
    q_next_max = q_next.max(1)[0]                    # 返回最大值，不返回索引，32×1
    q_next_max_shape = q_next_max.view(BATCH_SIZE,1)  # 将32×1的张量变成1×32
    q_target = b_r + GAMMA * q_next_max_shape
    # 输入32个评估值和32个目标值，使用均方损失函数
    loss = self.loss_func(q_eval, q_target)
    # 更新的常用步骤
    self.optimizer.zero_grad()                                      # 清空上一步的残余更新参数值
    loss.backward()                                                 # 误差反向传播, 计算参数更新值
    self.optimizer.step()                                           # 更新评估网络的所有参数

5.训练

（1）各局游戏的循环

需要进行N多局游戏，游戏开始时重置环境为初始状态，每局游戏一直玩到结束为止，不断训练两个网络的参数，并记录得分情况

for i in range(400):
    print('<<<<<<<< % i)	# 记录是第i局游戏
    s = env.reset()  					# 重置环境
    episode_reward_sum = 0				# 该局游戏的得分初始化为0
    while True:
    	# 一局游戏内的循环
env.close()

（2）一局游戏内的循环

1）选择动作与显示

可以选择每走一步都显示动画，也可以隔断时间显示一次。本实例中每走一步都会更新显示。“走一步”即使用DQN的《动作选择函数》确定动作，然后执行该动作，与环境交互，获得奖励和下一个状态。

env.render()  # 显示实验动画
a = dqn.choose_action(s)  # 输入该步对应的状态s，选择动作
s_, r, done, info = env.step(a)  # 执行动作，获得反馈

2）修改奖励

为了更好的训练摆杆，修改奖励，不修改也可以进行训练。
这里结合摆杆移动的位置和摆杆偏移的角度作为新的奖励函数

x, x_dot, theta, theta_dot = s_
r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8
r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
new_r = r1 + r2

3）存储样本并记录得分

将现有状态、选择的动作、与环境交互获得的下一状态以及上述重新定义的奖励作为一个新的transition存储到经验池中。并记录该步获得的新奖励，更新这一局的总得分。

dqn.store_transition(s, a, new_r, s_)  # 存储样本
episode_reward_sum += new_r  # 逐步加上一个episode内每个step的reward

4）开始学习

最开始只探索，不学习，当经验池满了以后再开始学习

if dqn.memory_counter > MEMORY_CAPACITY:  # 如果累计的transition数量超过了记忆库的固定容量2000
    # 开始学习 (抽取记忆，即32个transition，并对评估网络参数进行更新，并在开始学习后每隔100次将评估网络的参数赋给目标网络)
    dqn.learn()

5）判断是否结束该局游戏

与环境交互得到的done为True则游戏结束，结束该局游戏（while True循环）

if done:
    print('episode%s---reward_sum: %s' % (i_episode, round(episode_reward_sum, 2)))
    break

s = s_  # 更新状态

6.代码总览

'''
 @Project: pythonProject1 
 @Author: xby
 @File:   try_dqn_2.py
 @Date    2022/10/17 11:05 
'''

import torch,gym
import torch.nn.functional as F
import torch.nn as nn
import numpy as np

# 超参数：Hyper Parameters
BATCH_SIZE = 32
LR = 0.01                    # 学习率 learning rate
EPSILON = 0.9                # greedy policy
GAMMA = 0.9                  # 折扣因子 reward discount
TARGET_REPLACE_ITER = 100    # target网络更新频率 Target Update Frequency
MEMORY_CAPACITY = 1000

# 环境与输入输出
env = gym.make('CartPole-v0').unwrapped
N_ACTIONS = env.action_space.n
N_STATES = env.observation_space.shape[0]

# 定义Net类 (定义网络)
class Net(nn.Module):
    def __init__(self):     # 定义Net的一系列属性
        super(Net, self).__init__()             # nn.Module的子类函数必须在构造函数中执行父类的构造函数
        self.fc1 = nn.Linear(N_STATES,20)       # 设置第一个全连接层(输入层到隐藏层): 状态数个（4个）神经元到20个神经元
        self.fc1.weight.data.normal_(0,0.1)     # 初始化，为了让神经网络在学习过程中更加容易收敛
        self.out = nn.Linear(20,N_ACTIONS)      # 设置第二个全连接层(隐藏层到输出层): 20个神经元到动作数个（2个）神经元
        self.out.weight.data.normal_(0,0.1)     # 权重初始化(均值为0，方差为0.1的正态分布)

    def forward(self,x):    # 定义forward函数 (x为状态)
        x = self.fc1(x)                         # 连接输入层到隐藏层
        x = F.relu(x)                           # 使用激励函数ReLU来处理经过隐藏层后的值
        action_value = self.out(x)              # 连接隐藏层到输出层，获得最终的输出值 (即动作值)
        return action_value                     # 返回动作值

# DQN:有两个网络——eval_net是更加靠前的新网络，不停试探进行新游戏；target_net更加稳定
class DQN(object):
    def __init__(self):     # 定义DQN的一系列属性
        self.eval_net,self.target_net = Net(),Net()     # 利用Net创建两个神经网络: 评估网络和目标网络
        self.learn_step_counter = 0         # for target updating
        self.memory_counter = 0             # for storing memory
        self.memory = np.zeros((MEMORY_CAPACITY, N_STATES * 2 + 2))              # 初始化记忆库，一行代表一个transition,1000×10
        self.optimizer = torch.optim.Adam(self.eval_net.parameters(),lr = LR)   # 使用Adam优化器 (输入为评估网络的参数和学习率)
        self.loss_func = nn.MSELoss()       # 使用均方损失函数(loss(xi, yi)=(xi-yi)^2)

    def choose_action(self,x):              # 定义动作选择函数 (x为状态)
        x = torch.unsqueeze(torch.FloatTensor(x),0)     # # 将x转换成32-bit floating point形式，并在dim=0增加维数为1的维度
        if np.random.uniform() < EPSILON:   # 生成一个在[0, 1)内的随机数
            # 随机数如果小于EPSILON，选择最优动作
            actions_value = self.eval_net.forward(x)                # 把状态x输入评估网络，前向传播获得动作值
            action = torch.argmax(actions_value,1).data.numpy()     # 输出每一行最大值的索引，转化为numpy ndarray的形式
            action = action[0]    # 输出动作最大的索引
        else:
            # 随机数如果大于等于EPSILON，随机选择动作
            action = np.random.randint(0,N_ACTIONS)                 # 这里action随机等于0或1 (N_ACTIONS = 2)
        return action     # 返回选择的动作 (0或1)

    def store_transition(self,s,a,r,s_):        # 定义记忆存储函数 (这里输入为一个transition),每次将四个量存入并更新下标
        transition = np.hstack((s,[a,r],s_))    # 在水平方向上拼接数组(拼接的所有数组外面必须加括号，a和r是动作不是数组，需要转变为数组)
        # 如果记忆库满了，覆盖旧的数据
        index = self.memory_counter % MEMORY_CAPACITY   # 获取transition要置入的行数
        self.memory[index,:] = transition               # 置入transition
        self.memory_counter += 1                        # 计数加1

    def learn(self):        # 定义学习函数(记忆库已满后便开始学习)
        # 目标网络参数更新
        if self.learn_step_counter % TARGET_REPLACE_ITER == 0:
            self.target_net.load_state_dict(self.eval_net.state_dict())     # 将评估网络的参数赋给目标网络
        self.learn_step_counter += 1    # 学习步数加1

        # 抽取记忆库中的批数据
        sample_index = np.random.choice(MEMORY_CAPACITY, BATCH_SIZE)     # 在[0, 2000)内随机抽取32个数，可能会重复
        b_memory = self.memory[sample_index,:]                          # 将32个索引对应的那一行transition存入b_memory
        # 分别将这32个transition中的s，a，r，s_取出存储到如下新的数组
        b_s = torch.FloatTensor(b_memory[:, : N_STATES])    # 32×4
        b_a = torch.LongTensor(b_memory[:,N_STATES:N_STATES+1].astype(int)) # 32×1
        b_r = torch.FloatTensor(b_memory[:,N_STATES+1: N_STATES+2]) # 32×1
        b_s_ = torch.FloatTensor(b_memory[:, -N_STATES: ])  # 32×4

        # 获取批数据的评估值和目标值，利用损失函数和优化器对评估网络进行参数更新
        # 评估值
        action_values_b = self.eval_net(b_s)          # 利用前向网络得到各动作的值(默认会调用forward函数)
        q_eval = action_values_b.gather(1,b_a)        # 原来选择什么动作，这次依然选择什么动作，得到该动作对应的值
        # 目标值
        q_next = self.target_net(b_s_).detach()          # q_next不进行反向传递误差，所以detach
        q_next_max = q_next.max(1)[0]                    # 返回最大值，不返回索引，32×1
        q_next_max_shape = q_next_max.view(BATCH_SIZE,1)  # 将32×1的张量变成1×32
        q_target = b_r + GAMMA * q_next_max_shape
        # 输入32个评估值和32个目标值，使用均方损失函数
        loss = self.loss_func(q_eval, q_target)
        # 更新的常用步骤
        self.optimizer.zero_grad()                                      # 清空上一步的残余更新参数值
        loss.backward()                                                 # 误差反向传播, 计算参数更新值
        self.optimizer.step()                                           # 更新评估网络的所有参数

dqn = DQN()

print('\nCollecting experience...')

for i_episode in range(400):
    print('<<<<<<<< % i_episode)
    s = env.reset()     # 初始化游戏状态
    episode_reward_sum = 0

    while True:
        env.render()  # 显示实验动画
        a = dqn.choose_action(s)  # 输入该步对应的状态s，选择动作
        s_, r, done, info = env.step(a)  # 执行动作，获得反馈

        # 修改奖励 (不修改也可以，修改奖励只是为了更快地得到训练好的摆杆)
        x, x_dot, theta, theta_dot = s_
        r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8
        r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
        new_r = r1 + r2

        dqn.store_transition(s, a, new_r, s_)  # 存储样本
        episode_reward_sum += new_r  # 逐步加上一个episode内每个step的reward

        if dqn.memory_counter > MEMORY_CAPACITY:  # 如果累计的transition数量超过了记忆库的固定容量2000
            # 开始学习 (抽取记忆，即32个transition，并对评估网络参数进行更新，并在开始学习后每隔100次将评估网络的参数赋给目标网络)
            dqn.learn()

        if done:
            print('episode%s---reward_sum: %s' % (i_episode, round(episode_reward_sum, 2)))
            break

        s = s_  # 更新状态

你可能感兴趣的:(强化学习,pytorch,深度学习,人工智能)

Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
人工智能之数学基础：矩阵的范数每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵算法线性代数范数
本文重点在前面课程中，我们学习了向量的范数，在矩阵中也有范数，本文来学习一下。矩阵的范数对于分析线性映射函数的特性有重要的作用。矩阵范数的本质矩阵范数是一种映射，它将一个矩阵映射到一个非负实数。矩阵的范数前面我们学习了向量的范数，只有当满足几个条件的时候，此时才可以，那么矩阵也是一样的，当满足下面的条件的时候，才可以定义||A||为矩阵A的范数矩阵范数的性质连续性矩阵范数是连续的函数。即如果矩阵序
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
使用LangChain与Amazon Bedrock构建JCVD风格的Chatbot scaFHIO langchain python
技术背景介绍在人工智能时代，构建一个智能化的聊天机器人不仅是一个趋势，更是提升与用户互动体验的关键之一。本文将向你展示如何使用LangChain和AmazonBedrock构建一个仿效让·克劳德·范·达美（JCVD）风格的聊天机器人。我们将借助于Anthropic提供的Claude模型，通过AmazonBedrock强大的基础设施来实现这一目标。核心原理解析LangChain作为一个强大的框架，简
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
Cursor 终极使用指南：从零开始走向AI编程芯作者 DD：日记人工智能机器学习深度学习 AI编程
在数字化浪潮席卷全球的今天，人工智能（AI）已不再是遥不可及的概念，而是逐渐融入我们日常生活的方方面面。作为未来技术的核心驱动力，AI编程成为了众多开发者和技术爱好者争相探索的领域。而在这场技术革命中，Cursor——这一看似简单却功能强大的编程工具，正悄然成为连接初学者与AI编程高手的桥梁。本文将带你从零开始，逐步解锁Cursor的终极使用指南，让你在AI编程的道路上越走越远。一、初识Curso
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
模型部署实战：PyTorch生产化指南小诸葛IT课堂 pytorch 人工智能 python
‌一、为什么要做模型部署？‌模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及：模型格式转换（TorchScript/ONNX）性能优化（量化/剪枝）构建API服务移动端集成本章使用ResNet18实现图像分类，并演示完整部署流程。‌二、模型转换：TorchScript与ONNX‌‌1.准备预训练模型importtorchimporttorchvision#加载预训练模型model=torc
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
人工智能知识架构详解 CodeJourney. 数据库人工智能算法架构
人工智能（ArtificialIntelligence，简称AI）作为当今最具影响力和发展潜力的技术领域之一，正深刻地改变着我们的生活、工作和社会。从智能家居到自动驾驶，从医疗诊断到金融投资，人工智能的应用无处不在。要全面深入地理解和掌握人工智能，构建一个清晰、系统的知识架构至关重要。二、基础数学（一）线性代数线性代数是人工智能的重要数学基础之一。矩阵运算在数据表示和变换中起着核心作用。例如，在图
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
AI推动地理信息系统（GIS）软件的创新发展与应用拓展酥脆可口 facebook
摘要地理信息系统（GIS）软件作为空间数据处理与分析的核心工具，在城市规划、资源管理、环境监测等领域发挥着关键作用。本文深入探讨人工智能（AI）如何推动GIS软件的创新发展，分析AI技术在提升空间数据分析能力、优化地图制图、拓展应用场景等方面的重要作用，剖析面临的挑战，并对未来发展趋势进行展望，旨在为GIS行业借助AI实现升级提供理论与实践参考。一、引言传统GIS软件主要依赖基于规则的分析方法和人
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
AI驱动软件开发流程的智能化转型与效能提升我有些不开心开发语言
摘要在数字化快速发展的时代，软件开发行业面临着提升效率、保证质量与满足多变需求的挑战。本文聚焦人工智能（AI）如何驱动软件开发流程的智能化转型，探讨其在需求分析、代码编写、测试调试、项目管理等环节对效能的提升，分析转型中面临的挑战，并对未来发展趋势展开展望，为软件行业借助AI实现升级提供理论与实践参考。一、引言传统软件开发流程依赖大量人工操作，各环节易出现沟通不畅、效率低下、错误频发等问题。随着软
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少