Sonhhxg_柒

【Pytorch】第 9 章：Capstone 项目——用 DQN 玩 Flappy Bird

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

文章目录

设置游戏环境

做好准备

怎么做...

这个怎么运作...

构建深度 Q 网络来玩 Flappy Bird

怎么做...

这个怎么运作...

训练和调整网络

怎么做...

这个怎么运作...

部署模型并玩游戏

怎么做...

这个怎么运作...

在最后一章中，我们将开展一个顶点项目——使用强化学习来玩 Flappy Bird。我们将应用我们在本书中学到的知识来构建一个智能机器人。我们还将专注于构建深度 Q 网络( DQN )、微调模型参数和部署模型。让我们看看这只鸟能在空中停留多久。

顶点项目将按照以下方法逐节构建：

设置游戏环境
构建深度 Q 网络来玩 Flappy Bird
训练和调整网络
部署模型并玩游戏

因此，每个配方中的代码都将构建在之前的配方之上。

设置游戏环境

要使用 DQN 玩 Flappy Bird，我们首先需要设置环境。

我们将使用 Pygame 模拟 Flappy Bird 游戏。Pygame ( https://www.pygame.org ) 包含一组为创建视频游戏而开发的 Python 模块。它还包括游戏所需的图形和声音库。我们可以Pygame按如下方式安装包：

pip install pygame

Flappy Bird 是一款著名的手机游戏，最初由 Dong Nguyen 开发。您可以在https://flappybird.io/上使用键盘自己尝试。游戏的目的是尽可能长时间地活着。当小鸟接触到地板或管道时，游戏结束。因此，这只鸟需要在正确的时间拍打翅膀以穿过随机的管道并避免掉到地上。可能的动作包括扑动和不扑动。在游戏环境中，每走一步的奖励都是+0.1，以下两个例外：

-1 发生碰撞时
+1 当鸟穿过两个管道之间的缝隙时。最初的 Flappy Bird 游戏是根据通过的间隙数来计分的。

做好准备

从https://github.com/yanpanlau/Keras-FlappyBird/tree/master/assets/sprites下载我们需要的游戏环境资源。为简单起见，我们将只使用文件夹中的图像sprites 。具体来说，我们需要以下图像：

background-black.png: 屏幕的背景图像
base.png: 地板的图像
pipe-green.png: 鸟需要远离的管道的图像
redbird-downflap.png: 鸟拍打时的图像
redbird-midflap.png: 鸟不振翅时的图像
redbird-upflap.png: 鸟拍打翅膀时的图像

如果您有兴趣，您还可以使用音频文件来使游戏更加有趣。

怎么做...

Pygame我们将使用以下方法开发 Flappy Bird 游戏环境：

1.我们首先开发一个实用函数来加载图像并将它们转换为正确的格式：

>>> from pygame.image import load
 >>> from pygame.surfarray import pixels_alpha
 >>> from pygame.transform import rotate
 >>> def load_images(sprites_path):
 ...     base_image = load(sprites_path + 
                             'base.png').convert_alpha()
 ...     background_image = load(sprites_path + 
                             'background-black.png').convert()
 ...     pipe_images = [rotate(load(sprites_path + 
                        'pipe-green.png').convert_alpha(), 180),
 ...                    load(sprites_path + 
                             'pipe-green.png').convert_alpha()]
 ...     bird_images = [load(sprites_path + 
                           'redbird-upflap.png').convert_alpha(),
 ...                    load(sprites_path + 
                         'redbird-midflap.png').convert_alpha(),
 ...                    load(sprites_path + 
                         'redbird-downflap.png').convert_alpha()]
 ...     bird_hitmask = [pixels_alpha(image).astype(bool) 
                             for image in bird_images]
 ...     pipe_hitmask = [pixels_alpha(image).astype(bool) 
                             for image in pipe_images]
 ...     return base_image, background_image, pipe_images, 
                 bird_images, bird_hitmask, pipe_hitmask

2.为环境导入所有必需的包：

>>> from itertools import cycle
>>> from random import randint
>>> import pygame

3.初始化游戏和时钟，设置30帧/秒作为屏幕刷新频率：

>>> pygame.init() 
>>> fps_clock = pygame.time.Clock() 
>>> fps = 30

4.指定屏幕大小并相应地创建一个屏幕，然后向屏幕添加标题：

>>> screen_width = 288 
 >>> screen_height = 512 
 >>> screen = pygame.display.set_mode((screen_width, screen_height)) 
>>> pygame.display.set_caption('Flappy Bird')

5.然后我们sprites使用以下函数加载必要的图像（在文件夹中）：

>>> base_image, background_image, pipe_images, bird_images, bird_hitmask, pipe_hitmask = load_images('sprites/')

6.获取游戏变量，包括小鸟和管道的大小，并将两个管道之间的垂直间隙设置为 100：

>>> bird_width = bird_images[0].get_width() 
>>> bird_height = bird_images[0].get_height() 
>>> pipe_width = pipe_images[0].get_width() 
>>> pipe_height = pipe_images[0].get_height () 
>>> pipe_gap_size = 100

7.小鸟的拍打动作依次为上、中、下、中、上等：

>>> bird_index_gen = cycle([0, 1, 2, 1])

这只是为了让比赛看起来更有趣。

8.__init__method定义完所有常量后，我们从游戏环境的类开始FlappyBird ：

>>> class FlappyBird(object):
 ...     def __init__(self):
 ...         self.pipe_vel_x = -4
 ...         self.min_velocity_y = -8
 ...         self.max_velocity_y = 10
 ...         self.downward_speed = 1
 ...         self.upward_speed = -9
 ...         self.cur_velocity_y = 0
 ...         self.iter = self.bird_index = self.score = 0
 ...         self.bird_x = int(screen_width / 5)
 ...         self.bird_y = int((screen_height - bird_height) / 2)
 ...         self.base_x = 0
 ...         self.base_y = screen_height * 0.79
 ...         self.base_shift = base_image.get_width() - 
                             background_image.get_width()
 ...         self.pipes = [self.gen_random_pipe(screen_width), 
                         self.gen_random_pipe(screen_width * 1.5)]
 ...         self.is_flapped = False

9.我们继续定义该gen_random_pipe方法，该方法在给定的水平位置和随机垂直位置生成一对管道（一个在上，一个在下）：

>>>     def gen_random_pipe(self, x):
 ...         gap_y = randint(2, 10) * 10 + int(self.base_y * 0.2)
 ...         return {"x_upper": x,
 ...                 "y_upper": gap_y - pipe_height,
 ...                 "x_lower": x,
 ...                 "y_lower": gap_y + pipe_gap_size}

上下管分别在和y的位置。gap_y - pipe_heightgap_y + pipe_gap_size

10.我们开发的下一个方法是在小鸟与底座或管道发生碰撞时check_collision,返回：True

>>>     def check_collision(self):
 ...         if bird_height + self.bird_y >= self.base_y - 1:
 ...             return True
 ...         bird_rect = pygame.Rect(self.bird_x, self.bird_y, 
                                     bird_width, bird_height)
 ...         for pipe in self.pipes:
 ...             pipe_boxes = [pygame.Rect(pipe["x_upper"], 
                          pipe["y_upper"], pipe_width, pipe_height),
 ...                           pygame.Rect(pipe["x_lower"], 
                          pipe["y_lower"], pipe_width, pipe_height)]
 ...             # 检查小鸟的边界框是否与任何管道的边界框重叠
 ...             if bird_rect.collidelist(pipe_boxes) == -1:
 ...                 return False
 ...             for i in range(2):
 ...                 cropped_bbox = bird_rect.clip(pipe_boxes[i])
 ...                 x1 = cropped_bbox.x - bird_rect.x
 ...                 y1 = cropped_bbox.y - bird_rect.y
 ...                 x2 = cropped_bbox.x - pipe_boxes[i].x
 ...                 y2 = cropped_bbox.y - pipe_boxes[i].y
 ...                 for x in range(cropped_bbox.width):
 ...                     for y in range(cropped_bbox.height):
 ...                         if bird_hitmask[self.bird_index][x1+x, 
                                    y1+y] and pipe_hitmask[i][
                                    x2+x, y2+y]:
 ...                             return True
 ...         return False

11.我们需要的最后一个也是最重要的方法是next_step，它执行一个动作并返回游戏的更新图像帧、收到的奖励以及剧集是否结束：

>>>     def next_step(self, action):
 ...         pygame.event.pump()
 ...         reward = 0.1
 ...         if action == 1:
 ...             self.cur_velocity_y = self.upward_speed
 ...             self.is_flapped = True
 ...         # 更新分数
 ...         bird_center_x = self.bird_x + bird_width / 2
 ...         for pipe in self.pipes:
 ...             pipe_center_x = pipe["x_upper"] + 
                                     pipe_width / 2
 ...             if pipe_center_x < bird_center_x 
                                 < pipe_center_x + 5:
 ...                 self.score += 1
 ...                 reward = 1
 ...                 break
 ...         # 更新索引和迭代
 ...         if (self.iter + 1) % 3 == 0:
 ...             self.bird_index = next(bird_index_gen)
 ...         self.iter = (self.iter + 1) % fps
 ...         self.base_x = -((-self.base_x + 100) % 
                                 self.base_shift)
 ...         # 更新鸟的位置
 ...         if self.cur_velocity_y < self.max_velocity_y 
                             and not self.is_flapped:
 ...             self.cur_velocity_y += self.downward_speed
 ...         self.is_flapped = False
 ...         self.bird_y += min(self.cur_velocity_y, 
                 self.bird_y - self.cur_velocity_y - bird_height)
 ...         if self.bird_y < 0:
 ...             self.bird_y = 0
 ...         # 更新管道位置
 ...         for pipe in self.pipes:
 ...             pipe["x_upper"] += self.pipe_vel_x
 ...             pipe["x_lower"] += self.pipe_vel_x
 ...         # 当第一个管道即将触及屏幕左侧时添加新管道
 ...         if 0 < self.pipes[0]["x_lower"] < 5:
 ...             self.pipes.append(self.gen_random_pipe(
                                     screen_width + 10))
 ...         # 如果第一个管道超出屏幕，则将其移除
 ...         if self.pipes[0]["x_lower"] < -pipe_width:
 ...             self.pipes.pop(0)
 ...         if self.check_collision():
 ...             is_done = True
 ...             reward = -1
 ...             self.__init__()
 ...         else:
 ...             is_done = False
 ...         # 绘制精灵
 ...         screen.blit(background_image, (0, 0))
 ...         screen.blit(base_image, (self.base_x, self.base_y))
 ...         screen.blit(bird_images[self.bird_index], 
                             (self.bird_x, self.bird_y))
 ...         for pipe in self.pipes:
 ...             screen.blit(pipe_images[0],
                       (pipe["x_upper"], pipe["y_upper"]))
 ...             screen.blit(pipe_images[1], 
                       (pipe["x_lower"], pipe["y_lower"]))
 ...         image = pygame.surfarray.array3d(
                     pygame.display.get_surface())
 ...         pygame.display.update()
 ...         fps_clock.tick(fps)
 ...         return image, reward, is_done

这就是 Flappy Bird 环境的全部内容。

这个怎么运作...

在第 8 步中，我们定义管道的速度（随着时间的推移向左移动 4 个单位）、鸟的最小和最大垂直速度（和）、它的向上和-8向下10加速度（-9和1）、它的默认垂直速度( 0)、鸟图像的起始索引( 0)、初始分数、鸟的初始水平和垂直位置、底座的位置以及使用gen_random_pipe方法随机生成的管道的坐标。

在第 11 步中，默认情况下，每一步的奖励为+0.1。如果动作是拍打，我们通过向上加速度来增加鸟的垂直速度。然后，我们检查这只鸟是否碰巧穿过一对管道。如果是，则游戏分数增加 1，步骤奖励变为 + 1。我们更新鸟的位置、它的图像索引以及管道的位置。如果旧的一对管道即将离开屏幕的左侧，则会生成一对新的管道，一旦离开屏幕，旧的一对管道将被删除。如果发生碰撞，则episode结束，奖励为-1；游戏也会重置。最后，我们将在游戏屏幕上显示更新的帧。

构建深度 Q 网络来玩 Flappy Bird

现在 Flappy Bird 环境已准备就绪，我们可以开始通过构建 DQN 模型来解决它。

正如我们所见，在执行操作后的每一步都会返回一个屏幕图像。CNN 是处理图像输入的最佳神经网络架构之一。在 CNN 中，卷积层能够有效地从图像中提取特征，这些特征将传递到下游的全连接层。在我们的解决方案中，我们将使用具有三个卷积层和一个完全连接的隐藏层的 CNN。CNN架构的一个例子如下：

【Pytorch】第 9 章：Capstone 项目——用 DQN 玩 Flappy Bird_第1张图片

怎么做...

让我们开发一个基于 CNN 的 DQN 模型，如下所示：

1.导入必要的模块：

>>> import torch
>>> import torch.nn as nn
>>> import torch.nn.functional as F
>>> import numpy as np
>>> import random

2.我们从 CNN 模型开始：

>>> class DQNModel(nn.Module):
 ...     def __init__(self, n_action=2):
 ...         super(DQNModel, self).__init__()
 ...         self.conv1 = nn.Conv2d(4, 32, 
                             kernel_size=8, stride=4)
 ...         self.conv2 = nn.Conv2d(32, 64, 4, stride=2)
 ...         self.conv3 = nn.Conv2d(64, 64, 3, stride=1)
 ...         self.fc = nn.Linear(7 * 7 * 64, 512)
 ...         self.out = nn.Linear(512, n_action)
 ...         self._create_weights()
 ...
 ...     def _create_weights(self):
 ...         for m in self.modules():
 ...             if isinstance(m, nn.Conv2d) or 
                                 isinstance(m, nn.Linear):
 ...                 nn.init.uniform(m.weight, -0.01, 0.01)
 ...                 nn.init.constant_(m.bias, 0)
 ...
 ...     def forward(self, x):
 ...         x = F.relu(self.conv1(x))
 ...         x = F.relu(self.conv2(x))
 ...         x = F.relu(self.conv3(x))
 ...         x = x.view(x.size(0), -1)
 ...         x = F.relu(self.fc(x))
 ...         output = self.out(x)
 ...         return output

3.现在使用我们刚刚构建的 CNN 模型开发具有经验回放的 DQN：

>>> class DQN():
 ...     def __init__(self, n_action, lr=1e-6):
 ...         self.criterion = torch.nn.MSELoss()
 ...         self.model = DQNModel(n_action)
 ...         self.optimizer = torch.optim.Adam(
                     self.model.parameters(), lr)

4.该predict方法在给定输入状态的情况下估计输出 Q 值：

>>>     def predict(self, s):
 ...         """
 ...         使用学习模型计算所有动作的状态 Q 值
 ...         @param s: 输入状态
 ...         @return: Q所有动作的状态值
 ...         """
 ...         return self.model(torch.Tensor(s))

5.一种update方法更新神经网络的权重，给定训练样本，并返回当前损失：

>>>     def update(self, y_predict, y_target):
 ...         """
 ...         给定训练样本更新 DQN 的权重
 ...         @param y_predict:
 ...         @param y_target:
 ...         @return:
 ...         """
 ...         loss = self.criterion(y_predict, y_target)
 ...         self.optimizer.zero_grad()
 ...         loss.backward()
 ...         self.optimizer.step()
 ...         return loss

6.该类的最后一部分DQN是replay 方法，它根据过去的经验集合执行经验重放：

>>>     def replay(self, memory, replay_size, gamma):
 ...         """
 ...         经验重播
 ...         @param memory: 经验列表
 ...         @param replay_size: 我们每次更新模型使用的样本数 
 ...         @param gamma: 折扣因子
 ...         @return: 损失
 ...         """
 ...         if len(memory) >= replay_size:
 ...             replay_data = random.sample(memory, replay_size)
 ...             state_batch, action_batch, next_state_batch, 
                     reward_batch, done_batch = zip(*replay_data)
 ...             state_batch = torch.cat(
                         tuple(state for state in state_batch))
 ...             next_state_batch = torch.cat(    
                         tuple(state for state in next_state_batch))
 ...             q_values_batch = self.predict(state_batch)
 ...             q_values_next_batch = 
                         self.predict(next_state_batch)
 ...             reward_batch = torch.from_numpy(np.array(
                         reward_batch, dtype=np.float32)[:, None])
 ...             action_batch = torch.from_numpy(
 ...                 np.array([[1, 0] if action == 0 else [0, 1] 
                     for action in action_batch], dtype=np.float32))
 ...             q_value = torch.sum(
                         q_values_batch * action_batch, dim=1)
 ...             td_targets = torch.cat(
 ...             tuple(reward if terminal else reward + 
                         gamma * torch.max(prediction) for
                         reward, terminal, prediction
 ...                 in zip(reward_batch, done_batch, 
                         q_values_next_batch)))
 ...             loss = self.update(q_value, td_targets)
 ...             return loss

这就是 DQN 类。在下一个秘籍中，我们将在多次迭代中训练 DQN 模型。

这个怎么运作...

在第 2 步中，我们将基于 CNN 的 DQN 的主干放在一起。它具有三个具有各种配置的卷积层。ReLU 激活函数跟在每个卷积层之后。然后将最后一个卷积层生成的特征图展平并馈送到具有 512 个节点的全连接隐藏层，然后是输出层。

请注意，我们还为权重的初始随机值和零偏差设置了边界，以便模型更有可能更快地收敛。

第 6 步用于通过经验回放进行逐步训练。如果我们有足够的经验，我们随机抽取一replay_size 组经验进行训练。然后，在给定输入状态的情况下，我们将每个经验转换为由预测值和输出目标值组成的训练样本。目标值计算如下：

使用奖励和新 Q 值更新动作的目标 Q 值，如下所示：

如果是终端状态，则目标 Q 值更新为r。

最后，我们使用选定的一批训练样本更新神经网络。

训练和调整网络

在这个秘籍中，我们将训练 DQN 模型来玩 Flappy Bird。

在训练的每一步中，我们都遵循 epsilon-greedy 策略采取行动：在一定的概率（epsilon）下，我们将采取随机行动，在我们的例子中是扑动还是不扑动；否则，我们选择具有最高价值的动作。我们还调整了每个步骤的 epsilon 值，因为我们倾向于在开始时进行更多探索，并在 DQN 模型变得更加成熟时进行更多利用。

正如我们所见，每一步的观察都是屏幕的二维图像。我们需要将观察图像转换为状态。简单地使用步骤中的一张图像将无法提供足够的信息来指导代理如何做出反应。因此，我们使用来自四个相邻步骤的图像形成一个状态。我们将首先将图像重塑为预期的大小，然后将当前帧的图像与前三帧的图像连接起来。

怎么做...

1.我们按如下方式训练 DQN 模型：

导入必要的模块：

>>> import random
>>> import torch
>>> from collections import deque

2.我们首先开发 epsilon-greedy 策略：

>>> def gen_epsilon_greedy_policy(estimator, epsilon, n_action):
 ...     def policy_function(state):
 ...         if random.random() < epsilon:
 ...             return random.randint(0, n_action - 1)
 ...         else:
 ...             q_values = estimator.predict(state)
 ...             return torch.argmax(q_values).item()
 ...     return policy_function

3.我们指定预处理图像的大小、批量大小、学习率、gamma、动作数、初始和最终 epsilon、迭代次数和内存大小：

>>> image_size = 84 
 >>> batch_size = 32 
 >>> lr = 1e-6 
 >>> gamma = 0.99 
 >>> init_epsilon = 0.1 
 >>> final_epsilon = 1e-4 
 >>> n_iter = 2000000 
 >>> memory_size = 50000 
 >>> n_action = 2

我们还定期保存训练好的模型，因为这将是一个非常漫长的过程：

>>> saved_path = 'trained_models'

不要忘记创建一个名为trained_models.

4.我们指定实验重现性的随机饲料：

>>> torch.manual_seed(123)

5.我们相应地创建一个 DQN 模型：

>>> estimator = DQN(n_action)

我们还创建了一个内存队列：

>>> memory = deque(maxlen=memory_size)

新的样本会被追加到队列中，只要队列中的样本超过 50,000 个，旧的样本就会被移除。

6.接下来，我们初始化一个 Flappy Bird 环境：

>>> env = FlappyBird()

然后我们得到初始图像：

>>> image, reward, is_done = env.next_step(0)

7.如前所述，我们应该将原始图像调整为image_size * image_size：

>>> import cv2
 >>> import numpy as np
 >>> def pre_processing(image, width, height):
 ...     image = cv2.cvtColor(cv2.resize(image, 
                     (width, height)), cv2.COLOR_BGR2GRAY)
 ...     _, image = cv2.threshold(image, 1, 255, cv2.THRESH_BINARY)
 ...     return image[None, :, :].astype(np.float32)

如果cv2未安装该软件包，您可以使用以下命令进行安装：

pip install opencv-python

让我们相应地预处理图像：

>>> image = pre_processing(image[:screen_width, :int(env.base_y)], image_size, image_size)

8.现在，我们通过连接四个图像来构建一个状态。因为我们现在只有第一帧，所以我们简单地复制它四次：

>>> image = torch.from_numpy(image)
>>> state = torch.cat(tuple(image for _ in range(4)))[None, :, :, :]

9.然后我们在训练循环上进行以下n_iter步骤：

>>> for iter in range(n_iter):
 ...     epsilon = final_epsilon + (n_iter - iter) 
                 * (init_epsilon - final_epsilon) / n_iter
 ...     policy = gen_epsilon_greedy_policy(
                     estimator, epsilon, n_action)
 ...     action = policy(state)
 ...     next_image, reward, is_done = env.next_step(action)
 ...     next_image = pre_processing(next_image[
         :screen_width, :int(env.base_y)], image_size, image_size)
 ...     next_image = torch.from_numpy(next_image)
 ...     next_state = torch.cat((
                 state[0, 1:, :, :], next_image))[None, :, :, :]
 ...     memory.append([state, action, next_state, reward, is_done])
 ...     loss = estimator.replay(memory, batch_size, gamma)
 ...     state = next_state
 ...     print("Iteration: {}/{}, Action: {}, 
                 Loss: {}, Epsilon {}, Reward: {}".format(
 ...             iter + 1, n_iter, action, loss, epsilon, reward))
 ...     if iter+1 % 10000 == 0:
 ...         torch.save(estimator.model, "{}/{}".format(
                     saved_path, iter+1))

运行该部分代码后，我们将看到以下日志：

Iteration: 1/2000000, Action: 0, Loss: None, Epsilon 0.1, Reward: 0.1
 Iteration: 2/2000000, Action: 0, Loss: None, Epsilon 0.09999995005000001, Reward: 0.1
 Iteration: 3/2000000, Action: 0, Loss: None, Epsilon 0.0999999001, Reward: 0.1
 Iteration: 4/2000000, Action: 0, Loss: None, Epsilon 0.09999985015, Reward: 0.1
 ...
 ...
 Iteration: 201/2000000, Action: 1, Loss: 0.040504034608602524, Epsilon 0.09999001000000002, Reward: 0.1
 Iteration: 202/2000000, Action: 1, Loss: 0.010011588223278522, Epsilon 0.09998996005, Reward: 0.1
 Iteration: 203/2000000, Action: 1, Loss: 0.07097195833921432, Epsilon 0.09998991010000001, Reward: 0.1
 Iteration: 204/2000000, Action: 1, Loss: 0.040418840944767, Epsilon 0.09998986015000001, Reward: 0.1
 Iteration: 205/2000000, Action: 1, Loss: 0.00999421812593937, Epsilon 0.09998981020000001, Reward: 0.1

训练需要一段时间。当然，你可以用 GPU 加速训练。

10.最后，我们保存最后训练的模式：

>>> torch.save(estimator.model, "{}/final".format(saved_path))

这个怎么运作...

在第 9 步中，对于每个训练步骤，我们执行以下任务：

稍微减少 epsilon，并相应地创建一个 epsilon-greedy 策略。
采取使用 epsilon-greedy 策略计算的操作。
预处理生成的图像并通过将图像附加到前三个步骤的图像来构建新状态。
记录这一步的经历，包括状态，动作，下一个状态，得到的奖励，是否结束。

使用经验回放更新模型。
打印出训练状态并更新状态。
定期保存经过训练的模型，以避免从头开始重新训练。

部署模型并玩游戏

现在我们已经训练了 DQN 模型，让我们应用它来玩 Flappy Bird 游戏。

使用训练有素的模型玩游戏很简单。我们将只采取与每一步中最高价值相关的行动。我们将播放几集，看看它的表现如何。不要忘记预处理原始屏幕图像并构建状态。

怎么做...

我们在新剧集上测试 DQN 模型如下：

1.我们首先加载最终模型：

>>> model = torch.load("{}/final".format(saved_path))

2.我们运行 100 集，我们为每一集执行以下操作：

>>> n_episode = 100
 >>> for episode in range(n_episode):
 ...     env = FlappyBird()
 ...     image, reward, is_done = env.next_step(0)
 ...     image = pre_processing(image[:screen_width, 
                :int(env.base_y)], image_size, image_size)
 ...     image = torch.from_numpy(image)
 ...     state = torch.cat(tuple(image for _ in range(4)))[
                      None, :, :, :]
 ...     while True:
 ...         prediction = model(state)[0]
 ...         action = torch.argmax(prediction).item()
 ...         next_image, reward, is_done = env.next_step(action)
 ...         if is_done:
 ...             break
 ...         next_image = pre_processing(next_image[:screen_width,
                        :int(env.base_y)], image_size, image_size)
 ...         next_image = torch.from_numpy(next_image)
 ...         next_state = torch.cat((state[0, 1:, :, :], 
                           next_image))[None, :, :, :]
 ...         state = next_state

希望您会看到类似下图的内容，其中鸟通过一系列管道：

【Pytorch】第 9 章：Capstone 项目——用 DQN 玩 Flappy Bird_第2张图片

这个怎么运作...

在第 2 步中，我们为每一集执行以下任务：

初始化 Flappy Bird 环境。
观察初始图像并生成其状态。
计算 Q 值，给定状态，使用模型并采取具有最高 Q 值的操作
观察新图像以及剧集是否结束。
如果情节继续，计算下一张图像的状态并将其分配给当前状态。
重复直到情节结束。

你可能感兴趣的:(Pytorch的强化学习,pytorch,pygame,python)

暑假算法刷题日记 Day 10 mjh_yylx 算法刷题打卡算法
目录重点整理054、拼数题目描述输入格式输出格式输入输出样例核心思路代码055、求第k小的数题目描述输入格式输出格式输入输出样例核心思路代码总结这几天我们主要刷了洛谷上排序算法对应的一些题目，相对来说比较简单一共是13道题，对应我暑假刷题的043--055。当然这些题目相对来说比较简单，我们挑着重点的说。重点整理排序这一块的题目总体来看包括，1.基本的排序算法，像快速排序、分治排序，这些知识点我写
Docker免费时代终结？2025最新开源政策与替代方案全解析 109702008 编程 docker 开源人工智能
标签:#Docker#容器技术#云原生#开源治理引言：从全民免费到分层收费，Docker经历了什么？“曾经的开源先锋，如今因商业策略频遭争议。”2023年起，DockerHub取消免费组织账户，2024年拉取限流升级，2025年服务账户开始按量收费——这一系列动作让开发者不得不重新思考：Docker还是当初那个‘开源宠儿’吗？本文将结合技术演进与商业逻辑，为你揭开真相。一、Docker的核心：开源
FileZilla二次开发实战指南：C++架构解析与界面功能扩展 109702008 编程网络开发语言人工智能网络
摘要：本文深入剖析开源FTP工具FileZilla的核心架构，解析其C++/wxWidgets技术栈，并手把手教你如何添加自定义界面功能。适合中级C++开发者进阶学习。一、FileZilla的技术底座：为什么选择C++？核心语言客户端/服务端均采用C++开发，保障跨平台（Windows/Linux/macOS）性能关键模块：网络引擎：FTP/FTPS/SFTP协议栈文件传输：异步I/O处理线程调度
CSS基础知识总结复习天山小雏菊知识总结复习 css css3 前端
一、CSS定义CSS是用来定义页面元素的样式设置字体与颜色设置位置和大小添加动画效果二、CSS基本规则的结构h1{/*选择器h1(给页面所有的h1定义样式)*/color:white;/*属性color:属性值white*/font-size:14px;/*属性:属性值就是一个声明*/}三、在页面中使用CSS的方法外链嵌入p{margin:2px;}内联hello四、选择器选择元素的方式按照标签名
JavaScript之对象操作详解 AA-代码批发V哥 JavaScript javascript
JavaScript之对象操作详解一、对象的创建方式1.1对象字面量（最常用）1.2构造函数与`new`关键字1.3`Object.create()`方法1.4其他方式（ES6+）二、对象属性的操作方法2.1访问与修改属性2.2添加与删除属性2.3检查属性是否存在三、对象的遍历方法3.1`for...in`循环3.2`Object.keys()`与`Object.values()`3.3`Obje
AI与脑科学：相互启发，探索智能的本质 Liudef06小白人工智能人工智能
AI与脑科学：相互启发，探索智能的本质人类大脑的物理组件正被逐个映射为数字模型，而人工智能的“黑箱”中则自发涌现出类人的思维结构，两大前沿领域的碰撞正重塑我们对“智能”的理解。2025年初，东南大学黄广斌教授团队发表了一项开创性研究，提出通过“细胞级别的AI孪生方法”将人脑物理组件转换为数字模型，从理论上证明：不受限制的AI能以任意小误差逼近人脑功能，并在25年内超越人类智能。这项集结了哈佛医学院
科研：diffusion生成MNIST程序实现 Menger_Wen 科研：diffusion 人工智能机器学习 stable diffusion python
科研：diffusion生成MNIST程序实现第一部分：填写部分的详细解释1.`diffusion.py`中的`batch_extend_like`方法2.`diffusion.py`中的`ode_reverse`方法3.`sde_schedule.py`中的`sde_forward`方法第二部分：逐行解释两个程序1.`diffusion.py`（Diffusion类）`__init__`方法`b
ES 压缩包安装思静鱼 #elasticsearch elasticsearch 大数据
以下是Elasticsearch(ES)通过.tar.gz压缩包安装的详细步骤（适用于Linux/macOS系统）：1.准备工作1.1检查系统依赖Java环境：ES需要JDK，推荐OpenJDK11/17（ES7.x/8.x兼容版本）。java-version#检查是否已安装如果未安装，使用以下命令安装（以Ubuntu为例）：sudoaptupdatesudoaptinstallopenjdk-1
Docker从0到1：入门指南宇航AI docker 容器运维
目录什么是DockerDocker的核心概念容器(Container)镜像(Image)镜像层(ImageLayers)Dockerfile仓库(Repository)数据卷(Volume)网络(Network)Docker架构Docker安装Docker基本命令实际应用场景Docker生态系统最佳实践常见问题什么是DockerDocker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依
crazyswarm无人机集群搭建笔记（一）资料索引 X_SWARM 无人机集群无人机笔记 stm32
前言为了开展无人机集群虚实结合任务调度算法测试，这次采购了crazyflie套件，本系列主要记录从零开始搭建crazyswarm集群的详细步骤。本节主要包含crazyflie安装调试主要参考的文章和教程。一、crazyflie安装使用基本资料1.Bitcraze官方网站（1）Bitcraze官方网站主页（2）Bitcraze官网安装教程（3）crazyswarm2官方文档（4）crazyswarm
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
CSS知识复习2 Savior｀L 前端 css 前端
文章目录盒子模型CSS长度单位元素的显示模式修改元素的显示模式盒子模型的组成关于默认高度盒子内边距（padding）盒子边框（border）盒子外边距（margin）注意事项margin塌陷margin合并处理内容溢出隐藏元素方式样式继承默认样式布局小技巧浮动浮动特点浮动影响以及解决方法浮动相关属性定位相对定位绝对定位固定定位粘性定位定位层级布局版心常用布局名词重置默认样式盒子模型CSS长度单位p
Cython提高破解和反编译的门槛
Cython提高破解和反编译的门槛文章目录Cython提高破解和反编译的门槛一、环境配置1.1安装必须的依赖1.2安装MicrosoftC++BuildTools二、修改代码后缀2.1将你的.py文件修改为.pyx文件2.2新建入口文件2.3编写setup.py2.4编译二进制模块2.5用PyInstaller分别打包入口文件三、清理无用文件，保留发布文件四、遇到的问题与解决方法4.1缺少库4.2
第十五届蓝桥杯C++B组国赛题解+复盘总结 Savior｀L 蓝桥杯蓝桥杯 c++
文章目录1、合法密码2、选数概率3、蚂蚁开会4、立定跳远5、最小字符串6、数位翻转7、数星星8、套手镯9、挑石头10、最长回文前后缀总结本人目标是国一，昨天模拟做了一遍，结果如下图，这水平感觉远远不够。现在已经全部补完，发现了许多问题，好多该得到的分数没有得到，总结记录一下。1、合法密码赛时暴力枚举，官方正解是把非字母非数字算作字符，这点与我的想法一致，但是代码就是写错了，在数字处忘记contin
4篇2章5节：ANOVA 功效的单次精确模拟与可视化全解析 MD分析用R探索医药数据科学 r语言-4.2.1 r语言功效曲线单次精确模拟分析
在医学研究尤其是糖尿病等干预性试验中，精准的实验设计与功效分析是确保研究价值的关键。R语言为重复测量方差分析（ANOVA）提供了强大工具，从实验设计构建、单次精确模拟分析，到功效曲线可视化，覆盖研究全流程。本文结合糖尿病胰岛素治疗试验案例，深度拆解函数的应用逻辑，手把手教你用数据驱动实验设计，让“样本量规划”“效应检测能力”从抽象概念变为可操作、可视化的研究支撑。一、相关函数的介绍在医学研究中，实
LeetCode 每日一题 2025/6/30-2025/7/6
记录了初步解题思路以及本地实现代码；并不一定为最优也希望大家能一起探讨一起进步目录6/30594.最长和谐子序列7/13330.找到初始输入字符串I7/23333.找到初始输入字符串II7/33304.找出第K个字符I7/43307.找出第K个字符II7/51394.找出数组中的幸运数7/61865.找出和为指定值的下标对6/30594.最长和谐子序列m记录每一个数字出现的次数l记录去重后从小到大
自动驾驶ROS2应用技术详解陈纬度啊 AutoCar 自动驾驶 unix 人工智能
自动驾驶ROS2应用技术详解目录自动驾驶ROS2节点工作流程自动驾驶感知融合技术详解多传感器数据同步技术详解ROS2多节点协作与自动驾驶系统最小节点集1.自动驾驶ROS2节点工作流程1.1感知输出Topic的后续处理在自动驾驶系统中，感知节点输出的各种Topic会被下游的不同模块消费和处理：安全监控模块控制执行模块规划决策模块感知融合模块感知输出TopicSafetyMonitor安全监控Emer
OpenHarmony vs Linux：分布式操作系统的终极对决 109702008 编程操作系统 #linux系统 linux 分布式人工智能
副标题：从架构基因到场景适配，解析两大系统的分布式能力差异与未来演进引言：分布式操作系统的时代命题在万物互联时代，设备协同与算力融合成为刚需。OpenHarmony和Linux作为两大开源操作系统，代表了不同的技术路线：前者是原生分布式设计，后者是生态驱动演进。本文从分布式视角深度对比二者，为开发者提供选型参考。一、架构设计：原生支持vs生态补足能力维度OpenHarmonyLinux内核模型微内
驱动开发系列59- 再述如何处理硬件中断黑不溜秋的 GPU驱动专栏驱动开发
目录一：硬件中断以及内核是如何处理中断的二：分配硬件IRQ1.使用request_irq()分配中断处理程序2.释放IRQ3.设置中断标志4.理解电平触发与边沿触发中断三：实现中断处理程序四：使用线程中断模型五：启用/禁用中断六：查看所有已分配的中断线七：理解和使用上半部和下半部八：总结在本文中，我们将重点讨论编写设备驱动程序时一个非常关键的方面：什么是硬件中断，更重要的是，作为驱动开发者，你该如
.Net之三层架构矿大测工人 .net 架构 asp.net ui 数据库
引言通常意义上的三层架构是将真个业务应用划分为：界面层（UI层）、业务逻辑层（B层）、数据访问层（D层）。对于复杂的系统分层让结构清晰，便于开发人员对系统进行整体的理解、把握；而且便于维护，系统基本的架构可以通过工具自动生成代码。当数据库发生改变时，只用重新生成代码，改动业务逻辑层的部分代码即可。三层架构分为：表现层（UI（UserInterface））、业务逻辑层（BLL（BusinessLog
RocketMq letian@ java-rocketmq rocketmq java
1rocketMq发送消息有几种方式？1同步发送可以拿到结果，等拿到发送的结果才能进行下一步2异步发送可以拿到结果但不需要等拿到结果也能进行下一步，有回调方法可以直到是否发送成功3单向发送拿不到结果，与下一步间隔极小没有回调方法，不关心消息是否发送成功，也是异步的。2RocketMq有哪些组成部分，他们分别的作用？他们之间的关系？rocketMq主要有nameServer和brokernameSe
Linux 配置主机名及映射 letian@ java jvm spring
一Linux主机名的配置在学习Linux中，起初安装Linux,在安装过程中我们可以自定义主机名，但一旦安装过后，是否就不能修改主机名，需要重新安装呢，答案是否定的，我们可以输入vi/etc/hostname进入文件修改默认的主机名，默认的主机名为localhost.localdomain我们只需要将其改成默认的名字然后保存，当然保存后命令行前还显示之前的主机名，需要重启才能生效。二Linux域名
定义一个dto对象_正确理解DTO、值对象和POCO
今天推荐的文章比较技术化也比较简单，但是对于一些初学者而言，可能也是容易搞混的概念：就是如何理解DTO、值对象和POCO之间的区别。所谓DTO就是数据传输对象(DataTransferObject)，POCO就是简单CLR对象(PlainOldCLRObject)，概念来源于Java中的POJO；不过值对象(ValueObject)并非.NET中的值类型(ValueType)的实例对象，而是领域驱
java dto对象_DTO与值对象和POJO比较
本文想澄清DTO与ValueObject与POCO的区别，其中DTO代表数据传输对象，而POCO是PlainOldCLRObject，在Java环境中也称为POJO。对ValueObject做一个注释：C＃中有一个类似的概念，即ValueType。它只是对象如何存储在内存中的实现细节，我不打算触及它。这里将讨论的是DDD概念中的值对象ValueObject。DTO，ValueObject和POCO
math向上取整函数_Axure函数使用手册 weixin_39654058 math向上取整函数 pb截取字符串函数使用函数求余弦函数的近似值实验5-9 使用函数输出水仙花数
本文是介绍了Axure函数，以及它的相关的基本用法，建议大家收藏查看~一、函数使用方法Axure函数使用的基本语法是：用”[[]]”双方括号(即英文双中括号)包含，变量值和函数用英文句号(即点”.”)连接。例如：[[LVAR.Width]]表示变量LVAR的宽度[[This.Width]]当前元件的宽度二、函数分类根据Axure函数的应用范围，可划分为以下10类：元件函数、页面函数、窗口函数、鼠标
实体对象辨析(POCO、Entity、Model、DTO、BO、DO、PO) weixin_33981932 runtime 数据库 java
为什么80%的码农都做不了架构师？>>>POCO(PlainOldCLRObject)源自JavaEE编程领域的POJO概念(2000年由MartinFowler提出)和POTS(PlainOldTelephoneService)概念。POCO被应用于面向.NET框架的CLR(CommonLanguageRuntime,公共语言运行时)。但是POCO本身不依赖于外部框架，它是PLAIN的。POCO
网络》》网桥、网关、交换机及路由器 Ares-Wang 网络
中继器、集线器位于物理层，网桥和交换机位于数据链路层，路由器位于网络层，而网关则位于更高层。这些设备在网络中的层次位置各不相同，由此赋予它们不同的功能和职责。交换机交换机也是一种重要的网络设备。它工作在数据链路层，类似于多端口的网桥。交换机的主要作用是连接数个相同网段的不同主机，通过存储转发和过滤技术来减少网络冲突并隔离冲突域。
Drizzle ORM：轻量级数据库工具编辑器前端
DrizzleORM：轻量级数据库工具在上一章中，我们探讨了CloudflareD1如何作为一款高性能、低成本的边缘数据库解决方案，彻底改变了我们对数据库架构的认知.但一般来说，我们很少在项目里裸写sql，所以我们需要一个能简化操作和开发的ORM工具，但市面上绝大多数的ORM对于这种ServerLess数据库的适配很差，需要解决各种依赖问题。那么在尝试了一圈后，发现Drizzle是最好的搭配方案，
【面试系列】C++ 高频面试题野老杂谈全网最全IT公司面试宝典 c++面试编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录C++初级面试题及其详细解答1.解释C
软件系统复杂性应对 Ares-Wang 概念思维
软件系统复杂性应对解决复杂和大规模软件的武器可以被粗略地归为三类：抽象、分治和知识。分治把问题空间分割为规模更小且易于处理的若干子问题。分割后的问题需要足够小，以便一个人单枪匹马就能够解决他们；其次，必须考虑如何将分割后的各个部分装配为整体。分割得越合理越易于理解，在装配成整体时，所需跟踪的细节也就越少。即更容易设计各部分的协作方式。评判什么是分治得好，即高内聚低耦合。抽象使用抽象能够精简问题空间
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

【Pytorch】第 9 章 ：Capstone 项目——用 DQN 玩 Flappy Bird

foreword

设置游戏环境

做好准备

怎么做...

这个怎么运作...

构建深度 Q 网络来玩 Flappy Bird

怎么做...

这个怎么运作...

训练和调整网络

怎么做...

这个怎么运作...

部署模型并玩游戏

怎么做...

这个怎么运作...

你可能感兴趣的:(Pytorch的强化学习,pytorch,pygame,python)

【Pytorch】第 9 章：Capstone 项目——用 DQN 玩 Flappy Bird