最爱小游侠

强化学习：基于pygame和pytorch实现ppo算法在扫雷小游戏上的AI决策

一.介绍

二.环境搭建

一.实现代码

二.效果展示

编辑

三.PPO算法

一.PPO算法介绍

二.代码实现

一.policy和value网络设定

二.PPO类定义

四.环境交互

一.主函数定义

二.训练结果展示

五.总结

文章完整源码：github源码

一.介绍

扫雷游戏是一种单人游戏，其目标是在一个方形区域内找到并标记出所有地雷。游戏板可以被分成若干个格子，每个格子可以为没有地雷的空或一个地雷。玩家可以点击面板上的不同格子来探测地雷的位置，并使用旗帜标记出潜在的地雷以避免触雷。这个游戏的难度级别通常可以由不同的元素来调整，包括面板尺寸、地雷密度等等。

强化学习是一种可以让机器自我提高的机器学习技术。在扫雷游戏中应用强化学习技术可以使AI模型在没有人类指导的情况下学习并提高其决策能力。强化学习使AI能够自主地探索和试验不同的决策，并逐渐改进其决策能力。这种技术特别适用于扫雷游戏，因为游戏中充满了未知的、不确定的可能性，需要AI模型有能力自主地探索，并逐渐学习如何在未知情况下做出更好的决策。

PPO算法（Proximal Policy Optimization）是一种特别适用于扫雷游戏的强化学习算法。它基于一个近邻政策优化算法，经过了一些逐渐改进和优化的步骤，以获得更好的AI决策性能。使用PPO算法可以允许AI模型在扫雷游戏上自己学习如何进行最优化的决策，并从中获取最大的利益。

当使用强化学习技术来玩扫雷游戏时，实际上是让AI模型去学习扫雷游戏中的最佳策略，以便在按照策略行动时最大化成功的可能性。强化学习可以帮助AI模型自主地探索各种策略并逐渐提高其决策能力。在扫雷游戏中应用强化学习技术的好处在于，游戏的情况与人类玩家具有不同的难度和挑战性，因为它需要玩家在面对不同的环境和情境时做出正确的决策。但是，AI模型在没有任何人类指导的情况下可以通过强化学习来自行找到最佳策略，并在游戏中取得最佳表现。这也是强化学习在扫雷游戏中应用的重要意义之一。

具体来说，当AI模型使用PPO算法在扫雷游戏中学习时，算法将调整松紧有度地优化模型的策略，并通过与环境交互来逐渐改进AI的性能。而这种技术的使用意味着AI模型可以学习如何在不确定和复杂的环境中做出最佳决策，以最大化游戏中的胜利概率。因此，在扫雷游戏中应用强化学习技术可以解决一些较困难的问题，将AI模型的表现提高到更高的水平，并使游戏变得更有乐趣和挑战性。

二.环境搭建

搭建扫雷游戏时，首先要考虑两大内容，一是扫雷游戏机制的真实实现，二是对于智能体交互环境搭建，最后还要考虑与智能体交互展示。所以本人搭建的扫雷游戏设置了三种模式：人机交互式、智能体交互式及可视化智能体交互式。对此本人基于pygame编写了Minesweeper类。

一.实现代码

```
__init__
```

在类初始化函数中，初始化Minesweeper类是可传递五个参数，分别为：

grid_width(地图宽度) grid_height(地图高度) cell_size(单元格大小) mine_count(地雷数量) window(是否视窗)

def __init__(self, grid_width=10, grid_height=10, cell_size=50, mine_count=13, window=True):
    self.GRID_WIDTH = grid_width
    self.GRID_HEIGHT = grid_height
    self.CELL_SIZE = cell_size
    self.MINE_COUNT = mine_count

    self.RED = (255, 0, 0)
    self.WHITE = (255, 255, 255)
    self.BLACK = (0, 0, 0)
    self.GREY = (128, 128, 128)

    self.font = pygame.font.SysFont(None, 30)
    self.window = window
    self.akc = False
    if self.window:
        pygame.display.set_caption("Minesweeper")
        self.screen = pygame.display.set_mode((self.GRID_WIDTH * self.CELL_SIZE, self.GRID_HEIGHT * self.CELL_SIZE))

        self.r = 0.
        self.R = []
        self.actions = []
        self.condition = True
        self.map = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
        self.t = 0
        self.count = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])

    else:
        self.r = 0.
        self.R = []
        self.actions = []
        self.condition = True
        self.map = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
        self.t = 0
        self.count = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])

    self.grid = [[0 for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)]
    self.mines = []
    for i in range(self.MINE_COUNT):
        while True:
            x = random.randint(0, self.GRID_WIDTH - 1)
            y = random.randint(0, self.GRID_HEIGHT - 1)
            if (x, y) not in self.mines:
                self.mines.append((x, y))
                self.grid[x][y] = -1
                break

    self.revealed = np.array([[False for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)])  
    if not self.window:
        self.status = self.get_status()
    else:
        self.status = self.get_status()

代码实现了扫雷游戏的一些常量元素的定义，设置了pygame的视窗元素，以及定义了环境交互的元素和相关信息

```
get_adjacent_cells
```

函数getadjacentcells的实现功能是获取目标位置的相邻元素格。具体实现是通过遍历目标位置周围的格子，将其添加到一个列表中并返回。

def get_adjacent_cells(self, x, y):
    cells = []
    for i in range(max(0, x - 1), min(x + 2, self.GRID_WIDTH)):
        for j in range(max(0, y - 1), min(y + 2, self.GRID_HEIGHT)):
            if i != x or j != y:
                cells.append((i, j))
    return cells

函数接受两个参数x和y，表示目标位置的坐标。函数通过遍历目标位置周围的格子，将其添加到一个列表中并返回。具体实现是通过两个for循环遍历目标位置周围的格子，将其添加到一个列表中。在遍历时，需要注意边界情况，即不能超出地图的范围。同时，需要排除目标位置本身，因为目标位置不是相邻元素格。最后，函数返回一个包含相邻元素格坐标的列表。

```
get_status
```

类的子函数 get_status的功能为获取环境当前状态，状态为当前游戏中每个格子的信息（未揭示为1）和点击次数，用作为智能体的输入信息，其返回参数为状态信息status

def get_status(self):
    status = (self.revealed.astype(np.float64) - 1) + self.map
    status = np.stack((status, self.count), axis=0)
    return status

```
reveal_cell
```

函数reveal_cell的实现功能是揭示指定位置的格子。具体实现是通过获取目标位置的相邻元素格，计算相邻元素格中地雷的数量，然后将目标位置的状态设置为已揭示并更新相关元素。

def reveal_cell(self, x, y):
    self.revealed[x][y] = True
    if self.window:
        rect = pygame.Rect(x * self.CELL_SIZE, y * self.CELL_SIZE, self.CELL_SIZE, self.CELL_SIZE)
        pygame.draw.rect(self.screen, self.WHITE, rect)
        if self.grid[x][y] == -1:
            self.map[x, y] = -10
            pygame.draw.circle(self.screen, self.RED, rect.center, self.CELL_SIZE // 3)
        else:
            pygame.draw.rect(self.screen, self.GREY, rect)
            self.map[x, y] = self.count_adjacent_mines(x, y)
            if self.count_adjacent_mines(x, y) >= 0:
                text = self.font.render(str(self.count_adjacent_mines(x, y)), True, self.BLACK)
                text_rect = text.get_rect(center=rect.center)
                self.screen.blit(text, text_rect)
    else:
        if self.grid[x][y] == -1:
            self.map[x, y] = -10
        else:
            self.map[x, y] = self.count_adjacent_mines(x, y)

函数接受两个参数x和y，表示目标位置的坐标。函数首先判断目标位置是否为地雷，如果是地雷，则揭示所有位置并将游戏状态设置为失败；否则，将目标位置的状态设置为已揭示，并计算相邻元素格中地雷的数量。如果相邻元素格中没有地雷，则递归调用reveal_cell函数揭示相邻元素格。

```
reveal_all_cells
```

函数reveal_all_cells的实现功能是将所有未揭示的格子都揭示出来。具体实现是遍历整个游戏区域，将所有未揭示的格子都揭示出来。

def reveal_all_cells(self):
    for i in range(self.GRID_WIDTH):
        for j in range(self.GRID_HEIGHT):
            if not self.revealed[i][j]:
                self.reveal_cell(i, j)

函数没有参数，遍历整个游戏区域，将所有未揭示的格子都揭示出来。在遍历过程中，如果发现某个格子未揭示，则调用reveal_cell函数揭示该格子。

```
agent_click
```

函数agent_click的实现功能是智能体点击指定位置的格子。具体实现是调用reveal_cell函数揭示指定位置的格子，并判断点击位置是否无效（已被揭示）或是地雷。且据此给出相应奖励。该函数在与智能体交互时使用

def agent_click(self, x, y):
    if self.revealed[x][y]:
        self.r += 0.
    elif self.grid[x][y] != -1:
        self.reveal_cell(x, y)
        self.r = 1.
        if self.count_adjacent_mines(x, y) == 0:
            for i, j in self.get_adjacent_cells(x, y):
                if self.grid[i][j] != -1 and not self.revealed[i][j]:
                    self.agent_click(i, j)
    else:
        self.reveal_all_cells()
        self.r += 0.
        self.condition = False

```
handle_left_click
```

函数handle_left_click的实现功能与是处理鼠标左键点击事件，具体功能与函数agent_click类似，最不同的地方是当点击到雷时会重置游戏。

def handle_left_click(self, x, y):
    if self.revealed[x][y]:
        self.r += 0.
    elif self.grid[x][y] != -1:
        self.reveal_cell(x, y)
        self.r = 1.
        if self.count_adjacent_mines(x, y) == 0:
            for i, j in self.get_adjacent_cells(x, y):
                if self.grid[i][j] != -1 and not self.revealed[i][j]:
                    self.handle_left_click(i, j)
    else:
        self.reveal_all_cells()
        self.r += 0.
        self.condition = False
        pygame.display.flip()
        if self.akc:
            time.sleep(2.)
            self.reset()

```
draw_grid
```

函数draw_grid的实现功能是在游戏窗口中绘制/更新游戏区域的网格。具体实现是使用pygame库中的draw模块，绘制游戏区域的水平和垂直线条，并显示揭示格子的信息。

def draw_grid(self):
    for i in range(self.GRID_WIDTH):
        for j in range(self.GRID_HEIGHT):
            rect = pygame.Rect(i * self.CELL_SIZE, j * self.CELL_SIZE, self.CELL_SIZE, self.CELL_SIZE)
            pygame.draw.rect(self.screen, self.WHITE, rect, 1)
            if self.revealed[i][j]:
                if self.grid[i][j] == -1:
                    pygame.draw.circle(self.screen, self.RED, rect.center, self.CELL_SIZE // 3)
                else:
                    pygame.draw.rect(self.screen, self.GREY, rect)
                    if self.count_adjacent_mines(i, j) > 0:
                        text = self.font.render(str(self.count_adjacent_mines(i, j)), True, self.BLACK)
                        text_rect = text.get_rect(center=rect.center)
                        self.screen.blit(text, text_rect)

函数没有参数，使用pygame库中的draw模块，绘制游戏区域的水平和垂直线条。在绘制水平线条时，循环次数为self.width + 1，绘制的起点和终点分别为(self.x + i*CELL_SIZE, self.y)和(self.x + i *CELL_SIZE, self.y + self.height*CELL_SIZE)；在绘制垂直线条时，循环次数为self.height + 1，绘制的起点和终点分别为(self.x, self.y + j*CELL_SIZE)和(self.x + self.width*CELL_SIZE, self.y + j*CELL_SIZE)。如果绘制位置为地雷则显示红色白底圆圈，如果绘制位置周围有地雷，则显示地雷个数。

```
count_adjacent_mines
```

函数count_adjacent_mines的实现功能是计算指定位置周围的地雷数量

def count_adjacent_mines(self, x, y):
    count = 0
    for i, j in self.get_adjacent_cells(x, y):
        if self.grid[i][j] == -1:
            count += 1
    return count

函数接受两个参数x和y，表示目标位置的坐标。函数首先初始化计数器count为0，然后使用两个嵌套的循环遍历目标位置周围的所有位置。对于每个位置，如果该位置是地雷，则将计数器count加1。最后返回计数器count的值，即为指定位置周围的地雷数量。

```
reset
```

函数reset的实现功能是重置游戏状态和游戏区域,函数会初始化所有游戏元素和环境元素的状态，并在self.running=True时重置游戏视窗。

def reset(self):
    self.grid = [[0 for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)]
    self.mines = []
    for i in range(self.MINE_COUNT):
        while True:
            x = random.randint(0, self.GRID_WIDTH - 1)
            y = random.randint(0, self.GRID_HEIGHT - 1)
            if (x, y) not in self.mines:
                self.mines.append((x, y))
                self.grid[x][y] = -1
                break
    self.revealed = np.array(
        [[False for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)])
    if not self.window:
        self.r = 0.
        self.R = []
        self.actions = []
        self.condition = True
        self.map = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
        self.status = self.get_status()
        self.t = 0
        self.count = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
    else:
        self.r = 0.
        self.R = []
        self.actions = []
        self.condition = True
        self.map = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
        self.status = self.get_status()
        self.t = 0
        self.count = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])

        self.screen = pygame.display.set_mode(
            (self.GRID_WIDTH * self.CELL_SIZE, self.GRID_HEIGHT * self.CELL_SIZE))
        self.screen.fill(self.BLACK)
        self.draw_grid()
        pygame.display.flip()

```
update
```

函数update的实现功能是更新的环境游戏状态。函数接受一个参数a，表示智能体选择的动作（格子的坐标），函数首先会揭示该位置（其它参数更新再次过程中进行），并更新点击状态，之后函数会判断游戏是否达到胜利条件，如果达到则返回高额奖励并更新游戏状态为False表示游戏结束，否则则判断交互次数是否达到阈值（50）次，如果达到则更新游戏状态为False表示游戏结束。最后函数返回给智能体游戏的状态信息，奖励，游戏状态等信息。

def update(self, a):
    [x, y] = a
    self.r = 0.
    self.agent_click(x, y)
    self.count[x, y] += 1

    if self.revealed.sum() <= (self.GRID_WIDTH * self.GRID_HEIGHT - self.MINE_COUNT) and self.revealed.sum() >= (
            self.GRID_WIDTH * self.GRID_HEIGHT - self.MINE_COUNT - 10):
        self.r = 50.
        self.condition = False

    self.status = self.get_status()
    self.R.append(self.r)
    self.actions.append([x, y])
    self.t += 1
    if self.t == 50:
        self.condition = False
        self.r = 0.
    return [torch.tensor(self.status, dtype=torch.float32), self.r, self.condition]

```
agengt_run
```

函数agent_run的实现功能是智能体与游戏的可视化交互，函数接收智能体的决策a，并更新视窗，具体功能与函数undate相似。

def agengt_run(self, a):
    [x, y] = a
    self.r = 0.
    self.handle_left_click(x, y)
    self.draw_grid()
    pygame.display.flip()

    self.count[x, y] += 1
    if self.revealed.sum() <= (self.GRID_WIDTH * self.GRID_HEIGHT - self.MINE_COUNT) and self.revealed.sum() >= (
            self.GRID_WIDTH * self.GRID_HEIGHT - self.MINE_COUNT - 10):
        self.r = 10.
        self.condition = False
    self.status = self.get_status()
    self.R.append(self.r)
    self.actions.append([x, y])
    self.t += 1
    if self.t == 50:
        self.condition = False
        self.r = 0.
    return [torch.tensor(self.status, dtype=torch.float32), self.r, self.condition]

```
run
```

run函数实现功能是人机交互时处理事件和更新游戏状态的游戏主循环。函数首先将akc属性设置为True，将running属性设置为True。然后，它进入一个while循环，只要运行为True，该循环就会运行。在while循环中，它使用for循环来处理事件，该循环迭代事件队列中的所有事件。如果事件是一个QUIT事件，它会将running设置为False以退出循环。如果事件是MOUSEBUTTONDOWN事件，它会获取鼠标单击的位置，并将其转换为游戏网格中的相应单元格。如果鼠标按钮是左键，那么它将使用单元格坐标调用handle_left_click函数。如果鼠标按钮是右键，它将使用单元格坐标调用handle_right_click函数。处理完事件后，它使用draw_grid函数绘制游戏网格，并使用pygame.display.fip（）更新屏幕。一旦循环退出，它就会使用pygames.quit（）退出pygame。

def run(self):
    # 设置视频驱动为dummy
    # os.environ['SDL_VIDEODRIVER'] = 'dummy'
    self.akc = True

    self.running = True
    while self.running:
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                self.running = False
            elif event.type == pygame.MOUSEBUTTONDOWN:
                x, y = event.pos
                x //= self.CELL_SIZE
                y //= self.CELL_SIZE
                if event.button == 1:
                    self.handle_left_click(x, y)
                elif event.button == 3:
                    self.handle_right_click(x, y)

        self.draw_grid()
        pygame.display.flip()

    pygame.quit()

二.效果展示

目前演示人机交互时，代码运行结果，当执行以下代码时：

if __name__=='__main__':
    minesweeper = Minesweeper()
    minesweeper.run()

会出现可视化窗口，结果如图：

效果如下：

三.PPO算法

一.PPO算法介绍

PPO（Proximal Policy Optimization）算法是一种强化学习算法，旨在解决学习策略的连续优化问题，特别是针对连续动作空间的问题，PPO算法的理论原理主要基于两个方面：策略梯度定理和近端策略优化。

策略梯度定理：策略梯度定理指出策略函数的梯度可以被用来更新策略函数，从而提高智能体的性能。具体来说，策略梯度定理可以被用来计算策略函数的梯度，以最大化预期回报。

近端策略优化：近端策略优化是PPO算法的核心思想。近端策略优化通过限制策略更新的步幅，来保证策略函数的稳定性。具体来说，PPO算法使用了一种称为“裁剪”的技术，通过比较当前策略函数和旧策略函数的比率，来确定裁剪比例。这样可以保证策略函数的更新不会过大，从而避免过度拟合和不稳定性。

PPO算法的具体实现方法可以分解为两个方面: 更新策略以及梯度裁剪。

首先，对于策略的更新。PPO算法采用一种称为Proximal Policy Objective的目标函数来更新策略。其目标是最大化目标函数Jθ(πθ,πold) – βKL(πold||πθ)，其中πold是当前策略，πθ是更新后的策略，βKL是一个控制更新步长的参数。目标函数实际上是由两个独立的部分组成的。第一个部分是我们希望最大化的累积奖励的期望值，第二个部分是我们想要最小化的KL散度。目标函数中的KL散度实际上是我们给出足够的余地来调整更新步长，以免更新步伐太大导致新的策略跳过了我们希望优化的重要状态。

其次，对于梯度裁剪。在训练神经网络时，梯度更新可能会导致梯度爆炸或梯度消失的问题。为了应对这些问题，PPO算法使用两种梯度裁剪方法，即clip和surrogate分别用于policy gradient以及value function的更新。clip使用一个超级参数epsilon定义一个上下限范围，以限制梯度增量的大小。然后，当前网络的概率分布和旧网络的概率分布相比较，以保证在新旧策略之间只进行小的概率变更。Surrogate则以一种先验方式，通过测量新旧策略之间的相对概率，来度量选择新策略的程度。这个度量实际上也会影响policy和value函数的更新。

对于此PPO算法，本人则使用的是基于梯度裁剪方法的PPO算法实现。因为对于此问题，相比于更新策略，梯度裁剪方法可以使得更新过程中，新旧策略之间的距离控制得更好，且梯度裁剪方法可以使得更新过程中的梯度平稳变化，在学习过程中提高了稳定性，可以进一步保证学习结果的可靠性。

详细的PPO算法原理介绍可以参看文章：Proximal Policy Optimization(PPO)算法原理及实现

如有对强化学习研究感兴趣的朋友可以看PPO算法原文：Proximal Policy Optimization Algorithms

二.代码实现

一.policy和value网络设定

对于此扫雷游戏的环境设定，网络输入的数据张量形状为[b,2,w,h]，其中b为batch_size，w、h分别为游戏横、纵格子数量，其中w、h默设置认为10。

policy分别设置了两种网络结构，分别为卷积网络结构(CNN)和全连接网络结构(DNN)，两种网络输出维度为[b,w*h]

class Action1(nn.Module):
    def __init__(self,input_shape=[10,10]):
        super(Action1,self).__init__()
        self.input_dim=input_shape
        self.conv_layers = nn.Sequential(
            nn.Conv2d(in_channels=2, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=32, out_channels=128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=128, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=32, out_channels=1, kernel_size=3, stride=1, padding=1),
        )
        self.softmax = nn.Softmax(dim=1)
        self.relu = nn.ReLU()

    def forward(self,x):
        x=self.conv_layers(x).view(x.shape[0],-1)
        out = self.softmax(x)
        return out

class Action2(nn.Module):
    def __init__(self,input_shape=[10,10]):
        super(Action2,self).__init__()
        self.input_dim=input_shape[0]*input_shape[1]
        self.output_dim=(input_shape[0]+6)*(input_shape[1]+6)
        self.liner=nn.Linear(self.input_dim,512)
        self.liner2=nn.Linear(512,self.output_dim)
        self.liner3 = nn.Linear(self.output_dim,self.input_dim)

        self.softmax = nn.Softmax(dim=1)
        self.relu = nn.ReLU()

    def forward(self,x):
        x=x.view(x.shape[0],-1)
        x=self.relu(self.liner(x))
        x=self.relu(self.liner2(x))
        out=self.softmax(self.liner3(x))
        return out

value网络结构输出维度则是[b,1]

class Bvalue(nn.Module):
    def __init__(self):
        super(Bvalue,self).__init__()
        self.relu = nn.ReLU()
        self.liner=nn.Linear(200,256)
        self.liner2=nn.Linear(256,512)
        self.liner3 = nn.Linear(512,1)

    def forward(self,x):
        x = x.view(x.shape[0], -1)
        x=self.relu(self.liner(x))
        x=self.relu(self.liner2(x))
        # out=self.relu(self.liner3(x))
        out = self.liner3(x)
        return out

二.PPO类定义

PPO算法初始化时接受input_shape,up_time,batch_size,a_lr,b_lr,gama,epsilon七个参数，分别代表这游戏环境网格大小、一次交互训练次数、数据批量大小、policy网络学习率、value网络、价值超参数以及clip，PPO定义了序列池suffer、智能体网络和价值网络以及其对于的Adam梯度优化其和用来计算价值网络损失的损失函数loss。

    def __init__(self,input_shape=[10,10],up_time=10,batch_size=32,a_lr=1e-5,b_lr=1e-5,gama=0.9,epsilon=0.1):
        self.up_time=up_time
        self.batch_size=batch_size
        self.gama=gama
        self.epsilon=epsilon
        self.suffer = []
        self.action = Action1(input_shape)
        self.action.to(device)
        self.bvalue = Bvalue()
        self.bvalue.to(device)
        self.acoptim = optim.Adam(self.action.parameters(), lr=a_lr)
        self.boptim = optim.Adam(self.bvalue.parameters(), lr=b_lr)
        self.loss = nn.MSELoss().to(device)
        self.old_prob = []

update(self)函数是PPO中用于更新策略和价值网络的主函数，实现了PPO算法的核心训练循环。

首先，函数从存储在self.suffer列表中的经验缓冲区中检索状态、动作、奖励、完成标志和旧动作概率。

然后，它使用折扣因子self.gama计算每个经验的折扣奖励。

之后，该函数按照指定迭代次数（self.up_time）来训练策略和价值网络。对于每次迭代，都会从缓冲区中随机抽取一批经验，并使用采样的索引将折扣奖励计算为价值网络的目标值。

其次，使用当前价值网络计算相同批次状态的预测值。

最后，通过从目标值中减去预测值来计算优势估计，并使用PPO损失函数更新策略网络。使用预测值和目标值之间的均方误差损失更新价值网络。

    def update(self):
        states = torch.stack([t.state for t in self.suffer],dim=0).to(device)
        actions = torch.tensor([t.ac for t in self.suffer], dtype=torch.int).to(device)
        rewards = [t.reward for t in self.suffer]
        done=[t.done for t in self.suffer]
        old_probs = torch.tensor([t.ac_prob for t in self.suffer], dtype=torch.float32).to(device)  # .detach()

        false_indexes = [i+1 for i, val in enumerate(done) if not val]
        if len(false_indexes)>=0:
            idx,reward_all=0,[]
            for i in false_indexes:
                reward=rewards[idx:i]
                R = 0
                Rs = []
                reward.reverse()
                for r in reward:
                    R = r + R * self.gama
                    Rs.append(R)
                Rs.reverse()
                reward_all.extend(Rs)
                idx=i
        else:
            R = 0
            reward_all = []
            rewards.reverse()
            for r in rewards:
                R = r + R * self.gama
                reward_all.append(R)
            reward_all.reverse()
        Rs = torch.tensor(reward_all, dtype=torch.float32).to(device)
        for _ in range(self.up_time):
            self.action.train()
            self.bvalue.train()
            for n in range(max(10, int(10 * len(self.suffer) / self.batch_size))):
                index = torch.tensor(random.sample(range(len(self.suffer)), self.batch_size), dtype=torch.int64).to(device)
                v_target = torch.index_select(Rs, dim=0, index=index).unsqueeze(dim=1)
                v = self.bvalue(torch.index_select(states, 0, index))
                adta = v_target - v
                adta = adta.detach()
                probs = self.action(torch.index_select(states, 0, index))
                pro_index = torch.index_select(actions,0,index).to(torch.int64)

                probs_a = torch.gather(probs, 1, pro_index)
                ratio = probs_a / torch.index_select(old_probs, 0, index).to(device)
                surr1 = ratio * adta
                surr2 = torch.clip(ratio, 1 - self.epsilon, 1 + self.epsilon) * adta.to(device)
                action_loss = -torch.mean(torch.minimum(surr1, surr2))
                self.acoptim.zero_grad()
                action_loss.backward(retain_graph=True)
                self.acoptim.step()
                bvalue_loss = self.loss(v_target, v)
                self.boptim.zero_grad()
                bvalue_loss.backward()
                self.boptim.step()
        self.suffer = []

四.环境交互

一.主函数定义

最后一步，编写一个主函数mian.py文件将PPO算法与扫雷游戏交互起来，进行智能体的训练、展示等内容。

训练函数trian函数接受四个参数：times、x、y 和 mine_num。这些参数分别指定了要运行的迭代次数、扫雷网格的宽度和高度以及要放置的地雷数量。

首先，函数初始化了一个扫雷环境和一个 PPO 代理网络。

然后，函数运行了一个循环，循环次数为指定的迭代次数。在每个迭代中，函数运行了另一个循环，循环次数为指定的 epoch 数。在每个 epoch 中，函数重置了扫雷环境，获取了环境的当前状态，并使用 PPO 代理根据当前状态选择一个动作。然后，函数使用所选动作更新环境，记录结果状态、奖励和完成状态，并将此信息添加到缓冲区中。如果缓冲区大于指定的批量大小，则使用缓冲区的内容更新 PPO 代理。

之后，在所有迭代和 epoch 完成后，将保存 PPO 代理的动作网络到文件中。

最后，函数计算每组 50 次迭代的平均奖励，并使用 pyecharts 库将这些值绘制在一条线图上。

def train(times,x,y,mine_num):
    env=Minesweeper(grid_width=x,grid_height=y,mine_count=mine_num,window=False)
    net=PPO(input_shape=[x,y],up_time=up_time,batch_size=batch_size,a_lr=a_lr,b_lr=b_lr,gama=gama,epsilon=epsilon)
    # path='net_model.pt'
    # net.load_net(path)
    Rs=[]
    for i in range(times):
        with tqdm(total=epoch, desc='Iteration %d' % i) as pbar:
            for e in range(epoch):
                env.reset()
                s=torch.tensor(env.get_status(),dtype=torch.float32)
                while env.condition and env.t<51:
                    a,a_p=net.get_action(s)
                    at=get_a(a[0],x,y)
                    [s_t,r,d]=env.update(at)
                    buffer=Transition(s,a,a_p,r,d)
                    net.appdend(buffer)
                    s=s_t
                R=np.array(env.R).sum()
                Rs.append(R)
                if len(net.suffer)>batch_size:
                    net.update()
                pbar.set_postfix({'return': '%.2f' % R})
                pbar.update(1)

    torch.save(net.action,'net_model.pt')
    Re=[]
    for i in range(int(len(Rs)/50)):
        idx=i*50
        Re.append(sum(Rs[idx:idx+50])/50)
    x=[str(i) for i in range(len(Re))]
    line=Line()
    line.add_xaxis(xaxis_data=x)
    line.add_yaxis(y_axis=Re,series_name='Recall')
    line.render('result.html')

网络训练完成之后，调用test()函数对训练的结果进行展示

def test(path,x=10,y=10,mine_num=10):
    env = Minesweeper(grid_width=x, grid_height=y, mine_count=mine_num)
    net = torch.load(path)
    device = torch.device("cpu")
    net = net.to(device)
    s = torch.tensor(env.get_status(), dtype=torch.float32)
    a_p = 0
    for i in range(5):
        while env.condition:
            a, a_p = test_get_action(s, net, x_idx=x, y_idx=y, a_p=a_p)
            [s_t, r, d] = env.agengt_run(a)
            time.sleep(1.)
            s = s_t
        env.reset()

二.训练结果展示

当超参数batch_size=32,a_lr=0.0001,b_lr=0.002,gama=0.995,epsilon=0.2,up_time=10,epoch=50时，执行代码

mian(times=100,x=10,y=10,mine_num=10)

训练结果如下：

最终智能体获得的奖励回报在32左右除去开始时10%（地雷数/格子总数）随机失败概率，智能体的成功率平均在70%左右，最高阶段的成功率在85%左右。下面是智能体的效果演示：

五.总结

此博客介绍了强化学习PPO算法在扫雷游戏上的应用，代码基于pygame和pytorch实现，其中游戏环境为自行搭建，游戏实现基本的扫雷游戏机制且更易与PPO算法进行交互。文章主要写了以强化学习为主的相关说明以及环境代码和PPO算法代码的实现，并介绍了主要代码的具体实现内容，最后展示了算法的训练过程和运行效果。总体来说代码不够完善，还是有许多不足，算法最终效果也有待提高。最后，希望文章能给大家在学习之路上带来帮助。

CSDN作为程序员分享交流社区，社区中拥有非常丰富且开源的资源，是国人的技术交流平台，它帮助许多相关领域人员解决了各种技术、知识上的“疑难杂症”，本人也是其中之一，从入门小白到现在，CSDN帮助了我许多，在学习之路伴我前行。所谓知恩报德、授之以渔，也希望今后CSDN能帮助更多人解决更多问题，这也是本人发布这个篇博客的主要原因。感谢CSDN，感谢每一位博客！

声明

此文章和代码为本人原创，如有转载、参照，望引用

你可能感兴趣的:(人工智能,pygame,python,pytorch,深度学习)

华为OD机考2025B卷 - 停车费用统计（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python 华为OD机考2025B卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述停车场统计当日总收费，包月的车不统计，不包月的车半个小时收一块钱，不满半小时不收钱，如果超过半小时，零头不满半小时按半小时算，每天11:30-13:30时间段不收钱，如果一辆车停车时间超过8小时后不收费(网友回忆，数值不一定为8，正式机考的时候注意一下)。输入
Python 音乐爬虫实战：从网页抓包到歌曲下载维他奶糖61 python 爬虫开发语言
在数字音乐的世界里，通过编程的方式获取自己喜欢的音乐，是一件既有趣又充满挑战的事情。今天，我们就用Python来打造一个简单的音乐爬虫，实现从网页抓包分析，到最终下载歌曲的全过程。一、代码概览流程先来看一下完整的Python代码：importos#抓包过滤媒体#id#EltfAyJRBlZeEF1aUCQFAFhfFF8NUnheUVhfF11XUyQaVldTR19NVndTVVlSQ1hfVw
智联招聘爬虫维他奶糖61 爬虫 python 开发语言数据挖掘
使用Python和Selenium进行招聘信息爬取在当今数字化时代，数据已成为企业决策的重要依据。对于人力资源部门或求职者而言，获取最新的招聘信息至关重要。然而，手动浏览和收集招聘信息不仅耗时费力，而且效率低下。为了解决这个问题，我们可以使用Python和Selenium库来自动化这一过程，实现从招聘网站上批量爬取招聘信息。准备工作在开始之前，你需要确保已经安装了以下库：Python（建议版本3.
Python 图片爬虫实战：从代码解析到应用技巧维他奶糖61 python 爬虫开发语言
在数字时代，图片资源丰富多样，通过爬虫技术批量获取心仪的图片成为不少人的需求。本文将以爬取彼岸桌面壁纸网4K美女壁纸为例，深入解析Python图片爬虫代码，分享实用技巧，带你轻松掌握图片爬虫技术。一、爬虫实现思路爬虫的核心是模拟浏览器访问网页，解析页面内容，提取所需信息。本次爬虫的流程如下：构建目标网页URL列表，循环访问各页面；发送HTTP请求获取页面内容，解析HTML文档；定位图片元素，提取图
《Python 实现 B 站视频信息爬虫：从批量获取到 CSV 保存》维他奶糖61 python 音视频爬虫
B站视频信息爬虫实战：用Python批量获取B站视频数据引言在数据分析和内容研究场景中，获取B站视频的标题、播放量、作者等信息是常见需求。本文将介绍如何使用Python编写一个B站视频爬虫，通过DrissionPage库实现自动化数据采集，并保存为CSV格式。相比传统Selenium，DrissionPage的API更简洁，适合快速开发爬虫脚本。技术栈与环境准备核心库：DrissionPage：基
用Pytorch训练手写签名模型并进行签名识别 TBM矩阵 #AI体系学习 pytorch 人工智能 python
整体思路收集至少两个人的手写签名图片，每个人至少20张使用Pytorch进行模型训练使用Flask搭建Web服务使用Html/JavaScript实现前端调用进行签名识别项目结构signature-systemdatatrainuser001001.png...user002001.png...templatesindex.htmlapp.pymodel.pytrain.py建模：model.py
Java 多线程并发编程面试笔录一览 weixin_34318272 面试 python java
2019独角兽企业重金招聘Python工程师标准>>>知识体系图：1、线程是什么？线程是进程中独立运行的子任务。2、创建线程的方式方式一：将类声明为Thread的子类。该子类应重写Thread类的run方法方式二：声明实现Runnable接口的类。该类然后实现run方法推荐方式二，因为接口方式比继承方式更灵活，也减少程序间的耦合。3、获取当前线程信息？Thread.currentThread()4
python为指定目录下的文件名批量加前缀 jghhh01 python java 前端
功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为“目录名_原文件名”。代码importargparseimportosimportsysimportloggingdefgen_args():"""说明-----解析命令行参数"""parser=argparse.ArgumentParser(prog="批量文件重命名工具",description="批量重命名目录中的文件名,新文件名
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
python递归实现乘法_算法-递归 weixin_39817012 python递归实现乘法
我们在前面学习过递归函数，递归函数采用的就是递归算法，前面我们通过最常见的菲波那切数列去学习了递归函数，这一节我们再来详细了解一下递归算法。1.递归算法递归算法(英语：recursionalgorithm)在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。递归式方法可以被用于解决很多的计算机科学问题，因此它是计算机科学中十分重要的一个概念，递归算法有三个特点：1)递归的过程一
算法-基础算法-枚举算法（Python）总裁余(余登武) 算法与数据结构算法 leetcode
文章目录前言解题思路题目1两数之和2计数质数前言枚举算法（EnumerationAlgorithm）：也称为穷举算法，指的是按照问题本身的性质，一一列举出该问题所有可能的解，并在逐一列举的过程中，将它们逐一与目标状态进行比较以得出满足问题要求的解。在列举的过程中，既不能遗漏也不能重复。枚举算法的核心思想是：通过列举问题的所有状态，将它们逐一与目标状态进行比较，从而得到满足条件的解。由于
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr