不买Huracan不改名

nuaa-数据融合-基于强化学习的小游戏

一、写在前面

二、安装pygame

三、读整个项目文件中的README.md

四、模拟强化学习(重点)

4.1先装cuda

4.2 再装cuDNN

4.3 添加环境变量

五、使用conda下载pytorch

反转来了

env.py

main.py

ppo.py

一、写在前面

首先到github上下载这个项目

GitHub - PiperLiu/Amazing-Brick-DFS-and-DRL: 用深度优先搜索 DFS 与深度强化学习 DRL 分别自动控制 amazing brick 小游戏

然后先大概浏览下项目的框架1.5万字详述 | 全开源：python写小游戏+AI强化学习与传统DFS/BFS控制分别实现_强化学习python小游戏_枇杷鹭的博客-CSDN博客

二、安装pygame

1.在anconda环境中安装这个包

2.安装pygame ：pip install pygame -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

缘由：pip安装包报错Could not find a version that satisfies the requirement pymysql (from versions: none) - 知乎

三、读整个项目文件中的README.md

然后模拟DFS和BFS

四、模拟强化学习(重点)

4.1先装cuda

深度学习环境搭建（GPU）CUDA安装（完全版）_cuda_10.2.89_441.22_win10_小邢同学的博客-CSDN博客

看看自己的版本比如我这里是12.1.68 那我下载12.1.1的cuda应该是没问题的

去CUDA Toolkit Archive | NVIDIA Developer

选择版本然后下载（强推IDM下载器）

然后运行下载的exe （下图是10.2的版本实际我这里是我刚说的12.1）

检查通过了以后选自定义

等待安装完成关闭就行了，记得安装过程不要打开vs

这个时候cmd就已经能够查到cuda的版本了 nvcc -V

4.2 再装cuDNN

来到官网

lCUDA Deep Neural Network (cuDNN) | NVIDIA Developer

用谷歌邮箱或者什么玩意登录一下或者注册看下面的链接【NVIDIA】账户该如何创建-百度经验

终于竟来进来了

解压后的三个文件夹和一个TXT文档放到刚才CUDA的安装目录下全部替换

4.3 添加环境变量

可以发现已经有了两个环境变量

这个时候cmd就已经能够查到cuda的版本了 nvcc -V

五、使用conda下载pytorch

看一下自己py版本

创建一个虚拟环境

conda create –n 虚拟环境名字 python=版本如果发生下面的报错就先恢复下默认的源

conda config --remove-key channels

细节：Anaconda创建虚拟环境报错—UnavailableInvalidChannel: The channel is not accessible or is invalid_wt-cai的博客-CSDN博客

验证是否成功 conda info --envs

进入虚拟环境

进入官网看选择合适的CUDA版本（解释：2023最新pytorch安装教程，简单易懂，面向初学者（Anaconda+GPU）_时宇羽然的博客-CSDN博客）

Start Locally | PyTorch

然后在刚才的虚拟环境中下载 (注意如果这个时候有源（最好抹除掉再执行命令）)

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

漫长的等待后co

验证下: conda list 看看有没有pytorch或者torch 有就代表成功 (在虚拟环境中)

另外:

要在虚拟环境中才行（不然就是false）

然后就可以按照上面的博客运行你的代码了。

反转来了

由于我和队友都请假了，结果上课傻眼了，有一组也是用的这个，所以我们只能重新做。

基于强化学习PPO的扫雷游戏

我们参考的是：强化学习：基于pygame和pytorch实现ppo算法在扫雷小游戏上的AI决策_pygame 强化学习_最爱小游侠的博客-CSDN博客

一些可能会帮助的链接：Proximal Policy Optimization (PPO) 算法理解：从策略梯度开始 - 知乎

放源码：

env.py

import pygame
import random
import os
import sys
import time
import numpy as np
import torch

pygame.init()

class Minesweeper:
    def __init__(self,grid_width=10,grid_height=10,cell_size=50,mine_count=13,window=True):
    #设置游戏窗口的大小、标题和背景色。
    #初始化游戏所需的变量，包括地雷数量、格子大小、游戏状态等

        # 定义常量
        self.GRID_WIDTH = grid_width  # 游戏网格宽度
        self.GRID_HEIGHT = grid_height  # 游戏网格高度
        self.CELL_SIZE = cell_size  # 单元格尺寸
        self.MINE_COUNT = mine_count  # 雷的数量

        self.RED = (255, 0, 0)  # 炸弹颜色，红色
        self.WHITE = (255, 255, 255)  # 白色底色
        self.BLACK = (0, 0, 0)  # 黑色，表示未翻开的方块色
        self.GREY = (128, 128, 128)  # 灰色，表示翻开后的方块颜色

        self.font = pygame.font.SysFont(None, 30)  # 设置字体
        self.window = window
        self.akc=False
        if self.window:
            pygame.display.set_caption("Minesweeper")  # 设置窗口标题
            self.screen = pygame.display.set_mode((self.GRID_WIDTH * self.CELL_SIZE, self.GRID_HEIGHT * self.CELL_SIZE))  # 设置可视化窗口大小

            self.r = 0.
            self.R = []
            self.actions = []
            self.condition = True
            self.map = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
            self.t = 0
            self.count = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])

        else:
            self.r=0.
            self.R=[]
            self.actions=[]
            self.condition=True
            self.map=np.zeros([self.GRID_WIDTH,self.GRID_HEIGHT])
            self.t = 0
            self.count=np.zeros([self.GRID_WIDTH,self.GRID_HEIGHT])

        self.grid = [[0 for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)]  # 创建二维数组，0表示无雷的安全区域
        self.mines = []  # 存储地雷的位置
        for i in range(self.MINE_COUNT):
            while True:
                x = random.randint(0, self.GRID_WIDTH - 1)  # 随机生成x坐标
                y = random.randint(0, self.GRID_HEIGHT - 1)  # 随机生成y坐标
                if (x, y) not in self.mines:  # 如果该位置没有地雷
                    self.mines.append((x, y))  # 将该位置添加到地雷列表中
                    self.grid[x][y] = -1  # 在该位置标记为地雷
                    break

        self.revealed = np.array([[False for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)])  # 创建未翻开的方块信息
        if not self.window:
            self.status=self.get_status()
        else:
            self.status = self.get_status()

    def get_adjacent_cells(self, x, y): # 类的子函数 get_status的功能为获取环境当前状态，状态为当前游戏中每个格子的信息（未揭示为1）和点击次数，用作为智能体的输入信息，其返回参数为状态信息status
        '''获取目标位置的相邻元素格'''
        cells = []
        for i in range(max(0, x - 1), min(x + 2, self.GRID_WIDTH)):
            for j in range(max(0, y - 1), min(y + 2, self.GRID_HEIGHT)):
                if i != x or j != y:
                    cells.append((i, j))
        return cells

    def get_status(self):
        ''' 用于获取环境的当前状态，返回一个包含未翻开的方块信息和雷的数量的数组。'''
        status = (self.revealed.astype(np.float64) - 1) + self.map
        status = np.stack((status,self.count),axis=0)
        return status

    def reveal_cell(self, x, y):
        '''揭示指定位置的格子'''
        self.revealed[x][y] = True # 标记该位置已揭示
        if self.window:
            rect = pygame.Rect(x * self.CELL_SIZE, y * self.CELL_SIZE, self.CELL_SIZE, self.CELL_SIZE) # 创建矩形
            pygame.draw.rect(self.screen, self.WHITE, rect) # 在该位置绘制白色矩形
            if self.grid[x][y] == -1: # 如果该位置是地雷
                self.map[x, y] = -10
                pygame.draw.circle(self.screen, self.RED, rect.center, self.CELL_SIZE // 3) # 在该位置绘制红色圆形
            else:
                pygame.draw.rect(self.screen, self.GREY, rect) # 在该位置绘制灰色矩形
                self.map[x, y] = self.count_adjacent_mines(x, y)
                if self.count_adjacent_mines(x, y) > 0: # 如果该位置周围有地雷
                    text = self.font.render(str(self.count_adjacent_mines(x, y)), True, self.BLACK) # 创建文本
                    text_rect = text.get_rect(center=rect.center) # 设置文本位置
                    self.screen.blit(text, text_rect) # 在该位置绘制文本
        else:
            if self.grid[x][y] == -1:
                self.map[x,y]=-10
            else:
                self.map[x,y]=self.count_adjacent_mines(x, y)

    def reveal_all_cells(self):
        '''将所有未揭示的格子都揭示出来'''
        for i in range(self.GRID_WIDTH):
            for j in range(self.GRID_HEIGHT):
                if not self.revealed[i][j]:
                    self.reveal_cell(i, j)

    def agent_click(self,x,y): #该函数在与智能体交互时使用
        '''智能体点击指定位置的格子'''
        if self.revealed[x][y]:
            # self.r+=-(100.+4*self.t)/100.
            self.r += 0.
        elif self.grid[x][y] != -1:
            self.reveal_cell(x,y)
            self.r=1.
            # self.r += (1.+2*self.revealed.sum()/(self.GRID_WIDTH*self.GRID_HEIGHT))
            if self.count_adjacent_mines(x, y) == 0: # 如果该位置周围没有地雷
                for i, j in self.get_adjacent_cells(x, y):
                    if self.grid[i][j] != -1 and not self.revealed[i][j]:
                        self.agent_click(i, j) # 递归揭示周围的位置
        else:
            self.reveal_all_cells()
            # self.r+=-10.
            self.r += 0.
            self.condition=False

    def handle_left_click(self, x, y): #具体功能与函数agent_click类似，最不同的地方是当点击到雷时会重置游戏。
        if self.revealed[x][y]:
            # self.r+=-(100.+4*self.t)/100.
            self.r += 0.
        elif self.grid[x][y] != -1: # 如果该位置不是地雷
            self.reveal_cell(x, y) # 揭示该位置
            self.r = 1.
            if self.count_adjacent_mines(x, y) == 0: # 如果该位置周围没有地雷
                for i, j in self.get_adjacent_cells(x, y):
                    if self.grid[i][j] != -1 and not self.revealed[i][j]:
                        self.handle_left_click(i, j) # 递归揭示周围的位置
        else:
            self.reveal_all_cells() # 揭示所有位置
            self.r += 0.
            self.condition = False
            pygame.display.flip()
            if self.akc:
                # self.running=False

                time.sleep(2.)
                self.reset()

    def handle_right_click(self, x, y):
        pass

    def draw_grid(self):
        '''用于绘制游戏窗口中的网格'''
        for i in range(self.GRID_WIDTH):
            for j in range(self.GRID_HEIGHT):
                rect = pygame.Rect(i * self.CELL_SIZE, j * self.CELL_SIZE, self.CELL_SIZE, self.CELL_SIZE) # 创建矩形
                pygame.draw.rect(self.screen, self.WHITE, rect, 1) # 在该位置绘制白色矩形
                if self.revealed[i][j]: # 如果该位置已揭示
                    if self.grid[i][j] == -1: # 如果该位置是地雷
                        pygame.draw.circle(self.screen, self.RED, rect.center, self.CELL_SIZE // 3) # 在该位置绘制红色圆形
                    else:
                        pygame.draw.rect(self.screen, self.GREY, rect) # 在该位置绘制灰色矩形
                        if self.count_adjacent_mines(i, j) > 0: # 如果该位置周围有地雷
                            text = self.font.render(str(self.count_adjacent_mines(i, j)), True, self.BLACK) # 创建文本
                            text_rect = text.get_rect(center=rect.center) # 设置文本位置
                            self.screen.blit(text, text_rect) # 在该位置绘制文本

    def count_adjacent_mines(self, x, y):
        '''计数周围雷的数量'''
        count = 0
        for i, j in self.get_adjacent_cells(x, y):  # 循环变量周围的方块的坐标信息
            if self.grid[i][j] == -1:
                count += 1
        return count

    def reset(self):
        self.grid = [[0 for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)]  # 创建二维数组，0表示无雷的安全区域
        self.mines = []  # 存储地雷的位置
        for i in range(self.MINE_COUNT):
            while True:
                x = random.randint(0, self.GRID_WIDTH - 1)  # 随机生成x坐标
                y = random.randint(0, self.GRID_HEIGHT - 1)  # 随机生成y坐标
                if (x, y) not in self.mines:  # 如果该位置没有地雷
                    self.mines.append((x, y))  # 将该位置添加到地雷列表中
                    self.grid[x][y] = -1  # 在该位置标记为地雷
                    break

        self.revealed = np.array(
            [[False for _ in range(self.GRID_HEIGHT)] for _ in range(self.GRID_WIDTH)])  # 创建未翻开的方块信息
        if not self.window:
            self.r = 0.
            self.R = []
            self.actions = []
            self.condition = True
            self.map = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
            self.status = self.get_status()
            self.t=0
            self.count=np.zeros([self.GRID_WIDTH,self.GRID_HEIGHT])
        else:
            self.r = 0.
            self.R = []
            self.actions = []
            self.condition = True
            self.map = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])
            self.status = self.get_status()
            self.t = 0
            self.count = np.zeros([self.GRID_WIDTH, self.GRID_HEIGHT])

            # time.sleep(1.)
            self.screen = pygame.display.set_mode(
                (self.GRID_WIDTH * self.CELL_SIZE, self.GRID_HEIGHT * self.CELL_SIZE))  # 设置可视化窗口大小
            self.screen.fill(self.BLACK)  # 填充黑色
            self.draw_grid()
            pygame.display.flip()  # 更新屏幕
            # time.sleep(1.)


    def update(self,a):
        '''函数接受一个参数a，表示智能体选择的动作（格子的坐标），函数首先会揭示该位置（其它参数更新再次过程中进行），并更新点击状态，之后函数会判断游戏是否达到胜利条件，如果达到则返回高额奖励并更新游戏状态为False表示游戏结束，
        否则则判断交互次数是否达到阈值（50）次，如果达到则更新游戏状态为False表示游戏结束。最后函数返回给智能体游戏的状态信息，奖励，游戏状态等信息。
'''
        '''更新游戏状态并返回相应的结果'''
        [x,y]=a
        self.r=0.
        self.agent_click(x,y)
        self.count[x,y]+=1
        # if self.revealed.sum() == (self.GRID_WIDTH*self.GRID_HEIGHT-self.MINE_COUNT):
        #     self.r+=200.
        #     self.condition=False

        if self.revealed.sum() <=(self.GRID_WIDTH*self.GRID_HEIGHT-self.MINE_COUNT) and self.revealed.sum()>=(self.GRID_WIDTH*self.GRID_HEIGHT-self.MINE_COUNT-10) :
            self.r=50.
            self.condition=False

        self.status=self.get_status()
        self.R.append(self.r)
        self.actions.append([x,y])
        self.t+=1
        if self.t==50:
            self.condition=False
            # self.r=-20.
            self.r = 0.
        return [torch.tensor(self.status,dtype=torch.float32),self.r,self.condition]

    def agengt_run(self,a): #智能体与游戏的可视化交互，函数接收智能体的决策a，并更新视窗，具体功能与函数undate相似。
        [x,y]=a
        self.r = 0.
        self.handle_left_click(x,y)
        self.draw_grid()  # 绘制网格
        pygame.display.flip()  # 更新屏幕

        self.count[x, y] += 1
        if self.revealed.sum() <=(self.GRID_WIDTH*self.GRID_HEIGHT-self.MINE_COUNT) and self.revealed.sum()>=(self.GRID_WIDTH*self.GRID_HEIGHT-self.MINE_COUNT-10) :
            self.r=10.
            self.condition=False
        self.status = self.get_status()
        self.R.append(self.r)
        self.actions.append([x, y])
        self.t += 1
        if self.t==50:
            self.condition=False
            # self.r=-20.
            self.r = 0.
        return [torch.tensor(self.status,dtype=torch.float32),self.r,self.condition]

    def quit(self):
        # 退出pygame
        pygame.quit()

    def run(self):
        # 设置视频驱动为dummy
        # os.environ['SDL_VIDEODRIVER'] = 'dummy'
        self.akc=True

        # 主游戏循环
        self.running = True
        while self.running:
            # 处理事件
            for event in pygame.event.get():  # 当得到一个相应事件时
                if event.type == pygame.QUIT:  # 如果是退出事件（X按钮）
                    self.running = False
                elif event.type == pygame.MOUSEBUTTONDOWN:  # 如果是鼠标点击事件
                    x, y = event.pos # 得到鼠标在窗口中的位置
                    x //= self.CELL_SIZE  # 整除方块大小得到鼠标在具体哪个方块
                    y //= self.CELL_SIZE
                    if event.button == 1:
                        self.handle_left_click(x, y) # 处理左键点击事件
                    elif event.button == 3:
                        self.handle_right_click(x, y) # 处理右键点击事件

            # 绘制屏幕，刷新屏幕内容
            # self.screen.fill(self.BLACK) # 填充黑色
            self.draw_grid() # 绘制网格
            pygame.display.flip() # 更新屏幕

        # 退出pygame
        pygame.quit()
        # sys.exit()  # 退出Python程序

if __name__=='__main__':
    minesweeper = Minesweeper()
    minesweeper.run()

main.py

import torch
from torch.distributions.categorical import Categorical
import numpy as np
from collections import namedtuple
from tqdm import tqdm
from pyecharts.charts import Line
from env import Minesweeper
from ppo import PPO
import time


def get_a(a,x_idx,y_idx):
    if x_idx > y_idx:
        x = a // x_idx
        y = a % x_idx
    else:
        x = a // y_idx
        y = a % y_idx
    return [x, y]

def get_action_test(x1, net, x_idx, y_idx):
    x = x1.unsqueeze(dim=0)
    ac_prob = net(x)
    values, indices = ac_prob.topk(k=15,dim=1)
    a = Categorical(values).sample()[0]  # 按概率采样
    a = indices[0,a].item()
    ac_prob=ac_prob.detach().numpy()
    ac_prob=ac_prob.reshape([1,10,10])

    if x_idx > y_idx:
        x = a // x_idx
        y = a % x_idx
    else:
        x = a // y_idx
        y = a % y_idx
    return [x, y],ac_prob

def mian(times,x,y,mine_num):
    env=Minesweeper(grid_width=x,grid_height=y,mine_count=mine_num,window=False)
    net=PPO(input_shape=[x,y],up_time=up_time,batch_size=batch_size,a_lr=a_lr,b_lr=b_lr,gama=gama,epsilon=epsilon)
    # path='net_model1.pt'
    # net.load_net(path)
    Rs=[]
    for i in range(times):
        with tqdm(total=epoch, desc='Iteration %d' % i) as pbar:
            for e in range(epoch):
                env.reset()
                s=torch.tensor(env.get_status(),dtype=torch.float32)
                while env.condition and env.t<51:
                    a,a_p=net.get_action(s)
                    at=get_a(a[0],x,y)
                    [s_t,r,d]=env.update(at)
                    buffer=Transition(s,a,a_p,r,d)
                    net.appdend(buffer)
                    s=s_t
                R=np.array(env.R).sum()
                Rs.append(R)
                if len(net.suffer)>batch_size:
                    net.update()
                pbar.set_postfix({'return': '%.2f' % R})
                pbar.update(1)

    torch.save(net.action,'net_model.pt')
    Re=[]
    for i in range(int(len(Rs)/50)):
        idx=i*50
        Re.append(sum(Rs[idx:idx+50])/50)
    x=[str(i) for i in range(len(Re))]
    line=Line()
    line.add_xaxis(xaxis_data=x)
    line.add_yaxis(y_axis=Re,series_name='Recall')
    line.render('result.html')


def main_test(path, x=10, y=10, mine_num=10):
    env = Minesweeper(grid_width=x, grid_height=y, mine_count=mine_num)
    net = torch.load(path)
    device = torch.device("cpu")
    net = net.to(device)
    s = torch.tensor(env.get_status(), dtype=torch.float32)
    a_p = 0
    for i in range(10):
        while env.condition:
            a, a_p = get_action_test(s, net, x_idx=x, y_idx=y)
            [s_t, r, d] = env.agengt_run(a)
            time.sleep(1.)
            s = s_t
        env.reset()

batch_size=32
a_lr=0.0001
b_lr=0.002
gama=0.995
epsilon=0.2
up_time=10
epoch=50

Transition = namedtuple('Transition', ['state', 'ac', 'ac_prob', 'reward', 'done'])

if __name__=='__main__':
    #minesweeper = Minesweeper()
    #minesweeper.run()


     # mian(times=500,x=10,y=10,mine_num=10)

     path='net_model.pt'
     main_test(path=path, x=10, y=10, mine_num=10)

ppo.py

import torch
import torch.nn as nn
import torch.optim as optim
from torch.distributions.categorical import Categorical
import random

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

class Action1(nn.Module): #根据当前状态输出一个动作概率分布
    #10x10的输入图像，经过一系列卷积层和非线性激活函数的处理后，输出一个概率分布，用于表示预测的动作。
    def __init__(self,input_shape=[10,10]): #

        super(Action1,self).__init__()
        self.input_dim=input_shape
        self.conv_layers = nn.Sequential(
            nn.Conv2d(in_channels=2, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=32, out_channels=128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=128, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.Conv2d(in_channels=32, out_channels=1, kernel_size=3, stride=1, padding=1), #  第四个卷积层：输入通道数为32，输出通道数为1，卷积核大小为3x3，步长为1，填充为1。
        )
        self.softmax = nn.Softmax(dim=1)  #应用在卷积层输出上的维度1上
        self.relu = nn.ReLU() #另一个是ReLU函数，用于在模型的forward方法中使用。

    def forward(self,x):
        x=self.conv_layers(x).view(x.shape[0],-1)
        out = self.softmax(x)
        return out

class Action2(nn.Module): #Action2网络则通常采用全连接神经网络，输入为当前状态的特征向量，输出为一个动作概率分布向量
    def __init__(self,input_shape=[10,10]):
        super(Action2,self).__init__()
        self.input_dim=input_shape[0]*input_shape[1]
        self.output_dim=(input_shape[0]+6)*(input_shape[1]+6)
        self.liner=nn.Linear(self.input_dim,512) #第一个全连接层输入大小为输入特征向量的维度（input_dim），输出大小为512。
        self.liner2=nn.Linear(512,self.output_dim) #第二个全连接层：输入大小为512，输出大小为输出特征向量的维度（output_dim）。
        self.liner3 = nn.Linear(self.output_dim,self.input_dim) #输入大小为输出特征向量的维度（output_dim），输出大小为输入特征向量的维度（input_dim）。

        self.softmax = nn.Softmax(dim=1) #应用在第三个全连接层的输出上，用于产生输出的概率分布
        self.relu = nn.ReLU()

    def forward(self,x): #在forward方法中，输入x首先通过展平操作将其变成一维张量，然后经过第一个全连接层和ReLU激活函数的处理。
        # 接着，再经过第二个全连接层和ReLU激活函数的处理。最后，通过第三个全连接层和softmax激活函数的处理，得到输出的动作概率分布向量。
        x=x.view(x.shape[0],-1)
        x=self.relu(self.liner(x))
        x=self.relu(self.liner2(x))
        out=self.softmax(self.liner3(x))
        return out

class Bvalue(nn.Module): #Bvalue网络的作用是估计在当前状态下，采取某个动作所能获得的预期累积奖励。具体实现上，
        # Bvalue网络通常采用全连接神经网络，输入为当前状态的特征向量，输出为一个标量值，代表当前状态的价值。在PPO算法中，Bvalue网络的损失函数通常采用均方误差损失，目标值为当前状态下的实际累积奖励。
    def __init__(self):
        super(Bvalue,self).__init__()
        self.relu = nn.ReLU()
        self.liner=nn.Linear(200,256)
        self.liner2=nn.Linear(256,512)
        self.liner3 = nn.Linear(512,1) #线性层接收512维向量作为输入，并输出一个标量值，即当前状态的价值
        #损失函数采用均方误差损失，目标值则是当前状态下的实际累积奖励。

    def forward(self,x):
        x = x.view(x.shape[0], -1)
        x=self.relu(self.liner(x))
        x=self.relu(self.liner2(x))
        out = self.liner3(x)
        return out

class PPO():

    def __init__(self,input_shape=[10,10],up_time=10,batch_size=32,a_lr=1e-5,b_lr=1e-5,gama=0.9,epsilon=0.1):
        #初始化算法所需参数，以及两个神经网络模型 action 和 bvalue，并创建了对应的优化器和损失函数。
        self.up_time=up_time
        self.batch_size=batch_size
        self.gama=gama
        self.epsilon=epsilon
        self.suffer = []
        self.action = Action1(input_shape)
        self.action.to(device)
        self.bvalue = Bvalue()
        self.bvalue.to(device)
        self.acoptim = optim.Adam(self.action.parameters(), lr=a_lr)
        self.boptim = optim.Adam(self.bvalue.parameters(), lr=b_lr)
        self.loss = nn.MSELoss().to(device)
        self.old_prob = []

    def appdend(self, buffer):
        self.suffer.append(buffer)

    def load_net(self,path): #从预训练模型文件中加载 action 模型
        self.action=torch.load(path)

    def get_action(self, x): #接受一个状态 x，通过 action 模型计算出给定状态下各个动作的概率分布，并按照概率分布采样得到一个动作
        x = x.unsqueeze(dim=0).to(device)
        ac_prob = self.action(x)

        a = Categorical(ac_prob).sample()[0]  # 按概率采样

        # values, indices = ac_prob.topk(k=15,dim=1)
        # a = Categorical(values).sample()[0]  # 按topk15概率采样
        # a = indices[0,a]

        ac_pro = ac_prob[0][a]
        return [a.item()], [ac_pro.item()]

    def update(self): #接受一个状态 x，通过 action 模型计算出给定状态下各个动作的概率分布，并按照概率分布采样得到一个动作
        states = torch.stack([t.state for t in self.suffer],dim=0).to(device)
        actions = torch.tensor([t.ac for t in self.suffer], dtype=torch.int).to(device)
        rewards = [t.reward for t in self.suffer]
        done=[t.done for t in self.suffer]
        old_probs = torch.tensor([t.ac_prob for t in self.suffer], dtype=torch.float32).to(device)  # .detach()

        false_indexes = [i+1 for i, val in enumerate(done) if not val]
        if len(false_indexes)>=0:
            idx,reward_all=0,[]
            for i in false_indexes:
                reward=rewards[idx:i]
                R = 0
                Rs = []
                reward.reverse()
                for r in reward:
                    R = r + R * self.gama
                    Rs.append(R)
                Rs.reverse()
                reward_all.extend(Rs)
                idx=i
        else:
            R = 0
            reward_all = []
            rewards.reverse()
            for r in rewards:
                R = r + R * self.gama
                reward_all.append(R)
            reward_all.reverse()
        Rs = torch.tensor(reward_all, dtype=torch.float32).to(device)
        for _ in range(self.up_time):
            self.action.train()
            self.bvalue.train()
            for n in range(max(10, int(10 * len(self.suffer) / self.batch_size))):
                index = torch.tensor(random.sample(range(len(self.suffer)), self.batch_size), dtype=torch.int64).to(device)
                v_target = torch.index_select(Rs, dim=0, index=index).unsqueeze(dim=1)
                v = self.bvalue(torch.index_select(states, 0, index))
                adta = v_target - v
                adta = adta.detach() #adta表示在当前状态下执行动作所获得的实际奖励和当前状态价值函数的差值
                probs = self.action(torch.index_select(states, 0, index))
                pro_index = torch.index_select(actions,0,index).to(torch.int64)

                probs_a = torch.gather(probs, 1, pro_index)
                ratio = probs_a / torch.index_select(old_probs, 0, index).to(device)#ratio表示新旧策略之间的动作概率分布比值
                surr1 = ratio * adta
                surr2 = torch.clip(ratio, 1 - self.epsilon, 1 + self.epsilon) * adta.to(device) #self.epsilon是超参数，用于控制策略更新的幅度
                action_loss = -torch.mean(torch.minimum(surr1, surr2)) #通过比较surr1和surr2，选择其中更小的一个，作为策略梯度损失action_loss
                self.acoptim.zero_grad() #self.acoptim 表示Actor和Critic网络的优化器
                # 通过调用zero_grad()方法清除梯度，然后调用backward()方法计算梯度，最后调用step()方法更新网络参数
                action_loss.backward(retain_graph=True)
                self.acoptim.step()

                bvalue_loss = self.loss(v_target, v) #v_target表示当前状态下的实际累积奖励，v表示Critic网络对当前状态的估计价值。
                # bvalue_loss采用均方误差损失，用于衡量Critic网络的估计值和实际值之间的差距，并通过反向传播更新Critic网络的参数
                self.boptim.zero_grad() #self.boptim也表示Actor和Critic网络的优化器
                bvalue_loss.backward()
                #通过调用zero_grad()方法清除梯度，然后调用backward()方法计算梯度，最后调用step()方法更新网络参数

                self.boptim.step()
                #由于Actor网络和Critic网络是共享的，因此需要分别对两个网络的参数进行更新。
        self.suffer = []

最后放一些可能会帮助理解的图片：

板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

nuaa-数据融合-基于强化学习的小游戏

一、写在前面

二、安装pygame

三、读整个项目文件中的README.md

四、模拟强化学习(重点)

4.1先装cuda

4.2 再装cuDNN

4.3 添加环境变量

五、使用conda下载pytorch

反转来了

env.py

main.py

ppo.py

你可能感兴趣的:(机器学习)