Wwwilling

【深入浅出强化学习-编程实战】6 基于函数逼近的方法-flappy bird

- - 6.2.1 代码
  - 6.2.2 代码解析

玩家通过控制小鸟上下运动躲避不断到来的柱子，有两个动作可选：一个是飞，一个是不进行任何操作。采用动作飞时，小鸟会向上飞；不进行操作，小鸟会向下掉。小鸟飞行一步没有撞到柱子立即回报0.1；当小鸟撞到柱子立即回报-1；当小鸟躲过一个柱子时立即回报为1。玩家的目的是控制小鸟躲过尽可能多的柱子，得到尽量多的分数。

6.2.1 代码

dqn_bird.py

# 经验池类
# 该类用于经验数据的存储和训练数据的采集

from __future__ import print_function
import tensorflow as tf
import numpy as np
import cv2 # 图像处理库
import sys # 系统控制库
sys.path.append("game/")
import game.wrapped_flappy_bird as game# 游戏模块
import random

# 设置与本算法相关的超参数
GAME = 'flappy bird' # 游戏名
ACTIONS = 2 # “飞行”和“什么都不做”
GAMMA = 0.99 # 折扣因子
OBSERVE = 10000 # 训练前观察的步长,在这段时间内探索率不变，已得到各种情况
EXPLORE = 3.0e6 # 随机探索的时间，即从初始探索率衰减到最终探索率的时间设置为30万步，在这段时间内探索率线性减小
FINAL_EPSILON = 1.0e-4 # 最终的探索率
INITIAL_EPSILON = 0.1 # 初始探索率
REPLAY_MEMORY = 50000 # 经验池的大小，即经验池中有50000个可以用于采样学习的数据
BATCH = 32 # mini-batch的大小，即在学习训练的时候，从经验池中随机采集32个数据进行训练
FRAME_PER_ACTION = 1 # 跳帧

# 定义经验回报类
class Experience_Buffer():
    def __init__(self,buffer_size = REPLAY_MEMORY):
        # 定义一个空的经验池
        self.buffer = []
        # 定义经验池最大容量
        self.buffer_size = buffer_size

    # 向经验池添加一条经验数据
    def add_experience(self,experience):
        # 先判断经验池是否已经满了
        # 如果满了，将最顶端的数据清空，换成最新的经验数据
        if len(self.buffer)+len(experience) >=  self.buffer_size:
            self.buffer[0:len(self.buffer)+len(experience)-self.buffer_size] = []
            self.buffer.extend(experience)


    # 采集训练数据样本
    def sample(self,samples_num):
        # 随机采样mini-batch的数据
        # 然后将数据进行整理，返回训练时所需要的数据格式
        sample_data = random.sample(self.buffer,samples_num)
        train_s = [d[0] for d in sample_data]
        train_a = [d[1] for d in sample_data]
        train_r = [d[2] for d in sample_data]
        train_s_ = [d[3] for d in sample_data]
        train_terminal = [d[4] for d in sample_data]
        return train_s,train_a,train_r,train_s_,train_terminal

# 深度q学习类
# 该类中定义DQN学习算法，对小鸟进行训练

class Deep_Q_N():
    # 初始类成员函数
    # 该函数内我们调用Tensorflow，声明一个图，定义输入层，调用类成员子函数创建行为-值网络、目标值网络，定义目标值网络的更新方式，定义损失函数，构建优化器。
    # 初始化图中变量，保存声明
    def __init__(self,lr=1.0e-6,model_file=None):
        self.gamma = GAMMA
        self.tau = 0.01
        # tf工程
        self.sess = tf.Session()
        self.learning_rate = lr
        # 1.输入层
        self.obs = tf.placeholder(tf.float32,shape = [None,80,80,4])
        self.obs_ = tf.placeholder(tf.float32,shape= [None,80,80,4])
        self.action = tf.placeholder(tf.float32,shape=[None,ACTIONS])
        self.action_ = tf.placeholder(tf.float32,shape=[None,ACTIONS])
        # 2.1 创建深度q网络
        self.Q = self.build_q_net(self.obs,scope='eval',trainable=True)
        # 2.2 创建目标q网络
        self.Q_ = self.build_q_net(self.obs_,scope='target',trainable=False)
        # 2.3 整理两套网络参数
        self.qe_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,scope='eval')# 获取训练变量
        self.qt_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,scope='target')
        # 2.4 定义新旧参数的替换操作
        self.update_oldq_op = [oldq.assign((1-self.tau)*oldq+self.tau*p) for p,oldq in zip(self.qe_params,self.qt_params)]
        # 3.构建损失函数
        # td target
        self.Q_target = tf.placeholder(tf.float32,[None])
        readout_q = tf.reduce_sum(tf.multiply(self.Q,self.action),reduction_indices=1)
        self.q_loss = tf.losses.mean_squared_error(labels=self.Q_target,predictions = readout_q)
        # 4.定义优化器
        self.q_train_op = tf.train.AdamOptimizer(lr).minimize(self.q_loss,var_list=self.qe_params)
        # 5.初始化图中的变量
        self.sess.run(tf.global_variables_initializer())
        # 定义保存和恢复模型
        self.saver = tf.train.Saver()
        if model_file is not None:
            self.restore_model(model_file)

    # 模型存储子函数save_model，用于存储模型参数
    def save_model(self,model_path,global_step):
        self.saver.save(self.sess,model_path,global_step=global_step)

    # 模型恢复子函数restore_model,用于恢复模型参数
    def restore_model(self,model_path):
        self.saver.restore(self.sess,model_path)

    # 深度q网络构建子函数build_q_net,
    # 输入为观测、变量命名空间scope和变量性质trainable
    # 该子函数在初始化成员函数中被调用，由于预测用的行为-值函数和用于目标的行为-值函数是两套参数，所以可以通过使用不同的命名空间scope来区分两组参数
    def build_q_net(self,obs,scope,trainable):
        # 该深度网络由3个卷积层，1个池化层，2个全连接层组成
        # 第一个卷积层的卷积核大小为8*8*4*32，步长为4；后面连接一个池化层，池化层特征2*2，步长为2
        # 第二个卷积层的卷积核大小为4*4*32*64，步长为2；后面连一个卷积层
        # 第三个卷积层的卷积核大小为3*3*64*64，步长为1，将第三个卷积层的输出展开成维数为1600的1维向量，后面接两个全连接层
        # 第一个全连接层为1600*512，激活函数为ReLU
        # 第二个全连接层为512*2，没有激活函数，即线性输出
        with tf.variable_scope(scope):
            #第一个卷积层的卷积核大小为8 * 8 * 4 * 32，步长为4；
            h_conv1 = tf.layers.conv2d(inputs=obs, filters=32, kernel_size=[8, 8], strides=4, padding="same",
                                       activation=tf.nn.relu,
                                       kernel_initializer=tf.random_normal_initializer(mean=0, stddev=0.01), \
                                       bias_initializer=tf.constant_initializer(0.01), trainable=trainable)
            #后面连接一个池化层，池化层特征2 * 2，步长为2
            h_pool1 = tf.layers.max_pooling2d(h_conv1, pool_size=[2,2],strides=2, padding="SAME")
            #第二个卷积层的卷积核大小为4 * 4 * 32 * 64，步长为2；
            h_conv2 = tf.layers.conv2d(inputs=h_pool1, filters=64, kernel_size=[4, 4], strides=2, padding="same",
                                       activation=tf.nn.relu,
                                       kernel_initializer=tf.random_normal_initializer(mean=0, stddev=0.01), \
                                       bias_initializer=tf.constant_initializer(0.01), trainable=trainable)
            # 第三个卷积层的卷积核大小为3*3*64*64，步长为1，
            h_conv3 = tf.layers.conv2d(inputs=h_conv2, filters=64, kernel_size=[3, 3], strides=1, padding="same",
                                       activation=tf.nn.relu,
                                       kernel_initializer=tf.random_normal_initializer(mean=0, stddev=0.01), \
                                       bias_initializer=tf.constant_initializer(0.01), trainable=trainable)
            # 将第三个卷积层的输出展开成维数为1600的1维向量，
            h_conv3_flat = tf.reshape(h_conv3,[-1,1600])
            # 第一个全连接层为1600 * 512，激活函数为ReLU
            h_fc1 = tf.layers.dense(inputs=h_conv3_flat,
                                    units=512,
                                    activation=tf.nn.relu,
                                    kernel_initializer=tf.random_normal_initializer(0,stddev=0.1),
                                    bias_initializer=tf.constant_initializer(0.1),
                                    trainable=trainable)
            # 第二个全连接层为512*2，没有激活函数，即线性输出
            # 读出层，没有激活函数
            qout = tf.layers.dense(inputs=h_fc1,
                                    units=ACTIONS,
                                    kernel_initializer=tf.random_normal_initializer(0,stddev=0.1),
                                    bias_initializer=tf.constant_initializer(0.1),
                                    trainable=trainable)
        return qout

    # 用于采样动作的利用探索-平衡策略子函数epsilon-greedy
    # 该算法输入为当前状态和探索率，输出为当前状态所对应的探索策略，用于于环境交互
    # 与表格型Q-learning不同的是，这里调用神经网络来确定哪个是最优动作
    def epsilon_greedy(self,s_t,epsilon):
        a_t = np.zeros([ACTIONS])
        amax = np.argmax(self.sess.run(self.Q,{self.obs:[s_t]})[0])
        # 概率部分
        if np.random.uniform()<1-epsilon:
            # 最优动作
            a_t[amax] = 1
        else:
            a_t[random.randrange(ACTIONS)] = 1
        return a_t

    # 网络训练子函数train_Network
    # 该子函数基于Q-learning的框架，基于网络表示的行为值函数对智能体进行训练
    # 与环境交互，将数据存入经验池中，从经验池中采集数据对神经网络进行训练
    def train_Network(self,experience_buffer):
        # 打开游戏状态与模拟器进行通信
        game_state = game.GameState()
        # 获得第1个状态并将图像进行预处理
        do_nothing = np.zeros([ACTIONS])
        do_nothing[0] = 1
        # 与游戏交互1次
        x_t,r_0,terminal = game_state.frame_step(do_nothing)
        x_t = cv2.cvtColor(cv2.resize(x_t,(80,80)),cv2.COLOR_BGR2GRAY)
        ret,x_t = cv2.threshold(x_t,1,255,cv2.THRESH_BINARY)
        s_t = np.stack((x_t,x_t,x_t,x_t),axis=2)
        # 开始训练
        epsilon = INITIAL_EPSILON
        t = 0
        while "flappy bird"!="angry bird":
            a_t = self.epsilon_greedy(s_t,epsilon=epsilon)
            # epsilon递减
            if epsilon > FINAL_EPSILON and t > OBSERVE:
                epsilon -= (INITIAL_EPSILON-FINAL_EPSILON)/EXPLORE
            # 运动动作，与游戏环境交互1次
            x_t1_colored,r_t,terminal = game_state.frame_step(a_t)
            x_t1 = cv2.cvtColor(cv2.resize(x_t1_colored,(80,80)),cv2.COLOR_BGR2GRAY)
            ret,x_t1 = cv2.threshold(x_t1,1,255,cv2.THRESH_BINARY)
            x_t1 = np.reshape(x_t1,(80,80,1))
            s_t1 =np.append(x_t1,s_t[:,:,:3],axis=2)
            # 将数据存储到经验池中
            experience = np.reshape(np.array([s_t,a_t,r_t,s_t1,terminal]),[1,5])
            print("experience", r_t, terminal)
            experience_buffer.add_experience(experience)
            # 在观测结束后进行训练
            if t>OBSERVE:
                # 采集样本
                train_s,train_a,train_r,train_s_,train_terminal = experience_buffer.sample(BATCH)
                target_q = []
                read_target_Q = self.sess.run(self.Q_,{self.obs_:train_s_})
                for i in range(len(train_r)):
                    if train_terminal[i]:
                        target_q.append(train_r[i])
                    else:
                        target_q.append(train_r[i]+GAMMA*np.max(read_target_Q[i]))
                # 训练1次
                self.sess.run(self.q_train_op,feed_dict={self.obs:train_s,self.action:train_a,self.Q_target:target_q})
                # 更新旧的目标网络
                self.sess.run(self.update_oldq_op)
            # 往前推进一步
            s_t = s_t1
            t+=1
            # 每10000次迭代保存一次
            if t % 10000 == 0:
                self.save_model('saved_networks/',global_step=t)
            if t <= OBSERVE:
                print("OBSERVE",t)
            else:
                if t % 1 == 0:
                    print("train,steps",t,"/epsilon",epsilon,"/action_index",a_t,"/reward",r_t)


# 主函数
# 对DQN进行训练
# 首先实例化1个经验池类buffer，声明一个深度值网络类brain，调用brain类的训练子函数对深度值网络进行训练
if __name__=="__main__":
    buffer = Experience_Buffer()
    brain = Deep_Q_N()
    brain.train_Network(buffer)

wrapped_flappy_bird.py

import numpy as np
import sys
import random
import pygame
import flappy_bird_utils
import pygame.surfarray as surfarray
from pygame.locals import *
from itertools import cycle

FPS = 30
SCREENWIDTH  = 288
SCREENHEIGHT = 512

pygame.init()
FPSCLOCK = pygame.time.Clock()
SCREEN = pygame.display.set_mode((SCREENWIDTH, SCREENHEIGHT))
pygame.display.set_caption('Flappy Bird')

IMAGES, SOUNDS, HITMASKS = flappy_bird_utils.load()
PIPEGAPSIZE = 100 # gap between upper and lower part of pipe
BASEY = SCREENHEIGHT * 0.79

PLAYER_WIDTH = IMAGES['player'][0].get_width()
PLAYER_HEIGHT = IMAGES['player'][0].get_height()
PIPE_WIDTH = IMAGES['pipe'][0].get_width()
PIPE_HEIGHT = IMAGES['pipe'][0].get_height()
BACKGROUND_WIDTH = IMAGES['background'].get_width()

PLAYER_INDEX_GEN = cycle([0, 1, 2, 1])


class GameState:
    def __init__(self):
        self.score = self.playerIndex = self.loopIter = 0
        self.playerx = int(SCREENWIDTH * 0.2)
        self.playery = int((SCREENHEIGHT - PLAYER_HEIGHT) / 2)
        self.basex = 0
        self.baseShift = IMAGES['base'].get_width() - BACKGROUND_WIDTH

        newPipe1 = getRandomPipe()
        newPipe2 = getRandomPipe()
        self.upperPipes = [
            {'x': SCREENWIDTH, 'y': newPipe1[0]['y']},
            {'x': SCREENWIDTH + (SCREENWIDTH / 2), 'y': newPipe2[0]['y']},
        ]
        self.lowerPipes = [
            {'x': SCREENWIDTH, 'y': newPipe1[1]['y']},
            {'x': SCREENWIDTH + (SCREENWIDTH / 2), 'y': newPipe2[1]['y']},
        ]

        # player velocity, max velocity, downward accleration, accleration on flap
        self.pipeVelX = -4
        self.playerVelY    =  0    # player's velocity along Y, default same as playerFlapped
        self.playerMaxVelY =  10   # max vel along Y, max descend speed
        self.playerMinVelY =  -8   # min vel along Y, max ascend speed
        self.playerAccY    =   1   # players downward accleration
        self.playerFlapAcc =  -9   # players speed on flapping
        self.playerFlapped = False # True when player flaps

    def frame_step(self, input_actions):
        pygame.event.pump()

        reward = 0.1
        terminal = False

        if sum(input_actions) != 1:
            raise ValueError('Multiple input actions!')

        # input_actions[0] == 1: do nothing
        # input_actions[1] == 1: flap the bird
        if input_actions[1] == 1:
            if self.playery > -2 * PLAYER_HEIGHT:
                self.playerVelY = self.playerFlapAcc
                self.playerFlapped = True
                #SOUNDS['wing'].play()

        # check for score
        playerMidPos = self.playerx + PLAYER_WIDTH / 2
        for pipe in self.upperPipes:
            pipeMidPos = pipe['x'] + PIPE_WIDTH / 2
            if pipeMidPos <= playerMidPos < pipeMidPos + 4:
                self.score += 1
                #SOUNDS['point'].play()
                reward = 1

        # playerIndex basex change
        if (self.loopIter + 1) % 3 == 0:
            self.playerIndex = next(PLAYER_INDEX_GEN)
        self.loopIter = (self.loopIter + 1) % 30
        self.basex = -((-self.basex + 100) % self.baseShift)

        # player's movement
        if self.playerVelY < self.playerMaxVelY and not self.playerFlapped:
            self.playerVelY += self.playerAccY
        if self.playerFlapped:
            self.playerFlapped = False
        self.playery += min(self.playerVelY, BASEY - self.playery - PLAYER_HEIGHT)
        if self.playery < 0:
            self.playery = 0

        # move pipes to left
        for uPipe, lPipe in zip(self.upperPipes, self.lowerPipes):
            uPipe['x'] += self.pipeVelX
            lPipe['x'] += self.pipeVelX

        # add new pipe when first pipe is about to touch left of screen
        if 0 < self.upperPipes[0]['x'] < 5:
            newPipe = getRandomPipe()
            self.upperPipes.append(newPipe[0])
            self.lowerPipes.append(newPipe[1])

        # remove first pipe if its out of the screen
        if self.upperPipes[0]['x'] < -PIPE_WIDTH:
            self.upperPipes.pop(0)
            self.lowerPipes.pop(0)

        # check if crash here
        isCrash= checkCrash({'x': self.playerx, 'y': self.playery,
                             'index': self.playerIndex},
                            self.upperPipes, self.lowerPipes)
        if isCrash:
            #SOUNDS['hit'].play()
            #SOUNDS['die'].play()
            terminal = True
            #重新初始化
            self.__init__()
            reward = -3

        # draw sprites
        SCREEN.blit(IMAGES['background'], (0,0))

        for uPipe, lPipe in zip(self.upperPipes, self.lowerPipes):
            SCREEN.blit(IMAGES['pipe'][0], (uPipe['x'], uPipe['y']))
            SCREEN.blit(IMAGES['pipe'][1], (lPipe['x'], lPipe['y']))

        SCREEN.blit(IMAGES['base'], (self.basex, BASEY))
        # print score so player overlaps the score
        # showScore(self.score)
        SCREEN.blit(IMAGES['player'][self.playerIndex],
                    (self.playerx, self.playery))

        image_data = pygame.surfarray.array3d(pygame.display.get_surface())
        pygame.display.update()
        FPSCLOCK.tick(FPS)
        #print self.upperPipes[0]['y'] + PIPE_HEIGHT - int(BASEY * 0.2)
        return image_data, reward, terminal

def getRandomPipe():
    """returns a randomly generated pipe"""
    # y of gap between upper and lower pipe
    gapYs = [20, 30, 40, 50, 60, 70, 80, 90]
    index = random.randint(0, len(gapYs)-1)
    gapY = gapYs[index]

    gapY += int(BASEY * 0.2)
    pipeX = SCREENWIDTH + 10

    return [
        {'x': pipeX, 'y': gapY - PIPE_HEIGHT},  # upper pipe
        {'x': pipeX, 'y': gapY + PIPEGAPSIZE},  # lower pipe
    ]


def showScore(score):
    """displays score in center of screen"""
    scoreDigits = [int(x) for x in list(str(score))]
    totalWidth = 0 # total width of all numbers to be printed

    for digit in scoreDigits:
        totalWidth += IMAGES['numbers'][digit].get_width()

    Xoffset = (SCREENWIDTH - totalWidth) / 2

    for digit in scoreDigits:
        SCREEN.blit(IMAGES['numbers'][digit], (Xoffset, SCREENHEIGHT * 0.1))
        Xoffset += IMAGES['numbers'][digit].get_width()


def checkCrash(player, upperPipes, lowerPipes):
    """returns True if player collders with base or pipes."""
    pi = player['index']
    player['w'] = IMAGES['player'][0].get_width()
    player['h'] = IMAGES['player'][0].get_height()

    # if player crashes into ground
    if player['y'] + player['h'] >= BASEY - 1:
        return True
    else:

        playerRect = pygame.Rect(player['x'], player['y'],
                      player['w'], player['h'])

        for uPipe, lPipe in zip(upperPipes, lowerPipes):
            # upper and lower pipe rects
            uPipeRect = pygame.Rect(uPipe['x'], uPipe['y'], PIPE_WIDTH, PIPE_HEIGHT)
            lPipeRect = pygame.Rect(lPipe['x'], lPipe['y'], PIPE_WIDTH, PIPE_HEIGHT)

            # player and upper/lower pipe hitmasks
            pHitMask = HITMASKS['player'][pi]
            uHitmask = HITMASKS['pipe'][0]
            lHitmask = HITMASKS['pipe'][1]

            # if bird collided with upipe or lpipe
            uCollide = pixelCollision(playerRect, uPipeRect, pHitMask, uHitmask)
            lCollide = pixelCollision(playerRect, lPipeRect, pHitMask, lHitmask)

            if uCollide or lCollide:
                return True

    return False

def pixelCollision(rect1, rect2, hitmask1, hitmask2):
    """Checks if two objects collide and not just their rects"""
    rect = rect1.clip(rect2)

    if rect.width == 0 or rect.height == 0:
        return False

    x1, y1 = rect.x - rect1.x, rect.y - rect1.y
    x2, y2 = rect.x - rect2.x, rect.y - rect2.y

    for x in range(rect.width):
        for y in range(rect.height):
            if hitmask1[x1+x][y1+y] and hitmask2[x2+x][y2+y]:
                return True
    return False

flappy_bird_utils.py

import pygame
import sys
def load():
    # path of player with different states
    PLAYER_PATH = (
            'assets/sprites/redbird-upflap.png',
            'assets/sprites/redbird-midflap.png',
            'assets/sprites/redbird-downflap.png'
    )

    # path of background
    BACKGROUND_PATH = 'assets/sprites/background-black.png'

    # path of pipe
    PIPE_PATH = 'assets/sprites/pipe-green.png'

    IMAGES, SOUNDS, HITMASKS = {}, {}, {}

    # numbers sprites for score display
    IMAGES['numbers'] = (
        pygame.image.load('assets/sprites/0.png').convert_alpha(),
        pygame.image.load('assets/sprites/1.png').convert_alpha(),
        pygame.image.load('assets/sprites/2.png').convert_alpha(),
        pygame.image.load('assets/sprites/3.png').convert_alpha(),
        pygame.image.load('assets/sprites/4.png').convert_alpha(),
        pygame.image.load('assets/sprites/5.png').convert_alpha(),
        pygame.image.load('assets/sprites/6.png').convert_alpha(),
        pygame.image.load('assets/sprites/7.png').convert_alpha(),
        pygame.image.load('assets/sprites/8.png').convert_alpha(),
        pygame.image.load('assets/sprites/9.png').convert_alpha()
    )

    # base (ground) sprite
    IMAGES['base'] = pygame.image.load('assets/sprites/base.png').convert_alpha()

    # sounds
    if 'win' in sys.platform:
        soundExt = '.wav'
    else:
        soundExt = '.ogg'

    SOUNDS['die']    = pygame.mixer.Sound('assets/audio/die' + soundExt)
    SOUNDS['hit']    = pygame.mixer.Sound('assets/audio/hit' + soundExt)
    SOUNDS['point']  = pygame.mixer.Sound('assets/audio/point' + soundExt)
    SOUNDS['swoosh'] = pygame.mixer.Sound('assets/audio/swoosh' + soundExt)
    SOUNDS['wing']   = pygame.mixer.Sound('assets/audio/wing' + soundExt)

    # select random background sprites
    IMAGES['background'] = pygame.image.load(BACKGROUND_PATH).convert()

    # select random player sprites
    IMAGES['player'] = (
        pygame.image.load(PLAYER_PATH[0]).convert_alpha(),
        pygame.image.load(PLAYER_PATH[1]).convert_alpha(),
        pygame.image.load(PLAYER_PATH[2]).convert_alpha(),
    )

    # select random pipe sprites
    IMAGES['pipe'] = (
        pygame.transform.rotate(
            pygame.image.load(PIPE_PATH).convert_alpha(), 180),
        pygame.image.load(PIPE_PATH).convert_alpha(),
    )

    # hismask for pipes
    HITMASKS['pipe'] = (
        getHitmask(IMAGES['pipe'][0]),
        getHitmask(IMAGES['pipe'][1]),
    )

    # hitmask for player
    HITMASKS['player'] = (
        getHitmask(IMAGES['player'][0]),
        getHitmask(IMAGES['player'][1]),
        getHitmask(IMAGES['player'][2]),
    )

    return IMAGES, SOUNDS, HITMASKS

def getHitmask(image):
    """returns a hitmask using an image's alpha."""
    mask = []
    for x in range(image.get_width()):
        mask.append([])
        for y in range(image.get_height()):
            mask[x].append(bool(image.get_at((x,y))[3]))
    return mask

assets文件包
链接：https://pan.baidu.com/s/1ctJF5_X6MCOBWX96WkaO7w
提取码：jg08

6.2.2 代码解析

line 65

self.sess = tf.Session()

Session 是 Tensorflow 为了控制,和输出文件的执行的语句. 运行 session.run() 可以获得你要得知的运算结果, 或者是你所要运算的部分.

line 68

 self.obs = tf.placeholder(tf.float32,shape = [None,80,80,4])

函数形式：

tf.placeholder(
    dtype,
    shape=None,
    name=None
)

参数：
dtype：数据类型。常用的是tf.float32,tf.float64等数值类型
shape：数据形状。默认是None，就是一维值，也可以是多维（比如[2,3], [None, 3]表示列是3，行不定）
name：名称
为什么要用placeholder？
Tensorflow的设计理念称之为计算流图，在编写程序时，首先构筑整个系统的graph，代码并不会直接生效，这一点和python的其他数值计算库（如Numpy等）不同，graph为静态的，类似于docker中的镜像。然后，在实际的运行时，启动一个session，程序才会真正的运行。这样做的好处就是：避免反复地切换底层程序实际运行的上下文，tensorflow帮你优化整个系统的代码。我们知道，很多python程序的底层为C语言或者其他语言，执行一行脚本，就要切换一次，是有成本的，tensorflow通过计算流图的方式，帮你优化整个session需要执行的代码，还是很有优势的。
所以placeholder()函数是在神经网络构建graph的时候在模型中的占位，此时并没有把要输入的数据传入模型，它只会分配必要的内存。等建立session，在会话中，运行模型的时候通过feed_dict()函数向占位符喂入数据。

line 73

self.Q = self.build_q_net(self.obs,scope='eval',trainable=True)
self.Q_ = self.build_q_net(self.obs_,scope='target',trainable=False)

trainable如果为True，则会默认将变量添加到图形集合GraphKeys.TRAINABLE_VARIABLES中。此集合用于优化器Optimizer类优化的的默认变量列表，如果为False则在训练时不会更新该值。注意是在优化器有用，正常的赋值操作还是会让其改变。

line 77

self.qe_params = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES,scope='eval')# 获取训练变量

等价于

self.qe_params=[var for var in train_vars if var.name.startswith('eval')]

line 84

readout_q = tf.reduce_sum(tf.multiply(self.Q,self.action),reduction_indices=1)

原型

tf.reduce_sum(
    input_tensor, 
    axis=None, 
    keepdims=None,
    name=None,
    reduction_indices=None, 
    keep_dims=None)

input_tensor：待求和的tensor;
tf.reduce_sum函数中reduction_indices参数表示函数的处理维度。
- reduction_indices参数的值默认的时候为None,默认把所有的数据求和，即结果是一维的。
- reduction_indices参数的值为0的时候，是第0维对应位置相加。
- reduction_indices参数的值为1的时候，是第1维对应位置相加。
- reduction_indices只有tensorflow1.0+才有，已弃用。

line 85

 self.q_loss = tf.losses.mean_squared_error(labels=self.Q_target,predictions = readout_q)

tf.losses.mean_squared_error函数

tf.losses.mean_squared_error(
    labels,
    predictions,
    weights=1.0,
    scope=None,
    loss_collection=tf.GraphKeys.LOSSES,
    reduction=Reduction.SUM_BY_NONZERO_WEIGHTS
)

在训练过程中增加了平方和loss.
在这个函数中,weights作为loss的系数.如果提供了标量,那么loss只是按给定值缩放.如果weights是一个大小为[batch_size]的张量,那么批次的每个样本的总损失由weights向量中的相应元素重新调整.如果weights的形状与predictions的形状相匹配,则predictions中每个可测量元素的loss由相应的weights值缩放.
参数：
labels：真实的输出张量,与“predictions”相同.
predictions：预测的输出.
weights：可选的Tensor,其秩为0或与labels具有相同的秩,并且必须可广播到labels(即,所有维度必须为1与相应的losses具有相同的维度).
scope：计算loss时执行的操作范围.
loss_collection：将添加loss的集合.
reduction：适用于loss的减少类型.
返回：
加权损失浮动Tensor.如果reduction是NONE,则它的形状与labels相同；否则,它是标量.
可能引发的异常：
ValueError：如果predictions与labels的形状不匹配,或者形状weights是无效,亦或,如果labels或是predictions为None,则会引发此类异常.
转载：https://www.cnblogs.com/xiaoniu-666/p/11102805.html

line 87

self.q_train_op = tf.train.AdamOptimizer(lr).minimize(self.q_loss,var_list=self.qe_params)

tf.train.AdamOptimizer()函数是Adam优化算法：是一个寻找全局最优点的优化算法，引入了二次方梯度校正。

tf.train.AdamOptimizer.__init__(
	learning_rate=lr, 
	beta1=0.9, 
	beta2=0.999, 
	epsilon=1e-08, 
	use_locking=False, 
	name='Adam'
)

参数：
learning_rate:张量或浮点值。学习速率
beta1:一个浮点值或一个常量浮点张量。一阶矩估计的指数衰减率
beta2:一个浮点值或一个常量浮点张量。二阶矩估计的指数衰减率
epsilon:数值稳定性的一个小常数
use_locking:如果True，要使用lock进行更新操作
name:应用梯度时为了创建操作的可选名称。默认为“Adam”
本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。
实际上运行tf.train.AdamOptimizer(),除了利用反向传播算法对权重和偏置项进行修正外，也在运行中不断修正学习率。根据其损失量学习自适应，损失量大则学习率大，进行修正的角度越大，损失量小，修正的幅度也小，学习率就小，但是不会超过自己所设定的学习率。
转载：https://blog.csdn.net/qq_39852676/article/details/98477214

line 89

self.sess.run(tf.global_variables_initializer())

当我们训练自己的神经网络的时候，无一例外的就是都会加上一句 sess.run(tf.global_variables_initializer())，用来初始化变量。
必须要使用global_variables_initializer的场合
- 含有tf.Variable的环境下，因为tf中建立的变量是没有初始化的，也就是在debug时还不是一个tensor量，而是一个Variable变量类型
可以不适用初始化的场合
- 不含有tf.Variable、tf.get_Variable的环境下
- 比如只有tf.random_normal或tf.constant等

line 91

self.saver = tf.train.Saver()

我们经常在训练完一个模型之后希望保存训练的结果，这些结果指的是模型的参数，以便下次迭代的训练或者用作测试。Tensorflow针对这一需求提供了Saver类。
Saver类提供了向checkpoints文件保存和从checkpoints文件中恢复变量的相关方法。Checkpoints文件是一个二进制文件，它把变量名映射到对应的tensor值。
只要提供一个计数器，当计数器触发时，Saver类可以自动的生成checkpoint文件。这让我们可以在训练过程中保存多个中间结果。例如，我们可以保存每一步训练的结果。
为了避免填满整个磁盘，Saver可以自动的管理Checkpoints文件。例如，我们可以指定保存最近的N个Checkpoints文件。
写的位置
- 在with tf.Session() as sess:这一句的前面写就行，不用再Session()会话中
- 在Session()会话的内部结尾中再加这么一句，指明地址

saver.save(sess,check_dir + 'model.ckpt')

转载https://blog.csdn.net/kele_imon/article/details/94586002

line 97

self.saver.save(self.sess,model_path,global_step=global_step)

Saver类
- Saver类是用于保存和恢复变量的。它有将变量保存到checkpoint和从checkpoint中恢复变量的操作。
- Checkpoints是一个二进制文件，它的属性值和tensor变量值一一对应。最好的检查checkpoints内容的方法就是用一个Saver去加载它。
- Saver可以自动的为chackpoint文件进行计数。这可以让你在训练模型时，保存多个checkpoint(通过计数来区分)。例如你可以通过训练的epoch来标识你的checkpoint文件。为了防止过分使用内存，你可以为saver设置最多保存的checkpoint文件数量。
- 你可以通过为save()函数传入global_step参数值来标识checkpoint文件
save

save(
    sess,
    save_path,
    global_step=None,
    latest_filename=None,
    meta_graph_suffix='meta',
    write_meta_graph=True,
    write_state=True,
    strip_default_attrs=False)

保存变量
这个方法用来保存变量，它需要一个session参数来指明哪个图。保存的参数必须已经被初始化过了。
参数
sess:保存变量需要的session
save_path:checkpoint文件保存的路径。
global_step:如果指定了，则会将这个数字添加到save_path后面，用于唯一标识checkpoint文件。
latest_filename:和save_path在同一个文件夹中，用于最后一个checkpoint文件的命名。默认为checkpoint。
其他不常用。

line 101

self.saver.restore(self.sess,model_path)

restore

restore(
    sess,
    save_path)

从save_path中恢复模型的参数。
它需要一个session，需要恢复的参数不需要初始化，因为恢复本身就是一种初始化变量的方法。而参数save_path就是save()函数产生的文件的路径名。
参数
sess:一个session
save_path:保存的路径

line 113

with tf.variable_scope(scope):{}

原型：

def variable_scope(name_or_scope,
                   default_name=None,
                   values=None,
                   initializer=None,
                   regularizer=None,
                   caching_device=None,
                   partitioner=None,
                   custom_getter=None,
                   reuse=None,
                   dtype=None,
                   use_resource=None)

作用：这个函数返回上下文管理器，用于定义创建变量(或层)的操作。
此上下文管理器验证（可选）values是否来自同一个图，确保该图是默认图，并推送名称作用域和变量作用域。
如果name_or_scope不是None，则按原样使用。如果scope为None，则使用default_name。在这种情况下，如果先前在同一作用域内使用了相同的名称，那么它将被追加_N以保证唯一性。
变量作用域允许创建新变量并共享已创建的变量，同时提供检查以避免意外创建或共享。
参数
name_or_scope：string or VariableScope: 待打开的作用域.

line 115

 h_conv1 = tf.layers.conv2d(inputs=obs,
                            filters=32,
                            kernel_size=[8*8],
                            strides=4,
                            padding="same",
                            activation=tf.nn.relu,
                            kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.1),
                            bias_initializer=tf.constant_initializer(0.1),
                            trainable=trainable)

原型

conv2d(inputs, filters, kernel_size, 
    strides=(1, 1), 
    padding='valid', 
    data_format='channels_last', 
    dilation_rate=(1, 1),
    activation=None, 
    use_bias=True, 
    kernel_initializer=None,
    bias_initializer=<tensorflow.python.ops.init_ops.Zeros object at 0x000002596A1FD898>, 
    kernel_regularizer=None,
    bias_regularizer=None, 
    activity_regularizer=None, 
    kernel_constraint=None, 
    bias_constraint=None, 
    trainable=True, 
    name=None,
    reuse=None)

作用
2D 卷积层的函数接口
这个层创建了一个卷积核，将输入进行卷积来输出一个 tensor。如果 use_bias 是 True（且提供了 bias_initializer），则一个偏差向量会被加到输出中。最后，如果 activation 不是 None，激活函数也会被应用到输出中。
参数
- inputs：Tensor 输入
- filters：整数，表示输出空间的维数（即卷积过滤器的数量）
- kernel_size：一个整数，或者包含了两个整数的元组/队列，表示卷积核的高和宽。如果是一个整数，则宽高相等。
- strides：一个整数，或者包含了两个整数的元组/队列，表示卷积的纵向和横向的步长。如果是一个整数，则横纵步长相等。另外， strides 不等于1 和 dilation_rate 不等于1 这两种情况不能同时存在。
- padding：“valid” 或者 “same”（不区分大小写）。“valid” 表示不够卷积核大小的块就丢弃，"same"表示不够卷积核大小的块就补0。 “valid” 的输出形状为
- data_format：channels_last 或者 channels_first，表示输入维度的排序。
- ilation_rate：一个整数，或者包含了两个整数的元组/队列，表示使用扩张卷积时的扩张率。如果是一个整数，则所有方向的扩张率相等。另外， strides 不等于1 和 dilation_rate 不等于1 这两种情况不能同时存在。
- activation：激活函数。如果是None则为线性函数。
- use_bias：Boolean类型，表示是否使用偏差向量。
- kernel_initializer：卷积核的初始化。
- bias_initializer：偏差向量的初始化。如果是None，则使用默认的初始值。
- kernel_regularizer：卷积核的正则项
- bias_regularizer：偏差向量的正则项
- activity_regularizer：输出的正则函数
- kernel_constraint：映射函数，当核被Optimizer更新后应用到核上。Optimizer 用来实现对权重矩阵的范数约束或者值约束。映射函数必须将未被影射的变量作为输入，且一定输出映射后的变量（有相同的大小）。做异步的分布式训练时，使用约束可能是不安全的。
- bias_constraint：映射函数，当偏差向量被Optimizer更新后应用到偏差向量上。
- trainable：Boolean类型。
- name：字符串，层的名字。
- reuse：Boolean类型，表示是否可以重复使用具有相同名字的前一层的权重。
返回值
输出 Tensor

其中

kernel_initializer=tf.random_normal_initializer(mean=0,stddev=0.1),

用正态分布产生张量的初始化器.
参数：
mean：一个 python 标量或一个标量张量.要生成的随机值的均值.
stddev：一个 python 标量或一个标量张量.要生成的随机值的标准偏差.
seed：一个 Python 整数.用于创建随机种子.查看 tf.set_random_seed 行为.
dtype：数据类型.只支持浮点类型.

line 120

 h_pool1 = tf.layers.max_pooling2d(h_conv1,pool_size=[2*2],strides=2,padding="same")

tf.layers.max_pooling2d函数

tf.layers.max_pooling2d(
    inputs,
    pool_size,
    strides,
    padding='valid',
    data_format='channels_last',
    name=None
)

参数：
inputs：池的张量,秩必须为4.
pool_size：2个整数的整数或元组/列表：(pool_height,pool_width),用于指定池窗口的大小.可以是单个整数,以指定所有空间维度的相同值.
strides：2个整数的整数或元组/列表,用于指定池操作的步幅.可以是单个整数,以指定所有空间维度的相同值.
padding：一个字符串,表示填充方法,“valid”或“same”,不区分大小写.
data_format：一个字符串,表示输入中维度的顺序.支持channels_last(默认)和channels_first；channels_last对应于具有形状(batch, height, width, channels)的输入,而channels_first对应于具有形状(batch, channels, height, width)的输入.
name：字符串,图层的名称.
返回：
输出张量(Tensor).

line 127

h_conv3_flat = tf.reshape(h_conv3,[-1,1600])

原型

tf.reshape(tensor,shape,name=None)

将第三个卷积层的输出展开成维数为1600的1维向量
函数的作用是将tensor变换为参数shape形式，其中的shape为一个列表形式，特殊的是列表可以实现逆序的遍历，即list(-1).-1所代表的含义是我们不用亲自去指定这一维的大小，函数会自动进行计算，但是列表中只能存在一个-1。（如果存在多个-1，就是一个存在多解的方程）

line 134

h_fc1 = tf.layers.dense(inputs=h_conv3_flat,
                                    units=512,
                                    activation=tf.nn.relu,
                                    kernel_initializer=tf.random_normal_initializer(0,stddev=0.1),
                                    bias_initializer=tf.constant_initializer(0.1),
                                    trainable=trainable)

dense ：全连接层相当于添加一个层
- units：输出的维度大小，改变inputs的最后一维

line 160

 a_t[random.randrange(ACTIONS)] = 1

原型

random.randrange(start, stop, step)

注意：randrange()是不能直接访问的，需要导入 random 模块，然后通过 random 静态对象调用该方法。
参数
start – 指定范围内的开始值，包含在范围内。
stop – 指定范围内的结束值，不包含在范围内。
step – 指定递增基数。
返回值
从给定的范围返回随机项。

line 174

x_t = cv2.cvtColor(cv2.resize(x_t,(80,80)),
				   cv2.COLOR_BGR2GRAY)

opencv中颜色空间转换函数 cv2.cvtColor()
opencv中有多种色彩空间，包括 RGB、HSI、HSL、HSV、HSB、YCrCb、CIE XYZ、CIE Lab8种，使用中经常要遇到色彩空间的转化，以便生成mask图等操作。
可以使用下面的色彩空间转化函数 cv2.cvtColor( )进行色彩空间的转换：
HSV 表示hue、saturation、value
原型

image_hsv = cv2.cvtColor(image,cv2.COLOR_BGR2HSV)

用这个函数把图像从RGB转到HSV夜色空间，注意是BGR2HSV，因为在opencv中默认的颜色空间是BGR。

其中

OpenCV：图像缩放(cv2.resize)
原型

cv2.resize(src,dsize,dst=None,fx=None,fy=None,interpolation=None)

参数
scr: 原图
dsize: 输出图像尺寸
fx: 沿水平轴的比例因子
fy: 沿垂直轴的比例因子
interpolation: 插值方法

line 175

ret,x_t = cv2.threshold(x_t,1,255,cv2.THRESH_BINARY)

像素高于阈值时，给像素赋予新值。
原型

cv2.threshold(src,thresh,maxval,type[,dst])

cv2.threshold(源图片，阀值，填充色，阀值类型)
参数
- src：源图片，必须是单通道
- thresh：阀值，取值范围0~255
- maxval：填充色，取值范围0~255
- type：阀值类型，具体见下表
  - cv2.THRESH_BINARY(黑白二值)
    cv2.THRESH_BINARY_INV(黑白二值反转)
    cv2.THRESH_TRUNC(得到的图像为多像素值)
    cv2.THRESH_TOZERO
    cv2.THRESH_TOZERO_INV
    cv2.THRESH_MASK
    cv2.THRESH_OTSU
    cv2.THRESH_TRIANGLE
该函数有两个返回值，第一个retVal（得到的阀值值），第二个就是阀值化后的图像。
阀值类型表：

阀值	小于阀值的像素点	大于阀值的像素点
0	置0	置填充色
1	置填充色	置0
2	保持原色	置阀值
3	置0	保持原色
4	保持原色	置0

THRESH_OTSU：使用Otsu算法选择阀值
THRESH_TRIANGLE：使用三角形算法选择最佳阀值
参考：https://docs.opencv.org/3.4.3/d4/d86/group__imgproc__filter.html#ga67493776e3ad1a3df63883829375201f

line 176

s_t = np.stack((x_t,x_t,x_t,x_t),axis=2)

numpy.stack()函数用于沿新轴连接相同尺寸数组的序列。axis参数指定结果轴尺寸中新轴的索引。例如，如果axis = 0，它将是第一个尺寸；如果axis = -1，它将是最后的尺寸。
原型

numpy.stack(arrays, axis)

参数：
arrays :[数组]相同形状的数组序列。
axis :[int]输入数组沿其堆叠的结果数组中的轴。
返回值
[stacked ndarray]输入数组的堆栈数组，其维数比输入数组大。

line 190

s_t1 =np.append(x_t1,s_t[:,:,:3],axis=2)

原型

np.append(arr, values, axis=None)

作用：
为原始array添加一些values
参数：
arr:需要被添加values的数组
values:添加到数组arr中的值（array_like，类数组）
axis:可选参数，如果axis没有给出，那么arr，values都将先展平成一维数组。注：如果axis被指定了，那么arr和values需要有相同的shape，否则报错：ValueError: arrays must have same number of dimensions
补充对axis的理解
- axis的最大值为数组arr的维数-1，如arr维数等于1，axis最大值为0；arr维数等于2，axis最大值为1，以此类推。
- 当arr的维数为2(理解为单通道图)，axis=0表示沿着行方向添加values；axis=1表示沿着列方向添加values
- 当arr的维数为3(理解为多通道图)，axis=0，axis=1时同上；axis=2表示沿着深度方向添加values
返回：
添加了values的新数组

line 207

self.sess.run(self.q_train_op,feed_dict={self.obs:train_s,self.action:train_a,self.Q_target:target_q})

原型

tmp = self.sess.run(self.out,
					feed_dict={self.input:[x[iself.img_size:(i+1)self.img_size,
							  jself.img_size:(j+1)self.img_size]]})[0]

feed_dict喂入网络，self.out 网络输出
[0]代表有批次，其实输入应该为1wh*c,虽然只有一张图片，[0]就代表第一张即第一批次。

但是还是有点不太聪明的亚子
需要再好好调整

你可能感兴趣的:(深入浅出强化学习,python,tensorflow,深度学习,神经网络,强化学习)

【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
SUNDAE-一种称为“光谱剪枝”的技术来优化和压缩3DGS模型 huarzail 3DGS 剪枝 3d 算法
清华大学人工智能产业研究院、伦敦帝国理工学院、北京航空航天大学、北京理工大学、中国科学院大学、香港中文大学（深圳）、中国电信人工智能研究院（TeleAI）EVOL实验室的研究人员联合推出了一种新的3D场景表示方法-SUNDAE，它通过一种称为“光谱剪枝”的技术来优化和压缩3D高斯溅射（3DGaussianSplatting，简称3DGS）模型，同时使用神经网络补偿来保持渲染质量。项目主页：SUND
2048-Python 开源项目教程瞿晟垣
2048-Python开源项目教程2048-python2048项目地址:https://gitcode.com/gh_mirrors/20/2048-python本教程旨在引导您了解并运行yangshun的2048-python开源项目，一个基于Python实现的经典小游戏2048。我们将深入探索其项目结构、启动流程以及配置详情。1.项目目录结构及介绍项目遵循简洁的组织结构，便于理解和维护：20
【蓝桥杯选拔赛真题98】Scratch扑克牌排序第十五届蓝桥杯scratch图形化编程少儿编程创意编程选拔赛真题解析小兔子编程 scratch扑克牌 scratch蓝桥杯题目 scratch蓝桥杯真题第十五届蓝桥杯scratch题 scratch扑克牌排序 scratch排序 scratch案例
目录scratch扑克牌排序一、题目要求编程实现二、案例分析1、角色分析2、背景分析3、前期准备三、解题思路1、思路分析2、详细过程四、程序编写五、考点分析六、推荐资料1、入门基础2、蓝桥杯比赛3、考级资料4、视频课程5、python资料scratch扑克牌排序第十五届青少年蓝桥杯scratch编程选拔赛真题解析一、题目要求编程实现1）点击绿旗，在舞台上出现4张点数不同的扑克牌，牌上的点数是随机的
python+requests接口自动化测试框架实例详解教程锦都不二 python 开发语言
前段时间由于公司测试方向的转型，由原来的web页面功能测试转变成接口测试，之前大多都是手工进行，利用postman和jmeter进行的接口测试，后来，组内有人讲原先web自动化的测试框架移驾成接口的自动化框架，使用的是java语言，但对于一个学java，却在学python的我来说，觉得python比起java更简单些，所以，我决定自己写python的接口自动化测试框架，由于本人也是刚学习pytho
华为OD机试 2025B卷 - 书籍叠放 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 算法华为OD机试华为OD2025B卷华为机试2025B卷
书籍叠放华为OD机试真题目录:点击去查看2025B卷200分题型题目描述书籍的长、宽都是整数对应(l,w)。如果书A的长宽度都比B长宽大时，则允许将B排列放在A上面。现在有一组规格的书籍，书籍叠放时要求书籍不能做旋转，请计算最多能有多少个规格书籍能叠放在一起。输入描述输入：books=[[20,16],[15,11],[10,10],[9,10]]说明：总共4本书籍，第一本长度为20宽度为16；第
华为OD机考2025B卷 - 最佳对手 / 实力差距最小总和（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java 华为od python javascript 华为OD机考2025B卷 c++
题目描述游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下匹配出的各组实力差距的总和最小。输入描述第一行，n，d。队伍个数n。允许的最大实力差距d。2<=n<=500<=d<=100第二行，n个队伍的实力值空格分割。0<=各
2025B卷最新华为OD机试持续收录中 - 真题题库清单，按考点划分(Python / JS / C++ / JAVA / C语言) 算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od python javascript java c++
目前在考：华为OD统一考试2025B卷（2025年B卷）2025年5月9日，华为od机考已经从2025年A卷（2025A卷）切换到华为OD2025年B卷（2025B卷）,有人说是16号，实际上是9号全面切换到B卷。2025B卷是要比2025A卷要简单的，2025B卷考试题目是旧题复用+新题。2025华为OD统一考试2025B卷+2025A卷+E卷+C卷+D卷+B卷+A卷题库OJ链接最新华为OD机试
python+requests 搭建接口自动化测试框架【超详细】测试涛叔软件测试面试软件测试自动化测试 python 开发语言软件测试面试职场和发展
一、前言Python是一种简单易学、功能强大的编程语言，广泛应用于各种软件开发和测试场景中。requests是Python中流行的HTTP库，支持发送HTTP请求和处理HTTP响应，它也是开发API自动化测试框架的重要组件之一。在本文中，我们将介绍如何使用Python和requests构建一个简单的接口自动化测试框架，并通过实例来详细说明其具体实现方法。二、环境准备在开始构建接口自动化测试框架之前
华为OD机考2025B卷 - 池化资源共享（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java 华为od python 华为OD机考2025B卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述有一个局部互联区域内的n台设备，每台设备都有一定数量的空闲资源，这些资源可以池化共享。用户会发起两种操作：申请资源：输入1x，表示本次申请需要x个资源。系统要返回当前资源池中能满足此申请且剩余资源最少的设备ID；如果有多台设备满足条件，返回设备ID最小的；如果
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
华为OD机试 2025 B卷 - 服务失效判断 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷华为OD机考2025B卷
服务失效判断华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述某系统中有众多服务，每个服务用字符串（只包含字母和数字，长度<=10）唯一标识，服务间可能有依赖关系，如A依赖B，则当B故障时导致A也故障。依赖具有传递性，如A依赖B，B依赖C，当C故障时导致B故障，也导致A故障。给出所有依赖关系，以及当前已知故障服务，
用Python实现数据可视化的实用指南庞队千Virginia
用Python实现数据可视化的实用指南practical-python-data-viz-guideResourcesforteaching&learningpracticaldatavisualizationwithpython.项目地址:https://gitcode.com/gh_mirrors/pr/practical-python-data-viz-guide项目介绍在数据驱动的时代，数
探索OpenStreetMap数据的新境界：Pyosmium开源项目深度解读滑思眉Philip
探索OpenStreetMap数据的新境界：Pyosmium开源项目深度解读pyosmiumPythonbindingsforlibosmium项目地址:https://gitcode.com/gh_mirrors/py/pyosmium在地理信息处理的世界里，OpenStreetMap（OSM）无疑是一座宝山，而Pyosmium则是开启这座宝藏的金钥匙。本文将带你深入了解Pyosmium，一个高
基于流量特征分析的DDoS实时检测与缓解实战
问题场景当Web服务器突发大量SYNFlood攻击时，传统防火墙难以区分真实用户与伪造流量，导致业务中断。解决方案核心：动态流量指纹识别通过统计学习建立正常流量基线，实时拦截异常连接。#DDoS流量检测脚本（Python3+Scapy）fromscapy.allimport*fromcollectionsimportdefaultdictimporttimeTHRESHOLD=1000#每秒SYN
FastAPI 使 Python 开发的 API 更具扩展性 Python编程之道 Python人工智能与大数据 Python编程之道 fastapi python 开发语言 ai
FastAPI使Python开发的API更具扩展性关键词：FastAPI、Python、API开发、扩展性、异步编程摘要：本文围绕FastAPI如何使Python开发的API更具扩展性展开。首先介绍了FastAPI的背景知识，包括其目的、适用读者、文档结构等。接着阐述了FastAPI的核心概念、架构原理，并通过Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，结合Python源代
使用Python进行数据可视化的初学者指南
首先，我们需要确保你的计算机上安装了Python环境。访问Python官方网站可以下载最新的Python版本。接下来，我们将使用matplotlib库来进行图形绘制，这是一个广泛使用的绘图库。你可以通过Python的包管理器pip来安装它：pipinstallmatplotlib一旦安装完成，我们就可以开始绘制我们的第一个图表了。让我们从最简单的图形——折线图开始。假设我们有以下数据集表示某城市一
Python爬虫实战：研究HTTP Agent Parser 库相关技术 ylfhpy 爬虫项目实战 python 爬虫 http
1.引言1.1研究背景与意义在当今数字化时代，网络数据作为一种重要的信息资源，在商业决策、学术研究、社会分析等领域发挥着越来越重要的作用。网络爬虫作为一种自动获取网页内容的技术，成为了获取这些数据的重要工具。然而，随着网络爬虫的广泛使用，网站也采取了各种反爬机制来保护自身数据和服务安全。其中，用户代理（User-Agent）检测是一种常见的反爬手段。网站通过分析请求的User-Agent信息，识别
Python爬虫实战：研究pyparsing工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 pyparsing 文本处理文本分析
1.引言在当今信息爆炸的时代，网络上存在着海量的非结构化文本数据。如何从这些数据中提取有价值的信息，成为了数据科学领域的一个重要研究方向。网络爬虫技术可以帮助我们自动获取这些数据，而Pyparsing则提供了强大的语法分析能力，可以将非结构化的文本转换为结构化的信息。本文将介绍一个完整的案例，展示如何使用Python的爬虫技术结合Pyparsing工具，构建一个网络内容分析系统。该系统可以爬取特定
Java---day2
七、IDEA开发工具一、下载IntelliJIDEA官网地址：IntelliJIDEA–theIDEforProJavaandKotlinDevelopment版本选择：版本说明CommunityEdition(CE)免费开源版本，适合Java、Kotlin、Android等基础开发。UltimateEdition(UE)商业版，支持更多语言和框架（如Spring、Python、JavaScrip
华为OD机试2024年E卷-猜数字[100分]（ Java | Python3 | C++ | C语言 | JsNode | Go）实现100%通过率梅花C 华为OD题库华为od
题目描述一个人设定一组四码的数字作为谜底，另一方猜。每猜一个数，出数者就要根据这个数字给出提示，提示以XAYB形式呈现，直到猜中位置。其中X表示位置正确的数的个数(数字正确且位置正确)，而Y表示数字正确而位置不对的数的个数。例如，当谜底为8123，而猜谜者猜1052时，出题者必须提示0A2B。例如，当谜底为5637，而猜谜者才4931时，出题者必须提示1A0B。当前已知N组猜谜者猜的数字与提示，如
2025华为OD机试A卷-猜数字（JAVA、Python、JavaScript、C++、C）大厂面试小达人华为od java python
2025华为OD机试A卷-猜数字（JAVA、Python、JavaScript、C++、C）题目描述一个人设定一组四码的数字作为谜底，另一方猜。每猜一个数，出数者就要根据这个数字给出提示，提示以XAYB形式呈现，直到猜中位置。其中X表示位置正确的数的个数（数字正确且位置正确），而Y表示数字正确而位置不对的数的个数。例如，当谜底为8123，而猜谜者猜1052时，出题者必须提示0A2B。例如，当谜底为
Python爬虫实战：研究phonenumbers工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 phonenumbers
1.引言1.1研究背景与意义电话号码作为重要的联系方式，在现代社会中具有广泛的应用价值。在商业领域，企业需要准确识别客户电话号码的归属地和运营商信息，以便进行精准营销和客户服务；在社交网络分析中，电话号码可以作为用户身份识别和关系挖掘的重要依据；在公共安全领域，电话号码的快速分析有助于案件侦破和紧急救援。然而，电话号码的格式在全球范围内存在较大差异，不同国家和地区有不同的编码规则和书写习惯。例如，
156个Python网络爬虫资源，妈妈再也不用担心你找不到资源！_爬虫 csdn资源
本列表包含Python网页抓取和数据处理相关的库。网络相关通用urllib-网络库(标准库)requests-网络库grab-网络库(基于pycurl)pycurl-网络库(与libcurl绑定)urllib3-具有线程安全连接池、文件psot支持、高可用的PythonHTTP库httplib2-网络库RoboBrowser-一个无需独立浏览器即可访问网页的简单、pythonic的库Mechani
Python核心基础DAY1--Python的基础变量类型之字符串和数字类型
一、引言Python作为一种功能强大且广泛应用的编程语言，其基础变量类型是构建各种复杂程序的基石。在Python中，字符串和数字类型是最常用的基础变量类型之一。对于初学者来说，深入理解这两种类型是掌握Python编程的关键第一步。无论是数据处理、算法实现还是构建Web应用程序，对字符串和数字类型的熟练运用都至关重要。二、变量变量是代数的思想，是用来引用数据和功能占位的，具备动态性和可变性；使用的变
py_trees实践:实现机器人循迹任务 H1_Coldfire task planning 机器人 python
书接上回的py_trees快速实践，写了一个机器人沿着拓扑路径循迹移动，最后到达目标点后，执行一个任务动作的行为树。在行为树中，增加了在每个tick检查机器人电量的逻辑。在电量低于一定阈值时，会中断当前任务并触发充电动作。这个逻辑体现了行为树响应性(Reactive)的特点，希望对学习行为树的同学有一点参考价值。下面直接给出相应的代码：#!/usr/bin/python3#coding:utf-8
python log模块_python日志模块logbook使用方法 weixin_39930144 python log模块
python自带了日志模块logging，可以用来记录程序运行过程中的日志信息。同时python还有logbook模块用来取代logging模块，在很多的项目中logbook模块使用也是比较的多，因此本文介绍一下pythonlogbook模块的使用方法。1，安装pipinstalllogbook官方的使用文档，这里2，使用方法如下：文件logconf.py初始化日志以及设置日志格式等参数：impo
python日志模块方法_python日志模块logbook使用方法 weixin_39876595 python日志模块方法
python自带了日志模块logging，可以用来记录程序运行过程中的日志信息。同时python还有logbook模块用来取代logging模块，在很多的项目中logbook模块使用也是比较的多，因此本文介绍一下pythonlogbook模块的使用方法。1，安装pipinstalllogbook官方的使用文档，这里2，使用方法如下：文件logconf.py初始化日志以及设置日志格式等参数：impo
使用python使用现有word模板填充或替换数据生成word或pdf文件
要使用Python填充或替换现有Word模板中的数据并生成Word或PDF文件，您可以使用以下步骤：选择一个Python库来处理Word文件，推荐使用python-docx或python-docx-template库。这两个库都可以用来操作Word文档。使用您选择的库，打开现有的Word模板文件。根据您的需求，可以使用库提供的方法来填充或替换模板中的数据。您可以在模板中设置占位符，然后通过Pyth
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs