100余行代码带你入门强化学习DQN算法

1. 简介
2. 关键要点
- 2.1 replay buffer存储及采样数据
- 2.2 DQN网络
- 2.3 主函数
3. 完整代码
4. 关于Nature DQN图像输入的处理手段

1. 简介

DQN算法是经典的强化学习算法，作为一个入门级的算法，深度强化学习领域的hello world，很有必要自己手动写一个简易实现。

2. 关键要点

DQN算法中，重要的是两个东西，一个是replay buffer，一个是agent。replay buffer涉及到经验的存储与采样。而agent中则涉及到构建神经网络与使用bellman equation更新网络。

2.1 replay buffer存储及采样数据

首先导入必要的库：

import copy
import gym
import torch
import torch.nn as nn
import pandas as pd
import numpy as np
import logging
import sys
import matplotlib.pyplot as plt

replay buffer重要的是两个操作，一个是存储数据，一个是采样数据。在存储数据方面，这里使用pandas.Dataframe来存储，结构清晰，也易于采样。在采样过程中，就采用随机采样的方式。

# ReplayBuffer is used to store transitions which are used to train Q network
class ReplayBuffer:
    def __init__(self, capacity):
        self.capacity = capacity    # record the ReplayBuffer's capacity
        self.valid_count = 0        # record the valid index of transitions
        self.i = 0                  # record the current index which need to store a transition
        # real buffer for storing necessary messages
        self.memory = pd.DataFrame(index=range(capacity),
                                   columns=['state', 'action', 'reward', 'next_state', 'done'])

    def store(self, transition):
        # store the transition
        self.memory.loc[self.i] = transition
        self.i = (self.i+1) % self.capacity     # update the current index which need to store a transition
        self.valid_count = min(self.valid_count+1, self.capacity)       # update the valid index of transitions

    def sample(self, number):
        # choose transitions randomly
        indices = np.random.choice(self.valid_count, size=number)
        return (np.stack(self.memory.loc[indices, var]) for var in self.memory.columns)

2.2 DQN网络

DQN网络重要的是三点，一个是使用epsilon-greedy策略来选择动作（对应get_action方法），一个是从buffer中采样一个batch的transitions来更新Q网络（对应learn方法），一个是硬拷贝更新target Q network（对应update_target_network方法）。因为自己将replay buffer 写在DQN agent中，所以再多一条，是将transtions放入replay buffer中（对应store_transition方法）。

class DQNagent:
    def __init__(self, state_size, action_size, hidden_layer=[16,16]):
        # build the Q network
        layers = []
        for input_size, output_size in zip([state_size,] + hidden_layer, hidden_layer + [action_size,]):
            layers.append(nn.Linear(input_size, output_size))
            layers.append(nn.ReLU())
        layers = layers[:-1]     # delete the last ReLU function
        self.qNet = nn.Sequential(*layers)   # build the Q network
        self.opitimizer = torch.optim.Adam(self.qNet.parameters(), lr=0.001)
        self.loss = nn.MSELoss()

        self.targetQNet = copy.deepcopy(self.qNet)      # build the target Q network
        self.gamma = 0.99                   # discount factor
        self.buffer = ReplayBuffer(10000)
        self.buffer_sample = 1024           # the batch size for training is 1024

        self.lossRecord = []


    def get_action(self, state, action_size, epsilon=0.01):
        # choose the epsilon-greedy action
        state = torch.as_tensor(state, dtype=torch.float)
        with torch.no_grad():
            QValue = self.qNet(state)
        _, act_max = torch.max(QValue, dim=0)
        act = act_max.item() if np.random.rand() > epsilon else np.random.randint(action_size)
        return act

    # store transitions in replay buffer
    def store_transition(self, *transition):
        self.buffer.store(transition)

    # train the Q network
    def learn(self):
        state, action, reward, next_state, done = self.buffer.sample(self.buffer_sample)
        # convert the numpy to torch
        state_tensor = torch.as_tensor(state, dtype=torch.float)
        action_tensor = torch.as_tensor(action, dtype=torch.long)
        reward_tensor = torch.as_tensor(reward, dtype=torch.float)
        next_state_tensor = torch.as_tensor(next_state, dtype=torch.float)
        done_tensor = torch.as_tensor(done, dtype=torch.float)

        predictQ = self.qNet(state_tensor)
        # choose the Q value which is corresponding to the actual action
        q_tensor = predictQ.gather(1, action_tensor.unsqueeze(1)).squeeze(1)

        # calculate the target Q value
        predict_nextQ = self.targetQNet(next_state_tensor)
        predict_next_maxQ, _ = predict_nextQ.max(dim=1)
        targetQ = reward_tensor + (1. - done_tensor) * self.gamma * predict_next_maxQ

        loss = self.loss(targetQ, q_tensor)     # calculate the loss value
        self.lossRecord.append(loss)        # record the loss function
        # three steps for gradient descend
        self.opitimizer.zero_grad()
        loss.backward()
        self.opitimizer.step()

    # update the target network
    def update_target_network(self):
        self.targetQNet = copy.deepcopy(self.qNet)

    # save the Q network model
    def save_model(self, path):
        torch.save(self.qNet.state_dict(), path)

    # load the Q network model
    def load_model(self, path):
        model = torch.load(path)
        self.qNet.load_state_dict(model)

    # draw the training loss curve
    def draw_loss(self):
        plt.figure(1)
        plt.plot(range(len(self.lossRecord)), self.lossRecord)
        plt.xlabel('Training episodes')
        plt.ylabel('loss')
        plt.title('Loss curve during {} training episodes'.format(len(self.lossRecord)))
        plt.savefig('./loss_curve_{}.jpg'.format(len(self.lossRecord)))

2.3 主函数

主函数就是定义环境，然后用agent和环境交互，训练完成后保存模型，之后加载模型并渲染看一下训练效果

if __name__ == '__main__':
    ENV_NAME = "CartPole-v0"
    # show some important messages
    logging.basicConfig(level=logging.DEBUG,
                        format='%(asctime)s [%(levelname)s] %(message)s',
                        stream=sys.stdout, datefmt='%H:%M:%S')
    episodes = 7000
    env = gym.make(ENV_NAME)
    # set random seeds to ensure that the result can be reproduced
    env.seed(0)
    np.random.seed(0)
    torch.manual_seed(0)
    # get the state size and action size of the environment.
    env_state_size, env_action_size = env.observation_space.shape[0], env.action_space.n
    # creat a agent
    agent = DQNagent(env_state_size, env_action_size)
    retList = []
    for i in range(episodes):
        # reset crucial variables
        obs, done, return_aEpisode, steps = env.reset(), False, 0, 0
        while not done:
            action = agent.get_action(obs, env_action_size)     # epsilon-greedy policy.
            obs_new, reward, done, _ = env.step(action)         # interact with the environment
            agent.store_transition(obs, action, reward, obs_new, done)  # collect a transition
            obs = obs_new                                       # update the observation
            return_aEpisode += reward                           # record the return
            steps += 1                                          # record the step
        # if transitions are enough, we begin to update the Q network
        if agent.buffer.valid_count > 0.9 * agent.buffer.capacity:
            agent.learn()
            # update the target Q network every 100 episodes
            if episodes % 100 == 0:
                agent.update_target_network()
        # print key messages
        logging.debug('train episode %d: reward = %.2f, steps = %d',
                      i, return_aEpisode, steps)
        retList.append(return_aEpisode)
    agent.save_model(path='./DQN_{}_model.pth'.format(episodes))        # save trained model
    agent.draw_loss()                                                   # draw the loss curve

    # draw the accumulated reward (i.e. return)
    plt.figure(2)
    plt.plot(range(len(retList)), retList)
    plt.xlabel('episodes')
    plt.ylabel('reward')
    plt.title('interact with the environment in {} episodes'.format(episodes))
    plt.savefig('./reward_curve_{}.jpg'.format(episodes))

    # show the test results
    logging.info('========= test ===========')
    agent.load_model(path='./DQN_{}_model.pth'.format(episodes))
    retList = []
    for i in range(10):
        obs, done, ret = env.reset(), False, 0
        while not done:
            env.render()
            action = agent.get_action(obs, env_action_size)
            obs, reward, done, _ = env.step(action)
            ret += reward
        logging.debug('test episode %d: reward = %.2f',
                          i, ret)
        retList.append(ret)
    env.close()
    logging.info('average episode reward = %.2f ± %.2f',
                np.mean(retList), np.std(retList))

3. 完整代码

import copy
import gym
import torch
import torch.nn as nn
import pandas as pd
import numpy as np
import logging
import sys
import matplotlib.pyplot as plt

# ReplayBuffer is used to store transitions which are used to train Q network
class ReplayBuffer:
    def __init__(self, capacity):
        self.capacity = capacity    # record the ReplayBuffer's capacity
        self.valid_count = 0        # record the valid index of transitions
        self.i = 0                  # record the current index which need to store a transition
        # real buffer for storing necessary messages
        self.memory = pd.DataFrame(index=range(capacity),
                                   columns=['state', 'action', 'reward', 'next_state', 'done'])

    def store(self, transition):
        # store the transition
        self.memory.loc[self.i] = transition
        self.i = (self.i+1) % self.capacity     # update the current index which need to store a transition
        self.valid_count = min(self.valid_count+1, self.capacity)       # update the valid index of transitions

    def sample(self, number):
        # choose transitions randomly
        indices = np.random.choice(self.valid_count, size=number)
        return (np.stack(self.memory.loc[indices, var]) for var in self.memory.columns)


class DQNagent:
    def __init__(self, state_size, action_size, hidden_layer=[16,16]):
        # build the Q network
        layers = []
        for input_size, output_size in zip([state_size,] + hidden_layer, hidden_layer + [action_size,]):
            layers.append(nn.Linear(input_size, output_size))
            layers.append(nn.ReLU())
        layers = layers[:-1]     # delete the last ReLU function
        self.qNet = nn.Sequential(*layers)   # build the Q network
        self.opitimizer = torch.optim.Adam(self.qNet.parameters(), lr=0.001)
        self.loss = nn.MSELoss()

        self.targetQNet = copy.deepcopy(self.qNet)      # build the target Q network
        self.gamma = 0.99                   # discount factor
        self.buffer = ReplayBuffer(10000)
        self.buffer_sample = 1024           # the batch size for training is 1024

        self.lossRecord = []


    def get_action(self, state, action_size, epsilon=0.01):
        # choose the epsilon-greedy action
        state = torch.as_tensor(state, dtype=torch.float)
        with torch.no_grad():
            QValue = self.qNet(state)
        _, act_max = torch.max(QValue, dim=0)
        act = act_max.item() if np.random.rand() > epsilon else np.random.randint(action_size)
        return act

    # store transitions in replay buffer
    def store_transition(self, *transition):
        self.buffer.store(transition)

    # train the Q network
    def learn(self):
        state, action, reward, next_state, done = self.buffer.sample(self.buffer_sample)
        # convert the numpy to torch
        state_tensor = torch.as_tensor(state, dtype=torch.float)
        action_tensor = torch.as_tensor(action, dtype=torch.long)
        reward_tensor = torch.as_tensor(reward, dtype=torch.float)
        next_state_tensor = torch.as_tensor(next_state, dtype=torch.float)
        done_tensor = torch.as_tensor(done, dtype=torch.float)

        predictQ = self.qNet(state_tensor)
        # choose the Q value which is corresponding to the actual action
        q_tensor = predictQ.gather(1, action_tensor.unsqueeze(1)).squeeze(1)

        # calculate the target Q value
        predict_nextQ = self.targetQNet(next_state_tensor)
        predict_next_maxQ, _ = predict_nextQ.max(dim=1)
        targetQ = reward_tensor + (1. - done_tensor) * self.gamma * predict_next_maxQ

        loss = self.loss(targetQ, q_tensor)     # calculate the loss value
        self.lossRecord.append(loss)        # record the loss function
        # three steps for gradient descend
        self.opitimizer.zero_grad()
        loss.backward()
        self.opitimizer.step()

    # update the target network
    def update_target_network(self):
        self.targetQNet = copy.deepcopy(self.qNet)

    # save the Q network model
    def save_model(self, path):
        torch.save(self.qNet.state_dict(), path)

    # load the Q network model
    def load_model(self, path):
        model = torch.load(path)
        self.qNet.load_state_dict(model)

    # draw the training loss curve
    def draw_loss(self):
        plt.figure(1)
        plt.plot(range(len(self.lossRecord)), self.lossRecord)
        plt.xlabel('Training episodes')
        plt.ylabel('loss')
        plt.title('Loss curve during {} training episodes'.format(len(self.lossRecord)))
        plt.savefig('./loss_curve_{}.jpg'.format(len(self.lossRecord)))

if __name__ == '__main__':
    ENV_NAME = "CartPole-v0"
    # show some important messages
    logging.basicConfig(level=logging.DEBUG,
                        format='%(asctime)s [%(levelname)s] %(message)s',
                        stream=sys.stdout, datefmt='%H:%M:%S')
    episodes = 7000
    env = gym.make(ENV_NAME)
    # set random seeds to ensure that the result can be reproduced
    env.seed(0)
    np.random.seed(0)
    torch.manual_seed(0)
    # get the state size and action size of the environment.
    env_state_size, env_action_size = env.observation_space.shape[0], env.action_space.n
    # creat a agent
    agent = DQNagent(env_state_size, env_action_size)
    retList = []
    for i in range(episodes):
        # reset crucial variables
        obs, done, return_aEpisode, steps = env.reset(), False, 0, 0
        while not done:
            action = agent.get_action(obs, env_action_size)     # epsilon-greedy policy.
            obs_new, reward, done, _ = env.step(action)         # interact with the environment
            agent.store_transition(obs, action, reward, obs_new, done)  # collect a transition
            obs = obs_new                                       # update the observation
            return_aEpisode += reward                           # record the return
            steps += 1                                          # record the step
        # if transitions are enough, we begin to update the Q network
        if agent.buffer.valid_count > 0.9 * agent.buffer.capacity:
            agent.learn()
            # update the target Q network every 100 episodes
            if episodes % 100 == 0:
                agent.update_target_network()
        # print key messages
        logging.debug('train episode %d: reward = %.2f, steps = %d',
                      i, return_aEpisode, steps)
        retList.append(return_aEpisode)
    agent.save_model(path='./DQN_{}_model.pth'.format(episodes))        # save trained model
    agent.draw_loss()                                                   # draw the loss curve

    # draw the accumulated reward (i.e. return)
    plt.figure(2)
    plt.plot(range(len(retList)), retList)
    plt.xlabel('episodes')
    plt.ylabel('reward')
    plt.title('interact with the environment in {} episodes'.format(episodes))
    plt.savefig('./reward_curve_{}.jpg'.format(episodes))

    # show the test results
    logging.info('========= test ===========')
    agent.load_model(path='./DQN_{}_model.pth'.format(episodes))
    retList = []
    for i in range(10):
        obs, done, ret = env.reset(), False, 0
        while not done:
            env.render()
            action = agent.get_action(obs, env_action_size)
            obs, reward, done, _ = env.step(action)
            ret += reward
        logging.debug('test episode %d: reward = %.2f',
                          i, ret)
        retList.append(ret)
    env.close()
    logging.info('average episode reward = %.2f ± %.2f',
                np.mean(retList), np.std(retList))

4. 关于Nature DQN图像输入的处理手段

在2015年发表在nature上的DQN算法是使用图像作为状态输入，使用了卷积神经网络。而这里我写的DQN算法是通过gym的接口拿到的状态，并不涉及到图像理解，这种也称为侵入式算法（就是从仿真器底层拿到了状态数据）。

对于纯图像理解的非侵入式算法，我们来看看DQN是如何做的，这里只重点讲输入图像的预处理（我看了nature的论文，感觉讲得不是很清楚，所以自己找了些资料，重新描述一遍），网络结构可以直接参考nature论文（其实就是用于分类的卷积神经网络结构）

首先为了减少计算量，将原彩色RGB图片变为亮度图，且将 $210 \times160$ 尺寸的图片压缩为 $84 \times 84$ 。此外，还采用了跳帧技术，每隔4帧采2张图片。

然后对于Atari游戏中会出现“闪动”的情况（即有些物体只在偶数帧出现，有些物体只在奇数帧出现，但是他们又实际存在），Nature DQN的做法是两张连续帧的图片逐像素比较取较大值，从而两张连续帧就变为了一帧。不妨记为 $x_i$ 。

最后再考虑到agent计算一个动作的时间大于环境变化一次的时间，且为了和人类公平比较（毕竟人类的反应速度有上限），Nature DQN隔固定帧数才采取一个动作，在这些帧期间，动作恒定不变。

那么Nature DQN的状态输入 $s_t = (x_{t-3}, x_{t-2}, x_{t-1}, x_{t})$ ，即状态输入的维数为 $\times 84 \times 84$ ，然后把它送入到卷积神经网络中。

前面的表述可能有些抽象，看下面的图更加直观。下图中的打叉部分为跳过的帧，而黄色框框柱的为两帧合为一帧的 $x_i$ 部分，那么 $x_1, x_2, x_3, x_4$ 堆叠到一起就组成了状态 $s_4$ ，然后通过DQN网络计算得到动作 $a_4$ ，接下来的四帧采用动作 $a_4$ 进行环境交互，然后我们能得到 $x_5$ ，而 $x_2, x_3, x_4, x_5$ 堆叠到一起就组成了状态 $s_5$ ，如此往复下去。

图片来源：
https://danieltakeshi.github.io/2016/11/25/frame-skipping-and-preprocessing-for-deep-q-networks-on-atari-2600-games/

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
Java面试题：解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用，Java中的多线程是如何实现的，Java垃圾回收机制的基本原理，并讨论常见的垃圾回收算法杰哥在此 Java系列 java jvm 算法面试
Java内存模型与多线程的深入探讨在Java的世界里，内存模型和多线程是开发者必须掌握的核心知识点。它们不仅关系到程序的性能和稳定性，还直接影响到系统的可扩展性和可靠性。下面，我将通过三个面试题，带领大家深入理解Java内存模型、多线程以及并发编程的相关原理和实践。面试题一：请解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用。关注点：JVM内存结构的基本组成堆、栈、方法区的功能和
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

100余行代码带你入门强化学习DQN算法