RosebudTT

强化学习之DQN（附莫烦代码）

1.简介

想象用Q-learning 电子游戏的每一帧来学习电子游戏，每个图片就可以是一种状态，游戏中的角色又可以有多种动作(上下左右，下蹲跳跃等等)。如果用Q表来记录每一个动作所对应的状态，那么这张Q表将大到无法想象。DQN不用Q表记录Q值，而是用神经网络来预测Q值，并通过不断更新神经网络从而学习到最优的行动路径。

深度 Q 网络（DQN）是将 Q learning 和卷积神经网络（CNN）结合在一起

Off-policy是Q-Learning的特点，DQN中也延用了这一特点。而不同的是，Q-Learning中用来计算target和预测值的Q是同一个Q，也就是说使用了相同的神经网络。这样带来的一个问题就是，每次更新神经网络的时候，target也都会更新，这样会容易导致参数不收敛。回忆在有监督学习中，标签label都是固定的，不会随着参数的更新而改变。

因此DQN在原来的Q网络的基础上又引入了一个target Q网络，即用来计算target的网络。它和Q网络结构一样，初始的权重也一样，只是Q网络每次迭代都会更新，而target Q网络是每隔一段时间才会更新。DQN的target是 Rt+1+γmaxa′Q(St+1,a′;ω−)。用 ω−表示它比Q网络的权重 ω更新得要慢一些。在训练神经网络参数时用到的损失函数(Loss function)，实际上就是q_target 减 q_eval的结果 (loss = q_target- q_eval )

反向传播真正训练的网络是只有一个，就是eval_net。target_net 只做正向传播得到q_target (q_target = r +γ*max Q(s,a)). 其中 Q(s,a)是若干个经过target-net正向传播的结果。

相比于Q-Learning，DQN做的改进：一个是使用了卷积神经网络来逼近行为值函数，一个是使用了target Q network来更新target，还有一个是使用了经验回放Experience replay。由于在强化学习中，我们得到的观测数据是有序的，step by step的，用这样的数据去更新神经网络的参数会有问题。回忆在有监督学习中，数据之间都是独立的。因此DQN中使用经验回放，即用一个Memory来存储经历过的数据，每次更新参数的时候从Memory中抽取一部分的数据来用于更新，以此来打破数据间的关联。

首先初始化Memory D，它的容量为N;
初始化Q网络，随机生成权重ω;
初始化target Q网络，权重为ω−=ω;
循环遍历episode =1, 2, …, M:
初始化initial state S1;
循环遍历step =1,2,…, T:
- 用ϵ−greedy策略生成action at：以ϵ概率选择一个随机的action，或选择at=maxaQ(St,a;ω)；
- 执行action at，接收reward rt及新的state St+1;
- 将transition样本 (St,at,rt,St+1)存入D中；
- 从D中随机抽取一个minibatch的transitions(Sj,aj,rj,Sj+1)；
- 令yj=rj，如果 j+1步是terminal的话，否则，令 yj=rj+γmaxa′Q(St+1,a′;ω−)；
- 对(yj−Q(St,aj;ω))2关于ω使用梯度下降法进行更新；
- 每隔C steps更新target Q网络，ω−=ω。
End For;
End For.

2.代码展示

（1）这里利用 Scipy 的 imresize 函数来下采样图像。函数 preprocess 会在将图像输入到 DQN 之前，对图像进行预处理：

def preprocess(img):
    img_temp=img[31:195]   #choose the important area of the image
    img_temp=img_temp.mean(axis=2)   #convert to Grayscale
    #downsample image
    img_temp=imresize(img_temp,size=(IM_SIZE,IM_SIZE),interp='nearest')
    return img_temp

IM_SIZE 是一个全局参数，这里设置为 80。该函数具有描述每个步骤的注释。下面是预处理前后的观测空间：

考虑四个动作和观测序列来确定当前情况并训练智能体。update_state 函数用来将当前观测状态附加到以前的状态，从而产生状态序列：

def update_state(state,obs):
    obs_small=preprocess(obs)
    return np.append(state[1:],np.expand_dims(obs_small,0),axis=0)

（2）导入必要的模块。使用 sys 模块的 stdout.flush() 来刷新标准输出（此例中是计算机屏幕）中的数据。random 模块用于从经验回放缓存（存储过去经验的缓存）中获得随机样本。datatime 模块用于记录训练花费的时间：

定义训练的超参数，可以尝试改变它们，定义了经验回放缓存的最小和最大尺寸，以及目标网络更新的次数：

定义 DQN 类，构造器使用 tf.contrib.layers.conv2d 函数构建 CNN 网络，定义损失和训练操作：

类中用 set_session() 函数建立会话，用 predict() 预测动作值函数，用 update() 更新网络，在 sample_action() 函数中用 Epsilon 贪婪算法选择动作：

另外还定义了加载和保存网络的方法，因为训练需要消耗大量时间：

定义将主 DQN 网络的参数复制到目标网络的方法如下：

定义函数 learn()，预测价值函数并更新原始的 DQN 网络：

现在已经在主代码中定义了所有要素，下面构建和训练一个 DQN 网络来玩 Atari 的游戏。代码中有详细的注释，这主要是之前 Q learning 代码的一个扩展，增加了经验回放缓存：

下图是每 100 次运行的平均奖励，更清晰地展示了奖励的提高：

这只是在前 500 次运行后的训练结果。要想获得更好的结果，需要训练更多次，大约 1 万次。训练智能体需要运行很多次游戏，消耗大量的时间和内存。OpenAI Gym 提供了一个封装，将游戏保存为一个视频，因此，无须 render 函数，你可以使用这个封装来保存视频并在以后查看智能体是如何学习的。AI 工程师和爱好者可以上传这些视频来展示他们的结果。

莫烦代码

神经网络的搭建
为了使用 Tensorflow 来实现 DQN, 比较推荐的方式是搭建两个神经网络, target_net 用于预测 q_target 值, 他不会及时更新参数,eval_net 用于预测 q_eval, 这个神经网络拥有最新的神经网络参数. 不过这两个神经网络结构是完全一样的, 只是里面的参数不一样。两个神经网络是为了固定住一个神经网络 (target_net) 的参数, target_net 是 eval_net 的一个历史版本, 拥有 eval_net 很久之前的一组参数, 而且这组参数被固定一段时间, 然后再被 eval_net 的新参数所替换. 而 eval_net 是不断在被提升的, 所以是一个可以被训练的网络 trainable=True. 而 target_net 的 trainable=False。

class DeepQNetwork:
    def _build_net(self):
        # ------------------ build evaluate_net ------------------
        self.s = tf.placeholder(tf.float32, [None, self.n_features], name='s')  # input
        self.q_target = tf.placeholder(tf.float32, [None, self.n_actions], name='Q_target')  # for calculating loss
        with tf.variable_scope('eval_net'):
            # c_names(collections_names) are the collections to store variables
            c_names, n_l1, w_initializer, b_initializer = \
                ['eval_net_params', tf.GraphKeys.GLOBAL_VARIABLES], 10, \
                tf.random_normal_initializer(0., 0.3), tf.constant_initializer(0.1)  # config of layers

            # first layer. collections is used later when assign to target net
            with tf.variable_scope('l1'):
                w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)
                b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)
                l1 = tf.nn.relu(tf.matmul(self.s, w1) + b1)

            # second layer. collections is used later when assign to target net
            with tf.variable_scope('l2'):
                w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                self.q_eval = tf.matmul(l1, w2) + b2

        with tf.variable_scope('loss'):
            self.loss = tf.reduce_mean(tf.squared_difference(self.q_target, self.q_eval))
        with tf.variable_scope('train'):
            self._train_op = tf.train.RMSPropOptimizer(self.lr).minimize(self.loss)

        # ------------------ build target_net ------------------
        self.s_ = tf.placeholder(tf.float32, [None, self.n_features], name='s_')    # input
        with tf.variable_scope('target_net'):
            # c_names(collections_names) are the collections to store variables
            c_names = ['target_net_params', tf.GraphKeys.GLOBAL_VARIABLES]

            # first layer. collections is used later when assign to target net
            with tf.variable_scope('l1'):
                w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)
                b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)
                l1 = tf.nn.relu(tf.matmul(self.s_, w1) + b1)

            # second layer. collections is used later when assign to target net
            with tf.variable_scope('l2'):
                w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                self.q_next = tf.matmul(l1, w2) + b2

2.思维决策的过程
定义完上次的神经网络部分以后, 这次来定义其他部分，首先是函数值的初始化。

class DeepQNetwork:
    def __init__(
            self,
            n_actions,
            n_features,
            learning_rate=0.01,
            reward_decay=0.9,
            e_greedy=0.9,
            replace_target_iter=300,
            memory_size=500,
            batch_size=32,
            e_greedy_increment=None,
            output_graph=False,
    ):
        self.n_actions = n_actions
        self.n_features = n_features
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon_max = e_greedy  # epsilon 的最大值
        self.replace_target_iter = replace_target_iter    # 更换 target_net 的步数
        self.memory_size = memory_size    # 记忆上限
        self.batch_size = batch_size       # 每次更新时从 memory 里面取多少记忆出来
        self.epsilon_increment = e_greedy_increment   # epsilon 的增量
        self.epsilon = 0 if e_greedy_increment is not None else self.epsilon_max     # 是否开启探索模式, 并逐步减少探索次数

        # total learning step
        self.learn_step_counter = 0

        # initialize zero memory [s, a, r, s_]
        self.memory = np.zeros((self.memory_size, n_features * 2 + 2))

        # consist of [target_net, evaluate_net]
        self._build_net()
        t_params = tf.get_collection('target_net_params')  # 提取 target_net 的参数
        e_params = tf.get_collection('eval_net_params')    # 提取  eval_net 的参数
        self.replace_target_op = [tf.assign(t, e) for t, e in zip(t_params, e_params)]

        self.sess = tf.Session()

        if output_graph:
            # $ tensorboard --logdir=logs
            # tf.train.SummaryWriter soon be deprecated, use following
            tf.summary.FileWriter("logs/", self.sess.graph)

        self.sess.run(tf.global_variables_initializer())
        self.cost_his = []   # 记录所有 cost 变化, 用于最后 plot 出来观看

记忆存储，DQN 的精髓部分之一: 记录下所有经历过的步, 这些步可以进行反复的学习, 所以是一种 off-policy 方法

class DeepQNetwork:
    def store_transition(self, s, a, r, s_):
        if not hasattr(self, 'memory_counter'):
            self.memory_counter = 0

        transition = np.hstack((s, [a, r], s_))

        # replace the old memory with new memory
        index = self.memory_counter % self.memory_size
        self.memory[index, :] = transition

        self.memory_counter += 1

行为选择，让 eval_net 神经网络生成所有 action 的值, 并选择值最大的 action；学习过程就是在 DeepQNetwork 中, 是如何学习, 更新参数的. 这里涉及了 target_net 和 eval_net 的交互使用，这是非常重要的一步。

class DeepQNetwork:
    def choose_action(self, observation):
        # to have batch dimension when feed into tf placeholder
        observation = observation[np.newaxis, :]

        if np.random.uniform() < self.epsilon:
            # forward feed the observation and get q value for every actions
            actions_value = self.sess.run(self.q_eval, feed_dict={self.s: observation})
            action = np.argmax(actions_value)
        else:
            action = np.random.randint(0, self.n_actions)
        return action

    def learn(self):
        # check to replace target parameters
        if self.learn_step_counter % self.replace_target_iter == 0:
            self.sess.run(self.replace_target_op)
            print('\ntarget_params_replaced\n')

        # sample batch memory from all memory
        if self.memory_counter > self.memory_size:
            sample_index = np.random.choice(self.memory_size, size=self.batch_size)
        else:
            sample_index = np.random.choice(self.memory_counter, size=self.batch_size)
        batch_memory = self.memory[sample_index, :]

         # 获取 q_next (target_net 产生了 q) 和 q_eval(eval_net 产生的 q)
        q_next, q_eval = self.sess.run(
            [self.q_next, self.q_eval],
            feed_dict={
                self.s_: batch_memory[:, -self.n_features:],  # fixed params
                self.s: batch_memory[:, :self.n_features],  # newest params
            })

        # 下面这几步十分重要. q_next, q_eval 包含所有 action 的值,
        # 而我们需要的只是已经选择好的 action 的值, 其他的并不需要.
        # 所以我们将其他的 action 值全变成 0, 将用到的 action 误差值 反向传递回去, 作为更新凭据.
        # 这是我们最终要达到的样子, 比如 q_target - q_eval = [1, 0, 0] - [-1, 0, 0] = [2, 0, 0]
        # q_eval = [-1, 0, 0] 表示这一个记忆中有我选用过 action 0, 而 action 0 带来的 Q(s, a0) = -1, 所以其他的 Q(s, a1) = Q(s, a2) = 0.
        # q_target = [1, 0, 0] 表示这个记忆中的 r+gamma*maxQ(s_) = 1, 而且不管在 s_ 上我们取了哪个 action,
        # 我们都需要对应上 q_eval 中的 action 位置, 所以就将 1 放在了 action 0 的位置.

        # 下面是为了达到上面说的目的, 不过为了更方面让程序运算, 达到目的的过程有点不同.
        # 是将 q_eval 全部赋值给 q_target, 这时 q_target-q_eval 全为 0,
        # 不过 我们再根据 batch_memory 当中的 action 这个 column 来给 q_target 中的对应的 memory-action 位置来修改赋值.
        # 使新的赋值为 reward + gamma * maxQ(s_), 这样 q_target-q_eval 就可以变成我们所需的样子.
        # change q_target w.r.t q_eval's action
        q_target = q_eval.copy()

        batch_index = np.arange(self.batch_size, dtype=np.int32)
        eval_act_index = batch_memory[:, self.n_features].astype(int)
        reward = batch_memory[:, self.n_features + 1]

        q_target[batch_index, eval_act_index] = reward + self.gamma * np.max(q_next, axis=1)

        # train eval network
        _, self.cost = self.sess.run([self._train_op, self.loss],
                                     feed_dict={self.s: batch_memory[:, :self.n_features],
                                                self.q_target: q_target})
        self.cost_his.append(self.cost)

        # increasing epsilon
        self.epsilon = self.epsilon + self.epsilon_increment if self.epsilon < self.epsilon_max else self.epsilon_max
        self.learn_step_counter += 1

3.交互过程
DQN 与环境交互的过程总体与Q-Learning一致，仅仅增加了记忆存储的过程，这与前边提到的 “Q-Leaning 方法基于当前策略进行交互和改进，每一次模型利用交互生成的数据进行学习，学习后的样本被直接丢弃” 是一致的。

from maze_env import Maze
from RL_brain import DeepQNetwork

def run_maze():
    step = 0
    for episode in range(1000):
        # initial observation
        observation = env.reset()

        while True:
            # fresh env
            env.render()

            # RL choose action based on observation
            action = RL.choose_action(observation)

            # RL take action and get next observation and reward
            observation_, reward, done = env.step(action)

            RL.store_transition(observation, action, reward, observation_)

            if (step > 200) and (step % 5 == 0):
                RL.learn()

            # swap observation
            observation = observation_

            # break while loop when end of this episode
            if done:
                break
            step += 1

    # end of game
    print('game over')
    env.destroy()


if __name__ == "__main__":
    # maze game
    env = Maze()
    RL = DeepQNetwork(env.n_actions, env.n_features,
                      learning_rate=0.01,
                      reward_decay=0.9,
                      e_greedy=0.9,
                      replace_target_iter=200,
                      memory_size=20000,
                      output_graph=True
                      )
    env.after(100, run_maze)
    env.mainloop()
    RL.plot_cost()

最后表示对莫烦的感谢！！

Java网络编程逆风局？ java 网络服务器
基本的通信架构1.CS架构（Client客户端/Server服务端）Client客户端：需要程序员开发客户端软件需要用户下载安装客户端软件Server服务端：需要程序员开发服务端程序BS架构（Browser浏览器/Server服务端）。Browser浏览器不需要程序员开发需要用户下载安装浏览器Server服务端需要程序员开发服务端程序网络通信三要素IP地址设备在网络中的地址，是设备在网络中的唯一标
前端——Html+CSS 逆风局？ css 前端 html5
目录CSS引入方式颜色表达方式CSS选择器去掉超链接的下划线路径表示行高和首行缩进常见标签布局标签flex布局表单标签表单项标签改变鼠标指针的样式表格标签div{box-sizing:border-box;}CSS引入方式具体有3种引入方式，语法如下表格所示：名称语法描述示例行内样式在标签内使用style属性，属性值是css属性键值对。中国新闻网内部样式定义标签，在标签内部定义css样式。h1{.
数据结构——算法基础小禾苗_ 数据结构
1、概念算法(Algorithm)用来描述对特定问题的求解步骤，它是指令的有限序列，其中每一条指令代表一个或多个操作算法的概念在计算机科学领域中几乎无处不在，在各种计算机系统的实现中，算法的设计往往处于核心的位置。计算机的问世是20世纪算法是计算机科学的重要基础，就像算盘一样，人们需要为计算机编制各种各样的“口诀”即算法，才能使其工作软件(项目)=程序+文档程序=数据结构+算法软件(项目)=数据结
Vue.js 深度剖析：2024 前端高频面试题详解跟着小郑学前端前端 vue.js javascript
Vue.js深度剖析：2024前端高频面试题详解1.Vue的响应式原理是什么？2.Vue组件通信方式有哪些？3.Vue的生命周期是什么？4.如何优化Vue应用性能？5.什么是Vue的CompositionAPI？6.什么是Vue的VirtualDOM？7.Vuex与Pinia的区别是什么？1.Vue的响应式原理是什么？答：Vue的响应式系统基于数据劫持和发布-订阅模式。数据劫持：Vue2使用Obj
掌握 JavaScript：从基础到高级，全面提升编程技能跟着小郑学前端 javascript 开发语言 ecmascript
JavaScript是一种广泛应用于网页开发的编程语言，它使网页具有动态交互的能力。作为Web开发的核心技术之一，掌握JavaScript基础是每位开发者的必备技能。本文将介绍JavaScript的基础知识，包括数据类型、运算符、控制结构、函数等内容，并通过代码示例帮助大家理解。1.JavaScript数据类型JavaScript主要有以下几种数据类型：数据类型描述示例String字符串类型，用于
《Python期末备考全攻略：高分秘籍与实用技巧大合集！》跟着小郑学前端 python windows 开发语言数据结构
《Python期末备考全攻略：高分秘籍与实用技巧大合集！》1Python基础语法1.1变量与数据类型1.2条件语句1.3循环语句2.常见数据结构2.1列表2.2元组2.3字典2.4集合3.函数与模块3.1自定义函数3.2匿名函数（lambda）3.3标准库与第三方库4.文件操作4.1文件读写操作5.面向对象编程5.1类与对象5.2继承与多态6.综合练习题与答案1Python基础语法1.1变量与数据
Vue-Router路由动态缓存组件(keep-alive)，vue2/vue3不同写法码喽的自我修养 vue2/3 从基础到起飞 vue.js 前端 javascript 缓存 vue 前端框架 AI编程
个人简介：某大型国企资深软件开发工程师，信息系统项目管理师、CSDN优质创作者、阿里云专家博主、华为云云享专家，分享前端后端相关技术与工作常见问题~作者：码喽的自我修养❣️专栏：vue2/3从基础到起飞若有帮助，还请关注➕点赞➕收藏，不行的话我再努努力文章目录一、简介它的主要作用是缓存不活动的组件实例，而不是销毁它们。基本用法生命周期钩子二、定义是否缓存组件三、缓存组件相关配置1.通过:inclu
python 实现RGB和HSV相互转换算法 luthane python 算法开发语言
RGB和HSV相互转换算法介绍RGB和HSV之间的相互转换算法可以通过一系列的数学计算来实现。以下是对这两种色彩空间之间转换的基本算法的概述：RGB到HSV的转换1、归一化RGB值：首先，将RGB值从范围[0,255]归一化到[0,1]。这可以通过将每个颜色分量除以255来实现。2、计算明度V：明度V可以通过取RGB三个分量中的最大值来计算。即：[V=max⁡(R,G,B)][V=\max(R,G
使用 JUnit 和 SuiteRunner 测试私有方法肉三 Java junit log4j java
我第一次使用JUnit是为了为ServiceUIAPI构建一个一致性测试工具包[1]。一致性测试工具包的目的是帮助确保同一API的替代实现与API的规范兼容。由于API规范仅定义API的公共接口，而不是API的实现，因此一致性测试仅测试公共接口。换句话说，一致性测试是一种“黑盒”测试。它将测试中的API视为黑盒，可以看到其外部接口，但看不到其内部实现。因此，JavaAPI的一致性测试只需要访问测试
模型压缩与优化技术——神经架构搜索（Neural Architecture Search, NAS） DuHz 轻量化模型机器学习计算机视觉人工智能神经网络深度学习数据挖掘语音识别
模型压缩与优化技术中的神经架构搜索（NeuralArchitectureSearch,NAS）技术1.引言在深度学习领域，神经网络的架构设计对模型的性能至关重要。传统的手动设计网络架构的过程费时费力，且通常依赖于经验和直觉。为了提升效率与效果，神经架构搜索（NeuralArchitectureSearch,NAS）作为一种自动化的方法，能够通过算法寻找和优化最佳的神经网络架构。NAS可以在图像识别
【CUDA-BEVFusion】tool/build_trt_engine.sh 文件解读 old_power 计算机视觉计算机视觉深度学习
build_trt_engine.sh#configuretheenvironment.tool/environment.shif["$ConfigurationStatus"!="Success"];thenecho"Exitduetoconfigurefailure."exitfi#tensorrtversion#version=`trtexec|grep-m1TensorRT|sed-n"s
PID控制的优势与LabVIEW应用 LabVIEW开发 LabVIEW知识 labview 算法
PID控制（比例-积分-微分控制）已在工业控制领域得到广泛应用，尤其在实时控制和自动化系统中，其核心优点是简单、稳定且高效。尽管许多现代控制方法（如自适应控制、模型预测控制等）逐渐崭露头角，PID控制依然保持着无可替代的地位。以下是PID控制长期无法被取代的根本原因，并结合LabVIEW在PID控制中的应用进行详细探讨。1.PID控制长期无法取代的原因1.1控制目标的简单性与稳定性PID控制能够在
Element修改表格结构样式集合（后续实时更新）白嫖叫上我 element-ui vue.js elementui 前端
场景修改前端Element组件el-table样式实现线表格-->-->执行-->轨迹轨迹-->.guiji-pop{height:100%;width:100%;.tablepro{width:100%;height:calc(100%-0.82rem);margin-top:0.16rem;::v-deep.el-table__body-wrapper{height:calc(100%-0.4
《CMake实践》笔记三：构建静态库(.a) 与动态库(.so) 及如何使用外部共享库和头文件【转】... 嵌入式小庄老师 c++开发语言
本文转载自：五、静态库与动态库构建读者云，太能罗唆了，一个HelloWorld就折腾了两个大节。OK，从本节开始，我们不再折腾HelloWorld了，我们来折腾HelloWorld的共享库。本节的任务：１、建立一个静态库和动态库，提供HelloFunc函数供其他程序编程使用，HelloFunc向终端输出HelloWorld字符串。２、安装头文件与共享库。(一)、准备工作：在/backup/cmak
大麦云电脑，大麦云电脑的优势
随着5G技术的快速发展和广泛应用，云电脑迎来了前所未有的发展机遇。5G的高速率、低时延特性，为云电脑的流畅运行提供了更加稳定和快速的网络支持，使得云电脑在高清视频播放、大型游戏运行、实时在线办公等方面的用户体验得到了极大的提升，云电脑有望在未来成为人们数字生活的主流选择之一。今天小编将带大麦云电脑的优势。大麦云电脑的优势包括：1.高性能计算资源：大麦云电脑提供云端的高性能计算能力，允许用户在几乎任
基于django+vue高校实验室预约系统【开题报告+程序+论文】-计算机毕设煜文学长_毕设 django vue.js 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着高等教育的快速发展，高校实验室作为实践教学与科研活动的重要基地，其利用率与管理效率直接关系到教学质量与科研成果的输出。然而，传统的手工预约和管理方式已难以满足日益增长的实验室使用需求，存在信息不对称、预约流程繁琐、资源分配不均等问题。因此，开发一套高效、便捷、
sql：字符集（ASCII、GB2312、GBK、Unicode和UTF）、Mysql字符集（查看默认字符集和支持的字符集、层次级别、连接字符集、JDBC对连接字符集的影响） shanshandeisu sql mysql 数据库
仅为个人学习所用。请支持javaGuide原文。1.字符集1.1.ASCIIASCII字符集是一套现代美国英语适用的字符集，至今为止共定义了128个字符，其中有33个控制字符（比如回车、删除）无法显示。一个ASCII码长度是一个字节也就是8个bit。不过最高位是0仅仅作为校验位，其余7位使用0和1进行组合，所以，ASCII字符集可以定义128（2^7）个字符。1.2.GB2312GB2312字符集
数据结构与算法：动态规划dp：理论基础和相关力扣题（509.斐波那契数列、70.爬楼梯、62. 不同路径、63.不同路径Ⅱ、343.整数拆分） shanshandeisu 数据结构与算法 LeetCode 动态规划 leetcode 算法 dp 力扣数据结构
1.0.理论基础动态规划主要解决的问题种类有：背包问题打家劫舍股票问题子序列问题解决步骤：dp数组及其下标的意义递推公式dp数组初始化遍历顺序打印dp数组2.0.相关力扣题509.斐波那契数列classSolution:deffib(self,n:int)->int:ifn==0:return0ifn==1:return1dp=[0]*35dp[1]=1foriinrange(2,31):dp[i
【YashanDB知识库】YCM数据库托管遇到的问题数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7281308.html?templateId=171...YCM托管了集群，现在显示数据库处于故障状态，按照告警项建议检查实例的状态是正常运行的问题现象：查看dba\_users视图发现yasom用户不存在。问题原因：YCM运维工具是通过yasdb中的yasom用户进行数据库管理的，
字节启动AGI长期研究计划，代号Seed Edge 量子位字节跳动
1月23日，据媒体报道，字节豆包大模型团队已在内部组建AGI长期研究团队，代号“SeedEdge”，鼓励项目成员探索更长周期、具有不确定性和大胆的AGI研究课题。接近字节的知情人士透露，SeedEdge的目标是探索AGI的新方法，代号名中Seed是豆包大模型团队名称，Edge代表最前沿的AGI探索。SeedEdge鼓励跨模态、跨团队合作，为项目成员提供宽松的研究环境，实行采用更长周期的考核方式，以
时序数据库 TDengine 与上海电气工业互联网平台完成兼容性认证 tdengine数据库
在工业数字化转型和智能化升级的浪潮中，企业对高效、可靠的数据管理解决方案的需求日益增长。特别是在风电智能运维、火电远程运维、机床售后服务等复杂多样的工业场景下，如何实现海量设备和时序数据的高效管理，已经成为推动行业升级的关键。近日，北京涛思数据科技有限公司与上海电气集团数字科技有限公司（下称“上海电气”）共同完成了产品兼容性验证。“星云智汇”工业互联网企业级平台V1.0与TDengineEnter
程序员这辈子| 还有5天到2025年，说点掏心窝的话~ 前端后端程序员
1.不要追求完美，专注于成长作为一名程序员，初入职场时总想着把每一行代码都写得完美无缺，生怕出错。其实，真正重要的是不断地学习和成长。不要担心犯错，那是成长的必经之路。每一个Bug都是你前进的一步。#这是一个模拟简单的Bug修复过程的代码defdivide(a,b):try:returna/bexceptZeroDivisionError:print("Error:Divisionbyzerois
cpp智能指针 xianwu543 c++开发语言网络 mysql 数据库
普通指针的不足new和new[]的内存需要用delete和deletel]释放。程序员的主观失误，忘了或漏了释放。程序员也不确定何时释放。普通指针的释放类内的指针，在析构函数中释放。C++内置数据类型，如何释放?new出来的类，本身如何释放?C++11新增三个智能指针类型unique_ptrshared_ptrweak_ptr一、智能指针unique_ptrunique_ptr独享它指向的对象，也
反向代理模块1 xianwu543 mysql 数据库 python django c++
1概念1.1反向代理概念反向代理是指以代理服务器来接收客户端的请求，然后将请求转发给内部网络上的服务器，将从服务器上得到的结果返回给客户端，此时代理服务器对外表现为一个反向代理服务器。对于客户端来说，反向代理就相当于目标服务器，只需要将反向代理当作目标服务器一样发送请求就可以了，并且客户端不需要进行任何设置。1.2特点反向代理是代理服务器，为服务器收发请求，使真实服务器对客户端不可见。原文链接：h
Java Lambda 表达式详解及其用法 —— 含集合操作示例情书 java
JavaLambda表达式详解及其用法——含集合操作示例Lambda表达式自Java8引入以来，大大简化了代码的书写，特别是在集合操作和流处理（StreamAPI）方面。本文将详细介绍Lambda表达式的概念、使用方法及其在集合中的应用，并结合示例说明如何使用Lambda表达式进行集合的转换和处理。1.什么是Lambda表达式？Lambda表达式是一种可以把函数作为参数的简洁表达方式，主要用于替代
【云原生技术】k8s是不是不能处理0.1core的CUP配置，必须配置成100mi？阿寻寻云原生 kubernetes 容器
CPU的资源请求和限制特定的表示方式CPU配置的单位配置要求示例在Kubernetes中，CPU的资源请求和限制确实有特定的表示方式。关于你提到的0.1core和100m这两个值，以下是详细的解释：CPU配置的单位KubernetesCPU单位：Kubernetes使用milliCPU（毫核）作为CPU的计量单位。1核CPU=1000milliCPU(m)。例如，0.1核实际上表示为100m（10
【云原生技术】K8S更新策略有哪些方式，每种方式的可选必填字段有哪些，详细举例说明阿寻寻云原生 kubernetes 容器
更新策略有哪些方式一、更新策略详细举例1.**RollingUpdate（滚动更新）**说明：必填字段：可选字段：示例：2.**Recreate（重建）**说明：必填字段：可选字段：示例：3.**OnDelete（手动更新）**说明：必填字段：可选字段：示例：总结详细示例小结二、Recreate不可选minReadySeconds吗？Recreate更新策略与minReadySeconds示例总结
【软件测试】- 常用的10种测试环境、测试方法、测试工具简介阿寻寻软件测试大厂软件测试面试题测试工具
常用测试环境1.本地开发环境（LocalDevelopmentEnvironment/LDE）2.单元测试环境（UnitTestingEnvironment/UTE）3.集成测试环境（IntegrationTestingEnvironment/ITE）4.系统测试环境（SystemTestingEnvironment/STE）5.用户验收测试（UAT）环境（UserAcceptanceTestin
【软件开发/设计】需求文档模板阿寻寻软件开发/设计团队开发
需求文档模板一、需求文档模板1.文档信息2.项目概述3.范围定义4.需求详情4.1功能需求4.2非功能需求4.3用户界面和用户体验4.4数据管理4.5业务规则和逻辑5.项目里程碑和交付物6.假设和依赖7.风险评估8.附录9.审核和批准二、需求文档编写人员1、业务分析师2、产品经理3、项目经理4、跨职能团队协作5、总结创建一个高质量的需求文档对于确保项目成功至关重要。以下是一个需求文档的模板，可以帮
【揭秘】图像算法工程师岗位如何进入？认识祂人工智能算法图像算法工程师
“图像算法工程师，主要专注于开发图像处理和计算机视觉算法，广泛应用于各行业。本文，我们来揭秘一下他们的日常工作，以及如何成为这一领域的专业人才。”01图像算法工程师的日常工作算法设计与开发图像算法工程师的核心任务是设计和开发算法，以解决特定的图像处理或计算机视觉问题。常见的任务包括：图像分类：使用卷积神经网络（CNN）对图像进行分类，常见算法如ResNet、VGG。目标检测：在图像中定位并标注物体
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

强化学习之DQN（附莫烦代码）

1.简介

2.代码展示

莫烦代码

你可能感兴趣的:(（1）强化学习)