weixin_34321753

【转】【强化学习】Deep Q Network(DQN)算法详解

原文地址：https://blog.csdn.net/qq_30615903/article/details/80744083

DQN（Deep Q-Learning）是将深度学习deeplearning与强化学习reinforcementlearning相结合，实现了从感知到动作的端到端的革命性算法。使用DQN玩游戏的话简直6的飞起，其中fladdy bird这个游戏就已经被DQN玩坏了。当我们的Q-table他过于庞大无法建立的话，使用DQN是一种很好的选择

1、算法思想

DQN与Qleanring类似都是基于值迭代的算法，但是在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不动作空间和状态太大十分困难。

所以在此处可以把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。因此我们可以想到深度神经网络对复杂特征的提取有很好效果，所以可以将DeepLearning与Reinforcement Learning结合。这就成为了DQN

DL与RL结合存在以下问题：

DL是监督学习需要学习训练集，强化学习不需要训练集只通过环境进行返回奖励值reward，同时也存在着噪声和延迟的问题，所以存在很多状态state的reward值都是0也就是样本稀疏
DL每个样本之间互相独立，而RL当前状态的状态值是依赖后面的状态返回值的。
当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题

DQN中的两大利器解决了以上问题

通过Q-Learning使用reward来构造标签
通过experience replay（经验池）的方法来解决相关性及非静态分布问题
使用一个MainNet产生当前Q值，使用另外一个Target产生Target Q

2、experience replay 经验池

经验池DQN中的记忆库用来学习之前的经历，又因为Q learning 是一种 off-policy 离线学习法, 它能学习当前经历着的, 也能学习过去经历过的, 甚至是学习别人的经历，所以在学习过程中随机的加入之前的经验会让神经网络更有效率。

所以经验池解决了相关性及非静态分布问题。他通过在每个timestep下agent与环境交互得到的转移样本 $(s_t,a_t,r_t,s_{t+1})$ 储存到回放记忆网络，要训练时就随机拿出一些（minibatch）来训练因此打乱其中的相关性。

3、Q-target 目标网络

Q-targets的作用其实也是一种打乱相关性的机制，使用Q-targets会使得DQN中出现两个结构完全相同但是参数却不同的网络，预测Q估计的的网络MainNet使用的是最新的参数，而预测Q现实的神经网络TargetNet参数使用的却是很久之前的，$Q(s,a;θ_i)$表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；$Q(s,a;θ^−_i)$ 表示TargetNet的输出，可以解出targetQ并根据LossFunction更新MainNet的参数，每经过一定次数的迭代，将MainNet的参数复制给TargetNet。

引入TargetNet后，再一段时间里目标Q值使保持不变的，一定程度降低了当前Q值和目标Q值的相关性，提高了算法稳定性。

4、算法流程

4.1、前置公式

DQN的更新方式和Qlearning一样，详细的值函数与动作值函数此处不再推导，在Qlearning中有详细讲解不了解的请移步上一篇博客

$$Q(s,a)←Q(s,a)+α[r+γmax_{a′}Q(s′,a′)−Q(s,a)]$$

DQN的损失函数如下 θ表示网络参数为均方误差损失

$$L(θ)=E[(TargetQ−Q(s,a;θ))^2]$$

$$TargetQ=r+γmax_{a′}Q(s′,a′;θ)$$

4.2、算法伪代码

DQN中存在两个结构完全相同但是参数却不同的网络，预测Q估计的网络MainNet使用的是最新的参数，而预测Q现实的神经网络TargetNet参数使用的却是很久之前的， $Q(s,a;θ_i)$表示当前网络MainNet的输出，用来评估当前状态动作对的值函数； $Q(s,a;θ^−_i)$表示TargetNet的输出，可以解出targetQ，因此当agent对环境采取动作a时就可以根据上述公式计算出Q并根据LossFunction更新MainNet的参数，每经过一定次数的迭代，将MainNet的参数复制给TargetNet。这样就完成了一次学习过程

4.3、算法流程图

5、代码实现

根据morvan老师的例子所得

class DeepQNetwork:
    def __init__(
            self,
            n_actions,
            n_features,
            learning_rate=0.01,
            reward_decay=0.9,
            e_greedy=0.9,
            replace_target_iter=300,
            memory_size=500,
            batch_size=32,
            e_greedy_increment=None,
            output_graph=True,
    ):
        self.n_actions = n_actions
        self.n_features = n_features
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon_max = e_greedy
        self.replace_target_iter = replace_target_iter
        self.memory_size = memory_size
        self.batch_size = batch_size
        self.epsilon_increment = e_greedy_increment
        self.epsilon = 0 if e_greedy_increment is not None else self.epsilon_max

        # 统计训练次数
        self.learn_step_counter = 0

        # 初始化记忆 memory [s, a, r, s_]
        self.memory = np.zeros((self.memory_size, n_features * 2 + 2))

        # 有两个网络组成 [target_net, evaluate_net]
        self._build_net()
        t_params = tf.get_collection('target_net_params')
        e_params = tf.get_collection('eval_net_params')
        self.replace_target_op = [tf.assign(t, e) for t, e in zip(t_params, e_params)]

        self.sess = tf.Session()

        if output_graph:
            # 开启tensorboard
            # $ tensorboard --logdir=logs
            # tf.train.SummaryWriter soon be deprecated, use following
            tf.summary.FileWriter(r'D:\logs', self.sess.graph)

        self.sess.run(tf.global_variables_initializer())
        self.cost_his = []

    def _build_net(self):
        # -------------- 创建 eval 神经网络, 及时提升参数 --------------
        self.s = tf.placeholder(tf.float32, [None, self.n_features], name='s')  # 用来接收 observation
        self.q_target = tf.placeholder(tf.float32, [None, self.n_actions],
                                       name='Q_target')  # 用来接收 q_target 的值, 这个之后会通过计算得到
        with tf.variable_scope('eval_net'):
            # c_names(collections_names) 是在更新 target_net 参数时会用到
            c_names, n_l1, w_initializer, b_initializer = \
                ['eval_net_params', tf.GraphKeys.GLOBAL_VARIABLES], 10, \
                tf.random_normal_initializer(0., 0.3), tf.constant_initializer(0.1)  # config of layers

            # eval_net 的第一层. collections 是在更新 target_net 参数时会用到
            with tf.variable_scope('l1'):
                w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)
                b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)
                l1 = tf.nn.relu(tf.matmul(self.s, w1) + b1)

            # eval_net 的第二层. collections 是在更新 target_net 参数时会用到
            with tf.variable_scope('l2'):
                w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                self.q_eval = tf.matmul(l1, w2) + b2

        with tf.variable_scope('loss'):  # 求误差
            self.loss = tf.reduce_mean(tf.squared_difference(self.q_target, self.q_eval))
        with tf.variable_scope('train'):  # 梯度下降
            self._train_op = tf.train.RMSPropOptimizer(self.lr).minimize(self.loss)

        # ---------------- 创建 target 神经网络, 提供 target Q ---------------------
        self.s_ = tf.placeholder(tf.float32, [None, self.n_features], name='s_')  # 接收下个 observation
        with tf.variable_scope('target_net'):
            # c_names(collections_names) 是在更新 target_net 参数时会用到
            c_names = ['target_net_params', tf.GraphKeys.GLOBAL_VARIABLES]

            # target_net 的第一层. collections 是在更新 target_net 参数时会用到
            with tf.variable_scope('l1'):
                w1 = tf.get_variable('w1', [self.n_features, n_l1], initializer=w_initializer, collections=c_names)
                b1 = tf.get_variable('b1', [1, n_l1], initializer=b_initializer, collections=c_names)
                l1 = tf.nn.relu(tf.matmul(self.s_, w1) + b1)

            # target_net 的第二层. collections 是在更新 target_net 参数时会用到
            with tf.variable_scope('l2'):
                w2 = tf.get_variable('w2', [n_l1, self.n_actions], initializer=w_initializer, collections=c_names)
                b2 = tf.get_variable('b2', [1, self.n_actions], initializer=b_initializer, collections=c_names)
                self.q_next = tf.matmul(l1, w2) + b2

    def store_transition(self, s, a, r, s_):
        # 判断是否包含对应属性 没有就赋予初值
        if not hasattr(self, 'memory_counter'):
            self.memory_counter = 0

        # 纵向延伸
        transition = np.hstack((s, [a, r], s_))

        # 使用新的记忆替换掉旧网络的记忆
        index = self.memory_counter % self.memory_size
        self.memory[index, :] = transition

        self.memory_counter += 1

    def choose_action(self, observation):
        # 给观测值加上batch_size维度
        observation = observation[np.newaxis, :]

        if np.random.uniform() < self.epsilon:
            # forward feed the observation and get q value for every actions
            actions_value = self.sess.run(self.q_eval, feed_dict={self.s: observation})
            action = np.argmax(actions_value)
        else:
            action = np.random.randint(0, self.n_actions)
        return action

    def learn(self):
        # 判断是否应该更新target-net网络了
        if self.learn_step_counter % self.replace_target_iter == 0:
            self.sess.run(self.replace_target_op)
            print('\ntarget_params_replaced\n')

        # 从以前的记忆中随机抽取一些记忆
        if self.memory_counter > self.memory_size:
            sample_index = np.random.choice(self.memory_size, size=self.batch_size)
        else:
            sample_index = np.random.choice(self.memory_counter, size=self.batch_size)
        batch_memory = self.memory[sample_index, :]

        q_next, q_eval = self.sess.run(
            [self.q_next, self.q_eval],
            feed_dict={
                self.s_: batch_memory[:, -self.n_features:],  # fixed params
                self.s: batch_memory[:, :self.n_features],  # newest params
            })

        # change q_target w.r.t q_eval's action
        q_target = q_eval.copy()

        # 下面这几步十分重要. q_next, q_eval 包含所有 action 的值,
        # 而我们需要的只是已经选择好的 action 的值, 其他的并不需要.
        # 所以我们将其他的 action 值全变成 0, 将用到的 action 误差值 反向传递回去, 作为更新凭据.
        # 这是我们最终要达到的样子, 比如 q_target - q_eval = [1, 0, 0] - [-1, 0, 0] = [2, 0, 0]
        # q_eval = [-1, 0, 0] 表示这一个记忆中有我选用过 action 0, 而 action 0 带来的 Q(s, a0) = -1, 所以其他的 Q(s, a1) = Q(s, a2) = 0.
        # q_target = [1, 0, 0] 表示这个记忆中的 r+gamma*maxQ(s_) = 1, 而且不管在 s_ 上我们取了哪个 action,
        # 我们都需要对应上 q_eval 中的 action 位置, 所以就将 1 放在了 action 0 的位置.

        # 下面也是为了达到上面说的目的, 不过为了更方面让程序运算, 达到目的的过程有点不同.
        # 是将 q_eval 全部赋值给 q_target, 这时 q_target-q_eval 全为 0,
        # 不过 我们再根据 batch_memory 当中的 action 这个 column 来给 q_target 中的对应的 memory-action 位置来修改赋值.
        # 使新的赋值为 reward + gamma * maxQ(s_), 这样 q_target-q_eval 就可以变成我们所需的样子.
        # 具体在下面还有一个举例说明.

        batch_index = np.arange(self.batch_size, dtype=np.int32)
        eval_act_index = batch_memory[:, self.n_features].astype(int)
        reward = batch_memory[:, self.n_features + 1]

        q_target[batch_index, eval_act_index] = reward + self.gamma * np.max(q_next, axis=1)

        """
               假如在这个 batch 中, 我们有2个提取的记忆, 根据每个记忆可以生产3个 action 的值:
               q_eval =
               [[1, 2, 3],
                [4, 5, 6]]

               q_target = q_eval =
               [[1, 2, 3],
                [4, 5, 6]]

               然后根据 memory 当中的具体 action 位置来修改 q_target 对应 action 上的值:
               比如在:
                   记忆 0 的 q_target 计算值是 -1, 而且我用了 action 0;
                   记忆 1 的 q_target 计算值是 -2, 而且我用了 action 2:
               q_target =
               [[-1, 2, 3],
                [4, 5, -2]]

               所以 (q_target - q_eval) 就变成了:
               [[(-1)-(1), 0, 0],
                [0, 0, (-2)-(6)]]

               最后我们将这个 (q_target - q_eval) 当成误差, 反向传递会神经网络.
               所有为 0 的 action 值是当时没有选择的 action, 之前有选择的 action 才有不为0的值.
               我们只反向传递之前选择的 action 的值,
        """

        # 训练eval网络
        _, self.cost = self.sess.run([self._train_op, self.loss],
                                     feed_dict={self.s: batch_memory[:, :self.n_features],
                                                self.q_target: q_target})
        self.cost_his.append(self.cost)

        # 因为在训练过程中会逐渐收敛所以此处动态设置增长epsilon
        self.epsilon = self.epsilon + self.epsilon_increment if self.epsilon < self.epsilon_max else self.epsilon_max
        self.learn_step_counter += 1

计算机基本操作（一） ——连接双显示器 Joyner2018 计算机综合连接双显示器显示器位置调整
本文是关于如何让一台电脑连接两个显示器，并且对于连接后的双显示器的各种后续操作的记录，不是教程。1.原材料两个显示器（支持VGA的输入）、一个主机（支持VGA和HDMI）、VGA线和HDMI线（或者HDMI转VGA线+VAG线）。如果没有独立显卡，则需要电脑主机的集成显卡上支持HDMI和VGA的输出接口如果有独立显卡，则需要独立显卡的输出上支持HDMI和VGA的输出接口2.接线电脑主机关机，显示器
三星笔记备份指南【常见问题+介绍3种方法】 Coolmuster 三星手机安卓笔记 android
SamsungNotes是众多可用应用程序之一，但它对于记笔记、画草图和掌握重要信息特别有用。但如何保护这些笔记的问题经常出现。我们将在这个内容丰富的教程中回答有关SamsungNotes的一些常见问题，并提供高效备份的分步说明。阅读以了解它们！第1部分：有关SamsungNotes问题的简要解答为了提供全面知识的基础，让我们在详细了解SamsungNotes备份之前先解决这些基本问题：Q1.三星
数字化转型的三个阶段：信息化、数字化、数智化兴风键盘侠计算机行业知识大数据创业创新
数字化转型（DigitalTransformation）是当前企业和社会发展的核心驱动力。它不仅是技术层面的变革，更是一种系统性、战略性的转型，涵盖了业务流程、管理模式以及企业文化等多个维度。数字化转型通常可以划分为三个阶段：信息化、数字化和数智化。本文将对这三个阶段进行详细剖析，帮助您理解每个阶段的特征、目标及实施要点。第一阶段：信息化（Informatization）定义与目标信息化是数字化转
CSDN简介神罗天征666 data
CSDN（ChineseSoftwareDeveloperNetwork），全称“中国软件开发者网络”，是一个专注服务于IT专业人士及IT企业的知识传播、在线学习、职业发展等全生命周期服务的平台。CSDN成立于1999年，是中国最大的中文IT技术社区，隶属于北京创新乐知网络技术有限公司。该平台汇聚了大量的软件开发者和IT专业人士，成为中国乃至全球范围内重要的IT技术交流和学习平台。CSDN的主要功
docker-compose安装使用 redstone618 容器化部署 docker 运维 linux
1、下载docker-compose链接：https://pan.baidu.com/s/1Mp0bgcgumncl_bPsg-KVYA?pwd=9q3z提取码：9q3z也可以去github上搜索docker-compose下载下载路径：https://github.com/docker/compose/releases/download/1.24.1/docker-compose-Linux-x
python str转bytes类型三希 python 开发语言
在Python中，将字符串（str）类型转换为字节（bytes）类型，通常可以使用以下几种方法：方法一：使用encode()方法这是最常用的方法，适用于任何类型的字符串，尤其是包含非ASCII字符的字符串。使用encode()方法时，需要指定编码方式，如utf-8、latin-1等。例如：pythonstring="Hello,World!"encoded_bytes=string.encode(
python之str与bytes互转 ancy_i_cv python python
#-*-coding:utf-8-*-bytes_object =b"example"#strobjectstr_object ="example"#方法（1）#str转bytesbytes(str_object,encoding="utf8")#bytes转strstr(bytes_object,encoding="utf-8")#方法（2）#str转bytesstr.encode(str_ob
PYTHON中字符串(str)类型和比特(bytes)类型转换齐柏林fly 艇 python
bytes主要是用于二进制的数据处理的数据类型，在网络编程中，由于服务器和浏览器只能识别bytes类型数据。所以就需要进行数据类型转换例如socket编程中的.send()和.recv()就需要用到str类型和bytes类型转换一、str转bytes:第一种：在str类型前加b，即b"str"第二种：在str后加.encode("utf-8")，即str.encode("utf-8")，编码方式默
Python中的十六进制字节转换为字符串时代在召唤吗 python 前端开发语言 Python
Python中的十六进制字节转换为字符串在Python编程中，有时我们需要将十六进制字节（hexbytes）转换为字符串。这种情况可能出现在网络通信、文件读取或加密解密等应用中。本文将介绍如何使用Python将十六进制字节转换为字符串，并提供相应的源代码示例。在Python中，可以使用binascii模块提供的函数来进行十六进制字节和字符串之间的转换。下面是一个示例代码，演示了如何将十六进制字节转
python str byte 转换 LI4836 Python 字符串 python
bytes转字符串方式一b=b'\xe9\x80\x86\xe7\x81\xab'string=str(b,'utf-8')print(string)#逆火bytes转字符串方式二b=b'\xe9\x80\x86\xe7\x81\xab'string=b.decode()#第一参数默认utf8，第二参数默认strictprint(string)#逆火bytes转字符串方式三b=b'\xe9\x80
idea大小写转换快捷键，及设置快捷转换格式小可乐-我一直在 intellij-idea java ide
idea给用户提供了大小写快速转换的快捷键shift+Alt+u,贴心的idea还给提供了7种转换方式，我一般只用a_bc转驼峰aBc本来挺好用的但每次要按快捷键5次才能达到我的效果，所以请看设置图：只勾选两个，保存后就只会在这两种格式之间互相转换了
MHA实现谁怕平生太急算法基础模型基础
（1）关键点说明：多头注意力机制：将输入分成多个头，每个头独立计算注意力（2）维度变换：输入：(batch_size,sequence_length,embedding_dim)多头处理：(batch_size,num_heads,sequence_length,dim_per_head)后面两项用于Q、K的计算维度变换的核心是用view和permute来进行（3）注意力计算：Q×K^T得到注意力
华为OD机试E卷 - 数大雁（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od python java c语言 javascript c++华为od机考e卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的:1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。2.大雁会依次完整发出”quack”，即字符串中’q’,‘u’,‘a’,‘c’,‘k’这5个字母按顺序完整
华为OD机试E卷 --过滤组合字符串--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述数字0、1、2、3、4、5、6、7、8、9分别关联a~z26个英文字母。0关联“a”"b”"c1关联“d”"e”"f2关联“g"“h”“i”3关联“j","k"l”4关联“m”"n”“o”5关联“p""q”"r6关联“s”"t7关联“u”"v”8关联“w”“x”9关联“y”"
Python内存数据库/引擎(sqlite memlite pydblite) ronon77 内存数据库 sqlite memlite pydblite
1初探在平时的开发工作中，我们可能会有这样的需求：我们希望有一个内存数据库或者数据引擎，用比较Pythonic的方式进行数据库的操作（比如说插入和查询）。举个具体的例子，分别向数据库db中插入两条数据，”a=1,b=1″和“a=1,b=2”,然后想查询a=1的数据可能会使用这样的语句db.query(a=1)，结果就是返回前面插入的两条数据；如果想查询a=1,b=2的数据，就使用这样的语句db.q
华为OD机试E卷 --简易压缩算法--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java 华为od javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述有一种简易压缩算法Q∶针对全部由小写英文字母组成的字符串，将其中连续超过两个相同字母的部分压缩为连续个数加该字母，其他部分保持原样不变。例如:字符串“aaabbccccd"经过压缩成为字符串"3abb4cd”"。请您编写解压函数，根据输入的字符串，判断其是否为合法压缩过的字符串，若输入合法
【已解决】ImportError: libnvinfer.so.8: cannot open shared object file: No such file or directory 小小小小祥 python
问题描述：按照tensorrt官方安装文档：https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-tar安装完成后，使用python测试导入tensorrtimporttensorrt上述代码报错：Traceback(mostrecentcalllast):File“main.py”,li
算法随笔_9:压缩字符串程序趣谈算法
上一篇:算法随笔_8:寻找重复数-CSDN博客题目描述如下:给你一个字符数组chars，请使用下述算法压缩：从一个空字符串s开始。对于chars中的每组连续重复字符：如果这一组长度为1，则将字符追加到s中。否则，需要向s追加字符，后跟这一组的长度。压缩后得到的字符串s不应该直接返回，需要转储到字符数组chars中。需要注意的是，如果组长度为10或10以上，则在chars数组中会被拆分为多个字符。请
Java实现归并排序算法详解及优化捕风捉你从0开始学算法 java 排序算法算法
引言归并排序（MergeSort）是一种有效、稳定且常用的排序算法，尤其在处理大规模数据时表现良好。本文将详细讲解如何使用Java实现归并排序算法，并结合图解和实例代码，帮助您全面理解这一高级排序算法。同时，我们还将探讨归并排序的优化方法，以进一步提高其性能。归并排序算法的原理归并排序是一种分治算法，它将数组分成两个子数组，分别对两个子数组进行排序，然后将排好序的子数组合并成一个有序数组。算法步骤
DeepSeek V3：新一代开源 AI 模型，多语言编程能力卓越 that's boy 人工智能 chatgpt openai claude midjourney deepseek-v3
DeepSeekV3横空出世，以其强大的多语言编程能力和先进的技术架构，引发了业界的广泛关注。这款最新的AI模型不仅在性能上实现了质的飞跃，还采用了开源策略，为广大开发者提供了更广阔的探索空间。本文将深入解析DeepSeekV3的技术原理、主要功能、性能表现及应用场景，带您全面了解这款新一代AI模型。DeepSeekV3的核心亮点DeepSeekV3是一款基于混合专家（MoE）架构的大型语言模型，
VXLAN 基础教程：VXLAN 协议原理介绍 lingshengxiyou 网络 linux 运维 c++开发语言
VXLAN（VirtualeXtensibleLocalAreaNetwork，虚拟可扩展局域网），是一种虚拟化隧道通信技术。它是一种Overlay（覆盖网络）技术，通过三层的网络来搭建虚拟的二层网络。简单来讲，VXLAN是在底层物理网络（underlay）之上使用隧道技术，借助UDP层构建的Overlay的逻辑网络，使逻辑网络与物理网络解耦，实现灵活的组网需求。它对原有的网络架构几乎没有影响，不
Python 归并排序算法详解 licy__ 排序算法算法数据结构
目录Python归并排序算法详解1.归并排序原理2.Python代码实现3.时间复杂度分析4.空间复杂度分析5.实际例子6.归并排序的优势和劣势优势劣势7.总结Python归并排序算法详解归并排序（MergeSort）是一种高效的、基于比较的排序算法，属于分治法的一种。本文将详细介绍归并排序的原理、Python代码实现、时间复杂度分析和实际例子。1.归并排序原理归并排序的基本思想是将待排序的序列分
Java 归并排序算法详解 licy__ 排序算法算法数据结构
Java归并排序算法详解归并排序（MergeSort）是一种高效的、基于比较的排序算法，属于分治法的一种。本文将详细介绍归并排序的原理、Java代码实现、时间复杂度分析和实际例子。1.归并排序原理归并排序的基本思想是将待排序的序列分成若干个小序列，每个小序列单独排序，然后再将这些有序的小序列合并成一个整体有序的序列。具体步骤如下：分解：将序列分成两个子序列。解决：递归地对两个子序列进行归并排序。合
TikTok专线流量：助力品牌全球化的利器 Loongproxy 大数据
在这个信息爆炸的时代，社交媒体已经成为了品牌传播的重要渠道，其中TikTok以其短视频的形式迅速占领了全球市场。TikTok专线流量，正是品牌在这一平台上实现突破的关键所在。想象一下，如果你的品牌能够在TikTok上获得大量的曝光，吸引到更多的潜在客户，这将是多么令人振奋的事情！然而，要实现这一目标，依靠传统的营销手段显然是不够的。借助专线流量，企业可以精准触达目标受众，提升品牌知名度，进而实现转
20250118 ubuntu 打不开github网页 HI_Forrest Python ubuntu
DNS查询网站找到最快的ip添加到hosts文件中sudogedit/etc/hosts保存退出打开新的终端刷新sudoservicenetwork-managerrestart
深度强化学习(DRL)原理与代码实战案例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1人工智能的演进：从符号主义到连接主义人工智能(AI)的发展经历了漫长的历程，从早期的符号主义到如今的连接主义，标志着人工智能从基于规则的推理演变到基于数据的学习。符号主义AI试图通过逻辑和符号系统来模拟人类的思维过程，而连接主义AI则侧重于构建类似于人脑神经网络的结构，通过大量数据进行训练，从而实现智能。1.2强化学习：智能体与环境的互动强化学习(ReinforcementLea
深度剖析 DeepSeek V3 技术报告：架构创新与卓越性能表现微凉的衣柜科技头条人工智能大模型语言模型
随着人工智能（AI）技术的不断发展，各种大规模语言模型（LLM）层出不穷，DeepSeekV3作为其中的一员，凭借其出色的性能表现和创新的架构设计，吸引了广泛关注。本文将通过对官方发布的DeepSeekV3技术报告的深入解析，从多个维度剖析DeepSeekV3如何通过先进的技术手段，在保持性能卓越的同时优化计算和内存开销。一、性能卓越，超越同行DeepSeekV3在多个权威基准测试中展现了强大的性
【机器学习：三十二、强化学习：理论与应用】 KeyPan 机器学习机器学习机器人人工智能深度学习数据挖掘
1.强化学习概述**强化学习（ReinforcementLearning,RL）**是一种机器学习方法，旨在通过试验与反馈的交互，使智能体（Agent）在动态环境中学习决策策略，以最大化累积奖励（CumulativeReward）。相比监督学习和无监督学习，强化学习更关注长期目标，而非简单地从标签中学习。核心概念智能体（Agent）：进行学习和决策的主体。环境（Environment）：智能体所在
js utf8转jb2312 代码司江龙 jquery
functionUrlEncode(str){vari,c,ret="",strSpecial="!\"#$%&'()*+,/:;?@[\]^`{|}~%";for(i=0;i
MongoDB 客户端工具(图) IT古董 Mongodb mongodb 工具 couchdb 集群 php windows
转自:http://hi.baidu.com/shepherdnewage/blog/item/962368f05d1f427fdcc4747c.htmlhttp://www.javabloger.com/article/mongodb-gui-win-linux-mac.htmlNoSQL的运动不止，MongoDB作为其中的主力军发展迅猛，但是图形化工具少见，我在此做了一个简单的收集，如果将来有
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc