Mr_哲

强化学习进阶——DQN

预备知识

基本概念

目标和约束条件

MDP马尔可夫决策过程

假设

基本概念

计算价值函数

Action-Value Function动作价值函数

Optimal value function最优价值函数

策略迭代和值迭代

Q-Learning

Q-Learning算法

EE问题

DQN

Q-Learning神经网络化

DQN算法及其改进

NIPS DQN

Natural DQN

Double DQN

Prioritised replay

Dueling Network

在强化学习基础——bandit中，我们已经登堂入室，初窥强化学习的门径。不断探索的我们，怎么可能停滞不前呢？所以接下来，我会我们将重点介绍强化学习进阶——DQN。

预备知识

基本概念

在人工智能领域，一般用智能体Agent来表示一个具备行为能力的物体，比如机器人，无人车，人等等。那么增强学习考虑的问题就是智能体Agent和环境Environment之间交互的任务。

不管是什么样的任务，都包含了一系列的动作Action,观察Observation还有反馈值Reward。所谓的Reward就是Agent执行了动作与环境进行交互后，环境会发生变化，变化的好与坏就用Reward来表示。

agent、environment、state、action、reward共同构建了强化学习，如下图：

目标和约束条件

强化学习目标是获取尽可能多的reward，如何量化reward？

Agent都是根据当前的观察来确定下一步的动作。观察Observation的集合就作为Agent的所处的状态state。状态state和动作action之间存在映射关系，即一个状态对应不同的动作的概率。

状态state到动作action过程，称为策略policy，表示为 $\small \pi \left ( a|s \right )$ 。

因此，增强学习的任务就是找到一个最优的策略Policy从而使Reward最多。

一开始并不知道最优的策略是什么，因此往往从随机的策略开始，使用随机的策略进行试验，就可以得到一系列的状态,动作和反馈：

$\small \left ( s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},...,s_{t},a_{t},r_{t} \right )$

这就是一系列的样本sample，增强学习需要这些样本改进policy。

MDP马尔可夫决策过程

假设

马尔可夫决策过程（MDP，Markov Decision Process）基本假设如下：

未来只取决于当前，即下一步的状态只取决于当前的状态，与过去的状态没有关系；
上帝不摘骰子，如果输入是确定的，那么输出也一定是确定的；

基本概念

一个基本MDP可以用（S,A,P）表示，S表示状态，A表示动作，P表示状态转移概率。状态对应动作的概率，有了动作，下一个状态也是确定的。

那么怎么描述状态的好坏？引入回报Return来表示某个时刻t的状态将具备的回报：

$\small G_{t}=R_{t+1}+\lambda R_{t+2}+...=\sum_{k=0}^{\infty }\lambda ^{k}R_{t+k+1}$

上面R是Reward反馈，λ是discount factor折扣因子，一般小于1，就是说一般当下的反馈是比较重要的，时间越久，影响越小。

实际上除非整个过程结束，否则显然我们无法获取所有的reward来计算出每个状态的Return，因此引入价值函数（Value Function)来表示未来潜在的价值：

$\small \nu \left ( s \right )=E\left [ G_{t}|S_{t}=s \right ]$

计算价值函数

基于反复试验value Function评估，数学公式如下：

$\small \nu \left ( s \right )=E\left [ G_{t}|S_{t}=s \right ] =E[\left ( R_{t+1}|+\lambda G_{t+1} \right )|S_{t}=s]$

Bellman公式表明，value function是可以通过迭代计算出来的。

Action-Value Function动作价值函数

考虑到每个状态之后都有多种动作可以选择，每个动作之下的状态又多不一样，我们更关心在某个状态下的不同动作的价值。显然。如果知道了每个动作的价值，那么就可以选择价值最大的一个动作去执行了。动作价值函数表示为：

$\small Q^{\pi}\left ( s,a \right )=E_{s^{'}}[r+\lambda Q^{\pi}(s^{'},a^{'})|s,a]$

Optimal value function最优价值函数

计算动作价值函数是不够的，需要的是最有策略，求解最有策略方法有value-based，policy-based和model-based方法。

最优价值策略函数和一般动作价值函数关系：

$\small Q^{*}(s,a)=\underset{\pi}{max}Q^{\pi}(s,a)$

最优价值策略函数是所有策略的价值函数的最大值。

策略迭代和值迭代

策略迭代

Policy Iteration是直接使用Bellman方程，其目的是通过迭代计算value function 价值函数的方式来使policy收敛到最优。其基本步骤如下：

Policy Evaluation 策略评估。目的是更新Value Function，或者说更好的估计基于当前策略的价值；
Policy Improvement 策略改进。使用 greedy policy 产生新的样本用于第一步的策略评估；

本质上就是使用当前策略产生新的样本，然后使用新的样本更好的估计策略的价值，然后利用策略的价值更新策略，然后不断反复。理论可以证明最终策略将收敛到最优。

值迭代

Value Iteration是使用Bellman 最优方程得到，和Policy Iteration有什么区别：

policy iteration使用bellman方程来更新value，最后收敛的value 即 $\small \nu _ \pi$ 是当前policy下的value值（所以叫做对policy进行评估），目的是为了后面的policy improvement得到新的policy。

而value iteration是使用bellman 最优方程来更新value，最后收敛得到的value即 $\small \nu _ *$ 就是当前state状态下的最优的value值。因此，只要最后收敛，那么最优的policy也就得到的。因此这个方法是基于更新value的，所以叫value iteration。

value iteration比policy iteration更直接，不过理想条件下需要遍历所有的状态，这在复杂一些的问题上就基本不可能了。

Q-Learning

介绍以上强化学习储备知识后，下面开始进入正题了。首先从Q-Learning开始。

Q-Learning算法

Q Learning是基于value iteration得到。但value iteration每次都对所有的Q值更新一遍，也就是所有的状态S和动作A。一个s一个a对应一个Q值，需要维护一张S*A的Q值表，如下：

	$\small a_{1}$	$\small a_{2}$	...	$\small a_{m}$
$\small s_{1}$	Q(1,1)	Q(1,2)		Q(1,m)
$\small s_{2}$	Q(2,1)	Q(2,2)		Q(2,m)
...
$\small s_{n}$	Q(n,1)	Q(n,2)		Q(n,m)

因此只能使用有限的样本进行操作。为此Q Learning提出了一种更新Q值的办法：

$\small Q\left ( {S_{t},A_{t}} \right )\leftarrow Q=\left ( {S_{t},A_{t}} \right )+\alpha \left ( R_{t+1}+\lambda \underset{a}{max} Q\left ( S_{t+1},a \right )-Q\left ( S_{t},A_{t} \right )\right )$

这里并没有直接将这个Q值（是估计值）直接赋予新的Q，而是采用渐进的方式类似梯度下降，朝target迈近一小步，取决于α,这就能够减少估计误差造成的影响。类似随机梯度下降，最后可以收敛到最优的Q值。其算法流程如下：

EE问题

Q-Learning完全不考虑model模型也就是环境的具体情况，只考虑看到的环境及reward，因此是model-free的方法。那么怎样选择policy来生成action呢？有两种做法：

探索阶段：随机生成动作；
利用阶段：根据当前的Q值计算出一个最优的动作，这个policy π称之为greedy policy贪婪策略 $\small \pi \left ( S_{t+1} \right )=arg\, \underset{a}{max}Q\left ( S_{t},a \right )$ ;

使用随机的动作就是exploration，有利于更新Q值，获得更好的policy。而使用greedy policy则是exploitation，利用policy，可以得到更好的测试效果用于判断算法是否有效。

将两者结合起来就是所谓的 $\small \varepsilon -greed$ 策略，一般 $\small \varepsilon$ 是一个很小的值，决定exploration和exploitation的比例。

DQN

Q-Learning神经网络化

当状态和动作空间是高维连续时，使用Q-Table不现实。如何解决维度灾难问题呢？答案是价值函数近似(Value Function Approximation)。其本质就是用一个函数近似Q值的分布，即：

$\small Q\left ( s,a \right )\approx f(s,a,w)$

DQN不用Q表记录Q值，而是用神经网络来预测Q值，并通过不断更新神经网络从而学习到最优的行动路径。

而Q值神经网络化要有海量带有标签的样本，如何实现呢？

利用Q-Learning中Reward和Q计算出来的目标Q值:

$\small R_{t+1}+\lambda \underset{a}{max}Q\left ( S_{t+1},a \right )$

把目标Q值作为标签，让Q值趋近于目标Q值。

因此，Q网络训练的损失函数就是：

$\small L\left ( w \right )=E\left [( \underbrace{r+ \lambda \underset{a^{'}}{max}Q\left ( s^{'},a^{'},w \right )}-Q(s,a,w))^2 \right ]$

DQN算法及其改进

NIPS DQN

第一个版本的DQN(NIPS 2013提出的)，在基本的Deep Q-Learning算法的基础上使用了Experience Replay经验池，算法流程如下：

主要涉及存储样本和采样问题，考虑到样本之间具有连续性，如果每次得到样本就更新Q值，受样本分布影响，效果会不好。因此，把样本先存起来，然后随机采样，降低数据相关性，这就是Experience Replay的意思。按照脑科学的观点，人的大脑也具有这样的机制，就是在回忆中学习。

Natural DQN

Nature DQN是在NPIS DQN上增加Target Q网络。也就是我们在计算目标Q值时使用专门的一个目标Q网络来计算，而不是直接使用预更新的Q网络。这样做的目的是为了减少目标计算与当前值的相关性。

$\small L\left ( w \right )=E\left [( \underbrace{r+ \lambda \underset{a^{'}}{max}Q\left ( s^{'},a^{'},w^{-} \right )}-Q(s,a,w))^2 \right ]$

如上公式，计算目标Q值的网络使用的参数是w-，而不是w。Target Q仍从Q网络中来，只不过是延迟更新。也就是每次等训练了一段时间再将当前Q网络的参数值复制给目标Q网络。

Double DQN

目的是减少max Q值计算带来的计算偏差，或者称为过度估计（over estimation）问题，用当前的Q网络w来选择动作，用目标Q网络 $\small w^{-}$ 来计算目标Q。其改进公式如下：

$\small L\left ( w \right )=E\left [( \underbrace{r+ \lambda Q\left ( s^{'},\underset{a^{'}}{argmax}\, Q\left ( s^{'},a^{'},w \right ),w^{-} \right )}-Q(s,a,w))^2 \right ]$

部分伪代码如下：

# 定义双网络结构
def build_layers(s,c_name,n_l1,w_initializer,b_initializer):
    with tf.variable_scope('l1'):
        w1 = tf.get_variable(name='w1',shape=[self.n_features,n_l1],initializer=w_initializer,collections=c_name)
        b1 = tf.get_variable(name='b1',shape=[1,n_l1],initializer=b_initializer,collections=c_name)
        l1 = tf.nn.relu(tf.matmul(s,w1)+b1)
    with tf.variable_scope('l2'):
        w2 = tf.get_variable(name='w2',shape=[n_l1,self.n_actions],initializer=w_initializer,collections=c_name)
        b2 = tf.get_variable(name='b2',shape=[1,self.n_actions],initializer=b_initializer,collections=c_name)
        out = tf.matmul(l1,w2) + b2
    return out


# ------------------ build evaluate_net ------------------
with tf.variable_scope('eval_net'):
    c_names = ['eval_net_params',tf.GraphKeys.GLOBAL_VARIABLES]
    n_l1 = 20
    w_initializer = tf.random_normal_initializer(0,0.3)
    b_initializer =tf.constant_initializer(0.1)
    self.q_eval = build_layers(self.s,c_names,n_l1,w_initializer,b_initializer)

# ------------------ build target_net ------------------
with tf.variable_scope('target_net'):
    c_names = ['target_net_params', tf.GraphKeys.GLOBAL_VARIABLES]

    self.q_next = build_layers(self.s_, c_names, n_l1, w_initializer, b_initializer)

Prioritised replay

不同样本的重要性是不一样的，优化记忆库抽取。其改进数学公式如下：

$\small L\left ( w \right )=E\left [ \left | \underbrace{r+ \lambda \underset{a^{'}}{max}Q\left ( s^{'},a^{'},w^{-} \right )}-Q(s,a,w) \right | \right ]$

按误差的大小进行重要程度排序，误差越大说明越需要被学习。但是为了效率，不能每次都排一遍太麻烦，所以使用sumtree(线段树)排序相对来说就简单了。

SumTree 是一种树形结构, 每片树叶存储每个样本的优先级 p, 每个树枝节点只有两个分叉, 节点的值是两个分叉的合, 所以 SumTree 的顶端就是所有p的和，如下：

抽样时, 我们会将 p 的总合除以 batch size, 分成 batch size 那么多区间, (n=sum(p)/batch_size). 如果将所有 node 的 priority 加起来是42的话, 我们如果抽6个样本, 这时的区间拥有的 priority 可能是这样：

[0-7], [7-14], [14-21], [21-28], [28-35], [35-42]

部分伪代码如下：

# ISWeight计算
def sample(self, n):
        b_idx, b_memory, ISWeights = np.empty((n,), dtype=np.int32), np.empty((n, self.tree.data[0].size)), np.empty((n, 1))
        pri_seg = self.tree.total_p / n       # priority segment
        self.beta = np.min([1., self.beta + self.beta_increment_per_sampling])  # max = 1

        min_prob = np.min(self.tree.tree[-self.tree.capacity:]) / self.tree.total_p     # for later calculate ISweight
        if min_prob == 0:
            min_prob = 0.00001
        for i in range(n):
            a, b = pri_seg * i, pri_seg * (i + 1)
            v = np.random.uniform(a, b)
            idx, p, data = self.tree.get_leaf(v)
            prob = p / self.tree.total_p
            ISWeights[i, 0] = np.power(prob/min_prob, -self.beta)
            b_idx[i], b_memory[i, :] = idx, data
        return b_idx, b_memory, ISWeights


# 采样节点
def get_leaf(self, v):
        """
        Tree structure and array storage:
        Tree index:
             0         -> storing priority sum
            / \
          1     2
         / \   / \
        3   4 5   6    -> storing priority for transitions
        Array type for storing:
        [0,1,2,3,4,5,6]
        """
        parent_idx = 0
        while True:     # the while loop is faster than the method in the reference code
            cl_idx = 2 * parent_idx + 1         # this leaf's left and right kids
            cr_idx = cl_idx + 1
            if cl_idx >= len(self.tree):        # reach bottom, end search
                leaf_idx = parent_idx
                break
            else:       # downward search, always search for a higher priority node
                if v <= self.tree[cl_idx]:
                    parent_idx = cl_idx
                else:
                    v -= self.tree[cl_idx]
                    parent_idx = cr_idx

        data_idx = leaf_idx - self.capacity + 1
        return leaf_idx, self.tree[leaf_idx], self.data[data_idx]


# 更新sumTree权重
def batch_update(self, tree_idx, abs_errors):
        abs_errors += self.epsilon  # convert to abs and avoid 0
        clipped_errors = np.minimum(abs_errors, self.abs_err_upper)
        ps = np.power(clipped_errors, self.alpha)
        for ti, p in zip(tree_idx, ps):
            self.tree.update(ti, p)

def update(self, tree_idx, p):
        change = p - self.tree[tree_idx]
        self.tree[tree_idx] = p
        # then propagate the change through tree
        while tree_idx != 0:    # this method is faster than the recursive loop in the reference code
            tree_idx = (tree_idx - 1) // 2
            self.tree[tree_idx] += change

Dueling Network

考虑到有些state可能无论做什么动作，对下一个state都没有多大的影响。

Dueling DQN考虑将Q网络分成两部分，第一部分是仅仅与状态S有关，与具体要采用的动作A无关，这部分我们叫做价值函数部分，记做V(S,w,α),第二部分同时与状态状态S和动作A有关，这部分叫做优势函数(Advantage Function)部分，记为A(S,A,w,β)，那么最终我们的价值函数可以重新表示为：

Q(S,A,w,α,β)=V(S,w,α)+A(S,A,w,β)

其中，w是公共部分的网络参数，而α是价值函数独有部分的网络参数，而β是优势函数独有部分的网络参数。

其部分伪代码如下：

def create_Q_network(self):
    # input layer
    self.state_input = tf.placeholder("float", [None, self.state_dim])
    # network weights
    with tf.variable_scope('current_net'):
        W1 = self.weight_variable([self.state_dim,20])
        b1 = self.bias_variable([20])

        # hidden layer 1
        h_layer_1 = tf.nn.relu(tf.matmul(self.state_input,W1) + b1)

        # hidden layer  for state value
        with tf.variable_scope('Value'):
          W21= self.weight_variable([20,1])
          b21 = self.bias_variable([1])
          self.V = tf.matmul(h_layer_1, W21) + b21

        # hidden layer  for action value
        with tf.variable_scope('Advantage'):
          W22 = self.weight_variable([20,self.action_dim])
          b22 = self.bias_variable([self.action_dim])
          self.A = tf.matmul(h_layer_1, W22) + b22

          # Q Value layer
          self.Q_value = self.V + (self.A - tf.reduce_mean(self.A, axis=1, keep_dims=True))

    with tf.variable_scope('target_net'):
        W1t = self.weight_variable([self.state_dim,20])
        b1t = self.bias_variable([20])

        # hidden layer 1
        h_layer_1t = tf.nn.relu(tf.matmul(self.state_input,W1t) + b1t)

        # hidden layer  for state value
        with tf.variable_scope('Value'):
          W2v = self.weight_variable([20,1])
          b2v = self.bias_variable([1])
          self.VT = tf.matmul(h_layer_1t, W2v) + b2v

        # hidden layer  for action value
        with tf.variable_scope('Advantage'):
          W2a = self.weight_variable([20,self.action_dim])
          b2a = self.bias_variable([self.action_dim])
          self.AT = tf.matmul(h_layer_1t, W2a) + b2a

          # Q Value layer
          self.target_Q_value = self.VT + (self.AT - tf.reduce_mean(self.AT, axis=1, keep_dims=True))

max_element()和min_element()函数及用法介绍藕粉和藕片数据结构 c++
头文件：algorithminta[]={1,4,7,2,8,9,3,5};1.max_element（first,last）作用：返回数组区间[first，last）中最大元素的位置用法：intt=max_element(a,a+8)-a;//注意要减去a本身的地址cout<
java实体中返回前端的double类型四舍五入（格式化）婲落ヽ紅顏誶 java
根据业务，需要通过后端给前端返回部分double类型的数值，一般需要保留两位小数，使用jackson转换对象packagecom.ruoyi.common.core.config;importcom.fasterxml.jackson.core.JsonGenerator;importcom.fasterxml.jackson.databind.JsonSerializer;importcom.f
ReactNative应用打包后无网络解决方案程序猿也会飞最佳实践 react native android react.js
ReactNative打包应用后，应用没有网络解决方案：在android\app\src\main\res下创建xml文件夹在xml文件夹中创建network_security_config.xml文件network_security_config.xml内容：在android\app\src\main文件夹AndroidManifest.xml文件内的Application标签中添加属性andr
c# 与c++类型对应关系让您看见未来 c++c#c#开发语言
c#c++ubytecharshortshortint32int32_tlongint64_tfloatfloatdoubledoubleIntPt,[]void*
CSE101 C++ Introduction to Data Structures and Algorithms zhuyu0206girl c++开发语言
CSE101IntroductiontoDataStructuresandAlgorithmsProgrammingAssignment5Inthisprojectyouwillcreateanew,andsomewhatdifferentintegerListADT,thistimeinC++.YouwillusethisListtoperformshufflingoperations,andd
tcp delayed ack 子羽潇潇 tcpip tcp/ip
whatisTCPdelayedACKTCPdelayedacknowledgmentisatechniqueusedbysomeimplementationsoftheTransmissionControlProtocolinanefforttoimprovenetworkperformance.Inessence,severalACKresponsesmaybecombinedtogether
后量子签名：Hash-and-Sign（上篇）山登绝顶我为峰 3(^v^)3 #后量子密码学哈希算法算法密码学机器学习零知识证明
参考文献：[CT65]CooleyJW,TukeyJW.AnalgorithmforthemachinecalculationofcomplexFourierseries[J].Mathematicsofcomputation,1965,19(90):297-301[Babai86]BabaiL.OnLovász’latticereductionandthenearestlatticepointp
什么是高防CDN？江苏冬云云计算网络安全云计算
高防CDN（ContentDeliveryNetwork，内容分发网络）在网络安全中的作用非常重要。它通过一种特别的方式来保护网站和网络应用程序免受大规模DDoS攻击。以下是它的一些主要优势：01分布式防护高防CDN通过在全球各地设立大量的节点，以实现流量的分发和冗余。当你的网站或应用受到DDoS攻击时，这些节点能够分担流量，从而减轻主服务器的压力，保证服务的持续提供。02吸纳并分发攻击流量由于高
Mysql数据库——数据类型一坨小橙子ovo 数据库 mysql
目录一、数值类型1.整数型2.浮点型(float和double)，近似值3.定点数二、字符串型1.字符串2.char和varchar比较Mysql中定义数据字段的类型对数据库的优化是非常重要的Mysql支持多种类型，内置数据类型大致分为三类数值类型日期/时间类型字符串（字符）类型数据类型参考链接：https://dev.mysql.com/doc/refman/8.0/en/data-types.
c++类型转换（持续更新） gyqJulius_Caesar C/C++程序设计 c++java 开发语言
1.static_caststatic_cast是C++中的一个类型转换操作符（typecastoperator），用于执行静态类型转换。静态类型转换在编译时进行，用于将一种类型的值转换为另一种类型。static_cast操作符的语法为：static_cast(expression)//实例doubletest=5.5;intoutput=static_cast(test);//i=5其中new_
Linux——系统优化 @小官人^
https://blog.csdn.net/li_wen01/article/details/82699167系统调优概述系统的运行状况：CPU->MEM->DISK*->NETWORK->应用程序调优系统性能优化的4个子系统：CPUMemoryIONetwork出现以下问题，怎么解决？1、找出系统中使用CPU最多的进程？2、找出系统中使用内存最多的进程？3、找出系统中对磁盘读写最多的进程？4、找
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
uniapp 实现双击点赞出现特效全栈^_^小菜鸟 uni-app java 前端
更新一下老板改了需求要加上特效1.创建点赞按钮首先，在你的页面中创建一个点赞按钮全局点赞的话就写在最外面的标签就行了。你可以使用组件或者自定义一个视图组件。点赞这里我们使用了@click事件监听器来监听按钮的点击事件，并且使用了:class绑定来根据isDoubleTap的值改变按钮的样式（可选）。showHeart用于控制小心心的显示与隐藏。2.实现双击检测在JavaScript部分，你需要实现
开始使用入侵检测系统(IDS)Bro:安装（2/4） Threathunter
来源：https://dallinwarne.com/networking/getting-started-with-intrusion-detection-system-ids-bro-part-2/这是关于如何开始使用BroIDS的四部分系列文章的第二部分。请参阅第1部分关于安装Bro先决条件的内容。这篇文章是关于安装和准备Bro。一、Bro编译与安装既然满足了先决条件，现在就可以编译和安装B
WPF中使用LiveCharts绘制散点图两仪风 wpf
一、背景这里的代码使用MVVM模式进行编写二、ModelpublicclassDataPoint{publicdoubleX{get;set;}publicdoubleY{get;set;}}三、ViewModelpublicclassScatterChartViewModel{publicSeriesCollectionSeries{get;set;}publicScatterChartView
C语言之计算正方形的周长 m0_61635718 C语言算法 c语言开发语言数据结构算法
目录一代码实现二时空复杂度A.时间复杂度（TimeComplexity）：B.空间复杂度（SpaceComplexity）：一代码实现#include//定义一个函数来计算正方形的周长doublecalculate_square_perimeter(doubleside_length){//正方形的周长等于边长的四倍return4*side_length;}intmain(){doubleside
Java与Go：基本数据类型 AIGoland之星 Java转Go 运维 java golang 开发语言后端
Java和Go在基本数据类型的设计和使用上有着一些显著的差异，本文将从数据范围、内存占用、类型安全性、性能等方面对Java和Go语言的基本数据类型进行更详细的对比。1.数字基本类型Java提供了六种基本数字数据类型，他们分别是：整数类型：byte、short、int、long，分别占用1、2、4、8个字节。浮点数类型：float、double，分别占用4、8个字节。而Go语言的基本数字数据类型如下
linux无法获取到ip yangqjiayou linux linux无法自动获取ip 无法自动获取ip
1.无法获取到ip原因：网络未开启首先开启网络：servicenetworkstart或servicenetworkrestartIfconfig-a只显示了本地的ip127.0.0.1，如果ifconfig不可用可以用ipadd获取不到ip则申请ipdhclienteth1eth1为网卡名称如果提示已经启动则释放ipdhclienteth1-r
SAN的简介和特点专属于Ogcloud的打工人运维数据库服务器安全网络
SAN（StorageAreaNetwork）是一种高速网络架构，旨在连接存储设备（如磁盘阵列、磁带库）与服务器，以提供可靠的数据存储和共享。它是一种专用网络，将存储资源与计算资源隔离开来，通过高速传输通道传输数据，并提供高可用性、可扩展性和灵活性的存储解决方案。接下来Ogcloud的Amos将为大家详细介绍SAN的特点和优势：1.高性能：SAN使用高速传输通道（如光纤通道、以太网等）来传输数据，
生成对抗网络——cgan 尼古拉斯·two_dog 生成对抗网络——GAN 深度学习 gan
GAN：生成对抗网络（GenerativeAdversarialNetworks[4]）主要由生成器(generator)和判别器(discriminator)组成。它的原理也比较清晰，generator负责输入随机噪声z，输出一个图片G(z)，而真实样本x，判别器D则用尽全力希望把真实样本和虚假样本区分开来。而G则希望产生的G(z)以假乱真，欺骗判别器，让其判断不出来。从而有了这么一种对抗的关系
速盾cdn：cdn节点缓存内容不一致怎么办？速盾cdn 服务器运维
在使用CDN服务时，有时候可能会遇到CDN节点缓存内容不一致的情况。这种情况会导致用户访问网站时获取到的内容不一致，给用户带来困惑和不良体验。那么当遇到这种情况时，我们应该如何解决呢？首先，我们需要了解CDN是如何工作的。CDN（ContentDeliveryNetwork）是一种将内容部署到全球各地节点的技术，通过将内容缓存在离用户最近的节点，加速内容传输，提高用户访问速度和质量。但是，由于CD
ubuntu20.04安装fpylll 微凉_z 密码学 python pytest virtualenv pip fpylll 密码学
需要安装的依赖有fpylllreliesonthefollowingC/C++libraries:GMPorMPIRforarbitraryprecisionintegerarithmetic.MPFRforarbitraryprecisionfloatingpointarithmetic.QDfordoubledoubleandquaddoublearithmetic(optional).fpl
云计算 1月17号 #我不吃牛肉# 云计算
1月17号一、NMAP命令Nmap（NetworkMapper）是一个开源的网络探测和安全审核工具。它被广泛用于网络发现和安全扫描。Nmap使用原始IP数据包来确定网络上的哪些主机可用、这些主机提供哪些服务（应用程序名和版本）、这些主机运行的操作系统（包括版本信息和可能的硬件类型）、这些主机使用的包过滤器/防火墙类型以及各种其他特性。参数解释示例-p[port(s)]扫描指定的端口或端口范围nma
【C++】贪心算法 Z_shsf c++c++贪心算法开发语言
贪心算法（GreedyAlgorithm）是一种基于贪心策略的算法，它在每一步选择中都采取当前状态下最优的选择，以希望最终得到全局最优解。贪心算法通常适用于满足最优子结构性质的问题，即问题的最优解可以通过其子问题的最优解来构造。贪心算法的基本思路是：定义问题的目标函数，即要最大化或最小化的目标。将问题分解为若干个子问题。对每个子问题进行求解，选择当前最优解。将每个子问题的最优解合并成原问题的解。贪
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
运维随录实战（14）之docker搭建mysql主从集群(Replication)) Loren_云淡风轻运维运维 docker mysql
1,从官方景镜像中拉取mysql镜像:dockerpullmysql:8.0.24--platformlinux/x86_642,创建master和slave容器:在创建之前先设置网段dockernetworkcreate--subnet=172.20.0.0/24soil_networkmaster:dockerrun-d-p3306:3306--namemysql-master--netsoi
2020-04-04 奋斗中的小强
SAN:Scale-AwareNetworkforSemanticSegmentationofHigh-ResolutionAerialImages高分辨率航空图像具有广泛的应用，如军事探索和城市规划。语义分割是高分辨率航空图像分析中广泛使用的一种基本方法。然而，高分辨率航空影像地物具有尺度不一致的特征，这一特征往往会导致预测结果的不确定性。为了解决这个问题，我们提出了一个新的尺度感知模块(SAM
Mastering Convolutional Neural Networks: A Comprehensive Practical Exploration Bio大恐龙人工智能深度学习数据可视化机器学习
ConvolutionalNeuralNetworks(CNNs)haverevolutionizedthefieldofcomputervisionandimagerecognition,enablinggroundbreakingadvancementsinvariousdomains.Thesepowerfuldeeplearningmodelshaveproventheirprowessi
LTE Network Quality Analysis Method Based on MR Data and XGBoost Algorithm YZRuin 网络机器学习人工智能
原文链接：LTENetworkQualityAnalysisMethodBasedonMRDataandXGBoostAlgorithm|IEEEConferencePublication|IEEEXploreBasicInformation:Title:LTENetworkQualityAnalysisMethodBasedonMRDataandXGBoostAlgorithm(基于MR数据和X
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

强化学习进阶——DQN

预备知识

基本概念

目标和约束条件

MDP马尔可夫决策过程

假设

基本概念

计算价值函数

Action-Value Function动作价值函数

Optimal value function最优价值函数

策略迭代和值迭代

Q-Learning

Q-Learning算法

EE问题

DQN

Q-Learning神经网络化

DQN算法及其改进

NIPS DQN

Natural DQN

Double DQN

Prioritised replay

Dueling Network

你可能感兴趣的:(algorithm,DQN,Double,DQN,Prioritised,Replay,Dueling,Network)