RobinZZX

强化学习部分基础算法总结（Q-learning DQN PG AC DDPG TD3）

总结回顾一下近期学习的RL算法，并给部分实现算法整理了流程图、贴了代码。

1. value-based 基于价值的算法

基于价值算法是通过对agent所属的environment的状态或者状态动作对进行评分。对于已经训练好的模型，agent只需要根据价值函数对当前状态选择评分最高的动作即可；对于正在训练的模型，我们通常将目标值（真实行动带来的反馈）和价值函数的预测值的差距作为loss训练价值函数。
通常使用两种价值函数：

状态价值函数 V(s)，策略为 π 的状态-值函数，即状态s下预计累计回报的期望值，满足：
状态行动价值函数 Q(s, a)，策略为 π 的状态-动作值函数，即状态s下采取行动a预计累计回报的期望值，满足：

value-based通常和贪婪策略一起使用，网络输出动作的价值后选择最大价值的方法，当最优策略是随机策略（比如环境是剪刀石头布）时，往往效果不佳；同时由于需要输出奖励使得无法将动作映射到一个分布中，因此对于连续动作无能为力。

1.1 Q-learning

最经典的value-based算法，通过Q-learning可以很好地体验到基于价值方法的优缺点。使用Q table作为价值函数Q(s, a)的载体，算法模型如下：

Agent代码如下：

"""
Q-learning
"""

class Agent:
    def __init__(self, actions, learning_rate, reward_decay, e_greedy):
        self.actions = actions
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon = e_greedy
        self.q_table = pd.DataFrame(
            columns=self.actions,
            dtype=np.float
        )

    def choose_action(self, observation):
        self.check_state_exist(observation)
        if np.random.uniform() < self.epsilon:
            state_actions = self.q_table.loc[observation, :]
            action = np.random.choice(state_actions[state_actions == np.max(state_actions)].index)
        else:
            action = np.random.choice(self.actions)
        return action

    def learn(self, s, a, r, s_):
        self.check_state_exist(s_)
        q_predict = self.q_table.loc[s, a]
        if s_ != 'end':
            q_target = r + self.gamma * self.q_table.loc[s_, :].max()
        else:
            q_target = r
        self.q_table.loc[s, a] += self.lr * (q_target - q_predict)

    def check_state_exist(self, state):
        if state not in self.q_table.index:
            self.q_table = self.q_table.append(
                pd.Series(
                    [0] * len(self.actions),
                    index=self.q_table.columns,
                    name=state
                )
            )

1.2 Sarsa

Sarsa大体于Q learning类似，不过在流程上在计算loss前先选择了下一步的动作next_action，然后再进行loss计算，这使得Sarsa学习的状态动作对都属于当前的轨迹，属于在线学习on-policy。

Q learning和Sarsa在测试时，效果相比起来：

Q learning更强调该状态和目标点的距离远近，若距离较近，maxa’Q(s’, a’)则值很大，导致这个状态的所有动作的值都偏大；
Sarsa更强调状态动作对，如果状态离目标点更近还不行，只有可以或者已经到达目标点的路径的值才会偏大。
所以Q learning的路径会比较激进，偏向于探索，因为如果该状态其中一个动作值较高，其他动作值也相应较高，而sarsa则比较保守，如果该状态其中一个动作值较高，会倾向于走那条值较高的道路，探索性较低。
优化版本Sarsa Lambda一次到达后同时更新多步，但是也更加保守了，因为多个状态动作对受影响。
Agent代码如下：

"""
Sarsa Lambda
"""

class Agent:
    def __init__(self, actions, learning_rate, reward_decay, e_greedy, sarsa_lambda):
        self.actions = actions
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon = e_greedy
        self.q_table = pd.DataFrame(
            columns=self.actions,
            dtype=np.float
        )
        self.lambda_ = sarsa_lambda
        self.eligibility_trace = self.q_table.copy()

    def choose_action(self, observation):
        self.check_state_exist(observation)
        if np.random.uniform() < self.epsilon:
            state_actions = self.q_table.loc[observation, :]
            action = np.random.choice(state_actions[state_actions == np.max(state_actions)].index)
        else:
            action = np.random.choice(self.actions)
        return action

    def learn(self, s, a, r, s_, a_):
        self.check_state_exist(s_)
        q_predict = self.q_table.loc[s, a]
        if s_ != 'end':
            q_target = r + self.gamma * self.q_table.loc[s_, a_]
        else:
            q_target = r
        error = q_target - q_predict
        self.eligibility_trace.loc[s, :] *= 0
        self.eligibility_trace.loc[s, a] = 1
        self.q_table += self.lr * error * self.eligibility_trace
        self.eligibility_trace *= self.gamma * self.lambda_

    def check_state_exist(self, state):
        if state not in self.q_table.index:
            to_be_append = pd.Series(
                    [0] * len(self.actions),
                    index=self.q_table.columns,
                    name=state
                )
            self.q_table = self.q_table.append(to_be_append)
            self.eligibility_trace = self.eligibility_trace.append(to_be_append)

1.3 DQN（Deep Q-Network）及其优化版本

1.3.1 Nature DQN

在Q learning的基础上添加了三个新特性：

神经网络Q Network代替Q Table
记忆库用于经验回放
Q Network和Target Q Network分离
算法如下：

DQN引入了神经网络，将Q table替换为Q Network，解决高维状态动作对带来的数据量过多Q table无法存储的问题。使用神经网络的思想，使输入的状态动作对和输出的Q值变成一个函数，通过训练来拟合。
DQN带来的新问题以及解决方法：
神经网络的数据标记：使用了Q learning的思想，将目标值（真实行动带来的反馈）作为label。
分布需要独立：经验池回放 Experience Replay；目标网络 Target Q Network 和预测网络 Q Network 分离（数据独立可以减小方差）
Q：为什么DQN需要隔一段时间后才更新目标网络？
A：目标网络用来评价状态动作对，即相当于神经网络中的标签。如果每次更新当前网络的时候同时更新目标网络，相当于更新参数的同时，标签也改变了，这容易使得网络每次更新后相当于“重新训练”网络，收敛效果不好。
DQN的流程图如下：

DQN算法代码如下：

"""
DQN
"""

class DQN:
    def __init__(self, model, gamma=0.9, learning_rate=0.01):
        self.model = model.model
        self.target_model = model.target_model
        self.gamma = gamma
        self.lr = learning_rate
        # --------------------------训练模型--------------------------- #
        self.model.optimizer = tf.optimizers.Adam(learning_rate=self.lr)
        self.model.loss_func = tf.losses.MeanSquaredError()
        # self.model.train_loss = tf.metrics.Mean(name="train_loss")
        # ------------------------------------------------------------ #
        self.global_step = 0
        self.update_target_steps = 200  # 每隔200个training steps再把model的参数复制到target_model中
        self.loss_table = []

    def predict(self, obs):
        """
        使用self.model的value网络来获取 [Q(s,a1),Q(s,a2),...]
        """
        return self.model.predict(obs)

    def _train_step(self, action, features, labels):
        """
        训练步骤
        """
        with tf.GradientTape() as tape:
            # 计算 Q(s,a) 与 target_Q的均方差，得到loss
            predictions = self.model(features, training=True)
            enum_action = list(enumerate(action))
            pred_action_value = tf.gather_nd(predictions, indices=enum_action)
            loss = self.model.loss_func(labels, pred_action_value)
            self.loss_table.append(loss)
        gradients = tape.gradient(loss, self.model.trainable_variables)
        self.model.optimizer.apply_gradients(zip(gradients, self.model.trainable_variables))
        # self.model.train_loss.update_state(loss)

    def _train_model(self, action, features, labels, epochs=1):
        """
        训练模型
        """
        for epoch in tf.range(1, epochs+1):
            self._train_step(action, features, labels)

    def learn(self, obs, action, reward, next_obs, terminal):
        """
        使用DQN算法更新self.model的value网络
        """
        # 每隔200个training steps同步一次model和target_model的参数
        if (self.global_step > 200) and (self.global_step % self.update_target_steps == 0):
            self.replace_target()

        # 从target_model中获取 max Q' 的值，用于计算target_Q
        next_pred_value = self.model.predict(next_obs)
        best_v = tf.reduce_max(next_pred_value, axis=1)
        target = reward + self.gamma * best_v

        # 训练模型
        self._train_model(action, obs, target, epochs=1)
        self.global_step += 1

    def replace_target(self):
        """
        预测模型权重更新到target模型权重
        """
        self.target_model.get_layer(name='l1').set_weights(self.model.get_layer(name='l1').get_weights())
        # self.target_model.get_layer(name='l2').set_weights(self.model.get_layer(name='l2').get_weights())
        self.target_model.get_layer(name='l3').set_weights(self.model.get_layer(name='l3').get_weights())

DQN记忆库代码如下：

"""
ReplayMemory of Neture DQN
"""

class ReplayMemory:
    def __init__(self,max_size):
        self.buffer = collections.deque(maxlen=max_size)

    def append(self,exp):
        self.buffer.append(exp)

    def sample(self, batch_size):
        mini_batch = random.sample(self.buffer, batch_size)
        obs_batch, action_batch, reward_batch, next_obs_batch, done_batch = [], [], [], [], []

        for experience in mini_batch:
            s, a, r, s_p, done = experience
            obs_batch.append(s)
            action_batch.append(a)
            reward_batch.append(r)
            next_obs_batch.append(s_p)
            done_batch.append(done)

        return np.array(obs_batch).astype('float32'), \
            np.array(action_batch).astype('int32'), np.array(reward_batch).astype('float32'),\
            np.array(next_obs_batch).astype('float32'), np.array(done_batch).astype('float32')

    def __len__(self):
        return len(self.buffer)

后续优化版本：

Double DQN：通过改变target q的计算来优化
Prioritized Replay DQN：通过改变经验回放的结构和方式来优化
Dueling DQN：通过改变神经网络的结构来优化

1.3.2 Double Deep Q-Network

DDQN用于解决DQN中Q Network对于价值估计过高的问题，Target Q的选取仍然从目标网络中输出输入状态的所有动作的价值Q，但是选取哪一个动作不再是依照最大值，而是使用预测网络中输入状态的输出动作的最大值的索引来选取。DDQN中的Target Q如下：

1.3.3 Prioritized Experience Replay (DQN)

Prioritized Experience DQN将记忆库中的记录根据TD-error（Target Q - Q）进行排序，TD-error越大说明该记录越应该被学习。为此需要修改原来记忆库的数据结构，使用Jaromír Janisch提出的SumTree（一种完全二叉树）和对应的记忆库来存储。记忆都存储于叶子节点，非叶节点的值为子节点之和，这种结构在存储新节点时只需插入在末端并更新相应祖先节点即可，比其他排序算法计算的时间更少。
难点在于ISWeight的作用和计算：
Importance-Sampling Weights, 用来恢复被 Prioritized replay 打乱的抽样概率分布.

SumTree以及记忆库代码如下：

"""
SumTree and memory in Prioritized Experience DQN
"""

class SumTree(object):
    data_pointer = 0

    def __init__(self, capacity):
        # data_pointer即记忆data的索引，加上(self.capacity - 1)变为SumTree索引
        self.capacity = capacity  # 容量
        self.tree = np.zeros(2 * capacity - 1)  # SumTree，负责记录记忆的优先级，结构类似满二叉树？
        self.data = np.zeros(capacity, dtype=object)  # 叶子节点数据，负责记录记忆内容

    def add(self, p, data):
        # 猜测：data_pointer指向记忆数据末尾
        tree_idx = self.data_pointer + self.capacity - 1  # tree_idx指向SumTree末尾
        self.data[self.data_pointer] = data  # 更新记忆数据
        self.update(tree_idx, p)  # 更新SumTree

        self.data_pointer += 1
        if self.data_pointer >= self.capacity:
            self.data_pointer = 0

    def update(self, tree_idx, p):
        change = p - self.tree[tree_idx]
        self.tree[tree_idx] = p
        # 更新祖先节点
        while tree_idx != 0:
            tree_idx = (tree_idx - 1) // 2
            self.tree[tree_idx] += change

    def get_leaf(self, v):
        """
        关于SumTree的记忆选取可查看一下文档：
        https://zhuanlan.zhihu.com/p/165134346
        """
        parent_idx = 0
        while True:  # while循环比论文代码快
            cl_idx = 2 * parent_idx + 1  # 左子节点
            cr_idx = cl_idx + 1  # 右子节点
            if cl_idx >= len(self.tree):
                leaf_idx = parent_idx
                break
            else:
                if v <= self.tree[cl_idx]:
                    parent_idx = cl_idx
                else:
                    v -= self.tree[cl_idx]
                    parent_idx = cr_idx

        data_idx = leaf_idx - self.capacity + 1  # 转为记忆数据的索引
        return leaf_idx, self.tree[leaf_idx], self.data[data_idx]

    @property
    def total_p(self):
        return self.tree[0]


class ReplayMemory(object):
    epsilon = 0.01  # 避免0优先级的最小优先级
    alpha = 0.6  # [0~1] 将td-error转化为优先级
    beta = 0.4  # ? importance-sampling, from initial value increasing to 1
    beta_increment_per_sampling = 0.001  # ?
    abs_err_upper = 1.  # 初始化误差绝对值为1 clipped abs error

    def __init__(self, capacity):
        self.tree = SumTree(capacity)

    def sample(self, n):
        b_idx, b_memory, ISWeights = np.empty((n,), dtype=np.int32), np.empty((n, self.tree.data[0].size)), np.empty(
            (n, 1))
        pri_seg = self.tree.total_p / n  # 分成batch个区间
        # beta = 0.4 每次采样都会增大0.001，最大值为1
        self.beta = np.min([1., self.beta + self.beta_increment_per_sampling])
        # 最小优先级占所有优先级之和的比重，由于后面计算ISWeights
        min_prob = np.min(self.tree.tree[-self.tree.capacity:]) / self.tree.total_p
        # print('min of 优先级: ' + str(self.tree.tree[-self.tree.capacity:]))
        # print('total_p: ' + str(self.tree.total_p))
        print('min_prob: ' + str(min_prob))
        for i in range(n):
            a, b = pri_seg * i, pri_seg * (i + 1)  # 每个区间的上下界
            v = np.random.uniform(a, b)  # 在该区间随机抽取一个数
            idx, p, data = self.tree.get_leaf(v)  # 该数对应的优先级
            prob = p / self.tree.total_p  # 当前优先级占所有优先级之和的比重

            # 疑惑点：
            # prob / min_prob 当前优先级和最小优先级之比
            # ISWeights<=1 且仅当优先级最小时为1，优先级越大ISWeights越小，
            # 而且随着采样次数增多，beta逐渐增大，而ISWeight逐渐减小
            ISWeights[i, 0] = np.power(prob / min_prob, -self.beta)
            b_idx[i], b_memory[i, :] = idx, data
        return b_idx, b_memory, ISWeights

    def store(self, transition):
        max_p = np.max(self.tree.tree[-self.tree.capacity:])
        if max_p == 0:
            max_p = self.abs_err_upper
        self.tree.add(max_p, transition)

    def batch_update(self, tree_idx, abs_errors):
        abs_errors += self.epsilon  # 避免为0
        """
        比较两个数组，将每个位置数值较小的值填入一个新数组并返回，
        若两个数组其中一个是单个数字，使用广播机制扩充为相同尺寸的数组
        self.abs_err_upper为1，因此下面语句是abs_errors中所有大于1的值化为1
        以保证所有error<=1
        """
        clipped_errors = np.minimum(abs_errors, self.abs_err_upper)
        ps = np.power(clipped_errors, self.alpha)  # td-error转化为优先级
        for ti, p in zip(tree_idx, ps):
            self.tree.update(ti, p)

1.3.4 Dueling DQN
Dueling DQN对DQN的神经网络进行了优化，将输出的状态动作价值Q(s, a)分为了状态价值V(s) 和优势Advantage(s, a)之和进行表示：

网络结构修改为：

神经网络模型的代码如下：

"""
Network of Dueling DQN
"""

class Model:
    def __init__(self, obs_n, act_dim):
        self.obs_n = obs_n
        self.act_dim = act_dim
        self._build_model()

    def _build_layers(self):
        dense_size1 = 30
        dense_size2 = 16
        dense_size2 = 40

        # 定义输入层
        input_node = Input(shape=self.obs_n)
        input_layer = input_node

        # 第一层
        layer1 = layers.Dense(
            dense_size1,
            kernel_initializer=tf.random_normal_initializer(0., 0.3),
            bias_initializer=tf.constant_initializer(0.1),
            # activation='relu',
            activation=layers.LeakyReLU(alpha=0.05),
            name='l1'
        )(input_layer)

        # 计算状态价值
        state_value = layers.Dense(
            dense_size2,
            kernel_initializer=tf.random_normal_initializer(0., 0.3),
            bias_initializer=tf.constant_initializer(0.1),
            activation=layers.LeakyReLU(alpha=0.05),
            name='state_value_1'
        )(layer1)
        state_value = layers.Dense(
            1,
            kernel_initializer=tf.random_normal_initializer(0., 0.3),
            bias_initializer=tf.constant_initializer(0.1),
            activation=layers.LeakyReLU(alpha=0.05),
            name='state_value_2'
        )(state_value)

        # 计算行动优势
        action_advantage = layers.Dense(
            dense_size2,
            kernel_initializer=tf.random_normal_initializer(0., 0.3),
            bias_initializer=tf.constant_initializer(0.1),
            activation=layers.LeakyReLU(alpha=0.05),
            name='action_advantage_1'
        )(layer1)
        action_advantage = layers.Dense(
            self.act_dim,
            kernel_initializer=tf.random_normal_initializer(0., 0.3),
            bias_initializer=tf.constant_initializer(0.1),
            activation=layers.LeakyReLU(alpha=0.05),
            name='action_advantage_2'
        )(action_advantage)

        # 计算Q值
        q = layers.add([state_value, action_advantage])

        # 定义模型
        model = tf.keras.Model(inputs=input_node, outputs=q)
        model.summary()
        return model

    def _build_model(self):
        self.model = self._build_layers()
        self.target_model = self._build_layers()

2. policy-based 基于策略的算法

基于策略算法不使用价值函数而是使用策略函数来输出动作的概率，不会使用固定的动作选择，最大的特点是将动作使用概率表示，因此所有动作都有可能被选到，而且得益于概率表示，可以将动作映射到分布中，因此可以设置高位的动作和连续动作。

Policy Gradient这种基于策略算法要做的，就是最大化奖励期望`Rθ；而像dqn这种基于价值要做的，是最大化奖励 Rθ 。policy-based流程如下：
更新网络参数θ – 如何更新使得期望最大化 – 朝梯度上升方向更新

Policy Gradient算法可以根据更新方式分为两大类：
MC更新方法：Reinfoce算法；
TD更新方法：Actor-Critic算法；

2.1 REINFORCE

与value-based方法的区别：

使用动作概率表示：在目标网络最后一层输出使用softmax，用动作概率而不是动作价值来表示
回合更新：在一个回合结束之后才学习，而不像dqn一样几步一学习。回合更新的优点是准确。对于深度强化学习来说，前期的标签可能具有欺骗性？这时的过早学习可能会误导网络的参数，使用回合更新可以使这种趋势减小；回合更新的缺点是相对耗时。对于一些需要长步数的回合，需要较长时间才可以学习到新的参数。

细节：

使用梯度上升来反向传播，并且直接使用奖励而不是计算误差来作为反向传播的输入。
减弱drl中标签欺骗性的方法：对于上面讲到的深度强化学习的标签的欺骗性（标签是真实的动作，并不是正确的动作），Policy Gradient使用一个方法来减少这个趋势：将标签和输出的差距乘以回报，用回报来评价这个误差的重要性，如果回报是正数而且数值很大，则这个loss的权重很大，若数值很小甚至为负值（不清楚是否可以为负值），则说明这个loss权重很小甚至起反效果。
Policy Gradient的网络输出是动作概率而不是动作价值，问题类似于分类问题，即对于输入的图像（state）判断属于某种类型（要使用某种action）的概率，因此构造的网络的输出函数可以用分类问题常用的softmax

优点：

因为使用动作概率，所以可以适用于随机性问题
对于不好计算价值的模型更适用
对于连续的动作空间（高维）更适用

缺点：

容易局部最优

优化：

奖励基准值：对于奖励总为正的环境，难以判断某些轨迹是否真正有帮助，对奖励设置一个基准值（一般设置为所有轨迹的总奖励的平均数），用轨迹的奖励减去基准值来判断。
动作评分：轨迹中并不是每一个动作都对于最终的分数有正确作用，但是在计算期望的时候，每个动作的权重都是使用轨迹的总奖励，因此可以对每个动作分别设置权重，用这个动作开始后的奖励之和来反映这个动作的价值（权重）。

代码如下：

"""
Policy Gradient
"""

class PolicyGradient:
    def __init__(self,
                 n_action,
                 shape_state,
                 n_layers,
                 size,
                 reward_decay=0.99,
                 learning_rate=0.01,
                 batch_size=1,
                 max_t_length=500
                 ):
        if size is None:
            size = [64]
        self.n_action = n_action
        self.shape_state = shape_state
        self.n_layers = n_layers
        self.size = size
        self.reward_decay = reward_decay
        self.learning_rate = learning_rate
        self.batch_size = batch_size
        self.max_t_length = max_t_length

        self.model = self._build_net()
        self.optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)
        self.transitions = self.reset_transition()
        self.p_transitions = -1


    def _build_net(self):
        kernel_init = 'he_normal'  # 正态分布
        bias_init = tf.constant_initializer(0.01)  # 常数
        model = tf.keras.Sequential()
        for i in range(self.n_layers):
            model.add(layers.Dense(self.size[i],
                                   activation=tf.nn.tanh,
                                   kernel_initializer=kernel_init,
                                   bias_initializer=bias_init))
        model.add(layers.Dense(self.n_action,
                               activation=tf.nn.tanh,
                               kernel_initializer=kernel_init,
                               bias_initializer=bias_init))
        return model

    def add_store_t(self):
        self.transitions.append([[], [], []])
        self.p_transitions += 1

    def store_transition(self, s, a, r):
        self.transitions[self.p_transitions][0].append(s)
        self.transitions[self.p_transitions][1].append(a)
        self.transitions[self.p_transitions][2].append(r)

    def reset_transition(self):
        self.p_transitions = -1
        return []

    def choose_action(self, state):
        # 转换state格式，(state_dim,) => (batch, state_dim) 此时 batch=1
        state = state[np.newaxis, :]
        state = tf.convert_to_tensor(state, dtype=tf.float32)

        # 得到每个动作概率，由于每个网络最后的输出函数是tanh，需要再加一个softmax
        p_actions = self.model(state)
        p_actions = tf.nn.softmax(p_actions)

        # 按概率选择
        action = np.random.choice(np.arange(self.n_action), p=p_actions.numpy()[0])
        # print('查看p_actions格式: ' + str(p_actions))
        return action

    def sum_of_rewards(self):
        res = []
        for t in range(len(self.transitions)):
            tmp = 0
            t_rewards = self.transitions[t][2]
            t_rewards_to_go = np.zeros_like(t_rewards)
            for i in reversed(range(0, len(t_rewards))):
                tmp = tmp * self.reward_decay + t_rewards[i]
                t_rewards_to_go[i] = tmp
            res.append(t_rewards_to_go)
        return np.concatenate(res)

    def learn(self):
        tmp = np.array(self.transitions[0][0])
        print(tmp.shape)
        print(np.array([t[0] for t in self.transitions]))
        obs = np.concatenate([t[0] for t in self.transitions])
        acs = np.concatenate([t[1] for t in self.transitions])
        res = self.sum_of_rewards()

        with tf.GradientTape() as tape:
            # 预测值
            pred_p_actions = self.model(obs)
            pred_p_actions = tf.nn.softmax(pred_p_actions)

            neg_log_prob = tf.reduce_sum(-tf.math.log(pred_p_actions) * tf.one_hot(acs, depth=self.n_action), axis=1)
            loss = tf.reduce_sum(neg_log_prob * res) / self.batch_size

        grads = tape.gradient(loss, self.model.trainable_variables)
        self.optimizer.apply_gradients(zip(grads, self.model.trainable_variables))

    def train(self, env, seed, n_episodes):
        np.random.seed(seed)
        tf.random.set_seed(seed)
        env.seed(seed)
        for i_episode in range(n_episodes):
            state = env.reset()
            self.add_store_t()
            steps = 0
            while True:
                env.render()
                action = self.choose_action(state)
                next_state, reward, done, info = env.step(action)
                self.store_transition(state, action, reward)
                state = next_state

                # 这里使用了回合更新，而且是单回合更新，从理论上说，越多回合作为一个batch越好
                if done or steps > self.max_t_length:
                    print('done: ' + str(done) + '  steps: ' + str(steps))
                    if i_episode % self.batch_size == 0:
                        self.learn()
                        self.transitions = self.reset_transition()
                    break

3. Actor-Critic 结构的算法

3.1 Actor-Critic（AC）

使用TD-error方法改进REINFORCE从回合更新改为单步更新。用 TD 比较稳，用 MC 比较精确。
Q：为什么说 REINFORCE 方差大？
A：受知乎答案启发强化学习，方差比较大是说什么的方差大，为啥方差比较大？ - 知乎，方差大指的是同样的策略下，输出的回报变化很大（有点过拟合的意思）。在 REINFORCE 中一次只采集一个或几个完整轨迹（多了采集时间久）进行学习，导致了方差较大。（Following from 第九章演员-评论家算法）假设我们可以采样足够的次数，在每次更新参数之前，我们都可以采样足够的次数，那其实没有什么问题。但问题就是我们每次做 policy gradient，每次更新参数之前都要做一些采样，这个采样的次数其实是不可能太多的，我们只能够做非常少量的采样。如果你正好采样到差的结果，比如说你采样到 G = 100，采样到 G = -10，那显然你的结果会是很差的。
Q：怎么拿期望值代替采样的值呢？
A：这边就需要引入基于价值的(value-based)的方法。基于价值的方法就是 Q-learning。Q-learning 有两种函数，有两种 critics。

第一种 critic 是 Vπ(s)，它的意思是说，假设 actor 是 π，拿 π 去跟环境做互动，当我们看到状态 s 的时候，接下来累积奖励的期望值有多少。
还有一个 critic 是 Qπ(s,a)。Qπ(s,a) 把 s 跟 a 当作输入，它的意思是说，在状态 s 采取动作 a，接下来都用 actor π 来跟环境进行互动，累积奖励的期望值是多少。

在Policy Gradient中的梯度更新为：

Actor-Critic在Policy Gradient的基础上引入了value-based方法中值函数的概念来预测 Gt 的期望值，将Policy Gradient的梯度更新中的 Gt 转为 Q(s, a) 函数，baseline 转为 V(s) 函数，

3.2 Advantage Actor-Critic（A2C）

名称中的 Advantage 代表 advantage function 优势函数，将 Q(s, a) 用 r + V(s) 代替，从而将Q函数简化，使只需要训练一个 V(s) 函数的网络而不用训练 Q(s, a) 函数网络

为什么可以用 r + V(s) 的形式代替 Q(s, a) 呢，首先Q函数本身可以写成：

在这里我们将期望去掉即变成 r+v(s, a)形式，虽然增加了随机性、增大了方差，但是相对于 Gt 的方差小了很多，可以去掉期望还算合理。

至于为什么两种都行（使用q v和只是用v的两种）而选择使用后者呢？原始的 A3C paper 试了各种方法，最后做出来就是这个最好。233
在实际操作的时候，虽然理论上需要两个网络： policy 网络和 V(s) 网络。但是这两个网络的输入都是 s ，只是输出不同（动作的分布和 s 的价值），所以这两个网络可以共用前面的层，用来将 s 抽象成高级的信息。
A2C流程图如下：

A2C代码如下：

"""
Advantage Actor-Critic
"""

class ActorCritic:
    def __init__(self,
                 env,  # 环境
                 action_space,  # 动作类型：连续/离散
                 n_action,  # 动作维度（连续）/数量（离散）
                 obs_space,  # 观察类型：连续/离散
                 n_obs,  # 状态维度（连续）/数量（离散）
                 max_steps_per_episodes,  # 每回合最大步数
                 learning_rate,  # 学习率
                 reward_decay,  # 奖励衰减
                 n_batch  # 定义一组学习数组大小
                 ):
        self.action_space = action_space
        self.n_action = n_action
        self.obs_space = obs_space
        self.n_obs = n_obs
        self.max_steps_per_episodes = max_steps_per_episodes
        self.learning_rate = learning_rate
        self.reward_decay = reward_decay
        self.n_batch = n_batch

        self.n_layers = 2  # 中间隐藏层数量，不包括输出层
        self.n_units = 128
        self.activation = 'relu'
        self.kernel_initializer = 'he_normal'  # 默认正太分布
        self.bias_initializer = tf.constant_initializer(0.01)  # 常数
        self.policy_model, self.critic_model = self._build_net()
        self.policy_model.compile(optimizer=optimizers.Adam(self.learning_rate),
                                  loss=self._policy_loss)
        self.critic_model.compile(optimizer=optimizers.Adam(self.learning_rate),
                                  loss=self._critic_loss)

        self.learning_times = 0
        self.output_env_info = False
        self.transitions = {
            'obs': np.empty((self.n_batch,) + env.observation_space.shape),
            'acs': np.empty((self.n_batch,), dtype=np.int32),
            'res': np.empty((self.n_batch,)),
            'done': np.empty((self.n_batch,))
        }

    def _build_net(self):
        policy_model = tf.keras.Sequential()  # 策略网络
        for i in range(self.n_layers):
            name = 'layer' + str(i)
            policy_model.add(layers.Dense(self.n_units,
                                          activation=self.activation,
                                          kernel_initializer=self.kernel_initializer,
                                          bias_initializer=self.bias_initializer,
                                          name=name))
        policy_model.add(layers.Dense(self.n_action,
                                      activation=tf.nn.softmax,
                                      kernel_initializer=self.kernel_initializer,
                                      bias_initializer=self.bias_initializer,
                                      name='layer' + str(self.n_layers)))

        critic_model = tf.keras.Sequential()  # 评价网络
        for i in range(self.n_layers):
            name = 'layer' + str(i)
            critic_model.add(layers.Dense(self.n_units,
                                          activation=tf.nn.softmax,
                                          kernel_initializer=self.kernel_initializer,
                                          bias_initializer=self.bias_initializer,
                                          name=name))
        critic_model.add(layers.Dense(1,
                                      activation=self.activation,
                                      kernel_initializer=self.kernel_initializer,
                                      bias_initializer=self.bias_initializer,
                                      name='layer' + str(self.n_layers)))
        return policy_model, critic_model

    def _policy_loss(self, y_true, y_pred):
        actions, advantages = tf.split(y_true, 2, axis=-1)
        loss_function = losses.SparseCategoricalCrossentropy(from_logits=True)
        actions = tf.cast(actions, tf.int32)
        loss = loss_function(actions, y_pred, sample_weight=advantages)
        return loss

    def _critic_loss(self, y_true, y_pred):
        return losses.mean_squared_error(y_true, y_pred)

    def choose_action(self, obs):
        # 转为列向量，表示每个输入都是一维的，使用行向量会导致所有obs作为一个输入
        obs = obs[np.newaxis, :]
        obs = tf.convert_to_tensor(obs)

        p_actions = self.policy_model.predict_on_batch(obs)
        # print(p_actions)
        action = np.random.choice(np.arange(self.n_action), p=np.array(p_actions)[0])
        return action

    def learn(self):
        obs = self.transitions['obs']
        actions = self.transitions['acs']
        rewards = self.transitions['res']
        done = self.transitions['done']
        values = tf.squeeze(self.critic_model(obs[np.newaxis, :]))

        td_error = np.append(np.zeros_like(rewards), [values[-1]], axis=-1)
        # td_error = np.append(np.zeros_like(rewards), [], axis=-1)
        for t in reversed(range(rewards.shape[0])):
            td_error[t] = rewards[t] + td_error[t + 1] * done[t]
        td_error = td_error[:-1]
        advantages = td_error - values

        actions_and_advantages = np.concatenate([actions[:, None], advantages[:, None]], axis=-1)

        self.policy_model.train_on_batch(obs, actions_and_advantages)  # arg1 input; arg2 label
        self.critic_model.train_on_batch(obs, td_error)
        self.transitions = {
            'obs': np.empty((self.n_batch,) + env.observation_space.shape),
            'acs': np.empty((self.n_batch,), dtype=np.int32),
            'res': np.empty((self.n_batch,)),
            'done': np.empty((self.n_batch,))
        }  # 清空数组

    def store_transition(self, index, obs, action, reward, done):
        self.transitions['obs'][index] = obs.copy()
        self.transitions['acs'][index] = action
        self.transitions['res'][index] = reward
        self.transitions['done'][index] = done

    def train(self, env, n_episodes, render=False):
        reward_history = []
        total_steps = 0
        # 尝试将 n_episodes 当作学习次数
        obs_ = env.reset()
        reward_history = [0.]
        for i in range(n_episodes):
            for step in range(self.n_batch):
                if render:
                    env.render()
                obs = obs_.copy()
                action = self.choose_action(obs)
                obs_, reward, done, info = env.step(action)
                self.store_transition(step, obs, action, reward, done)
                reward_history[-1] += reward
                if done:
                    obs_ = env.reset()
                    print('#' + str(i) + ' reward: ' + str(reward_history[-1]))
                    reward_history.append(0.)
            self.learn()
        return reward_history

    def test(self, env, n_episodes, render=False):
        total_reward = 0
        reward_history = []
        for i in n_episodes:
            obs = env.reset()
            while True:
                if render:
                    env.render()
                action = self.choose_action(obs)
                obs_, reward, done, info = env.step(action)
                total_reward += reward
                obs = obs_
                if done:
                    break
        print('average reward is ' + str(total_reward / n_episodes))

3.3 Asynchronous Advantage Actor-Critic（A3C）

加入了异步操作，解决难收敛问题。具体是借助dqn中经验回放experience replay的思想并加以改进，在使用多个线程同时与环境交互，并更新公共网络。

3.4 Deep Deterministic Policy Gradient（DDPG）

再次回到Q learning，前面我们针对高维状态动作对带来的数据量过多问题其引入了神经网络，带来了DQN，现在针对DQN无法拓展到连续动作引入了策略网络，组成AC结构，在此基础上保留了DQN的优化方法：经验回放和目标网络，形成了DDPFG。

DDPG算法流程如下：

3.5 Twin Delayed DDPG（TD3）

DDPG 常见的问题是已经学习好的 Q 函数开始显著地高估 Q 值，然后导致策略被破坏了，因为它利用了 Q 函数中的误差。为了解决这个问题，TD3的作者使用了三个技巧来优化：

截断的双 Q 学习(Clipped Dobule Q-learning) 。TD3 学习两个 Q-function（因此名字中有 “twin”）。TD3 通过最小化均方差来同时学习两个 Q-function：Q1 和 Q2。两个 Q-function 都使用一个目标，两个 Q-function 中给出较小的值会被作为如下的 Q-target：
延迟的策略更新(“Delayed” Policy Updates) 。相关实验结果表明，同步训练动作网络和评价网络，却不使用目标网络，会导致训练过程不稳定；但是仅固定动作网络时，评价网络往往能够收敛到正确的结果。因此 TD3 算法以较低的频率更新动作网络，较高频率更新评价网络，通常每更新两次评价网络就更新一次策略。
目标策略平滑(Target Policy smoothing) 。TD3 引入了 smoothing 的思想。TD3 在目标动作中加入噪音，通过平滑 Q 沿动作的变化，使策略更难利用 Q 函数的误差。
算法流程如下：

TD3 代码如下（我的TD3实验效果不好，这里放出原作者的代码，带一点注释）：

"""
TD3
"""

class TD3:

    def __init__(
            self, state_dim, action_dim, action_range, hidden_dim, replay_buffer, policy_target_update_interval=1,
            q_lr=3e-4, policy_lr=3e-4
    ):
        self.replay_buffer = replay_buffer

        # initialize all networks
        self.q_net1 = QNetwork(state_dim, action_dim, hidden_dim)
        self.q_net2 = QNetwork(state_dim, action_dim, hidden_dim)
        self.target_q_net1 = QNetwork(state_dim, action_dim, hidden_dim)
        self.target_q_net2 = QNetwork(state_dim, action_dim, hidden_dim)
        self.policy_net = PolicyNetwork(state_dim, action_dim, hidden_dim, action_range)
        self.target_policy_net = PolicyNetwork(state_dim, action_dim, hidden_dim, action_range)
        print('Q Network (1,2): ', self.q_net1)
        print('Policy Network: ', self.policy_net)

        # initialize weights of target networks
        self.target_q_net1 = self.target_ini(self.q_net1, self.target_q_net1)
        self.target_q_net2 = self.target_ini(self.q_net2, self.target_q_net2)
        self.target_policy_net = self.target_ini(self.policy_net, self.target_policy_net)

        # set train mode
        self.q_net1.train()
        self.q_net2.train()
        self.target_q_net1.eval()
        self.target_q_net2.eval()
        self.policy_net.train()
        self.target_policy_net.eval()

        self.update_cnt = 0
        self.policy_target_update_interval = policy_target_update_interval

        self.q_optimizer1 = tf.optimizers.Adam(q_lr)
        self.q_optimizer2 = tf.optimizers.Adam(q_lr)
        self.policy_optimizer = tf.optimizers.Adam(policy_lr)

    def target_ini(self, net, target_net):
        """ hard-copy update for initializing target networks """
        for target_param, param in zip(target_net.trainable_weights, net.trainable_weights):
            target_param.assign(param)
        return target_net

    def target_soft_update(self, net, target_net, soft_tau):
        """ soft update the target net with Polyak averaging """
        for target_param, param in zip(target_net.trainable_weights, net.trainable_weights):
            target_param.assign(  # copy weight value into target parameters
                target_param * (1.0 - soft_tau) + param * soft_tau
            )
        return target_net

    def update(self, batch_size, eval_noise_scale, reward_scale=10., gamma=0.9, soft_tau=1e-2):
        """ update all networks in TD3 """
        self.update_cnt += 1
        state, action, reward, next_state, done = self.replay_buffer.sample(batch_size)

        reward = reward[:, np.newaxis]  # expand dim
        done = done[:, np.newaxis]

        new_next_action = self.target_policy_net.evaluate(
            next_state, eval_noise_scale=eval_noise_scale
        )  # clipped normal noise
        reward = reward_scale * (reward - np.mean(reward, axis=0)) / (
            np.std(reward, axis=0) + 1e-6
        )  # normalize with batch mean and std; plus a small number to prevent numerical problem

        # Training Q Function
        target_q_input = tf.concat([next_state, new_next_action], 1)  # the dim 0 is number of samples
        target_q_min = tf.minimum(self.target_q_net1(target_q_input), self.target_q_net2(target_q_input))

        target_q_value = reward + (1 - done) * gamma * target_q_min  # if done==1, only reward
        q_input = tf.concat([state, action], 1)  # input of q_net

        with tf.GradientTape() as q1_tape:
            predicted_q_value1 = self.q_net1(q_input)
            q_value_loss1 = tf.reduce_mean(tf.square(predicted_q_value1 - target_q_value))
        q1_grad = q1_tape.gradient(q_value_loss1, self.q_net1.trainable_weights)
        self.q_optimizer1.apply_gradients(zip(q1_grad, self.q_net1.trainable_weights))

        with tf.GradientTape() as q2_tape:
            predicted_q_value2 = self.q_net2(q_input)
            q_value_loss2 = tf.reduce_mean(tf.square(predicted_q_value2 - target_q_value))
        q2_grad = q2_tape.gradient(q_value_loss2, self.q_net2.trainable_weights)
        self.q_optimizer2.apply_gradients(zip(q2_grad, self.q_net2.trainable_weights))

        # Training Policy Function
        if self.update_cnt % self.policy_target_update_interval == 0:
            with tf.GradientTape() as p_tape:
                # 更新actor的时候，我们不需要加上noise，这里是希望actor能够寻着最大值。加上noise并没有任何意义
                new_action = self.policy_net.evaluate(
                    state, eval_noise_scale=0.0
                )  # no noise, deterministic policy gradients
                new_q_input = tf.concat([state, new_action], 1)
                # """ implementation 1 """
                # predicted_new_q_value = tf.minimum(self.q_net1(new_q_input),self.q_net2(new_q_input))
                """ implementation 2 """
                predicted_new_q_value = self.q_net1(new_q_input)
                policy_loss = -tf.reduce_mean(predicted_new_q_value)
            p_grad = p_tape.gradient(policy_loss, self.policy_net.trainable_weights)
            self.policy_optimizer.apply_gradients(zip(p_grad, self.policy_net.trainable_weights))

            # Soft update the target nets
            self.target_q_net1 = self.target_soft_update(self.q_net1, self.target_q_net1, soft_tau)
            self.target_q_net2 = self.target_soft_update(self.q_net2, self.target_q_net2, soft_tau)
            self.target_policy_net = self.target_soft_update(self.policy_net, self.target_policy_net, soft_tau)

    def save(self):  # save trained weights
        path = os.path.join('model', '_'.join([ALG_NAME, ENV_ID]))
        if not os.path.exists(path):
            os.makedirs(path)
        extend_path = lambda s: os.path.join(path, s)
        tl.files.save_npz(self.q_net1.trainable_weights, extend_path('model_q_net1.npz'))
        tl.files.save_npz(self.q_net2.trainable_weights, extend_path('model_q_net2.npz'))
        tl.files.save_npz(self.target_q_net1.trainable_weights, extend_path('model_target_q_net1.npz'))
        tl.files.save_npz(self.target_q_net2.trainable_weights, extend_path('model_target_q_net2.npz'))
        tl.files.save_npz(self.policy_net.trainable_weights, extend_path('model_policy_net.npz'))
        tl.files.save_npz(self.target_policy_net.trainable_weights, extend_path('model_target_policy_net.npz'))

    def load(self):  # load trained weights
        path = os.path.join('model', '_'.join([ALG_NAME, ENV_ID]))
        extend_path = lambda s: os.path.join(path, s)
        tl.files.load_and_assign_npz(extend_path('model_q_net1.npz'), self.q_net1)
        tl.files.load_and_assign_npz(extend_path('model_q_net2.npz'), self.q_net2)
        tl.files.load_and_assign_npz(extend_path('model_target_q_net1.npz'), self.target_q_net1)
        tl.files.load_and_assign_npz(extend_path('model_target_q_net2.npz'), self.target_q_net2)
        tl.files.load_and_assign_npz(extend_path('model_policy_net.npz'), self.policy_net)
        tl.files.load_and_assign_npz(extend_path('model_target_policy_net.npz'), self.target_policy_net)

你可能感兴趣的:(资料,日志,算法,机器学习,强化学习)

什么是 Paxos和Raft MonkeyKing.sun paxos raft
Raft和Paxos是两种经典的分布式一致性算法（ConsensusAlgorithms），广泛应用于数据库、分布式系统、微服务架构中，用来确保在多个节点中即使有部分节点故障，系统仍然可以就“某一值”达成一致（即：分布式共识）。它们不是区块链专属，但在联盟链、私有链或数据库复制系统中常被用来替代PoW、PBFT等共识机制。一、什么是Paxos？定义：Paxos是一种保证在部分节点失效或网络延迟时，
什么是DPoS（Delegated Proof of Stake，委托权益证明） MonkeyKing.sun DPoS
DPoS（DelegatedProofofStake，委托权益证明）是一种基于PoS（权益证明）演进而来的共识算法，设计初衷是提高性能、增强治理效率、实现社区自治。一、什么是DPoS（委托权益证明）？DPoS是一种将记账权“委托给投票选出的代表节点”的共识机制。普通用户不直接参与出块，而是通过投票选出“代表人”代为记账和验证交易。可以理解为：“股东大会投票选董事会代表他们管理公司”。二、DPoS的
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Go 中 gRPC Metadata 使用详解 Code季风深入探索Go RPC：构建与实践 golang 开发语言后端学习 rpc
在分布式系统中，客户端和服务端之间的通信不仅仅是数据的交换，还涉及到身份验证、日志追踪等额外信息的传递。gRPC提供了一种名为Metadata的机制来满足这种需求。本文将通过一个具体的示例来讲解如何在Go语言中使用gRPC的Metadata。一、简介Metadata是一种键值对结构，它可以在不改变请求或响应消息体的情况下携带额外的信息。这些信息通常用于认证（如token）、追踪（如traceid）
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
OpenCV CUDA模块设备层-----线性插值函数log() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建线性插值访问器，支持对GPU内存中的图像数据进行双线性插值采样。主要应用于图像缩放、旋转等几何变换中需要亚像素级精度的场景。为输入图像构造一个基于“双线性插值”的访问器对象LinearInterPtrSz，可以在CUDA核函数中按需访问缩放后的像素值
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
2026英语四六级全套资料无偿分享【超全】备考网课，持续更新！ zjsx138 高考
2026四六级资料合集夸克网盘分享【2026四级英语】夸克网盘分享【2026六级英语】夸克网盘分享
算法训练营|数组总结慧泽huize 数据结构算法 leetcode python c++
时间复杂度：算法执行语句的次数空间复杂度：算法在运行过程中临时占存储空间大小数组（C++）：存放在连续内存空间的相同类型固定大小的数据的集合，不能删除，只能覆盖列表（Python）：数据可以是不同类型，列表长度可变1.二分查找循环不变量原则，清楚区间定义时间复杂度：O(logn)空间复杂度：O(1)2.双指针法快指针找到新数组元素，慢指针指向新数组下标时间复杂度：O(n)空间复杂度：O(1)3.双
手把手教程：在 VS2017 32位 Windows 环境下编译 OR-Tools 9.6 并集成到 C++ 项目 A小庞 C++知识算法 c++开发语言 or-tools 算法库
OR-Tools是Google开源的优化算法库，支持路径规划、线性规划、约束编程等多种功能。本文将详细介绍在VisualStudio201732位Windows环境下编译OR-Tools9.6的两种方法：联网自动下载依赖和手动编译依赖项，并提供避坑指南。方法一：联网自动下载依赖（推荐新手）步骤1：克隆OR-Tools仓库gitclonehttps://github.com/google/or-to
Google的OR-Tools：运筹学与优化的强大工具 A小庞算法调度算法 or-tools Google
在当今数字化时代，优化问题无处不在，从物流配送到生产计划，从资源调度到交通流量优化，这些看似复杂的问题都可以通过专业的工具来解决。Google的OR-Tools正是这样一款强大的运筹学和优化工具包，它为开发者提供了丰富的算法和功能，帮助解决各种复杂的优化问题。一、OR-Tools简介OR-Tools（OperationsResearchTools）是Google开源的一个用于组合优化的软件套件，旨
第十届“信也科技杯”全球 AI 算法大赛火热开赛！巅峰对决 · 超三十万奖金等你挑战猫头虎猫头虎精品博客专栏科技人工智能神经网络计算机视觉语音识别机器学习目标检测
巅峰对决·超三十万奖金等你挑战！第十届“信也科技杯”全球AI算法大赛火热开赛！第十届信也科技杯全球AI算法大赛活动目录合作单位赛事概况赛事奖励赛事日程速览即刻报名参赛电脑端报名报名选手交流群关于“信也科技杯”关于信也科技合作单位“信也科技杯”是由信也科技主办的数据算法竞赛平台，信也科技与两大全球顶级AI会议合作不仅是IJCAI2025官方合作单位，“信也科技杯”也被CIKM2025AnalytiC
《聚类算法》入门--大白话篇：像整理房间一样给数据分类
一、什么是聚类算法？想象一下你的衣柜里堆满了衣服，但你不想一件件整理。聚类算法就像一个聪明的助手，它能自动帮你把衣服分成几堆：T恤放一堆、裤子放一堆、外套放一堆。它通过观察衣服的颜色、大小、款式这些特征，把相似的放在一起，不相似的分开。在计算机世界里，聚类算法就是帮我们把杂乱的数据分成有意义的组。它不需要提前知道答案（这就是"无监督学习"），而是像侦探一样，从数据中发现隐藏的规律。二、最常见的三种
全局变量中断原子操作_51单片机解决中断和主程序共享全局变量的方法学弱猹全局变量中断原子操作
51单片机解决中断和主程序共享全局变量的方法所谓原子操作,并不是指一条指令,而是指一系列操作不能被打断.这种操作与临界区是密切相关的,可以说原子操作就是临界区引发出来的需求.以上是给大家提供资料查找的入口,下面我用通俗的话说说,但切不要认为自已看懂了就可以不去查以上相关资料了,知道啥叫"通俗"吗?呵呵.废话不多说:在多进程的系统里(比如多任务,比如中断服务程序),假如两组程序都要访问同一个资源,而
基于STM32与ZigBee的智能指引车库系统设计科创工作室li 毕业设计1 stm32 嵌入式硬件单片机
⭐资料具有原理图流程图PCB器件清单STM32与ZigBee的智能指引车库系统设计摘要：本文设计了一种基于STM32与ZigBee的智能指引车库系统。系统包含1台主机和3台从机，从机实时检测车位状况并发送给主机，主机显示3个车位的停车情况（满、无），并能简易引导车辆驶向空位，同时主机通过WiFi模块将数据上传至阿里云。该系统实现了车库车位的智能监测与引导，提高了车库管理的效率和便捷性。关键词：ST
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
C8051F单片机在三轴伺服转台动力学模型与伺服算法仿真中的应用【附设计】
自动化设计|控制系统|毕业设计指导|工业自动化解决方案✨专业领域：程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列编程三菱/欧姆龙应用PIC单片机触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以私信或查
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL gpt
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理1.MindSQL(库)MindSQL是一
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
用Tensorflow进行线性回归和逻辑回归（十） lishaoan77 tensorflow 线性回归 tensorboard 可视化
用TensorBoard可视化线性回归模型TensorBoard是一种可视化工具，用于了解、调试和优化模型训练过程。它使用在执行程序时编写的摘要事件。上面定义的模型使用tf.summary.FileWriter来写日志到日志目录/tmp/lr-train.我们可以用命令调用日志目录的TensorBoard，见Example3-13(TensorBoard已黙认安装与TensorFlow一起).Ex
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
给群晖6.2.4(NAS)实现免费的内网穿透_以zerotier-One实现牛奶咖啡13 NAS系统 zerotier 群晖内网穿透实现外网访问家里的群晖
一、实现效果①实现通过外网访问家里的群晖NAS，随时方便访问调取自己家里的群晖资料、视屏等资源。②实现群晖重启后依然能够启动zerotier-one服务，让外网能够访问。二、实现方法2.1、需要先到ZeroTier官网注册账号ZeroTier官网https://www.zerotier.com/download/具体的注册操作请参考如下连接：
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少