xl.zhang

强化学习实践八：DQN的实现

本文将带您一起实践深度学习与强化学习联合解决问题的一个经典算法：深度Q学习网络（DQN）。深度学习算法在强化学习领域的应用主要体现在价值函数或策略函数的近似表示上，理解了这一点将有助于您直击深度强化学习问题的本质。正因为如此，我们也可以使用不基于深度学习的其他函数近似工具。

这里贴一些别人已经写好的基于深度学习算法的一些链接：

borgwang/reinforce_py 用不同的机器学习库实现了各种深度强化学习算法
Reinforcement Learning (DQN) tutorial PyTorch官方教程提供直接基于游戏界面的CNN+DQN组合实现

在此对提供这些链接的作者一并表示感谢。

接下来我来按照自己的节奏和风格解释我的DQN算法实现。在我的代码里，我将把使用神经网络的价值函数的近似表示封装到一个Approximator类中，然后再实现包含此价值函数的继承自Agent基类的个体类：ApproxQAgent，最后我们将观察其在不同环境中的训练效果，并讲讲我自身的编程体会，基于深度学习库的代码我将使用PyTorch库。

Approximator类的实现

Approximator类作为价值函数的近似函数，其要实现的功能很简单：一是输出基于一个状态行为对s,a在参数w描述的函数下的价值Q(s,a,w)；另一个是调整参数来更新某型状态行为对s,a的价值。在先前基于GridWorld环境的SarsaAgent实现中，对应这两个函数的分别是读取和设置价值Q表：get_Q和set_Q，读者还记得吗？在基于价值函数的近似表示中，我们调整的不是直接的Q值，而是通过调整生成Q值的参数w来达到这个目的。

在第六讲中，我们学习到使用神经网络来近似价值函数，根据输入和输出数据的不同选择可以有三种不同的网络搭建方式，其中适用于Q学习的两种方式分别是：使用(s,a)为输入，单一的Q为输出，和使用基于s为输入不同行为对应的Q值组成的向量为输出。前者适用范围较广，后者更多见于行为空间为离散值的时候。本例中，我们使用的是后者。我们在__init__方法中声明这样的基于一个隐藏层的简单神经网络（近似价值函数）：

# /usr/local/bin/python3.7
# -*- coding:utf-8 -*-
# function approximators of reinforcment learning

import numpy as np
import torch
from torch.autograd import Variable
import copy


class Approximator(torch.nn.Module):
    '''base class of different function approximator subclasses
    '''

    def __init__(self, dim_input=1, dim_output=1, dim_hidden=16):
        super(Approximator, self).__init__()
        self.dim_input = dim_input
        self.dim_output = dim_output
        self.dim_hidden = dim_hidden

        # function Linear:__init(inputSize, outputSize)
        # hidden layer
        self.linear1 = torch.nn.Linear(self.dim_input, self.dim_hidden)
        self.linear2 = torch.nn.Linear(self.dim_hidden, self.dim_output)

我们主要是定义了两个nn.Module来实现线性变换，具体下文在进行网络的前向运算时会使用到ReLU激活函数。

设计一个predict方法来预测基于某状态的价值：

    def predict(self, x):
        # 实现ReLU:->max(0, x)
        # torch.clamp(input,min,max,out=None)-> Tensor
        # 将input中的元素限制在[min,max]范围内并返回一个Tensor
        h_relu = self.linear1(x).clamp(min=0)
        y_pred = self.linear2(h_relu)
        return y_pred

再写一个方法fit来进行训练，更新网络参数以更好的符合个体基于Q学习对于价值的判断：

    def fit(self, x,
                  y,
                  criterion=None,
                  optimizer=None,
                  epochs=1,
                  learning_rate=1e-4):
        if criterion is None:
            # MSELoss(reduce=False, size_average=False)
            # 如果 reduce = False，那么 size_average 参数失效，直接返回向量形式的 loss；
            # 如果 reduce = True，那么 loss 返回的是标量
            #   如果 size_average = True，返回 loss.mean();
            #   如果 size_average = False，返回 loss.sum();
            criterion = torch.nn.MSELoss(size_average=False)
        if optimizer is None:
            # Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop
            optimizer = torch.optim.Adam(self.parameters(), lr=learning_rate)
        if epochs < 1:
            epochs = 1

        x = self._prepare_data(x)
        y = self._prepare_data(y, False)

        for t in range(epochs):
            y_pred = self.predict(x)
            loss = criterion(y_pred, y)
            # 把梯度置零，也就是把loss关于weight的导数变成0
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        return loss

我们还需要一个方法_prepare_data来对输入数据进行一定的修饰，使得它符合我们上两个方法设计使用到的参数

    def _prepare_data(self, x, requires_grad = True):
        '''将numpy格式的数据转化为Torch的Variable
        '''
        if isinstance(x, np.ndarray):
            x = Variable(torch.from_numpy(x), requires_grad=requires_grad)
        if isinstance(x, int):
            x = Variable(torch.Tensor([[x]]), requires_grad=requires_grad)
        # 从from_numpy()转换过来的数据是DoubleTensor形式
        x = x.float()
        if x.data.dim() == 1:
            # 增加一个纬度
            x = x.unsqueeze(0)
        return x

同时，为了使得个体在使用近似函数时更加简洁，我们为Approximator类写了一个__call__方法，使得可以像执行函数一样来使用该类提供的方法：

    def __call__(self, x):
        '''根据输入返回输出，类似于 predict 函数
        '''
        x = self._prepare_data(x)
        pred = self.predict(x)
        return pred.data.numpy

最后还有一个很重要的事情，由于一些高级DQN算法使用两个近似函数+基于记忆重现的机制来训练个体，因此会产生将一个近似函数的神经网络参数拷贝给另一个近似函数的神经网络这个过程，也就是拷贝网络的过程，我们也需要提供一个能完成此功能的方法clone:

    def clone(self):
        '''返回当前模型的深度拷贝对象
        '''
        return copy.deepcopy(self)

至此，一个简单但够用的Approximator类就写好了。完整的代码请参见：approximator.py

ApproxQAgent类的实现

由于我们在前几讲的实践中已经为Agent基类设计好的声明一个Agent子类需要的方法，我们在实现基于Q学习的神经网络强化学习算法时只需要集中精力实现这些方法。我们在一个个体中使用双份近似价值函数，一个用来生成策略，另一个用来进行价值估计，每训练一定时间把时刻在更新参数的生成策略的近似价值函数（网络）的参数传递给生成价值的近似价值函数；同样我们的Agent是基于经历回放ExperienceReplay的，这样有利于消除单个Episode内Transition的相关性，提升模型的性能。为此，我们将单独写一个辅助方法来实现基于经历回放的学习。如果不熟悉我们对经历回放的实现机制，请参考前一篇实践：强化学习实践七给Agent添加记忆功能。

__init__方法初始化ApproxQAgent类

class ApproxQAgent(Agent):
    '''使用近似的价值函数实现的Q学习的个体
    '''

    def __init__(self, env: Env = None,
                 trans_capacity=20000,
                 hidden_dim: int = 16):
        if env is None:
            raise Exception("agent should have an environment")
        super(ApproxQAgent, self).__init__(env, trans_capacity)
        self.input_dim, self.output_dim = 1, 1

        # 适应不同的状态和行为空间类型
        if isinstance(env.observation_space, spaces.Discrete):
            self.input_dim = 1
        elif isinstance(env.observation_space, spaces.Box):
            self.input_dim = env.observation_space.shape[0]

        if isinstance(env.action_space, spaces.Discrete):
            self.output_dim = env.action_space.n
        elif isinstance(env.action_space, spaces.Box):
            self.output_dim = env.action_space.shape[0]
        # print("{},{}".format(self.input_dim, self.output_dim))

        # 隐藏层神经元数目
        self.hidden_dim = hidden_dim
        # 关键在下面两句，声明了两个近似价值函数
        # 变量Q是一个计算价值，产生loss的近似函数（网络），
        # 该网络参数在一定时间段内不更新参数
        self.Q = Approximator(dim_input=self.input_dim,
                              dim_output=self.output_dim,
                              dim_hidden=self.hidden_dim)
        # 变量PQ是一个生成策略的近似函数，该函数（网络）的参数频繁更新
        # 更新参数的网络
        self.PQ = self.Q.clone()

从经历学习 _learn_from_memory

    def _learning_from_memory(self, gamma, batch_size, learning_rate, epochs):
        # 随机获取记忆里的Transmition
        trans_pieces = self.sample(batch_size)
        states_0 = np.vstack([x.s0 for x in trans_pieces])
        actions_0 = np.array([x.a0 for x in trans_pieces])
        reward_1 = np.array([x.reward for x in trans_pieces])
        is_done = np.array([x.is_done for x in trans_pieces])
        states_1 = np.vstack([x.s1 for x in trans_pieces])

        X_batch = states_0
        # 调用的时approximator的__call__方法
        y_batch = self.Q(states_0)

        # 使用了Batch，代码是矩阵运算
        # np.max => axis=1时取出最大的一列；axis=0时取出最大的一行
        # ～ True = -2;  ~ False = -1
        Q_target = reward_1 + gamma * np.max(self.Q(states_1), axis=1) * (~ is_done)
        y_batch[np.arange(len(X_batch)), actions_0] = Q_target
        # loss is a torch Variable with size of 1
        loss = self.PQ.fit(x=X_batch,
                           y=y_batch,
                           learning_rate=learning_rate,
                           epochs=epochs)
        mean_loss = loss.sum().data[0] / batch_size
        self._update_Q_net()
        return mean_loss

重写的学习方法 learning

    def learning(self, gamma=0.99,
                 learning_rate=1e-5,
                 max_episodes=1000,
                 batch_size=64,
                 min_epsilon=0.2,
                 epsilon_factor=0.1,
                 epochs=1):
        '''learning的主要工作是构建经历，当构建的经历足够时，同时启动基于经历的学习
        '''
        total_steps, step_in_episode, num_episode = 0, 0, 0
        target_episode = max_episodes * epsilon_factor
        while num_episode < max_episodes:
            epsilon = self._decayed_epsilon(cur_episode = num_episode,
                                            min_epsilon = min_epsilon,
                                            max_epsilon = 1,
                                            target_episode = target_episode)
            self.state = self.env.reset()
            # self.env.render()
            step_in_episode = 0
            loss, mean_loss = 0.00, 0.00
            is_done = False
            while not is_done:
                s0 = self.state
                a0 = self.performPolicy(s0, epsilon)
                # act方法封装了将Transition记录至Experience中的过程
                s1, r1, is_done, info, total_reward = self.act(a0)
                # self.env.render()
                step_in_episode += 1
                # 当经历里有足够大小的Transition时，开始启用基于经历的学习
                if self.total_trans > batch_size:
                    loss += self._learn_from_memory(gamma,
                                                    batch_size,
                                                    learning_rate,
                                                    epochs)
            mean_loss = loss / step_in_episode
            print("{0} epsilon:{1:3.2f}, loss:{2:.3f}".
                  format(self.experience.last, epsilon, mean_loss))
            # print(self.experience)
            total_steps += step_in_episode
            num_episode += 1
        return

重写和添加一些辅助方法

在前面的代码中，我们使用了performPolicy方法，我们需要对此方法进行重些，实现基于衰减的探索机制，这里就不详细解释了：

    def _decayed_epsilon(self,cur_episode: int,
                         min_epsilon: float,
                         max_epsilon: float,
                         target_episode: int) -> float:
        '''获得一个在一定范围内的epsilon
        '''
        slope = (min_epsilon - max_epsilon) / (target_episode)
        intercept = max_epsilon
        return max(min_epsilon, slope * cur_episode + intercept)

    def _curPolicy(self, s, epsilon = None):
        '''依据更新策略的价值函数(网络)产生一个行为
                '''
        Q_s = self.PQ(s)
        rand_value = random()
        if epsilon is not None and rand_value < epsilon:
            return self.env.action_space.sample()
        else:
            return int(np.argmax(Q_s))

    def performPolicy(self, s, epsilon=None):
        return self._curPolicy(s, epsilon)

最后，我们还需要一个方法来将一直在更新参数的近似函数（网络）的权重拷贝给生成价值并基于此得到损失的近似函数（网络）：

    def _update_Q_net(self):
        '''将更新策略的Q网络(连带其参数)复制给输出目标Q值的网络
        '''
        self.Q = self.PQ.clone()

至此，一个完整的使用神经网络（深度学习）作为近似价值函数、通过对经历进行Q学习的强化学习个体就实现了。该个体类的完整代码在approxagent.py类中

观察DQN的训练效果

我们写一小段代码来基于某个环境来训练我们的ApproxQAgent类。我们使用了三种环境，分别是：CartePole、PuckWorld、和MountainCar。新建一个文件来写入如下代码：

from random import random, choice
from gym import Env
import gym
from gridworld import *
from core import Transition, Experience, Agent
from approximator import Approximator
from agents import ApproxQAgent
import torch


def testApproxQAgent():
    env = gym.make("MountainCar-v0")
    # env = gym.make("PuckWorld-v0")
    # env = SimpleGridWorld()

    # 保存训练的视频
    # directory = "/home/reinforce/monitor"
    # env = gym.wrappers.Monitor(env, directory, force=True)

    agent = ApproxQAgent(env,
                         trans_capacity=10000,  # 记忆容量（按状态转换数计）
                         hidden_dim=16)  # 隐藏神经元数量
    env.reset()
    print("Learning...")
    agent.learning(gamma=0.99,  # 衰减引子
                   learning_rate=1e-3,  # 学习率
                   batch_size=64,  # 集中学习的规模
                   max_episodes=2000,  # 最大训练Episode数量
                   min_epsilon=0.01,  # 最小Epsilon
                   epsilon_factor=0.3,  # 开始使用最小Epsilon时Episode的序号占最大
                   # Episodes序号之比，该比值越小，表示使用
                   # min_epsilon的episode越多
                   epochs=2  # 每个batch_size训练的次数
                   )


if __name__ == "__main__":
    testApproxQAgent()

我们设计的DQN在PuckWorld类、CartPole类上都得到了较好的训练结果。

编程体会

基于深度学习的强化学习算法在编写和调试时比之前要难许多，这其中既涉及到深度学习算法实现过程中的难点：数据预处理、基于张量批运算；同时也要熟悉PyTorch库对于数据的处理格式；理解数值拷贝和引用拷贝的区别；最后还要花很多时间去调整超参数。可以说一路下来都不是省油的灯，只有通过不断的练习来自己体会啦，同时希望读者能熟悉并喜欢我这样的建模思想，并能从这样的代码中较容易地理解强化学习算法的核心。祝各位读者痛并快乐的学习着。

下一次实践将聚焦于策略梯度的PyTorch实现，读者可以参考我一开始贴的地址来了解别人是如何实现与策略梯度相关的算法的，比如Actor-Critic。

本文转自：https://zhuanlan.zhihu.com/p/28706093

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
让电机转起来--基于STM32F1控制两相步进电机转动-新手小白入（完整代码）梦想是成为甜妹儿 stm32 嵌入式硬件单片机
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基础内容1、步进电机2、电机驱动器3、接线方法二、最简单控制电机转动程序1.定时器的输出比较功能生成PWM波2.电机方向控制3.主函数三、进阶版电机控制程序1.加入按键控制2.motor.c中添加一个函数3.主函数总结前言本帖分享步进电机与驱动器的接线方式、速度计算与代码分析。第一次接触电机的小白可能会面对无数的代码分
Go 语言 map 高级应用：优化技巧与复杂结构处理
Go语言map高级玩法全解析引言在Go语言的编程世界中，map是一种极为重要且强大的数据结构。它能够高效地存储和检索键值对，在众多场景中发挥着关键作用。对于初涉Go语言的开发者而言，掌握map的基本使用方法，如声明、初始化、插入、删除和查找元素等，是迈向编程之路的重要一步。然而，仅仅停留在基础层面，远远无法挖掘出map的全部潜力。在实际的工程项目里，面对复杂多变的业务需求和日益增长的数据量，深入理
Oracle EMCC 13.5 集群安装部署指南 Lucifer三思而后行 DBA 实战系列 oracle 数据库
大家好，这里是DBA学习之路，专注于提升数据库运维效率。目录前言第一阶段：OMR集群部署1.1OracleRAC环境准备1.2数据库版本验证1.3EMCC专用数据库优化第二阶段：ACFS集群文件系统构建2.1存储层配置配置multipath多路径配置UDEV设备绑定2.2ACFS文件系统创建使用ASMCA创建磁盘组创建ACFSVolume挂载点准备和文件系统创建第三阶段：OMS集群部署3.1环境准
UDP协议深度解析：从原理到应用全面剖析
⭐小白苦学IT的博客主页⭐⭐初学者必看：Linux操作系统入门⭐⭐代码仓库：Linux代码仓库⭐❤关注我一起讨论和学习Linux系统前言随着互联网的蓬勃发展，网络通信协议成为了支撑其稳定运行的关键。UDP协议作为网络通信协议中的重要一员，以其高效、简洁的特点在网络通信中发挥着重要作用。本文将带您深入了解UDP协议的原理、特点以及应用，帮助您更好地掌握这一网络通信的核心技术。udp协议概念和工作原理
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
【开源工具】基于PyQt5的局域网文件共享工具开发全解（附源码+emoji交互设计）创客白泽 Python开源项目实战开源 qt 局域网文件共享 python
【开源工具】基于PyQt5的局域网文件共享工具开发全解（附源码+emoji交互设计）个人主页：创客白泽-CSDN博客系列专栏：《Python开源项目实战》热爱不止于代码，热情源自每一个灵感闪现的夜晚。愿以开源之火，点亮前行之路。希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎点赞评论收藏⭐️加关注+分享给更多人哦文章目录项目概述✨功能特性️效果展示使用教程核心代码解析系统架构图⬇️源码
Python 生态发展之路仓颉编程语言技术文章 python
目录#Python是如何炼成的##生态系统持续扩张##Python开发的开源社区运作#更加广义的Python社区#广泛应用##Web开发、数据科学##不得不提的人工智能#支持Python成长的商业公司#Python成功之路小结##附：Python生态发展大事记#参考Python是现今最受欢迎的编程语言之一，2021年8月的TIOBE编程语言排行榜中，Python排名第二，仅次于C[1]。2017年
我只是美化简历，凭什么算诈骗？——某大厂员工被裁后的自白
我只是美化简历，凭什么算诈骗？——某大厂员工被裁后的自白本文作者：程序员小白条本站地址：https://xbt.xiaobaitiao.top事件背景某大厂员工李某在入职背调中被发现：将"参与项目"写成"主导项目"，自考本科包装成"统招全日制"，工作时间延长3个月掩盖空窗期。公司以"欺诈订立劳动合同"为由解雇并索赔，李某的争议：“行业都这么干，为什么只抓我？”美化与诈骗的边界在哪里？现在社会上大部
杭州华信设计研究院国企 Java 实习面经程序员小白条 java 开发语言
杭州华信设计研究院国企Java实习面经本文作者：程序员小白条本站地址：https://xbt.xiaobaitiao.top面试官：这边收到你的xxx简历，现在方便做一个简单的面试沟通吗？我：方便的方便的，内心OS：面经+1。1）面试官：先做个自我介绍吧我：常规操作，比八股背的熟多了，主要突出我全栈的一个学习过程，并且做了一个开源项目，我这边给大家的建议，尤其是双非同学，如果没啥亮点的话，个人博客
上海夏致云计算数字科技公司 Java 实习面经
上海夏致云计算数字科技公司Java实习面经本文作者：程序员小白条本站地址：https://xbt.xiaobaitiao.top1）面试官：先自我介绍一下我：大家先写个文档记录一下，然后按流程进行背诵就好了，如果有新的获奖和实习，直接按时间顺序进行增加即可，面的多了基本就麻木了…2）面试官：你的项目是为了什么而做的？我：反复介绍API，自圆其说即可，我主要做了拓展，最近考虑加点东西和参数优化，别说
C盘软件移动到D盘的方法！电脑软件搬家工具推荐，轻松扩容量 Nightowls__ 经验分享
宝子们，是不是和我一样，电脑用着用着，C盘就快爆了，电脑也变得卡卡的。别怕，今天就来给大家安利一波超好用的“软件搬家工具免费版”，让你的电脑瞬间清爽起来！全能C盘清理专家，这可真是个宝藏工具。它不仅能清理C盘的垃圾文件，还能把C盘的软件轻松搬到其他盘，操作超简单，小白也能轻松搞定。而且它还能自动检测兼容性问题，不用担心软件搬完不能用。还有ZinstallWinWin，这个工具换硬盘或者升级电脑，用
我的第二份实习，学校附近，但是干前端！程序员小白条前端职场和发展数据结构 java 开发语言算法
我的第二份实习，学校附近，但是干前端！本文作者：程序员小白条本站地址：https://xbt.xiaobaitiao.top背景24年的大概3月份左右，那时候我在寒假的时候找了一份实习，还是在某XX僧上面找的，那家公司刚好在我学校附近，走路10分钟就到那个园区了，因此我选择了这份工作（后来与预期不符干了没多久就离职了）。面试当时还是两轮面试，一个前端，一个后端，我当时以为我入职后会让我干后端的活，
DeepSeek 驱动智能交通调度：从传统到智慧的跃迁之路奔跑吧邓邓子 DeepSeek 实战 DeepSeek 智能交通调度应用
目录一、引言二、DeepSeek技术概述2.1DeepSeek简介2.2核心技术原理2.3技术特点与优势三、智能交通调度现状与挑战3.1智能交通调度系统构成3.2现存问题与挑战四、DeepSeek在智能交通调度中的应用4.1交通流量预测与优化4.2智能信号灯控制4.3公交智能排班与调度4.4地铁智能运维与调度4.5交通枢纽智能管理4.6事故预防与应急响应五、应用案例分析5.1某省会城市交通优化案例
Python（29）Python生成器函数深度解析：asyncio事件循环的底层实现与异步编程实战一个天蝎座白勺程序猿 python 开发语言
目录引言一、生成器与异步编程的渊源1.1技术背景与发展1.2关键结合点：协程概念1.3实际应用演进1.4底层实现原理1.5生成器的基础特性代码1.6协程的进化之路代码二、asyncio事件循环深度解析2.1事件循环架构2.2生成器调度流程三、高级特性实现3.1生成器双向通信3.2异常处理机制四、性能优化实战4.1内存管理对比4.2执行时间优化技巧五、实践建议5.1代码组织规范5.2调试技巧六、总结
深度剖析：Ceph分布式存储系统架构 TechVision大咖圈 ceph 分布式架构分布式存储
一文带你彻底搞懂Ceph的架构奥秘，从小白到架构师的进阶之路！文章目录1.Ceph简介：存储界的"多面手"什么是Ceph？为什么选择Ceph？2.核心组件架构：四大金刚的分工合作Monitor（MON）：集群的"大脑"ObjectStorageDevice（OSD）：数据的"家园"MetadataServer（MDS）：文件系统的"管家"Manager（MGR）：集群的"助手"3.三大存储接口：一
Dify小白入门指南：通过官方文档学习工作流编排和API调用伟大无须多言学习 dify ai
Dify小白入门指南：通过官方文档学习工作流编排和API调用一、Dify平台简介与核心功能Dify是一个开源的LLM应用开发平台，被设计为一个"生成式AI应用创新引擎"，它提供了从Agent构建到AI工作流编排、RAG检索、模型管理等全方位能力，帮助用户轻松构建和运营生成式AI原生应用。作为一个强大的LLMOps平台，Dify已成为众多开发者构建AI应用的首选工具，尤其适合想要快速开发AI应用但缺
《Unitree RL Gym 从 0 到 1 全解析》宇树G1机器人rl_gym、legged_game 与 rsl_rl 开源项目代码详解&&逻辑梳理
前言：此文将对宇树的RL_Gym进行详细介绍。为什么写这篇文章？首先对于这个项目来说，目前网上很难找到能讲明白的，其次，兼顾打工生活&知识分享需要些动力；因此，我决定推出这一篇付费文章，从纯小白视角出发，深入剖析该项目（大佬们请轻喷），这篇文章主要进行难点解析、代码分析与解释、整体的逻辑梳理。这篇付费文章耗费了我7h+的撰写，希望能为读者解开长期困扰的难题，带来启发与收获。开源项目链接：https
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Spring Boot 与消息队列：使用 RabbitMQ 进行消息的生产与消费！ bug菌¹ 滚雪球学SpringBoot java-rabbitmq spring boot rabbitmq springboot集成消息队列
本文精选收录于《滚雪球学SpringBoot》专栏，专为零基础学习者量身打造。从Spring基础到项目实战，手把手带你掌握核心技术，助力你快速提升，迈向职场巅峰，开启财富自由之路！无论你是刚入门的小白，还是已有基础的开发者，都能在这里找到适合自己的学习路径！关注、收藏、订阅，持续更新中！和我们一起高速成长，突破自我！全文目录：前言目录1.SpringBoot与消息队列概述1.1什么是消息队列？
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
# 深度解析:k8s技术架构从入门到精通
从零开始，带你玩转Kubernetes！不再是"听说很牛逼，但不知道怎么用"的状态文章目录初识K8s：不只是一个"容器编排工具"K8s核心架构：Master和Node的"君臣关系"ControlPlane：大脑中枢的精密运作WorkerNode：真正干活的"打工人"Pod：K8s世界的最小单位Service：让应用"找得到彼此"实战场景：从单体到微服务的华丽转身进阶之路：从入门到精通的修炼指南总结
云原生：数字化转型的核心引擎
在数字经济蓬勃发展的今天，云原生技术正成为企业数字化转型的核心驱动力。它不仅改变了传统IT架构的运行方式，更重塑了整个软件开发和交付的生命周期。本文将深入探讨云原生系统的核心价值、关键技术以及实施路径。一、云原生：数字化转型的必由之路云原生是一套充分利用云计算优势来构建和运行应用程序的方法论。根据CNCF最新调查，全球已有超过75%的企业在生产环境中使用云原生技术，这一数字还在持续增长。云原生的核
使用 FreeRTOS 实现简单多任务调度（初识 RTOS）欢乐熊嵌入式编程 FreeRTOS 嵌入式开发多任务调度 RTOS单片机
使用FreeRTOS实现简单多任务调度（初识RTOS）“裸机是手动挡，RTOS是自动挡。程序员也要学会偷懒！”——《从延时到调度：嵌入式人的进阶之路》一、什么是RTOS？为啥你迟早会用上它？RTOS，全名Real-TimeOperatingSystem（实时操作系统）。简单理解，它是为MCU打工的“调度大脑”，能帮你搞定这些烦人的事：多个任务如何“分时共享CPU”谁先执行谁后执行哪个任务被中断了怎
初识c语言————新手小白学习c语言的第七天 Rain_is_bad c语言学习开发语言
今天我们学习c语言中的分支和循环语句_do~while循环语句（下）目录：一.猜数字小游戏二.本节重点下面我们正式学习c语言中的分支和循环语句_do~while循环语句（下）一.猜数字小游戏参考代码：#include#include#includevoidgame(){intcai;scanf("%d",&cai);intmu=rand()%100+1;while(mu!=cai){if(caim
Docker 核心概念与 Python 应用部署指南伤心美眉互联网 docker python 容器
Docker是一个轻量高效的容器化平台，广泛用于部署PythonWeb应用、API服务等，相比传统虚拟机更省资源。本文专注于Docker的核心组件，包括Docker引擎、镜像、容器、Dockerfile、DockerCompose、DockerDesktop、DockerHub、Docker网络和存储卷，以PythonFlaskWeb应用为例，用通俗语言和生活化比喻讲解，确保小白一看就懂。每个部分
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

强化学习实践八：DQN的实现

Approximator类的实现

ApproxQAgent类的实现

观察DQN的训练效果

编程体会

你可能感兴趣的:(【强化学习】,【强化学习小白之路】)