立Sir

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度确定性策略梯度算法 (Deterministic Policy Gradient，DDPG)。并基于 OpenAI 的 gym 环境完成一个小游戏。完整代码在我的 GitHub 中获得：

https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model

1. 基本原理

深度确定性策略梯度算法是结合确定性策略梯度算法的思想，对 DQN 的一种改进，是一种无模型的深度强化学习算法。

DDPG 算法使用演员-评论家（Actor-Critic）算法作为其基本框架，采用深度神经网络作为策略网络和动作值函数的近似，使用随机梯度法训练策略网络和价值网络模型中的参数。DDPG 算法的原理如下图所示。

DDPG 算法架构中使用双重神经网络架构，对于策略函数和价值函数均使用双重神经网络模型架构（即 Online 网络和 Target 网络），使得算法的学习过程更加稳定，收敛的速度加快。同时该算法引入经验回放机制，Actor 与环境交互生产生的经验数据样本存储到经验池中，抽取批量数据样本进行训练，即类似于 DQN 的经验回放机制，去除样本的相关性和依赖性，使得算法更加容易收敛。

2. 公式推导

为了便于大家理解 DDPG 的推导过程，算法框架如下图所示：

DDPG 共包含 4 个神经网络，用于对 Q 值函数和策略的近似表示。Critic 目标网络用于近似估计下一时刻的状态-动作的 Q 值函数 $Q_{w'}(S_{t+1},\pi _{\theta '}(S_{t+1}))$ ，其中，下一动作值是通过 Actor 目标网络近似估计得到的 $\pi_{\theta' }(S_{t+1})$ 。于是可以得到当前状态下 Q 值函数的目标值：

$y_i = r_i + \gamma Q_{w'}(S_{i+1}, \pi _{\theta '}(S_{i+1}))$

Critic 训练网络输出当前时刻状态-动作的 Q 值函数 ，用于对当前策略评价。为了增加智能体在环境中的探索，DDPG 在行为策略上添加了高斯噪声函数。Critic 网络的目标定义为：

通过最小化损失值（均方误差损失）来更新 Critic 网络的参数，Critic 网络更新时的损失函数为：

$loss =\frac{1}{N} \sum_i (y_i - Q_w(S_i,a_i))^2$

其中， $a_i = \pi _{\theta} (S_i) + \varepsilon$ ， $\varepsilon$ 代表行为策略上的探索噪声。

Actor 目标网络用于提供下一个状态的策略，Actor 训练网络则是提供当前状态的策略，结合 Critic 训练网络的 Q 值函数可以得到 Actor 在参数更新时的策略梯度：

$\bigtriangledown _ {\pi_\theta} J = \frac{1}{N}\sum_i \bigtriangledown _a Q_w(s,a)|_{s=s_i,a=\pi_\theta(s_i)} \bigtriangledown _{\theta} \pi_{\theta} (s)|_{s_i}$

对于目标网络参数和 $\theta '$ 的更新，DDPG 通过软更新机制（每次 learn 的时候更新部分参数）保证参数可以缓慢更新，从而提高学习的稳定性：

$w' \leftarrow \xi w + (1-\xi )w'$

$\theta ' =\leftarrow \xi \theta + (1- \xi ) \theta '$

DDPG 中既有基于价值函数的方法特征，也有基于策略的方法特征，使深度强化学习可以处理连续动作，并且具有一定的探索能力。

算法流程图如下：

3. 代码实现

DDPG 的伪代码如下：

模型代码如下：

import torch
from torch import nn
from torch.nn import functional as F
import numpy as np
import collections
import random

# ------------------------------------- #
# 经验回放池
# ------------------------------------- #

class ReplayBuffer:
    def __init__(self, capacity):  # 经验池的最大容量
        # 创建一个队列，先进先出
        self.buffer = collections.deque(maxlen=capacity)
    # 在队列中添加数据
    def add(self, state, action, reward, next_state, done):
        # 以list类型保存
        self.buffer.append((state, action, reward, next_state, done))
    # 在队列中随机取样batch_size组数据
    def sample(self, batch_size):
        transitions = random.sample(self.buffer, batch_size)
        # 将数据集拆分开来
        state, action, reward, next_state, done = zip(*transitions)
        return np.array(state), action, reward, np.array(next_state), done
    # 测量当前时刻的队列长度
    def size(self):
        return len(self.buffer)

# ------------------------------------- #
# 策略网络
# ------------------------------------- #

class PolicyNet(nn.Module):
    def __init__(self, n_states, n_hiddens, n_actions, action_bound):
        super(PolicyNet, self).__init__()
        # 环境可以接受的动作最大值
        self.action_bound = action_bound
        # 只包含一个隐含层
        self.fc1 = nn.Linear(n_states, n_hiddens)
        self.fc2 = nn.Linear(n_hiddens, n_actions)
    # 前向传播
    def forward(self, x):
        x = self.fc1(x)  # [b,n_states]-->[b,n_hiddens]
        x = F.relu(x)
        x = self.fc2(x)  # [b,n_hiddens]-->[b,n_actions]
        x= torch.tanh(x)  # 将数值调整到 [-1,1]
        x = x * self.action_bound  # 缩放到 [-action_bound, action_bound]
        return x

# ------------------------------------- #
# 价值网络
# ------------------------------------- #

class QValueNet(nn.Module):
    def __init__(self, n_states, n_hiddens, n_actions):
        super(QValueNet, self).__init__()
        # 
        self.fc1 = nn.Linear(n_states + n_actions, n_hiddens)
        self.fc2 = nn.Linear(n_hiddens, n_hiddens)
        self.fc3 = nn.Linear(n_hiddens, 1)
    # 前向传播
    def forward(self, x, a):
        # 拼接状态和动作
        cat = torch.cat([x, a], dim=1)  # [b, n_states + n_actions]
        x = self.fc1(cat)  # -->[b, n_hiddens]
        x = F.relu(x)
        x = self.fc2(x)  # -->[b, n_hiddens]
        x = F.relu(x)
        x = self.fc3(x)  # -->[b, 1]
        return x

# ------------------------------------- #
# 算法主体
# ------------------------------------- #

class DDPG:
    def __init__(self, n_states, n_hiddens, n_actions, action_bound,
                 sigma, actor_lr, critic_lr, tau, gamma, device):

        # 策略网络--训练
        self.actor = PolicyNet(n_states, n_hiddens, n_actions, action_bound).to(device)
        # 价值网络--训练
        self.critic = QValueNet(n_states, n_hiddens, n_actions).to(device)
        # 策略网络--目标
        self.target_actor = PolicyNet(n_states, n_hiddens, n_actions, action_bound).to(device)
        # 价值网络--目标
        self.target_critic = QValueNet(n_states, n_hiddens, n_actions).to(device
                                                                          )
        # 初始化价值网络的参数，两个价值网络的参数相同
        self.target_critic.load_state_dict(self.critic.state_dict())
        # 初始化策略网络的参数，两个策略网络的参数相同
        self.target_actor.load_state_dict(self.actor.state_dict())

        # 策略网络的优化器
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)
        # 价值网络的优化器
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr)

        # 属性分配
        self.gamma = gamma  # 折扣因子
        self.sigma = sigma  # 高斯噪声的标准差，均值设为0
        self.tau = tau  # 目标网络的软更新参数
        self.n_actions = n_actions
        self.device = device

    # 动作选择
    def take_action(self, state):
        # 维度变换 list[n_states]-->tensor[1,n_states]-->gpu
        state = torch.tensor(state, dtype=torch.float).view(1,-1).to(self.device)
        # 策略网络计算出当前状态下的动作价值 [1,n_states]-->[1,1]-->int
        action = self.actor(state).item()
        # 给动作添加噪声，增加搜索
        action = action + self.sigma * np.random.randn(self.n_actions)
        return action
    
    # 软更新, 意思是每次learn的时候更新部分参数
    def soft_update(self, net, target_net):
        # 获取训练网络和目标网络需要更新的参数
        for param_target, param in zip(target_net.parameters(), net.parameters()):
            # 训练网络的参数更新要综合考虑目标网络和训练网络
            param_target.data.copy_(param_target.data*(1-self.tau) + param.data*self.tau)

    # 训练
    def update(self, transition_dict):
        # 从训练集中取出数据
        states = torch.tensor(transition_dict['states'], dtype=torch.float).to(self.device)  # [b,n_states]
        actions = torch.tensor(transition_dict['actions'], dtype=torch.float).view(-1,1).to(self.device)  # [b,1]
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1,1).to(self.device)  # [b,1]
        next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float).to(self.device)  # [b,next_states]
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1,1).to(self.device)  # [b,1]
        
        # 价值目标网络获取下一时刻的动作[b,n_states]-->[b,n_actors]
        next_q_values = self.target_actor(next_states)
        # 策略目标网络获取下一时刻状态选出的动作价值 [b,n_states+n_actions]-->[b,1]
        next_q_values = self.target_critic(next_states, next_q_values)
        # 当前时刻的动作价值的目标值 [b,1]
        q_targets = rewards + self.gamma * next_q_values * (1-dones)
        
        # 当前时刻动作价值的预测值 [b,n_states+n_actions]-->[b,1]
        q_values = self.critic(states, actions)

        # 预测值和目标值之间的均方差损失
        critic_loss = torch.mean(F.mse_loss(q_values, q_targets))
        # 价值网络梯度
        self.critic_optimizer.zero_grad()
        critic_loss.backward()
        self.critic_optimizer.step()

        # 当前状态的每个动作的价值 [b, n_actions]
        actor_q_values = self.actor(states)
        # 当前状态选出的动作价值 [b,1]
        score = self.critic(states, actor_q_values)
        # 计算损失
        actor_loss = -torch.mean(score)
        # 策略网络梯度
        self.actor_optimizer.zero_grad()
        actor_loss.backward()
        self.actor_optimizer.step()

        # 软更新策略网络的参数  
        self.soft_update(self.actor, self.target_actor)
        # 软更新价值网络的参数
        self.soft_update(self.critic, self.target_critic)

4. 案例演示

基于 OpenAI 的 gym 环境完成一个推车游戏，目标是将小车推到山顶旗子处。动作维度为1，属于连续值；状态维度为 2，分别是 x 坐标和小车速度。

代码如下：

import numpy as np
import torch
import matplotlib.pyplot as plt
import gym
from parsers import args
from RL_brain import ReplayBuffer, DDPG
device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')

# -------------------------------------- #
# 环境加载
# -------------------------------------- #

env_name = "MountainCarContinuous-v0"  # 连续型动作
env = gym.make(env_name, render_mode="human")
n_states = env.observation_space.shape[0]  # 状态数 2
n_actions = env.action_space.shape[0]  # 动作数 1
action_bound = env.action_space.high[0]  # 动作的最大值 1.0


# -------------------------------------- #
# 模型构建
# -------------------------------------- #

# 经验回放池实例化
replay_buffer = ReplayBuffer(capacity=args.buffer_size)
# 模型实例化
agent = DDPG(n_states = n_states,  # 状态数
             n_hiddens = args.n_hiddens,  # 隐含层数
             n_actions = n_actions,  # 动作数
             action_bound = action_bound,  # 动作最大值
             sigma = args.sigma,  # 高斯噪声
             actor_lr = args.actor_lr,  # 策略网络学习率
             critic_lr = args.critic_lr,  # 价值网络学习率
             tau = args.tau,  # 软更新系数
             gamma = args.gamma,  # 折扣因子
             device = device
            )

# -------------------------------------- #
# 模型训练
# -------------------------------------- #

return_list = []  # 记录每个回合的return
mean_return_list = []  # 记录每个回合的return均值

for i in range(10):  # 迭代10回合
    episode_return = 0  # 累计每条链上的reward
    state = env.reset()[0]  # 初始时的状态
    done = False  # 回合结束标记

    while not done:
        # 获取当前状态对应的动作
        action = agent.take_action(state)
        # 环境更新
        next_state, reward, done, _, _ = env.step(action)
        # 更新经验回放池
        replay_buffer.add(state, action, reward, next_state, done)
        # 状态更新
        state = next_state
        # 累计每一步的reward
        episode_return += reward

        # 如果经验池超过容量，开始训练
        if replay_buffer.size() > args.min_size:
            # 经验池随机采样batch_size组
            s, a, r, ns, d = replay_buffer.sample(args.batch_size)
            # 构造数据集
            transition_dict = {
                'states': s,
                'actions': a,
                'rewards': r,
                'next_states': ns,
                'dones': d,
            }
            # 模型训练
            agent.update(transition_dict)
    
    # 保存每一个回合的回报
    return_list.append(episode_return)
    mean_return_list.append(np.mean(return_list[-10:]))  # 平滑

    # 打印回合信息
    print(f'iter:{i}, return:{episode_return}, mean_return:{np.mean(return_list[-10:])}')

# 关闭动画窗格
env.close()

# -------------------------------------- #
# 绘图
# -------------------------------------- #

x_range = list(range(len(return_list)))

plt.subplot(121)
plt.plot(x_range, return_list)  # 每个回合return
plt.xlabel('episode')
plt.ylabel('return')
plt.subplot(122)
plt.plot(x_range, mean_return_list)  # 每回合return均值
plt.xlabel('episode')
plt.ylabel('mean_return')

python从字符串中提取数字并转换为相应数据类型_python数据类型的强制转换高考语文大仙儿
数据类型的强制转换如果要将一个数据转换成另一个数据类型，只需要将其放入相应类型的函数中去。Number类型的数据转换强制转换为int可以转换的数据类型int整型float浮点型bool布尔型str字符串(整型)数据转换#整型(整型转换是原封不动的)print(int(10))#浮点型(浮点型转成整型按照退一法)print(int(10.999))#布尔型(布尔型只有两种值，转换成为整型也只有两种，
【python】如何将字符串列表转换为数值列表资源存储库算法强化学习 python 开发语言
目录【python】如何将字符串列表转换为数值列表方法1：使用Python的map()和float()或int()方法2：使用列表推导式(ListComprehension)方法3：使用pandas转换方法4：使用numpy转换总结：【python】如何将字符串列表转换为数值列表要将字符串列表转换为数值列表，可以使用Python的内置方法和pandas或numpy等工具。下面是几种常见的方法来实现
梯度提升用于高效的分类与回归纠结哥_Shrek 分类回归数据挖掘
使用决策树（DecisionTree）实现梯度提升（GradientBoosting）主要是模拟GBDT（GradientBoostingDecisionTrees）的原理，即：第一棵树拟合原始数据计算残差（负梯度方向）用新的树去拟合残差累加所有树的预测值重复步骤2-4，直至达到指定轮数下面是一个纯Python+PyTorch实现GBDT（梯度提升决策树）的代码示例。1.纯Python实现梯度提升
Python——基于ERA5数据的饱和水汽压差（VPD）批量计算（Clausius-Clapeyron 克劳修斯-克拉伯龙关系）雨宫芳树算法 python arcgis 数据分析开发语言
一、前言之前我发布过基于CRU数据和Goff-Gratch公式计算VPD的博客，见下方：基于CRU数据计算VPD的博客但是，CRU数据的分辨率还是较为粗糙（0.5°×0.5°），而ERA5land数据集分辨率能很好地满足我的需求（0.1°×0.1°）。但是，ERA5land数据集并不提供水汽压和湿度变量供于下载，这导致利用Goff-Gratch公式很难进行计算。结合近期文献阅读和整理，这里提供另一
python 多个数组内数据之间的组合 AGMTI python 组合数据算法
如图，最近想实现一个小功能：多个数组中，数据之间的组合。绞尽脑汁，无论多少个数组，想用一个函数来解决这个问题。a=[1,2,3,4,6]b=[12,13,14,15,16]c=[22,23,24,25,26]A=[a,b,c]defgetPlans(lis,jude=True):ifjude:lis=[[[i]foriinlis[0]]]+lis[1:]iflen(lis)>2:foriinlis
KALI-sqlmap更新 Warnex web安全
在看到我kali提示自带的sqlmap版本过低，需要更新时，如下解决方案sqlmap--update或者pythonsqlmap.py--update提示你已经更新到最新版本,然后就可以正常使用了
Linux进阶之HTTP服务篇 Warnex Linux进阶-RHCE linux http 运维
HTTP服务HTTP简介HTTP的基础配置HTTP服务的默认配置文件`/etc/httpd/conf/httpd.conf`HTTP服务用户自定义配置文件HTTP服务配置之用户认证HTTPS服务的配置基于python的动态HTTP服务HTTP简介HTTP协议是HyperTextTransferProtocol（超文本传输协议）的缩写,是用于从万维网（WWW:WorldWideWeb）服务器传输超文
python创建配置文件_如何写python的配置文件 weixin_39622399 python创建配置文件
一、创建配置文件在D盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootpassword=rootdb_name=gloryroad[test]ip=127.0.0.1int=1float=1.5bool=True注意：要将文件保存为ansi编码，utf-8编码会报错文件中的[baseconf]为section二
Python 开发者：如何养成良好编码习惯？很酷的站长 Python python 开发语言
当你已经是一名Python开发人员时，可能养成了一些习惯：有好的，也有坏的。编码本质是一种艺术形式。我们鼓励灵活性与可定制性。我们可以在编程语言的上下文中按照自己想要的方式编码。而现在需要面对的问题是，实际你正在公开与计算机通信，因此需要以一种其他人可以理解的方式编写代码。另外，使用不正确的语法或没有有效编写代码也会导致编程错误。混乱的代码使得以后很难发现这些错误。而可读、整洁的编码才是王道，这意
Python中9个常见字典与异常处理错误与解决方案很酷的站长 Python python 开发语言
今天，我们将一起发现并解决在使用字典时遇到的15个常见陷阱，让你的编程之旅更加顺畅。第一部分：字典基础与常见错误1.创建字典的误解错误场景：尝试用列表推导式创建字典时，键重复导致覆盖。#错误示范keys=['a','b','a']values=[1,2,3]my_dict={k:vfork,vinzip(keys,values)}print(my_dict)#输出可能不是预期，因为'a'键被覆盖了
Python新手：学习 itertools.takewhile 迭代右过滤很酷的站长 Python python 学习开发语言
在Python中，itertools.takewhile是另一个有用的工具，常用于从可迭代对象中获取基本示例假设我们有一个数字列表[1,2,3,6,7,8,2,3]，希望获取前面所有小于5的元素，一旦遇到不小于5的元素，停止获取并返回结果。示例代码importitertools#定义一个简单的条件函数：获取所有小于5的元素defis_less_than_5(x):returnx<5#输入序列num
Python教程：Python中如何优雅的合并两个字典！很酷的站长 Python python 开发语言
在Python的世界里，字典作为一种强大的数据结构，扮演着举足轻重的角色。而合并字典，则是我们经常遇到的操作。Python为我们提供了多种合并字典的方式，每种方式都有其独特的应用场景。今天，我们就来一起探索Python中合并两个字典的七种方法，找到最适合你的那一款！1.简单粗暴：update()方法update()方法就像一把利刃，直接将一个字典的内容更新到另一个字典中。如果存在相同的键，则更新后
Python面向对象教程：多重继承和MRO深入解析很酷的站长 Python python 开发语言
Python是一种面向对象的编程语言，其类继承机制为开发者提供了强大的工具来构建复杂的系统。多重继承允许一个类从多个基类继承属性和方法，而方法解析顺序（MRO）决定了在多重继承情况下方法的调用顺序。本文将详细介绍Python中的多重继承和方法解析顺序，涵盖基本概念、具体用法和实际应用示例。类继承的基本概念在Python中，类继承允许一个类（子类）继承另一个类（父类）的属性和方法，从而实现代码复用和
Python编程进阶：深入探索if-elif-else的高级技巧！很酷的站长 Python python 开发语言
条件语句是编程中控制流程的重要工具。Python中的if-elif-else语句用于根据条件执行不同的代码块。虽然基本用法简单，但在实际应用中，了解一些高级用法和技巧可以使代码更加简洁、可读和高效。本文将详细介绍Python中if-elif-else语句的高级用法，包含示例代码，帮助在编写Python程序时更好地控制程序逻辑。基本用法在介绍高级用法之前，先回顾一下if-elif-else语句的基本
探索Python列表生成式：魔法般的快捷方式！很酷的站长 Python python 开发语言
欢迎来到Python世界的一个魅力角落，今天我们要聊聊Python列表生成式—一个强大的工具，用来创建列表的魔法般的快捷方式。让我们踏上一段有趣的学习之旅，一起探索这项Python中的神奇魔法。起步：什么是列表生成式？列表生成式，顾名思义，是生成列表的一个简单又直接的方法。它使用了一种紧凑的语法来构造列表，能够以一种更清晰、更简洁的方式来表达循环和过滤逻辑。基础示例让我们看看这个魔法是如何工作的，
Python简单实用的连点器仍稽 python
python中可以控制鼠标和键盘的库有很多个，这个连点器使用的是pynput库。首先，我们要先安装pynput库。pipinstallpynput如果觉得太慢了或者报错了，可以使用国内镜像。pipinstallpynput-ihttps://pypi.tuna.tsinghua.edu.cn/simple废话不多说，直接上程序。frompynput.keyboardimportKey,Contro
PythonOCC安装步骤与注意事项我们的武平工作室 IFC学习相关 python bim anaconda
ifcbimifcxmlifcowl交流群。群号：10275989842020-0113补充：有网友提到了pyqt的安装不正确，这里给大家找到了一份安装方式。我自己也是使用该链接的pip安装方式安装的。因此后文没提，以为大家这个点不是问题。总之，有问题再更新！[PyQt]在Windows系统中安装PyQt5-乐松-博客园https://www.cnblogs.com/syh6324/p/94842
Debian11之DataX安装大能嘚吧嘚 Linux_Debian 分布式调度中心大数据
下载github地址安装mkdir/usr/local/DataX&&cd/usr/local/DataXtar-zvxfdatax.tar.gz自检python/usr/local/DataX/bin/datax.py/usr/local/DataX/job/job.json
Debian11之Python3安装大能嘚吧嘚 Linux_Debian Python 后端 python
依赖环境aptupdate&&aptupgradeaptinstallwgetbuild-essentiallibncursesw5-devlibssl-devlibsqlite3-devtk-devlibgdbm-devlibc6-devlibbz2-devlibffi-devzlib1g-dev下载cduse/local/pythonwgethttps://www.python.org/ftp
PythonOCC 环境配置幽殇默 Brep python
PythonOCC环境配置#OCC7.5.1condacreate--name=pyoccenvpython=3.7sourceactivatepyoccenvcondainstall-cconda-forgepythonocc-core=7.5.1#OCC7.7.0condacreate--name=pyoccenvpython=3.9activatepyoccenvcondainstall-c
Python 自制自动连点器黑客白泽 Python程序脚本 python android 开发语言
Python自制自动连点器1.简介：‌连点器‌是一种能够模拟鼠标点击操作的计算机软件，主要用于自动化和简化重复的鼠标点击任务。它可以根据用户设定的参数，自动进行连续的鼠标点击操作。连点器的工作原理是通过模拟鼠标点击动作，将用户设定的点击位置、点击频率、点击次数等参数转化为实际的鼠标点击操作。用户只需设置好相应的参数，按下热键即可启动连点器，实现自动化操作‌。2.运行效果：3.相关源码：#-*-co
[Python办公]Nuitka 详细介绍与打包 Python 项目的步骤 William数据分析 python python 算法程序人生
Nuitka是一个将Python源代码编译为C/C++并生成二进制可执行文件的编译器。它不仅支持Python的所有特性，还能优化代码运行速度，并生成比解释型运行的Python更小的文件。相比于其他打包工具，如PyInstaller、cx_Freeze，Nuitka通过将Python编译为C提升性能，同时生成更高效的可执行文件。1.Nuitka的工作原理Nuitka并不像PyInstaller等工具
基于Python的Selenium详细教程总结（极简版） weixin_41663997 python selenium 开发语言
基于Python的Selenium详细教程总结一、PyCharm安装配置Selenium使用环境:Windows11,Python3.10.5,PyCharm2022.1.3,Selenium4.3.0需要技术:Python,HTML,CSS,JavaScriptSelenium安装:查看已安装的Python包:piplist安装Selenium4.3.0:pipinstallselenium==
python中单，双引号和三个双引号的区别 tycoon1988
先说1双引号与3个双引号的区别，双引号所表示的字符串通常要写成一行如：s1="hello,world"如果要写成多行，那么就要使用/(“连行符”)吧，如s2="hello,/world"s2与s1是一样的。如果你用3个双引号的话，就可以直接写了，如下：s3="""hello,world,hahaha."""，那么s3实际上就是"hello,/nworld,/nhahaha.",注意“/n”，所以，
python+selenium定位网页动态元素 + 定位非select（即input）的下拉列表 + 返回上一个函数进行保存操作心田婷 python 定位 selenium python
1、python+selenium定位网页动态元素这个折磨我快一天的小东西，磨的我都快想睡觉了网上大佬门的经验啥的都看遍了，或许是看到不够多，找了一天都没解决，然后现在终于找到了解决的办法！！！报错：selenium.common.exceptions.NoSuchElementException:Message:nosuchelement:Unabletolocateelement:{“meth
Python Django ORM qq_15654157 Python python
一、ORM介绍1.什么是ORM?ORM全拼Object-RelationMapping.中文意为对象-关系映射.在MVC/MVT设计模式中的Model模块中都包括ORM2.ORM优势（1）只需要面向对象编程,不需要面向数据库编写代码.对数据库的操作都转化成对类属性和方法的操作.不用编写各种数据库的sql语句.（2）实现了数据模型与数据库的解耦,屏蔽了不同数据库操作上的差异.不在关注用的是mysql
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
oracle通过pid查找执行SQL two_rain oracle oracle sql 数据库
通过TOP命令查看PID:1560PIDUSERPRNIVIRTRESSHRS%CPU%MEMTIME+COMMAND1560oracle20038.978g0.038t16296R100.015.31069:13python3Main_Mem.pyProcessLog1config.ini通过spid查找对应SQL:1、SELECTaddrFROMv$processcWHEREc.spid=15
掌握Python Selenium：网页元素自动化定位实战指南 jardonwang1 python selenium 自动化
一、Selenium框架介绍Selenium是一个用于自动化web应用程序测试的工具，它直接运行在浏览器中，就像真实用户在操作一样。这个框架支持多种浏览器（包括Chrome、Firefox、Safari等），并且可以在多种操作系统（Windows、Linux、macOS等）上运行。Selenium的主要目标是使自动化测试变得简单，以支持开发人员和测试人员快速编写测试用例。以下是Selenium框架
【python中级】安装nuitka打包工具 jn10010537 python 服务器开发语言
【python中级】安装nuitka打包工具1.背景2.nuitka简介3.nuitka安装4.nuitka文档1.背景最近发程序执行包，被人说程序包很大。比如python通过pyinstaller打包的可执行程序有30M，然而有同事通过C#编译的程序只有几百K；一度让领导觉得C#这个开发者在忽悠或者摸鱼。我感觉到有点尴尬，但是如果都需要解释一遍，显得苍白无力。虽然python开发效率是快，但是执
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

1. 基本原理

2. 公式推导

3. 代码实现

4. 案例演示

你可能感兴趣的:(深度强化学习,pytorch,python,强化学习,深度强化学习,DDPG)