立Sir

【深度强化学习】(7) SAC 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下 SAC (Soft Actor Critic) 算法，一种基于最大熵的无模型的深度强化学习算法。基于 OpenAI 的 gym 环境完成一个小案例，完整代码可以从我的 GitHub 中获得：

https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model

1. 基本原理

Deepmind 提出的 SAC (Soft Actor Critic) 算法是一种基于最大熵的无模型的深度强化学习算法，适合于真实世界的机器人学习技能。SAC 算法的效率非常高，它解决了离散动作空间和连续性动作空间的强化学习问题。SAC 算法在以最大化未来累积奖励的基础上引入了最大熵的概念，加入熵的目的是增强鲁棒性和智能体的探索能力。SAC 算法的目的是使未来累积奖励值和熵最大化，使得策略尽可能随机，即每个动作输出的概率尽可能的分散，而不是集中在一个动作上。

SAC 算法的目标函数表达式如下：

$J(\pi)=\sum_{t=0}^{T} E_{(s_t,a_t)\sim \rho^\pi} [r(s_t,a_t) + \alpha H(\pi(\cdot | s_t))]$

其中 T 表示智能体与环境互动的总时间步数， $\rho^\pi$ 表示在策略 $\pi$ 下的分布， $H(\cdot)$ 代表熵值， $\alpha$ 代表超参数，它的目的是控制最优策略的随机程度和权衡熵相对于奖励的重要性。

2. 公式推导

SAC 是一种基于最大化熵理论的算法。由于目标函数中加入熵值，这使得该算法的探索能力和鲁棒性得到了很大的提升，尽可能的在奖励值和熵值（即策略的随机性）之间取得最大化平衡。智能体因选择动作的随机性（更高的熵）而获得更高的奖励值，以使它不要过早收敛到某个次优确定性策略，即局部最优解。熵值越大，对环境的探索就越多，避免了策略收敛至局部最优，从而可以加快后续的学习速度。

因此，最优策略的 SAC 公式定义为：

$\pi ^* = \underset{ \pi }{argmax} E_{s_t, a_t \sim \pi(\cdot | s_t)} [\sum_{t=0}^{\bowtie } \gamma ^t r (s_t,a_t) + \alpha H(\pi (\cdot | s_t)) ]$

$H(\pi (\cdot | s_t)) = E[-log \pi(\cdot | s_t)]$

其中 $\pi$ 用来更新已找到最大总奖励的策略； $\alpha$ 是熵正则化系数，用来控制熵的重要程度； $H(\pi(\cdot | s_t))$ 代表熵值，熵值越大，智能体对环境的探索度越大，使智能体能够找到一个更高效的策略，有助于加快后续的策略学习。

SAC 的 Q 值可以用基于熵值改进的贝尔曼方差来计算，价值函数定义如下：

$Q(s_t,a_t) = E_{s_{t+1}\sim D} [r(s_t,a_t) + \gamma V^\pi (s_{t+1})]$

其中， $s_{t+1}$ 从经验回放池 D 中采样获得，状态价值函数定义如下：

$V(s_t) = E_{a_t\sim \pi} [Q(s_t,a_t) - \alpha log \pi (\cdot | s_t)] = E_{a_t\sim \pi} [Q(s_t,a_t) + H(\pi(\cdot | s_t))]$

它表示在某个状态下预期得到的奖励。此外，SAC 中的策略网络 $\pi_\phi (a_t,s_t)$ ，软状态价值网络 $V_{\psi }(s_t)$ ，目标状态价值网络网络 $V_ { \bar\psi } (s_t)$ ，以及 2 个软 Q 网络 $Q_{\theta_{1,2}}(a_t,s_t)$ ，它们分别由 $\phi , \psi, \bar{\psi}, \theta$ 参数化。

因此 SAC 中包含 5 个神经网络：策略网络 $\pi _{\phi }(s_t,a_t)$ ，行为价值函数 $V_{\psi }(s_t)$ ，目标函数 $V_{\bar{\psi} }(s_t)$ ，行为价值函数 $Q_{\theta _{i=1,2}}(s_t,a_t)$ 。为了分别找到最优策略，将随机梯度下降法应用于他们的目标函数中。

此外，还采用了类似于双 Q 网络的形式，软 Q 值的最小值取两个由 $\theta_1$ 和 $\theta_2$ 参数化的 Q 值函数，这有助于避免过高估计不恰当的 Q 值，以提高训练速度。软 Q 值函数通过最小化贝尔曼误差来更新：

策略网络通过最小化 Kullback-Leibler(KL) 散度来更新：

算法流程如下：

3. 代码实现

这里以离散问题为例构建SAC，离线学习，代码如下：

# 处理离散问题的模型
import torch
from torch import nn
from torch.nn import functional as F
import numpy as np
import collections
import random

# ----------------------------------------- #
# 经验回放池
# ----------------------------------------- #

class ReplayBuffer:
    def __init__(self, capacity):  # 经验池容量
        self.buffer = collections.deque(maxlen=capacity)  # 队列，先进先出
    # 经验池增加
    def add(self, state, action, reward, next_state, done):
        self.buffer.append((state, action, reward, next_state, done))
    # 随机采样batch组
    def sample(self, batch_size):
        transitions = random.sample(self.buffer, batch_size)
        # 取出这batch组数据
        state, action, reward, next_state, done = zip(*transitions)
        return np.array(state), action, reward, np.array(next_state), done
    # 当前时刻的经验池容量
    def size(self):
        return len(self.buffer)

# ----------------------------------------- #
# 策略网络
# ----------------------------------------- #

class PolicyNet(nn.Module):
    def __init__(self, n_states, n_hiddens, n_actions):
        super(PolicyNet, self).__init__()
        self.fc1 = nn.Linear(n_states, n_hiddens)
        self.fc2 = nn.Linear(n_hiddens, n_actions)
    # 前向传播
    def forward(self, x):  # 获取当前状态下的动作选择概率
        x = self.fc1(x)  # [b,n_states]-->[b,n_hiddens]
        x = F.relu(x)
        x = self.fc2(x)  # [b,n_hiddens]-->[b,n_actions]
        # 每个状态下对应的每个动作的动作概率
        x = F.softmax(x, dim=1)  # [b,n_actions]
        return x

# ----------------------------------------- #
# 价值网络
# ----------------------------------------- #

class ValueNet(nn.Module):
    def __init__(self, n_states, n_hiddens, n_actions):
        super(ValueNet, self).__init__()
        self.fc1 = nn.Linear(n_states, n_hiddens)
        self.fc2 = nn.Linear(n_hiddens, n_actions)
    # 当前时刻的state_value
    def forward(self, x):  
        x = self.fc1(x)  # [b,n_states]-->[b,n_hiddens]
        x = F.relu(x)  
        x = self.fc2(x)  # [b,n_hiddens]-->[b,n_actions]
        return x

# ----------------------------------------- #
# 模型构建
# ----------------------------------------- #

class SAC:
    def __init__(self, n_states, n_hiddens, n_actions,
                 actor_lr, critic_lr, alpha_lr,
                 target_entropy, tau, gamma, device):
        
        # 实例化策略网络
        self.actor = PolicyNet(n_states, n_hiddens, n_actions).to(device)
        # 实例化第一个价值网络--预测
        self.critic_1 = ValueNet(n_states, n_hiddens, n_actions).to(device)
        # 实例化第二个价值网络--预测
        self.critic_2 = ValueNet(n_states, n_hiddens, n_actions).to(device)
        # 实例化价值网络1--目标
        self.target_critic_1 = ValueNet(n_states, n_hiddens, n_actions).to(device)
        # 实例化价值网络2--目标
        self.target_critic_2 = ValueNet(n_states, n_hiddens, n_actions).to(device)

        # 预测和目标的价值网络的参数初始化一样
        self.target_critic_1.load_state_dict(self.critic_1.state_dict())
        self.target_critic_2.load_state_dict(self.critic_2.state_dict())
        
        # 策略网络的优化器
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)
        # 目标网络的优化器
        self.critic_1_optimizer = torch.optim.Adam(self.critic_1.parameters(), lr=critic_lr)
        self.critic_2_optimizer = torch.optim.Adam(self.critic_2.parameters(), lr=critic_lr)

        # 初始化可训练参数alpha
        self.log_alpha = torch.tensor(np.log(0.01), dtype=torch.float)
        # alpha可以训练求梯度
        self.log_alpha.requires_grad = True
        # 定义alpha的优化器
        self.log_alpha_optimizer = torch.optim.Adam([self.log_alpha], lr=alpha_lr)

        # 属性分配
        self.target_entropy = target_entropy
        self.gamma = gamma
        self.tau = tau
        self.device = device
    
    # 动作选择
    def take_action(self, state):  # 输入当前状态 [n_states]
        # 维度变换 numpy[n_states]-->tensor[1,n_states]
        state = torch.tensor(state[np.newaxis,:], dtype=torch.float).to(self.device)
        # 预测当前状态下每个动作的概率  [1,n_actions]
        probs = self.actor(state)
        # 构造与输出动作概率相同的概率分布
        action_dist = torch.distributions.Categorical(probs)
        # 从当前概率分布中随机采样tensor-->int
        action = action_dist.sample().item()
        return action
    
    # 计算目标，当前状态下的state_value
    def calc_target(self, rewards, next_states, dones):
        # 策略网络预测下一时刻的state_value  [b,n_states]-->[b,n_actions]
        next_probs = self.actor(next_states)
        # 对每个动作的概率计算ln  [b,n_actions]
        next_log_probs = torch.log(next_probs + 1e-8)
        # 计算熵 [b,1]
        entropy = -torch.sum(next_probs * next_log_probs, dim=1, keepdims=True)
        # 目标价值网络，下一时刻的state_value [b,n_actions]
        q1_value = self.target_critic_1(next_states)
        q2_value = self.target_critic_2(next_states)
        # 取出最小的q值  [b, 1]
        min_qvalue = torch.sum(next_probs * torch.min(q1_value,q2_value), dim=1, keepdims=True)
        # 下个时刻的state_value  [b, 1]
        next_value = min_qvalue + self.log_alpha.exp() * entropy

        # 时序差分，目标网络输出当前时刻的state_value  [b, n_actions]
        td_target = rewards + self.gamma * next_value * (1-dones)
        return td_target
    
    # 软更新，每次训练更新部分参数
    def soft_update(self, net, target_net):
        # 遍历预测网络和目标网络的参数
        for param_target, param in zip(target_net.parameters(), net.parameters()):
            # 预测网络的参数赋给目标网络
            param_target.data.copy_(param_target.data*(1-self.tau) + param.data*self.tau)

    # 模型训练
    def update(self, transition_dict):
        # 提取数据集
        states = torch.tensor(transition_dict['states'], dtype=torch.float).to(self.device)  # [b,n_states]
        actions = torch.tensor(transition_dict['actions']).view(-1,1).to(self.device)  # [b,1]
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1,1).to(self.device)  # [b,1]
        next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float).to(self.device)  # [b,n_states]
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1,1).to(self.device)  # [b,1]

        # --------------------------------- #
        # 更新2个价值网络
        # --------------------------------- #

        # 目标网络的state_value [b, 1]
        td_target = self.calc_target(rewards, next_states, dones)
        # 价值网络1--预测，当前状态下的动作价值  [b, 1]
        critic_1_qvalues = self.critic_1(states).gather(1, actions)
        # 均方差损失 预测-目标
        critic_1_loss = torch.mean(F.mse_loss(critic_1_qvalues, td_target.detach()))
        # 价值网络2--预测
        critic_2_qvalues = self.critic_2(states).gather(1, actions)
        # 均方差损失
        critic_2_loss = torch.mean(F.mse_loss(critic_2_qvalues, td_target.detach()))
        
        # 梯度清0
        self.critic_1_optimizer.zero_grad()
        self.critic_2_optimizer.zero_grad()
        # 梯度反传
        critic_1_loss.backward()
        critic_2_loss.backward()
        # 梯度更新
        self.critic_1_optimizer.step()
        self.critic_2_optimizer.step()

        # --------------------------------- #
        # 更新策略网络
        # --------------------------------- #

        probs = self.actor(states)  # 预测当前时刻的state_value  [b,n_actions]
        log_probs = torch.log(probs + 1e-8)  # 小于0  [b,n_actions]
        # 计算策略网络的熵>0   [b,1]
        entropy = -torch.sum(probs * log_probs, dim=1, keepdim=True)

        # 价值网络预测当前时刻的state_value  
        q1_value = self.critic_1(states)  # [b,n_actions]
        q2_value = self.critic_2(states)
        # 取出价值网络输出的最小的state_value  [b,1]
        min_qvalue = torch.sum(probs * torch.min(q1_value, q2_value), dim=1, keepdim=True)

        # 策略网络的损失
        actor_loss = torch.mean(-self.log_alpha.exp() * entropy - min_qvalue)
        # 梯度更新
        self.actor_optimizer.zero_grad()
        actor_loss.backward()
        self.actor_optimizer.step()

        # --------------------------------- #
        # 更新可训练遍历alpha
        # --------------------------------- #

        alpha_loss = torch.mean((entropy-self.target_entropy).detach() * self.log_alpha.exp())
        # 梯度更新
        self.log_alpha_optimizer.zero_grad()
        alpha_loss.backward()
        self.log_alpha_optimizer.step()

        # 软更新目标价值网络
        self.soft_update(self.critic_1, self.target_critic_1)
        self.soft_update(self.critic_2, self.target_critic_2)

4. 案例演示

基于 OpenAI 的 gym 环境完成一个推车游戏，一个离散的环境，目标是左右移动小车将黄色的杆子保持竖直。动作维度为2，属于离散值；状态维度为 4，分别是坐标、速度、角度、角速度。

训练部分的代码如下：

import gym 
import torch
import numpy as np
import matplotlib.pyplot as plt
from RL_brain import ReplayBuffer, SAC

# -------------------------------------- #
# 参数设置
# -------------------------------------- #

num_epochs = 100  # 训练回合数
capacity = 500  # 经验池容量
min_size = 200 # 经验池训练容量
batch_size = 64
n_hiddens = 64
actor_lr = 1e-3  # 策略网络学习率
critic_lr = 1e-2  # 价值网络学习率
alpha_lr = 1e-2  # 课训练变量的学习率
target_entropy = -1
tau = 0.005  # 软更新参数
gamma = 0.9  # 折扣因子
device = torch.device('cuda') if torch.cuda.is_available() \
                            else torch.device('cpu')

# -------------------------------------- #
# 环境加载
# -------------------------------------- #

env_name = "CartPole-v1"
env = gym.make(env_name, render_mode="human")
n_states = env.observation_space.shape[0]  # 状态数 4
n_actions = env.action_space.n  # 动作数 2

# -------------------------------------- #
# 模型构建
# -------------------------------------- #

agent = SAC(n_states = n_states,
            n_hiddens = n_hiddens,
            n_actions = n_actions,
            actor_lr = actor_lr,
            critic_lr = critic_lr,
            alpha_lr = alpha_lr,
            target_entropy = target_entropy,
            tau = tau,
            gamma = gamma,
            device = device,
            )

# -------------------------------------- #
# 经验回放池
# -------------------------------------- #

buffer = ReplayBuffer(capacity=capacity)

# -------------------------------------- #
# 模型构建
# -------------------------------------- #

return_list = []  # 保存每回合的return

for i in range(num_epochs):
    state = env.reset()[0]
    epochs_return = 0  # 累计每个时刻的reward
    done = False  # 回合结束标志

    while not done:
        # 动作选择
        action = agent.take_action(state)
        # 环境更新
        next_state, reward, done, _, _ = env.step(action)
        # 将数据添加到经验池
        buffer.add(state, action, reward, next_state, done)
        # 状态更新
        state = next_state
        # 累计回合奖励
        epochs_return += reward

        # 经验池超过要求容量，就开始训练
        if buffer.size() > min_size:
            s, a, r, ns, d = buffer.sample(batch_size)  # 每次取出batch组数据
            # 构造数据集
            transition_dict = {'states': s,
                               'actions': a,
                               'rewards': r,
                               'next_states': ns,
                               'dones': d}
            # 模型训练
            agent.update(transition_dict)
    # 保存每个回合return
    return_list.append(epochs_return)
    
    # 打印回合信息
    print(f'iter:{i}, return:{np.mean(return_list[-10:])}')

# -------------------------------------- #
# 绘图
# -------------------------------------- #

plt.plot(return_list)
plt.title('return')
plt.show()

运行100个回合，绘制每个回合的 return

Python中将实体类列表数据导出到Excel文件傻啦嘿哟关于python那些事儿 python excel 开发语言
目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出DataFrame到Excel文件六、完整代码示例七、扩展功能八、总结在数据处理和报告生成中，将实体类（即自定义对象）的列表数据导出到Excel文件是一项常见任务。Python提供了多种库来实现这一目标，其中最流行的是pandas和openpyxl。本文将通过一个实战案例，展示如何使用这两个库将实体类列
python 导出mysql 视图_python脚本-导出MySQL数据到excel weixin_39568781 python 导出mysql 视图
#!/usr/bin/envpython#coding=utf8importxlwtimportMySQLdbimportdatetimehost='localhost'user='scott'passwd='oracle'db='test'port=3307unix_socket='/data/mysql3307/tmp/3307.sock'sql_exec_30='select*fromtes
python怎么爬网站视频教程_python爬虫爬取某网站视频的示例代码 weixin_39630247 python怎么爬网站视频教程
把获取到的下载视频的url存放在数组中(也可写入文件中)，通过调用迅雷接口，进行自动下载。(请先下载迅雷，并在其设置中心的下载管理中设置为一键下载)实现代码如下：frombs4importBeautifulSoupimportrequestsimportos,re,timeimporturllib3fromwin32com.clientimportDispatchclassDownloadVide
keras快速上手-基于python的深度学习实践-基于索引的深度学习对话模型-源代码... weixin_34162401
该章的源代码已经调通，如下，先记录下来，再慢慢理解#!/usr/bin/envpython#coding:utf-8#In[1]:importpandasaspdimportnumpyasnpimportpickleimportkerasfromkeras.modelsimportSequential,Modelfromkeras.layersimportInput,Dense,Activatio
Python - 小玩意 - 数据字典转Excel 冷风扇666 #搞懂Python python excel
importpandasaspd#pip--default-timeout=500000installpandas#pip--default-timeout=500000installopenpyxl#数据字典data_dict={'ID':
在Python中，我们可以使用第三方库来实现将数据导出到Excel的功能 pytorchCode python excel linux Python
在Python中，我们可以使用第三方库来实现将数据导出到Excel的功能。其中，最常用的库之一是openpyxl。这个库提供了丰富的功能，可以创建、修改和保存Excel文件。下面我将为您提供一个简单的示例，展示如何使用openpyxl库将数据导出到Excel。首先，我们需要安装openpyxl库。可以使用以下命令通过pip安装它：pipinstallopenpyxl安装完成后，我们就可以开始编写代
2025年编程AI工具概览 hawkol 人工智能
随着人工智能技术的飞速发展，编程AI工具在2025年已成为程序员和开发者的得力助手。这些工具不仅提高了编程效率，还在代码质量、自动化和创新性方面表现出显著优势。以下是一些在2025年备受推崇的编程AI工具:1.GitHubCopilotGitHubCopilot是由GitHub、OpenAl和Microsoft联合打造的一款高级代码生成和辅助工具。它基于OpenAl的Codex模型，能够理解自然语
简述web3.0前端开发的最简单三个步骤飞机号Mrsfu223 web3 区块链 python java 开发语言
Web3.0是互联网的下一代前沿技术，包括人工智能，大数据和区块链都是这项技术的核心，Web3.0为用户提供了更为智能的互联网服务体验，该技术的核心要素为去中心化，也就是摆脱中心化的权力控制，能够让数据和各项交易通过网络里的各项节点来维护和验证，并不是通过中心化的机构或服务器控制各项节点，Web3有车有中心化，有户权益性，去信任化，互操作性这些特点，可以拥有更大的操作空间和可能性。去中心化是基于区
Web-3.0学习路线奶龙牛牛 web3
方向学习内容✅区块链基础区块链、智能合约、共识机制✅智能合约Solidity/Rust（Ethereum/Solana）✅前端React.js,Next.js,Web3.js,ethers.js✅后端Node.js,Python,Golang（链上数据）✅存储IPFS,Arweave,Filecoin（去中心化存储）✅交互MetaMask,WalletConnect（钱包）如果你是前端开发Reac
运用python爬虫爬取汽车网站图片并下载，几个汽车网站的示例参考大懒猫软件 python 爬虫汽车图像处理
当然，以下是一些常见的汽车网站及其爬虫示例代码，展示如何爬取汽车图片并下载。请注意，爬取网站内容时应遵守网站的使用协议和法律法规，避免对网站造成不必要的负担。示例1：爬取汽车之家图片网站地址汽车之家爬虫代码Python复制importrequestsfrombs4importBeautifulSoupimportosdefdownload_images(url,folder):ifnotos.pa
Huffman编码的Python的实现 childish_tree python 算法霍夫曼树数据压缩
Huffman编码的Python的实现基本原理及步骤Huffman编码是一种贪心算法，用于无损数据压缩。它基于字符在数据中出现的频率来构建编码，频率高的字符使用较短的编码，而频率低的字符使用较长的编码。这种方式的目的是减少数据的大小，因为最常见的字符使用最短的编码，从而在整体上减少了所需的位数。实现Huffman编码的原理如下：频率统计：如果输入数据是一个字符串，代码会遍历这个字符串，统计每个字符
Gurobi基础语法之addVar 和 addVars Smark. gurobi
addVar和addVars作为Gurobi模型对象中的方法，常常用来生成变量，本文介绍了Python中的这两个接口的使用addVaraddVar(lb=0.0,ub=float('inf'),obj=0.0,vtype=GRB.CONTINUOUS,name='',column=None)lb和ub让变量在生成的时候就有下界和上届，obj确定了生成的变量在目标函数的系数的取值vtype确定了变量
.NET/C#大型项目研发必备(5)--Web服务/WebApi的负载均衡 DeveloperSharp 负载均衡负载均衡器 web api 微服务
前言：本系列文章适合有初/中级.NET知识的同学阅读。（1）本系列文章，旨在讲述研发一个中大型项目所需要了解的一系列“基本构件”，并提供这些“基本构件”的【最简单】、【最快速】使用方法！！（并不深究技术原理）（2）通过阅读本系列文章，能让你在正规“项目研发”方面快速入门+进阶，并能达成“小团队构建大网站”的目的。（3）本系列文章采用的技术，已成功应用到人工智能、产业互联网、社区电商、游戏、金融风控
攻克设备数据质量难题：深度学习应用的数据基石搭建教程（DBSCAN 聚类算法） AI_DL_CODE 深度学习运维算法数据质量 DBSCAN聚类算法
摘要：在深度学习赋能设备管理的浪潮中，数据质量成为关键瓶颈。本文聚焦设备数据采集与预处理阶段面临的噪声干扰、数据缺失等难题，深入讲解强化采集端管控的策略，详细剖析聚类、统计法及线性回归模型在数据清洗与补全中的应用原理，并结合振动传感器数据实例给出可实操的Python代码。旨在为从业者提供一站式解决方案，助力打造高质量设备数据集，为深度学习模型高效运行筑牢根基，推动设备管理智能化落地。文章目录攻克设
人工智能在药物研发中的应用 - 从靶点发现和化合物筛选：利用AI深度学习技术加速药物研发流程 AI_DL_CODE 人工智能深度学习药物研发 deep learning
摘要：本文探讨了人工智能（AI）在药物研发中的应用，强调了AI在加速药物发现、降低成本和提高成功率方面的重要性。文章概述了AI在药物靶点识别、化合物筛选、药物设计优化等方面的应用，并详细介绍了机器学习和深度学习的基本原理。通过一个实操案例，展示了如何利用AI技术对化合物数据进行分析，预测潜在的药物候选物。案例包括数据预处理、模型训练、评估和优化等步骤，证明了AI在提高药物研发效率和准确性方面的潜力
pytorch实现循环神经网络纠结哥_Shrek pytorch rnn 深度学习
人工智能例子汇总：AI常见的算法和例子-CSDN博客PyTorch提供三种主要的RNN变体：nn.RNN：最基本的循环神经网络，适用于短时依赖任务。nn.LSTM：长短时记忆网络，适用于长序列数据，能有效解决梯度消失问题。nn.GRU：门控循环单元，比LSTM计算更高效，适用于大部分任务。网络类型优势适用场景RNN计算简单，适用于短时序列语音、文本处理（短序列）LSTM适用于长序列，能记忆长期信息
Python差分 ZZTC Python python 开发语言蓝桥杯
差分数组对于一个数组a[]a[]a[]，差分数组diff[]diff[]diff[]的定义是：diff[i]=a[i]−a[i−1]diff[i]=a[i]-a[i-1]diff[i]=a[i]−a[i−1]对差分数组做前缀和可以还原为原数组：diff[1]+diff[2]+diff[3]+...+diff[i]=a[1]+(a[2]−a[1])+(a[3]−a[2])+...+(a[i]−a[i
PyTorch 官方文档中文版本圣心 pytorch 机器学习
文档来源https://pytorch.cadn.net.cn大多数机器学习工作流都涉及处理数据、创建模型、优化模型参数，并保存经过训练的模型。本教程向您介绍完整的ML工作流在PyTorch中实现，并提供了用于了解有关每个概念的更多信息的链接。我们将使用FashionMNIST数据集来训练一个神经网络，该神经网络预测输入图像是否属于到以下类别之一：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫
使用Transformer模型实现股票走势预测：深入解析和实操案例（基于Python和PyTorch） AI_DL_CODE python transformer pytorch 股票预测
摘要：本文讨论了Transformer模型在股票市场预测中的应用，突出其自注意力机制在捕捉长期趋势和周期性变化方面的优势。文章详细介绍了模型理论、架构，并分析了其在股价预测中的优势和挑战。通过实操案例，展示了如何使用Python和PyTorch进行模型构建、训练和评估，包括数据预处理和性能评价。结果证实Transformer模型能有效预测股价，但需注意过拟合和数据量问题。未来研究将着眼于模型优化和
PYTHON 常用算法 33个 trust Tomorrow python 算法 python 排序算法
文章目录冒泡排序（BubbleSort）选择排序（SelectionSort）插入排序（InsertionSort）快速排序（QuickSort）归并排序（MergeSort）堆排序（HeapSort）计数排序（CountingSort）基数排序（RadixSort）桶排序（BucketSort）希尔排序（ShellSort）二分查找（BinarySearch）线性查找（LinearSearch）
Python绘图实例：太极图程序员林 python
这里写自定义目录标题1.太极图含义实例代码运行结果1.太极图含义所谓太极即是阐明宇宙从无极而太极，以至万物化生的过程。其中的太极即为天地未开、混沌未分阴阳之前的状态。易经系辞:“是故易有太极，是生两仪”。两仪即为太极的阴、阳二仪。太极图式说是《庄子》"太极"思想在儒、道两家结出的硕果。实例代码importturtle#导入turtle库turtle.speed(10)#画笔移动速度turtle.c
python自动下载阿里云数据库数据_阿里云数据库Redis备份下载（Python） weixin_39844426
#!/usr/bin/envpython3.6#coding=utf-8importosimporturllib.request,json,datetime,timeimportsslfromaliyunsdkcore.clientimportAcsClientfromaliyunsdkr_kvstore.request.v20150101.DescribeBackupsRequestimport
Python:动态粒子爱心百年孤独_ 计算机趣事随心所欲不逾矩 python pygame 开发语言
预览代码结构概述这段代码使用了pygame库来创建一个动态的图形窗口，绘制一个心形图案，并在其中显示闪烁的文本。代码主要分为以下几个部分：初始化和设置心形曲线的计算粒子类的定义生成粒子文本设置主循环1.初始化和设置importpygameimportrandomimportmathimportos#初始化pygamepygame.init()#屏幕尺寸WIDTH,HEIGHT=800,600scr
30天Python入门（第十四天：深入了解Python中的高阶函数）) prince_zxill Python实战教程 python 开发语言 vscode 教程高阶函数
30天Python入门（第十四天：深入了解Python中的高阶函数）高阶函数作为参数的函数作为返回值的函数Python闭包Python装饰器创建装饰器将多个装饰器应用于单个函数在装饰器函数中接受参数内置高阶函数Python-map函数Python-Filter函数Python-Reduce函数小结练习：1级练习：2级高阶函数在Python中，函数被视为“一等公民”，您可以对函数执行以下操作：一个函
跟我一起学 Python 数据处理（六）：Python 数据类型深度剖析与容器初窥 lilye66 python 开发语言 tornado beautifulsoup pandas matplotlib
跟我一起学Python数据处理（六）：Python数据类型深度剖析与容器初窥在Python学习的漫漫长路中，我们已经成功迈出了几步，对其环境搭建和基础操作有了一定了解。接下来，让我们继续深入，探寻Python丰富的数据类型世界以及强大的数据容器，进一步挖掘Python在数据处理方面的潜力，一同在知识的海洋中破浪前行。一、整数与字符串的微妙差异及应用场景整数，在Python中如同数学世界里的整数一样
跟我一起学 Python 数据处理（三十一）：攻克 PDF 数据采集中的难题 lilye66 python pdf 数据库 beautifulsoup
跟我一起学Python数据处理（三十一）：攻克PDF数据采集中的难题在数据处理的征程中，我们不断探索与成长。本文继续以Python处理PDF数据为主题，深入剖析其中复杂问题的解决之道，旨在与大家携手提升Python数据处理能力，共同跨越重重难关。一、数据采集问题剖析在处理PDF文本数据时，常遭遇诸多棘手状况。如文中处理国家相关数据时，双行国家名称对应的数值采集出现错误。查看源数据发现，双行国家对应
跟我一起学 Python 数据处理（一）：入门篇 lilye66 python plotly numpy pandas matplotlib conda
跟我一起学Python数据处理（一）：入门篇在当今数字化时代，数据处理能力变得愈发关键。无论是从事新闻、分析工作，还是立志成为数据科学家，掌握数据处理技巧都能让我们从海量信息中提取有价值的内容，并以清晰、有说服力的方式呈现出来。Python作为一门强大且应用广泛的编程语言，在数据处理领域占据着重要地位。本文将开启Python数据处理的学习之旅，与大家一同探索其中的奥秘，共同进步。一、确定研究主题与
跟我一起学 Python 数据处理（四）：Python 基础环境深度剖析与工具安装 lilye66 python flask pandas scrapy beautifulsoup
跟我一起学Python数据处理（四）：Python基础环境深度剖析与工具安装在Python学习之旅中，我们已经迈出了搭建环境的关键第一步。今天，我们继续深入探索，让大家对Python基础环境有更透彻的理解，并顺利安装必备的工具，为后续高效的数据处理学习筑牢根基。一、Python提示符与系统提示符的奥秘当我们成功启动Python后，会看到>>>这个Python提示符，它就像是进入Python世界的大
Python数据处理(一)：处理 JSON、XML、CSV 三种格式数据 solocoder222 Python python 数据处理 CodeRiver
Python数据处理系列博客来啦！本系列将以《Python数据处理》这本书为基础，以书中每章一篇博客的形式带大家一起学习Python数据处理。书中有些地方讲的不太详细，我会查阅其他资料来补充，力争每篇博客都把知识点涵盖全且通俗易懂。这本书主要讲了如何用Python处理各种类型的文件，如JSON、XML、CSV、Excel、PDF等。后面几章还会讲数据清洗、网页抓取、自动化和规模化等使用技能。我也是
python难学吗？python的就业前景到底怎么样？荆州克莱面试题汇总与解析 spring cloud spring boot spring 技术 css3
明确的说，python不难，入门很快，对于几乎是零基础的人是完全可以学会的。个人主要总结一下3点。第一，Python最大的功劳就是直接拉低了编程门槛和使用难度相比于C,C#,JAVA这些早轮子语言学习Python完全就是直接开车的节奏稍微努力一下，一周就能写出像样的东西第二，Python学习越来越普及目前Python课程已发展到儿童编程领域很多中小学开设Python教学，统一考试很多国外学校，比如
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

【深度强化学习】(7) SAC 模型解析，附Pytorch完整代码

1. 基本原理

2. 公式推导

3. 代码实现

4. 案例演示

你可能感兴趣的:(深度强化学习,pytorch,python,强化学习,深度强化学习,人工智能)