bujbujbiu

pytorch实现CartPole-v1任务的DQN代码

DQN

使用PyTorch在OpenAI Gym上的CartPole-v1任务上训练深度Q学习（DQN）智能体

任务

CartPole-v1环境中，手推车上面有一个杆，手推车沿着无摩擦的轨道移动。通过对推车施加+1或-1的力来控制系统。钟摆最开始为直立状态，训练的目的是防止其跌落。杆保持直立的每个时间步长都提供+1的奖励。当杆与垂直线的夹角超过15度时，或者推车从中心移出2.4个单位以上时，训练结束。智能体必须在两个动作之间做出决定-向左或向右移动推车-以便使与之相连的杆子保持直立。表现更好的方案将持续更长的时间，从而积累更大的回报

CartPole任务中智能体的输入是代表环境状态（位置，速度等）的4个实际值。神经网络可以通过查看场景来解决任务，因此以推车为中心的一部分屏幕作为输入。

包

首先导入需要的包，先安装针对环境的gym，还需要来自pytorch的以下模块

神经网络 (torch.nn)
优化 (torch.optim)
自动微分 (torch.autograd)
视觉任务的工具 (torchvision)

import gym
import math
import random
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from collections import namedtuple, deque
from itertools import count
from PIL import Image

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as T


env = gym.make('CartPole-v1').unwrapped

# set up matplotlib
is_ipython = 'inline' in matplotlib.get_backend()
if is_ipython:
    from IPython import display
# matplotlib.get_backend()=inline即当前后端为ipykernel.pylab.backend_inline
# is_ipython=True

plt.ion()
# plt.ion()函数能使matplotlib的显示模式转换为交互（interactive）模式。

# if gpu is to be used
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

Matplotlib在设计上对用户编写的绘图代码和对不同输出形式的处理方法进行了隔离，出现了前端（frontend）和后端的概念（backend）。后端可以认为就是不同输出形式的处理功能，前端可以认为就是用户所要绘制的图像。就像Web开发中的前后端分离一样，用户只用关心如何绘图即可，Matplotlib会根据用户选择的后端进行输出。这样相同的前端绘图代码，就可以便捷地实现各种绘图输出。
matplotlib.get_backend()可以得到当前使用的后端名称

1.Replay Memory

DQN经验回放减少了数据间的关联性，智能体观察到的转换存储到经验池中，之后从中随机采样进行训练

为此需要两个类:

Transition - 表示环境中单个过渡的命名元组，即将（state，action）对映射到其（next_state, reward）结果。此处状态是屏幕差异图像
ReplayMemory - 有容量限制的经验回放池，用于保存最近观察到的转换。它还实现了.sample()方法，用于选择随机的过渡批量进行训练。

# 定义Transition是一个包含四个属性的namedtuple类型
Transition = namedtuple('Transition',
                        ('state', 'action', 'next_state', 'reward'))

# 定义经验回放类
class ReplayMemory(object):

    def __init__(self, capacity):
        self.memory = deque([],maxlen=capacity) # 经验池memory是个最大容量为capacity的队列

    def push(self, *args):
        """Save a transition"""
        self.memory.append(Transition(*args)) # 存储新的Transition

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size) # 从memory中随机选择batch_size个元素返回

    def __len__(self):
        return len(self.memory) # 返回当前memory的数量

namedtuples是继承自tuple的子类，namedtuple创建一个和tuple类似的对象，而且对象拥有可访问的属性。

# 示例
from collections import namedtuple
# 定义一个namedtuple类型User，并包含name，sex和age属性。
User = namedtuple('User',['name','sex','age'])
# 创建一个User对象
user = User._make(['lenmo','male','20'])
# 输出user的姓名
print(user.name)

lenmo

python3中的列表可以当成堆栈和队列使用，deque创建一个队列

# 示例
from collections import deque
queue = deque(['a','b','c'])
queue.append('d')
queue.popleft()
queue

deque(['b', 'c', 'd'])

*args：当传入的参数个数未知，且不需要知道参数名称时

**args：当传入的参数个数未知，但需要知道参数的名称时(类似字典）

2.CNN网络

模型是一个卷积神经网络，输入当前屏幕补丁和之前屏幕补丁的差异。它有两个输出，分别代表 $\mathrm{left})$ 和 $\mathrm{right})$ ，其中 $s$ 是网络的输入，网络在尝试预测在当前输入下执行每个操作的预期收益

# outputs=动作数量，CNN输入每个状态特征值，输出每个state-action的值函数
class DQN(nn.Module):
    
    def __init__(self,h,w,outputs): 
        super(DQN,self).__init__()
        self.conv1 = nn.Conv2d(3,16,kernel_size=5,stride=2)
        # 输入(b,3,h,w)，16个过滤器（3，5，5）卷积计算，输出（b,16,h1,w1)
        self.bn1 = nn.BatchNorm2d(16)
        # Batch 归一化
        self.conv2 = nn.Conv2d(16,32,kernel_size=5,stride=2)
        self.bn2 = nn.BatchNorm2d(32)
        self.conv3 = nn.Conv2d(32,32,kernel_size=5,stride=2)
        self.bn3 = nn.BatchNorm2d(32)
        
        # 计算卷积后的尺寸用于后续平铺到全连接层
        def conv2d_size_out(size,kernel_size=5,stride=2):
            return (size-kernel_size)//stride + 1
        convw = conv2d_size_out(conv2d_size_out(conv2d_size_out(w)))
        convh = conv2d_size_out(conv2d_size_out(conv2d_size_out(h)))
        
        # 最后一个卷积层的输出平铺作为全连接层的输入
        linear_input_size = convh * convw * 32
        self.head = nn.Linear(linear_input_size,outputs)

    def forward(self,x):
        x = x.to(device)
        x = F.relu(self.bn1(self.conv1(x))) # 卷积->batch归一化->激活
        x = F.relu(self.bn2(self.conv2(x)))
        x = F.relu(self.bn3(self.conv3(x)))
        # x.view相当于reshape，x.size(0)是batch维度,x.view(a,-1)表示a行，列根据原先尺寸决定
        return self.head(x.view(x.size(0),-1))

torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True, device=None, dtype=None)：在4D输入上应用 Batch归一化(带有通道尺寸的 mini-batch 2D输入)

num_features：输入（N,C,H,W)中的C

# 示例
M = nn.BatchNorm2d(3)
input = torch.randn(2,3,35,45)
output = M(input)
print(input.size(0))
input.view(input.size(0),-1)

2

tensor([[ 1.8808,  0.3987,  1.1235,  ...,  0.0297,  0.0279, -1.2829],
        [ 2.0374, -0.9642, -2.1847,  ...,  0.2094,  0.4277,  0.4624]])

3.输入提取

以下代码是用于从环境中提取和处理渲染图像的工具，使用了torchvision包，可以轻松组成图像转换，运行单位就会显示提取的实例补丁

图像处理操作

# ToPILImage将张量或者多维数组变成PIL图像
# Resize将输入图像尺寸变成给定尺寸，
# ToTensor将PIL图像或者多维数组变成张量
resize = T.Compose([T.ToPILImage(),
                    T.Resize(40,interpolation=Image.CUBIC),
                    T.ToTensor()])

获取小车的屏幕坐标

# 小车世界是（-4.8，4.8），小车有效世界是（-2.4，2.4）即小车移动超过2.4会终止episode，env.x_threshold=2.4
# 屏幕世界是高400*宽600，屏幕世界中心（0，0）在左下角
# cartenv源码设置self.state = (x, x_dot, theta, theta_dot)，env.state[0]是cart位置
# 世界坐标（0，0）对应屏幕坐标中间（300，0）位置，因此需要加上屏幕宽度一半

def get_cart_location(screen_width):
    world_width = env.x_threshold * 2 # world_width是小车世界可移动宽度
    scale = screen_width / world_width # scale是屏幕世界与小车世界宽度的比值（转屏幕系数）
    return int(env.state[0] * scale + screen_width / 2.0) # 计算小车的屏幕世界坐标

获取处理后的屏幕图像张量

def get_screen():
    # gym中的屏幕是400*600*3，有时会更大比如800*1200*3，先将其变成torch里的顺序（C,H,W）即3*400*600
    screen = env.render(mode='rgb_array').transpose(2,0,1)
    # 获取屏幕世界宽度600和高度400
    _,screen_height,screen_width = screen.shape
    # 小车初始状态位置在屏幕高40%（400X0.4=160）到80%（400X0.8=320）之间，高度按照160-320截取
    screen = screen[:,int(screen_height*0.4):int(screen_height*0.8)]
    # view_width 60%屏幕宽度
    view_width = int(screen_width * 0.6)
    cart_location = get_cart_location(screen_width)
    
    # 当前小车位置偏左即左边没有30%的空间，截取最左侧60%
    if cart_location < view_width // 2:
        slice_range = slice(view_width)
    # 当前小车位置偏右即右边没有30%的空间，截取最右侧60%
    elif cart_location > (screen_width-view_width // 2):
        slice_range = slice(-view_width,None)
    # 当前小车位置左右均有30%空间，保留小车左右各30%的位置
    else:
        slice_range = slice(cart_location - view_width // 2,cart_location + view_width // 2)
    screen = screen[:,:,slice_range]
    
    # python数组默认行优先存储（行连续），列不连续，经过行的slice操作后，会使数组行没有连续性
    # ascontiguousarray函数将一个内存不连续存储的数组转换为内存连续存储的数组，使得运行速度更快。
    screen = np.ascontiguousarray(screen,dtype=np.float32) / 225
    screen = torch.from_numpy(screen) # 从numpy.ndarray创建一个张量
    return resize(screen).unsqueeze(0) # 使用unsqueeze(0)扩展0维即batch维度变成（BCHW)

显示一张屏幕图像样例

env.reset() # 重置环境
plt.figure()
# 从get_screen中返回的是4维张量，使用squeeze去掉batch维度
# torch.Tensor.permute():将tensor维度换位，变成(HWC)
plt.imshow(get_screen().cpu().squeeze(0).permute(1,2,0).numpy(),interpolation='none')
plt.title("example extracted screen")
plt.show()

4.训练

超参数和工具

实例化模型和优化器，定义工具

选择动作:根据 ε 贪婪策略选择一个动作,选择随机动作的可能性将从EPS_START开始，并朝EPS_END呈指数衰减。 EPS_DECAY控制衰减率。
动态显示:绘制episodes持续时间和最近100个episodes的均值，每个episodes之后更新

定义TD目标网络和动作值函数网络

# 经过get_screen()的裁剪和处理后，返回的初始屏幕即图像是3*40*90
init_screen = get_screen()
_,_,screen_height,screen_width = init_screen.shape

# gym动作空间数量=2（left,right）
n_actions = env.action_space.n

# 定义策略网络和目标网络
policy_net = DQN(screen_height,screen_width,n_actions).to(device)
target_net = DQN(screen_height,screen_width,n_actions).to(device)
# load_state_dict()函数用于将预训练的参数权重加载到新的模型之中
# state_dict()将每一层与它的对应参数建立映射关系，python字典存储参数
# TD目标网络的参数按步长根据策略网络的参数更新
target_net.load_state_dict(policy_net.state_dict())
# TD目标网络为eval()模式，即告诉pytorch该网络不参与训练
target_net.eval()

DQN(
  (conv1): Conv2d(3, 16, kernel_size=(5, 5), stride=(2, 2))
  (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (conv2): Conv2d(16, 32, kernel_size=(5, 5), stride=(2, 2))
  (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (conv3): Conv2d(32, 32, kernel_size=(5, 5), stride=(2, 2))
  (bn3): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (head): Linear(in_features=512, out_features=2, bias=True)
)

探索和利用（选择动作）ε-decreasing strategy

optimizer = optim.RMSprop(policy_net.parameters()) # 使用RMSprop优化方法
memory = ReplayMemory(1000) # 设置容量为1000的经验池

step_done = 0

# 参数设置
BATCH_SIZE = 128
GAMMA = 0.999
EPS_START = 0.9
EPS_END = 0.05
EPS_DECAY = 200
TARGET_UPDATE = 10

def select_action(state):
    global step_done
    sample = random.random() # 随机生成(0,1)值与eps比较
    eps_threshold = EPS_END + (EPS_START-EPS_END) * math.exp(-1. * step_done / EPS_DECAY) # eps随着训练步长下降
    step_done += 1
    if sample > eps_threshold:
        with torch.no_grad():
            # t.max(1)返回两列：每行最大的值+最大值的列索引
            # 返回Q值最大的动作索引0/1
            # 此处只有两个动作，因此policy_net(state)输出张量尺寸(1,2)
            return policy_net(state).max(1)[1].view(1,1) 
    else:
        # 随机选择动作，生成0/1
        return torch.tensor([[random.randrange(n_actions)]],device=device,dtype=torch.long)

ret = x.unfold(dim, size, step)

dim：int，表示需要展开的维度(可以理解为窗口的方向)
size：int，表示滑动窗口大小
step：int，表示滑动窗口的步长

# 示例
import torch
x=torch.randn(4,3)
print(x)
x=x.unfold(0,2,1)
x

tensor([[-0.6728,  1.4748, -1.2390],
        [ 0.3977, -1.2479,  0.2498],
        [-1.1414, -1.8391,  1.3870],
        [ 0.1753,  0.5563, -0.2556]])

tensor([[[-0.6728,  0.3977],
         [ 1.4748, -1.2479],
         [-1.2390,  0.2498]],

        [[ 0.3977, -1.1414],
         [-1.2479, -1.8391],
         [ 0.2498,  1.3870]],

        [[-1.1414,  0.1753],
         [-1.8391,  0.5563],
         [ 1.3870, -0.2556]]])

绘制图像

episode_durations = []
def plot_durations():
    plt.figure(2) # 新建一个窗口
    plt.clf() # 清除整个当前图形 ，但使窗口保持打开状态，以便可以将其重新用于其他绘图。
    durations_t = torch.tensor(episode_durations,dtype=torch.float)
    plt.title('training')
    plt.xlabel('episode')
    plt.ylabel('duration')
    plt.plot(durations_t.numpy())
    # 取100个episode均值并绘图
    if len(durations_t) >= 100:
        means = durations_t.unfold(0,100,1).mean(1).view(-1)
        # torch.cat将两个张量（tensor）拼接在一起
        means = torch.cat((torch.zeros(99),means))
        plt.plot(means.numpy())
        
    plt.pause(0.001) # 暂停0.001s使点更新
    if is_ipython:
        display.clear_output(wait=True)
        display.display(plt.gcf())

训练循环（优化模型+主循环）

以下为训练模型的代码，即执行优化步骤的optimize_model函数，首先采样一个batch，将所有张量连接成一个张量，计算 $Q(s_t, a_t)$ 和 $V(s_{t+1}) = \max_a Q(s_{t+1}, a)$ ，将其合并为损失。根据定义，如果 $s$ 为终端状态，则设置 $V (s) = 0$ 。使用目标网络来计算 $V (s [t + 1])$

def optimize_model():
    if len(memory) < BATCH_SIZE:
        return
    transitions = memory.sample(BATCH_SIZE) # 从经验池中随机采样BATCH_SIZE
    # 将batch_size个四元组，转换成，四个元祖，每个元祖有batch_size个项
    # 如选择2个样本(1,1,1,1)和(2,2,2,2)，转换后batch=Transition(state=(1,2),action=(1,2),next_state=(1,2),reward=(1,2))
    batch = Transition(*zip(*transitions))
    
    # lambda s:s is not None:输入s,输出一个bool值判断s是否为空
    # (map(lambda s:s is not None,batch.next_state)为每个样本的next_state执行lambda操作即s=batch.next_state
    # 整句代码是输出每个样本batch.next_state的True/False，区分终止状态和非终止状态
    non_final_mask = torch.tensor(tuple(map(lambda s:s is not None,batch.next_state)),device=device,dtype=torch.bool)
    # non_final_next_state存储非终止状态值
    non_final_next_state = torch.cat([s for s in batch.next_state if s is not None])
    
    
    state_batch = torch.cat(batch.state)
    action_batch = torch.cat(batch.action)
    reward_batch = torch.cat(batch.reward)
    
    # gather(dim,index):按照index取值，dim决定索引维度
    state_action_values = policy_net(state_batch).gather(1,action_batch)
    
    next_state_values = torch.zeros(BATCH_SIZE,device=device)
    # 更新下一非空状态的Q值，选择值函数最大的动作对应的state-action value
    next_state_values[non_final_mask] = target_net(non_final_next_state).max(1)[0].detach()
    # 计算预期Q值（贝尔曼方程）
    expeacted_state_action_values = (next_state_values * GAMMA) + reward_batch
    
    # 计算TD误差
    criterion = nn.SmoothL1Loss()
    loss = criterion(state_action_values,expeacted_state_action_values.unsqueeze(1))
    
    # 优化模型
    optimizer.zero_grad()
    loss.backward()
    for param in policy_net.parameters():
        param.grad.data.clamp_(-1,1) # 梯度截断，防止出现梯度爆炸，将梯度约束在(-1,1)间
    optimizer.step()

# 示例
from collections import namedtuple
Transition11 = namedtuple('Transition',
                        ('state', 'action', 'next_state', 'reward'))
tran1 = Transition11._make([1,2,3,4])
tran2 = Transition11._make([11,22,33,44])
tran3 = Transition11._make([11,22,0,44])
batch1 = Transition11(*zip(tran1,tran2,tran3))
x = torch.tensor(tuple(map(lambda s:s is not None,batch1.next_state)),dtype=torch.bool)
y = torch.tensor([s for s in batch1.next_state if s is not None])
z = torch.zeros(3)
bs = torch.tensor(batch1.state)
print(x,y,z)
print(z[x])

tensor([True, True, True]) tensor([ 3, 33,  0]) tensor([0., 0., 0.])
tensor([0., 0., 0.])

以下是主循环代码，开始阶段重置环境，初始化state张量，然后随机选择一个动作并执行，观察下一个屏幕和奖励（总是1），并且优化一次模型。当episode结束时或者模型失败，重置循环。此处的num_episodes设置较小，一般超过300才会出现有意义的改进

num_episodes = 50
for i_episode in range(num_episodes):
    env.reset()
    last_screen = get_screen()
    current_screen = get_screen()
    state = current_screen - last_screen
    for t in count():
        # 选择动作并执行
        action = select_action(state)
        # 执行动作，env.step返回np.array(self.state, dtype=np.float32), reward, done, {}
        # done指小车距离或者角度超出规定范围，训练结束
        _,reward,done,_ = env.step(action.item())
        # env返回的reward是一个变量值，将其变成张量
        reward = torch.tensor([reward],device=device)

        # 观察下一个状态
        last_screen = current_screen
        current_screen = get_screen()
        if not done:
            next_state = current_screen - last_screen
        else:
            next_state = None

        # 将transition存储在经验池中
        memory.push(state,action,next_state,reward)

        # 转移到下一个状态
        state = next_state


        # 策略网络的一步优化
        optimize_model()
        if done:
            episode_durations.append(t + 1)
            plot_durations()
            break
    if i_episode % TARGET_UPDATE == 0: # TARGET_UPDATE个episode后更新目标网络的参数
        target_net.load_state_dict(policy_net.state_dict())

print('complete')
env.render() # 图像引擎
env.close() # 关闭环境
plt.ioff() # 显示图像前关掉交互模式
plt.show()


complete

说明总体结果数据流的图

python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
采用分布式部署deepseek 慧香一格 AI 学习分布式 deepseek
分布式部署DeepSeek涉及使用多个计算节点来加速模型训练或提升推理效率。下面是一个基本的指南，帮助您了解如何进行分布式部署。1.环境准备硬件需求：确保您的集群环境中有足够的GPU资源，并且所有机器之间可以通过高速网络互联。软件依赖：安装必要的库和工具，如PyTorch、Transformers等。特别地，对于分布式训练，还需要安装torch.distributed或者类似的库支持，例如Horo
深入解析 Poetry：Python 项目依赖管理的新宠，安装、使用及最佳实践潘智祥 python java 人工智能
在Python的世界里，管理项目依赖和虚拟环境一直是一个令人头疼的问题。虽然有pip和virtualenv这样的工具，但随着项目的复杂性增加，它们的局限性也逐渐显露出来。这时候，Poetry作为一个现代化的依赖管理工具应运而生。它不仅解决了项目依赖管理的问题，同时也集成了虚拟环境管理、发布等功能，成为了Python开发者的新宠。Poetry是什么？Poetry是一个用于管理Python项目依赖和构
【JAVA工程师从0开始学AI】，第二步：从强类型到动态语言：Java工程师的Python语法避坑指南架构默片 JAVA工程师从0开始学AI python java windows
这是一篇介绍Python语法与JAVA语法区别文章，让我们以对比的方式，来学习一下Python的语法。首先我们看一下下面的Python代码，和具体在java当中分别代表了什么意思numbers=[1,2,3,4,5,6,7,8,9]#①创建数字列表（像Java的ArrayList，但不用写泛型）odd_numbers=[]#②准备装奇数的空列表（类似Java的newArrayListnumbers
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
【Python基础】Python闭包：如何让你的代码拥有‘读心术’？陈序不懂程序 python 服务器 apache 网络开发语言数据库学习
第1章闭包概念与背景1.1闭包定义与理论基础闭包，这一术语源自数学逻辑，如今在计算机科学中占据着核心地位，尤其在面向对象和函数式编程领域中发挥着无可替代的作用。它是一种特殊的函数对象，不仅包含自身的代码逻辑，还携带着其定义时所处环境的部分状态，即对外部自由变量的引用。这种独特的“携带状态”特性赋予了闭包强大的功能和灵活性，使其成为实现抽象、封装、数据隐藏以及控制程序执行的关键工具。1.1.1闭包的
python学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理 Scikit-learn 机器学习 python 算法 python 学习开发语言
SIGIA_4Ppython学习列表字典集合面对对象编程闭包装饰器函数式编程作用域异常处理本文连接简介SIGIA_4P网址a.课程OKRObjectivesandKeyResults即目标与关键成果法目标，Objectives：掌握AI领域的Python开发成果1KR1linux目录结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r864ykpN-16917885
尚硅谷爬虫note007 CSDNy666999 爬虫
一、urllib—异常1.urllib.error.HTTPError2.urllib.error.URLError#_*_coding:utf-8_*_#@Time:2025/2/1411:33#@Author:20250206-里奥#@File:demo26_异常#@Project:PythonProject10-14importurllib.requestimporturllib.error
【JAVA工程师从0开始学AI】，第四步：闭包与高阶函数——用Python的“魔法函数“重构Java思维架构默片 JAVA工程师从0开始学AI 人工智能 java python
副标题：当严谨的Java遇上"七十二变"的Python函数式编程历经变量战争、语法迷雾、函数对决，此刻我们将踏入Python最迷人的领域——函数式编程。当Java工程师还在用接口和匿名类实现回调时，Python的闭包已化身"智能机器人"，带着"记忆传承"的能力自由穿梭于代码之间。这里没有类的枷锁，函数既是武器又是盾牌，高阶函数组合出的"代码万花筒"，正是AI数据处理、模型训练的核心密码。本文将用J
【蓝桥杯集训·每日一题2025】 AcWing 6122. 农夫约翰的奶酪块 python 查理零世蓝桥杯 python 算法
Week12月17日农夫约翰的奶酪块农夫约翰有一块立方体形状的奶酪，它位于三维坐标空间中，从(0,0,0)(0,0,0)(0,0,0)延伸至(N,N,N)(N,N,N)(N,N,N)。农夫约翰将对他的奶酪块执行一系列QQQ次更新操作。对于每次更新操作，农夫约翰将从整数坐标(x,y,z)(x,y,z)(x,y,z)到(x+1,y+1,z+1)(x+1,y+1,z+1)(x+1,y+1,z+1)处切割
跟我一起学Python数据处理（六十八）：用图表让数据可视化 lilye66 信息可视化 python 开发语言 pandas
跟我一起学Python数据处理（六十八）：用图表让数据可视化大家好！在数据处理的学习道路上，我一直希望能和大家携手共进、共同成长。今天咱们继续深入学习Python数据处理中的重要内容——数据可视化。学会用合适的图表展示数据，不仅能让数据变得直观易懂，还能帮助我们发现数据背后隐藏的信息和规律。话不多说，咱们马上开始今天的学习之旅！一、不同图表的特点与应用场景在数据可视化的世界里，有各种各样的图表，每
跟我一起学Python数据处理（六十九）：用Bokeh实现数据可视化及时间序列数据处理 lilye66 信息可视化 python 开发语言 pandas
跟我一起学Python数据处理（六十九）：用Bokeh实现数据可视化及时间序列数据处理大家好！一直以来，我都希望能和各位小伙伴在Python数据处理的学习道路上并肩前行，共同进步。今天，咱们继续深入探索数据处理中的数据可视化环节，重点学习Bokeh库的使用以及时间相关数据的处理与展示。掌握这些知识，能让我们更高效地挖掘数据价值，把数据背后的故事清晰地呈现出来。话不多说，开启今天的学习之旅吧！一、B
借助 Python 的 SQLAlchemy 库查询数据米竹 SQL python mysql sqlserver
SQLAlchemy库是一个非常强大又相当灵活的库，它在关系型数据库与传统编程之间建起了一座桥梁。它允许我们使用原始的SQL执行查询，同时也提供了高级的方法来查询和更新数据库。本文仅简要介绍使用原生SQL执行查询部分。使用SQLAlchemy查询MySQL的数据首先需要安装sqlalchemy库和pymysql库；使用sqlalchemy的create_engine()方法，并借助pymysql驱
python使用SQLAlchemy进行mysql的ORM操作 Lucas在澳洲 Python python mysql 开发语言 1024程序员节
SQLAlchemy是什么SQLAlchemy是一个强大的PythonORM（对象关系映射）库，用于简化与关系型数据库的交互。通过将数据库表映射为Python类，SQLAlchemy使得开发者能够通过面向对象的方式来进行数据库操作，避免了直接使用SQL语句所带来的复杂性和安全风险。1.为什么使用ORM使用ORM具有以下优势：避免SQL注入：通过使用参数化查询，ORM可以有效地防止SQL注入攻击。可
Python----数据结构----链表----双向链表一盏偏灯 Python学习数据结构链表算法 python
Python学习之路，点击有全套Python笔记双向链表一种更复杂的链表是“双向链表”或“双面链表”。每个节点有两个链接：一个指向前一个节点，当此节点为第一个节点时，指向空值；而另一个指向下一个节点，当此节点为最后一个节点时，指向空值。步骤：is_empty()链表是否为空length()链表长度travel()遍历链表add(item)链表头部添加append(item)链表尾部添加insert
Python中NameError：全局名称未定义详解傻啦嘿哟关于python那些事儿 python 开发语言
目录一、什么是NameError二、全局名称未定义的原因三、案例分析与解决案例1：变量未声明案例2：拼写错误案例3：作用域问题案例4：导入问题四、实践与建议五、总结在Python编程中，NameError是一种常见的异常类型，它通常表明你试图使用一个未被定义的变量名。对于新手来说，理解NameError的原因和解决方法是提升编程技能的重要一环。本文将深入探讨Python中NameError:glo
Python函数的嵌套250218 taoyong001 python
函数的嵌套：在函数内部定义函数可以将一些特定的，独有功能的函数定义在一个总函数内，这样所属性与独有性就有保证函数的嵌套代码中提供了一个图片下载的代码，可以生成验证码由于函数嵌套会导致作用域问题优先在自己的作用域找变量，找不到的话才到上级作用域中找要理解使用函数栈来分析变量的值NAME="ty"deffunc():definner():print(NAME)return"admin"returnin
Python的orm框架sqlalchemy的查询多条数据只显示第一条！！ Rider丶剑心数据
我查询数据条件是时间字段的一个区间，可是每次都只返回查询结果的第一条。。类PointVal的定义如下：```classPointVal(Base):#表名__tablename__='T_ZB_PL'#表结构INSTR_NO=Column(String(30),primary_key=True)DT=Column(DateTime)R1=Column(String(11))R2=Column(St
【Python】使用SQLAlchemy操作Mysql数据库 m0_74824044 数据库 python mysql
一、SQLAlchemy介绍SQLAlchemy是Python的SQL工具包和对象关系映射（ORM）库，它提供了全套的企业级持久性模型，用于高效、灵活且优雅地与关系型数据库进行交互。使用SQLAlchemy，你可以通过Python类来定义数据库表的结构，并通过这些类与数据库进行交互，而无需编写复杂的SQL语句。以下是SQLAlchemy的一些主要特点和功能：ORM（对象关系映射）：SQLAlche
Fatal error in launcher: Unable to create process报错萧若珮笔记
完整报错是这样的：Fatalerrorinlauncher:Unabletocreateprocessusing'"c:\jenkins\workspace\deepview-python_2.5.14\python\python.exe""D:\software\eIQ\python\Scripts\pip.exe"showtensorflow':???????????查资料可以知道这种情况出现
huggingface/pytorch-image-models GarryLau ML&DL pytorch python huggingface
huggingface/pytorch-image-models1.使用技巧1.1.训练指令单卡：pythontrain.py--pretrained--input-size3224224--mean000--std111--batch-size128--validation-batch-size128--color-jitter-prob0.2--grayscale-prob0.2--gauss
python实例2.2：编写一个装饰器，计算任何一个函数执行的时间（详解及其知识点拓展）清风 001 python学习付费专栏 python
目录一、编写一个装饰器，计算任何一个函数执行的时间二、装饰器详解，及其用法举例三、举例说明装饰器在日志记录方面的应用四、装饰器还可以用于哪些方面？五、装饰器工厂一、编写一个装饰器，计算任何一个函数执行的时间装饰器是一种非常方便的设计模式，它可以用来修改或增强函数的行为，而无需直接修改函数的定义。下面是一个简单的Python装饰器，用来计算任意一个函数执行所需的时间：pythonimporttime
Fatal error in launcher: Unable to create process using xxx hellozp linux 运维服务器
Pycharm执行命令提示：Fatalerrorinlauncher:Unabletocreateprocessusing"xxxx\venv\Scripts\python.exe""\venv\Scripts\xxx"原因是虚拟环境是从其他项目/路径拷过来的，虚拟环境中的文件记录了原路径解决方法：在现有虚拟环境下，找到Scripts目录用记事本打开以下文件，把文件中路径改为现在环境路径例如：
Python的ORM框架sqlalchemy的查询多条数据只显示一条 harleylau python sqlalchemy sqlalchemy ORM
这个情况可能很少碰到，但确实花了我不少时间去找这个错误，这边记录一下。在使用sqlalchemy作为ORM来拉取mysql的数据的时候，如果想要拉取所有的数据，显而易见应该用类似下边的语句：#获取所有数据session.query(Person).all()如果要加删选条件的话，采用下边的语句：#获取所有数据session.query(Person).filter(Person.sns_id==x
socket io 前后端样例漫无目的行走的月亮 python 开发语言
Socket.IO是一个用于实现实时双向通信的库，最初是为Node.js开发的，用于解决WebSocket在不同浏览器和网络环境中的兼容性问题。它提供了一个统一的API，使得开发者可以轻松实现实时双向通信，而不必担心底层传输协议的差异。目前，Socket.IO不仅支持Node.js，还扩展到了Python、Java、.NET等多种编程语言和平台。Socket.IO主要由服务器端和客户端两部分组成：
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 (quickselect@163.com), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu