hhy_csdn

强化学习系列文章(二十六)：向量化环境Vectorized Environments

OpenAI Gym最近公布了官方API手册，可以趁机学习一下环境运行的并行化技术。

https://www.gymlibrary.ml/pages/vector_api/index

Vectorized Environments

所谓“矢量化环境”，是运行多个（独立）子环境的环境，可以按顺序运行，也可以使用多处理并行运行。矢量化环境将一批action作为输入，并返回一批observation。例如，当策略被定义为对一批obs进行操作的神经网络时，矢量化环境就特别有用了。

Gym 提供两种类型的矢量化环境：

gym.vector.SyncVectorEnv，其中的子环境按顺序执行。
gym.vector.AsyncVectorEnv，其中的子环境使用多进程并行执行。这将为每个子环境创建一个进程。

与gym.make类似，您可以使用gym.vector.make函数运行已注册环境的矢量化版本。这将运行同一环境的多个副本（默认情况下并行运行）。

下面的示例并行运行CartPole-v1环境的3个副本，将3个二值操作（每个子环境一个）的向量作为输入，并返回一个沿第一维度堆叠的3个observation的数组，其中包含每个子环境返回的奖励数组，以及一个指示每个子环境中的episode是否已结束的布尔数组。

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.reset()
>>> actions = np.array([1, 0, 1])
>>> observations, rewards, dones, infos = envs.step(actions)

>>> observations
array([[ 0.00122802,  0.16228443,  0.02521779, -0.23700266],
        [ 0.00788269, -0.17490888,  0.03393489,  0.31735462],
        [ 0.04918966,  0.19421194,  0.02938497, -0.29495203]],
        dtype=float32)
>>> rewards
array([1., 1., 1.])
>>> dones
array([False, False, False])
>>> infos
({}, {}, {})

函数gym.vector.make仅用于基本情况（例如，运行同一注册环境的多个副本）。对于任何其他用例，请使用SyncVectorEnv进行顺序执行，或使用AsyncVectorEnv进行并行执行。这些用例可能包括：

使用不同的参数运行同一环境的多个实例（例如，具有不同重力值的"Pendulum-v0"）
运行未注册环境（例如自定义环境）的多个实例
在某些（但不是全部）子环境中使用包装器。

Creating a vectorized environment

若要创建运行多个子环境的矢量化环境，可以将子环境包装在gym.vector.SyncVectorEnv（用于顺序执行）或gym.vector.AsyncVectorEnv（用于并行执行，具有多进程）中。这些创建矢量化环境的API的输入是“一个指定如何创建子环境的可调用对象的列表”。

>>> envs = gym.vector.AsyncVectorEnv([
        lambda: gym.make("CartPole-v1"),
        lambda: gym.make("CartPole-v1"),
        lambda: gym.make("CartPole-v1")
    ])

或者，要创建同一环境的多个副本的矢量化环境，可以使用函数gym.vector.make()。

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)  # Equivalent

要启用action和observation的自动批处理，所有子环境必须共享相同的action_space和observation_space。但是，所有子环境都不需要是彼此的精确副本。例如，可以使用以下命令在矢量化环境中运行2个具有不同重力值的Pendulum-v0实例：

>>> env = gym.vector.AsyncVectorEnv([
        lambda: gym.make("Pendulum-v0", g=9.81),
        lambda: gym.make("Pendulum-v0", g=1.62)
    ])

关于自动批处理的详细信息，请参考Observation & Action spaces章节。

将AsyncVectorEnv与spawn或forkserver start方法一起使用时，必须使用'if __name__ == '__main__":' 包装包含矢量化环境的代码。有关详细信息，请参阅此文档。

if __name__ == "__main__":
    envs = gym.vector.make("CartPole-v1", num_envs=3, context="spawn")

Working with vectorized environments

虽然标准Gym环境执行单个action并返回单个observation（包括reward和done），但矢量化环境是将一批action作为输入，并返回一批observation，以及一系列奖励和布尔值Done，指示episode是否在每个子环境中结束。

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.reset()
array([[ 0.00198895, -0.00569421, -0.03170966,  0.00126465],
       [-0.02658334,  0.00755256,  0.04376719, -0.00266695],
       [-0.02898625,  0.04779156,  0.02686412, -0.01298284]],
      dtype=float32)

>>> actions = np.array([1, 0, 1])
>>> observations, rewards, dones, infos = envs.step(actions)

>>> observations
array([[ 0.00187507,  0.18986781, -0.03168437, -0.301252  ],
       [-0.02643229, -0.18816885,  0.04371385,  0.3034975 ],
       [-0.02803041,  0.24251814,  0.02660446, -0.29707024]],
      dtype=float32)
>>> rewards
array([1., 1., 1.])
>>> dones
array([False, False, False])
>>> infos
({}, {}, {})

矢量化环境与任何子环境兼容，无论动作和观察空间如何（例如，像gym.spaces.Dict这样的容器空间，或任何任意嵌套的空间）。特别是，矢量化环境可以自动批处理VectorEnv.reset和VectorEnv.step返回的任何标准GymSpace定义的observation（例如gym.spaces.Box、gym.spaces.Discrete、gym.spaces.Dict或其任何嵌套结构）。同样，矢量化环境也可以执行批量action，而这些action可以是任何标准的GymSpace定义的。

>>> class DictEnv(gym.Env):
...     observation_space = gym.spaces.Dict({
...         "position": gym.spaces.Box(-1., 1., (3,), np.float32),
...         "velocity": gym.spaces.Box(-1., 1., (2,), np.float32)
...     })
...     action_space = gym.spaces.Dict({
...         "fire": gym.spaces.Discrete(2),
...         "jump": gym.spaces.Discrete(2),
...         "acceleration": gym.spaces.Box(-1., 1., (2,), np.float32)
...     })
...
...     def reset(self):
...         return self.observation_space.sample()
...
...     def step(self, action):
...         observation = self.observation_space.sample()
...         return (observation, 0., False, {})

>>> envs = gym.vector.AsyncVectorEnv([lambda: DictEnv()] * 3)
>>> envs.observation_space
Dict(position:Box(-1.0, 1.0, (3, 3), float32), velocity:Box(-1.0, 1.0, (3, 2), float32))
>>> envs.action_space
Dict(fire:MultiDiscrete([2 2 2]), jump:MultiDiscrete([2 2 2]), acceleration:Box(-1.0, 1.0, (3, 2), float32))

>>> envs.reset()
>>> actions = {
...     "fire": np.array([1, 1, 0]),
...     "jump": np.array([0, 1, 0]),
...     "acceleration": np.random.uniform(-1., 1., size=(3, 2))
... }
>>> observations, rewards, dones, infos = envs.step(actions)
>>> observations
{"position": array([[-0.5337036 ,  0.7439302 ,  0.41748118],
                    [ 0.9373266 , -0.5780453 ,  0.8987405 ],
                    [-0.917269  , -0.5888639 ,  0.812942  ]], dtype=float32),
"velocity": array([[ 0.23626241, -0.0616814 ],
                   [-0.4057572 , -0.4875375 ],
                   [ 0.26341468,  0.72282314]], dtype=float32)}

矢量化环境中的子环境在episode结束时会自动调用obj：reset。在下面的示例中，第 3 个子环境的episode在2个step后结束（agent掉入一个洞中），子环境被重置（observation0）。

>>> envs = gym.vector.make("FrozenLake-v1", num_envs=3, is_slippery=False)
>>> envs.reset()
array([0, 0, 0])
>>> observations, rewards, dones, infos = envs.step(np.array([1, 2, 2]))
>>> observations, rewards, dones, infos = envs.step(np.array([1, 2, 1]))

>>> dones
array([False, False,  True])
>>> observations
array([8, 2, 0])

Observation & Action spaces

与任何Gym环境一样，矢量化环境包含VectorEnv.observation_space和VectorEnv.action_space两个属性，用于指定环境的观察和操作空间。由于矢量化环境在多个子环境中运行，其中所有子环境执行的操作和返回的观测值一起批处理，因此obs和action空间也进行批处理，只要输入action是VectorEnv.action_space的有效元素，并且observation是VectorEnv.observation_space的有效元素。

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.observation_space
Box([[-4.8 ...]], [[4.8 ...]], (3, 4), float32)
>>> envs.action_space
MultiDiscrete([2 2 2])

为了在矢量化环境中对obs和action进行适当的批处理，所有子环境的观测值和动作空间必须相同。

>>> envs = gym.vector.AsyncVectorEnv([
...     lambda: gym.make("CartPole-v1"),
...     lambda: gym.make("MountainCar-v0")
... ])
RuntimeError: Some environments have an observation space different from `Box([-4.8 ...], [4.8 ...], (4,), float32)`. In order to batch observations, the observation spaces from all environments must be equal.

但是，有时访问特定子环境的obs和action空间（而不是批处理的空间）可能很方便。可以使用矢量化环境的属性VectorEnv.single_observation_space和VectorEnv.single_action_space访问这些属性。

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.single_observation_space
Box([-4.8 ...], [4.8 ...], (4,), float32)
>>> envs.single_action_space
Discrete(2)

这很方便，例如在实例化一个策略函数的时候。在下面的示例中，使用VectorEnv.single_observation_space和VectorEnv.single_action_space来定义线性策略的权重。请注意，由于矢量化环境，我们只需调用一次策略函数，即可将策略直接应用于整批observation。

>>> from gym.spaces.utils import flatdim
>>> from scipy.special import softmax

>>> def policy(weights, observations):
...     logits = np.dot(observations, weights)
...     return softmax(logits, axis=1)

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> weights = np.random.randn(
...     flatdim(envs.single_observation_space),
...     envs.single_action_space.n
... )
>>> observations = envs.reset()
>>> actions = policy(weights, observations).argmax(axis=1)
>>> observations, rewards, dones, infos = envs.step(actions)

Intermediate Usage

Shared memory

AsyncVectorEnv在单个进程内运行每个子环境。在每次调用AsyncVectorEnv.reset或AsyncVectorEnv.step时，所有子环境的观察结果都会发送回主进程。为了避免在进程之间进行昂贵的数据传输，特别是对于大型observation（例如图像），AsyncVectorEnv默认使用共享内存（shared_memory=True），进程可以以最低的成本写入和读取。这可以提升矢量化环境的整体性能。

>>> env_fns = [lambda: gym.make("BreakoutNoFrameskip-v4")] * 5

>>> envs = gym.vector.AsyncVectorEnv(env_fns, shared_memory=False)
>>> envs.reset()
>>> %timeit envs.step(envs.action_space.sample())
2.23 ms ± 136 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

>>> envs = gym.vector.AsyncVectorEnv(env_fns, shared_memory=True)
>>> envs.reset()
>>> %timeit envs.step(envs.action_space.sample())
1.36 ms ± 15.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Exception handling

由于有时事情可能不会按计划进行，因此在矢量化环境中会重新引发子环境中引发的异常，即使子环境与AsyncVectorEnv并行运行也是如此。这样，您可以选择如何自己处理这些异常（使用try...except）。

>>> class ErrorEnv(gym.Env):
...     observation_space = gym.spaces.Box(-1., 1., (2,), np.float32)
...     action_space = gym.spaces.Discrete(2)
...
...     def reset(self):
...         return np.zeros((2,), dtype=np.float32)
...
...     def step(self, action):
...         if action == 1:
...             raise ValueError("An error occurred.")
...         observation = self.observation_space.sample()
...         return (observation, 0., False, {})

>>> envs = gym.vector.AsyncVectorEnv([lambda: ErrorEnv()] * 3)
>>> observations = envs.reset()
>>> observations, rewards, dones, infos = envs.step(np.array([0, 0, 1]))
ERROR: Received the following error from Worker-2: ValueError: An error occurred.
ERROR: Shutting down Worker-2.
ERROR: Raising the last exception back to the main process.
ValueError: An error occurred.

Advanced Usage

Custom spaces

矢量化环境会对来自标准Gym空间（如gym.spaces.Box、gym.spaces.Discrete或gym.spaces.Dict）的元素的action和obs进行批处理。但是，如果您使用自定义的action和/或obs空间（继承自gym.space）创建自己的环境，矢量化环境不会尝试自动批处理操作/观察，而是从所有子环境中返回元素的原始元组。

在下面的示例中，我们创建了一个新环境SMILESEnv，其观察结果是表示分子结构的SMILES符号的字符串，具有一个自定义观察空间SMILES。矢量化环境返回的observation包含在字符串元组中。

>>> class SMILES(gym.Space):
...     def __init__(self, symbols):
...         super().__init__()
...         self.symbols = symbols
...
...     def __eq__(self, other):
...         return self.symbols == other.symbols

>>> class SMILESEnv(gym.Env):
...     observation_space = SMILES("][()CO=")
...     action_space = gym.spaces.Discrete(7)
...
...     def reset(self):
...         self._state = "["
...         return self._state
...
...     def step(self, action):
...         self._state += self.observation_space.symbols[action]
...         reward = done = (action == 0)
...         return (self._state, float(reward), done, {})

>>> envs = gym.vector.AsyncVectorEnv(
...     [lambda: SMILESEnv()] * 3,
...     shared_memory=False
... )
>>> envs.reset()
>>> observations, rewards, dones, infos = envs.step(np.array([2, 5, 4]))
>>> observations
('[(', '[O', '[C')

自定义观察和动作空间可能继承自gym.Space。但是，大多数用例应该可以由现有的空间类（例如gym.spaces.Box，gym.spaces.Discrete等）和容器类（gym.spaces.Tuple和gym.spaces.Dict）覆盖。此外，强化学习算法的某些实现可能无法正确处理自定义空间。请谨慎使用自定义空间。

如果将AsyncVectorEnv与自定义观测空间一起使用，则必须将shared_memory=False，因为共享内存和自动批处理与自定义空间不兼容。通常，如果将自定义空间与AsyncVectorEnv一起使用，则这些空间的元素必须是pickleable。

API Reference

VectorEnv

action_space
（批量化的）动作空间。 step函数的输入动作必须是action_space的合法元素。

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.action_space
MultiDiscrete([2 2 2])

observation_space
（批量化的）观测空间。reset和step返回的observation必须是observation_space的合法元素。

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.observation_space
Box([[-4.8 ...]], [[4.8 ...]], (3, 4), float32)

single_action_space
子环境的动作空间

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.single_action_space
Discrete(2)

single_observation_space
子环境的观测空间

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.single_action_space
Box([-4.8 ...], [4.8 ...], (4,), float32)

Reset

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.reset()
array([[-0.04456399,  0.04653909,  0.01326909, -0.02099827],
        [ 0.03073904,  0.00145001, -0.03088818, -0.03131252],
        [ 0.03468829,  0.01500225,  0.01230312,  0.01825218]],
        dtype=float32)

Step

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.reset()
>>> actions = np.array([1, 0, 1])
>>> observations, rewards, dones, infos = envs.step(actions)

>>> observations
array([[ 0.00122802,  0.16228443,  0.02521779, -0.23700266],
        [ 0.00788269, -0.17490888,  0.03393489,  0.31735462],
        [ 0.04918966,  0.19421194,  0.02938497, -0.29495203]],
        dtype=float32)
>>> rewards
array([1., 1., 1.])
>>> dones
array([False, False, False])
>>> infos
({}, {}, {})

Seed

>>> envs = gym.vector.make("CartPole-v1", num_envs=3)
>>> envs.seed([1, 3, 5])
>>> envs.reset()
array([[ 0.03073904,  0.00145001, -0.03088818, -0.03131252],
        [ 0.02281231, -0.02475473,  0.02306162,  0.02072129],
        [-0.03742824, -0.02316945,  0.0148571 ,  0.0296055 ]],
        dtype=float32)

基于STC89C52的CD4511译码显示数字设计 @小张要努力单片机嵌入式硬件 51单片机 proteus mcu
摘要本文深入探讨基于STC89C52单片机的数字显示系统设计，剖析CD4511译码驱动芯片工作原理，结合Proteus仿真验证功能。通过硬件电路、软件编程及原理分析，完整呈现单片机控制数码管显示的实现过程，为相关开发提供理论与实践参考。一、引言在单片机应用中，数码管显示是基础模块。CD4511作为BCD码译码驱动芯片，可简化单片机与数码管接口设计。STC89C52凭借丰富资源与稳定性能，成为驱动C
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
使用Tiktoken进行文本分割：优化大语言模型的输入 bhawfgrcbtwny 语言模型 python 人工智能
引言在处理大语言模型时，因其对输入的token数量有限制，文本分割成为一个至关重要的任务。为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。在本文中，我们将探讨如何使用Tiktoken和其他工具来实现有效的文本分割。主要内容1.Tiktoken介绍Tiktoken是由OpenAI创建的一个快速BPE（BytePairEncoding）to
matsim开发教程若木胡大数据信息可视化
以下是基于MATSim的二次开发教程指南，结合交通仿真框架的核心功能和开发实践，提供从环境搭建到高级开发的完整路径：一、MATSim简介MATSim（Multi-AgentTransportSimulation）是一个基于Java的开源交通仿真框架，专注于大规模多智能体（Agent）交通行为模拟，支持动态需求建模、路径规划优化、政策评估等应用场景。二、开发环境搭建1.基础依赖JavaJDK11+：
热点研究 | OpenAI 重磅发布 Agents SDK，人人都能手搓 Manus? Ai野生菌技术面 php 开发语言 manus openai agent
3月12日，OpenAI正式发布了OpenAIAgentsSDK，这一重要发布不仅为开发者提供了强大的工具，更预示着AIAgent技术即将进入快速发展期。这些工具为开发者提供更强大功能，使代理能够独立执行复杂任务，如搜索网络、处理文件和自动化计算机操作。ResponsesAPI同步发布，为开发者提供了构建自定义AIAgent的能力，能够执行网络搜索、文件检索等任务。这套新工具和API旨在赋能开发者
【FPGA教程案例31】通信案例1——基于FPGA的ASK调制信号产生 fpga和matlab ★教程2:fpga入门100例 fpga开发 FPGA教程 ASK调制 verilog
FPGA教程目录MATLAB教程目录---------------------------------------------------------------------------------------目录1.软件版本2.ASK调制原理3.ASK调制过程的FPGA实现4.操作步骤与仿真结论5.参考文献1.软件版本vivado2019.22.ASK调制原理幅度键控（Amplitude-Shi
openai 标准化协议 Structured Outputs 具体示例教程 weixin_40941102 语言模型
StructuredOutputs具体示例教程场景：个人财务管理助手假设我们要构建一个AI助手，帮助用户记录和管理个人财务支出。用户可以输入自然语言描述（如“昨天我花了50元买了午餐”），助手将提取关键信息并以结构化JSON格式返回，包括日期、金额、类别和备注。示例1：使用StructuredOutputs提取财务记录步骤1：定义JSONSchema我们需要一个清晰的Schema来描述财务记录：{
GPT-4o mini小型模型具备卓越的文本智能和多模态推理能力 FlowUs息流使用宝典 GPT-4o mini
GPT-4omini是首个应用OpenAI指令层次结构方法的模型，这有助于增强模型抵抗越狱、提示注入和系统提示提取的能力。这使得模型的响应更加可靠，并有助于在大规模应用中更安全地使用。GPT-4omini在学术基准测试中，无论是在文本智能还是多模态推理方面，都超越了GPT-3.5Turbo和其他小型模型，并支持与GPT-4o相同的语言范围。它在函数调用方面也表现出色，这使开发者能够构建应用程序来从
光伏储能直流系统MATLAB仿真（PV光伏阵列+Boost DCDC变换器+负载+双向DCDC变换器+锂离子电池系统） yyds_2201 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述光伏储能直流系统MATLAB仿真研究一、引言二、光伏储能直流系统的基本构成（一）PV光伏阵列（二）BoostDC/DC变换器（三）负载（四）双向DC/DC变换器（五）锂离子电池系统（六）控制模块（七）观测模块三、MATLAB仿真模型建立（一）光伏阵列模型（二）B
Gymnasium学习笔记 songyuc gymnasium
1.Customwrapper[doc]1.1reset()方法重写说明重写函数模板：defreset(self,**kwargs):obs=super().reset(**kwargs)...returnobs1.1.1签名解释Deepseek-r1-Cursor:reset()方法的定义如下：defreset(self,*,seed=None,options=None):...注意参数前的星号
CAPL系统事件-01 on preStart 正当少年 CAPL CAPL
在CAPL（CANAccessProgrammingLanguage）中，onpreStart事件是一个特殊的事件处理程序，用于在仿真节点（SimulationNode）启动之前执行特定的初始化操作。这个事件通常用于设置仿真环境的初始状态、初始化变量、配置总线参数等。1.onpreStart事件的基本功能触发时机：在仿真节点启动之前触发。主要用途：初始化变量和信号。配置总线参数（如波特率、通道模式
自动驾驶---打造自动驾驶系统之导航模块开发（三）智能汽车人从零打造自动驾驶算法仿真系统自动驾驶人工智能机器学习
各位读者朋友，大家好。本次打造的自动驾驶系统仿真系统，涉及感知，预测，规控等多个模块（以规控算法为主，包括Polynomial预测，MCTS决策算法，通行走廊Corridor构建，QP/CILQR轨迹生成求解器，LQR+PID的控制器等），同时也支持其它相关规控算法的扩展（部署&开发自身感兴趣的算法），非常便捷。笔者在该系列中开发的规控算法主要依据专栏《自动驾驶Planning决策规划》中的章节逐
万字干货分享最新AI指南：用LazyLLM把Deep Research做成赛博屠龙刀！大模型人工智能llm
最近OpenAI、Jina、perplexity等各大厂商纷纷推出了自家的DeepResearch应用。Deepresearch是什么？为什么这个应用引起了大家的关注？能不能使用lazyllm搭建一个属于自己的deepresearch？带着这些问题，本文将对OpenAI发布的DeepResearch进行简要介绍，并依托于lazyllm强大的能力，使用极少代码量实现一个自己的deepresearch
纳米尺度仿真软件：Quantum Espresso_（18）.纳米结构的几何优化 kkchenjj 分子动力学2 模拟仿真分子动力学仿真模拟
纳米结构的几何优化在纳米尺度仿真软件中，几何优化是计算材料性质的重要步骤之一。几何优化的目标是找到系统的最低能量构型，这通常涉及到调整原子的位置以使系统的总能量最小化。在本节中，我们将详细介绍如何在QuantumEspresso中进行几何优化，并提供具体的代码示例和数据样例。几何优化的基本概念几何优化是通过迭代调整原子的位置来使系统的总能量最小化的过程。在每一步迭代中，软件会计算系统的梯度（即能量
生物分子仿真软件： Desmond_（3）.分子动力学模拟基础 kkchenjj 分子动力学2 模拟仿真分子动力学仿真模拟
分子动力学模拟基础1.分子动力学模拟的基本概念分子动力学（MolecularDynamics,MD）模拟是一种计算方法，用于研究分子系统在不同时间和空间尺度下的行为。通过解决牛顿运动方程，MD模拟可以提供分子系统的详细动力学信息，包括原子位置、速度和加速度。这些信息对于理解生物分子的结构、功能和相互作用至关重要。1.1牛顿运动方程分子动力学模拟的核心是牛顿运动方程，它可以描述每个原子在系统中的运动
AFSim仿真系统—01 架构介绍仿真小课堂架构
本栏目将对《AFSim2.9中文参考手册》进行持续更新，欢迎关注交流！获取本书全文和AFSIM其它资料，请联系作者~全部内容索引请看⬇️⬇️⬇️《AFSim2.9中文参考手册》-CSDN博客https://blog.csdn.net/henggesim/article/details/145566384目录一、核心架构二、核心应用三、核心服务Scenarios（场景）Simulations（仿真）
ROS学习笔记之深度相机仿真、小结要好好养胃 ROS学习笔记人工智能机器学习 c++
通过Gazebo模拟kinect摄像头，并在Rviz中显示kinect摄像头数据。实现流程:kinect摄像头仿真基本流程:已经创建完毕的机器人模型，编写一个单独的xacro文件，为机器人模型添加kinect摄像头配置；将此文件集成进xacro文件；启动Gazebo，使用Rviz显示kinect摄像头信息。1.Gazebo仿真Kinect1.1新建Xacro文件，配置kinetic传感器信息//这
ROS学习笔记之摄像头仿真及显示要好好养胃 ROS学习笔记人工智能机器学习 c++
通过Gazebo模拟摄像头传感器，并在Rviz中显示摄像头数据。实现流程:摄像头仿真基本流程:已经创建完毕的机器人模型，编写一个单独的xacro文件，为机器人模型添加摄像头配置；将此文件集成进xacro文件；启动Gazebo，使用Rviz显示摄像头信息。1.Gazebo仿真摄像头1.1新建Xacro文件，配置摄像头传感器信息有几个要自行修改的地方，基本设置和laser有相同的部分，不做赘述。//实
MATLAB 控制系统设计与仿真 - 28 东雁西飞 MATLAB 控制系统设计与仿真 matlab 算法开发语言机器人自动控制 AI算法
MATLAB状态空间控制系统分析-极点配置就受控系统的控制律的设计而言，由状态反馈极点配置和输出反馈极点配置。状态反馈极点配置问题就是：通过状态反馈矩阵K的选取，使闭环系统的极点，即(A-BK)的特征值恰好处于所希望的一组给定闭环极点的位置。另外，线性定常系统可以用状态反馈任意配置极点的充分必要条件是：该系统必须是完全能控的。所以，在实现极点的任意配置前，必须判别受控系统的能控性。下面结合例子介绍
光学工程师中年危机光学设计培训激光雷达光学设计 zemax 光学光学工程
一、技术能力突围：向高价值领域迁移‌‌瞄准增量市场‌‌激光雷达与自动驾驶‌：将光学设计经验迁移至激光雷达光路优化（如VCSEL阵列准直算法）、热稳定性补偿算法（解决车载环境温度漂移问题）‌15。‌AR/VR光学模组‌：参与超表面透镜（Metasurface）设计，结合波导与全息技术提升显示效率，掌握LightTools或LucidShape光场仿真‌37。‌强化算法能力‌‌光学-算法交叉技能‌：从
vue对接openai_实现ChatGPT 开心小老虎 vue3知识点+组件 chatgpt
一、openai密钥使用API密钥才能连接到OpenAIAPI，去OpenAI网站注册一个账户（目前国内访问openai受限制，需要其他方式进行访问），单击个人资料图片和“查看API密钥”，创建一个新的密钥。openai官网https://openai.com/二、使用openai包发送请求获得数据1.下载openai包npmiopenai--save2.使用openai包发送请求importOp
关于xshell和todesk两种远程控制电脑的区别以及核心原理白雪落青衣运维
Xshell和ToDesk都是远程控制工具，但它们在功能、应用场景以及核心原理上存在显著差异。一、核心原理Xshell原理概述：Xshell是一款终端仿真器，主要凭借SecureShell（SSH）协议来实施远程控制和管理。SSH是一种加密的网络协议，用于在不太安全的网络环境中安全地开展系统管理以及数据传输。具体步骤：构建加密连接：用户启动Xshell并输入远程服务器的地址以及登录凭据后，Xshe
五、AIGC大模型_05模型的vLLM部署与LangChain调用学不会lostfound AI 人工智能 langchain openai vLLM AIGC
0、概述要搭建一个大模型应用服务，通常需要包含以下五层结构，即：基础环境、模型层、推理层、对外接口、外挂应用在了解了模型的微调训练之后，本文将以vLLM、OpenAI、LangChain为例，介绍大模型的推理部署以及对外接口开放调用1、vLLM1.1定义vLLM（VirtualLargeLanguageModel）是一个开源的大语言模型高速推理框架，由加州大学伯克利分校的LMSYS组织开发，它旨在
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
OpenAI Agents SDK 中文文档中文教程（6） wtsolutions openai agents sdk openai agents sdk python 中文
英文文档原文详见OpenAIAgentsSDKhttps://openai.github.io/openai-agents-python/本文是OpenAI-agents-sdk-python使用翻译软件翻译后的中文文档/教程。分多个帖子发布，帖子的目录如下：(1)OpenAI代理SDK，介绍及快速入门(2)OpenAIagentssdk,agents，运行agents，结果，流，工具，交接(3)
Matlab 汽车半主动悬架振动模糊pid控制 studyer_爱啃鸡爪的小米 Matlab系列案例汽车
1、内容简介Matlab178-汽车半主动悬架振动模糊pid控制可以交流、咨询、答疑2、内容说明略摘要：以某微型客车悬架的液压减振器为研究对象，依据汽车动力学理论建立了１／４汽车半主动悬架控制系统的动力学模型，并应用ＭＡＴＬＡＢ／Ｓｉｍｕｌｉｎｋ软件及模糊控制理论模拟仿真了客车在Ｃ级路面以不同速度行驶时的振动特性。研究结果表明：模糊控制器可以进一步提高客车的乘坐舒适性和操纵稳定性，同时验证了其具有
DeepSeek在智慧物流管控中的全场景落地方案猴的哥儿笔记大数据交通物流 python 数据仓库微服务
一、智慧物流核心痛点与DeepSeek解决方案矩阵物流环节行业痛点DeepSeek技术方案价值增益仓储管理库存预测误差率>30%多模态时空预测模型库存周转率↑40%运输调度车辆空驶率35%强化学习动态调度引擎运输成本↓25%路径规划突发路况响应延迟>30分钟实时路况语义理解+自适应规划准时交付率↑18%异常检测50%异常依赖人工发现多传感器融合的异常模式识别异常发现时效↑6倍客户服务50%咨询需人
从Manus爆红到OpenAI反击：AI Agent技术架构与实战解析大F的智能小课大模型理论和实战 DeepSeek技术解析和实战人工智能架构
大家好，我是大F，深耕AI算法十余年，互联网大厂技术岗。知行合一，不写水文，喜欢可关注，分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！1.引：一夜爆红的Manus与OpenAI的反击2025年3月6日凌晨，中国团队Monica推出的通用人工智能代理产品Manus横空出世。这款被称作"Agent界的DeepSeek时刻"的产品，
探索DeepSeek：前端开发者不可错过的新一代AI技术实践指南 formerlyai 人工智能前端
引言：为什么DeepSeek成为技术圈焦点？最近，国产AI模型DeepSeek凭借其低成本训练、高性能输出和开源策略，迅速成为开发者社区的热门话题。作为覆盖语言、代码、视觉的多模态技术矩阵，DeepSeek不仅实现了与ChatGPT相媲美的能力，还通过强化学习驱动的架构创新，解决了大模型落地中的成本与效率瓶颈。对于前端开发者而言，DeepSeek的API接入能力和私有化部署方案，为智能应用开发提供
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

强化学习系列文章(二十六)：向量化环境Vectorized Environments

强化学习系列文章(二十六)：向量化环境Vectorized Environments

Vectorized Environments

Creating a vectorized environment

Working with vectorized environments

Observation & Action spaces

Intermediate Usage

Shared memory

Exception handling

Advanced Usage

Custom spaces

API Reference

VectorEnv

Reset

Step

Seed

你可能感兴趣的:(强化学习,强化学习,OpenAI,Gym,并行化仿真)