蓝天居士

OpenAI Gym中FrozenLake环境（场景）源码分析（1）

针对于OpenAI Gym中FrozenLake（冻湖）环境（场景）的示例代码网上有很多，如下代码就是其中比较经典的：

import numpy as np
import gym
import random
import time
from IPython.display import clear_output

env = gym.make("FrozenLake-v1")

observation_space = env.observation_space
print("The observation space: {}".format(observation_space))
observation_space_size = env.observation_space.n
print(observation_space_size)

action_space = env.action_space
print("The action space: {}".format(action_space))
action_space_size = env.action_space.n
print(action_space_size)

q_table = np.zeros((observation_space_size, action_space_size))
# q_table = np.zeros([observation_space_size, action_space_size])
print(q_table)

"""
num_episodes = 10000
max_steps_per_episode = 100

learning_rate = 0.1
discount_rate = 0.99

exploration_rate = 1
max_exploration_rate = 1
min_exploration_rate = 0.01
exploration_decay_rate = 0.01
"""

total_episodes = 15000        # Total episodes 训练次数
learning_rate = 0.8           # Learning rate 学习率
max_steps = 99                # Max steps per episode 一次训练中最多决策次数
gamma = 0.95                  # Discounting rate 折扣率，对未来收益的折扣

# Exploration parameters
epsilon = 1.0                 # Exploration rate 探索率，就是选择动作时，随机选择动作的概率
max_epsilon = 1.0             # Exploration probability at start 初始探索率
min_epsilon = 0.01            # Minimum exploration probability 最低探索率
decay_rate = 0.001            # Exponential decay rate for exploration prob 探索率消减的指数

# List of rewards
rewards = []

# For life or until learning is stopped
for episode in range(total_episodes):
    # Reset the environment
    state = env.reset()
    state = state[0] #本来没这条代码，但是我看这个是二元组，为了后面估计Q值可以跑，我就改成这个了，我看着是不影响的
    step = 0
    done = False
    total_rewards = 0

    for step in range(max_steps):
        # Choose an action a in the current world state (s)
        ## First we randomize a number
        exp_exp_tradeoff = random.uniform(0, 1)
        
        ## If this number > greater than epsilon --> exploitation (taking the biggest Q value for this state)
        if exp_exp_tradeoff > epsilon:
            action = np.argmax(q_table[state,:])

        # Else doing a random choice --> exploration
        else:
            action = env.action_space.sample()

        # Take the action (a) and observe the outcome state(s') and reward (r)
        new_state, reward, done, truncated, info = env.step(action) # 这个也是，刚开始报错，来后我查了新的库这个函数输出五个数，网上说最后那个加‘_’就行
        #new_state, reward, done, info, _ = env.step(action) # 这个也是，刚开始报错，来后我查了新的库这个函数输出五个数，网上说最后那个加‘_’就行

        # Update Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
        # qtable[new_state,:] : all the actions we can take from new state
        q_table[state, action] = q_table[state, action] + learning_rate * (reward + gamma * np.max(q_table[new_state, :]) - q_table[state, action])
        
        total_rewards += reward
        
        # Our new state is state
        state = new_state
        
        # If done (if we're dead) : finish episode
        if done == True: 
            break
        
        #if truncated == True:
            #break
        
    # Reduce epsilon (because we need less and less exploration) 随着智能体对环境熟悉程度增加，可以减少对环境的探索
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode) 
    rewards.append(total_rewards)

print ("Score over time: " +  str(sum(rewards)/total_episodes))
print(q_table)

另外，也有很不错的讲解视频（不过是英语解说），链接如下：

【吴长星精选系列】用于 Q-learning 的 OpenAI Gym 和 Python - 强化学习代码项目OpenAI Gym and Python for_哔哩哔哩_bilibili

【吴长星精选系列】用 Python 训练 Q-learning Agent - 强化学习代码项目Train Q-learning Agent with Pyth_哔哩哔哩_bilibili

【吴长星精选系列】观看 Q-learning Agent Play Game with Python - Reinforcement Learning Code_哔哩哔哩_bilibili

这个系列视频中把如何基于OpenAI Gym中的FrozenLake框架编写应用代码交代得清清楚楚。

不论是上边的例程还是视频中的示例代码，都只是用FrozenLake库（模块）的代码，并没有深入到库的底层实现，即底层是如何实现该功能的。那么本文就来带领大家深入了解一下底层的代码实现。

要了解底层代码，先得知道它具体在什么位置。在笔者之前的文章OpenAI Gym入门与实操（1）_蓝天居士的博客-CSDN博客

中通过pip install gym命令下载安装了OpenAI Gym，并且又通过pip install gym[all]命令安装了全部环境。安装完成后OpenAI Gym的存放路径为用户目录下的“.local/python3.xx/site-packages/gym”，笔者电脑上的实际路径即及内容如下：

$ ls ~/.local/lib/python3.11/site-packages/gym
core.py  error.py     logger.py    py.typed  utils   version.py
envs     __init__.py  __pycache__  spaces    vector  wrappers

$ tree ~/.local/lib/python3.11/site-packages/gym
/home/penghao/.local/lib/python3.11/site-packages/gym
├── core.py
├── envs
│   ├── box2d
│   │   ├── bipedal_walker.py
│   │   ├── car_dynamics.py
│   │   ├── car_racing.py
│   │   ├── __init__.py
│   │   ├── lunar_lander.py
│   │   └── __pycache__
│   │       ├── bipedal_walker.cpython-311.pyc
│   │       ├── car_dynamics.cpython-311.pyc
│   │       ├── car_racing.cpython-311.pyc
│   │       ├── __init__.cpython-311.pyc
│   │       └── lunar_lander.cpython-311.pyc
│   ├── classic_control
│   │   ├── acrobot.py
│   │   ├── assets
│   │   │   └── clockwise.png
│   │   ├── cartpole.py
│   │   ├── continuous_mountain_car.py
│   │   ├── __init__.py
│   │   ├── mountain_car.py
│   │   ├── pendulum.py
│   │   ├── __pycache__
│   │   │   ├── acrobot.cpython-311.pyc
│   │   │   ├── cartpole.cpython-311.pyc
│   │   │   ├── continuous_mountain_car.cpython-311.pyc
│   │   │   ├── __init__.cpython-311.pyc
│   │   │   ├── mountain_car.cpython-311.pyc
│   │   │   ├── pendulum.cpython-311.pyc
│   │   │   └── utils.cpython-311.pyc
│   │   └── utils.py
│   ├── __init__.py
│   ├── mujoco
│   │   ├── ant.py
│   │   ├── ant_v3.py
│   │   ├── ant_v4.py
│   │   ├── assets
│   │   │   ├── ant.xml
│   │   │   ├── half_cheetah.xml
│   │   │   ├── hopper.xml
│   │   │   ├── humanoidstandup.xml
│   │   │   ├── humanoid.xml
│   │   │   ├── inverted_double_pendulum.xml
│   │   │   ├── inverted_pendulum.xml
│   │   │   ├── point.xml
│   │   │   ├── pusher.xml
│   │   │   ├── reacher.xml
│   │   │   ├── swimmer.xml
│   │   │   └── walker2d.xml
│   │   ├── half_cheetah.py
│   │   ├── half_cheetah_v3.py
│   │   ├── half_cheetah_v4.py
│   │   ├── hopper.py
│   │   ├── hopper_v3.py
│   │   ├── hopper_v4.py
│   │   ├── humanoid.py
│   │   ├── humanoidstandup.py
│   │   ├── humanoidstandup_v4.py
│   │   ├── humanoid_v3.py
│   │   ├── humanoid_v4.py
│   │   ├── __init__.py
│   │   ├── inverted_double_pendulum.py
│   │   ├── inverted_double_pendulum_v4.py
│   │   ├── inverted_pendulum.py
│   │   ├── inverted_pendulum_v4.py
│   │   ├── mujoco_env.py
│   │   ├── mujoco_rendering.py
│   │   ├── pusher.py
│   │   ├── pusher_v4.py
│   │   ├── __pycache__
│   │   │   ├── ant.cpython-311.pyc
│   │   │   ├── ant_v3.cpython-311.pyc
│   │   │   ├── ant_v4.cpython-311.pyc
│   │   │   ├── half_cheetah.cpython-311.pyc
│   │   │   ├── half_cheetah_v3.cpython-311.pyc
│   │   │   ├── half_cheetah_v4.cpython-311.pyc
│   │   │   ├── hopper.cpython-311.pyc
│   │   │   ├── hopper_v3.cpython-311.pyc
│   │   │   ├── hopper_v4.cpython-311.pyc
│   │   │   ├── humanoid.cpython-311.pyc
│   │   │   ├── humanoidstandup.cpython-311.pyc
│   │   │   ├── humanoidstandup_v4.cpython-311.pyc
│   │   │   ├── humanoid_v3.cpython-311.pyc
│   │   │   ├── humanoid_v4.cpython-311.pyc
│   │   │   ├── __init__.cpython-311.pyc
│   │   │   ├── inverted_double_pendulum.cpython-311.pyc
│   │   │   ├── inverted_double_pendulum_v4.cpython-311.pyc
│   │   │   ├── inverted_pendulum.cpython-311.pyc
│   │   │   ├── inverted_pendulum_v4.cpython-311.pyc
│   │   │   ├── mujoco_env.cpython-311.pyc
│   │   │   ├── mujoco_rendering.cpython-311.pyc
│   │   │   ├── pusher.cpython-311.pyc
│   │   │   ├── pusher_v4.cpython-311.pyc
│   │   │   ├── reacher.cpython-311.pyc
│   │   │   ├── reacher_v4.cpython-311.pyc
│   │   │   ├── swimmer.cpython-311.pyc
│   │   │   ├── swimmer_v3.cpython-311.pyc
│   │   │   ├── swimmer_v4.cpython-311.pyc
│   │   │   ├── walker2d.cpython-311.pyc
│   │   │   ├── walker2d_v3.cpython-311.pyc
│   │   │   └── walker2d_v4.cpython-311.pyc
│   │   ├── reacher.py
│   │   ├── reacher_v4.py
│   │   ├── swimmer.py
│   │   ├── swimmer_v3.py
│   │   ├── swimmer_v4.py
│   │   ├── walker2d.py
│   │   ├── walker2d_v3.py
│   │   └── walker2d_v4.py
│   ├── __pycache__
│   │   ├── __init__.cpython-311.pyc
│   │   └── registration.cpython-311.pyc
│   ├── registration.py
│   └── toy_text
│       ├── blackjack.py
│       ├── cliffwalking.py
│       ├── font
│       │   └── Minecraft.ttf
│       ├── frozen_lake.py
│       ├── img
│       │   ├── C2.png
│       │   ├── C3.png
│       │   ├── C4.png
│       │   ├── C5.png
│       │   ├── C6.png
│       │   ├── C7.png
│       │   ├── C8.png
│       │   ├── C9.png
│       │   ├── cab_front.png
│       │   ├── cab_left.png
│       │   ├── cab_rear.png
│       │   ├── cab_right.png
│       │   ├── CA.png
│       │   ├── Card.png
│       │   ├── CJ.png
│       │   ├── CK.png
│       │   ├── cookie.png
│       │   ├── CQ.png
│       │   ├── cracked_hole.png
│       │   ├── CT.png
│       │   ├── D2.png
│       │   ├── D3.png
│       │   ├── D4.png
│       │   ├── D5.png
│       │   ├── D6.png
│       │   ├── D7.png
│       │   ├── D8.png
│       │   ├── D9.png
│       │   ├── DA.png
│       │   ├── DJ.png
│       │   ├── DK.png
│       │   ├── DQ.png
│       │   ├── DT.png
│       │   ├── elf_down.png
│       │   ├── elf_left.png
│       │   ├── elf_right.png
│       │   ├── elf_up.png
│       │   ├── goal.png
│       │   ├── gridworld_median_bottom.png
│       │   ├── gridworld_median_horiz.png
│       │   ├── gridworld_median_left.png
│       │   ├── gridworld_median_right.png
│       │   ├── gridworld_median_top.png
│       │   ├── gridworld_median_vert.png
│       │   ├── H2.png
│       │   ├── H3.png
│       │   ├── H4.png
│       │   ├── H5.png
│       │   ├── H6.png
│       │   ├── H7.png
│       │   ├── H8.png
│       │   ├── H9.png
│       │   ├── HA.png
│       │   ├── HJ.png
│       │   ├── HK.png
│       │   ├── hole.png
│       │   ├── hotel.png
│       │   ├── HQ.png
│       │   ├── HT.png
│       │   ├── ice.png
│       │   ├── mountain_bg1.png
│       │   ├── mountain_bg2.png
│       │   ├── mountain_cliff.png
│       │   ├── mountain_near-cliff1.png
│       │   ├── mountain_near-cliff2.png
│       │   ├── passenger.png
│       │   ├── S2.png
│       │   ├── S3.png
│       │   ├── S4.png
│       │   ├── S5.png
│       │   ├── S6.png
│       │   ├── S7.png
│       │   ├── S8.png
│       │   ├── S9.png
│       │   ├── SA.png
│       │   ├── SJ.png
│       │   ├── SK.png
│       │   ├── SQ.png
│       │   ├── stool.png
│       │   ├── ST.png
│       │   └── taxi_background.png
│       ├── __init__.py
│       ├── __pycache__
│       │   ├── blackjack.cpython-311.pyc
│       │   ├── cliffwalking.cpython-311.pyc
│       │   ├── frozen_lake.cpython-311.pyc
│       │   ├── __init__.cpython-311.pyc
│       │   ├── taxi.cpython-311.pyc
│       │   └── utils.cpython-311.pyc
│       ├── taxi.py
│       └── utils.py
├── error.py
├── __init__.py
├── logger.py
├── __pycache__
│   ├── core.cpython-311.pyc
│   ├── error.cpython-311.pyc
│   ├── __init__.cpython-311.pyc
│   ├── logger.cpython-311.pyc
│   └── version.cpython-311.pyc
├── py.typed
├── spaces
│   ├── box.py
│   ├── dict.py
│   ├── discrete.py
│   ├── graph.py
│   ├── __init__.py
│   ├── multi_binary.py
│   ├── multi_discrete.py
│   ├── __pycache__
│   │   ├── box.cpython-311.pyc
│   │   ├── dict.cpython-311.pyc
│   │   ├── discrete.cpython-311.pyc
│   │   ├── graph.cpython-311.pyc
│   │   ├── __init__.cpython-311.pyc
│   │   ├── multi_binary.cpython-311.pyc
│   │   ├── multi_discrete.cpython-311.pyc
│   │   ├── sequence.cpython-311.pyc
│   │   ├── space.cpython-311.pyc
│   │   ├── text.cpython-311.pyc
│   │   ├── tuple.cpython-311.pyc
│   │   └── utils.cpython-311.pyc
│   ├── sequence.py
│   ├── space.py
│   ├── text.py
│   ├── tuple.py
│   └── utils.py
├── utils
│   ├── colorize.py
│   ├── env_checker.py
│   ├── ezpickle.py
│   ├── __init__.py
│   ├── passive_env_checker.py
│   ├── play.py
│   ├── __pycache__
│   │   ├── colorize.cpython-311.pyc
│   │   ├── env_checker.cpython-311.pyc
│   │   ├── ezpickle.cpython-311.pyc
│   │   ├── __init__.cpython-311.pyc
│   │   ├── passive_env_checker.cpython-311.pyc
│   │   ├── play.cpython-311.pyc
│   │   ├── save_video.cpython-311.pyc
│   │   ├── seeding.cpython-311.pyc
│   │   └── step_api_compatibility.cpython-311.pyc
│   ├── save_video.py
│   ├── seeding.py
│   └── step_api_compatibility.py
├── vector
│   ├── async_vector_env.py
│   ├── __init__.py
│   ├── __pycache__
│   │   ├── async_vector_env.cpython-311.pyc
│   │   ├── __init__.cpython-311.pyc
│   │   ├── sync_vector_env.cpython-311.pyc
│   │   └── vector_env.cpython-311.pyc
│   ├── sync_vector_env.py
│   ├── utils
│   │   ├── __init__.py
│   │   ├── misc.py
│   │   ├── numpy_utils.py
│   │   ├── __pycache__
│   │   │   ├── __init__.cpython-311.pyc
│   │   │   ├── misc.cpython-311.pyc
│   │   │   ├── numpy_utils.cpython-311.pyc
│   │   │   ├── shared_memory.cpython-311.pyc
│   │   │   └── spaces.cpython-311.pyc
│   │   ├── shared_memory.py
│   │   └── spaces.py
│   └── vector_env.py
├── version.py
└── wrappers
    ├── atari_preprocessing.py
    ├── autoreset.py
    ├── clip_action.py
    ├── compatibility.py
    ├── env_checker.py
    ├── filter_observation.py
    ├── flatten_observation.py
    ├── frame_stack.py
    ├── gray_scale_observation.py
    ├── human_rendering.py
    ├── __init__.py
    ├── monitoring
    │   ├── __init__.py
    │   ├── __pycache__
    │   │   ├── __init__.cpython-311.pyc
    │   │   └── video_recorder.cpython-311.pyc
    │   └── video_recorder.py
    ├── normalize.py
    ├── order_enforcing.py
    ├── pixel_observation.py
    ├── __pycache__
    │   ├── atari_preprocessing.cpython-311.pyc
    │   ├── autoreset.cpython-311.pyc
    │   ├── clip_action.cpython-311.pyc
    │   ├── compatibility.cpython-311.pyc
    │   ├── env_checker.cpython-311.pyc
    │   ├── filter_observation.cpython-311.pyc
    │   ├── flatten_observation.cpython-311.pyc
    │   ├── frame_stack.cpython-311.pyc
    │   ├── gray_scale_observation.cpython-311.pyc
    │   ├── human_rendering.cpython-311.pyc
    │   ├── __init__.cpython-311.pyc
    │   ├── normalize.cpython-311.pyc
    │   ├── order_enforcing.cpython-311.pyc
    │   ├── pixel_observation.cpython-311.pyc
    │   ├── record_episode_statistics.cpython-311.pyc
    │   ├── record_video.cpython-311.pyc
    │   ├── render_collection.cpython-311.pyc
    │   ├── rescale_action.cpython-311.pyc
    │   ├── resize_observation.cpython-311.pyc
    │   ├── step_api_compatibility.cpython-311.pyc
    │   ├── time_aware_observation.cpython-311.pyc
    │   ├── time_limit.cpython-311.pyc
    │   ├── transform_observation.cpython-311.pyc
    │   ├── transform_reward.cpython-311.pyc
    │   └── vector_list_info.cpython-311.pyc
    ├── record_episode_statistics.py
    ├── record_video.py
    ├── render_collection.py
    ├── rescale_action.py
    ├── resize_observation.py
    ├── step_api_compatibility.py
    ├── time_aware_observation.py
    ├── time_limit.py
    ├── transform_observation.py
    ├── transform_reward.py
    └── vector_list_info.py

27 directories, 322 files

知道代码位置只是万里长征走完了第一步，后续文章会介绍如何对代码进行调试，并随调试随讲解整个代码。

2025 年 6 月底大模型产品进展与现状 AIGC前沿技术探索大模型技术与产品前沿探索大模型
上半年，各大厂商完成了从“秀肌肉”（展示模型能力）到“上货架”（推出可用产品和平台）的关键转变。市场的讨论焦点也从“哪个模型更强”转向了“哪个产品更好用，哪个生态更完善”。以下是最新的全局态势：1.三大闭源巨头的“产品全家桶”之争竞争已经不再是单一模型的对决，而是平台级、生态级的对抗。OpenAI、Google和Anthropic的产品线都已成型，并展现出清晰的战略分野。公司(Company)核心
苹果加码AI合作：继OpenAI后再携手Meta｜TodayAI TodayAI日报 TodayAI日报人工智能苹果 Meta
两家长期竞争对手的合作前景近日，据《华尔街日报》报道，苹果公司（Apple）和Meta公司（Facebook母公司）正在就一项潜在合作进行讨论，旨在将Meta的生成式AI模型整合到AppleIntelligence中。这一合作的前景备受关注，因其有可能为两家长期竞争对手带来新的合作机会。在本月初的全球开发者大会（WWDC）上，苹果宣布与OpenAI达成合作协议，将在iOS18和其他设备上的特定任务
2025：OpenAI的“七十二变”？ wuhanwhite 人工智能语音识别 openai
朋友们，准备好迎接AI的狂欢了吗？是不是跟我一样，每天醒来的第一件事就是看看AI领域又有什么新动向？尤其是那个名字如雷贯耳的OpenAI，简直就是AI界的弄潮儿，一举一动都牵动着我们这些“AI发烧友”的心。最近，OpenAI的掌门人SamAltman在推特上小小地“剧透”了一下2025年的AI图景，这可炸开了锅！今天，咱们就来好好聊聊，2025年，OpenAI会给我们带来哪些惊喜（或者说“惊吓”）
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
推荐系统的视频特征-视频关键帧特征提取与向量生成
总体流程概览视频文件(.mp4)↓关键帧抽取（FFmpeg/SceneDetect）↓帧图像（.jpg）↓图像模型提取特征（CLIP/CNN/ViT）↓多帧聚合成视频向量（均值池化等）↓向量库/推荐系统模型特征提取推荐：使用OpenAI的CLIP模型CLIP（ContrastiveLanguage-ImagePretraining）适合推荐系统做跨模态建模，对视频封面帧或场景帧提取效果非常好。✅1
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
OpenAI-Compatible Edge-TTS API 使用教程马琥承
OpenAI-CompatibleEdge-TTSAPI使用教程openai-edge-ttsFree,high-qualitytext-to-speechAPIendpointtoreplaceOpenAI,Azure,orElevenLabs项目地址:https://gitcode.com/gh_mirrors/op/openai-edge-tts1.项目介绍本项目提供了一个本地化的、与Ope
开源项目安装与配置指南：OpenAI-Compatible Edge-TTS API 霍虹情Victorious
开源项目安装与配置指南：OpenAI-CompatibleEdge-TTSAPIopenai-edge-ttsFree,high-qualitytext-to-speechAPIendpointtoreplaceOpenAI,Azure,orElevenLabs项目地址:https://gitcode.com/gh_mirrors/op/openai-edge-tts1.项目基础介绍OpenAI-
openai-go v1.6.0版本详解：新增功能与优化全面解析福大大架构师每日一题文心一言vschatgpt golang easyui 开发语言
一、前言openai-go作为OpenAI官方提供的Go语言客户端库，一直备受广大Go语言开发者关注和喜爱。随着人工智能技术的飞速发展，openai-go的迭代速度也在不断加快。最近，openai-go发布了v1.6.0版本，该版本带来了多项新功能和优化，进一步提升了API的灵活性和开发者体验。本文将基于官方发布的完整更新日志，深入解析v1.6.0版本的新增功能、改进细节及实际应用，帮助读者全面掌
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
星际争霸多智能体挑战赛（SMAC）资源存储库多智能体强化学习人工智能
目录TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3多智能体强化学习Dec-POMDPs12-POMDPs（十二月-POMDP）Centralisedtrainingwithdecentralisedexec
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
【通过pip安装 Open-WebUI 快速使用入门】慕慕涵雪月光白 llama 代理模式
OpenWebUI是一个可扩展、功能丰富且用户友好的自托管AI平台，旨在完全离线操作。它支持各种LLM运行器，如Ollama和OpenAI兼容的API，内置RAG推理引擎，使其成为强大的AI部署解决方案。使用Docker快速入门如果Ollama在您的计算机上，请使用以下命令：dockerrun-d-p3000:8080--add-host=host.docker.internal:host-gat
【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1 行云流水AI笔记开源算法
以下是DQN（DeepQ-Network）和PPO（ProximalPolicyOptimization）的全面对比流程图及文字解析。两者是强化学习的核心算法，但在设计理念、适用场景和实现机制上有显著差异：graphTDA[对比维度]-->B[算法类型]A-->C[策略表示]A-->D[动作空间]A-->E[学习机制]A-->F[探索方式]A-->G[稳定性]A-->H[样本效率]A-->I[关键
java实现chatGPT SDK yusheng_xyb chatgpt 人工智能 java
搭建一个ChatGPT-SDK组件工程，专门用于封装对OpenAI接口的使用。由于OpenAI接口本身较多，并有各类配置的设置，所以开发一个共用的SDK组件，更合适我们在各类工程中扩展使用整个流程为：以会话模型为出口，，驱动整个服务的调用链路。并对外提供会话工厂的创建和使用。通过工厂模式，开启一个使用okhttp3封装的OpenAi会话服务，进行流程的调用。同时这里还包括请求拦截的处理，因为我们需
PettingZoo:多智能体强化学习的标准API 资源存储库多智能体强化学习人工智能深度学习
PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1介绍2BackgroundandRelatedWorks2背景及相关工作2.1PartiallyObservableStochasticGamesandRLlib2.1部分可观察随机
构建LangChain应用程序的示例代码：63、如何使用Petting Zoo库定义和运行多智能体模拟环境 Hugo_Hoo langchain 人工智能 AI编程
多智能体模拟环境:PettingZoo在这个例子中，我们展示如何使用模拟环境定义多智能体模拟。与我们的单智能体Gymnasium示例类似，我们创建了一个具有外部定义环境的智能体-环境循环。主要区别在于我们现在使用多个智能体实现这种交互循环。我们将使用PettingZoo库，它是Gymnasium的多智能体对应版本。安装pettingzoo和其他依赖!pipinstallpettingzoopyga
如何使用 langchain 与 openAI 连接海乐学习 langchain python langchain python
上一篇写了如何安装langchainhttps://www.cnblogs.com/hailexuexi/p/18087602这里主要说一个langchain的使用创建一个目录langchain，在这个目录下创建两个文件main.py这段python代码，用到了openAI，需要openAI及FQ。这里只做为示例#-*-coding:utf-8-*-fromlangchain.text_split
神经网络架构搜索 IJCAST主编进化计算神经网络架构人工智能
InternationalJournalofComplexityinAppliedScienceandTechnology，投稿网址:https://www.inderscience.com/jhome.php?jcode=ijcast,发表论文不收取任何费用，论文平均审稿25天内即可录用。1.神经网络架构搜索方法分类当前，神经网络架构搜索的方法主要可以归纳为以下三类：a.基于强化学习的NAS方法
工厂模式中使用Map管理策略实例时，为何仍需要Context？
看这篇文章前，可以先了解一下：策略模式与工厂模式的黄金组合：从设计到实战一、核心矛盾：创建职责与调用职责的分离问题当使用Map管理策略实例时（如MapstrategyMap），工厂确实能高效获取策略实例，但这仅解决了**“策略从哪里来"的问题。而策略的"如何使用”**仍面临以下挑战：上下文逻辑碎片化：策略调用前后的公共逻辑（如参数校验、结果处理）会散落在客户端代码中调用流程不一致：不同客户端可能以
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
Spring AI快速入门学java的cc spring 大数据 java
一、引入依赖org.springframework.aispring-ai-starter-model-openaiorg.springframework.aispring-ai-bom${spring-ai.version}pomimport二、配置模型spring：ai:openai:base-url:https://dashscope.aliyuncs.com/compatible-mode
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
Spring AI入门教学：从零搭建智能应用（2025最新实践）程序员子固 spring 人工智能 java ai
目录引言：为什么选择SpringAI？一、环境搭建（附避坑指南）1.开发环境要求2.依赖配置二、实战：智能客服接入（代码级详解）1.配置模型参数2.实现流式对话接口三、高级功能：多模态AI开发1.图像描述生成2.智能文档处理四、开发者工具箱1.调试技巧2.性能优化五、学习路径建议引言：为什么选择SpringAI？随着生成式AI技术的爆发式发展（如OpenAI的GPT-4.5新动态24），Java开
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

OpenAI Gym中FrozenLake环境（场景）源码分析（1）

你可能感兴趣的:(强化学习,OpenAI,Gym,OpenAI,Gym,强化学习,Q-learning)