Augenstern-YaoYao

机器学习框架Ray -- 3.1 RayRLlib训练Pendulum-v1

分别使用SAC/DDPG/Apex-DDPG训练强化学习环境Pendulum-v1。

1.Pendulum-v1环境

在Pendulum-v1环境中，智能体的目标是平衡一个倒置的摆。奖励函数基于摆的角度、角速度和所采取的动作。

奖励函数：reward = -(theta^2 + 0.1 * theta_dt^2 + 0.001 * action^2)

其中，theta是摆离垂直向上位置的角度（以弧度为单位），theta_dt是角速度，action是智能体所采取的动作。

奖励函数中的所有项都是负数，这意味着获得更高的奖励实际上是在最小化这些惩罚。理论上，最佳平均奖励应该在摆保持完全垂直（theta接近0）且所采取的动作很小（action接近0）的情况下获得。在这种情况下，奖励函数会接近于0。在实践中，最佳平均奖励可能会略低于0。

算法Baseline

rl-baselines3-zoo中给出了Pendulum-v1等环境的训练结果Baseline

algo	a2c	ars	ddpg	ppo	sac	td3	trpo
env_id	Pendulum-v1
mean_reward	-162.965	-212.540	-152.099	-172.225	-156.995	-151.855	-174.631
std_reward	103.210	160.444	94.282	104.159	88.714	90.227	127.577
n_timesteps	1M	2M	20k	100k	20k	20k	100k
eval_timesteps	150000
eval_episodes	750

Ray RLlib tuned 配置文件给出了不同算法与超参数及其对应的rewards

Apex-DDPG: -160 reward within 2.5 timesteps / ~250 seconds on a K40 GPU
SAC: -150+ reward in 6-7k
DDPG: -160 reward in 10k-20k timesteps

尽管 Apex-DDPG 需要更少的时间步数，但这并不意味着它在实际运行速度上一定快于 SAC。实际运行速度取决于许多因素，如算法的计算复杂性、处理能力、硬件资源等。另外，这两个算法的目标和设计原则不同。Apex-DDPG 关注于分布式计算和经验回放，以提高 DDPG 的性能。而 SAC 通过最大化策略的熵来提高探索性能。因此，在选择算法时，需要根据具体任务和需求进行权衡，而非仅根据时间步长来决定。

2.计算环境

基于Ray RLlib配置Anaconda中的运行环境RayRLlib。

conda create -n RayRLlib python=3.8
conda activate RayRLlib
conda install jupyter

pip install pyarrow pandas gputil tqdm pyyaml -i https://pypi.tuna.tsinghua.edu.cn/simple 
pip install distro>=1.4.0
pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple 

pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
pip install --upgrade tensorflow tensorflow-probability -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install "ray[rllib]" -i https://pypi.tuna.tsinghua.edu.cn/simple 
pip install -U "ray[tune]" 

pip install gymnasium[atari] gym==0.26.2
pip install gym[accept-rom-license]

pip install "beautifulsoup4==4.11.1"
pip install xgboost_ray -i https://pypi.tuna.tsinghua.edu.cn/simple 
pip install gymnasium[box2d] -i https://pypi.tuna.tsinghua.edu.cn/simple 
pip install docutils
pip install --upgrade gymnasium[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

Ray 默认使用pytorch作为计算后端，Pendulum-v1为gymnasium库（而非gym库）中的环境。虽然gymnasium库与gym库众多环境是相似的，但是API并不相同，Ray支持的是gymnasium库环境。

3.基于.yaml配置文件的SAC/DDPG/Apex-DDPG训练

Ray RLlib主要有CLI(命令行)与Python API调用等方式。本小节使用CLI分别调用SAC/DDPG/Apex-DDPG进行训练，并给出训练结果。

下列三种算法均能够在几分钟内收敛，并使用了10个CPU计算核心并行收集经验数据以提高运行速度。

1）CLI调用SAC的.yaml配置

RayRLlib终端中运行：

rllib train file pendulum-sac.yaml -v #rllib train file /path/to/tuned/example.yaml

其中， pendulum-sac.yaml内容为

# Linik: https://github.com/ray-project/ray/blob/master/rllib/tuned_examples/sac/pendulum-sac.yaml
# Pendulum SAC can attain -150+ reward in 6-7k
# Configurations are the similar to original softlearning/sac codebase
pendulum-sac:
    env: Pendulum-v1
    run: SAC
    stop:
        # episode_reward_mean: -250
        # timesteps_total: 10000
        episode_reward_mean: 0   
        timesteps_total: 1000_000    
    config:
        # Works for both torch and tf.
        framework: torch
        q_model_config:
          fcnet_activation: relu
          fcnet_hiddens: [256, 256]
        policy_model_config:
          fcnet_activation: relu
          fcnet_hiddens: [256, 256]
        tau: 0.005
        target_entropy: auto
        n_step: 1
        rollout_fragment_length: 1
        train_batch_size: 256
        target_network_update_freq: 1
        min_sample_timesteps_per_iteration: 1000
        replay_buffer_config:
          type: MultiAgentPrioritizedReplayBuffer
        num_steps_sampled_before_learning_starts: 256
        optimization:
          actor_learning_rate: 0.0003
          critic_learning_rate: 0.0003
          entropy_learning_rate: 0.0003
        # num_workers: 0  
        num_workers: 10 
        num_gpus: 0
        metrics_num_episodes_for_smoothing: 5

使用了10 workers并行计算，训练结果:

2）CLI调用DDPG的.yaml配置

RayRLlib终端中运行：

rllib train file pendulum-ddpg.yaml -v

其中， pendulum-ddpg.yaml内容为

# Link:https://github.com/ray-project/ray/blob/master/rllib/tuned_examples/ddpg/pendulum-ddpg.yaml
# This configuration can expect to reach -160 reward in 10k-20k timesteps.
pendulum-ddpg:
    env: Pendulum-v1
    run: DDPG
    stop:
    # episode_reward_mean: -320
    # timesteps_total: 30000
      episode_reward_mean: 0
      timesteps_total: 1000_000  
    config:
        # Works for both torch and tf.
        seed: 42
        framework: torch
        # === Model ===
        #actor_hiddens: [64, 64]
        #critic_hiddens: [64, 64]
        actor_hiddens: [256, 256]
        critic_hiddens: [256, 256]
        n_step: 1
        model: {}
        gamma: 0.99

        # === Exploration ===
        exploration_config:
            type: "OrnsteinUhlenbeckNoise"
            scale_timesteps: 10000
            initial_scale: 1.0
            final_scale: 0.02
            ou_base_scale: 0.1
            ou_theta: 0.15
            ou_sigma: 0.2

        min_sample_timesteps_per_iteration: 600
        target_network_update_freq: 0
        tau: 0.001

        # === Replay buffer ===
        replay_buffer_config:
          type: MultiAgentPrioritizedReplayBuffer
          capacity: 10000
          worker_side_prioritization: false
        num_steps_sampled_before_learning_starts: 500
        clip_rewards: False

        # === Optimization ===
        actor_lr: 0.001
        critic_lr: 0.001
        use_huber: True
        huber_threshold: 1.0
        l2_reg: 0.000001
        rollout_fragment_length: 1
        # train_batch_size: 64
        train_batch_size: 256

        # === Parallelism ===
        # num_workers: 0
        num_workers: 10

使用了10 workers并行计算，训练结果:

3）CLI调用Apex-DDPG的.yaml配置

RayRLlib终端中运行：

rllib train file pendulum-apex-ddpg.yaml -v

其中， pendulum-apex-ddpg.yaml内容为

# Link:https://github.com/ray-project/ray/blob/master/rllib/tuned_examples/apex_ddpg/pendulum-apex-ddpg.yaml
# This can be expected to reach -160 reward within 2.5 timesteps / ~250 seconds on a K40 GPU
pendulum-apex-ddpg:
    env: Pendulum-v1
    run: APEX_DDPG
    stop:
        # episode_reward_mean: -160
        episode_reward_mean: 0
    config:
        # Works for both torch and tf.
        framework: torch
        use_huber: True
        clip_rewards: False
        # num_workers: 16
        num_workers: 10
        n_step: 1
        target_network_update_freq: 50000
        tau: 1.0
        evaluation_interval: 5
        evaluation_duration: 10

使用了10 workers并行计算，训练结果:

4.使用RayRLlib python API编写Apex-DDPG求解器

Ape-X的DQN和DDPG变体（APEX_DQN、APEX_DDPG）使用单个GPU学习器和多个CPU工作者进行经验收集。Ape-X使用了一种被称为“prioritized experience replay”的技术，该技术优先存储具有较高优先级的经验数据。在这种技术中，每个CPU工作者都负责收集经验数据，并计算每个经验数据的优先级。然后，所有CPU工作者都将它们的经验数据发送到一个中央存储库（回放缓冲区），并且根据经验数据的优先级进行排序。这使得经验数据可以更有效地重复利用，以提高算法的训练效率。因为经验收集和排序是在多个CPU工作者之间分布式完成的，所以Ape-X的DQN和DDPG变体可以扩展到数百个CPU工作者，而不会因为存储瓶颈或性能问题而受到限制。这使得算法可以从更多的环境中收集更多的经验数据，从而提高训练效率和性能。

超参数：

部分超参数

use_huber

clip_rewards

num_workers

n_step

tau

evaluation

interval

evaluation

duration

True

False

使用RayRLlib python API编写Apex-DDPG求解器的python代码：

from ray.rllib.algorithms.apex_ddpg.apex_ddpg import ApexDDPGConfig
from ray.tune.logger import pretty_print
# 参考：https://docs.ray.io/en/latest/rllib/rllib-algorithms.html#apex:~:text=algorithms.apex_dqn.apex_dqn%20import%20ApexDQNConfig%0A%3E%3E%3E-,config%20%3D%20ApexDQNConfig(),-%3E%3E%3E%20print(config.replay_buffer_config
config = ApexDDPGConfig()
config = (  
    ApexDDPGConfig()
    # torch框架与Gym环境
    .framework("torch")
    .environment("Pendulum-v1")
    # 神经网络学习参数
    .training(tau=1.0,use_huber=True,n_step=1,target_network_update_freq=50000)
    # 计算资源参数
    # num_rollout_workers并行计算总CPU资源数，可取10
    .rollouts(num_rollout_workers=20)
    # num_envs_per_worker每个worker内运行的环境数，可取10
    .rollouts(num_envs_per_worker=10)  
    # num_gpus可用GPU数量，可取1
    .resources(num_gpus=1)
    # num_trainer_workers总worker数，可取10    
    .resources(num_trainer_workers=18)
)

#config.replay_buffer_config["no_local_replay_buffer"] = 'False' # 内存空间换计算时间，可能OOM(iters=10时，内存占用30G+)
config.replay_buffer_config["capacity"] = 50_000_000 # 500_000_000需要占用9.75GBx4的内存
config["evaluation_interval"] = 5
config["evaluation_duration"] = 10
config["clip_rewards"] = False

# 输出config
print(config.to_dict())

# 建构algo
algo = config.build()

# 训练Agent
for iters in range(1,21):
    result = algo.train()
    #print(pretty_print(result)) 
    print("\n当前迭代次数: {}".format(iters))
    print("平均reward: {}".format(result['episode_reward_mean']))
    print("最大reward: {}".format(result['episode_reward_max']))
    print("最小reward: {}".format(result['episode_reward_min']))   
    # 储存checkpoints
    if iters % 10 == 0:
        checkpoint_dir = algo.save()
        print(f"Checkpoint saved in directory {checkpoint_dir}")

运行上述代码，10iters即可获得-145的episode_reward_mean。

Tips: no_local_replay_buffer = True

在分布式强化学习训练中，no_local_replay_buffer是一个布尔配置选项，表示是否禁用本地回放缓冲区。当其设置为True时，意味着不会在本地训练器（即驱动程序节点上的训练器）上使用一个单独的回放缓冲区。相反，训练器将直接从远程工作器的回放缓冲区中采样数据。

在某些分布式RL算法（如 APEX-DQN 和 APEX-DDPG）中，这个选项被设置为True，以减少本地训练器的内存消耗。因为在这些算法中，训练器主要负责更新模型参数并将更新后的参数分发给远程工作器，而远程工作器负责收集经验并存储在它们各自的回放缓冲区中。因此，本地训练器不需要维护一个额外的回放缓冲区，可以节省内存。然而，这种设置可能会导致训练速度减慢，因为训练器需要从远程工作器那里获取数据。

5.使用外部通信方式的Apex-DDPG算法求解

参考原代码为cartpole环境，输出控制为离散量。现改为基于Apex-DDPG的连续动作控制器。

Server端程序（my_pendulum_server.py）

#!/usr/bin/env python
import argparse
import gymnasium as gym
import os
import numpy as np

import ray
from ray import air, tune
from ray.rllib.env.policy_server_input import PolicyServerInput
from ray.rllib.examples.custom_metrics_and_callbacks import MyCallbacks
from ray.tune.logger import pretty_print
from ray.tune.registry import get_trainable_cls
from ray.rllib.algorithms.apex_ddpg.apex_ddpg import ApexDDPGConfig

SERVER_ADDRESS = "localhost"
SERVER_BASE_PORT = 9900  # + worker-idx - 1
CHECKPOINT_FILE = "last_checkpoint_{}.out"

def get_cli_args():
    """Create CLI parser and return parsed arguments"""
    parser = argparse.ArgumentParser()
    
    parser.add_argument(
        "--port",
        type=int,
        default=SERVER_BASE_PORT,
        help="The base-port to use (on localhost). " f"Default is {SERVER_BASE_PORT}.",
    )
    parser.add_argument(
        "--num-workers",
        type=int,
        default=2,
    )
    parser.add_argument(
        "--stop-iters", type=int, default=200, help="Number of iterations to train."
    )
    parser.add_argument(
        "--stop-timesteps",
        type=int,
        default=50_000_000,
    )
    parser.add_argument(
        "--stop-reward",
        type=float,
        default=0,
    )

    args = parser.parse_args()
    print(f"Running with following CLI args: {args}")
    return args

if __name__ == "__main__":
    args = get_cli_args()
    ray.init()

    # `InputReader` generator (returns None if no input reader is needed on
    # the respective worker).
    def _input(ioctx):
        # We are remote worker or we are local worker with num_workers=0:
        # Create a PolicyServerInput.
        if ioctx.worker_index > 0 or ioctx.worker.num_workers == 0:
            return PolicyServerInput(
                ioctx,
                SERVER_ADDRESS,
                args.port + ioctx.worker_index - (1 if ioctx.worker_index > 0 else 0),
            )
        else:
            return None
        
    config = (
        ApexDDPGConfig()
        .environment(
            env=None,
            observation_space=gym.spaces.Box(float("-inf"), float("inf"), shape=(3,)),
            action_space=gym.spaces.Box(low=np.array([-2.0,]), high=np.array([2.0,]), shape=(1,)),
            # action_space=gym.spaces.Discrete(2),
            # see: https://www.gymlibrary.dev/api/spaces/#:~:text=Box(low%3Dnp.array(%5B%2D1.0%2C%20%2D2.0%5D)%2C%20high%3Dnp.array(%5B2.0%2C%204.0%5D)%2C%20dtype%3Dnp.float32)%0ABox(2%2C)
            
        )
        .framework("torch")
        .offline_data(input_=_input)
        .rollouts(
            num_rollout_workers=args.num_workers,
            enable_connectors=False,
        )
        # num_gpus -- number of GPU
        .resources(num_gpus=1)
        # num_trainer_workers -- total number of workers    
        .resources(num_trainer_workers=20)
        .evaluation(off_policy_estimation_methods={})
        .debugging(log_level="WARN")
        .training(tau=1.0, use_huber=True, n_step=1, target_network_update_freq=50000)
    )
    
    config.replay_buffer_config["capacity"] = 50_000_000 # 500_000_000 occupies 9.75GBx4 memory
    config["clip_rewards"] = False

    stop = {
        "training_iteration": args.stop_iters,
        "timesteps_total": args.stop_timesteps,
        "episode_reward_mean": args.stop_reward,
    }
    
    checkpoint_config = air.CheckpointConfig(checkpoint_frequency=5,checkpoint_at_end=True)

    tune.Tuner(
        "APEX_DDPG", 
        param_space=config, 
        run_config=air.RunConfig(stop=stop, \
            verbose=0, \
            checkpoint_config=checkpoint_config, \
            local_dir=".../Checkpoints")
    ).fit()

Clients端程序（my_pendulum_client.py）

#!/usr/bin/env python
import argparse
import gymnasium as gym
from ray.rllib.env.policy_client import PolicyClient
import random

parser = argparse.ArgumentParser()
parser.add_argument(
    "--no-train", action="store_true", help="Whether to disable training."
)
parser.add_argument(
    "--inference-mode", type=str, default="local", choices=["local", "remote"]
)
parser.add_argument(
    "--stop-reward",
    type=float,
    default=0,
    help="Stop once the specified reward is reached.",
)
parser.add_argument(
    "--port", type=int, default=9900, help="The port to use (on localhost)."
)

if __name__ == "__main__":
    args = parser.parse_args()
    env = gym.make("Pendulum-v1")
    client = PolicyClient(
        f"http://localhost:{args.port}", inference_mode=args.inference_mode
    )
    # Start a new episode.
    obs, info = env.reset()
    eid = client.start_episode(training_enabled=not args.no_train)
    rewards = 0.0
    while True:
        action = client.get_action(eid, obs)

        # Perform a step in the external simulator (env).
        obs, reward, terminated, truncated, info = env.step(action)
        rewards += reward

        # Log next-obs, rewards, and infos.
        client.log_returns(eid, reward, info=info)

        # Reset the episode if done.
        if terminated or truncated:
            if random.random() < 0.1: # 10% prob log sampling
                print("Total reward:", rewards)
            if rewards >= args.stop_reward:
                print("Target reward achieved, exiting")
                exit(0)
            rewards = 0.0
            # End the old episode.
            client.end_episode(eid, obs)
            # Start a new episode.
            obs, info = env.reset()
            eid = client.start_episode(training_enabled=not args.no_train)

分别在不同终端中启动：

1）Server端程序：终端1

conda activate rayrllib
python my_pendulum_server.py --num-workers 10 --stop-iters 50 --stop-reward -150

2.1）Clients端程序启动方式1：终端启动

终端2(单线程,只使用了HTTP port: 9900)

conda activate rayrllib
python my_pendulum_client.py --inference-mode=local --port 9900

或改为多线程/多进程启动：

2.2）Clients端程序启动方式2：多进程启动

import subprocess
import os
port_start = 9900
port_end = 9905
script_path = "my_pendulum_client.py"
inference_mode = "local"

processes = []

for port in range(port_start, port_end + 1):
    cmd = f"python {script_path} --inference-mode={inference_mode} --port {port}"
    process = subprocess.Popen(cmd, shell=True)
    processes.append(process)

for process in processes:
    process.wait()

计算20min的效果：

2.3）Clients端程序启动方式3：多线程启动

# 多线程启动client:

import subprocess
import os
from concurrent.futures import ThreadPoolExecutor

port_start = 9900
port_end = 9905
script_path = "my_pendulum_client.py"
inference_mode = "local"

def start_client(port):
    cmd = f"python {script_path} --inference-mode={inference_mode} --port {port}"
    process = subprocess.Popen(cmd, shell=True)
    process.wait()

with ThreadPoolExecutor() as executor:
    ports = range(port_start, port_end + 1)
    executor.map(start_client, ports)

计算20min的效果：

6.总结

分别完成了以下各配置的Pendulum-v1环境的求解：

基于SAC算法，通过CLI命令行调用.yaml预配置超参数文件，并行计算求解
基于DDPG算法，通过CLI命令行调用.yaml预配置超参数文件，并行计算求解
基于Apex-DDPG算法，通过CLI命令行调用.yaml预配置超参数文件，并行计算求解
基于Apex-DDPG算法，通过Ray RLlib python API配置超参数文件，并行计算求解
基于Apex-DDPG算法，通过Ray RLlib外部环境接口，以HTTP与环境clients通信，并行计算求解

均在10min内获得收敛的决策神经网络。

Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
mit6.s081lab
临近毕业季，回想自己本科四年学到了哪些东西，想到自己专业课都是为了卷绩点、应付考试，去背书、被概念，并没有十分深刻的理解和动手实践。现在想重新温习一下这部分知识，同时也加深一下对这部分内容的动手实践。那么就从大名鼎鼎的os课6.s081开始吧~~~lab1：Unixutilitieslab2：Systemcalls
【代码学习】扩散模型原理+代码李加号pluuuus CV基础代码学习扩散模型机器学习算法学习
来源：超详细的扩散模型（DiffusionModels）原理+代码-知乎(zhihu.com)代码：drizzlezyk/DDPM-MindSpore(github.com)DDPM1.Unet1.1正弦位置编码classSinusoidalPosEmb(nn.Cell):def__init__(self,dim):super().__init__()half_dim=dim//2#将给定的维度除
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Spring 如何干预 Bean 的生命周期？冰糖心书房 Spring IOC Ioc spring Bean 生命周期
Spring提供了多种机制让我们能够在Bean生命周期的不同节点“插入”自己的逻辑，这些机制可以分为两大类：针对单个Bean的干预和针对所有/多个Bean的全局干预。一、针对单个Bean的干预（最常用）这些方法让你为一个特定的Bean类定义其初始化和销毁逻辑。1.使用JSR-250注解（推荐方式）这是现在最优雅、也是Spring官方推荐的方式。它使用Java的标准注解，与Spring框架解耦。@P
Mysql字段没有索引，通过where x = 3 for update是使用什么级别的锁
没有索引时，FORUPDATE会锁住整个表现在，你正在一本一本地翻看所有书，寻找“维修中”的书，并且你对管理员说：“在我清点和修改完之前，别人不能动这些书，也不能往这个范围里加新书！”问题1：如何锁住你找到的“维修中”的书？你每找到一本“维修中”的书，就给它贴上一个“正在处理，请勿触碰”的标签（行级排他锁）。问题2：如何防止别人“往这个范围里加新书”？这是最关键的。因为你没有“状态”的目录卡片（没
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
第三章：网络安全基础——构建企业数字防线阿贾克斯的黎明网络安全 web安全安全
目录第三章：网络安全基础——构建企业数字防线3.1网络协议安全深度解析3.1.1TCP/IP协议栈安全漏洞图谱3.1.2关键安全协议剖析3.2网络攻击全景防御3.2.1OWASPTop102023最新威胁3.2.2高级持续性威胁(APT)防御3.3网络安全设备部署指南3.3.1下一代防火墙(NGFW)配置要点3.3.2IDS/IPS系统部署方案3.4企业网络架构安全设计3.4.1安全分区最佳实践3
2025年的RAG技术发展趋势与演进码农Q！云计算人工智能 ai agi 自然语言处理语言模型
本文将分享作为大模型应用创业者的经历与观察，讨论RAG技术和市场环境在2024年的变化。一、RAG技术的演进RAG（检索增强生成）由“检索”和“大模型生成”两部分组成，而检索之前的索引创建（如chunking、embedding等）是核心基础。我们早在2021年便通过Java技术栈实现了RAG的“RA”部分。2023年中，RAG概念突然走红，并迅速在企业应用中显示出更强的实用性。1.主流架构的变化
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
Spring Framework 7.020.Spring 表达式语言（SpEL）Spring Expression Language 程序员勇哥 Java全套教程 Spring Framework 7 spring mysql 数据库 java springboot
SpringFramework7.020.Spring表达式语言（SpEL）SpringExpressionLanguageSpring表达式语言（SpEL）简介表达式求值核心特性类表达式集合数组映射函数操作符类型构造函数变量函数模板表达式bean定义中的表达式基于注解的配置中的表达式SpEL编译器解析器配置自定义评估上下文Spring表达式语言（简称SpEL）是一种强大的表达式语言，支持在运行时
5G NR 物理层介绍刘孬孬沉迷学习 5G 学习笔记信息与通信信号处理
5GNR物理层介绍前言这一章孬孬整理了一下现有的NR物理层的具体内容和流程，和大家一下学习一下，希望大家多多支持，一键三连。一、概述物理层的主要功能是将高层（应用层、MAC层等）的数据转换为适合无线信道传输的信号，并在接收端恢复原始数据。其链路处理包括编码、调制、资源映射、OFDM处理等步骤，确保高效、可靠的传输。以下是物理层链路的关键步骤总结，分为发送端和接收端处理。2.发送端物理层链路处理2.
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
5G UE注册-建立会话-释放会话-UE注销信令流程 nonamelake 5g
1.画这个流程图的原因3GPP组织估计跟某厂一样部门墙较重，核心网和无线各搞各的标准，为什么内部不拉通一下，搞个端到端的信令流程，好让我等菜鸟能学的容易点。看着3GPP协议里的信令流程，真心看不懂啊，不信你们瞧瞧下面这几张图。2.3GPP里的5GUE注册流程+PDU会话建立流程+PDU会话释放流程+UE注销流程3.自己动手画流程图我看到上面的4张图就头晕呀，实线+虚线+大箭头，而且有些信令的名字和
互联网摸鱼日报(2025-07-10) 每日摸鱼大王每日摸鱼新闻业界资讯
互联网摸鱼日报(2025-07-10)钛媒体盒马超永辉位列三甲，奥乐齐中国一年翻倍|钛媒体独家广汽菲克败走中国，合资“躺赢”时代落幕｜钛度车库白牌才是县城的“救世主”抖音终于抢到了周杰伦爆火的AI4Research，被哈工大车万翔团队讲明白了罗马仕倒下，下一个会是安克吗？马来西亚，东南亚旅游新“一哥”？创造AI安全领域的AlphaGo时刻，Xbow获得7500万美元B轮融资罗马仕之死最卖座的脱口秀
比亚迪创新脉冲自加热技术深度解析百态老人算法数据库
一、技术原理与核心创新比亚迪脉冲自加热技术通过电池包内部能量闭环利用实现低温环境下的高效自加热，其核心原理可分解为以下三级机制：内阻产热机制将电池包物理分割为两组（A/B），通过高频充放电（频率达数百Hz）使电流流经高内阻电芯产生焦耳热。在-30℃环境下，电池内阻可升高至常温的3-4倍，此时焦耳热功率密度可达：P=I2⋅Rint（其中I为脉冲电流，Rint为低温内阻）P=I^2\cdotR_{in
C++系列（十一）：文件操作神技 --- 从文本到二进制，彻底玩转数据持久化！傅里叶的耶 C++语言系列（教程 +实战）c++文本操作
引言在瞬息万变的程序世界中，内存数据如同沙堡般脆弱——程序关闭的瞬间，所有精心计算的成果、用户定制的配置、酣战已久的游戏进度都归于虚无。正是这种数据易逝性，让文件操作成为C++开发者必须掌握的核心生存技能。当你的应用需要记住用户偏好，当科学计算需要导出万亿级结果，当游戏需要保存玩家征程，文件I/O便是连接代码与现实世界的终极桥梁。通过fstream三剑客（ofstream/ifstream/fst
访问远程共享文件时“连到系统上的设备没有发挥作用”错误解决方法 s_nshine 文件服务器
问题症状：在访问远程共享目录（比如Moabn）有时可能会遇到这个错误，提示“连到系统上的设备没有发挥作用”的错误。解决方法：1、按下Win+R组合键（Win是Alt旁边那个键），在“运行”里输入services.msc，点击确定。2、在打开的系统服务窗口中，检查下面三个系统服务项是否启动。如果没有启动，双击在属性里启动，另外“启动类型”也建议设置为自动。DHCPClientDNSClientRou
Doris用户管理 Edingbrugh.南空运维大数据数据库 sql
用户管理是Doris权限体系的核心，所有用户操作均依赖于严格的权限控制。本文将用户管理操作与对应权限要求深度绑定，详细说明用户创建、修改、删除等全流程的权限边界及操作规范。一、用户标识与权限基础用户标识（UserIdentity）唯一标识格式：username@'userhost'，其中：username：用户名称（大小写敏感）userhost：登录IP限制（支持%通配符，如192.168.%）示
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
JavaScript知识归纳——面试题 Dream_Lee_1997 JavaScript js面试题
JavaScript面试题总结JavaScript知识点1、JavaScript中settimeout与setinteval两个函数的区别？2、编写JavaScript脚本生成1-6之间的整数？3、在JavaScript脚本中，isNaN的作用是什么？4、JavaScript中获取某个元素有哪几种方式？5、Ajax的优缺点都有什么？6、简述一下Ajax的工作原理。7、JavaScript中的数据类
操作系统级TCP性能优化：高并发场景下的内核参数调优实践 Edingbrugh.南空运维 tcp/ip 性能优化网络协议
在高并发网络场景中，操作系统内核的TCP/IP协议栈配置对系统性能起着决定性作用。本文聚焦操作系统层面，深入解析内核参数调优策略，帮助读者构建稳定高效的网络通信架构。一、连接管理参数优化：从三次握手到队列控制1.1监听队列与半连接管理1.1.1net.core.somaxconn-监听套接字队列上限作用：定义listen()系统调用的积压连接队列最大值，控制未接受连接的排队长度。默认值：128（L
git怎么删除分支我是一只代码狗 git git
1.idea删除本地分支(不会删除远程dev分支)选择Local->dev,鼠标右键-》Delete可以看到Local只显示了master分支，但是远程的dev并不会删除2.删除远程分支Remote->dev鼠标右键->Delete登陆码云，可以看到远程的分支只有1个master分支，dev分支已经删除了3.可以从码云直接删除远程dev分支
诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-15 19:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄分享是一种传递，一种快乐杂学百货铺-啥都学 word
编辑百度首页编辑诗人郑愁予去世：达达马蹄声远去，留下一个世纪的美丽诗篇羊城派2025-06-1519:07据中国诗歌网消息，著名诗人郑愁予因心脏衰竭，6月13日在美国去世，享年92岁。“我达达的马蹄是美丽的错误/我不是归人，是个过客……”这传诵半世纪的诗句，如今成为诗人郑愁予留给世间的最后回响。郑愁予，原名郑文韬，祖籍河北宁河，1933年生于山东济南&#x
Flink自定义函数之聚合函数（UDAGG函数）土豆马铃薯 Flink flink 大数据
1.聚合函数概念聚合函数：将一个表的一个或多个行并且具有一个或多个属性聚合为标量值。聚合函数理解：假设一个关于饮料的表。表里面有三个字段，分别是id、name、price，表里有5行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个max()聚合。你需要遍历所有5行数据，而结果就只有一个数值。2.聚合函数实现聚合函数主要通过扩展AggregateFunction类实现。AggregateF
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
2023高薪前端面试题（二、前端核心——Ajax）
原生AjaxAjax简介Ajax全程为AsynchronousJavaScript+XML，就是异步的JS和XML通过AJAX可以在浏览器中向服务器发送异步请求，最大的优势是：无刷新获取数据，实现局部刷新Ajax是一种用于创建快速动态网页的技术AJAX不是新的编程语言，而是一种将现有的标准组合在一起使用的新方式Ajax的应用场景页面上拉加载更多数据列表数据无刷新分页表单项离开焦点数据验证搜索框提示
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

机器学习框架Ray -- 3.1 RayRLlib训练Pendulum-v1

1.Pendulum-v1环境

算法Baseline

2.计算环境

3.基于.yaml配置文件的SAC/DDPG/Apex-DDPG训练

1）CLI调用SAC的.yaml配置

2）CLI调用DDPG的.yaml配置

3）CLI调用Apex-DDPG的.yaml配置

4.使用RayRLlib python API编写Apex-DDPG求解器

Tips: no_local_replay_buffer = True

5.使用外部通信方式的Apex-DDPG算法求解

Server端程序（my_pendulum_server.py）

Clients端程序（my_pendulum_client.py）

1）Server端程序：终端1

2.1）Clients端程序启动方式1：终端启动

2.2）Clients端程序启动方式2：多进程启动

2.3）Clients端程序启动方式3：多线程启动

6.总结

你可能感兴趣的:(Ray客2代,机器学习,人工智能,深度学习)