十年一梦实验室

【机器学习】强化学习（七）-策略梯度算法-REINFORCE 训练月球着陆器代理（智能体）...

概述

月球着陆器代理是一个模拟飞行器在月球表面着陆的环境，它有八个连续的状态变量，分别是水平坐标、垂直坐标、水平速度、垂直速度、角度、角速度、腿1触地、腿2触地。它有四个离散的动作，分别是什么都不做、发动左方向引擎、发动主引擎、发动右方向引擎。

训练月球着陆器代理的目标是使飞行器能够安全地降落在两个黄色旗帜之间的停机坪上，最小化燃料消耗和着陆时间。为了实现这个目标，我们可以用策略梯度算法来训练一个神经网络，使其输出在每个状态下执行每个动作的概率。我们可以用蒙特卡罗方法来估计每个状态-动作对的回报，即从该状态-动作对开始，按照当前策略执行到终止状态的累积折扣回报。然后，我们可以用这个回报来更新神经网络的参数，使其更倾向于选择高回报的动作，从而改进策略。

示例代码

这是一个使用 PyTorch 和 OpenAI Gym 的强化学习项目，目的是训练一个智能体在月球着陆器环境中完成任务。

policy_network.py 一个使用策略梯度算法的强化学习的示例，它定义了一个策略网络（PolicyNetwork）和一个智能体（Agent）的类，以及它们的相关方法.

import torch  # 导入 PyTorch 库，用于张量运算和自动求导
import torch.nn as nn  # 导入 PyTorch 的神经网络模块，用于定义网络层和模型
import torch.optim as optim  # 导入 PyTorch 的优化器模块，用于更新模型参数
import torch.nn.functional as F  # 导入 PyTorch 的函数模块，用于激活函数和损失函数等




class PolicyNetwork(nn.Module):  # 定义一个策略网络类，继承自 nn.Module 基类
    def __init__(self, n_features, n_actions, lr):  # 定义初始化方法，接受三个参数：状态特征数，动作数，学习率
        super(PolicyNetwork, self).__init__()  # 调用父类的初始化方法


        self.layers = nn.Sequential(  # 定义一个顺序容器，包含三个全连接层和两个 ReLU 激活函数
            nn.Linear(n_features, 128),  # 第一个全连接层，输入特征数为 n_features，输出特征数为 128
            nn.ReLU(),  # 第一个 ReLU 激活函数，对上一层的输出进行非线性变换
            nn.Linear(128, 128),  # 第二个全连接层，输入和输出特征数都为 128
            nn.ReLU(),  # 第二个 ReLU 激活函数，对上一层的输出进行非线性变换
            nn.Linear(128, 256),  # 第三个全连接层，输入特征数为 128，输出特征数为 256
            nn.ReLU(),  # 第三个 ReLU 激活函数，对上一层的输出进行非线性变换
        )
        # 定义一个全连接层，输入特征数为 256，输出特征数为 n_actions，用于输出每个动作的对数值
        self.pi = nn.Linear(256, n_actions)


        if lr is not None:  # 如果学习率不为空，说明是训练模式
            # 定义一个优化器，使用 Adam 算法，传入模型的所有参数和学习率
            self.optimizer = optim.Adam(self.parameters(), lr=lr)
        self.device = "cuda" if torch.cuda.is_available(
        ) else "cpu"  # 判断是否有 GPU 可用，如果有则使用 GPU，否则使用 CPU
        self.to(self.device)  # 将模型移动到相应的设备上


    def forward(self, state: torch.Tensor):  # 定义前向传播方法，接受一个参数：状态张量
        features = self.layers(state)  # 将状态张量输入到顺序容器中，得到特征张量
        # log value for each action
        action_logs = self.pi(features)  # 将特征张量输入到全连接层中，得到每个动作的对数值张量


        # calculate the probability of logs
        # 对每个动作的对数值进行 softmax 变换，得到每个动作的概率张量，并返回
        return F.softmax(action_logs, dim=0)




class Agent:  # 定义一个智能体类
    def __init__(self, observation_space, action_space, lr):  # 定义初始化方法，接受三个参数：观察空间大小，动作空间大小，学习率
        self.policy = PolicyNetwork(  # 创建一个策略网络对象，传入观察空间大小，动作空间大小，学习率
            n_features=observation_space, n_actions=action_space, lr=lr
        )
        self.rewards = []  # 定义一个空列表，用于存储每个时间步的奖励
        self.action_probs = []  # 定义一个空列表，用于存储每个时间步的动作概率
        self.lr = lr  # 将学习率赋值给 self.lr，用于判断是否是训练模式


        self.gamma = 0.99  # 定义一个折扣因子，用于计算累积奖励


    def choose_action(self, state):  # 定义一个选择动作的方法，接受一个参数：状态
        state = torch.tensor(state).to(
            self.policy.device)  # 将状态转换为张量，并移动到相应的设备上


        log_probs = self.policy(state)  # 将状态张量输入到策略网络中，得到每个动作的概率张量
        action_dist = torch.distributions.Categorical(
            log_probs)  # 根据概率张量创建一个分类分布对象，用于采样动作
        action = action_dist.sample()  # 从分类分布中采样一个动作


        # no calculations required during testing.
        if self.lr is not None:  # 如果学习率不为空，说明是训练模式
            action_probs: int = action_dist.log_prob(
                action).unsqueeze(0)  # 计算采样动作的对数概率，并增加一个维度
            self.action_probs.append(action_probs)  # 将动作的对数概率添加到列表中


        return action.item()  # 返回动作的数值


    def learn(self):  # 定义一个学习的方法，用于更新策略网络的参数
        G = 0  # 定义一个变量，用于存储累积奖励
        returns = []  # 定义一个空列表，用于存储每个时间步的累积奖励


        for reward in reversed(self.rewards):  # 从后向前遍历奖励列表
            G = self.gamma * G + reward  # 计算当前时间步的累积奖励，使用折扣因子和当前奖励
            returns.append(G)  # 将累积奖励添加到列表中


        returns.reverse()  # 将累积奖励列表反转，使其与时间步对应
        # 将累积奖励列表转换为张量，并移动到相应的设备上
        returns = torch.tensor(returns, dtype=torch.float,
                               device=self.policy.device)


        action_probs = torch.cat(self.action_probs)  # 将动作概率列表拼接为一个张量


        # loss = G * log pi (at | st)
        # -loss: since gradient ascent is being performed
        loss = -(returns * action_probs).sum()  # 计算损失函数，使用累积奖励和动作概率的乘积的负和


        self.policy.optimizer.zero_grad()  # 将优化器的梯度清零
        loss.backward()  # 对损失函数进行反向传播，计算梯度
        self.policy.optimizer.step()  # 对优化器进行一步更新，更新模型参数


        self.action_probs = []  # 清空动作概率列表
        self.rewards = []  # 清空奖励列表


        return loss  # 返回损失值

play.py 使用策略梯度算法来训练月球着陆器智能体的Python脚本。

代码首先导入了一些必要的库，如 numpy, gym, torch, tqdm 等，并从 policy_network 模块中导入了 Agent 类，该类定义了智能体的策略网络和学习算法。
代码使用 argparse 库来解析命令行参数，如 epochs, lr, logdir, env, chkpt 等，这些参数可以用来控制训练的过程和结果。
代码使用 SummaryWriter 来记录训练的指标，如损失和奖励，并将它们保存在 log_dir 中，方便用 TensorBoard 可视化。
代码使用 gym.make() 来创建一个月球着陆器的环境，并使用 agent 对象来与环境交互，选择动作，获取奖励，更新网络参数等。
代码使用 tqdm 来显示训练的进度条，以及每个回合的奖励，平均奖励和平均损失等信息。
代码使用 torch.save() 来保存智能体的策略网络的状态，以便在之后加载或继续训练。
代码最后使用 writer.close() 和 env.close() 来关闭 SummaryWriter 和环境对象。

# 导入numpy库，用于进行数值计算
import numpy as np
# 导入gymnasium库，用于创建和管理强化学习的环境
import gymnasium as gym
# 导入SummaryWriter类，用于记录和可视化训练过程的数据
from torch.utils.tensorboard import SummaryWriter
# 导入save函数，并重命名为torch_save，用于保存和加载模型的参数
from torch import save as torch_save
# 导入Agent类，用于定义和实现策略梯度算法的智能体
from policy_network import Agent
# 导入tqdm类，用于显示训练过程的进度条
from tqdm import tqdm
# 导入ArgumentParser类，用于解析命令行参数
from argparse import ArgumentParser
# 导入os库，用于进行文件和路径的操作
import os


# 如果当前文件是主程序，那么执行以下代码
if __name__ == "__main__":
    # 创建一个ArgumentParser对象，用于解析命令行参数
    parser = ArgumentParser()
    # 添加一个名为--epochs的参数，表示要玩的游戏的次数，默认为20000，类型为整数
    parser.add_argument(
        "--epochs", default=20_000, type=int, help="Number of games to play"
    )
    # 添加一个名为--lr的参数，表示策略网络的学习率，默认为0.0005，类型为浮点数
    parser.add_argument(
        "--lr", default=0.0005, help="Learning rate for NN Policy Network", type=float
    )
    # 添加一个名为--logdir的参数，表示记录和可视化数据的目录，默认为./plays，类型为字符串
    parser.add_argument("--logdir", default="./plays", type=str)
    # 添加一个名为--env的参数，表示要玩的游戏的环境，默认为LunarLander-v2，类型为字符串
    parser.add_argument("--env", default="LunarLander-v2", type=str)
    # 添加一个名为--chkpt的参数，表示保存和加载模型参数的文件地址，默认为./agent，类型为字符串
    parser.add_argument(
        "--chkpt",
        default="./agent",
        help="Save/Load checkpoint file address for model",
        type=str,
    )
    # 解析命令行参数，并赋值给args变量
    args = parser.parse_args()


    # 根据args.logdir和args.env拼接出完整的记录和可视化数据的目录，并赋值给log_dir变量
    log_dir = os.path.join(args.logdir, args.env)
    # 根据args.chkpt和args.env拼接出完整的保存和加载模型参数的文件地址，并赋值给chkpt变量
    chkpt = os.path.join(args.chkpt, f"{args.env}.pt")


    # 创建一个SummaryWriter对象，用于记录和可视化数据，指定log_dir为记录和可视化数据的目录
    writer = SummaryWriter(log_dir=log_dir)
    # 调用gym库的make函数，根据args.env创建一个强化学习的环境，并赋值给env变量
    env = gym.make(args.env)


    # 创建一个Agent对象，用于实现策略梯度算法，指定环境的状态空间维度，动作空间数量，和学习率，并赋值给agent变量
    agent = Agent(env.observation_space.shape[0], env.action_space.n, lr=args.lr)


    # 打印运行时的细节，包括游戏的环境，次数，记录和可视化数据的目录，和保存和加载模型参数的文件地址
    print("RunTime Details: ")
    print(f"   > Playing - {args.env} for {args.epochs} episodes")
    print(f"   > TensorBoard Logdir - {log_dir} Checkpoint File - {chkpt}")


    # 创建一个tqdm对象，用于显示训练过程的进度条，指定总数为args.epochs，描述为Playing episode
    progress_bar = tqdm(total=args.epochs, desc="Playing episode")
    # 创建一个numpy数组，用于存储每个游戏的奖励，形状为(args.epochs, 1)，并赋值给episode_rewards变量
    episode_rewards = np.zeros((args.epochs, 1))
    # 创建一个numpy数组，用于存储每个游戏的损失，形状为(args.epochs, 1)，并赋值给episode_losses变量
    episode_losses = np.zeros((args.epochs, 1))
    # 对于每个游戏，执行以下代码
    for epoch in range(args.epochs):
        # 初始化一个布尔变量done为False，表示游戏是否结束
        done = False
        # 调用环境的reset方法，重置环境，并返回初始的状态和信息，并赋值给obs和info变量
        obs, info = env.reset()


        # 当游戏没有结束时，执行以下代码
        while not done:
            # 调用智能体的choose_action方法，根据当前的状态选择一个动作，并赋值给action变量
            action = agent.choose_action(obs)
            # 调用环境的step方法，执行选择的动作，并返回新的状态，奖励，是否截断，是否终止，和信息，并赋值给obs, reward, truncated, terminated, info变量
            obs, reward, truncated, terminated, info = env.step(action)
            # 判断是否终止或截断，如果是，那么将done变量设为True，表示游戏结束
            done = terminated or truncated


            # 将奖励添加到智能体的rewards列表中
            agent.rewards.append(reward)


        # 计算智能体的rewards列表中的奖励之和，并赋值给episode_rewards数组的对应位置
        episode_rewards[epoch] = sum(agent.rewards)
        # 调用智能体的learn方法，根据累积奖励和动作概率更新策略网络的参数，并返回损失，并赋值给loss变量
        loss = agent.learn()
        # 将损失转换为cpu上的numpy数组，并赋值给episode_losses数组的对应位置
        episode_losses[epoch] = loss.cpu().detach().numpy()


        # 如果游戏的次数大于100，那么执行以下代码
        if epoch > 100:
            # 调用SummaryWriter对象的add_scalar方法，记录并可视化最近100个游戏的损失和奖励的均值，以及当前游戏的奖励，指定标签和步数
            writer.add_scalar(
                "Play/mean_loss", episode_losses[epoch - 100 : epoch].mean(), epoch
            )
            writer.add_scalar(
                "Play/mean_rewards", episode_rewards[epoch - 100 : epoch].mean(), epoch
            )
            writer.add_scalar("Play/episode_rewards", episode_rewards[epoch], epoch)
            # 调用SummaryWriter对象的flush方法，将数据写入文件
            writer.flush()


            # 调用tqdm对象的set_postfix_str方法，设置进度条的后缀字符串，包括当前游戏的奖励，最近100个游戏的奖励和损失的均值
            progress_bar.set_postfix_str(
                f"episode_reward - {float(episode_rewards[epoch][0]):.2f} "
                f"mean_rewards - {float(episode_rewards[epoch-100: epoch].mean()):.2f} "
                f"mean_loss - {float(episode_losses[epoch-100: epoch].mean()):.2f}"
            )


        # 调用torch_save函数，保存策略网络的参数到chkpt文件
        torch_save(agent.policy.state_dict(), chkpt)


        # 调用tqdm对象的update方法，更新进度条
        progress_bar.update(1)


    # 调用SummaryWriter对象的close方法，关闭文件
    writer.close()
    # 调用环境的close方法，关闭环境
    env.close()

终端输出：

RunTime Details:   > Playing - LunarLander-v2 for 20000 episodes
   > TensorBoard Logdir - ./plays\LunarLander-v2 Checkpoint File - ./agent\LunarLander-v2.pt
Playing episode:   1%|▏            | 208/20000 [00:26<51:43,  6.38it/s, episode_reward - -106.63 mean_rewards - -179.48 mean_loss - -12856.09]

play_test.py 这段代码的目的是让一个智能体（agent）在一个仿真环境（env）中玩一个叫做 LunarLander-v2 的游戏，并将游戏过程录制成视频。

这段代码的主要逻辑如下：

# 导入time库，用于获取和处理时间
import time
# 导入gymnasium库，用于创建和管理强化学习的环境
import gymnasium as gym
# 导入imageio库，用于读写图像和视频
import imageio
# 导入Agent类，用于定义和实现策略梯度算法的智能体
from policy_network import Agent
# 导入load函数，并重命名为torch_load，用于加载模型的参数
from torch import load as torch_load
# 导入ArgumentParser类，用于解析命令行参数
from argparse import ArgumentParser
# 导入os库，用于进行文件和路径的操作
import os


# 导入VideoRecorder类，用于录制视频
from gymnasium.wrappers.monitoring.video_recorder import VideoRecorder


# 如果当前文件是主程序，那么执行以下代码
if __name__ == "__main__":
    # 创建一个ArgumentParser对象，用于解析命令行参数
    parser = ArgumentParser()
    # 添加一个名为--env的参数，表示要玩的游戏的环境，默认为LunarLander-v2，类型为字符串
    parser.add_argument("--env", default="LunarLander-v2", type=str)
    # 添加一个名为--chkpt的参数，表示保存和加载模型参数的文件地址，默认为./agent，类型为字符串
    parser.add_argument(
        "--chkpt",
        default="./agent/",
        help="Save/Load checkpoint file address for model",
        type=str,
    )
    # 添加一个名为--render_mode的参数，表示环境的渲染模式，默认为rgb_array，类型为字符串
    parser.add_argument(
        "--render_mode", default="rgb_array", help="Render Mode for Env", type=str
    )  # human  rgb_array
    # 解析命令行参数，并赋值给args变量
    args = parser.parse_args()
    # 根据args.chkpt和args.env拼接出完整的保存和加载模型参数的文件地址，并赋值给chkpt变量
    chkpt = os.path.join(args.chkpt, f"{args.env}.pt")


    # 调用gym库的make函数，根据args.env和args.render_mode创建一个强化学习的环境，并赋值给env变量
    env = gym.make(args.env, render_mode=args.render_mode)
    # 使用 time 模块获取时间戳
    timestamp = time.time()
    # 使用 time 模块将时间戳转换为字符串
    time_str = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime(timestamp))
    # 在文件名前添加时间字符串，并赋值给new_filename变量
    new_filename = time_str + "_" + "LunarLander-v2.mp4"  
    # 创建一个 VideoRecorder 对象，指定视频文件名为new_filename，并赋值给video变量
    video = VideoRecorder(env, new_filename)
    # 创建一个Agent对象，用于实现策略梯度算法，指定环境的状态空间维度，动作空间数量，和学习率，并赋值给agent变量
    agent = Agent(env.observation_space.shape[0], env.action_space.n, lr=None)
    # 调用torch_load函数，加载chkpt文件中的模型参数，并赋值给智能体的策略网络的状态字典
    agent.policy.load_state_dict(torch_load(chkpt))
    # 调用智能体的策略网络的eval方法，将其设置为评估模式，不进行梯度计算和参数更新
    agent.policy.eval()


    # 无限循环，直到用户输入非y的值
    while True:
        # 获取用户的输入，提示是否玩游戏，赋值给play_one变量
        play_one = input("Play game - [y/N] ")
        # 如果用户输入y，那么执行以下代码
        if play_one == "y":
            # 初始化一个布尔变量done为False，表示游戏是否结束
            done = False
            # 调用环境的reset方法，重置环境，并返回初始的状态和信息，并赋值给obs和info变量
            obs, info = env.reset()
            # 当游戏没有结束时，执行以下代码
            while not done:
                # 调用环境的render方法，渲染环境，获取当前帧的图像
                env.render()  
                # 调用VideoRecorder对象的capture_frame方法，捕捉当前帧，并将其写入视频文件
                video.capture_frame()  
                # 调用智能体的choose_action方法，根据当前的状态选择一个动作，并赋值给action变量
                action = agent.choose_action(obs)
                # 调用环境的step方法，执行选择的动作，并返回新的状态，奖励，是否截断，是否终止，和信息，并赋值给obs, reward, truncated, terminated, info变量
                obs, reward, truncated, terminated, info = env.step(action)
                # 判断是否终止或截断，如果是，那么将done变量设为True，表示游戏结束
                done = truncated or terminated
            # 调用VideoRecorder对象的close方法，关闭视频文件
            video.close()  
            # 调用环境的close方法，关闭环境
            env.close()  
            # 跳出循环
            break
        # 否则，跳出循环
        else:
            break

录制的四次游戏视频：

结语

策略梯度算法是一类强化学习算法的统称，它们都是基于策略梯度定理来更新策略参数的。策略梯度算法有很多种，其中一些常见的有：

REINFORCE：这是一种基于蒙特卡洛方法的策略梯度算法，它使用整个轨迹的回报作为动作值函数的估计，然后根据策略梯度定理更新策略参数。
Actor-Critic：这是一种结合了值函数和策略函数的策略梯度算法，它使用一个**演员（Actor）网络来输出策略，一个评论者（Critic）**网络来输出动作值函数，然后根据策略梯度定理和值函数的梯度更新策略参数和值函数参数。
TRPO：这是一种基于自然梯度的策略梯度算法，它使用一个**信任域（Trust Region）**来限制策略的更新幅度，从而保证策略的改进不会过大，导致性能下降。
PPO：这是一种基于比例裁剪的策略梯度算法，它使用一个**目标函数（Objective Function）**来衡量策略的改进，然后通过裁剪策略比率来避免策略的更新过大或过小，从而提高策略的稳定性和效率。

这些只是策略梯度算法的一部分，还有很多其他的策略梯度算法，如A2C，A3C，DDPG，TD3，SAC等。如果您想了解更多关于策略梯度算法的内容，您可以参考以下的资源：

一篇介绍策略梯度算法原理和实现的博客文章：https://zhuanlan.zhihu.com/p/21725498
一本介绍强化学习和策略梯度算法的书籍：《强化学习：原理与Python实现》
一份包含策略梯度算法的代码示例的GitHub仓库：https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

The End

微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
GMSK调制解调算法的仿真与研究(源码+万字报告+讲解) 炳烛之明科技算法
目录GMSK调制解调算法的仿真与研究1摘要1Abstract11绪论51.1研究背景及意义51.2国内外研究现状61.3研究内容102几种数字调制方式112.1GMSK调制112.1.1GMSK简介112.1.2GMSK调制原理122.2QPSK调制152.3二进制相移键控(BPSK)163GMSK调制与解调方案与研究173.1GMSK传统调制方法173.1.1直接产生GMSK信号173.1.2P
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Matplotlib-图像处理与可视化
Matplotlib-图像处理与可视化一、图像数据的本质：从数组到像素二、基础操作：加载与显示图像1.加载图像数据2.显示单张图像3.显示灰度图像三、进阶可视化：通道分离与色彩调整1.分离RGB通道2.调整亮度与对比度四、实用技巧：色彩映射与像素值分析1.自定义色彩映射（Colormap）2.像素值分布直方图五、多图对比与标注：算法结果可视化1.边缘检测结果对比2.图像标注：突出感兴趣区域六、注意
12. 说一下 https 的加密过程 yqcoder 前端面试-服务协议 https 网络协议 http
总结客户端发送一个http请求，告诉服务器支持哪些hash算法。服务端发送证书（公钥、网址、证书机构等）给客户端。验证证书生成随机密码（RSA签名）：对称密码用公钥加密，服务器用私钥解密。进行传输生成对称加密算法说一下HTTPS的加密过程HTTPS（HyperTextTransferProtocolSecure）是HTTP协议的安全版本，通过SSL/TLS协议实现数据加密传输，确保客户端与服务器之
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
资源分享-FPS, 矩阵, 骨骼, 绘制, 自瞄, U3D, UE4逆向辅助实战视频教程小零羊矩阵 3d ue4
文章底部获取资源教程概述本视频教程专为游戏开发者和安全研究人员设计，涵盖FPS游戏设计、矩阵运算、骨骼绘制、自瞄算法、U3D和UE4逆向辅助等实战内容。通过102节详细视频教程，您将掌握从基础到高级的游戏开发与安全防护技能。教程内容1.FPS类型游戏的设计研究和游戏安全,反外挂研究2.二维向量和平面距离3.atan2和tan4.三维向量和空间距离5.补充向量乘法6.矩阵和矩阵的运算7.矩阵的特性8
MATLAB实现快速非局部均值图像去噪方法一只爪子
本文还有配套的精品资源，点击获取简介：非局部均值滤波是一种先进的图像去噪技术，与传统方法相比，它利用图像的全局信息来去除噪声，同时保持图像细节。该算法通过搜索和利用整个图像中相似的像素块，对每个像素点进行去噪处理。本文提供的MATLAB代码FAST_NLM_II.m实现此算法，并包含必要的参数设置、相似性计算、加权平均和图像更新步骤。了解并应用此代码是学习和进一步改进非局部均值滤波技术的基础。1.
【JMeter】接口加密 QA媛_ JMeter jmeter
文章目录哈希对称加密非对称加密JMeter实现加密调用函数示例加密是信息安全的重要手段，常用在身份认证、访问控制等安全场景。原理：对原有内容的特殊变换，从而隐藏内容，无法伪造内容。常见的算法：哈希对称加密非对称加密哈希优点：速度快缺点：无法还原场景：签名、内容校验著名算法：MD5、SHA-512对称加密优点：速度相当快，可以还原，加密密钥和解密密钥相同（逻辑简单）缺点：安全系数不高，解密者完全可以
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
使用tensorflow的线性回归的例子（七） lishaoan77 tensorflow tensorflow 线性回归人工智能
L1与L2损失这个脚本展示如何用TensorFlow求解线性回归。在算法的收敛性中，理解损失函数的影响是很重要的。这里我们展示L1和L2损失函数是如何影响线性回归的收敛性的。我们使用iris数据集,但是我们将改变损失函数和学习速率来看收敛性的改变。importmatplotlib.pyplotaspltimportnumpyasnpimporttensorflowastffromsklearnim
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
华为 Mate 80 影像配置揭秘：硬软双升 RUZHUA 华为
7月7日，知名数码博主爆料了华为Mate80系列的影像配置，引发广泛关注。从曝光信息来看，Mate80系列在影像方面延续华为的技术探索，通过硬件升级与算法优化，力图为用户带来更出色的拍摄体验。爆料显示，Mate80系列主摄将采用5000万像素的1/1.28英寸超大底传感器，支持物理可变光圈与定制模组。这一配置虽未达到“超大杯”的极致堆料，但在影像硬件上的创新依旧可圈可点。其主摄传感器型号为SC59
探索Python领域pip的强大功能 Python编程之道 Python人工智能与大数据 Python编程之道 python pip 网络 ai
探索Python领域pip的强大功能关键词：Python包管理、pip工具、依赖管理、虚拟环境、PyPI、wheel包、开发工作流摘要：本文深入探讨Python生态系统中pip工具的核心功能和应用场景。我们将从基础概念出发，逐步分析pip的架构原理、依赖解析算法，并通过实际案例展示其在项目开发中的高级用法。文章还将介绍pip与虚拟环境的协同工作方式，以及如何利用pip优化Python开发工作流。最
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

【机器学习】强化学习（七）-策略梯度算法-REINFORCE 训练月球着陆器代理（智能体）...

你可能感兴趣的:(机器学习,算法,人工智能)