Kevin Tang

【Sarsa＆Q-learning】表格型强化学习方法

文章目录

1. 项目准备
- 1.1. 问题导入
- 1.2. 环境介绍
2. SARSA算法
- 2.1. 算法简介
- 2.2. 算法伪码
- 2.3. 算法实现
- - (1) 前期准备
  - (2) 构建智能体
  - (3) 训练与测试
3. Q-learning算法
- 3.1. 算法简介
- 3.2. 算法伪码
- 3.3. 算法实现
- - (1) 前期准备
  - (2) 构建智能体
  - (3) 训练与测试
4. 实验结论
写在最后

1. 项目准备

1.1. 问题导入

Sarsa算法和Q-learning算法是两种基于表格的经典强化学习方法，本文将对比探究这两种方法在解决悬崖行走（Cliff Walking）问题时的表现。

1.2. 环境介绍

本次实验所用的训练环境为gym库的“悬崖行走”（CliffWalking-v0）环境。

如上图所示，该问题需要智能体从起点S点出发，到达终点G，同时避免掉进悬崖（cliff）。智能体每走一步就有-1分的惩罚，掉进悬崖会有−100分的惩罚，但游戏不会结束，智能体会回到出发点，然后游戏继续，直到智能体到达重点结束游戏。

2. SARSA算法

2.1. 算法简介

SARSA全称是state-action-reward-state'-action'，目的是学习特定的state下，特定action的价值Q，最终建立和优化一个Q表格，以state为行，action为列，根据与环境交互得到的reward来更新Q表格，更新公式为：
SARSA在训练中为了更好的探索环境，采用ε-greedy方式来训练，有一定概率随机选择动作输出。

2.2. 算法伪码

2.3. 算法实现

(1) 前期准备

导入模块

import numpy as np
import gym

设置超参数

TRAIN_EPOCHS = 500             # 训练轮数
LOG_GAP = 50                   # 日志打印间隔

LEARNING_RATE = 0.1            # 学习率
GAMMA = 0.95                   # 奖励衰减因子
EPSILON = 0.1                  # 随机选取动作的概率

MODEL_PATH = "./sarsa.npy"     # Q表格保存路径

(2) 构建智能体

class SarsaAgent(object):
    def __init__(self, obs_dim, act_dim, learning_rate=0.01,
                 gamma=0.9, epsilon=0.1):
        self.act_dim = act_dim      # 动作维度，即可选动作数
        self.lr = learning_rate     # 学习率
        self.gamma = gamma          # reward衰减因子
        self.epsilon = epsilon      # 随机选取动作的概率
        self.Q = np.zeros((obs_dim, act_dim))   # Q表格

    # 依据输入的状态，采样输出的动作值，包含探索
    def sample(self, obs):
        if np.random.uniform(0, 1) < self.epsilon:
            return np.random.choice(self.act_dim)   # 随机探索选取动作
        else:  # 根据table的Q值选动作
            return self.predict(obs)                # 根据表格的Q值选动作

    # 依据输入的观察值，预测输出的动作值
    def predict(self, obs):
        Q_list = self.Q[obs, :]
        maxQ = np.max(Q_list)
        act_list = np.where(Q_list == maxQ)[0]  # 找出最大Q值对应的动作
        return np.random.choice(act_list)       # 随机选取一个动作

    # 更新Q-Table的学习方法
    def learn(self, obs, action, reward, next_obs, next_act, done):
        '''【On-Policy】
            obs：交互前的状态，即s[t]；
            action：本次交互选择的动作，即a[t]；
            reward：本次动作获得的奖励，即r；
            next_obs：本次交互后的状态，即s[t+1]；
            next_act：根据当前Q表格，针对next_obs会选择的动作，即a[t+1]；
            done：episode是否结束；
        '''
        current_Q = self.Q[obs, action]     # 当前的Q值
        if done:    # 如果没有下一个状态了，即当前episode已结束
            target_Q = reward       # 目标值就是本次动作的奖励值
        else:       # 否则采用SARSA的公式获取目标值
            target_Q = reward + self.gamma * self.Q[next_obs, next_act]
        self.Q[obs, action] += self.lr * (target_Q - current_Q)

    # 保存Q表格的数据到文件
    def save(self, path):
        np.save(path, self.Q)
        print("\033[1;32m Save data into file: `%s`. \033[0m" % path)

    # 从文件中读取数据到Q表格
    def restore(self, path):
        self.Q = np.load(path)
        print("\033[1;33m Load data from file: `%s`. \033[0m" % path)

(3) 训练与测试

# run_episode()是agent在一个episode中训练学习的函数，
# 它使用agent.sample()与环境交互，使用agent.learn()训练Q表格
def run_episode(env, agent, render=False):
    done, total_steps, total_reward = False, 0, 0
    obs = env.reset()           # 重置环境，开始新的episode
    action = agent.sample(obs)  # 根据状态选择动作

    while not done:
        next_obs, reward, done, _ = env.step(action)    # 与环境进行一个交互
        next_act = agent.sample(next_obs)               # 根据状态选取动作
        agent.learn(obs, action, reward, next_obs, next_act, done)  # 学习

        obs, action = next_obs, next_act    # 记录新的状态和动作
        total_reward += reward
        total_steps += 1
        if render:      # 如果需要渲染一帧图形
            env.render()
    return total_reward, total_steps


# test_episode()是agent在一个episode中测试效果的函数，
# 需要评估agent能在一个episode中拿到多少奖励total_reward
def test_episode(env, agent, render=False):
    agent.restore(MODEL_PATH)     # 读取训练好的模型参数
    done, total_reward = False, 0
    obs = env.reset()   # 重置环境，开始新的episode
    while not done:
        action = agent.predict(obs)                     # 根据状态预测动作
        next_obs, reward, done, _ = env.step(action)    # 与环境进行一个交互
        total_reward += reward
        obs = next_obs
        if render:      # 如果需要渲染一帧图形
            env.render()
    return total_reward

env = gym.make("CliffWalking-v0")   # 创建悬崖环境

agent = SarsaAgent(
    env.observation_space.n,        # 状态的数量
    env.action_space.n,             # 动作的种类数
    learning_rate=LEARNING_RATE,    # 学习率
    gamma=GAMMA,                    # 奖励衰减因子
    epsilon=EPSILON,                # 随机选取动作的概率
)   # 创建SARSA智能体

for ep in range(TRAIN_EPOCHS + 1):
    ep_reward, ep_steps = run_episode(env, agent, False)
    if ep % LOG_GAP == 0:   # 定期输出一次分数
        print("Episode: %3d; Steps: %3d; Reward: %.1f" %
                (ep, ep_steps, ep_reward))

agent.save(MODEL_PATH)   # 保存模型参数（Q表格）
test_reward = test_episode(env, agent, False)  # 测试模型
print("【Eval】\t Reward: %.1f" % test_reward)

实验结果如下（Reward值越大，说明学习效果越好）：

    Episode:   0; Steps: 857; Reward: -2144.0
    Episode:  50; Steps:  33; Reward: -33.0
    Episode: 100; Steps:  30; Reward: -129.0
    Episode: 150; Steps:  44; Reward: -44.0
    Episode: 200; Steps:  15; Reward: -15.0
    Episode: 250; Steps:  19; Reward: -118.0
    Episode: 300; Steps:  26; Reward: -125.0
    Episode: 350; Steps:  19; Reward: -19.0
    Episode: 400; Steps:  17; Reward: -17.0
    Episode: 450; Steps:  22; Reward: -22.0
    Episode: 500; Steps:  19; Reward: -19.0

    【Eval】 	 Reward: -15.0

3. Q-learning算法

3.1. 算法简介

Q-learning也是采用Q表格的方式存储Q值（状态动作价值），决策部分与SARSA是一样的，采用ε-greedy方式增加探索。
Q-learning跟SARSA不一样的地方是更新Q表格的方式。

SARSA是on-policy的更新方式，先做出动作再更新。

Q-learning是off-policy的更新方式，更新learn()时无需获取下一步实际做出的动作next_action，并假设下一步动作是取最大Q值的动作。

Q-learning的更新公式为：

3.2. 算法伪码

3.3. 算法实现

(1) 前期准备

导入模块

import numpy as np
import gym

设置超参数

TRAIN_EPOCHS = 500               # 训练轮数
LOG_GAP = 50                     # 日志打印间隔

LEARNING_RATE = 0.1              # 学习率
GAMMA = 0.95                     # 奖励衰减因子
EPSILON = 0.1                    # 随机选取动作的概率

MODEL_PATH = "./q_learning.npy"  # Q表格保存路径

(2) 构建智能体

class QLearningAgent(object):
    def __init__(self, obs_dim, act_dim, learning_rate=0.01,
                 gamma=0.9, epsilon=0.1):
        self.act_dim = act_dim      # 动作维度，即可选动作数
        self.lr = learning_rate     # 学习率
        self.gamma = gamma          # 奖励衰减因子
        self.epsilon = epsilon      # 随机选取动作的概率
        self.Q = np.zeros((obs_dim, act_dim))   # Q表格

    # 依据输入的状态，采样输出的动作值，包含探索
    def sample(self, obs):
        if np.random.uniform(0, 1) < self.epsilon:
            return np.random.choice(self.act_dim)   # 随机探索选取动作
        else:  # 根据table的Q值选动作
            return self.predict(obs)                # 根据表格的Q值选动作

    # 依据输入的观察值，预测输出的动作值
    def predict(self, obs):
        Q_list = self.Q[obs, :]
        maxQ = np.max(Q_list)
        act_list = np.where(Q_list == maxQ)[0]  # 找出最大Q值对应的动作
        return np.random.choice(act_list)       # 随机选取一个动作

    # 更新Q-Table的学习方法
    def learn(self, obs, action, reward, next_obs, done):
        '''【Off-Policy】
            obs：交互前的状态，即s[t]；
            action：本次交互选择的动作，即a[t]；
            reward：本次动作获得的奖励，即r；
            next_obs：本次交互后的状态，即s[t+1]；
            done：episode是否结束；
        '''
        cur_Q = self.Q[obs, action]
        if done:
            target_Q = reward
        else:
            target_Q = reward + self.gamma * np.max(self.Q[next_obs, :])
        self.Q[obs, action] += self.lr * (target_Q - cur_Q)    # 更新表格

    # 保存Q表格的数据到文件
    def save(self, path):
        np.save(path, self.Q)
        print("\033[1;32m Save data into file: `%s`. \033[0m" % path)

    # 从文件中读取数据到Q表格
    def restore(self, path):
        self.Q = np.load(path)
        print("\033[1;33m Load data from file: `%s`. \033[0m" % path)

(3) 训练与测试

# run_episode()是agent在一个episode中训练学习的函数，
# 它使用agent.sample()与环境交互，使用agent.learn()训练Q表格
def run_episode(env, agent, render=False):
    done, total_steps, total_reward = False, 0, 0
    obs = env.reset()   # 重开一局，重置环境

    while not done:
        action = agent.sample(obs)                      # 根据状态选择动作
        next_obs, reward, done, _ = env.step(action)    # 与环境进行一次交互
        agent.learn(obs, action, reward, next_obs, done)    # 学习

        obs = next_obs              # 记录新的状态
        total_reward += reward
        total_steps += 1
        if render:      # 如果需要渲染一帧图形
            env.render()
    return total_reward, total_steps


# test_episode()是agent在一个episode中测试效果的函数，
# 需要评估agent能在一个episode中拿到多少奖励total_reward
def test_episode(env, agent, render=False):
    agent.restore(MODEL_PATH)     # 读取训练好的模型参数
    done, total_reward = False, 0
    obs = env.reset()   # 重开一局，重置环境
    while not done:
        action = agent.predict(obs)                     # 根据状态选取动作
        next_obs, reward, done, _ = env.step(action)    # 与环境进行一次交互
        total_reward += reward
        obs = next_obs              # 记录新的状态
        if render:
            env.render()
    return total_reward

env = gym.make("CliffWalking-v0")   # 创建悬崖环境

agent = QLearningAgent(
    env.observation_space.n,        # 状态维度
    env.action_space.n,             # 动作维度
    learning_rate=LEARNING_RATE,    # 学习率
    gamma=GAMMA,                    # 奖励衰减因子
    epsilon=EPSILON,                # 随机选取动作的概率
)   # 创建Q-learning智能体

for ep in range(TRAIN_EPOCHS + 1):
    ep_reward, ep_steps = run_episode(env, agent, False)
    if ep % LOG_GAP == 0:   # 定期输出一次分数
        print("Episode: %3d; Steps: %3d; Reward: %.1f" %
                (ep, ep_steps, ep_reward))

agent.save(MODEL_PATH)    # 保存模型参数（Q表格）
test_reward = test_episode(env, agent, False)  # 测试模型
print("【Eval】\t Reward: %.1f" % test_reward)

实验结果如下（Reward值越大，说明学习效果越好）：

    Episode:   0; Steps: 519; Reward: -1608.0
    Episode:  50; Steps:  20; Reward: -20.0
    Episode: 100; Steps:  21; Reward: -21.0
    Episode: 150; Steps:  47; Reward: -146.0
    Episode: 200; Steps:  18; Reward: -18.0
    Episode: 250; Steps:  30; Reward: -228.0
    Episode: 300; Steps:  20; Reward: -20.0
    Episode: 350; Steps:  13; Reward: -13.0
    Episode: 400; Steps:  17; Reward: -17.0
    Episode: 450; Steps:  14; Reward: -14.0
    Episode: 500; Steps:  50; Reward: -248.0
   
    【Eval】 	 Reward: -13.0

4. 实验结论

在解决悬崖行走问题的过程中，我们发现：

Q-learning对环境的探索比较激进胆大，更倾向于最优路线
SARSA对环境的探索就比较谨慎胆小，更倾向于安全路线

写在最后

如果您发现项目存在问题，或者如果您有更好的建议，欢迎在下方评论区中留言讨论~

这是本项目的链接：实验项目 - AI Studio，点击fork可直接在AI Studio运行~

这是我的个人主页：个人主页 - AI Studio，来AI Studio互粉吧，等你哦~

【友链滴滴】欢迎大家随时访问我的个人博客~

python-多线程编程 Protein Designer 蛋白质结构 python
文章目录1.多任务介绍2.进程介绍3.使用多进程来完成多任务3.1进程的创建步骤3.2进程执行带有参数的任务3.3获取进程编号3.4多进程编程的注意点主进程会等待所有的子进程执行结束在结束设置守护主进程：**主进程结束后不会再继续执行子进程中剩余的工作**3.5进程池与进程锁3.6进程的通信3.7线程3.8GIL全局锁3.9异步1.多任务介绍多任务是指在同一时间内执行多个任务。定义举例并发在一段时
python之多进程(multiprocessing)
multiprocessing模块提供了一个Process类来代表一个进程对象，multiprocessing模块像线程一样管理进程，这个是multiprocessing的核心，它与threading很相似，对多核CPU的利用率会比threading好的多前言Multiprocessing.Pool可以提供指定数量的进程供用户调用，当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
Python-多进程编程 (multiprocessing 模块) Kusunoki_D Python 操作系统 python 进程
目录一、创建进程1.Process的语法结构2.进程不共享全局变量二、进程间通信1.队列通信2.管道通信三、进程池1.常用函数2.进程池中的Queue四、应用：复制文件夹（多进程版）五、守护进程和进程同步六、注意事项通过使用multiprocessing模块，Python程序可以在多核处理器上实现并行处理，提高程序的执行效率和响应速度。一、创建进程要创建一个新的进程，需要实例化multiproce
使用 Python 调用 Instagram API 爬取 Instagram 图片（完整指南） Python爬虫项目 python 开发语言爬虫 selenium beautifulsoup
一、引言在社交媒体平台中，Instagram以其图片和视频为主的独特风格，吸引了全球数十亿用户。无论是旅行博主、美食摄影师，还是品牌推广，Instagram上的数据具有极高的商业和研究价值。为了获取Instagram的公开数据，我们需要使用官方提供的InstagramGraphAPI。通过这个API，我们可以获取以下信息：✅账户基本信息（用户ID、用户名、头像等）✅用户的图片和视频✅用户的评论、点
轻松开发AI应用：Dify、Langchain与Coza全方位对比分析 AI Agent首席体验官人工智能 langchain
1.Dify与Langchain区别Dify和Langchain都是用于开发AI应用的平台，但在设计理念、功能特点及适用场景等方面存在明显差异。以下是两者的详细对比：总体概述Dify：一个开源低代码平台，旨在简化AI应用的开发，提供完整的UI解决方案和无缝的集成能力，适合技术背景不强的用户，帮助他们快速开发和部署AI应用。Langchain：一个灵活的Python开发库，为开发者提供精细控制，适合
python 函数的定义 SFH-松风寒 python 开发语言后端
#函数的定义#定义一个函数#def表示定义函数的关键字#msg表示函数的名称#()里面放置参数可以为空#：函数的固定格式defmsg():#函数体函数里面的代码用于实现函数的特定功能print('Helloworld')#msg（）函数的调用调用函数之后函数中的代码就会被执行#msg是函数本身msg()#函数的简单用法#打印ATM机的提示defselect_func():print('-----请
python——异常程丞Q香 python python 开发语言 pycharm 异常 raise try except
1、定义异常是在代码执行过程中发生的，它会影响到程序的正常运行。python程序不会自动来进行异常处理。python中常见异常父类：Exception。2、常见异常TypeError：类型错误异常。ValueError：值的异常。KeyError：键的异常。IndexError：索引异常。SyntaxError：语法异常。FileNotFoundError：读取文件内容，如果这个文件不存在，就会报
Python爬虫代理IP 巴里巴气 Python爬虫知识记录 python 爬虫 tcp/ip
前言在Python爬虫中,代理IP基本是必备的,因为基本上网站都会有反爬措施,对请求频繁和异常的IP进行自动封锁,拉入黑名单,所以我们需要有代理IP来实现动态IP的效果,保证请求的IP会变化,是动态的,这样网站就不会把我们的IP当作爬虫IP了目录国内代理IP和海外代理IP的现状代理IP最常用最实用的作用使用方法国内代理IP和海外代理IP的现状市面上的代理IP分为国内代理IP和海外代理IP国内代理I
脑机新手指南（十七）EEG-ExPy 新手入门教程（上篇）：基础概念与环境搭建 Brduino脑机接口技术答疑脑机新手指南新手入门算法脑机接口
一、EEG-ExPy是什么？EEG-ExPy是一个基于Python的开源工具包，专为脑电（EEG）实验设计、数据采集和实时分析而开发。它的核心优势在于低门槛易用性和模块化设计，即使是没有编程基础的新手，也能通过简单的代码或图形界面快速搭建EEG实验流程。其功能覆盖：1.自定义实验范式设计（如视觉刺激、运动想象任务）2.实时EEG信号采集与预处理3.简单的脑机接口（BCI）应用开发4.实验数据的存储
脑机新手指南（十五）speechBCI 项目新手入门指南（上）：项目概述、代码结构与环境搭建 Brduino脑机接口技术答疑脑机新手指南 python 脑机接口新手入门
一、引言在脑机接口（BCI）领域，语音相关的研究正不断取得突破。speechBCI项目为语音脑机接口的研究提供了一个优秀的开源代码库。该项目与前沿的学术研究、丰富的数据集以及具有挑战性的机器学习竞赛紧密相连。本指南将分上下两篇，详细引导新手深入了解和使用speechBCI项目。二、项目概述speechBCI项目不仅仅是一个代码集合，它背后有着深厚的学术背景和实际应用价值。它与一篇发表在[Natur
RabbitMQ消息发送与接收 VksgShapes rabbitmq ruby 分布式
RabbitMQ是一个功能强大的开源消息代理，用于在应用程序之间传递消息。它实现了AMQP（高级消息队列协议），提供了可靠的消息传递机制，支持多种消息模式和灵活的消息路由。在本篇文章中，我们将详细介绍如何在应用程序中使用RabbitMQ进行消息的发送和接收。我们将使用Python作为示例编程语言，并使用Pika作为RabbitMQ的Python客户端。安装依赖库首先，我们需要安装Pika库。可以使
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
【Python】函数 Guiat Python python
个人主页：Guiat归属专栏：Python文章目录1.函数的定义1.1基本定义方式1.2函数名和参数2.函数的调用2.1基本调用方式2.2参数传递3.函数的返回值3.1`return`语句3.2返回多个值4.函数的作用域4.1局部变量4.2全局变量5.匿名函数（Lambda函数）5.1定义和使用5.2应用场景6.递归函数6.1定义和原理6.2优缺点正文1.函数的定义1.1基本定义方式在Python
python函数的定义（含扩展） GodGump linux下python编程
python函数的定义deffunc(arg1,arg2,arg3):函数体returnarg4,arg5,arg6补充：如果想给某个参数一个默认值，不用每次都输入的话，可以采用以下方法（以参数arg2默认值设为233为例子）deffunc(arg1,arg2=233,arg3):函数体returnarg4,arg5,arg6还有一点是python支持在函数体内定义全局变量global在函数体内声
深入解析FastAPI：Python高效Web API框架永不放弃yes
本文还有配套的精品资源，点击获取简介：FastAPI是一个专为构建API设计的现代、高性能PythonWeb框架，它利用TypeHinting和Pydantic库简化了数据验证和文档生成。文章深入介绍了FastAPI的核心特性，如异步支持、类型提示、依赖注入、自动化API文档以及错误处理等。还探讨了FastAPI的部署和测试方法，提供了实践案例和代码示例。FastAPI因其简洁、高效、易于测试的特
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
python实战:在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订 Ven% 服务器 python linux LiberOffice 开源办公软件 linux办公软件
在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订一、背景与需求1.1常见场景1.2为什么选择LibreOffice二、环境准备2.1安装LibreOffice2.2验证安装三、Python实现代码四、代码解析4.1主要功能4.2错误处理4.3使用灵活性五、高级应用5.1批量处理多个文件5.2与其他工具集成六、注意事项七、总结在实际工作中，我们经常需要处理包含修订标
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
本地命令行工具libreoffice 完成docx转pdf 陈毛毛虫 pdf 汇编开发语言 wps
文章目录前言一、libreoffice是什么？二、使用步骤1.安装libreoffice2.运行命令行工具总结前言最近忙着编写一些文档，需要转换成pdf，但是WPS的转pdf功能需要付费，上网搜了很久，搜到的不是付费的就是有大小限制的，于是想着本地使用python库转，结果效果不大理想，查阅资料后找到了这一款开源的本地命令行工具libreoffice一、libreoffice是什么？LibreOf
python自动化运维 ZZH1120KQ 运维 python 自动化
1系统性能信息模块psutilpsutl是一个跨平台库，能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要应用于系统监控，分析和限制系统资源及进程的管理。#这是一个外部模块，需要下载，通过指定源下载pip3installpsutil-ihttps://mirrors.aliyun.com/pypi/simple/importpsutil1.1内存信息memor
python学智能算法（十六）|机器学习支持向量机简单示例西猫雷婶 python学习笔记人工智能机器学习机器学习 python 支持向量机人工智能深度学习
【1】引言前序学习了逻辑回归等算法，相关文章链接包括且不限于：python学智能算法（十）|机器学习逻辑回归（Logistic回归）_逻辑回归算法python-CSDN博客python学智能算法（十一）|机器学习逻辑回归深入（Logistic回归）_np.random.logistic()-CSDN博客今天在此基础上更进一步，学习支持向量机，为实现较好地理解，先解读一个简单算例。【2】代码解读【2
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
Python的LibreOffice命令行详解：自动化文档处理的终极指南
在数字化转型的浪潮中，文档处理自动化已成为提升效率的关键。LibreOffice作为开源办公软件的佼佼者，其命令行功能结合Python脚本，可实现从格式转换到复杂文档操作的全面自动化。本文将深入解析如何通过Python调用LibreOffice命令行工具，覆盖从基础操作到高级场景的完整流程。一、环境搭建：三步构建自动化基石1.安装LibreOffice与PythonLinux系统：sudoapti
2025 年最强 RPA 软件盘点天竺鼠不该去劝架人工智能
RPA（机器人流程自动化）软件成为了企业提升效率、降低成本的重要工具。以下是2025年一些顶尖的RPA软件盘点。国外RPA软件UiPath地位：全球RPA市场的领军者。功能特性：全能型平台，覆盖流程发现、自动化设计到机器人管理全生命周期。拥有易用的低代码设计器，便于快速上手；强大的AI集成，可实现机器学习和文档理解；能与ERP、CRM等系统无缝集成。适用场景：适用于金融、零售、制造业等需要处理复杂
[Python 基础课程]字符串叶落 Python 基础课程 python python 基础 python 入门
字符串字符串几乎是所有编程语言中最常用的数据类型。在Python中，我们可以使用引号’或"来创建字符串。greeting='Hello,world!'name="Python"empty_string=''number_string="12345"mixed_string="Hello123!"多行字符串如果想让字符串在代码中展示更加清晰，比如展示出json的结构或json样式，可以使用多行字符串
《机器学习数学基础》补充资料：什么是随机变量 CS创新实验室机器学习数学基础机器学习人工智能数学概率
卓永鸿提供本文介绍什么是随机变量及为什么要发展此种概念。我们先来看这个问题：一个边长为aaa的正三角形，CCC为其外接圆，外接圆半径为RRR。若在圆内随机作一弦，则弦长lll大于aaa的概率为何？法1：随机半径法先拉出一条圆半径，然后随机在半径上取一点，再画出通过此点并垂直半径的弦。易知当弦心距小于R/2R/2R/2时，弦长lll大于aaa，故概率为1/21/21/2。法2：随机端点法在圆周上随机
38、Seabor的联合图和成对图的绘制【用Python进行AI数据分析进阶教程】理工男大辉郎 python 人工智能数据分析
用Python进行AI数据分析进阶教程38：Seabor的联合图和成对图的绘制关键词：Seaborn、联合图（JointPlot）、成对图（PairPlot）、数据类型、变量关系摘要：本文介绍了Seaborn库中的联合图（JointPlot）和成对图（PairPlot）的绘制方法。联合图用于展示两个变量之间的关系及各自分布，支持散点图、直方图、核密度估计图等多种类型，适用于连续型变量分析，可自定义
使用【重心坐标】在模型上进行插值来获取纹理上每个像素对应的顶点坐标雨中飞蛾 python blender
前提：纹理在模型上贴好后，能使用blenderpythonapi直接获取的就是，这个模型的每个三角面片上顶点对应的纹理坐标。这其中每个三角面的顶点构成一个三角形(A)，每个三角面的顶点对应的纹理坐标也构成一个三角形(B)。（注：实际上blender常用的是四边形，所以处理时要把四边形分成两个三角形）计算步骤：1、遍历每个像素(P)时，先判断这个像素属于一群B三角形中的哪个三角形。2、然后结合这个像
Github 2024-11-01 开源项目月报 Top19 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本月(2024-11-01统计)共有19个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目9TypeScript项目3JavaScript项目3Svelte项目1JupyterNotebook项目1Ruby项目1HTML项目1Rust项目1Java项目1C++项目1Go项目1Python中的算法实现集合创建周期：2831天
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

【Sarsa＆Q-learning】表格型强化学习方法

文章目录

1. 项目准备

1.1. 问题导入

1.2. 环境介绍

2. SARSA算法

2.1. 算法简介

2.2. 算法伪码

2.3. 算法实现

(1) 前期准备

(2) 构建智能体

(3) 训练与测试

3. Q-learning算法

3.1. 算法简介

3.2. 算法伪码

3.3. 算法实现

(1) 前期准备

(2) 构建智能体

(3) 训练与测试

4. 实验结论

写在最后

你可能感兴趣的:(机器学习,机器学习,python)