tzr0725

强化学习理论基础（MDP、值函数与贝尔曼公式以及表格式Agent）

前言
一、MDP策略与环境模型
二、值函数与贝尔曼公式
- 1. 值函数
- 2. 贝尔曼公式
三、表格式Agent
- 1. 概念介绍
- 2. 代码实现
总结

前言

强化学习是智能体（Agent）不断地与环境交互、获取奖励、更新自身策略的迭代过程，目标是学习到能够使整体回报最大化的策略。总的来说，强化学习相比机器学习的监督学习方法有如下特点：1）定义模型所需的约束更少，大大降低定义问题的难度；2）强化学习更重视整个过程的回报，不局限于单步行动。强化学习方法类似于人类学习决策的过程，在预先设定的规则下，不断地尝试各种行为，在奖励的指导下最终找到最优策略来完成任务，该思维模式也是实现人工智能的重要发展方向。

本文的参考书籍：《强化学习精要：核心算法与TensorFlow实现》

一、MDP策略与环境模型

强化学习一般以马尔科夫决策过程（Markov decision process，MDP）作为其形式化的手段。这里先简单介绍一种棋类游戏——蛇棋。类似于常见的飞行棋，玩家通过掷骰子，决定棋子前进的步数；与飞行棋不同的是，棋盘上某些格子之间用梯子相连，棋子走到有梯子的格子中会自动到达与之相连的格子中；抵达终点后如果步数有剩余，必须反向前进；最先抵达终点的棋子获胜。可以看出，想要获胜必须以尽可能少的次数抵达终点。这里为了适配算法，对游戏进行一些修改，假设玩家有两种不同的骰子可以选择，一种是正常的1-6骰子，另一种是1-3骰子（即4，5，6被改为1，2，3）。

以蛇棋（后续会详细介绍并给出对应的代码实现）为例，其实有两个主要因素决定最终挖到的总分数：选择什么样的骰子以及骰子掷出的数目。第一个因素是玩家决定的，也是其唯一可以决定的。第二个因素是游戏本身设定。假定用 $s_t$ 表示 $t$ 时刻游戏状态的观测值（棋子的位置），用 $a_t$ 表示当前的决策（选择哪一种骰子），整个游戏过程可以用一条状态-行动链条表示：
$s_0,a_0,s_1,a_1,...,s_{t-1}, a_{t-1}, s_t, a_t$
上述链条包含了两种状态转换，一种是从状态到行动的转换，即策略，Agent 根据当前状态信息选取自认为最好的行动方式。从数学角度分析，策略将 Agent 的状态值映射到其行动集合的概率分布（离散）或概率密度函数（连续）上。如果对于每一个行动，Agent都有一定的概率取执行，且行动的评价越高，该行动被选择的概率越大。最优策略是在当前状态选择概率最高的行动，即
$a_t^*=argmax_{a_i}p(a_i|s_t)$
实际上，上述公式成立时有一个重要前提：序列的马尔科夫性，即下一时刻的行动只和当前时刻的状态有关，而与更早时刻的状态无关。如果行动集合是离散有限的，可以将选择行动的问题变成一个多分类问题。

第二种转换是Agent 在环境中的状态转换。这里也用到马尔科夫性，这里的状态转换能以概率的形式表现为 $p(s_{t+1}|s_t, a_t)$ ，还是以蛇棋为例，假设骰子投掷结果是均匀的，棋子将等概率地前往各自步数对应的位置。实际中需要考虑棋盘中每一个格子的概率，即便绝大多数格子的概率为0。这部分属于环境内部的信息，在蛇棋游戏中是公开的，即状态转换是已知的，但是生活中也有不少问题，环境的信息是不公开或者不全面的，后续对强化学习算法分类时还会提到这一点。

MDP包含以下三层含义：

马尔科夫M表示了状态的依赖性。当前状态只受前一时刻状态的影响，与更早状态无关。虽然该条件过于理想，但它的存在极大地简化了问题，所后续分析算法时不做说明即默认该属性。
决策D表示其中的策略部分由Agent决定。Agent通过自己的行动改变状态序列，和环境中共存的随机性共同决定未来的状态。
过程P表示时间的属性。Agent行动后，环境的状态发生改变，同时时间向前推进，新的状态产生，周而复始。

二、值函数与贝尔曼公式

1. 值函数

整个游戏的关键在于策略，理想状态下每一个行动都要为最终的目标——最大化长期回报努力，那么只需找到一种方法，量化每一个行动对实现最终目标贡献的价值，Agent就可以根据该量化指标做出明智的判断。其实，交互环境给了Agent很大的提示，它提供了可以量化某一时刻的回报（奖励）值 $r$ 。虽然与最终目标不同，但可以利用它，将其扩展为需要的目标。还是以蛇棋为例，可以根据棋子的位置来判断玩家行动的奖励值。策略等同于给出行动，使整个游戏的回报最大化。

计算整个游戏过程的累积回报并不简单，主要反映在两方面：计算的时间跨度。如果游戏的时间是有限的，表示Agent可以在有限的步数内完成游戏，计算固然复杂但至少可以计算。如果游戏可以无限进行下去，那计算累积回报就没有意义。为了解决该问题，使无穷数列的和收敛，需要降低未来回报对当前时刻状态的影响，即对未来回报乘以一个0-1的系数，使长期累积回报变得有意义。好比钱存在银行中，会缓慢升值，未来的钱换算到当下就需要打个折扣。这样一来，长期回报数列和就变得有界。可以算出具体值。此时，我们将当前状态之后所有的回报取出，分别乘以对应的打折率，加起来得到汇总的值称为长期回报。
$R=\sum_{k=0} \gamma^k r_{t+k+1}$
解决长期回报的表示问题后，另一个困难也出现了，求和形式表示长期回报比较复杂，而且它与Agent选择的策略强相关。换言之，我们需要定义策略的价值。之前提及的MDP，其中从状态到行动的转换可以通过某个确定策略决定，但由于环境的原因，从行动到下一时刻的状态并不能确定。因此衡量价值时需要考虑每一种状态转移的影响，也就是基于状态转换求解长期回报的期望。假设 $\tau$ 为Agent采用某个策略与环境交互的序列，价值的公式定义为
$\upsilon_\pi(s_t)=E_{s,a\in\tau}[\sum_{k=0} \gamma^k r_{t+k+1}]$
价值函数（值函数）一般可以分为两种类型：

状态值函数 $\upsilon_\pi(s)$ ：已知当前状态和行动，按照某种策略行动产生的长期回报期望。
状态行动值函数 $q_\pi(s,a)$ ：已知当前状态和行动，按照某种策略行动产生的长期回报期望。

采用上述表达式，计算价值仍然是很复杂的事。计算从某个状态出发的值函数，相当于按照某个策略，把所有从这个状态出发的可能路径走一遍，将这些路径的长期回报按照各自概率求期望：
$\upsilon_\pi(s_t)=\sum_{\tau}p(\tau) \sum_{k=0} \gamma^k r_{t+k+1}$
上式中， $\tau$ 表示从状态 $s_t$ 出发的某条路径。

2. 贝尔曼公式

假设游戏过程符合MDP模型，将路径部分展开为：
$\upsilon_\pi(s_t)=\sum_{(s_t,a_t,...)}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) ... \sum_{k=0} \gamma^k r_{t+k+1}$
观察上述公式，其实它具有递归的性质，具体推导这里不展开，给出书中的结论：
$\upsilon_\pi(s_t) =\sum_{\tau}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t) ... \sum_{k=0} \gamma^k r_{t+k+1} \\ =\sum_{a_t}\pi(a_t|s_t)\sum_{s_{t+1}}p(s_{t+1}|s_t,a_t)[r_{t+1}+\sum_{\tau}\pi(a_{t+1}|s_{t+1}) ... \sum_{k=1} \gamma^k r_{t+k+1} ] \\=\sum_{a_t}\pi(a_t|s_t)\sum_{s_{t+1}}p(s_{t+1}|s_t,a_t)[r_{t+1}+\upsilon_\pi(s_{t+1})]$
假设值函数已经稳定，任意一个状态的价值可以由其他状态的价值得到，这个公式就称为贝尔曼公式（Bellman Equation），同样的，状态-行动值函数有一个类似的公式：
$q_\pi(s_t, a_t)=\sum_{s_{t+1}}p(s_{t+1}|s_t,a_t)\sum_{a_{t+1}}p(a_{t+1}|s_{t+1})[r_{t+1}+q_\pi(s_{t+1},a_{t+1})]$
该公式的推导方法与状态值函数类似。这两个公式可以说是强化学习理论的基石，非常重要。
此处还有一个结论：在状态转移中，Agent可能在不同时刻遇到同一个状态，这两个状态的价值是相等的。从公式中可以看出，值函数并没有对状态的时刻有特殊要求。其次，MDP的状态转移过程持续时间足够长，最终每个状态、行动的转移进入稳态，每个状态有其固定不变的价值，证明状态的价值与时间无关。

三、表格式Agent

1. 概念介绍

这里大概介绍一下表格式Agent需要的基本数据结构。从上两节的内容可以看出，MDP模型通常可以运用五元数组来描述 $\{S,A,R,P,\gamma\}$ ，其中 $S$ 表示Agent状态集合， $A$ 表示行动集合， $R$ 表示在状态 $s_t$ 采取行动 $a_t$ 后从环境中获得的回报， $P$ 表示从状态 $s_t$ 转移到 $s_{t+1}$ 的概率， $\gamma$ 是计算长期回报时的折扣系数。

表格式如何理解：以蛇棋为例，假设棋盘上共有100个格子，棋子一共有100个离散的状态。玩家只能选择两种骰子来投掷，因此也可以通过离散的方式表达出来。因此，在这个问题中，状态和行动都是离散且有限的，可以用N维张量的形式表达。例如，策略 $\pi(a_t|s_t)$ 是一个条件概率分布，则这个条件概率可以由一个 $∣ S ∣ * ∣ A ∣$ 的矩阵表示，矩阵中每一个数值都处于0-1，且每一行的数值之和为1。而对于状态转移来说，条件概率分布可以由一个 $∣ S ∣ * ∣ S ∣ * ∣ A ∣$ 的张量表示。

通常情况下，表格式Agent还有一个条件约束：环境的状态转移概率需要对Agent公开，Agent就能利用这些信息进行更好地决策。还是以蛇棋为例，骰子每一面朝上的概率是均匀的，棋盘上的每一个梯子都是可见的，可以计算出状态转移概率。

表格式Agent需要的数据结构大致如下：

离散的状态、行动数目： $∣ S ∣, ∣ A ∣$
环境的回报机制： $∣ S ∣$ 一维数组
Agent的策略： $∣ S ∣ * ∣ A ∣$ 二维数组
环境的状态转移概率： $∣ S ∣ * ∣ S ∣ * ∣ A ∣$ 三维数组
Agent的状态值函数： $∣ S ∣$ 一维数组
Agent的状态-行动值函数： $∣ S ∣ * ∣ A ∣$ 二维数组
回报打折率 $\gamma$

2. 代码实现

蛇棋规则如下：
1）棋盘一共100个格子, 10*10, 并有若干个梯子；
2）玩家拥有两种骰子, 一种均匀投出1-6的数字，另一种均匀投出1-3的数字；
3）玩家持有的棋子每次根据骰子的点数向前行进相应的步数；
4）如果棋子落入有梯子的格子中，自动走到梯子对应的另一个格子中；
5）棋子的终点是位置为100的格子处，但如果到达时掷出的点数加上当前位置超过100，则棋子到达100后反向前进。

游戏环境采用pygame、numpy第三方库。具体代码如下：

import sys
import math
import pygame
import numpy as np

# 定义全局变量
UNIT = 50 # 每个格子的大小
MARGIN = 10 # 棋盘的边距
WHITE = 255, 255, 255
BLACK = 0, 0, 0
BLUE = 0, 0, 255
GREEN = 0, 255, 0
RED = 255, 0, 0

class SnakeEnv(object):
    def __init__(self, size=(520, 520)):
        self.grid_size = 10  # 棋盘大小10*10
        # 定义相互连接的格子
        self.ladders = {
            3: 20, 20: 3, 6: 14, 14: 6, 11: 28, 28: 11, 15: 34, 34: 15,
            17: 74, 74: 17, 22: 37, 37: 22, 36: 59, 59: 36, 49: 67, 67: 49,
            57: 76, 76: 57, 61: 78, 78: 61, 73: 86, 86: 73, 89: 91, 91: 89,
            81: 98, 98: 81
        }
        self.ladder_num = len(self.ladders) / 2  # 梯子的数量
        # 行动空间
        self.action_space = np.array([0, 1], dtype=np.int32)
        # 状态空间
        self.state_space = np.arange(1, 101).astype(np.int32)
        # 行动对应的骰子点数最大值，0表示选用1-6的骰子
        self.dices = {0: 7, 1: 4}
        # 棋子的位置，初始值默认为1
        self.pos = 1
        self.chessman = {'x': 0, 'y': 9}

        # 窗口信息初始化
        pygame.init()
        self.screen_width, self.screen_height = size
        self.window = pygame.display.set_mode((self.screen_width, self.screen_height))
        # 设置标题
        pygame.display.set_caption('蛇棋游戏')
        # 字体初始化, 选用微软雅黑, 默认大小为24
        self.font = pygame.font.SysFont('simhei', 24)
        self.fclock = pygame.time.Clock()
        self.fps = 3

    def reset(self):
        self.pos = 1
        self.chessman = {'x': 0, 'y': 9}
        return self.pos

    def step(self, a, show=False):
        if a not in self.action_space:
            a = 0
        # 掷骰子
        number = np.random.randint(1, self.dices[a])

        # 需要显示
        reserve = False
        for step in range(number):
            if self.chessman['x'] == 0 and self.chessman['y'] == 0:
                reserve = True

            # 偶数行, 前进等于往左走
            if self.chessman['y'] % 2 == 0:
                if self.chessman['x'] == 0 and not reserve:
                    self.chessman['y'] -= 1
                else:
                    if reserve:
                        self.chessman['x'] += 1
                    else:
                        self.chessman['x'] -= 1
            else:  # 奇数行, 前进等于往右走
                if self.chessman['x'] == self.grid_size - 1:
                    self.chessman['y'] -= 1
                else:
                    self.chessman['x'] += 1

            if show:
                self.render()

        # 根据点数前进
        self.pos += number

        if self.pos == 100:
            return 100, 100, 1
        elif self.pos > 100:
            # 超过100反向前进
            self.pos = 200 - self.pos

        # 落入梯子的格子中，则移动到另一端
        if self.pos in self.ladders.keys():
            self.pos = self.ladders[self.pos]
            # 计算起点的索引
            self.chessman['y'] = self.grid_size - ((self.pos - 1) // self.grid_size + 1)
            if self.chessman['y'] % 2 == 0:
                self.chessman['x'] = self.grid_size - 1 - ((self.pos - 1) % self.grid_size)
            else:
                self.chessman['x'] = (self.pos - 1) % self.grid_size
            if show:
                self.render()

        return self.pos, -1, 0

    def draw_chessboard(self):
        # 先画10条横线
        for i in range(self.grid_size + 1):
            # 绘制直线 surface, color, start_pos, end_pos, blend
            pygame.draw.line(self.window, BLUE, (MARGIN, i * UNIT + MARGIN),
                             (self.screen_width - MARGIN, i * UNIT + MARGIN), 2)
        # 画10条竖线
        for i in range(self.grid_size + 1):
            pygame.draw.line(self.window, BLUE, (i * UNIT + MARGIN, MARGIN),
                             (i * UNIT + MARGIN, self.screen_height - MARGIN), 2)
        # 绘制格子中的数字
        for row in range(self.grid_size):
            for col in range(self.grid_size):
                # 偶数行从右往左
                if row % 2 == 0:
                    text = str((self.grid_size - row - 1) * self.grid_size + self.grid_size - col)
                else:  # 奇数行从左往右
                    text = str((self.grid_size - row - 1) * self.grid_size + col + 1)
                text_surface = self.font.render(text, True, BLACK)
                text_width = text_surface.get_width()
                text_height = text_surface.get_height()
                text_x = round(MARGIN + UNIT * col + (UNIT - text_width) / 2)
                text_y = round(MARGIN + UNIT * row + (UNIT - text_height) / 2)
                self.window.blit(text_surface, (text_x, text_y))
        # ---画梯子---#
        for index, (key, value) in enumerate(self.ladders.items()):
            if index % 2 != 0:
                continue
            # 计算格子的行和列索引
            # 计算起点的索引
            row_s = self.grid_size - ((key - 1) // self.grid_size + 1)
            if row_s % 2 == 0:
                col_s = self.grid_size - 1 - ((key - 1) % self.grid_size)
            else:
                col_s = (key - 1) % self.grid_size
            # 计算终点的索引
            row_e = self.grid_size - ((value - 1) // self.grid_size + 1)
            if row_e % 2 == 0:
                col_e = self.grid_size - 1 - ((value - 1) % self.grid_size)
            else:
                col_e = (value - 1) % self.grid_size
            # 计算起点格子和终点格子中心点在屏幕中的坐标
            start_x, start_y = MARGIN + col_s * UNIT + UNIT / 2, MARGIN + row_s * UNIT + UNIT / 2
            end_x, end_y = MARGIN + col_e * UNIT + UNIT / 2, MARGIN + row_e * UNIT + UNIT / 2
            # 计算中心点连线的航向
            yaw = math.atan2(end_y - start_y, end_x - start_x)
            # 依次计算出梯子的4个顶点
            points = []
            points.append((round(start_x - UNIT / 4 * math.sin(yaw)), round(start_y + UNIT / 4 * math.cos(yaw))))
            points.append((round(start_x + UNIT / 4 * math.sin(yaw)), round(start_y - UNIT / 4 * math.cos(yaw))))
            points.append((round(end_x + UNIT / 4 * math.sin(yaw)), round(end_y - UNIT / 4 * math.cos(yaw))))
            points.append((round(end_x - UNIT / 4 * math.sin(yaw)), round(end_y + UNIT / 4 * math.cos(yaw))))
            # 绘制多边形 surface, color, pointlist, width, 画个四个顶点围起来的矩形
            pygame.draw.polygon(self.window, GREEN, points, 2)

    def render(self):
        self.window.fill(WHITE)
        # 先画棋盘
        self.draw_chessboard()
        # 再画棋子
        pygame.draw.circle(self.window, RED,
                           (MARGIN + UNIT * (self.chessman['x'] + 0.5), MARGIN + UNIT * (self.chessman['y'] + 0.5)), 15)
        pygame.display.update()
        # 退出程序
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                sys.exit()
        self.fclock.tick(self.fps)

    def query_transition(self, s, a):
        # 计算转移概率
        p = np.ones(self.dices[a] - 1) * (1 / (self.dices[a] - 1))

        # 计算下一状态
        s_ = np.ones(self.dices[a] - 1) * s + np.arange(1, self.dices[a])
        # 找到超过100的数值
        s_g_100 = np.where(s_ > 100)
        s_[s_g_100] = 200 - s_[s_g_100]
        s_ = s_.astype(np.int32)
        # 验证梯子, vectorize将函数向量化, 方便传递一个向量，函数负责对每一个元素操作, 返回结果仍是向量
        ladder_move = np.vectorize(lambda x: self.ladders[x] if x in self.ladders.keys() else x)
        s_ = ladder_move(s_)

        # 计算奖励
        query_reward = np.vectorize(lambda x: 100 if x == 100 else -1)
        r = query_reward(s_)
        r = r.astype(np.float32)
        return s_, r, p

主函数代码如下：

if __name__ == '__main__':
    snake = SnakeEnv()
    while True:
        snake.reset()
        total_r = 0
        while True:
            snake.render()
            a = np.random.randint(0, 2)
            s_, r, done = snake.step(a, show=True)
            total_r += r
            if done:
                print('total rewards: ', total_r)
                break
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                sys.exit()

总结

本文主要介绍了强化学习使用的MDP模型概念、值函数的由来与形式、表格式Agent的数据结构及条件约束。

[大A量化专栏] 独家梳理-A股周末消息汇总-20250630 心心喵大A量化专栏金融
短期ST板块博弈机会政策催化主板ST股涨跌幅放宽至10%，与普通股一致（*ST华光、ST新研弹性大）。风险提示需严格筛选“摘帽预期强+业绩改善”标的，避免退市风险。稳定币/数字人民币香港政策落地8月1日《稳定币条例》生效，关注HB股份（硬件钱包）、JBF（银行IT改造）。上海地铁试点数字人民币“碰一碰”全线网覆盖，CTL（交通支付场景）受益明确。充电宝新规3C认证强制化维K技术（半固态电芯）、安K
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
Python小知识感情谁不曾无奈 #Python笔记 python
文章目录一、技巧二、错误解决办法三、Pycharm3.1添加安装包python知识点梳理AI股票可以读取指数一、技巧1.1镜像元安装指令：pipinstall-ihttps://pypi.doubanio.com/simple/--trusted-hostpypi.doubanio.comxxxx1.2唤醒虚拟环境.\venv\Scripts\activate1.3解决包不兼容问题pipinsta
Python打卡训练营-Day41-简单CNN traMpo1ine cnn python 深度学习
@浙大疏锦行知识回顾数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层Flatten->Dense(withDropout，可选)->Dense(Output)这里相关的概念比较多，如果之前没有学习过复试班强化班中
jmeter中变量的作用范围_Jmeter 的变量类型和作用域 weixin_39789525 jmeter中变量的作用范围
Jmeter的有多种变量类型，有其各自的作用域。有时候不小心就会使它们之间相互冲突或者覆盖，本文梳理各种类型变量的生成方法、使用特点、作用范围。目录变量类型Jmeter中的变量分别有以下几种：UserDefinedVariablesUserParameters属性Properties运行中创建的变量我们分开单独研究各自的特点。UserDefinedVariables(UDV)UserDefined
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
星际争霸多智能体挑战赛（SMAC）资源存储库多智能体强化学习人工智能
目录TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3多智能体强化学习Dec-POMDPs12-POMDPs（十二月-POMDP）Centralisedtrainingwithdecentralisedexec
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
整合性安全总结（ISS）早期规划 qq_34062333 临床试验 NDA
1.ISS统一性建设工作启动1.1研究元数据标准化1.1.1不同类型研究元数据规范DBL研究锁定数据库后，需梳理元数据，确保信息完整准确，为后续分析奠定基础。OL研究进行中，实时更新元数据，反映研究进展，避免数据偏差影响结果。新启动研究，依据统一模板构建元数据，减少初期工作量，提高研究效率。1.1.2cADaM规范建立结合各类研究特点，制定跨研究核心分析数据集规范，提升数据整合性。规范涵盖数据结构
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1 行云流水AI笔记开源算法
以下是DQN（DeepQ-Network）和PPO（ProximalPolicyOptimization）的全面对比流程图及文字解析。两者是强化学习的核心算法，但在设计理念、适用场景和实现机制上有显著差异：graphTDA[对比维度]-->B[算法类型]A-->C[策略表示]A-->D[动作空间]A-->E[学习机制]A-->F[探索方式]A-->G[稳定性]A-->H[样本效率]A-->I[关键
#Vue3篇： vue3梳理：&ref自动解包&key使用程序员xiaolibao Vue3篇 vue
vue3Attribute绑定同名简写如果attribute的名称与绑定的JavaScript值的名称相同，那么可以进一步简化语法，省略attribute值在模板中使用ref时，我们不需要附加.value。为了方便起见，当在模板中使用时，ref会自动解包(有一些注意事项)。import{ref}from'vue'exportdefault{setup(){constcount=ref(0)func
PettingZoo:多智能体强化学习的标准API 资源存储库多智能体强化学习人工智能深度学习
PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1介绍2BackgroundandRelatedWorks2背景及相关工作2.1PartiallyObservableStochasticGamesandRLlib2.1部分可观察随机
信息系统项目管理师2025年考试关键知识点梳理-第11章项目成本管理 ℃-柠檬职场和发展其他高项项目管理
项目成本管理是为了项目在批准的预算内完成，对成本进行规划、估算、预算、融资、筹资、管理和控制的过程。项目成本管理重点关注完成项目活动所需资源的成本，但同时也考虑项目决策对项目产品、服务或成果的使用成本、维护成本和支持成本的影响。因此，项目成本管理还需使用其他过程和许多通用财务管理技术，如投资回报率分析、现金流贴现分析和投资回收期分析等。1、管理基础1.1重要性和意义项目管理主要受范围、时间、成本和
项目管理10大知识领域，49个管理过程关键知识点梳理 ℃-柠檬职场和发展其他
一、项目整合管理1、制定项目章程输入：商业文件（商业论证、效益管理计划）、协议工具技术：专家判断、头脑风暴、焦点小组、访谈输出：项目章程、假设日志2、制定项目管理计划输入：项目章程、其他工程输出工具技术：专家判断、头脑风暴、核对单、焦点小组、访谈输出：项目管理计划3、指导与管理项目工作输入：项目管理计划、项目文件、批准的变更请求工具技术：项目管理信息系统、会议输出：可交付成果、工作绩效数据、问题日
神经网络架构搜索 IJCAST主编进化计算神经网络架构人工智能
InternationalJournalofComplexityinAppliedScienceandTechnology，投稿网址:https://www.inderscience.com/jhome.php?jcode=ijcast,发表论文不收取任何费用，论文平均审稿25天内即可录用。1.神经网络架构搜索方法分类当前，神经网络架构搜索的方法主要可以归纳为以下三类：a.基于强化学习的NAS方法
Spring Boot 项目分层架构详解 damnItHUA 后端 spring boot 架构后端
在现代SpringBoot项目中，Controller、Service、Mapper和Entity四层架构能够有效提升代码可维护性、可测试性与团队协作效率。下面以“商品管理（Product）”为例，系统梳理这四层的职责分工与协作关系。一、Controller层作为Springboot应用程序的入口点，Controller层主要负责接收来自前端或其他系统的HTTP请求，校验输入参数，将业务委托给Se
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL gpt
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理1.MindSQL(库)MindSQL是一
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
【k近邻】 K-Nearest Neighbors算法原理及流程 F_D_Z 机器学习方法数理算法学习机器学习 k近邻算法 k-近邻算法
【k近邻】K-NearestNeighbors算法原理及流程【k近邻】K-NearestNeighbors算法距离度量选择与数据维度归一化【k近邻】K-NearestNeighbors算法k值的选择【k近邻】Kd树的构造与最近邻搜索算法【k近邻】Kd树构造与最近邻搜索示例k近邻算法（K-NearestNeighbors，简称KNN）是一种常用的监督学习算法，可以用于分类和回归问题。在OpenCV中
computed()、watch() 与 watchEffect() 前端岳大宝前端框架Vue vue.js javascript 前端
下面，我们来系统的梳理关于computed、watch与watchEffect的基本知识点：一、核心概念与响应式基础1.1响应式依赖关系Vue的响应式系统基于依赖收集和触发更新的机制：响应式数据依赖收集创建依赖关系数据变更触发更新执行副作用1.2三大API对比特性computedwatchwatchEffect返回值Ref对象停止函数停止函数依赖收集自动手动指定自动执行时机惰性求值响应变化立即执行
ref() 与 reactive() 前端岳大宝前端框架Vue javascript 前端 vue.js
下面，我们来系统的梳理关于ref()与reactive()的基本知识点：一、响应式编程核心概念1.1什么是响应式编程？响应式编程是一种声明式编程范式，它使数据变化能够自动传播到依赖它的代码部分。在Vue中，响应式系统实现了：数据驱动视图：数据变化自动更新DOM依赖追踪：自动跟踪数据依赖关系高效更新：最小化不必要的DOM操作1.2Vue响应式系统演进版本响应式实现特点Vue2Object.defin
＜script setup＞语法糖前端岳大宝前端框架Vue vue.js 前端 javascript
下面，我们来系统的梳理关于Vue3语法糖的基本知识点：一、核心概念1.1什么是？是Vue3中CompositionAPI的编译时语法糖，它通过简化组件声明方式，显著减少样板代码，提供更符合直觉的开发体验。1.2设计目标与优势目标实现方式优势减少样板代码自动暴露顶层绑定代码更简洁提升开发体验更自然的响应式写法开发更高效更好的类型支持原生TypeScript集成类型安全编译时优化编译阶段处理运行时更高
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

强化学习理论基础（MDP、值函数与贝尔曼公式以及表格式Agent）

强化学习理论基础（MDP、值函数与贝尔曼公式以及表格式Agent）

前言

一、MDP策略与环境模型

二、值函数与贝尔曼公式

1. 值函数

2. 贝尔曼公式

三、表格式Agent

1. 概念介绍

2. 代码实现

总结

你可能感兴趣的:(强化学习算法梳理,强化学习)