小薛引路

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)

1 基本概念

2 马尔科夫决策过程理论

2.1 马尔科夫过程(Markov process / Markov Chain)

2.1.1 状态空间分析：

2.1.2 转移矩阵描述

2.2 马尔科夫奖励过程(Markov Reward Process)

2.2.1 不同任务的奖励及回报值计算方法

2.2.2 衰减因子的分析

2.2.3 马尔科夫奖励过程的值函数及计算示例

2.3 马尔科夫决策过程(Marlov Decision Process)

2.3.1 策略

2.3.2 状态价值函数与状态动作价值函数

3 动态规划算法求解MDP

3.1 预测与控制

3.2 求解算法梳理

4 值迭代与策略迭代手算及Matlab代码

4.1 简单粗暴的值迭代方法--求解Small Gridworld例子

4.1.1 理论部分

4.1.1 手解过程及自己总结

4.1.2 Matlab的计算结果实现

4.1.3 Matlab部分解算结果展示：

4.2 策略迭代算法

4.2.1 手算示例分析

4.2.2 策略迭代的Matlab实现

4.2.3 运行结果展示

参考资料：

写在前面的话

本文为笔者自学马尔科夫过程的新的总结，难免存在疏漏和错误之处；
写作本文的目的是为想学习马尔科夫决策过程的小伙伴提供一些参考
本文的撰写也借鉴了许多优秀的知乎及CSDN博客文章，感谢他们，但是本文在借鉴他们成果的基础上，做了自己的一些改编，不合适之处，欢迎高人批评指正。
由于本人也是初学，旨在对问题概念及原理做最为直白的理解，确保初学者无痛入门
如后期自己发现有疏漏之处，也会自行不断地进行更新和完善

1 基本概念

在无监督数据、只有奖励信号；奖励可能是即时的也可能是延迟的；当前行为影响后续状态的收益；时间是一个必须要考虑的因素。强化学习是通过个体与环境的不断交互和反馈积累起对环境的感知，进而一步步的增强自己对环境的认识而尽快的实现自己的目的

$R_{t}$ 表示个体在 t 时刻的奖励，强化学习的目标就是获得最大化的奖励

序列决策：通过一系列的行为得到决策收益，有时候会放弃短期利益追求长期效益
个体(agent)：行动的实际实施者，用于接收信号并做出决定。个体在环境状态 $S_{t}$ 采用动作 $A_{t}$ 得到收益 $R_{t+1}$
环境(Environment)：接收一个动作 $A_{t}$ ，环境状态变成 $S_{t+1}$ ，反馈给个体一个收益 $R_{t+1}$
行动(action)：个体施加在行动中的动作
状态(state)：环境接受个体agent的action后，反馈给agent的环境状态，同时还会附加一个奖励reward

历史：状态、动作和收益的序列
马尔科夫性： $P(S_{t+1}|S_{t})=P(S_{t+1}|S_{t},S_{t-1}, ..., S_{1})$ ,忽略历史信息，当前状态可以决定未来
策略：状态到行为的映射
价值函数：未来奖励的预测，评价当前状态的好坏。当个体面临几种不同的状态时，他会根据value值来评估不同状态的收益情况，指定相应的策略；也就是说，价值函数是基于某一策略而言的。
- 对于某一策略 $\pi$ ,其价值函数可表示为 $v_{\pi}(s)=E_{\pi}(R_{t+1}+\gamma R_{t+2}+\gamma^{3} R_{t+3}+... | s_{t}=s )$
模型：对模拟环境与个体交互机制的描述，模型包含两个部分：
- 状态之间的转移概率 $P_{ss'}^{a}=P[{S_{t+1} | S_{t}=s,S_{t+1}=s',A_{t}=a}]$
- 状态转移的收益 $R_{s}^{a}=E(R_{t+1} | S_{t}=s, A_{t} = a)$
- 注意：模型仅对于个体来说的，模型对个体来说也不是必须的；考虑环境的实际规划状态的研究称为环境动力学
学习与规划：学习是在初始阶段对环境一无所知的时候，通过与环境的不断交互，建立起相应的行为策略；规划是在个体对环境已经了解后，利用建立的模型模拟与环境的交互，从而继续改进所建立的策略。
探索和利用：个体从未知环境中找到一个比较好的策略，有失败的风险；利用则是从已有的策略中选择一个比较好的策略，或许会早熟。比如：你会选择一个新餐厅吃饭 (探索) 还是去你之前去过的餐厅 (利用) 呢？

2 马尔科夫决策过程理论

马尔科夫过程基本描述：

马尔科夫性： $P(S_{t+1}|S_{t})=P(S_{t+1}|S_{t},S_{t-1}, ..., S_{1})$
状态转移概率： $P_{ss'}^{a}=P[{S_{t+1} | S_{t}=s,S_{t+1}=s',A_{t}=a}]$ ；显然从在任意时刻 t 从当前状态转移到其他状态的概率之和为1

2.1 马尔科夫过程(Markov process / Markov Chain)

无记忆过程，包含两个基本要素：，其中的 S 表示有限个状态集合，P 表示这些状态之间的转移概率

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)_第2张图片

马尔科夫链的基本示例

上图模拟了包含S= {Facebook, Class1, Class2, Class3, Pub, Pass,Sleep}七种状态的马尔科夫状态空间，其中圆形状态表示个体所处的状态，方形状态Sleep表示终止状态；不同状态之间的连线上的数值表示这些状态之间的转移概率，箭头表示状态转移的方向。

2.1.1 状态空间分析：

个体从Class1开始，他有0.5的概率，转移到Class2；也有可能0.5的概率，转移到Facebook状态；
- 当个体从状态Class1转移到状态Facebook时，他有0.9的概率，继续刷Facebook；也有0.1的概率回到Class;
- 当个体从状态Class1转移到状态Class2时，他有0.2的概率会因课程太难退出，即Sleep；有0.8的概率，转到Class3；
  - 当个体从状态Class2转移到状态Class3时，他有0.6的概率通过考试，然后退出；有0.4的概率，去图书馆查资料学习；
    - 如果他去图书馆查资料学习，有0.4的概率返回Class1；有0.4的概率，返回Class2；有0.2的概率，返回Class1

思维导图展示：

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)_第3张图片

学生上课马尔科夫过程思维导图演示

2.1.2 转移矩阵描述

学生选课马尔科夫转移矩阵
	Class1	Class2	Class3	Facebook	Pub	Pass	Sleep
Class1		0.5		0.5
Class2			0.8				0.2
Class3					0.4	0.6
Pub	0.2	0.4	0.4
Facebook	0.9			0.1
Pass							1
Sleep							1

上图和表解释了马尔科夫过程的两个基本要素：状态空间和状态转移矩阵，下面介绍马尔科夫奖励过程。

2.2 马尔科夫奖励过程(Markov Reward Process)

在马尔科夫过程的基础上，加入了奖励R；构成形如 $<S,P,R,\gamma>$ 的马尔科夫奖励过程；对其四元组的解释如下：

S：马尔科夫的状态空间
P：马尔科夫的状态转移概率矩阵
R：马尔科夫过程的奖励函数
$\gamma$ ：奖励衰减因子，位于[0, 1]之间；传达的信息是，随着状态的迁移，当前状态的影响在衰减

2.2.1 不同任务的奖励及回报值计算方法

注意：

我们将每个状态的即时收益，定义为奖励 $R_{t}$ ；而将对某一个片段的评价，定义为回报 $G_{t}$ ；
短期的叫收益，长期的叫回报，区分开来，以免混淆

( 1 ) 回合制任务(episodic task)

存在一个终止状态，并且所有的奖励会在这个终止状态及其之前结算

( 2 ) 连续任务(continuing task)

不存在一个终止状态，即原则上可以永久地运行下去，这类任务的奖励是分散地分布在这个连续的一连串的时刻中的

其中衰减率（discount factor） $\gamma$ 满足 $0 \leq \gamma \leq 1$ 。这样的定义也很好理解，相比于更远的收益，我们会更加偏好临近的收益，因此对于离得较近的收益权重更高。

2.2.2 衰减因子 $\gamma$ 的分析

分析性描述：

我们对未来的把握是逐渐衰减的，一般的情况下，我们更关心短时间的奖励
加入衰减因子之后，我们就可通过该参数来调节长时间的回报
衰减因子是MDP和MRP长期回报值有界的保证

2.2.3 马尔科夫奖励过程的值函数及计算示例

$v(s) & = E(G_{t} | S_{t}=s) \\ &= E(R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+3} + ... | S_{t}=s) \\ &= E(R_{t+1} + \gamma * (R_{t+2} + \gamma R_{t+3} + ...) | S_{t}=s) \\ &= E(R_{t+1} + \gamma * v(S_{t+1})) | S_{t}=s)$

价值函数表示了状态s和状态 $S_{t+1}$ 之间的迭代关系，也反应了短期奖励与长期回报之间的关系

如果我们知道状态转移矩阵P，那么式子可转化为：

$v(s) & = R_{t+3} + ...) | S_{t}=s) \\ &= E(R_{t+1} + \gamma * v(S_{t+1})) | S_{t}=s) \\& = E(R_{t+1} | S_{t}=s) + \gamma * E(v(S_{t+1} | S_{t} = s)) \\& = R(s) + \gamma * \sum_{s' \in S} (P_{ss'} v(s'))$

下面是一个例子：

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)_第4张图片

值函数的计算示例

2.3 马尔科夫决策过程(Marlov Decision Process)

在马尔科夫奖励过程的基础上，我们又加入了行动集合，构成 $<S,A,P,R,\gamma>$ 五元组和策略 $\pi$ 形式的马尔科夫决策过程

几点讨论：

MP和MRP我们作为一个观察者，观察状态的变化来计算回报值；而在MDP中，我们引入了决策，通过改变状态转移的流程，获得最大化的回报
我们对MDP的奖励变成了对的奖励，即通过动作来控制状态的转移

2.3.1 策略

策略给出了在每个状态下我们应该采取的行动，我们可以把这个策略记做 $\pi (a|s)$ ，它表示在状态下采取行动的概率
给定状态下的动作概率的集合，这些所有的概率的加总起来，和值为1。
策略是对agent行为的全部描述，一旦策略确定智能体的行为也将确定。
策略是基于马尔科夫状态，是时间稳定的，只与状态有关，而与时间无关
如果给定策略 $\pi$ ，MDP将会退化为MRP问题

当策略确定时，对应的是一组动作集合；当策略随机时，对应的是一组动作分布集合

如果我们可以计算出每个状态或者采取某个行动之后收益，那么我们每次行动就只需要采取收益较大的行动或者采取能够到达收益较大状态的行动。这就是策略迭代的核心所在。

2.3.2 状态价值函数与状态动作价值函数

两个状态价值函数对应两个贝尔曼方程，对应值迭代和策略迭代算法，两个公式的用途不同，千万不能混淆。

(1) 状态价值函数( $V_{\pi}(s)$ ，state value function)

$v_{\pi}(s) \\ = E_{\pi}(G_{t} | S_{t} = s) \\ = E_{\pi}(R_{t+1} + \gamma * v_{\pi}(S_{t+1}) | S_{t} = s)$

在当前状态一直采用策略 $\pi$ ，能够产生的期望收益

个人观点：

如果你只给出一个策略，使用值迭代算法更新至值函数收敛，你将得到了这个策略下的最优决策，这样的计算模式只涉及到上式的前两行部分；因为只有一个策略，所有的 $\pi (a|s)$ 就是确定的。
上面公式的通俗解释是，我在状态 s 处以概率 $\pi (a|s)$ 采取行动 a，采取行动 a 之后，状态 s 能够以概率转移到状态 s' 。
对于策略 $\pi$ ，我们可以定义如下贝尔曼方程：

(2) 状态动作价值函数（ $Q_{\pi}(s,a)$ , action value function）

$q_{\pi}(s,a) \\ = E_{\pi}(G_{t} | S_{t} = s, A_{t}=a) \\ = E_{\pi}(R_{t+1} + \gamma * q_{\pi}(S_{t+1},A_{t+1}) | S_{t} = s, A_{t}=a)$

当前状态，如果采用行动，接下来采用策略 $\pi$ ，能够产生的期望收益

如果我们我们能够求得某策略下的价值函数，我们就可以对该策略进行评估
如果我们能够得到最优状态的价值函数，我们就可以得到最优策略

(3) 状态值函数与状态动作值函数区别与联系分析

状态价值函数，策略是确定的；而状态动作价值函数，采取某个行动之后，选择不同的策略能够得到的预期收益
状态价值函数，对应于值迭代算法；行动价值函数，对应策略迭代算法

联系：

两个函数的最终目的都是要得到最优的期望收益，用【殊途同归】一词描述最为合适

一个计算的示例

$\upsilon\left(s_4\right)=0.5*\left(1+0.2*\left(-1.3\right)+0.4*2.7+0.4*7.4\right)+0.5*10=7.39$

3 动态规划算法求解MDP

动态表示研究的过程是具有时序特征，规划是一种优化策略；所以动态规划是指将研究问题分解成许多个子问题，通过不断的求解子问题一步一步递归得到原问题的解决方案。

对于我们研究的马尔科夫过程，由于贝尔曼方程的存在，使其具备使用动态规划求解的基本特征；不过要想使用动态规划来求解MDP的话，MDP必须具有明确的模型，事先知道完全的信息。【根据状态和行动的价值函数，计算每个状态的最优策略，最后串起来】

3.1 预测与控制

预测是求解给定策略下的价值函数的过程
控制是找到一个策略以获得最大化的收益，即从所有的可能策略中选择最优的价值函数和最优策略

MDP的动态规划算法的主体思路为：先给一个策略，预测出他的最优值函数；然后在使用控制策略，得到最优策略

策略迭代方法：要进行策略迭代，首先要进行策略评估，也就是评估一下目前的几个选择的好坏，因为只有你当前的选择好了，你才更可能做出整体上比较好的选择；在DS的视频中，提出了“one step look ahead”理念，就是说我计算当前值函数的时候，要使用到上一个值函数的数据来构建；

3.2 求解算法梳理

(1) 策略评估

概念：评估一个给定的策略，属于预测的范畴

计算公式：

说明：一次迭代内，状态s的价值等于前一次迭代该状态的即时奖励与所有s的下一个可能状态s' 的价值与其概率乘积的和

(2) 策略改善

采取那个（些）使得状态价值得到最大的行为，进行策略更新。

考虑一个确定的策略： $a=\pi_{s}$
通过贪婪计算优化策略： $\pi'(s) = argmax_{a \in A}q_{\pi}(s|a)$
这会用1步迭代改善状态s的q值，即在当前策略下，状态s在动作π’(s)下得到的q值等于当前策略下状态s所有可能动作得到的q值中的最大值。这个值一般不小于使用当前策略得到的行为所的得出的q值，因而也就是该状态的状态价值。
如果q值不再改善，则在某一状态下，遵循当前策略采取的行为得到的q值将会是最优策略下所能得到的最大q值，上述表示就满足了Bellman最优方程，说明当前策略下的状态价值就是最优状态价值。
因而此时的策略就是最优策略。

(3) 策略迭代

在当前策略上迭代计算 v 值，再根据 v 值贪婪地更新策略，如此反复多次，最终得到最优策略 $\pi^{*}$ 和最优状态价值函数 $V^{*}$

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)_第10张图片

策略迭代算法流程示意图

(4) 价值迭代

概念：从初始状态价值开始同步迭代计算，最终收敛，整个过程中没有遵循任何策略。

公式定理：

说明：与策略迭代不同，在值迭代过程中，算法不会给出明确的策略，迭代过程其间得到的价值函数，不对应任何策略；价值迭代虽然不需要策略参与，但仍然需要知道状态之间的转移概率，也就是需要知道模型。

4 值迭代与策略迭代手算及Matlab代码

4.1 简单粗暴的值迭代方法--求解Small Gridworld例子

值迭代算法流程图

4.1.1 理论部分

一个4×4的小网格世界，左上角和右下角是目的地

每个格子行动方向为上下左右，每走一步reward-1

求一个在每个状态都能以最少步数到达目的地的最优行动策略。

解决思路：我们从最开始的随机（1/4）策略开始，对其进行policy evaluation, 然后进行policy iteration by acting greedy

4.1.1 手解过程及自己总结

展示k=2到k=3的计算过程：

0 = 【第一行第一个格子】这是结束的位置，应该保持不动	-2.375 = 【第一行的第二个格子】 + 0.25 * (-1 + 1 * (-1.7)) 上【-0.675】 + 0.25 * (-1 + 1 * (0)) 左【-0.25】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-2.875 = 【第一行的第三个格子】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-1.7)) 左【-0.625】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-3.0 = 【第一行的第四个格子】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】
-2.425 = 【第二行第一列】 + 0.25 * (-1 + 1 * (0)) 上【-0】 + 0.25 * (-1 + 1 * (-1.7)) 左【-0.625】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-2.75 =【第二行第二列】 + 0.25 * (-1 + 1 * (-1.7)) 上【-0.625】 + 0.25 * (-1 + 1 * (-1.7)) 左【-0.625】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-3.0 = 【第二行第三列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-2.875 = 【第二行第四列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-1.7)) 下【-0.625】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】
-2.875 =【第三行第一列】 + 0.25 * (-1 + 1 * (-1.7)) 上【-0.625】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-3.0 =【第三行第二列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-2.75 = 【第三行第三列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-1.7)) 下【-0.625】 + 0.25 * (-1 + 1 * (-1.7)) 右【-0.625】	-2.375 = 【第三行第四列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-0)) 下【-0.25】 + 0.25 * (-1 + 1 * (-1.7)) 右【-0.625】
-3.0 =【第四行第一列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.625】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-2)) 右【-0.75】	-2.875 =【第四行第二列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-2)) 下【-0.75】 + 0.25 * (-1 + 1 * (-1.7)) 右【-0.625】	-2.375 = 【第四行第三列】 + 0.25 * (-1 + 1 * (-2)) 上【-0.75】 + 0.25 * (-1 + 1 * (-2)) 左【-0.75】 + 0.25 * (-1 + 1 * (-1.7)) 下【-0.625】 + 0.25 * (-1 + 1 * (0)) 右【-0.25】	-0 = 【第四行第四列】

通用的总结(k+1步的计算是从k步的值矩阵中取值来计算)：

某个格子的值 = 0.25 * (即时奖励[-1]  +  折扣因子[1] * k步矩阵上方的值)   【上】
+ 0.25 * (即时奖励[-1]  +  折扣因子[1] * k步矩阵左方的值)   【左】
+ 0.25 * (即时奖励[-1]  +  折扣因子[1] * k步矩阵下方的值)   【下】
+ 0.25 * (即时奖励[-1]  +  折扣因子[1] * k步矩阵右方的值)   【右】

4.1.2 Matlab的计算结果实现

程序设计思路为：

构建gridRow * gridCol大小的图形
初始化值函数，并定义当前值函数和上一步值函数；初始化折扣因子、即时奖励、终止阈值、策略概率
按照前一部分总结的规律，依照【上->左->下->右】的顺序，迭代更新值函数；注：程序将边界点和内点分开计算
判断更新后的值函数与上一步的值函数是否满足终止阈值；若是返回，得到收敛的值函数；否则继续迭代

clc;clear;
%初始化格网的行数
girdRow = 4;
gridCol = 4;
%初始化值函数、当前值函数和上一期值函数
v = zeros(girdRow,gridCol);
v_cur = v;
v_before = v;
%折扣因子
gamma = 1;
%即时奖励
reward = -1;
%策略概率
policyPossibility = 0.25;
%终止阈值：两次的值函数差值小于给定阈值，认为得到了最优的值函数
theta = 0.00001;

%迭代变量
iter = 0;
while true  
    %迭代变量递增1
    iter = iter + 1;
    %遍历所有的格子
    for i = 1:girdRow
        for j = 1:gridCol
            %第一行的第一个格子
            if(i == 1 && j == 1)
                v_cur(i,j) = v_before(i,j);
            end
            
            %第一行其他格子
            if(i == 1 && j ~= 1)
                if (j ~= gridCol)
                    %上左下右
                    v_cur(i,j) =  policyPossibility * (reward + gamma * v_before(i,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j-1)) ...
                    + policyPossibility * (reward + gamma * v_before(i+1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i, j+1));
                else
                    v_cur(i,j) =  policyPossibility * (reward + gamma * v_before(i,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j-1)) ...
                    + policyPossibility * (reward + gamma * v_before(i+1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i, j));
                end
            end
            %第1列其他格子
            if (j == 1 && i ~= 1)
                 if (i ~= girdRow)
                    v_cur(i,j) =  policyPossibility * (reward + gamma * v_before(i-1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i+1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i, j+1));
                else
                    v_cur(i,j) =  policyPossibility * (reward + gamma * v_before(i-1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j+1));
                 end              
            end
            %第4列非首行格子
            if (j == gridCol && i ~= 1)
                 if (i ~= gridCol)
                    v_cur(i,j) =  policyPossibility * (reward + gamma * v_before(i-1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j-1)) ...
                    + policyPossibility * (reward + gamma * v_before(i+1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i, j));
                else
                    v_cur(i,j) =  0;
                 end              
            end
            %第4行非首列格子
            if (i == girdRow && j ~= 1 && j ~= gridCol)
                v_cur(i,j) =  policyPossibility * (reward + gamma * v_before(i-1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j-1)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i, j+1));
            end
            
            %非边界行的计算
            if (i~= 1 && i ~= girdRow && j ~= gridCol && j ~= 1)
                v_cur(i,j) =  policyPossibility * (reward + gamma * v_before(i-1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i,j-1)) ...
                    + policyPossibility * (reward + gamma * v_before(i+1,j)) ...
                    + policyPossibility * (reward + gamma * v_before(i, j+1));
            end
        end
    end
    disp(sprintf('第%d次的解算结果为：',iter))
    v_cur %输出当前值函数
    if (max(abs(v_cur(:)-v_before(:))) < theta)
        break;
    else
        v_before = v_cur;
    end
end

4.1.3 Matlab部分解算结果展示：

算法在设定的阈值内迭代了215次，最终输出的收敛结果为：

4.2 策略迭代算法

即使我们得到最优的值函数，我们还需要将其转化为具体的策略，而通过上面的例子我们的发现k=3与k=10的值函数不同，但对应的策略是完全相同的。故可以说我们仅需要迭代三次就得到了最优的策略，我们后面做的工作其实是无用功。

详细分析我们的值迭代的思路，发现我们自始至终沿用的都是均匀概率分布的策略；如果我们能在搜索的过程中根据值函数来更新策略，我们将有可能更快的得到想要的结果。正是基于这样的想法，我们的策略迭代算法就产生，其原理是这样的【自己悟的，专业人士勿喷】：

首先我们随机初始化一个策略，我们沿着这个策略进行值函数迭代，如果值函数发生变化，说明还没有得到最优的值函数，需要继续迭代，此时我们并不是直接对得到的值函数进行操作，而是根据值函数反应的信息，进行策略更新
然后，使用更新后的策略，进行值函数的更新；如此往复，直到我们的值函数收敛或策略不再发生变化时，我们研究问题的满意解，甚至是最优解。

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)_第17张图片

策略迭代流程图

插播别人的一段分析：伪代码的第3行表示策略改进，即固定价值函数，得到其最优策略；伪代码第4行的策略评估，即固定策略，得到其价值函数。

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)_第18张图片

改进策略迭代流程图

改进策略迭代的分析：

当 $m_{t}=1$ 时，相当于只有一个策略，改进策略迭代算法等同于值迭代算法。结合策略评估的定义，我们仅在一个固定策略下，得到了其价值函数，也就是我们只做了一次策略评估。
当 $m_{t}=\infty$ 时，改进策略迭代算法等同于策略迭代算法。
改进策略迭代是值迭代算法与策略迭代算法的统一，目的都是为了找到最优的行动策略

4.2.1 手算示例分析

专业的公式我也看不懂，搞不明白，自己就发挥一下我的笨蛋大脑，写下下面这个部分，如有错误，欢迎指正。

再来分析之前出现的这个图，经过k=1的迭代，发现了新的策略：

比如第2行第1列的格子，其上左下右的值分别为-2.0、-2.0、-1.7、0.0，显然最大值函数对应方向为当前格子的上方；
以第2行第2列的格子，其上左下右的值分别为-1.7、-1.7、-2.0、-2.0，出现了两个最大值，即上方和左方
以第2行第3列的格子，其上左下右的值均为-2.0，出现了四个最大值

于是我就猜想，我们是不是可以做如下策略变换：

(row = 2,col = 1)处的策略，由 $\pi = \{0.25,0.25,0.25,0.25\}$ 变成 $\pi = \{1,0,0,0\}$
(row=2,col=2)处的策略，由 $\pi = \{0.25,0.25,0.25,0.25\}$ 变成 $\pi = \{0.5,0.5,0,0\}$
(row=2,col=3)处的策略，由 $\pi = \{0.25,0.25,0.25,0.25\}$ 保持不变

由此，对于k=2，我们得到新的策略集PI：

{0,0,0,0}	{0,1,0,0}	{0,1,0,0}	{0.25,0.25,0.25,0.25}
{1,0,0,0}	{0.5,0.5,0,0}	{0.25,0.25,0.25,0.25}	{0,0,1,0}
{1,0,0,0}	{0.25,0.25,0.25,0.25}	{0,0,0.5,0.5}	{0,0,1,0}
{0.25,0.25,0.25,0.25}	{0,0,0,1}	{0,0,0,1}	{0,0,0,0}

基于更新后的策略，我们计算新的值函数，

0	-1 = 1 * ((-1) + 1 * (0))【左】	-2.7 = 1 * ((-1) + 1 * (-1.7))【左】	-3.0 = 0.25 * (-1 + 1 * (-2)) 【上】 + 0.25 * (-1 + 1 * (-2)) 【左】 + 0.25 * (-1 + 1 * (-2)) 【下】 + 0.25 * (-1 + 1 * (-2)) 【右】
-1 = 1 * ((-1) + 1 * (0))【上】	-2.7 = 0.5 * (-1 + 1 * (-1.7)) 【上】 + 0.5 * (-1 + 1 * (-1.7)) 【左】	-3.0 = 0.25 * (-1 + 1 * (-2)) 【上】 + 0.25 * (-1 + 1 * (-2)) 【左】 + 0.25 * (-1 + 1 * (-2)) 【下】 + 0.25 * (-1 + 1 * (-2)) 【右】	-2.7 = 1 * (-1 + 1 * (-1.7))【下】
-2.7 = 1 * (-1 + 1 * (-1.7)）【上】	-3.0 = 0.25 * (-1 + 1 * (-2)) 【上】 + 0.25 * (-1 + 1 * (-2)) 【左】 + 0.25 * (-1 + 1 * (-2)) 【下】 + 0.25 * (-1 + 1 * (-2)) 【右】	-2.7 = 0.5 * (-1 + 1 * (-1.7)) 【上】 + 0.5 * (-1 + 1 * (-1.7)) 【左】	-1 = 1 * ((-1) + 1 * (0))【下】
-3.0 = 0.25 * (-1 + 1 * (-2)) 【上】 + 0.25 * (-1 + 1 * (-2)) 【左】 + 0.25 * (-1 + 1 * (-2)) 【下】 + 0.25 * (-1 + 1 * (-2)) 【右】	-2.7 = 1 * ((-1) + 1 * (-1.7))【右】	-1 = 1 * ((-1) + 1 * (0))【右】	0

这样我们就得到了新的值函数，再由新的值函数进行策略更新，得到了下边的策略集：

{0,0,0,0}	{0,1,0,0}	{0,1,0,0}	{0,0.5,0.5,0}
{1,0,0,0}	{0.5,0.5,0,0}	{0.25,0.25,0.25,0.25}	{0,0,1,0}
{1,0,0,0}	{0.25,0.25,0.25,0.25}	{0,0,0.5,0.5}	{0,0,1,0}
{0.5,0,0,0.5}	{0,0,0,1}	{0,0,0,1}	{0,0,0,0}

发现更新后的新策略居然跟之前的一样，是不是很神奇；这样我们就一路贪心的找到了最优策略。

这里还存在一个疑问，为啥在第2行第3列和第3行的第2列的策略不是四个方向呢？大神画的图，咱也不敢质疑，有高人可以解惑的不胜荣幸。

为什么要这么做能？我在想通过值函数我已经判断了某些方向的迭代预期是比较差的，我们就可以从中间选择那些好的让他去迭代呀；在我们的问题中，如果出现一个好的方向，我们以后就奔着这个好的方向去了；如果出现多个好的方向，我们也不知道那个方向更好，那就等概率的往这些方向去呗，反正走着走着，我们的美好生活就来了。

4.2.2 策略迭代的Matlab实现

基于上面的分析，我开发了Matlab程序，代码如下：

设计到三个函数：

函数名	功能
valueToPolicy	根据值函数进行策略更新[使用负无穷-inf表示了跳出边界的行为]
singleVI	根据策略进行值函数更新
getOptState	给定某一状态的行为值函数，得到最优行为

状态最优行为更新

function policy = getOptState(actionVal)
policy = zeros(length(actionVal),1);
maxValue = max(actionVal);
prob = 1 / sum(actionVal(:) == maxValue);
for i = 1:length(actionVal)
    if(actionVal(i) == maxValue)
        policy(i) = prob;
    end
end
end

策略更新函数

%根据值函数更新策略
function policy = valueToPolicy(value)
rowCnts = size(value,1);
colCnts = size(value,2);
tmpPolicyFlag = zeros(rowCnts * colCnts, 4);
%定义极小数值M,将那些预跳出网络的操作设置为该值
M = -inf;
for row = 1:rowCnts
    for col = 1:colCnts
        %第一行
        if(row == 1)
             %第一行的第一个格子【上左下右】
            if(col == 1)
                tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([value(row, col), value(row, col), value(row+1, col), value(row, col+1)]);
            elseif(col < colCnts)
                tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([M, value(row, col-1), value(row+1, col), value(row, col+1)]);
            else
                tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([M, value(row, col-1), value(row+1, col), M]);
            end          
        end
       %最后一个格子
       if(col == colCnts && row == rowCnts)
            tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([value(row-1, col), value(row, col-1), value(row, col), value(row, col)]);
       end
        %第一列非首行
        if(col == 1 && row ~= 1)
            if(row ~= rowCnts)
             tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([value(row-1, col), M, value(row+1, col), value(row, col+1)]);
            else
               tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([value(row-1, col), M, M, value(row, col+1)]); 
            end
        end
        
        %最后一列非尾行
        if(col == colCnts && row ~= 1 && row ~= rowCnts)
             tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([value(row-1, col), value(row, col-1), value(row+1, col), M]);
        end
        %最后一行掐头去尾
        if(row == rowCnts && col ~= colCnts && col ~= 1)
           tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([value(row-1, col), value(row, col-1), M, value(row, col+1)]);
        end
        %非边界行
        if(row ~= rowCnts && row ~= 1 && col ~= colCnts && col ~= 1)
           tmpPolicyFlag((row - 1) * colCnts + col,:) = getOptState([value(row-1, col), value(row, col-1), value(row+1, col), value(row, col+1)]);
        end
    end
%输出更新之后的策略   
policy = tmpPolicyFlag;
end

值函数更新

function [v_cur] = singleVI(v_before, policy, gamma, reward, gridRow, gridCol)
v_cur = v_before;
%遍历所有的格子
    for i = 1:gridRow
        for j = 1:gridCol
            %第一行的第一个格子
            if(i == 1 && j == 1)
                v_cur(i,j) = v_before(i,j);
            end
            
            %第一行其他格子
            if(i == 1 && j ~= 1)
                if (j ~= gridCol)
                    %上左下右
                    v_cur(i,j) =  policy((i-1) * gridCol + j, 1) * (reward + gamma * v_before(i,j)) ...
                    + policy((i-1) * gridCol + j,2) * (reward + gamma * v_before(i,j-1)) ...
                    + policy((i-1) * gridCol + j,3) * (reward + gamma * v_before(i+1,j)) ...
                    + policy((i-1) * gridCol + j,4) * (reward + gamma * v_before(i, j+1));
                else
                    v_cur(i,j) =  policy((i-1) * gridCol + j,1) * (reward + gamma * v_before(i,j)) ...
                    + policy((i-1) * gridCol + j,2) * (reward + gamma * v_before(i,j-1)) ...
                    + policy((i-1) * gridCol + j,3) * (reward + gamma * v_before(i+1,j)) ...
                    + policy((i-1) * gridCol + j,4) * (reward + gamma * v_before(i, j));
                end
            end
            %第1列其他格子
            if (j == 1 && i ~= 1)
                 if (i ~= gridRow)
                    v_cur(i,j) =  policy((i-1) * gridCol + j,1) * (reward + gamma * v_before(i-1,j)) ...
                    + policy((i-1) * gridCol + j,2) * (reward + gamma * v_before(i,j)) ...
                    + policy((i-1) * gridCol + j,3) * (reward + gamma * v_before(i+1,j)) ...
                    + policy((i-1) * gridCol + j,4) * (reward + gamma * v_before(i, j+1));
                else
                    v_cur(i,j) =  policy((i-1) * gridCol + j,1) * (reward + gamma * v_before(i-1,j)) ...
                    + policy((i-1) * gridCol + j,2) * (reward + gamma * v_before(i,j)) ...
                    + policy((i-1) * gridCol + j,3) * (reward + gamma * v_before(i,j)) ...
                    + policy((i-1) * gridCol + j,4) * (reward + gamma * v_before(i,j+1));
                 end              
            end
            %第4列非首行格子
            if (j == gridRow && i ~= 1)
                 if (i ~= gridCol)
                    v_cur(i,j) =  policy((i-1) * gridCol + j,1) * (reward + gamma * v_before(i-1,j)) ...
                    + policy((i-1) * gridCol + j,2) * (reward + gamma * v_before(i,j-1)) ...
                    + policy((i-1) * gridCol + j,3) * (reward + gamma * v_before(i+1,j)) ...
                    + policy((i-1) * gridCol + j,4) * (reward + gamma * v_before(i, j));
                else
                    v_cur(i,j) =  0;
                 end              
            end
            %第4行非首列格子
            if (i == gridRow && j ~= 1 && j ~= gridCol)
                v_cur(i,j) =  policy((i-1) * gridCol + j,1) * (reward + gamma * v_before(i-1,j)) ...
                    + policy((i-1) * gridCol + j,2) * (reward + gamma * v_before(i,j-1)) ...
                    + policy((i-1) * gridCol + j,3) * (reward + gamma * v_before(i,j)) ...
                    + policy((i-1) * gridCol + j,4) * (reward + gamma * v_before(i, j+1));
            end
            
            %非边界行的计算
            if (i~= 1 && i ~= gridRow && j ~= gridCol && j ~= 1)
                v_cur(i,j) =  policy((i-1) * gridCol + j,1) * (reward + gamma * v_before(i-1,j)) ...
                    + policy((i-1) * gridCol + j,2) * (reward + gamma * v_before(i,j-1)) ...
                    + policy((i-1) * gridCol + j,3) * (reward + gamma * v_before(i+1,j)) ...
                    + policy((i-1) * gridCol + j,4) * (reward + gamma * v_before(i, j+1));
            end
        end
    end

end

主测试程序：值函数全部初始化为0，策略为各方向为0.25

clc;clear;
%初始化格网的行数
gridRow = 4;
gridCol = 4;
%初始化值函数、当前值函数和上一期值函数
v = zeros(gridRow,gridCol);
v_cur = v;
v_before = v;
%折扣因子
gamma = 1;
%即时奖励
reward = -1;
%定义1-2-3-4来表示行为方向,上左下右
action_direct = [1,2,3,4];
%定义初始策略
policy = [0.25,0.25,0.25,0.25;  0.25,0.25,0.25,0.25;    0.25,0.25,0.25,0.25;    0.25,0.25,0.25,0.25;
          0.25,0.25,0.25,0.25;  0.25,0.25,0.25,0.25;    0.25,0.25,0.25,0.25;    0.25,0.25,0.25,0.25;
          0.25,0.25,0.25,0.25;  0.25,0.25,0.25,0.25;    0.25,0.25,0.25,0.25;     0.25,0.25,0.25,0.25;
          0.25,0.25,0.25,0.25;  0.25,0.25,0.25,0.25;    0.25,0.25,0.25,0.25;     0.25,0.25,0.25,0.25];
value = [0,0,0,0; 0,0,0,0;  0,0,0,0; 0,0,0,0];
%初始值和策略
oldValue = value;
oldPolicy = policy;
%最终值和策略
finalPolicy = policy;
finalValue = value;
%循环迭代
iter = 0;
while(1)   
    iter = iter + 1;
    newValue = singleVI(oldValue,oldPolicy,gamma, reward, gridRow,gridCol);
    newPolicy = valueToPolicy(newValue);
    if(newPolicy == oldPolicy)
        fprintf('第%d次的解算结果为：',iter)
        finalPolicy = newPolicy;
        finalValue = newValue;
        break;
    end
    oldPolicy = newPolicy;
    oldValue = newValue;
end

finalPolicy
finalValue

4.2.3 运行结果展示

第3次的解算结果为：
finalPolicy =

0.5 0.5 0 0
0 1 0 0
0 1 0 0
0 0.5 0.5 0
1 0 0 0
0.5 0.5 0 0
0.25 0.25 0.25 0.25
0 0 1 0
1 0 0 0
0.25 0.25 0.25 0.25
0 0 0.5 0.5
0 0 1 0
0.5 0 0 0.5
0 0 0 1
0 0 0 1
0 0 0.5 0.5

finalValue =

0 -1 -2 -3
-1 -2 -3 -2
-2 -3 -2 -1
-3 -2 -1 0

可知，进行了3次迭代我们边找了最优策略，终点的两个0.5可以忽略，我们按照其余非0元素所在的位置，按照上左下右的顺序，既可以解析出每个状态的最优行为策略。

参考资料：

什么是动态规划（Dynamic Programming）？动态规划的意义是什么？
《强化学习》第三讲动态规划寻找最优策略
强化学习(三)：动态规划求解MDP(Planning by Dynamic Programming)
一条咸鱼的强化学习之路3之策略迭代和价值迭代
强化学习基础篇: 策略迭代 (Policy Iteration)
【强化学习入门 1】从零开始认识强化学习
第一课：一文读懂马尔科夫过程

如果喜欢我的分享，可关注以下两个公众帐号

你可能感兴趣的:(Matlab,运筹优化)

基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
matlab mle 优化,MLE+: Matlab Toolbox for Integrated Modeling, Control and Optimization for Buildings... Simon Zhong matlab mle 优化
摘要：FollowingunilateralopticnervesectioninadultPVGhoodedrat,theaxonguidancecueephrin-A2isup-regulatedincaudalbutnotrostralsuperiorcolliculus(SC)andtheEphA5receptorisdown-regulatedinaxotomisedretinalgan
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
matlab设置图像窗口大小,matlab 图形窗口大小的设置 weixin_39534002 matlab设置图像窗口大小
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%常用选项和小技巧%%%%%%画等值线[cchh]=contour(peaks(30),'LINESPEC','b-')clabel(cc,hh,'manual')%写文本text(5,10,'\bfmath\slmath\itmath\rmmath\alpha','color',[0.10.10.9],'fonts
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
matlab游标标注移动,matlab实现图形窗口的数据游标莫白想 matlab游标标注移动
DatacursorsforfigurewindowSeveralrelatedfunctions:CreateCursorsetsupaverticalcursoronallaxesinafigure.Thecursorscanbemovedaroundusingthemouse.MultiplecursorsaresupportedineachfigureGetCursorLocationre
MATLAB语言基础教程、小项目1：简单的计算器、小项目2：有页面的计算器、使用App Designer创建GUI计算器 azuredragonz 学习教程 matlab 开发语言
MATLABMATLAB语言基础教程1.MATLAB简介2.基本语法变量与赋值向量与矩阵矩阵运算数学函数控制流3.函数4.绘图案例：简单方程求解小项目1：简单的科学计算器功能代码项目说明小项目2：有页面的计算器使用AppDesigner创建GUI计算器主要步骤：完整代码（使用MATLAB编写）说明：如何运行：小项目总结MATLAB语言基础教程1.MATLAB简介MATLAB（矩阵实验室）是一种用于
MATLAB在无线通信系统测试和验证中的应用 2401_85812053 matlab 开发语言
在无线通信系统的开发过程中，测试和验证是确保系统性能满足设计要求的关键步骤。MATLAB提供了一系列的工具和功能，这些工具在无线通信系统的测试和验证中发挥着重要作用。本文将详细介绍MATLAB在无线通信系统测试和验证中的应用，包括信道建模、调制解调、射频（RF）链路分析以及硬件验证等方面。1.信道建模信道建模是无线通信系统设计中的关键环节，它影响着信号的传输质量和系统的整体性能。MATLAB提供了
MATLAB中的函数编写有哪些最佳实践 2401_85812053 matlab 算法人工智能
在MATLAB中，函数是执行特定任务的代码块，可以通过自定义函数来提高代码的可重用性和模块化。以下是一些关于MATLAB函数编写的最佳实践：函数结构和语法：MATLAB函数由函数名、参数列表和函数体组成。函数名必须以字母开头，后面可以跟字母、数字或下划线。参数列表包含函数接收的输入变量，用逗号分隔。函数体包含要执行的代码。functiony=my_function(x)%函数体y=x^2;end参
Python和MATLAB及C++信噪比导图(算法模型) 亚图跨际算法交叉知识 Python 视频图像修复模数转换信号链噪音频谱计算量化周期性视觉刺激高斯噪声的矩形脉冲心率失常检测算法
要点视频图像修复模数转换中混合信号链噪音测量频谱计算和量化周期性视觉刺激脑电图高斯噪声的矩形脉冲总谐波失真周期图功率谱密度各种心率失常检测算法胶体悬浮液跟踪检测计算交通监控摄像头图像噪音计算Python信噪比信噪比是科学和工程中使用的一种测量方法，用于比较所需信号水平与背景噪声水平。信噪比定义为信号功率与噪声功率之比，通常以分贝表示。高于1:1（大于0dB）的比率表示信号大于噪声。信噪比是影响处理
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
含光热电站、有机有机朗肯循环、P2G的综合能源优化调度（Matlab代码实现）冒泡芳能源 matlab 开发语言
‍个人主页：研学社的博客欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码实现1概述光热发电(concentratingsolarpower，CSP）是一种新型可再生能源发电技术，具有低碳发电和高效储能的优势，但当前光热电站常充当单一发电源进行能源供应，其供能潜力未得到充分
Day25_0.1基础学习MATLAB学习小技巧总结（25）——四维图形的可视化非常规定义M 0.1基础学习MATLAB 学习 matlab 开发语言 SIMULINK 数学建模
利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍，为了在这个过程中加深印象，也为了能够有所足迹，我会把自己的学习总结发在专栏中，以便学习交流。参考书目：1、《MATLAB基础教程(第三版)(薛山)》2、《MATLABR2020a完全自学一本通》之前的章节都是基础的数据运算用法，对于功课来说更加重要的内容是建模、绘图、观察数据趋势，接下来我会结合自己的使用经验，来为大家分享绘图、建模使用的小
matlab时域离散信号与系统,时域离散信号和系统的频域分析远方有城 matlab时域离散信号与系统
信号与系统的分析方法有两种：时域分析方法和频域分析方法。在连续时间信号与系统中，信号一般用连续变量时间t的函数表示，系统用微分方程描述，其频域分析方法是拉普拉斯变换和傅立叶变换。在时域离散信号与系统中，信号用序列表示，其自变量仅取整数，非整数时无定义，系统则用差分方程描述，频域分析方法是Z变换和序列傅立叶变换法。Z变换在离散时间系统中的作用就如同拉普拉斯变换在连续时间系统中的作用一样，它把描述离散
基于matlab的离散系统变换域分析实验,实验3 离散时间系统的变换域分析 mmjang
电子科技大学实验报告学生姓名：项阳学号：2010231060011指导教师：邓建一、实验项目名称：离散时间系统的变换域分析二、实验目的：线性时不变(LTI)离散时间系统的特性可以用其冲击响应序列来表示，也可以用传递函数和频率响应来表示,本实验通过使用MATLAB函数对离散时间系统的一些特性进行仿真分析，以加深对离散时间系统的零极点、稳定性，频率响应等概念的理解。三、实验内容：1、设X1(z)23z
matlab上下标如何输入,在Matlab中怎样输入特殊符号或者上标、下标李一舟DESIGN matlab上下标如何输入
Matlab的text/title/xlabel/ylabel对象支持简单的TeX排版语法，如希腊字母，上下标等例如text(0.5,0.5,'\alpha^\beta_2');Matlab图形中允许用TEX文件格式来显示字符。使用\bf，\it，\rm表示黑体，斜体，正体字符，特别注意大括号{}的用法。实例：在存在的图形上写一段有黑体、有斜体、有整体的句子。1、画图x=0:0.01:8;y=si
matlab带下标的字母,matlab的特殊字符（上下标和希腊字母等）赤脚大仙儿 matlab带下标的字母
‘T=25\circC‘，(摄氏度)下标用_(下划线)上标用^(尖号)希腊字母等特殊字符用α\alphaβ\betaγ\gammaθ\thetaΘ\ThetaГ\Gammaδ\deltaΔ\Deltaξ\xiΞ\Xiη\eltaε\epsilonζ\zetaμ\miuυ\nuτ\tauλ\lamdaΛ\Lamdaπ\piΠ\Piσ\sigmaΣ\Sigmaφ\phiΦ\Phiψ\psiΨ\Psiχ
掌握MATLAB中的图形用户界面布局管理器原机小子 matlab 前端开发语言
在MATLAB中，图形用户界面（GUI）的设计对于创建专业且用户友好的应用至关重要。布局管理器在GUI设计中扮演着核心角色，它们负责在窗口中自动管理和调整控件的位置和大小。本文将详细介绍MATLAB中的布局管理器，包括它们的使用方法和实际代码示例。1.布局管理器的基本概念布局管理器是GUI设计中的一个关键组件，它允许控件根据窗口的大小变化自动调整布局。MATLAB提供了多种布局管理器，如网格布局（
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
MATLAB中的控制系统工具箱：深入指南与实践应用 2401_85812026 matlab
MATLAB的控制系统工具箱（ControlSystemToolbox）是一个强大的工具集，它为工程师和研究人员提供了全面的控制系统设计、分析和仿真解决方案。本文将详细介绍如何在MATLAB中使用控制系统工具箱，包括系统建模、控制器设计、系统仿真和分析等方面。1.系统建模在控制系统工具箱中，可以通过多种方式对系统进行建模，包括状态空间模型、传递函数模型和零极点模型。1.1状态空间模型状态空间模型是
MATLAB中的代码覆盖测试：深入指南与实践应用 2401_85812026 matlab 开发语言
在软件测试领域，代码覆盖测试是一种重要的技术，用于评估测试用例的完整性和有效性。在MATLAB环境中，代码覆盖测试可以帮助开发者确保他们的代码在各种条件下都能正常工作，并且能够发现可能被忽视的错误。本文将详细介绍如何在MATLAB中进行代码覆盖测试，包括测试的类型、工具和实践方法。1.代码覆盖测试的基本概念代码覆盖测试旨在通过测试用例执行代码中的不同部分，以确保代码的每个部分都经过了验证。在MAT
连通无向图一般中心的算法及其matlab程序详解夏天天天天天天天# 图论算法 matlab 图论
#################本文为学习《图论算法及其MATLAB实现》的学习笔记#################若服务点只允许取在各顶点上,而服务对象却取在各顶点及各边(或弧)上的点,则在所有顶点中选定一个顶点作为图的一般中心其条件是该点离它本身的最远服务对象(包括顶点及各边(或弧)上的点)的距离达到极小值。寻找无向图的一般中心对解决网络最佳服务点确定的问题是十分有效的，使得服务对象的范围
基于matlab的水下航行器建模与仿真,水下自主航行器(AUV)建模仿真探究.doc 蒙眼说
水下自主航行器(AUV)建模仿真探究水下自主航行器(AUV)建模仿真探究【摘要】本文对鱼雷形状的水下自主航行器的六自由度非线性动态模型的研制作了较为详细的介绍。该动态模型充分考虑了各方面的因素，其中包括静水力学，超重，流体力学，操舵、推进力和力矩等。此外模型还考虑了航行器动力学和环境的影响。【关键词】水下自主航行器；建模；仿真研究1.引言水下自主航行体是一种重要的用于水下勘探的机器人，同时也是用于
MATLAB|基于多时段动态电价的电动汽车有序充电策略优化科研工作站电动汽车 matlab 电动汽车动态电价场景分析无序充电有序充电粒子群
目录主要内容模型研究一、蒙特卡洛模拟部分代码部分结果一览下载链接主要内容该模型参考文献《基于多时段动态电价的电动汽车有序充电策略优化》，采用蒙特卡洛随机抽样方法来模拟电动汽车无序充电状态下的负荷曲线，并设置三个对比算例--基础场景（无电动汽车）、电动汽车无序充电和电动汽车有序充电场景，有序充电场景以电网端负荷差最小和用户侧充电成本最经济为目标，通过粒子群算法进行求解，程序采用matlab+matp
2-91基于matlab的LQR倒立摆控制仿真 'Matlab学习与应用 matlab工程应用算法 LQR 倒立摆控制仿真 matlab
基于matlab的LQR倒立摆控制仿真。对于x=Ax+Bu和y=Cx+du标准方程，文件qiuk中用LQR函数求解控制数组K，将K值带入fangzhen文件中（文件中已代入），得到倒立摆稳定曲线。程序已调通，可直接运行。下载源程序请点链接：2-91基于matlab的LQR倒立摆控制仿真
刚接触无处下手？水下航行器AUV/UUV六自由度模型/控制器设计matlab/simulink参考代码，基础的/进阶的，入门到顺利毕业/完成课题/发表论文。得鹿梦鱼c AUV UUV 水下航行器水下机器人
导师不管？无人指导？无代码可参考？毫无头绪？换条思路借鉴一下吧，金钱买不到时间，但可以让你更多的支配你自己的时间，没错的，条条大路通罗马，毕竟前程是自己的，只能自己上心。有需要的点进去看看吧->闲鱼有需要的点进去看看吧->闲鱼
2-93 基于matlab的无人机FMCW（频率调制连续波）毫米波高度计雷达仿真 'Matlab学习与应用 matlab工程应用 matlab 无人机开发语言毫米波高度计雷达仿真频率调制连续波 FMCW
基于matlab的无人机FMCW（频率调制连续波）毫米波高度计雷达仿真，不考虑环境杂波和收发信号隔离泄漏。通过考虑雷达天线、波束形成、信号传播、回波接收等环节影响。建立FMCW毫米波雷达系统的数学模型，评估无人机在不同高度下的高度测量性能。程序已调通，可直接运行。下载源程序请点链接：2-93基于matlab的无人机FMCW（频率调制连续波）毫米波高度计雷达仿真
逆radon变换matlab,Radon变换及其Matlab代码实现少年商学院逆radon变换matlab
Radon变换和Hough变换类似，最初是用于检测图像中的直线(例如笔直的街道边沿、房屋的边沿、笔直的电线等)。关于Hough变换，可以参考OpenCV中的代码和示例(其实除了HoughLines还有HoughCircles等等变种)，此处不再赘述。关于Radon变换，可以参考wiki或者百科，或者网络上的其他资料介绍。这里做一个简单的总结。首先准备一张灰度化的图像，及黑白图像，然后检测图像的边缘
使用SVD将图像压缩四分之一（MATLAB） superdont matlab 开发语言
SVD压缩前后数据量减少的原因在于，通过奇异值分解（SVD），我们将原始数据（如图像）转换成了一种更加紧凑的表示形式。这种转换依赖于数据内部的结构和相关性，以及数据中信息的不均匀分布。让我们简单分析一下这个过程为何能减少所需的数据量：数据的结构和相关性高度相关的数据：图像数据往往包含大量的空间相关性，即图像中相邻的像素点在颜色和亮度上通常非常接近。这种高度的相关性意味着原始图像可以通过更少的信息来
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

运筹优化学习18：马尔科夫决策过程与动态规划 (手算及Matlab源码剖析)

1 基本概念

2 马尔科夫决策过程理论

2.1 马尔科夫过程(Markov process / Markov Chain)

2.1.1 状态空间分析：

2.1.2 转移矩阵描述

2.2 马尔科夫奖励过程(Markov Reward Process)

2.2.1 不同任务的奖励及回报值计算方法

2.2.2 衰减因子 的分析

2.2.3 马尔科夫奖励过程的值函数及计算示例

2.3 马尔科夫决策过程(Marlov Decision Process)

2.3.1 策略

2.3.2 状态价值函数与状态动作价值函数

3 动态规划算法求解MDP

3.1 预测与控制

3.2 求解算法梳理

4 值迭代与策略迭代手算及Matlab代码

4.1 简单粗暴的值迭代方法--求解Small Gridworld例子

4.1.1 理论部分

4.1.1 手解过程及自己总结

4.1.2 Matlab的计算结果实现

4.1.3 Matlab部分解算结果展示：

4.2 策略迭代算法

4.2.1 手算示例分析

4.2.2 策略迭代的Matlab实现

4.2.3 运行结果展示

参考资料：

你可能感兴趣的:(Matlab,运筹优化)

2.2.2 衰减因子 $\gamma$ 的分析