饿了就干饭

学习深度强化学习---第2部分----RL动态规划相关算法

文章目录

- 2.1节动态规划简介
- 2.2节值函数与贝尔曼方程
- 2.3节策略评估
- 2.4节策略改进
- 2.5节最优值函数与最优策略
- 2.6节值迭代与策略迭代
- 2.7节动态规划求解最优策略

本部分视频所在地址：深度强化学习的理论与实践

2.1节动态规划简介

态规划有两种思路：分治法和动态规划，目的是求解一个大问题。
分治法
分治法是将一个大问题分解成多个相互独立的子问题。然后再逐个解决每个子问题，最后将多个问题的计算结果c1、c2、…、cn进行总结，最后得到总问题的解。
subp1:表示将大问题分成的子问题
这些子问题的特点是这些子问题之间是相互独立的，也就是这些子问题是可以独立求解的。
动态规划
这个方法是将一个总问题进行逐步求解，先求解subp1，再求解subp2，…，最后求解subpn问题，
子问题的特点是嵌套的，递归的求解，即想要解决子问题subp3，必须先要求解子问题subp2，想要解决子问题subp2，必须先要求解子问题subp1。每个子问题的结构是一样的，即如果一个子问题是加法问题，则所有问题都是加法问题。

找到的其结构特征，就是去找到嵌套的结构特征

动态规划解决问题的案例

2.2节值函数与贝尔曼方程

根据马尔科夫链定义一些东西：
即时奖励（通常称为奖励，reward）
累计奖励Gt: 表示状态为St时执行动作At之后累积的奖励。累计奖励中每一个时刻对应的即时奖励不能够同等看待。原因是例如在下象棋时第一步走马和棋局最后几步走马同样是走马的动作，但是走马的动作重要性是不同的。所得到的即时奖励是不同的。在棋局最后的终止状态附近的奖励应该被认为是更重要的。
累积折扣奖励（通常称回报，return）： 智能体在t时刻的累积奖励会这么认为，离该时刻越近的即时奖励重要性应该越大，离该时刻越远的即时奖励重要性越小。举例：在终止状态T时刻，RT的重要性要远超于R1的重要性，其根本原因是动作AT-1的重要性要远超于动作A0的重要性。

延时越长时RT，对Gt的影响越小： 延时越长时RT，即T越大，参数γ经过T指数后参数变得很小，因此对Gt的影响越小。
强化学习的目的或目标： 寻找到一个能够使累积折扣奖励Gt最大的最优策略。如果该策略可以使得每一个时刻的累积折扣奖励都最大，这个策略是最优的。

有了累积折扣奖励函数之后，进一步定义两个值函数：状态值函数、动作值函数。

上面的Rt+1应该写成Rt+k

从上面的式子可以看出来，对于每个状态和每一个动作都会对应一个动作值，对于离散的状态空间和动作空间来讲那么动作值的个数应该是有限的，此时将会使用一个表来表示这个Q，之后会学习一种基于表的强化学习方法。
‘状态值函数和动作值函数之间是可以相互转换的。’

上面是假设s的下一个状态为s'
详细解释与推导：

动态规划的核心：贝尔曼方程。下面的两个方程认真一点都能写出来，需要注意的是在
1）状态值函数表达的贝尔曼方程中的r是在s状态下执行动作a之后得到的奖励r，在得到的这个方程的时候是这么简写的。
2）写动作值函数的贝尔曼方程时第2个Q函数中的s和a都是下一时刻的状态和下一时刻的动作。因此动作值函数表达的贝尔曼方程中有4个变量：当前时刻状态s,当前时刻的动作a,下一时刻的状态s',下一时刻的动作a'，比较复杂，而状态值函数表达的贝尔曼方程中只有2个变量：当前状态s和下一时刻状态s'，形式较为简单。因此实际中使用状态值函数更多。
3）两种贝尔曼方程中的r是基于三元函数的。即r=r(s,a,s')，之前我们还定义过R=R(s,a)，此处不是二元的。为什么是3元呢？：因为在方程里面求和的时候，求和符号下面的变量已知了，就代表下一时刻s’已经知道了，那r就采用三元的定义形式了。不过也可以写成二元的奖励函数，因此有了下面的基于二元奖励函数的贝尔曼方程。
4）三元价值函数和二元值函数的关系



贝尔曼方程与动态规划的关系：贝尔曼是动态规划的发明人，s状态下的状态值函数可以使用下一时刻状态s’的状态值函数表示出来，也是动态规划的原理。

2.3节策略评估

智能体思考在当前环境下要做出什么动作的过程就叫策略。

所有的终止状态的状态值函数都是0
下图中的状态转移概率在上图中已经展示了一部分，比较好写。使用的策略是平均策略，也即时在不管在哪个状态下，采取任意一个动作的概率均为0.5，也因为是每个状态下可采取的动作只有两个，定义策略时采用平均策略较好。

下图中基于状态值函数的贝尔曼方程中的4个方程就严格按照方程写是比较好写出来的。解出来的结果见下图

在V4的时候稍微麻烦一点，部分计算如下图

需要注意的一点：
联立的这个4元方程组一定是有解的，原因是：显然可以看出第1个方程中V2可以使用V1表示，第2个方程中V3可以使用V2表示，第3个方程中V4可以使用V3表示，而第4个方程中可以将所有变量均使用V1去表示，因此这个方程组可以合并成一个关于V1的方程，则必有解。我认为其他的场景下使用动态规划模型建模的强化学习方法使用方程组法去解则其解也类似如此唯一。
如果在秩的角度来解释：每个方程都是根据在不同状态下写出来的，每个状态是独立的，因此这几个方程是独立的，是不相关的，因此方程组的秩是满秩的，因此有唯一解。
当方程组很大的时候采用高斯消元法已经不够用了，此时使用迭代法来求解一个方程组。即先设置一个初值，经过贝尔曼方程的逐次计算得到一个迭代序列，经过多次迭代就会得到一个最终的近似解。迭代法之后用的更多，优点是速度快、方法简单，缺点是得到的解是近似解，不是精确解。

假如有一个新的策略π’，根据这个策略算出来一系列的状态值，这些状态值都要大于原来的策略π算出来的状态值，那么这个新策略π’就要比原来的策略π要好。具体为什么是这样，暂时不太清楚，存疑后解。

2.4节策略改进

根据下面的定义可以得出结论：找最优的策略的就是去找最大的状态值函数。

π’(s)表示根据π’策略从状态s开始下一步执行的动作
策略改进定理：

证明：

上面证明的一个说明：在V的时候，下标是π或π’似乎无关紧要，不用纠结，当然认真抠细节的话，我觉着应该是薛定谔的V。

说明：策略改进定理是策略得到改进的充分条件，满足（2-14）的最简单的策略就是贪婪策略，贪婪策略简单解释为：在状态s时选择使得动作值函数最大的动作作为策略。
贪心策略一定是满足策略改进定理中的（2-14）式的。下图红色的公式是用动作值函数来表示状态值函数的公式。从该公式中可以看出，状态值函数是动作值函数的期望值，而π’(s)如果是选择在状态s时使得动作值函数最大的动作，那么Qπ(s,π’(s))则是最大的动作值函数，必大于等于动作值函数的期望值，也即是必大于等于状态值函数，因此满足（2-14）式，故该策略可有效改进。

由下图Qπ(s,a)的表达公式，如果已知Vπ(s’)要去计算Qπ(s,a)需要知道状态转移函数p(s’|s,a)，如果不知道状态转移函数p(s’|s,a)怎么办？可以使用基于动作值函数的贝尔曼方程去求解

基于动作值的贝尔曼方程见下图：（具体如何根据下图求解状态转移概率有待研究）

下面示例中的被划掉的0其实不应该写的。

2.5节最优值函数与最优策略

本节讲最优策略与值函数之间的关系，首先定义两个最优值函数：最优状态值函数、最优动作值函数。

针对最优值函数公式的解释：假如有两个策略：平均策略和贪婪策略，针对特定状态，在这两个策略中能使得在该策略下使得状态值函数最大的策略就是该状态对应的最优的策略，对于任意的状态来说，挑选对应的最优策略，形成的最优状态值函数就是最优状态值函数。
最优动作值函数的解释和上面的解释类似。

性质有3（暂时不证明，证明很麻烦）：
1）结论1解决了最优策略的存在性问题
2）最优策略下的状态值函数就是最优状态值函数
3）最优策略下的动作值函数就是最优动作值函数
根据3个性质可知假如我们找到了最优策略，那么通过计算在最优策略下的每一个状态值函数，就可以得到最优状态值函数，动作值函数也类似。假如我们计算出了最优状态值和最优动作值，那么最优状态值和最优动作值对应的策略就是最优策略。

如果π是最优策略则一定会满足上面红色框中的式子。即π是最优策略是该式子成立的充分条件。

基于状态值函数的贝尔曼最优方程与基于状态值函数的贝尔曼方程的区别在于最优值函数是基于状态值函数的贝尔曼方程的最大值，且使用的策略是最优策略。

下图的式子可能对下面的推导有用

下面的式子的推导不懂，先放着

如果π是最优策略则一定会满足上面红色框中的式子。即π是最优策略是该式子成立的充分条件。

方案1：
现有一个策略π，针对该策略进行评估，然后根据贪婪策略改进到一个贪婪策略π',针对该策略π’进行评估，然后根据贪婪策略改进到一个贪婪策略π’',如此下去策略序列收敛到π*。
方案2：由本节所讲的两个最优策略所应满足的条件：基于状态值函数的贝尔曼方程和基于动作值函数的贝尔曼方程来联立方程组进行求解，这个方程组和之前的贝尔曼方程组之间的区别在于它不是一个线性方程组，原因在于这两个方程中都含有max函数，不是线性方程组因此不可以使用高斯消元法来进行求解。可以使用迭代法求解该方程组即可得到最优策略。

2.6节值迭代与策略迭代

策略评估：Policy Evalution（PE）
策略改进：Policy Improvement（PI）

算法2-2是策略改进算法


上图的解释：
1）上面介绍了两种最优值函数的方程，因此可以使用两种迭代方法去求解最优策略，绿色的是一种方案，红色的是一种方案
2）流程：不管使用哪种方先迭代得到最优的值函数（包括状态值函数或动作值函数），箭头指向的是流程。
3）基于状态值函数：先迭代求出最优状态值函数V*，然后通过Q*(s,a)的表达式，然后算出Q*，通过计算argmax来找到最优的策略π*(s)
4）基于动作值函数：通过迭代公式多次迭代得到最优的Q，通过计算argmax来找到最优的策略π*(s)
5）红色的圈是表示不管使用哪种迭代方法都得使用状态转移概率

说明：
1）假设有4个状态，对应的状态也有4个，k表示步数，同步更新与异步更新发生在k=1到k=2的过程。
2）默认4个状态之间是可以相互转换的。下图中举的例子是k=2时，s1可能的转换例如s1—>s2和s1—>s4，那么第1种转换需要使用v2，第2种转换需要使用v4，此时s1的v1更新使用的是k=1时刻即使用上一时刻旧的状态值，这种更新称为同步更新。重新定义：在计算k=2时刻的所有状态值时全部使用的旧的状态值，这种更新方法是同步更新。
若在更新k=2时刻的v2时，使用的是已经更新好的v1，这种更新方法称为异步更新。
3）v2——>v1蓝色是同步更新，v1——>v2绿色是异步更新

4）平时用的最多的是用状态值函数。

2.7节动态规划求解最优策略

DeepSeek的实际应用场景：AI技术如何赋能多领域创新 2501_91189350 人工智能
DeepSeek作为新一代智能技术平台，凭借其强大的算法能力和灵活的部署方式，正在多个行业掀起效率革命。本文将从真实案例出发，解析DeepSeek在不同场景中的落地应用。‌场景一：金融风控建模‌在信贷风险评估领域，传统模型存在数据维度单一、更新滞后等问题。某银行引入DeepSeek的‌动态特征工程模块‌，通过实时整合用户行为数据、社交网络信息等100+维度特征，成功将坏账识别准确率提升至98.5%
力扣算法Hot100——75. 颜色分类飞奔的马里奥算法 leetcode java
解法1：当然可以冒泡排序，时间复杂度O(n2n^2n2)解法2：单指针循环两次，第一次循环将所有的0交换到前面；第二次循环将所有的1交换到0的后面classSolution{publicvoidsortColorsBySinglePointer(int[]nums){intzeroCnt=0,p=0;for(inti=0;i
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
基于Docker 搭建Redis三主三从分布式集群 DBA学习之路 docker redis 容器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、分布式系统规划二、准备配置文件1.创建redis集群目录三、启动Redis容器四、创建分布式系统1.创建集群2.查看节点信息总结前言提示：这里可以添加本文要记录的大概内容：本次搭建的为”三主三从“的分布式系统，分布式系统中节点存放的数据可以是不同的。当有数据写入请求到达分布式系统后，系统会采用虚拟槽分区算法将数据写入相
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
洛谷P2678[NOIP2015]跳石头(二分算法) 猪猪成 C++笔记洛谷算法 c++
题目：AC通过图如下简短的AC代码如下：#include#includeusingnamespacestd;intmain(){intl,n,m;cin>>l>>n>>m;intarr[50001];intnow,left,right,mid;left=0;right=l;//给2位置变量初始化数值;for(inti=1;i>arr[i];}arr[0]=0;intsum;//记录搬走的石块总和;
宇树科技纯技能要求总结极梦网络无忧杂谈科技
一、嵌入式开发与硬件设计核心技能嵌入式开发：精通C/C++，熟悉STM32、ARM开发熟悉LinuxBSP开发及驱动框架（SPI/UART/USB/FLASH/Camera/GPS/LCD）掌握主流平台（英伟达、全志、瑞芯微等）硬件设计：精通数字/模拟电路设计，熟悉PCB绘制工具（Altium等）掌握MOS驱动电路、变压器设计及EMC优化熟悉制板/贴片流程及焊接扩展技能电机控制：熟悉有感FOC算法
链表操作：分区与回文判断共享家9527 数据结构数据结构 c语言开发语言 leetcode 链表
目录链表分区（Partition）功能概述代码实现要点与难点注意事项链表回文判断（PalindromeList）功能概述代码实现要点与难点注意事项总结在链表相关的算法问题中，理解链表的基本结构和操作至关重要。今天我们深入探讨两个经典的链表问题：链表分区和链表回文判断，通过详细分析代码实现，理解其中的要点、难点和注意事项。作者主页：共享家9527-CSDN博客链表分区（Partition）功能概述链
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
halcon里3d平面度检测程序_激光三角测量法在工业视觉检测上的应用 jiago 王佳东fr
点击上方“3D视觉工坊”，选择“星标”干货第一时间送达激光三角测量法，是工业视觉领域较为常用也是比较容易理解的一种3D检测算法。本文主要从应用层次来阐述，包括相机和激光选型、搭接方式的优劣点分析、软件开发过程中的注意事项等。1.原理及演示将一条单线细激光光线投射到物体表面，由于物体表面高度发生变化，使得激光线发生了弯曲，根据这个线的变形，可以计算出精确的物体表面三维轮廓。如下图所示，基本组成结构有
并查集实现算法 C嘎嘎嵌入式开发算法算法服务器 c++
畅通工程2题目描述：某省调查城镇交通状况，得到现有城镇道路统计表，表中列出了每条道路直接连通的城镇。省政府“畅通工程”的目标是使全省任何两个城镇间都可以实现交通（但不一定有直接的道路相连，只要互相间接通过道路可达即可）。问最少还需要建设多少条道路？输入描述：测试输入包含若干测试用例。每个测试用例的第1行给出两个正整数，分别是城镇数目N(#include#include#include#includ
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
Ada语言的数据结构与算法尤宸翎包罗万象 golang 开发语言后端
Ada语言的数据结构与算法引言在计算机科学的领域里，数据结构与算法是核心的组成部分，围绕着如何高效地存储和处理数据。这些概念不仅是程序设计的重要基础，也是提高程序性能的关键。Ada是一种强类型、结构化的编程语言，早在20世纪80年代就被设计用于军用和实时系统。由于其高可靠性和可维护性，Ada逐渐在航空航天、军事和其他需要高安全性的领域获得了广泛应用。本文将探讨Ada语言中的数据结构和算法，包括常见
Camera常用算法介绍1 记录美好 android相机学习算法经验分享智能手机
Camera常用数据格式及算法介绍1二、Camera常用算法介绍2.1基础图像处理算法2.1.1HDR算法2.1.1.1HDR算法概述2.1.1.2发展历程2.1.1.2.1传统多帧合成阶段（2010年代初期）2.1.1.2.2.算法优化阶段（2016-2020年）2.1.1.2.3实时处理阶段（2020年至今）2.1.1.3技术原理2.1.1.3.1多帧采集2.1.1.3.2图像合成2.1.1.
初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力伶俜Monster Threejs webgl 前端 3d threejs cannon.js
简介Cannon.js是一个基于JavaScript的物理引擎，它可以在浏览器中模拟物理效果。它支持碰撞检测、刚体动力学、约束等物理效果，可以用于创建逼真的物理场景和交互。参考文档官方示例原理Cannon.js使用了欧拉角来表示物体的旋转，而不是四元数。这使得它在处理旋转时更加直观和易于理解。Cannon.js还支持多种碰撞检测算法，包括离散碰撞检测和连续碰撞检测。Cannon.js还支持多种约束
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
每日一题——二叉树的直径 tt555555555555 面经算法题 C语言数据结构算法 leetcode
二叉树的直径问题描述示例示例1示例2提示问题分析算法设计代码实现复杂度分析测试用例测试用例1测试用例2总结问题描述给定一棵二叉树的根节点，返回该树的直径。二叉树的直径是指树中任意两个节点之间最长路径的长度。这条路径可能经过也可能不经过根节点root。两节点之间路径的长度由它们之间边数表示。示例示例1输入：root=[1,2,3,4,5]输出：3解释：最长路径的长度为3，例如路径[4,2,1,3]或
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
【算法学习之路】12.DFS 零零时算法学习之路深度优先算法学习 c++开发语言数据结构全排列
DFS前言一.DFS简介二.思路三.缺点四.三种类型五.题目1.2前言我会将一些常用的算法以及对应的题单给写完，形成一套完整的算法体系，以及大量的各个难度的题目，目前算法也写了几篇，题单正在更新，其他的也会陆陆续续的更新，希望大家点赞收藏我会尽快更新的！！！一.DFS简介1.深度优先搜索，是一种用于遍历或搜索树或图的算法。所谓深度优先，就是说每次搜尝试向更深的节点走。2.在搜索算法中，该DFS常常
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
动态规划 31. 股票问题总结（类别解析） Mophead_Zarathustra Mophead的小白刷题笔记 leetcode python 代码随想录动态规划
动态规划31.股票问题总结（类别解析）股票问题给我做的有一些混乱，因此本总结主要是借助GPT的帮助帮我解决下面的核心问题，也希望能通过这些示例与讲解，帮助各位快速厘清各种“股票问题”的通用DP思路。经典股票问题：动态规划25.买卖股票的最佳时机-CSDN博客动态规划26.买卖股票的最佳时机II-CSDN博客动态规划27.买卖股票的最佳时机III（多状态转换初遇）-CSDN博客动态规划28.买卖股票
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
成为编程大佬！！-----＞数据结构与算法（2）——顺序表！！ Elnaij 算法数据结构 c语言
前言：线性表是数据结构与算法的重中之重，所有具有线性逻辑结构的数据结构，都能称为线性表。这篇文章我们先来讨论线性表中的顺序表，顺序表和线性表都是后续实现栈，树，串和图等等结构的重要基础。目录❀简单介绍线性表❀顺序表❀顺序表的存储❀动态存储❀静态存储❀静态存储与动态存储的优缺点❀顺序表操作❀1.初始化顺序表❀2.销毁顺序表❀3.插入数据❀插入数据之判断已满否❀插入操作之尾插❀插入操作之头插❀插入数据
字符串模式匹配——Brute-Force暴力查找算法以及KMP算法具象图解，超级详细！！ Elnaij 算法数据结构 c语言
目录前言1.串的模式匹配算法目的1.1Brute-Force算法图解Brute-force算法Brute-force暴力查找算法的弊端1.2KMP算法next数组1.2.1Getnext——求next数组的函数图解Getnext函数Getnext函数总结1.2.2KMP模式匹配操作KMP匹配过程图解KMP算法总结结束语：前言这两个算法，尤其是KMP算法，可以说是让许多算法小白头痛的了。如果你也十分
HarmonyOS开发，A持有B，B引用A的场景会不会导致内存泄漏，代码示例告诉你答案 MardaWang HarmonyOS NEXT OpenHarmony harmonyos 华为
问题：A持有B，B引用A的场景会不会导致内存泄漏？答案：方舟虚拟机的内存管理和GC采用的是根可达算法，根可达算法可以解决循环引用问题，不会导致A引用B，B引用A的内存泄漏。根可达算法原理根可达算法以一系列被称为“根对象”（如栈中的局部变量、静态变量等）作为起始点，从这些根对象开始向下搜索，能够被搜索到的对象被认为是可达对象，而那些无法被搜索到的对象则被判定为不可达对象，会在垃圾回收时被清理。所以，
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

学习深度强化学习---第2部分----RL动态规划相关算法

文章目录

2.1节 动态规划简介

2.2节 值函数与贝尔曼方程

2.3节 策略评估

2.4节 策略改进

2.5节 最优值函数与最优策略

2.6节 值迭代与策略迭代

2.7节 动态规划求解最优策略

你可能感兴趣的:(强化学习,算法,动态规划)