liaojq2020

强化学习RL学习笔记4-马尔可夫决策过程（MDP）(1)

强化学习笔记专栏传送

上一篇：强化学习RL学习笔记3-gym了解与coding实践
下一篇：强化学习RL学习笔记5-马尔可夫决策过程（MDP）(2)

目录

强化学习笔记专栏传送
- 前言
- Markov Process(MP)（马尔可夫过程）
- - 1.Markov Property（马尔可夫性质）
  - 2.Markov Process（马尔可夫过程）
  - 3.Example of MP
- Markov Reward Process(MRP)（马尔科夫奖励过程）
- - 1.Example of MRP
  - 2.Return and Value function
  - 3.Why Discount Factor
  - 4.Bellman Equation
  - 5.Iterative Algorithm for Computing Value of a MRP
  - - （1）蒙特卡罗方法
    - （2）动态规划

前言

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

本文是笔者对强化学习的一点学习记录，成文于笔者刚开始接触强化学习期间，主要内容参考LeeDeepRL-Notes，学习期间很多概念和理论框架还很不成熟，若文中存在错误欢迎批评指正，也欢迎广大学习者沟通交流、共同进步。

Markov Process(MP)（马尔可夫过程）

1.Markov Property（马尔可夫性质）

我们设状态的历史为 $h_{t}=\left\{s_{1}, s_{2}, s_{3}, \ldots, s_{t}\right\}$ （ $h_t$ 包含了之前的所有状态），如果一个状态转移是符合马尔可夫的，也就是满足如下两个条件：

$p\left(s_{t+1} \mid s_{t}\right) =p\left(s_{t+1} \mid h_{t}\right)$
$p\left(s_{t+1} \mid s_{t}, a_{t}\right) =p\left(s_{t+1} \mid h_{t}, a_{t}\right)$

即从当前 $s_t$ 转移到 $s_{t+1}$ 这个状态，直接等于这之前所有的状态转移到 $s_{t+1}$ 。如果某一个过程满足马尔可夫性质(Markov Property)，就是说未来的转移跟过去是独立的，它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。

2.Markov Process（马尔可夫过程）

如上图所示，是一个 马尔科夫链(Markov Chain) 的例子。这个图里面有四个状态，这四个状态从 $s_1$ , $s_2$ , $s_3$ , $s_4$ 之间互相转移。比如说从 $s_1$ 开始：

$s_1$ 有0.1的概率继续存活在 $s_1$ 状态。
有0.2的概率转移到 $s_2$ 。
有0.7的概率转移到 $s_4$ 。

如果 $s_4$ 是当前状态：

它有0.3的概率转移到 $s_2$ 。
有0.2的概率转移到 $s_3$ 。
有0.5的概率留在这里。

我们可以用如上图所示的 状态转移矩阵(State Transition Matrix) 来描述这样的状态转移。状态转移矩阵类似于一个 conditional probability，当我们知道当前我们在 $s_t$ 这个状态过后，到达下面所有状态的一个概念。所以它每一行其实描述了是从一个节点到达所有其它节点的概率。

3.Example of MP

上图是一个马尔可夫链的例子，我们这里有七个状态。比如说从 $s_1$ 开始有 0.4 的概率到 $s_2s$ ，有 0.6 的概率继续存活在它当前的状态 $s_1$ 。 $s_2$ 有 0.4 的概率到 $s_1$ ，有 0.4 的概率到 $s_3$ ，另外有 0.2 的概率存活在 $s_2$ ，所以给定了这个状态转移的马尔可夫链后，我们可以对这个链进行采样，这样就会得到一串的轨迹。

Markov Reward Process(MRP)（马尔科夫奖励过程）

马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链加上一个奖励函数。在 MRP 中，转移矩阵跟状态都是跟马尔可夫链一样的，多了一个奖励函数(reward function)。奖励函数是一个期望，即到达某一个状态的时候，可以获得多大的奖励，然后这里另外定义了一个 discount factor γ 。

1.Example of MRP

上图还是前文解释的马尔可夫链，如果把奖励也放上去的话，就是说到达每一个状态，我们都会获得一个奖励。这里我们可以设置对应的奖励，比如说到达 $s_1$ 状态的时候，可以获得 5 的奖励，到达 $s_7$ 的时候，有 10 的奖励，其它状态没有任何奖励。因为这里状态是有限的，所以我们可以用一个向量来表示这个奖励函数，这个向量表示了每个点的奖励的大小。

2.Return and Value function

这里进一步定义一些概念：

Horizon 是指一个 episode 的长度（每个 episode 最大的时间步数），它是由有限个步数决定的。
Return(回报) 说的是把奖励进行折扣后所获得的收益。Return 可以定义为奖励的逐步叠加，如下式所示： $G_t=R_{t+1}+γR_{t+2}+γ^2R_{t+3}+γ^3R_{t+4}+...+γ^{T-t-1}R_T$

上式有一个叠加系数γ，越往后得到的奖励，折扣得越多。这说明我们其实更希望得到现有的奖励，未来的奖励就要把它打折扣。

有了 return 后，就可以定义一个状态的价值了，就是 state value function。对于 MRP，state value function 被定义成是 return 的期望，如下式所示：
$\begin{aligned} V_t(s)& = \Bbb E[G_t\mid s_t=s]\\ & =\Bbb E[R_{t+1}+γR_{t+2}+γ^2R_{t+3}+...+γ^{T-t-1}R_T\mid s_t=s] \end{aligned}$

$G_t$ 是之前定义的 discounted return，这里取了一个期望，期望就是说从这个状态开始，你有可能获得多大的价值。所以这个期望也可以看成是对未来可能获得奖励的它的当前价值的一个表现，就是当你进入某一个状态过后，现在有多大的价值。

3.Why Discount Factor

为什么需要 discount factor：

有些马尔可夫过程是带环的，它并没有终结，我们想避免这个无穷的奖励。
我们并没有建立一个完美的模拟环境的模型，也就是说，我们对未来的评估不一定是准确的，我们不一定完全信任我们的模型，因为这种不确定性，所以我们对未来的预估增加一个折扣。我们想把这个不确定性表示出来，希望尽可能快地得到奖励，而不是在未来某一个点得到奖励。
如果这个奖励是有实际价值的，我们可能是更希望立刻就得到奖励，而不是后面再得到奖励（现在的钱比以后的钱更有价值）。
在人的行为里面来说的话，大家也是想得到即时奖励。
有些时候可以把这个系数设为 0，设为 0 过后，我们就只关注了它当前的奖励。我们也可以把它设为 1，设为 1 的话就是对未来并没有折扣，未来获得的奖励跟当前获得的奖励是一样的。

这个系数可以作为强化学习 agent 的一个 hyperparameter（超参数）来进行调整，然后就会得到不同行为的 agent。

仍然是上图的MRP示例，接下来讨论如何计算价值：
我们现在可以计算每一个轨迹得到的奖励，比如我们对于这个 $s_4,s_5,s_6,s_7$ 轨迹的奖励进行计算，这里折扣系数是 0.5。

在 $s_4$ 的时候，奖励为零。
下一个状态 $s_5$ 的时候，要把 $s_5$ 进行一个折扣， $s_5$ 本身也是没有奖励的。
然后是到 $s_6$ ，也没有任何奖励，折扣系数应该是 $\frac{1}{4}$ 。
到达 $s_7$ 后，获得了一个奖励，但是因为 $s_7$ 这个状态是未来才获得的奖励，所以要进行三次折扣。

所以对于这个轨迹，它的 return 就是 1.25，类似地，可以得到其它轨迹的 return 。

当有了一些轨迹的 return 后，可以通过产生从当前位置出发的所有轨迹取平均的方法来获取前进到当前位置的价值。此即蒙特卡罗采样算法。

4.Bellman Equation

但是这里我们采取了另外一种计算方法，我们从价值函数里面推导出 Bellman Equation（贝尔曼等式），如下式所示： $V(s)=\underbrace{R_s}_{\rm{Immediate\ reward}} + \underbrace{γ\sum_{s'\in S}P(s'\mid s)V(s')}_{\rm{Discounted\ sum\ of\ future\ reward}}$

其中：

s’ 可以看成未来的所有状态。
转移 P(s’|s) 是指从当前状态转移到未来状态的概率。
第二部分可以看成是一个 Discounted sum of future reward。
V(s’) 代表的是未来某一个状态的价值。我们从当前这个位置开始，有一定的概率去到未来的所有状态，所以我们要把这个概率也写上去，这个转移矩阵也写上去，然后我们就得到了未来状态，然后再乘以一个 γ，这样就可以把未来的奖励打折扣。

即当前状态的价值是当前状态的即时价值和未来价值期望（ $\sum$ (向各个状态的转移概率×对应状态的价值)）× γ 。

Bellman Equation 定义了当前状态跟未来状态之间的关系。未来打折扣的奖励加上当前立刻可以得到的奖励，就组成了这个 Bellman Equation。 当前状态的值函数可以通过下个状态的值函数来计算。

可以将 Bellman equation 写成矩阵的形式：

可以将矩阵形式的 Bellman equation 转化成下列形式：
$\begin{aligned} V& = R+γPV\\ IV& = R+γPV\\ (I-γP)V & = R\\ V&={(I-γP)}^{-1}R \end{aligned}$

从而可以得到一个解析解：
$V={(I-γP)}^{-1}R$

由此，可以通过矩阵求逆直接将价值 V 求出，但矩阵求逆的复杂度是 $O(N^3)$ ，所以这种通过解析解去求解的方法只适用于小量的 MRP。

5.Iterative Algorithm for Computing Value of a MRP

Bellman equation 只能解决小量的 MRP ，对于状态很多的 MRP ，可以通过迭代的方法来解：

动态规划的方法
蒙特卡罗的办法（通过采样的办法去计算它）
Temporal-Difference Learning 的办法。 Temporal-Difference Learning 叫 TD Leanring，它是动态规划和蒙特卡罗的一个结合

（1）蒙特卡罗方法

蒙特卡罗(Monte Carlo)方法就是以当前状态为起点，遍历大量可能轨迹，得到对应的大量 return 。将得到的大量 return 取平均，作为当前状态的价值。

比如说我们要算 $s_4$ 状态的一个价值。我们就可以从 $s_4$ 状态开始，随机产生很多轨迹。每个轨迹，我们可以算到它的 return。每个轨迹都会得到一个 return，从而得到大量的 return 。比如说一百个、一千个的 return ，然后直接取一个平均，那么就可以等价于现在 $s_4$ 价值，因为 $s_4$ 的价值 $V(s_4)$ 定义了你未来可能得到多少的奖励。

（2）动态规划

也可以用动态规划的办法，一直迭代 Bellman equation，让它最后收敛，就可以得到它的状态。所以算法二就是一个迭代的算法，通过 bootstrapping(拔靴自助) 的办法，然后去不停地迭代这个 Bellman Equation。当这个最后更新的状态跟你上一个状态变化并不大的时候，更新就可以停止，我们就可以输出最新的 V’(s) 作为它当前的状态。所以这里就是把 Bellman Equation 变成一个 Bellman Update，这样就可以得到价值。

动态规划的方法基于后继状态值的估计来更新状态值的估计（算法二中的第 3 行用 V’ 来更新 V ）。也就是说，它们根据其他估算值来更新估算值。我们称这种基本思想为 bootstrapping。

上一篇：强化学习RL学习笔记3-gym了解与coding实践
下一篇：强化学习RL学习笔记5-马尔可夫决策过程（MDP）(2)

你可能感兴趣的:(强化学习笔记,强化学习,马尔可夫链蒙特卡洛方法,机器学习,人工智能,动态规划)

（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
JavaScript Math（算数）详解 lsx202406 开发语言
JavaScriptMath（算数）详解引言JavaScriptMath对象是JavaScript内置的一个对象，用于执行基本的数学运算。它提供了一系列的静态方法，使得进行数学运算变得非常简单。本文将详细介绍JavaScriptMath对象的各个方法及其应用。Math对象概述Math对象是一个静态对象，意味着它不能被实例化。它包含了一些数学常量和方法，可以用来执行各种数学运算。Math对象的常量M
Swift 下标脚本 froginwe11 开发语言
Swift下标脚本引言Swift是一种强大的编程语言，广泛应用于iOS、macOS、watchOS和tvOS等平台。在Swift中，下标脚本（Subscript）是一种非常实用的特性，它允许你为结构体（Struct）和类（Class）提供类似数组或字典的下标访问方式。本文将深入探讨Swift下标脚本的使用方法、优势以及注意事项。下标脚本的基本概念在Swift中，下标脚本是一种简化访问集合中元素的方
如何自定义R语言函数？参数中的省略号`...`有什么用？「已注销」 python 编程语言 java 人工智能 c++
学习R未必要学习很多工具包，有时候根据自己的理解去自定义函数也是一个不错的选择。本篇推文主要介绍两方面的内容：在R语言中自定义函数的一般方法；函数参数中...的作用。在看函数的帮助文档时会发现许多函数的参数中都有...符号，它是表示被省略的参数吗？如果是，作者为什么会省略它？如果不是，那又表示什么含义呢？不久前，学堂君分享了自己编写的计算空间可达性的函数，详见推文：两步移动搜索法（2SFCA）计算
陈强《计量经济学及Stata应用》学习笔记——持续更新 WangSoooCute 学习笔记
1导论1.1什么是计量经济学econometrics几种关系：相关关系、因果关系、逆向因果关系reversecausality、双向因果关系被解释变量dependentvariable解释变量explanatoryvariable=regressor=自变量independentvariable=协变量covariateunobservable的误差项errorterm=随机扰动项stochast
交叉编译Python-3.6.0到aarch64/aarch32 —— 支持sqlite3
参考https://datko.net/2013/05/10/cross-compiling-python-3-3-1-for-beaglebone-arm-angstrom/平台主机：ubuntu14.0464bit开发板：qemu+aarch64（参考：http://www.cnblogs.com/pengdonglin137/p/6442583.html）工具链：aarch64-linux-
如何解决ubuntu 中DNS无法修改导致无法联网的问题 BTU_YC linux ubuntu ubuntu linux 服务器
写在前面：在刚开始遇到这个问题的时候，在网上搜了很多资料，都无法解决DNS总是无法修改，一些文章中提到过，直接修改的/etc/resolv.conf，之后确实能够通过pingwww.baidu.com的方式解决，但是当重启电脑的时候，网络有无法使用了。之前的方法就不提了，直接介绍一下我这解决的方法吧如何解决：先使用这个命令进入编辑页面vim/etc/systemd/resolved.conf输入命
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
IDEA依赖冲突分析神器—Maven Helper
IDEA依赖冲突分析神器—MavenHelperMavenHelper是一款专为IntelliJIDEA设计的插件，它极大地简化了Maven项目中依赖冲突的分析和解决过程。以下是对MavenHelper的详细介绍及其使用方法：一、MavenHelper简介MavenHelper插件提供了一个直观的图形界面，帮助开发者查看和管理Maven项目的依赖关系。它特别擅长于展示和识别依赖冲突，使开发者能够迅
2025年渗透测试面试题总结-2025年HW(护网面试) 31（题目+回答）独行soc 2025年护网面试职场和发展安全 linux 护网渗透测试
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)311.自我介绍2.渗透测试流程（五阶段模型）3.技术栈与开发经历4.自动化挖洞实践5.信息搜集方法论6.深度漏洞挖掘案例8.SQL注入实战技巧9.AWVS扫描与防御10.CSRFvsSSRF核心差异11.SSRF正则绕过技术12.虚拟主机识别原
通信算法之278：数据链/自组网通信设备--MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码--1.系统指标需求及帧结构设计秋风战士无线通信基带处理算法 MATLAB仿真软件无线电算法无人机经验分享
MIMO(2T2R)-OFDM系统系列–实际工程应用算法代码第一章：系统指标需求拆解分析第二章：通信系统帧结构设计和OFDM参数设计第三章：通信业务速率设计及理论解调门限第四章：同步序列设计及同步性能仿真验证第五章：数据业务设计及性能仿真验证第六章：信道模型设计第七章：接收关键算法设计及仿真验证第八章：其它待补充本文目录MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码一、实际项目：系
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
医咖会免费STATA教程学习笔记——单因素方差分析 Unacandoit stata 单因素方差分析
单因素方差分析和单因素回归分析相同1.单因素方差分析需要满足的假设：（1）因变量为连续变量（2）至少有一个分类变量（大于等于2类）（3）观测值相互独立（4）没有异常值（5）服从正态分布（6）方差齐性2.准备工作（1）导入数据集：webusesystolic,clear（2）检验是否存在异常值：方法一：图形——箱线图——在变量中选择systolic——确定方法二：grahboxsystolic,ov
MyBatis Mapper.xml核心属性详解代码的余温 mybatis xml
在MyBatis的Mapper.xml文件中，statement标签（如、等）包含多个关键属性，用于定义SQL语句的行为和映射规则。以下是核心属性及其含义：一、基础属性id作用：当前命名空间下SQL语句的唯一标识，必须与对应Mapper接口的方法名一致。示例：对应接口方法UsergetUserById(intid)。parameterType作用：指定输入参数的类型（如java.lang.Inte
RESTful API 安装使用教程小奇JAVA面试安装使用教程 restful 后端
一、RESTfulAPI简介REST（RepresentationalStateTransfer）是一种基于Web的架构风格，RESTfulAPI是使用HTTP协议并遵循REST原则设计的API接口。其核心思想是：使用标准HTTP方法（GET、POST、PUT、DELETE）对资源进行操作。RESTfulAPI通常用于构建前后端分离、微服务架构等系统，具备易理解、易扩展、易维护等优点。二、常用技术
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
5种高效解决Maven依赖冲突的方法代码的余温 maven java
在Maven中排除依赖冲突主要有以下5种方法，结合具体场景说明操作步骤：⚠️一、基础排除法（标签）适用场景：排除直接依赖中的传递性冲突包示例：排除spring-boot-starter-web中的Tomcat依赖org.springframework.bootspring-boot-starter-weborg.springframework.bootspring-boot-starter-tom
response.split(“\n“)[0].strip() 是什么 ZhangJiQun&MXP 教学 2021 AI python python 机器学习人工智能语言模型自然语言处理
response.split(“\n”)[0].strip()是什么returnresponse.split("\n")[0].strip()这行代码在Python中通常用于对字符串进行处理并返回处理后的结果response.split("\n")：split()是Python字符串对象的一个方法，用于根据指定的分隔符将字符串拆分成一个列表。在这行代码中，"\n"作为分隔符，表示按照换行符来拆分字
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
QA - RAG智能问答系统中的文档切片与实现原理 ai开发
引言在现代企业知识管理系统中，智能问答系统正发挥着越来越重要的作用。GC-QA-RAG系统作为葡萄城技术栈中的重要组成部分，其核心功能是通过对文档内容进行智能切片和向量化存储，实现对技术文档的高效检索和问答。本文将深入剖析该系统的文档切片原理，包括短文档和长文档的不同处理策略，以及如何将这些技术应用于实际场景中。正文1.原始方案及其局限性最初的GC-QA-RAG系统采用了一种直观的方法：将整个文档
【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
LeetCode1004. 最大连续1的个数 III Zedthm 算法 java leetcode
题目分析本题要求在最多翻转K个0的条件下，找到二进制数组中最长的连续1子数组。翻转操作实际上是将0视为可用资源，用来扩展连续1的区间。解题思路滑动窗口（双指针）：核心思想：维护一个窗口，确保窗口内最多包含K个0（即最多可翻转K次）右指针：遍历数组，扩展窗口左指针：当窗口内0的数量超过K时，收缩窗口直到满足条件关键操作：遇到0时增加计数器当0的数量超过K时，移动左指针直到移除一个0始终记录窗口的最大
行业锦标赛激励数据集（2008-2023）数据皮皮侠AI 人工智能大数据物联网矩阵动态规划
1771行业锦标赛激励数据集（2008-2023）数据简介坚持创新驱动发展，要强化企业创新主体地位，发挥企业家在技术创新中的重要作用。作为企业组织内部最具有影响力的角色，高级管理人员拥有企业经营管理的自由裁量权，对企业战略决策及由此产生的经营绩效具有举足轻重的影响。合理的薪酬契约安排是促进员工努力工作并提高企业绩效的重要手段。效率视角下的锦标赛理论主要关注企业内部薪酬差距的激励效应，但随着信息技术
传统微商困境与开源链动2+1模式、AI智能名片及S2B2C商城小程序的转型破局说私域开源人工智能小程序
摘要：本文聚焦传统微商代理分级模式面临的库存积压、出货困难等“滚雪球”危机，深入剖析其根源。在此基础上，引入开源链动2+1模式、AI智能名片以及S2B2C商城小程序，探讨这些新兴元素如何助力品牌微商实现转型，突破传统困境，实现可持续发展。通过分析各元素的特点与优势，阐述它们在优化供应链、提升营销效率、增强客户关系管理等方面的协同作用，为微商行业的创新发展提供理论支持与实践参考。关键词：传统微商；开
移动conda虚拟环境的安装目录
方法1：重新创建环境（推荐）(1)导出环境配置（生成environment.yml）：condaactivateold_env#激活原环境condaenvexport>environment.yml#导出配置(llmtuner):~$condaenvexport>environment.yml(llmtuner):~$tail-fenvironment.yml-websockets==15.0.1
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他