老虎福

强化学习笔记(3)之动态规划法

价值函数的解析解

上一篇文章的马尔科夫过程是强化的学习的理论基础，其中引入了状态价值函数与状态-行为价值函数来对行为策略的评估。补充一下上一篇文章的知识。最优状态价值函数：即在当前状态下，可能发生的所有后续动作，挑选最好的动作来执行的情况下，当前这个状态的价值。
最优状态行为值函数：即在当前状态下执行了特定的行为，然后考虑到执行这个行为后所有可能所处的后续状态并且在这些状态下总是挑选最好的动作来执行得到的长期价值。
有上一篇文章所举出的，Bellman(贝尔曼)方程
$v_{\pi}(s)=\sum_{a\in A} \pi (a|s)q_{\pi}(s,a)=\sum_{a\in A} \pi (a|s)(R_s^a + \gamma \sum _{s'\in S}P_{ss'}^av_{\pi}(s'))$
设 $V_{\pi}$ 为在 $\pi$ 策略下的所有状态空间，忽略策略的随机性，Bellman方程可以表示成：
$V_{\pi}=R^{\pi}+\gamma P^{\pi}V_{\pi}$
直接求解，得：
$V_{\pi}=(1-\gamma P^{\pi})^{-1}R^{\pi}$
所以Bellman方程的复杂度为 $O(n^3)$ ，而且在真实的场景当中， $P^{\pi}$ 和 $R^{\pi}$ 的规模都非常大，很难直接求解出解析解。

迭代法求解价值函数

常用的价值函数的计算方式都是迭代进行的。
动态规划法：已知环境模型 $P$ 和 $R$ ，每步迭代进行。(但是，在显示应用中，几乎很难获知环境模型的 $P$ 和 $R$ ，所以很少会用动态规划法来解决大规模的强化学习问题)。
蒙特卡洛法(Monte Carlo)：没有环境模型，根据经验学习。但是要求任务必须有终点，在任务结束后对所有回报值的进行平均。
时序差分法：没有模型，根据经验学习。每步或者固定有限步数进行迭代，不要求等待任务结束。

动态规划法

先从一个例子中学习动态规划方法：小明要爬一座有10级台阶的楼梯，由于腿短，每一只能上一级台阶或者2级台阶，问小明从0级台阶爬到楼上有多少种爬法？（如：第1种每一步上一级阶梯：1,1,1,1,1,1,1,1,1,1；第2种每一步上两级阶梯：2,2,2,2,2：第N种：…）

假设10级阶梯有 $f (10)$ 种走法，我们把楼梯问题拆分，小明迈出了第一步：两种可能：1.一步只上了一级，剩下还有 $f (9)$ 种可能走法；2.第一步上了两级，剩下没走的还有 $f (8)$ 种走法，所以 $f (10) = f (9) + f (8)$ ， $f (9) = f (8) + f (7)$ … $f (3) = f (2) + f (1)$ , $f (2) = 2$ , $f (1) = 1$ 。演绎出： $f (n) = f (n - 1) + f (n - 2)$
（这都是个小学的例子，拿出来糊弄一下小学生）
这就是一个动态规划的过程：把复杂的问题分阶段进行化简，逐步化简成简单的问题。动态规划是一种求解决策问题的一种数学思想。动态规划的求解过程是迭代进行的，每一次迭代的过程中，只需保留前一种或者前有限种状态，就可以推导出新的状态。不需要像备忘录那样保留全部子状态，实现时间和空间上的最优化。
字面上解析动态规划，“动态”指的是问题存在时间序列上贯序性，“规划”是指问题优化的一个计划，一种策略。
但是，并不是所有问题都能用动态规划求解的，动态规划问题需要待解决的问题包含两个性质：
1.最优子结构：保证问题存在最优性准则，从而问题的最优解可以分解成子问题的最优解；
2.重叠子问题：子问题重复出现，因而可以缓存并重用子问题的解。
最优子结构是依赖于特定问题和子问题的分割方式儿成立的条件。各子问题具有最优解，就能求出整个问题的最优解，此时条件成立。反之，如果不能利用子问题的最优解获得整个问题的最优解，那么这种问题不具备最优子结构。
动态规划的问题都是递归问题，假设当前决策结果 $f [n]$ ，最优子结构就是让 $f [n - k]$ 最优，最优子结构就是能让转移到 $n$ 的状态是最优的。
所以一般动态规划的求解过程：
a)将问题分解为子问题；
b)求解子问题；
c)将子问题的解合并，求问题的解。

马尔科夫决策过程的求解

MDP(马尔科夫决策过程)正好满足动态规划问题的两个性质：

贝尔曼方程给出了问题的迭代分解，
价值函数的保存和重用问题的解。

所以可以用动态规划来求解MDP规划问题，但是，必须明确环境模型是已知的，也就是模型的状态转移矩阵 $P$ 已知。
强化学习的目的就是找到最优策略，即MDP的最优解。
求解强化学习的过程一般分为两个步骤：

预测：给定策略，评估相应状态的价值函数或者状态-行为价值函数。
控制：状态价值函数或者状态-行为价值函数求得之后，就可以得到当前状态的最优动作。

	状态价值	状态-行为价值
预测	$V_{\pi}$	$q_{\pi}$
控制	$V_*$	$q_*$

迭代的应用Bellman期望方程：在每一次迭代的过程中，对第 $k + 1$ 次迭代，所有的状态 $s$ 的价值都用 $v_k(s')$ 来计算(本轮次本状态的计算依据来源于上一次计算的结果)，并更新该状态第 $k + 1$ 迭代中使用的价值 $v_k(s)$ ，其中 $s^{'}$ 是状态 $s$ 的后继状态。
依照此方式反复迭代最终将收敛至 $v_{\pi}$ 。数据公式为：

格子世界的例子：

格子世界的状态空间 $S$ ： $S_1-S_{14}$ 为非终止终止状态， $S_T$ 为终止状态，即灰色方格显示的两个位置；
状态空间A：{n,e,s,w}(北，东，南，西)对于任何非终止状态可以有东南西北四种方向移动行为；
转移概率P：任何试图离开方格世界的动作其位置将不会发生改变，其余条件下将100%地转移到动作指向的状态；
即时奖励R：任何在非终止状态的转移得到的即时奖励均为-1，进入终止状态的即时奖励为0；
衰减系数 $\gamma$ ：1；
当前采取的行动策略：agent采用随机行动策略，在任何一个非终止状态下有均等的几率采取任一移动方向的行为；
即： $\pi (n|*)=\pi(e|*) =\pi(s|*)=\pi(w|*)=1/4$
问题：求该方格世界在给定策略下的(状态)价值函数，也就是给定策略下，该方格世界每一个状态的价值。
按照公式： $v_{\pi}(s)=\sum_{a\in A} \pi (a|s)q_{\pi}(s,a)=\sum_{a\in A} \pi (a|s)(R_s^a + \gamma \sum _{s'\in S}P_{ss'}^av_{\pi}(s'))$
开始迭代： $k = 0$

$k = 1$ :如图中红色的方格计算方式： $- 1.0 = (1 / 4) * (- 1 + 1 * 0) + (1 / 4) (- 1 + 1 * 0) + (1 / 4) (- 1 + 1 * 0) + (1 / 4) (- 1 + 1 * 0)$
（其中1/4 为策略 $\pi$ ，-1为立即奖励 $R$ ，1为转移概率P，0为上一轮侧的下一状态价值，对照上面的公式）

$k = 2$ ::图中红色的方格计算方式： $- 1.7 = (1 / 4) * (- 1 + 1 * 0) + (1 / 4) (- 1 + 1 * (- 1)) + (1 / 4) (- 1 + 1 * (- 1)) + (1 / 4) (- 1 + 1 * (- 1))$

$k = 3$ :图中红色的方格计算方式： $- 2.4 = (1 / 4) * (- 1 + 1 * 0) + (1 / 4) (- 1 + 1 * (- 2.0)) + (1 / 4) (- 1 + 1 * (- 2.0)) + (1 / 4) (- 1 + 1 * (- 1.7))$

一直迭代下去，直到收敛；

从中选择出最优策略：

最优解的计算方式：策略迭代，价值迭代

策略迭代(policy iteration) 算法通过构建值函数(切记，不是最优值函数)来评估策略，然后利用这些值函数，寻找新的、改进的策略。
值迭代(value iteration) 算法寻找最优质函数，最优值函数包括每个状态或者每个状态动作对的最大回报。最优值函数用来计算最优策略。

策略迭代(policy iteration)

通过格子世界的例子，得到了一个优化策略的办法，分为两步，一：在一个给定策略下迭代更新价值函数：
$v_{\pi}(s)=E[R_{t+1}+\gamma R_{t+2}+...|S_t=s]$
二：在当前策略的基础上，贪婪的选取行为，使得后继状态价值增加最多：
$\pi'=greedy(v_{\pi})$
使用策略迭代算法，每次迭代分两步走：
第1步：先任意假设一个策略 $\pi_k$ ，使用这个策略迭代价值函数直到收敛；
$V_{i+1}^{\pi _k}(s)\leftarrow \sum_{s'} P(s,\pi_k(s),s')[R(s,\pi_k(s),s') + \gamma {\pi _k}V_i^{\pi _k}(s')]$
最后得到的 $V (s)$ 就是用策略 $\pi_k$ 下，能够得到的最好的价值函数 $V (s)$ 了。（其实，在策略 $\pi_k$ 下得到的做好的价值函数的值可以看做是当前这个策略 $\pi_k$ 的一种评估）
第2步：重新审视每个状态的所有可能的行为Action，优化策略 $\pi_k$ 检查是否有更优的行为Action代替老的Action，更新策略 $\pi_{k+1}$ ;
$\pi_{k+1}=argmax_a\sum_{s'}P(s,a,s')[R(s,a,s')+\gamma V^{\pi_k}(s')]$

策略迭代的伪代码：

initialization初始化左右状态 $v (s)$ 以及策略 $\pi$
policy evaluation 用当前的 $v (s)$ 对当前策略进行评估，计算出每一个状态的 $v (s)$ ，直到 $v (s)$ 收敛，这就计算好了在当前策略 $\pi$ 下的所有状态价值函数 $v (s)$ ；
policy improvement既然上一步已经得到了当前策略 $\pi$ 的评估函数 $v (s)$ ，那么就可以利用这个评估函数进行策略改进。
在每个状态S时，对每个可能的动作a，都计算一下采取动作之后达到下一个状态的期望价值。看看那个动作可以到达的状态的期望价值函数最大，就选取这个动作作为下一策略的动作，以此更新了策略 $\pi(s)$
然后再次循环上述的2、3步骤，直到 $v (s)$ 以及策略 $\pi$ 都收敛。

价值迭代(value iteration)

最优状态价值函数 ：最优值函数 $V_*(s)$ 是在从所有策略产生的状态价值函数中，选取使状态 $s$ 价值最大的函数：
$v_*(s)=max_{\pi}v_{\pi}(s)$
最优状态价值行为函数 ： $q_*(s,a)$ 是从所有策略产生的行为价值函数中，选取状态行为对价值最大的函数：
$q_*(s,a)=max_{\pi}q_{\pi}(s,a)$
价值迭代 ：先更新每个状态 $s$ 的长期价值函数 $V (s)$ ，这个价值是立即回报 $r (s, a)$ 与下一个状态 $s + 1$ 的长期价值的综合，从而获得更新。每次迭代，对于每个状态 $s$ 都要更新价值函数 $V (s)$ ，对于每个状态 $s$ 的价值更新，需要好考虑所有行文Action的可能性。

价值迭代的伪代码：

1.initialization：初始化所有状态的 $V (s)$ ;
2.finding optimal value function:(找到最有价值函数)注意伪代码里的max；

对每一个当前状态 $s$ ，对每一个可能的动作 $a$ ，都计算一下采取这个动作之后到达的下一个状态的期望价值；
看哪个动作可能达到的状态的价值函数最大，就将这个最大的期望价值函数作为当前状态 $s$ 的价值函数 $V (s)$ ,
循环执行这个步骤，知道价值函数收敛，就可以得到最优的价值函数了
3.policy extraction：利用上面的步骤得到的optimal价值函数和状态转移概率就计算出每一个状态应采取的optimal动作，这个是确定的。

策略迭代与价值迭代的区别

策略迭代：使用Bellman方程来更新value，最后收敛的value即 $V^{\pi}$ 是当前policy下的value值(所以叫做对policy进行评估)，目的是为了后面的policy improvement得到新的policy。
价值迭代 使用Bellman最优方程来更新value，最后收敛得到的value即 $V^*$ 就是当前state状态下最优的value值，因此只要最后收敛，那么最优的policy也就得到了。
二者之间的区别与联系：策略迭代的第二步policy evaluation与价值迭代的第二步finding optimal value function十分相似，除了后者拥有max操作，前者没有max。因此后者可以得出optimal value function，而前者不能得到optimal function。
策略迭代的收敛速度要更快一些。
在状态空间较小时，最好选择策略迭代方法；
在状态空间较大时，价值迭代的计算量会更小一些；
本质上都依赖于模型，而且理想情况下都需要遍历所有状态，这在稍微复杂一点儿的问题上基本不可能了。

动态规划的不足

DP的缺点显而易见，必须知道状态转移概率才能进行最优策略的计算，着在真实场景中几乎不可能实现。
对于DP而言，她的推演是整个树状散开的，这种方法被称为FULL-width backup方法。在这个方法中，对于每一次backup来说，所有的后继状态和动作都要被考虑在内，并且需要已知MDP的转移矩阵和奖励函数，因此DP面临着梯度灾难问题。

理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
npm 切换 node 版本和npm的源爱敲代码的小冰 npm 前端 node.js
在开发过程中，不同项目可能需要不同版本的Node.js，同时于由XX原因，我们需要切换npm的源。这时如果需要切换node版本或者npm的源，我们可以使用以下方法。使用nvm切换Node版本1、安装npminstallnvm-g2、使用#列出所有可用版本nvmlist-remote#安装指定版本nvminstall16.15.1#使用指定版本nvmuse16.15.1#查看当前使用的版本nvmcu
蓝牙MTU含义，协商修改的过程案例分析悟空胆好小嵌入式硬件网络人工智能
蓝牙MTU含义，协商修改的过程案例分析文章目录**蓝牙MTU含义，协商修改的过程案例分析****一、MTU含义解析****二、MTU协商过程详解****步骤流程****三、修改MTU的实践案例分析****案例1：中心设备主动设置（主控端）****案例2：外设端响应优化（从设备）****案例3：调试工具强制修改****四、关键限制与注意事项**蓝牙MTU（MaximumTransmissionUni
Spring Cloud Gateway 的执行链路详解愤怒的代码 SpringCloud spring cloud
SpringCloudGateway的执行链路详解核心目标明确SpringCloudGateway的请求处理全过程（从接收到请求→到转发→到返回响应），方便你在合适的生命周期节点插入你的逻辑。核心执行链路图（执行顺序）┌──────────────┐│客户端请求│└────┬─────────┘↓┌────┴─────────────┐│NettyHttpServer│←→ReactorNetty
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
零信任落地难题：安全性与用户体验如何两全？粤海科技君安全零信任终端安全网络安全 iOA
在零信任架构的实施过程中，平衡安全性与用户体验是企业数字化转型的核心命题。这一挑战的本质在于：既要通过「永不信任，持续验证」的安全机制抵御新型攻击，又要避免过度验证导致的效率损耗。一、矛盾根源：安全与体验的天然张力零信任的“永不信任”原则，本质上要求对每一次访问都进行动态评估，但这与用户对“便捷、流畅”的诉求存在天然冲突。例如：频繁的身份验证（如每次登录都需短信验证码）会打断工作节奏，某制造企业统
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
NGS测序基础梳理02-簇生成（Cluster Generation）及flow cell介绍 qq_21478261 #生物信息生物信息学
本文图解Illumina测序平台，flowcell表面簇生成（ClusterGeneration）过程。写作时间：2020，有问题可留言或者我的公众号。本文将了解到什么？1flowcell2簇生成为何要进行簇生成？簇生成步骤1）文库与flowcell表面P5杂交与互补链合成2）双链变性3）桥式PCR扩增4）反链切除5）DNA链3'封闭参考资料：1flowcell为何要先介绍flowcell？因为簇
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
如何为加壳保护后的程序提供调试支持深盾科技安全开发语言
在软件开发领域，加壳保护是一种常见的安全手段，用于防止程序被逆向分析。然而，当程序崩溃时，开发人员需要定位原始错误位置，这就与加壳保护产生了天然的矛盾。本文将从加壳原理出发，为大家介绍兼容调试的解决方案。一、加壳的基本功能1.加密/压缩加壳最常见的功能就是对程序的整个代码段和数据段进行压缩或加密。这样做的目的是防止静态反编译，但在程序运行过程中，代码段和数据段是明文状态，所以不会对调试造成影响。2
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
.NET 程序的强名称签名与安全防护技术干货深盾科技安全
在.NET开发领域，保障程序的安全性和完整性至关重要。强名称签名和有效的安全防护措施是实现这一目标的关键手段。下面将详细介绍.NET程序的强名称签名以及相关的安全防护方法。一、什么是强名称签名强名称签名是.NET框架提供的一种安全机制，其主要作用是唯一标识程序集、验证程序集的完整性以及解决版本冲突问题。它本质上是通过加密技术为程序集创建数字签名，确保程序集在分发和运行过程中的安全性。二、签名文件要
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
11. TCP 滑动窗口、拥塞控制是什么，有什么区别 yqcoder 前端面试-服务协议 tcp/ip 网络 php
总结滑动窗口：早期网络，通信双方不考虑网络拥挤情况，导致掉包。滑动窗口大小意味着有多少缓冲区接受数据。拥塞控制：防止过多数据注入网络中，拥塞控制是一个全局过程，控制网络流量。区别：滑动窗口解决掉包问题，拥塞控制解决网络拥塞问题。TCP滑动窗口与拥塞控制详解在TCP协议中，为了实现可靠传输和高效通信，引入了两个核心机制：滑动窗口（SlidingWindow）和拥塞控制（CongestionContr
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数