半月夏微凉

value iteration和Q-learning算法

Value iteration 和 Q-learning 构成了强化学习 (Reinforcement Learning, RL) 的两个基本算法。过去 10 年 RL 中的许多惊人壮举，例如 Atari 的 Deep Q-Learning 或 AlphaGo，都植根于这些基础。在这篇博客中，我们将介绍 RL 用来描述世界的基础模型，即马尔可夫决策过程 (Markov decision process, MDP)，以及执行 RL 的两种算法：value iteration 和 Q-learning。在这篇博文结束时，您应该能够理解 value iteration 和 Q-learning 之间的联系，以及如何使用这些算法中的任何一种来学习最优策略。

这篇文章分为三个部分：

Markov decision processes
Value functions and Value iteration
Q-learning and Deep Q-learning

Markov Decision Processes

MDP 是一个 5 元组，描述由以下五个元素组成的环境：

States: State (通常表示为 $s$ ，译为状态) 是agent (一般译为智能体) 可以存在的世界上任何预定义的瞬时实例。在本文的其余部分，我们将使用变量 $S$ 来表示世界上所有可能状态的集合，其中 $s\in S$ 指的是单个状态。
Actions: Action (通常表示为 $a$ ，译为动作)是由agent促成的事件，它可以将其从一种状态转换到另一种状态，前提是这种转换是可能的MDP。我们将使用 $A$ 来表示世界上所有可能的动作的集合，其中 $a\in A$ 指的是单个动作。我们注意到，动作可能没有确定性的后果。例如，掷硬币可能不会每次都给您相同的结果！动作具有确定性效果的程度由转移函数 (transition function) 描述。
Transition function: Transition function (通常表示为 $P$ 或 $T$ ，译为转移函数) 是一个函数，它定义了在给定当前状态和有动作的情况下移动到特定下一个状态的概率。转移函数在数学上定义如下， $T:S\times A\times S' \rightarrow [0,1]$ .
Reward: Reward function (通常表示为 $R$ ，译为奖励函数) 指定了一个实数值，该数值定义了处于某个状态、采取一个动作并转移在下一个状态的功效或“好”的衡量标准。与转移函数类似，奖励定义如下， $R:S\times A\times S' \rightarrow \mathbb{R}$ . 请注意，您最终进入的状态可能是无法控制的，因为状态转换可以是动态的。
Discount Factor: 可以使用 $\gamma$ 指定折扣因子 (discount factor)，其中 $\gamma\in [0,1)$ 。注意折扣因子非包含上限（即 $\gamma\neq 1$ ）。不允许 $\gamma = 1$ 允许 MDP 在数学上更加稳健。具体来说，RL 算法的目标通常是随着时间的推移最大化折扣奖励。考虑无限时间(infinite horizon) MDP（即 MDP 永远不会结束）的情况，其中奖励总是正的。如果折扣因子 $\gamma$ 等于 1，那么未来折扣奖励的总和将是无限的，这使得 RL 算法难以收敛（即，知道它们何时可以停止确定在每个状态下应该采取哪些动作）。因此， $g a m m a$ 的选择对于 RL 算法的成功至关重要，例如 Q-learning 和 value iteration。

您可能已经阅读过一个称为马尔可夫链(Markov chains)的概念。虽然本文不会涉及马尔可夫链，但了解马尔可夫链和马尔可夫决策过程之间的区别很重要，因为这两个概念共享马尔可夫属性(markov property)。

从根本上说，马尔可夫链由除了动作、奖励和折扣因子的马尔可夫决策过程的组成部分组成。马尔可夫链中的agent无法控制他们的动作，是由世界在控制agent的行动。在马尔可夫决策过程中，agent对结果有影响。因此，马尔可夫链的转移函数被简单地定义为， $\times S' \rightarrow [0,1]$ .

Markov Property: 当下一个状态仅取决于当前状态和当前动作并且独立于之前的状态和动作的历史时，马尔可夫属性成立。

Nota bene: 在某些 MDP 中，您可能会看到初始状态分布 (initial state distribution) 包含在 MDP 中。虽然这仍然是一个有效的表示，但在本博客中，我们将保持对初始状态分布的不可知论。

Value functions 和 Value Iteration

Value function (通常表示为 $V (s)$ ，译为值函数) 是对给定 MDP 和策略 (policy, 描述agent在每个状态中采取哪些动作) 的任何给定状态 $s$ 可以收到的预期奖励的度量。正式地，一个策略 (表示为 $\pi : S \to [0,1]^{|A|}$ ) 是以状态 $s$ 为条件的动作 $a\in A$ 的概率分布。这个博客中，我们将考虑确定性的策略 (即对于单个动作 $a$ ， $\pi(s,a)=1$ ；而对于其他动作 $a'\neq a$ ， $\pi(s,a')=0$ )。定义了策略后，我们现在可以在数学上定义策略的值函数：

$V^\pi(s)=E \left[ \sum_{t=0}^{\infty}\gamma^t r_t \vert \pi, s_0=s \right]$

在确定性世界中，这种期望 (expectation) 可以忽略不计。然而，一般来说，我们将期望包括在内，因为策略（例如，一个agent并不总是喜欢早餐吃同样的东西）和转移函数（例如，交通有多糟糕）可以描述非确定性属性我们要建模的问题。

值迭代 (Value Iteration) 的目标是找到最大化值函数的策略：

$\pi^*(s)=\argmax_{\pi\in \Pi} V^\pi(s), \forall s\in S$

在这个方程中 $\Pi$ 表示 MDP 内所有可能策略的集合， $\pi^*(s)$ 是最优策略 (optimal policy) 。值函数方程 (即 $V^\pi(s)=E \left[ \sum_{t=0}^{\infty}\gamma^t r_t \vert \pi, s_0=s \right]$ ) 是遵循从状态 $s$ 开始的策略 $\pi$ ，直到沿着轨迹 (trajectory) 从 $t = 0$ 到 $t=\infty$ 前进无限数量的时间步长 $t$ （即，一系列状态-动作对， $(,,\dots)$ ) ，其中累积的奖励 $r_t$ 通过乘以 $\gamma_t$ 进行折扣。这种折扣奖励的过程意味着，您越往未来走，奖励对处于状态 $s$ 的价值或“好”的影响就会越来越小。调整 $\gamma$ 允许您定义您的偏好，以优化短期和长期收益 (gain)。期望很重要，因为如前一段所述，转移可能是不确定的，因此期望提供了折扣奖励的标准化估计。

值迭代是一种计算算法，它提供了一种寻找最优策略的方法。该算法通过迭代确定处于每个状态 $s$ 的值来工作，假设agent在该状态下在值函数的当前估计下采取最佳可能行动。值迭代算法如下图所示。

该算法迭代地更新每个状态 $s$ 的值 $V (s)$ ，直到达到一个值的变化可以忽略不计的点，如阈值 $\Delta_0$ 所定义的。请注意该算法中的第 7 行，其中我们考虑状态 $s$ 、动作 $a$ 和结果状态 $s^{'}$ ，序列为 $< s, a, s^{'} >$ 。第 7 行通过更新给定状态的值来工作，称为值更新，让人想起贝尔曼的最优条件 (Bellman’s optimality condition)。这个条件说

$V(s)=\max_{a\in A} E \left[ R(s,a,s') + \gamma \max_{a'} V(s') \right] = \max_{a\in A}\sum_{s'\in S}T(s,a,s') \left[ R(s,a,s') + \gamma V(s') \right]$

当这个条件对给定状态 $s$ 成立时，我们会在第 8 行发现 $t e m p - V (s) = 0$ 。如果条件对所有状态 $s$ 都成立，则值函数已经收敛到最优值函数 $V^*=V^{\pi *}$ ，并且可以通过第 11 行简单地提取最优策略 $\pi^*$ 。从某种意义上说，值迭代通过迭代地假装或强制执行（第 7 行）贝尔曼最优条件成立，测量条件是否不成立（第 8 行），并在条件保持在可接受的误差范围内时终止（第 3 行）。

收敛后（即达到可接受的误差水平 $\Delta < \Delta_0$ ），此值迭代返回一个值函数 $V^*$ ，它提供对未来预期奖励的估计，当遵循最优策略 $\pi ^ *$ ，以及最优策略本身。为了完全清楚，我们应该注意到返回的实际值函数和策略只是近似最优的，在技术上将它们称为 $\approx V^*$ 和 $\pi \approx \pi^*$ 会更准确。

Nota Bene: 在一些教科书中，贝尔曼的更新方程可能会被另外定义，考虑到奖励函数独立于下一个状态 $s^{'}$ ，即
$\leftarrow \max_a R(s,a)+\sum_{s'} T(s,a,s') \gamma V(s')$

现在让我们定义 Q-value (Q值) 和 Q-function (Q函数)。与值函数类似，Q 函数是一种价值度量。然而，与值函数不同的是，Q 函数测量在给定状态下采取特定动作的预期折扣奖励，即 $R:S\times A\rightarrow\mathbb{R}$ 。我们将 Q-value 称为 Q 函数返回的值。

尽管 Q-learning 是用于估计 Q 值并因此从这些 Q 值优化策略的首选算法，但您也可以修改值迭代算法来求解 Q 值。

由于引入了 Q 函数，两种算法之间存在两个主要区别。首先，由于 Q 函数依赖于状态和动作，我们需要遍历所有可能的动作（第 6 行）以及所有状态的集合。其次，您会注意到更新规则（第 8 行）在合并 Q 函数后发生了变化。由于对下一个状态 $s^{'}$ 的最优 Q 值 $Q (s^{'}, a^{'})$ 的估计取决于下一个动作 $a^{'}$ ，我们需要替换来自算法 1 的第 7 行的 $V (s^{'})$ ，替换成算法 2 第 8 行中的 $max_{a'}Q(s',a')$ 。

我们注意到算法 1 和 2 通常被称为“精确强化学习” (exact RL) 的风格，因为与强化学习中常用的函数逼近算法（即基于深度学习的强化学习）不同，在这里，我们保证能够解决真的、在误差 $\Delta$ 范围内、并且给定足够的计算资源的最优 Q 值。 “近似”强化学习技术（例如深度强化学习）通常没有这样的保证。

那么，一个需要回答的重要问题是，“为什么我们不在实践中这样做而不是 Q-learning？” 不幸的是，RL 的大多数实际应用都包含太多的状态，甚至无法迭代一次，更不用说算法收敛到可接受的错误阈值所需的大量时间了。因此，首选函数逼近算法，例如Deep Q-learning。

Q-Learning 和 Deep Q-learning

在讨论 Q-learning 本身之前，让我们定义一个称为贝尔曼残差 (Bellman Residual) 的术语。

$\delta(s,a,s')=\left[ R(s,a,s') + \gamma\max_{a'}Q(s',a') \right] - \left[ Q(s,a) \right]$

由 $\delta$ 表示的贝尔曼残差计算 Q-learning 的测量误差，以描述给定转换序列 $< s, a, s^{'} >$ 时 Q 函数的当前估计有多错误。当 Q 函数最优时，我们应该发现 Bellman 最优条件的修正形式成立：

$Q(s,a)=E\left[ R(s,a,s')+\gamma \max_{a'\in A} Q(s',a') \right]=\sum_{s'}T(s,a,s')\left[ R(s,a,s') + \gamma\max_{a'\in A} Q(s',a') \right]$

当这个条件成立时，我们应该发现对于所有可能的转换序列 $\delta(s,a,s')=0$ 。然而，当我们第一次初始化 Q 函数时，就像我们在算法 3 的第 2 行中所做的那样，我们的 Q 函数几乎肯定会出错，并且 $\delta(s,a,s')$ 不会等于零。那么，我们如何改进我们的 Q 函数以使其正确呢？

Q-learning 的工作方式是将我们当前对 Q 函数 $Q (s, a)$ 的估计与 Q 函数应该是什么的“点估计”“混合”，即 $a,s')+\gamma\max_{a'}Q(s',a')$ 。混合程度由以下等式中的超参数 $\alpha$ 控制：

$Q(s,a)=(1-\alpha)Q(s,a)+\alpha \left[ R(s,a,s')+\gamma\max_{a'}Q(s',a') \right]$

如果 $\alpha=1$ ，那么我们将完全忽略当前对 Q 函数的估计。如果 $\alpha=0$ ，那么我们完全忽略新信息。在实践中设置 $\alpha$ 的一个不错的起点是选择 $\alpha=0.99$ ，这将大部分重点放在 Q 函数的当前估计上。但是，我们鼓励您尝试实验此参数！

Q-learning 的完整算法如下图所示。

重要的是要注意，与前面描述的贝尔曼方程版本不同，Q-learning 在其贝尔曼更新方程中不包括转移函数！在 Q-learning 中，我们改为模拟环境中的动作，并利用模拟期间访问的状态（即轨迹）来应用贝尔曼方程。算法中的模拟函数显示了在 Q-learning 中如何对轨迹进行采样。在轨迹的每个时间步中，我们使用 epsilon-greedy 采样策略来选择一个动作。如果随机采样的概率大于预定义的 $\epsilon$ 值，则我们贪婪地采样该动作，否则我们从所有动作的空间中随机采样一个动作。选择后，我们模拟该动作并观察该动作的下一个状态和收到的奖励。最后，我们将所有观察到的信息存储到内存缓冲区中，更新当前状态并重复此过程，直到达到最终状态。然后使用从每个模拟计算的轨迹通过 Bellman 更新方程（Q-learning 中的第 6 行）更新 Q 值。

没有转移函数使得 Q-learning 成为一种无模型 (model-free) 的 RL 算法，因为它不需要任何“世界”的先验知识来学习最优策略。这种无模型特性很重要，因为在实践中，您很少能够访问实际应用程序中所有状态动作对的转移概率。

有了足够的时间和采样轨迹，Q-learning 将能够估计每个状态动作对的最优 Q 值。然而，按照目前的构造，Q-learning 算法需要一个查找表来查找每个可能的状态动作对，并填写这些值。现实世界任务中状态动作空间的大小使得维护 Q 值查找表是不可行的。计算能力不足的一种可能解决方案是使用函数逼近技术，例如 Deep Q-learning。术语“深度”来自使用神经网络参数化 Q 值。因此，我们的目标不是学习 Q 值的表，而是转向学习可以为任何给定状态动作对输出 Q 值的神经网络的权重。使用 Bellman 残差的平方作为我们的损失函数，我们可以应用反向传播算法 (backpropagation)（第 2 周介绍）来学习 Q 网络的权重。

与 Q-learning 相比，Deep Q-learning 更适合实际应用的三个主要原因是：

内存不足：Q-learning 需要存储所有状态和动作的查找表，导致大多数现实应用对 RAM 的需求不可行。
时间不够：Deep Q-learning 的训练速度通常要快得多，因为它能够结合批量梯度下降 (batched gradient descent) 和自适应优化 (adaptive optimization) 等技术。除此之外，Deep Q-learning 不需要收敛每个状态动作对的 Q 值。
插值：Deep Q-learning 是一种函数逼近算法。因为 Q 网络近似于状态和动作的 Q 值，我们可以假设网络可以对相似的状态和动作对插入 q 值，即 $Q(s,a)\approx Q(s',a')$ 如果 $(s,a)\approx (s',a')$ 。在实践中，Deep Q-learning 比为每个单独的状态-动作对寻求收敛更有效。但是，在某些病理情况 (pathological cases) 下，这可能不是真的，例如，当状态或行为的最轻微变化可能导致截然不同的结果时。

参考资源

[1] Bootcamp Summer 2020 Week 3 – Value Iteration and Q-learning

筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
ES6模块化 vs CommonJS：你需要知道的7个关键区别前端视界前端大数据与AI人工智能前端艺匠馆 es6 前端 ecmascript ai
ES6模块化vsCommonJS：你需要知道的7个关键区别关键词：ES6模块化、CommonJS、模块系统、静态导入、动态绑定、循环依赖、Node.js摘要：本文将用“快递包裹”“超市购物”等生活化比喻，结合代码示例，从7个核心维度对比ES6模块化（ESM）与CommonJS（CJS）的差异。无论是前端新手还是后端开发者，都能轻松理解两种模块系统的设计逻辑、行为差异及实际应用场景。背景介绍目的和范
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Keras环境复现代码（二） yanyiche_ Keras 机器学习人工智能
PPOCartPole控制算法实践实验要求明确实验目的：学习和实现PPO算法，这是一种改进的策略梯度方法，通过限制策略更新的幅度来提高训练的稳定性。清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。PPO算法通过引入一种新的策略更新机制，限制每次更新的幅度，从而提高训练的稳定性和效率。PPO算法
在el-image组件的预览中添加打印功能（自定义功能） weixin_45907435 vue.js javascript 前端
思路：给图片添加点击事件，通过js获取预览的工具栏，在工具栏中添加自定义按钮及事件1、html中image标签2、再点击事件中，通过js操作dom,添加自定义按钮事件handleImageClick(fileUrl){this.$nextTick(()=>{constviewer=document.querySelector('.el-image-viewer__wrapper')//工具栏的do
.NET概观
这篇文章很多地方借鉴了DavidChappell的《Understanding.NET》和其他的一些网上的文章，但是也有一些我自己的文字。写这篇文章的本意是希望能用一些较少的文字能给读者对.NET一个全面的、但是并不深入的印象。这里谨对《Understanding.NET》的作者DavidChappell及译者侯捷、荣耀还有其他的作者们表示感谢！.NET概观微软.NET的出现，可以说是一场地震。它
浙大IInftyThink（无限深度推理引擎）原理解析及应用场景 DK_Allen 大模型 InftyThink
InftyThink（无限深度推理引擎）是由浙江大学与北京大学联合研发的大模型推理范式创新，通过“分段思考+中间总结”机制突破传统模型的上下文与计算瓶颈。以下从技术原理、核心优势到应用场景进行系统分析：⚙️一、技术原理：分步迭代与动态内存管理1.分段推理与中间总结（迭代式推理）流程拆解：将长推理任务（如数学证明）分解为多个短片段（默认≤4Ktokens），每段生成有限长度的推理内容和精炼总结。信息
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
数字ic后端设计从入门到精通8（含fusion compiler, tcl教学）ULVTLL、LVT、ULVT详解及应用 soulermax 硬件架构
LVTvsULVTvsULVTLL：从PPA、成本的角度出发比较维度LVTULVTULVTLL阈值电压(Vth)中等低极低但经过优化减少泄漏开关速度中等快略慢于ULVT但优于LVT驱动能力较低高较高，略低于ULVT漏电流较低高显著低于ULVT动态功耗中等低低静态功耗低高低面积小小略大（因需额外技术减少泄漏）延迟中等到高低略高于ULVT但低于LVT适用场景常规路径关键路径对功耗敏感的关键路径成本相对
群晖 NAS Docker 镜像加速配置详细教程
通过为群晖NAS的Docker配置镜像仓库加速服务，可显著提升镜像拉取速度与稳定性。本指南详细介绍使用毫秒镜像(1ms.run)服务的配置步骤及日常使用方法。一、配置前准备开始配置前，推荐使用毫秒镜像的免登录方式获取镜像仓库地址。相比传统的账号密码登录配置，免登录方式更为简洁高效，无需频繁验证，降低了操作复杂度。毫秒镜像服务地址：https://docker.1ms.run服务版本：毫秒镜像提供免
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
国内仍然可用docker镜像源汇总，长期维护，定期更新（2025年5月26日）夏boss Docker docker 容器
文章目录可用镜像：测试镜像是否可用使用方法1、临时配置2、永久配置linux配置镜像源Windows/Mac配置镜像源本文提供多个目前可正常访问的Docker镜像，解决Docker拉取镜像失败的问题。并提供镜像源使用方法，包括Linux/Windows/Mac系统设置。所有镜像仅供学习使用，禁止不当使用。由于一些未明确的原因，各大高校及容器技术社区纷纷关闭多个镜像加速站点，对于我们这种正规的用户来
后端Spring Data Elasticsearch的集群故障恢复 AI大模型应用实战 spring elasticsearch java ai
后端SpringDataElasticsearch的集群故障恢复关键词：SpringDataElasticsearch、集群故障恢复、分布式系统、故障处理、数据一致性摘要：本文围绕后端SpringDataElasticsearch的集群故障恢复展开深入探讨。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述了核心概念与联系，详细讲解了核心算法原理及具体操作步骤，并结合数学模型和公式进行说明。通
射频核心技术：谐振、平衡与极化解析百态老人网络算法
以下是对谐振原理（1/4波长匹配）、Balun设计及极化控制技术的系统性解析，结合专业资料进行多角度论述：一、谐振原理：1/4波长匹配技术1.基本原理1/4波长阻抗变换器通过一段特性阻抗为Z01Z_{01}Z01、长度为信号中心频率对应波长（λ0/4\lambda_0/4λ0/4）的传输线实现匹配。其核心公式为：Z01=Z0⋅RLZ_{01}=\sqrt{Z_0\cdotR_L}Z01=Z0⋅R
深度学习中常见激活函数总结向左转,　向右走ˉ 深度学习人工智能 pytorch python
以下是一份深度学习激活函数的系统总结，涵盖定义、类型、作用、应用及选择影响，便于你快速掌握核心知识：一、激活函数的定义在神经网络中，激活函数（ActivationFunction）是神经元计算输出的非线性变换函数，作用于加权输入和偏置之和：输出=f(加权和+偏置)核心价值：引入非线性，使神经网络能够拟合任意复杂函数（无激活函数的深度网络等价于单层线性模型）。二、常见激活函数类型1.线性函数（Lin
Python binary search二分查找算法详解及源码猿来如此yyy Python算法详解及源码算法 python 排序算法开发语言数据库人工智能数据结构
二分查找算法是一种在有序数组中查找特定元素的常用算法。它的基本思想是将要查找的元素与数组的中间元素进行比较，如果相等，则返回该元素的索引；如果要查找的元素比中间元素小，则在数组的左半部分继续查找；如果要查找的元素比中间元素大，则在数组的右半部分继续查找。通过不断缩小查找范围，最终可以找到要查找的元素或确定该元素不存在于数组中。二分查找算法的优点是时间复杂度为O(logn)，效率较高。这是因为每一次
大模型及agent开发5 OpenAI Assistant API 进阶应用
核心功能：外部工具的应用和流式功能工具：1.内置热门工具。由OpenAI团队实现，通过接口的方式直接提供给用户，方便快速集成。2.构建自定义外部函数流程和开发接口，允许用户通过函数调用扩展自身工具的功能。一.AssistantAPI的FileSearch功能：文件搜索通过来自其模型之外的知识来增强助手，例如专有产品信息或用户提供的文档。也就是RAGRAG流程为：索引（Indexing）索引过程是离
AI离全社会普及，只差一个计算中心？ a13163944010 人工智能
过去十年，人工智能（AI）大爆炸，并第一次走进普通人的生活。但蓬勃发展的AI却碰到一个空前棘手的问题：自2012年以来，AI算力需求6年增长30万倍，远超摩尔定律！人类现有的基础设施，已跟不上AI算力需求的增长。未来，该怎么办？【1】一百多年前，人类也曾面临同样的难题。1866年，德国西门子发明自激发电机，开启了人类的电力时代。此后十几年，虽然很多企业纷纷采用电能这种新的动力，但一台电机只能供应一
首次使用“非英伟达”芯片！OpenAI租用谷歌TPU，降低推理计算成本加百力科技知识财经研究人工智能 chatgpt
OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。英伟达的芯片主导地位正被侵蚀，OpenAI租用谷歌TPU，为首次大规模使用“非英伟达”芯片。周六，据媒体报道，作为全球最大的人工智能芯片客户之一，OpenAI近期开始租用谷歌的TPU芯片为ChatGPT等产品
关联规则算法学习—Apriori Did然数据挖掘算法学习 python 数据挖掘
关联规则算法学习—Apriori一、实验项目：关联规则算法学习项目性质：设计型二、实验目的：理解并掌握关联规则经典算法Apriori算法，理解算法的原理，能够实现算法，并对给定的数据集进行关联规则挖掘三、实验内容：1、实现Apriori算法，验证算法的正确性，并将算法应用于给定的数据集Groceries，根据设定的支持度和置信度，挖掘出符合条件的频繁项集及关联规则。2、挑选几个有代表性的频繁项集和
AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
回归预测 | MATLAB实现LSTM-SVR(长短期记忆神经网络-支持向量机)多输入单输出 matlab科研社神经网络回归 matlab
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍长短期记忆神经网络(LSTM)作为一种循环神经网络(RNN)的变体，擅长处理序列数据并捕捉长期依赖关系，而支持向量机(SVR)则是一种强大的回归算法，能够有效地处理高维数据并防止过拟合。将两者结合的LSTM
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
初学Spring AI 笔记笑衬人心。大模型学习 spring 人工智能笔记
目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain对比常见问题与建议SpringAI简介SpringAI是Spring团队推出的人工智能集成框架，旨在简化AI模型（如OpenAI、HuggingFace、Mistral、AzureOpenA
AI新高度——DEEPSEEK 数字隐士·赛博智者 ai
DeepSeek是由中国人工智能公司「深度求索」开发的一系列高性能大语言模型产品及相关技术体系，其定位为通用人工智能（AGI）探索者，目前已发展成为全球增长最快、性能领先的开源模型之一。下面是关于DeepSeek的详细介绍：一、DeepSeek的开发者与背景‌公司名称‌：杭州深度求索人工智能基础技术研究有限公司（成立于2023年）‌核心支持‌：由中国知名对冲基金「高毅资产」创立并提供资金与技术资源
AI编程工具深度对比：腾讯云代码助手CodeBuddy、Cursor与通义灵码 scuter_yu AI编程云计算
腾讯云代码助手CodeBuddy智能代码补全：基于上下文和编辑行为预测代码，支持行内补全、函数块生成及注释转代码，覆盖200+编程语言和框架，可减少70%以上的键盘输入。Craft智能体：支持自然语言驱动的多文件协同开发，能自动拆解任务并生成关联页面代码，还支持从用户需求转到研发需求，最后拆分成迭代执行。代码评审与优化：从代码规范性、性能优化、安全漏洞等多个维度对代码进行全面审查，生成详细报告并提
腾讯云实名资质 “待补充后提交” 解决方法
目录一、引言二、为什么会出现“待补充后提交”状态三、需要补充的具体材料3.1营业执照3.2法人身份证相关3.3短信管理员资料3.4合规使用承诺函四、处理流程详细步骤4.1登录腾讯云控制台4.2进入实名资质相关页面4.3上传补充材料4.4提交审核五、注意事项5.1材料规范5.2时间节点5.3审核期间注意六、常见问题及解答6.1提交后长时间未审核怎么办6.2补充材料被驳回如何处理七、总结一、引言在数字
C#调用C++的动态库技术实现方案及演示代码 yuanpan c#c++java
在C#中调用C++编写的动态库（DLL）通常使用平台调用服务（PlatformInvocationServices，简称P/Invoke）或C++/CLI包装器。以下是两种常见的技术实现方案及演示代码。方案一：使用P/Invoke直接调用C++DLLP/Invoke允许C#代码直接调用C++编写的非托管DLL中的函数。以下是一个简单的示例：1.C++DLL代码假设我们有一个简单的C++DLL，代码
ESP8266调试及使用金增辉电子开发嵌入式硬件
ESP8266调试及使用一、准备工作：1.产品外形及型号2.使用的串口调试工具3.使用的串口调试软件4.ESP8266和调试工具的接线5.插入工具到计算机的USB口6.设备管理器配置串口7.打开串口调试软件开始测试二、使用手机的串口调试助手完成TCPClient通信一、准备工作：1.产品外形及型号##使用的串口调试工具2.使用的串口调试工具3.使用的串口调试软件4.ESP8266和调试工具的接线注
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

value iteration和Q-learning算法

Markov Decision Processes

Value functions 和 Value Iteration

Q-Learning 和 Deep Q-learning

参考资源

你可能感兴趣的:(强化学习及深度强化学习,人工智能)