会飞的斯芬克斯

Reinforcement Learning: An Introduction Second Edition - Chapter 6

Temporal-Difference Learning

时序差分（TD）学习是强化学习最核心、最新颖的思想。TD学习结合了MC方法和DP方法的思想。TD learning 可以从经验中学习策略而不需要环境动态特性的模型；同时无需等待交互的最终结果，而可以基于已得到的其他状态的估计值来更新当前状态的价值函数（they bootstrap）。

本章先关注预测问题，然后是控制问题。这些方法的主要区别在于它们解决预测问题的不同方式。

6.1 Temporal-Difference Prediction

相对于 $c o n s t a n t$ - $\alpha$ MC，上一章的方法都是 $v a r i a b l e$ - $\alpha$ MC（使用增量的方式取平均，便可得到变量步长参数 $\alpha$ ）。蒙特卡洛方法需要等到一幕结束时才能确定回报，来更新状态价值估计。TD方法只需要等到下一时刻即可更新估计。实际上，蒙特卡洛更新的目标是 $G_t$ ，而TD更新的目标是 $R_{t+1} + \gamma V(S_{t+1})$ 。这种TD方法被称为 TD(0) 。

TD(0) is a bootstrapping method，因为它的更新某种程度上基于已存在的估计。TD methods combine the sampling of Monte Carlo with the bootstrapping of DP.

TD方法：采样+自举

表格型 TD(0) 的回溯图。Sample backups.

TD 误差。取决于下一个状态和下一个收益，在下一时刻才能获得。如果价值函数数组V在一幕内没有改变，则蒙特卡洛误差可写为TD误差之和。

例 6.1 开车回家：估计总时间=消耗时间+估计剩余时间。蒙特卡洛方法只能离线更新。根据TD方法的规则，each error is proportional to the change over time of the prediction, that is, to the temporal differences in predictions.

由上可得，时序差分：数值随时间的变化。

练习 6.2：

由于高速入口相同，因此大部分事件是之前出现过的，它们的价值的期望值不变。TD方法可以根据这些状态的估值来加快对新状态价值的估计。而蒙特卡洛方法只能在每次到家时，根据获得的回报更新所有状态的估计值。因此在一开始时，凭借过去的经验，TD更新能更快收敛到新状态的期望值。注：在回家问题中，办公室和停车场的变化不会对其他状态的价值产生影响。因为每幕中其他状态只会出现在这两个状态之后，而不会重新转移到这两个状态。
让我们假设我们试图学习在一个球场打一轮高尔夫的最佳策略，我们假设我们之前已经用蒙特卡洛方法和TD方法学习了球场的价值函数。如果18个洞中有一个被改变了，蒙特卡罗方法将要求我们打完整个球场，以更新一次我们对与新洞有关的状态的理解（即用其他状态的采样来估计新状态的价值）。对于TD方法，我们要做的仅仅是对新洞进行预测，然后我们可以对其余的洞恢复到以前学到的价值函数（新的球洞不会影响其他球洞的价值？）（用其他状态的估计来估计新状态）。因此，使用TD方法能更快收敛到价值函数的真值。
另外，对于很难结束的任务或持续性任务，TD方法会比蒙特卡洛方法更好。

6.2 Advantages of TD Prediction Methods

相比于DP方法，TD方法不需要环境模型，即动态函数p。相比于蒙特卡洛方法，TD方法自然地运用了一种在线的、完全递增的方法来实现。注：TD方法可以被应用于更广泛的问题。

一些蒙特卡洛方法必须忽略或折扣采取实验性动作的幕，这可能会大大减缓学习速度。而TD方法则不太容易受到这些问题的影响，因为它们从每次状态转移中学习，与采取什么后续动作无关。

对于任何固定的策略 $\pi$ ，TD(0) 都已经被证明能够收敛到 $v_\pi$ 。大多数收敛性证明只适用于上述(6.2)算法中基于表格（table-based）的情况，但有些也适用于广义线性函数逼近（approximation）的情况。

目前还不能在数学上证明 TD 方法和蒙特卡洛方法哪个能更快地收敛，甚至尚不清楚如何来最恰当地形式化表述这个问题。不过在实践中，TD 方法在随机任务上通常比 $c o n s t a n t$ - $\alpha$ MC 方法收敛得更快。

例 6.2 随机游走：
马尔可夫收益过程（Markov reward process, MPR）：不包含动作的马尔可夫决策过程。

练习 6.3：在第一幕中，智能体的序列为：C,0,B,0,A,0。因为终止状态价值为0， $\alpha$ =0.1，其余状态价值为0.5。根据更新公式， $V_a=0.45$ 。

练习 6.4：

根据曲线可以推测，如果 $\alpha$ 增大，算法能更快收敛，但均方根误差更大；如果减小，算法收敛得更慢，但均方误差减小。相比TD方法，MC方法对于步长参数更加敏感，图中采用了比TD方法小一个数量级的 $\alpha$ ；另外MC方法整体比TD方法收敛得慢，图中 $\alpha$ 的选择没有给算法性能带来明显区别，很难说图中的哪条MC曲线收敛， $\alpha$ =0.4在最后仍然在波动， $\alpha$ =0.1则持续在下降。我们无法找到一个固定的 $\alpha$ 使两个算法都获得更好的性能，我们只能在收敛速度和精度之间进行取舍。
根据曲线，蒙特卡洛方法的主要缺点是它的值函数更新比TD方法少得多。对于100个幕，MC方法可以进行不超过100次的更新。对于TD方法，幕长度的期望值为6，因此它在100个幕中进行了600次价值函数更新。α的任何取值都不能克服采样率（sample rate）低的问题。

练习 6.5：较大的 $\alpha$ 可以让算法快速收敛，但是后期却会造成估计值在真值周围以固定的幅度波动，波动幅度与 $\alpha$ 大小成正比。最初算法的估值十分接近真值，但是由于 $\alpha$ 为常数，使得估值又离开了真值，最终估值与真值的距离稳定在了一个固定的值。此现象与价值函数的初始化无关，假设将其初始化为真实值，较大的 $\alpha$ 会使估计偏离（drift away）真实值。

练习 6.6：动态规划：我们知道策略 $\pi$ 和动态函数p，因此所有状态都可以被精确计算。首访型MC策略估计：设置状态空间，并使用策略 $\pi$ 进行模拟。在每个事件之后，对每个状态的回报进行回溯更新，并进行平均。我认为作者使用了动态编程，因为我们只需要解决6个简单的联立方程，而MC方法可能需要模拟数千幕才能收敛到真实值。

6.3 Optimality of TD(0)

有限经验。思路：反复呈现这些经验，直到方法收敛至一个定值。

批量更新：根据给定的值函数，对于除终止状态外的每个时刻，计算增量，但是价值函数仅根据增量的和改变一次。然后利用新的值函数再次处理所有可用的经验，产生新的总增量，更新值函数，以此类推，直到值函数收敛。批量更新：只有在处理了整批的训练数据后才进行更新。

相比循环数据并每时刻进行更新（也算是一种异步更新？），优点？：减小采样方差对估计的影响？；在深度学习中，批处理一次性计算大型数组要比公开逐步计算各个小型数组速度更快[1]。

选择足够小的 $\alpha$ ，TD(0) 和 $c o n s t a n t$ - $\alpha$ MC 会收敛到不同的结果。在正常情况下，这些方法不会一下子就直接得到它们各自的批量更新最终结果。

例 6.3 批量更新的随机游走：每经过新的一幕后，之前所有幕的数据就被视为一个批次。批量TD方法始终优于批量蒙特卡洛方法。批量蒙特卡洛的估计是实际回报的样本平均，可以认为是最优估计，但是批量TD的性能却比批量MC更好。The Monte Carlo method is optimal only in a limited way, and that TD is optimal in a way that is more relevant to predicting returns.

例 6.4 你是预言者：V(A)的最优估计值 $\rightarrow$ two reasonable answers：批量TD(0)方法：先建模，再根据模型计算（状态价值的更新顺序？答：多次迭代后才获得最优估计）；批量蒙特卡洛方法：状态A只出现了一次且对应回报为0，因此V(A)=0。这个答案可以使训练数据上平方误差最小，实际上在这批数据上误差为零（ $\sum($ 采样-均值 $^2$ ）。即使蒙特卡洛方法在现有数据上更好，但TD(0)方法会在未来数据上产生更小的误差（与真实值的误差？）。

两种方法的一般性区别：批量蒙特卡洛方法总是找出最小化训练集上均方误差的估计，而批量TD(0)总是找出完全符合马尔可夫过程模型的最大似然估计（the maximum-likelihood estimate）参数（这也使得在无法满足马尔可夫性时，MC方法的性能下降最小）。一般来说，一个参数的最大似然估计是使得产生训练数据的概率最优的参数值。确定性等价估计（certainty-equivalence estimate）：如果模型正确，则估计正确；它等价于假设基本过程的估计是确定性的。

这一点也有助于说明为什么TD方法比蒙特卡洛方法收敛得更快。在以批量形式学习时，TD(0)计算的是真正的确定性等价估计。相比之下，批量蒙特卡洛计算的是最小平方误差估计，它对基本过程的估计（即对模型的估计）是近似的而不是确定性的。

最后，值得注意的是，直接计算确定性等价估计几乎是不可能的。对于n个状态的问题，建立过程的最大似然估计需要 $n^2$ 个内存（ $n\times n$ ），用传统方法计算相应的价值函数则需要 $n^3$ 数量级的步骤。相比之下，TD方法则可以使用不超过 $n$ 个内存，并通过在训练集上反复计算来逼近同样的答案。对于状态空间巨大的任务，TD方法可能是唯一可行的逼近确定性等价解的方法。

练习 6.7：(省略了部分流程）
For every step in the episode:
$A \leftarrow$ the action under policy $b$ at state $S$
$\rho_{t:t} \leftarrow \frac{1}{b(A|S)}$
Obtain $R, S^{'}$
$\leftarrow Q(s,a) + \alpha[\rho_{t:t}R + \rho_{t:t}\gamma Q(s',a) - Q(s,a)]$
$\pi(S) \leftarrow argmax_aQ(S,a)$
$S \leftarrow S^{'}$

6.4 Sarsa: On-policy TD Control

TD预测 + GPI

和使用蒙特卡洛方法时一样，我们同样需要在试探和开发之间做出权衡。

Sarsa (an on-policy TD control method)：和所有其他同轨策略方法一样，持续地为行动策略 $\pi$ 估计其动作价值函数 $q_\pi$ ，同时以 $q_\pi$ 为基础，朝着贪心优化的方向改变 $\pi$ 。

The convergence properties of the Sarsa algorithm depend on the nature of the policy’s dependence on Q. 策略为 $\epsilon$ - $g r e e d y$ 策略或 $\epsilon$ - $s o f t$ 策略。

例 6.5 Windy Gridworld：不能简单地将蒙特卡罗方法用在此任务中，因为不是所有策略都能保证终止。

6.5 Q-learning: Off-policy TD Control

强化学习早期的一个重要突破。待学习的动作价值函数使用对最优价值函数 $q_*$ 的近似而不是正在遵循的策略进行更新（作为对比，Sarsa使用待学习的动作价值函数本身作为学习目标）（价值迭代和Q-learning都将最优价值函数作为更新规则/学习(更新)目标，只不过一个是规划一个是学习）。

找到最优行为的条件：所有二元组都能持续更新；步长参数满足随机近似条件。

例 6.6 在悬崖边上行走：比较同轨策略和离轨策略两种方法间的区别。Sarsa 安全路径，Q-learning 最优路径。Q-learning 学到了最优策略，但由于动作是通过 $\epsilon$ - $g r e e d y$ 的方式来选择的，所以智能体偶尔会掉下悬崖。与之对比，Sarsa 考虑了动作选择的方式(即 $\epsilon$ - $g r e e d y$ )，学到了一条更远但更安全的路径。由于 Q-learning 学到的最优策略偶尔会掉下悬崖，所以其在线性能不如学到迂回策略的 Sarsa。当然，如果 $\epsilon$ 逐渐减小，那么两种方法都会渐近地收敛到最优策略。

练习 6.11：因为 Q-learning 用来学习的策略和生成样本的策略不同，其目标策略是贪心策略，而行为策略是 $\epsilon$ - $g r e e d y$ 策略。

练习 6.12：是的。如果采用贪心策略，两种算法将完全相同，但是动作选择和权重更新可能不同，这取决于Q和S的初始化。例如，如果每个状态-行动对被分配一个随机值 $Q (s, a) \in (0, 1)$ ，每种情况下的贪婪动作选择会不同。因为动作选择不同，更新也不同，并且因为两种算法都没有探索，所以不能保证它们会收敛在同一个解决方案上。

6.6 Expected Sarsa

遵循 Q-learning 的模式，但对于下一个“状态-动作”二元组取期望。给定下一个状态，该算法确定地向期望意义上的Sarsa算法所决定的方向移动。

Expected Sarsa 更复杂，但它消除了因为随机选择 $A_{t+1}$ 而产生的方差。在悬崖行走中，状态的转移是确定的，随机性完全来自于策略。此时期望 Sarsa 可以放心地设定步长为1（学习目标不受策略的随机性的影响），而不用担心长期性能地损失。相比之下， Sarsa 只能在步长较小时有良好地长期表现，但这样短期性能会非常差。

在本例中期望 Sarsa 被用作一个同轨策略。但一般情况下，通过调整目标策略和行为策略，期望 Sarsa 可以成为离轨策略算法。期望 Sarsa 涵盖并推广了 Q-learning，同时比起 Sarsa 也稳定地提升了性能。除了增加了少许计算量外，期望 Sarsa 应该完全由于这两种 TD 算法。

6.7 Maximization Bias and Double Learning

构建目标函数时的最大化操作。在之前讨论的控制算法中，一个超过估计值的最大值被隐式地用作最大值的估计，这会产生一个显著的正偏差。正偏差(a positive bias)：估计值大于真实值的部分。最大化偏差(maximization bias，又称过估计overestamation)：一个超过估计值的最大值被隐式地作为对最大值的估计，所产生的一个显著的正偏差。注：隐式地(implicitly)，表明这种对应关系可能是对的，也可能是错的。

例 6.7：最大化偏差会损害TD控制算法的性能。注：状态B有很多动作，它们的收益服从均值为-0.1，方差为1的正态分布。在交互中，很有可能一些动作的价值被高估（即它们的估值含有正偏差，估计值大于真实值甚至大于0），导致出现最大化偏差。在更新时，贪心策略不断地将被高估的动作的值反向传递给之前的状态。由于 Q-learning 根据动作价值的最大值来选取动作，最大化偏差可能会导致某些动作的估计值超过了实际最优动作的估计值，使得智能体不断选择这些动作，进而影响算法性能。

既然最大化偏差会影响智能体的决策，那么有没有算法可以避免最大化偏差？先考虑一个赌博机的例子。

有一种看法是，最大化偏差是由于确定价值最大的动作和估计其价值这两个过程使用了相同的样本。双学习（double learning）：将样本分为两个集合，学习两个独立的对真实价值的估计 $Q_1(a)$ 和 $Q_2(a)$ 。一个用来确定最大的动作（此动作可能不是实际最优动作） $A^*=argmax_aQ_1(a)$ ，另一个用来计算其价值的估计 $Q_2(A^*)=Q_2(argmax_aQ_1(a))$ 。由于 $E[Q_2(A^*)]=q(A^*)$ ，因此这个估计是无偏的。上述步骤也可以交换角色进行，以得到另一个无偏估计。这两个无偏估计便是对真实价值的最大值的估计。

如此我们便可以避免赌博机的动作价值估计的最大化偏差。虽然我们一共学习了两个估计值，但每次游戏只更新一个估计值（即执行动作，然后将收益添加到其中一个集合中）。双学习需要两倍的内存，但每步无需额外的计算量。注：两个集合，相当于对于每个动作，都有两个分布。即使第一个分布中存在最大化偏差，其选出来的动作在第二个分布中也产生最大化偏差的概率很小。

双学习的思想可以很自然地推广到具有完备MDPs的算法s中。Double Q-learning。用一个估计来更新另一个估计。两个动作价值的估计值都可以在行动策略中使用。

练习 6.13： $Q_1(S,A)\leftarrow Q_1(S,A) + \alpha(R+\gamma \sum_{a}\pi(a|S')Q_2(S',a)-Q_1(S,A))$

6.8 Games, Afterstates, and Other Special Cases

第一章中的井字棋游戏 $\rightarrow$ afterstates & afterstate value functions：动作之后产生的状态的价值。当我们只知道环境动态的初始部分的信息/知识而不一定知道全部动态信息时，后位状态很有用。后位状态价值函数是利用这种知识的一种更高效的学习方法。

在井字棋中，很多“状态-动作”二元组都会产生相同的状态，即相同的后位状态。传统的价值函数会分别评估这些“状态-动作”二元组，而后位状态函数会将这些情况看作是一样的。

除了游戏，后位状态还能被应用在很多任务中。在这种情况下，动作实际上是根据它们完全已知的直接影响来定义的。

虽然又很多特殊任务使用特殊的学习算法，但是本书中提到的原理是广泛适用的。

练习 6.14：因为状态之间的转换是确定的，我们可以使用后位状态方法。对租车问题的每个状态，列出所有可能的后继状态。根据后继状态的价值， $\epsilon$ -贪心地行动。类似于井字棋，我们的动作和对手的动作（租车还车数）交替进行。
由于很多二元组的后继状态都相同，使用后位状态将会减少需要评估的状态的数量，降低计算成本，因此能够加速收敛。

6.9 Summary

对于预测问题，如何维持足够的试探？

Expected Sarsa 是一种离轨策略方法。

TD方法是一种一般性方法，除了强化学习问题外，它们是用来学习如何在动态系统中做出长期预测的一般方法。

Bibliographical and Historical Remarks

References

[1] Saitoh, Koki. Deep Learning from the Basics: Python and Deep Learning: Theory and Implementation. Packt Publishing Ltd, 2021.

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts