xl.zhang

David Silver强化学习公开课（九）：探索与利用

本讲系统地介绍了在强化学习领域如何有效地进行探索，给出了几类探索算法，通过引入后悔值，借助多臂赌博机这一与状态无关的示例从理论上论述了相关算法的有效性，随后很简单地介绍了将其扩展至与状态相关学习问题和这些算法如何具体应用于解决MDP问题。

本讲的一些算法在之前的讲解中或多或少有所涉及，本章偏重于从一些统计理论角度出发给出一些探索方法的有效性证明。

简介 Introduction

探索和利用的困局：利用是做出当前信息下的最佳决定，探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。因此探索和利用是一对矛盾。

几个基本的探索方法：

朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索；

乐观初始估计(Optimistic Initialization): 优先选择当前被认为是最高价值的行为，除非新信息的获取推翻了该行为具有最高价值这一认知；

不确定优先(Optimism in the Face of Uncertainty): 优先尝试不确定价值的行为；

概率匹配（Probability Matching): 根据当前估计的概率分布采样行为；

信息状态搜索(Information State Search): 将已探索的信息作为状态的一部分联合个体的状态组成新的状态，以新状态为基础进行前向探索。

根据搜索过程中使用的数据结构，可以将搜索分为：依据状态行为空间的探索(State-Action Exploration)和参数化搜索（Parameter Exploration)。前者指针对每一个当前的状态，以一定的算法尝试之前该状态下没有尝试过的行为。后者则直接针对策略的函数近似，此时策略用各种形式的参数表达，探索即表现为尝试不同的参数设置。后者的优点是：得到基于某一策略的一段持续性的行为；其缺点是对个体曾经到过的状态空间毫无记忆，也就是个体也许会进入一个之前曾经进入过的状态而并不知道其曾到过该状态，不能利用已经到过这个状态这个信息。

为了较简单的描述各类搜索的原理，下一节将使用一种与状态无关的赌博机来进行讲解。

与状态无关的多臂赌博机 Multi-Armed Bandits

多臂赌博机（下图）是由多个独立的单臂赌博机构成，赌博机相当于环境，个体拉下某一单臂赌博机的拉杆表示选择该赌博机，随后该赌博机会给出一个即时奖励R。各个单臂赌博机之间是独立无关的，这等于说各单臂赌博机所给出的即时奖励值无关且各自的奖励分布也不同。此外，同一时刻只能拉下其中一个赌博机的拉杆，在某一个赌博机上先前拉杆得到的奖励与随后拉杆所能得到的奖励无关。另外，多臂赌博机每给出一个即时奖励，该Episode随即结束，因此一个Episode就是由一个行为和一个即时奖励构成，与状态无关。

由上文的描述可以得出，多臂赌博机可以看成是由行为空间和奖励组成的元组，假如一个多臂赌博机由个单臂赌博机组成，那么行为空间将由个具体行为组成，每一个行为对应拉下某一个单臂赌博机的拉杆。在时刻，个体从行为空间中选择一个行为 , 随后环境产生一个即时奖励。采取行为a得到的即时奖励服从一个个体未知的概率分布：中采样得到。个体可以持续的与多臂赌博机进行交互。

问题：利用得到的即时奖励值，个体使用如何的搜索策略可以最大化其累及即时奖励：

为了方便描述问题，我们先给出几个定义：

这个问题不涉及状态本身，我们仿照状态价值（或状态行为价值）的定义来定义一个仅针对某一行为的价值Q(a)：

它的意思是一个行为的价值等于该行为能得到的即时奖励期望，即该行为得到的所有即时奖励的平均值。

假如我们能够事先知道哪一个单臂赌博机能够给出最大即时奖励，那我们可以每次只选择对应的那个拉杆。如果用表示这个最优价值，表示能够带来最优价值的行为，那么：

事实上我们不可能事先知道拉下哪个拉杆能带来最高奖励，因此每一次拉杆获得的即时奖励可能都与最优价值V*存在一定的差距，我们定义这个差距为后悔值(regret):

每做出一个行为，都会产生一个后悔值，因此随着持续的拉杆行为，将所有的后悔值加起来，形成总后悔值：

这样，最大化累计奖励的问题就可以转化为最小化总后悔值了。

注：之所以这样转换，是为了描述问题的方便，在随后的讲解中可以看到，较好的算法可以控制后悔值的增加速度。而用最大化累计奖励描述问题不够方便直观。

现在我们从另一个角度重写总后悔值。定义计数为到时刻时已执行行为的次数。定义差距为最优价值与行为a的价值之间的差。那么总后悔值可以推导成：

这相当于把各个行为的差距与该行为发生的次数乘起来，随后把行为空间的所有行为的这个乘积再相加得到，只不过这里是期望。

把总后悔值用计数和差距描述可以使我们理解到一个好的算法应该尽量减少那些差距较大的行为的次数。不过我们并不知道这个差距具体是多少，因为根据定义虽然最优价值和每个行为的差距都是静态的，但我们并不清楚这两者的具体数值，我们所能使用的信息就是每次行为带来的即时奖励。那么我们如何利用每次行为的即时奖励呢？

我们使用每次的即时奖励来计算得到时刻某一行为的平均价值：

这个方法也叫蒙特卡罗评估，以此来近似该行为的实际价值：

我们先直观了解下不同形式的随机策略其总后悔值随着时间的变化曲线：

对于Ɛ-greedy探索方法，总后悔值会呈线性增长，这是一个好的算法所不能接受的。这是因为每一个时间步，该探索方法有一定的几率选择最优行为，但同样也有一个固定小的几率采取完全随机的行为，如采取随机行为，那将一直会带来一定后悔值，如果持续以虽小但却固定的几率采取随机行为，那么总的后悔值会一直递增，导致呈现与时间之间的线性关系。类似的softmax探索方法与此类似。

对于greedy探索方法，其总后悔值也是线性的，这是因为该探索方法的行为选择可能会锁死在一个不是最佳的行为上。

现在问题是，能否找到一种探索方法，使用该探索方法时随着时间的推移其总后悔值增加得越来越少呢？答案是肯定的。下文将依次介绍几种较好的探索方法。

乐观初始估计(Optimistic Initialization)

理论上，这仍是总后悔值线性增加的探索方法，但是实际应用效果却非常好，因此放在这里介绍。其主要思想是在初始时给行为一个较高的价值，随后使用递增蒙特卡罗评估来更新该行为的价值：

可以看出，某行为的价值会随着实际获得的即时奖励在初始设置的较高价值基础上不断得到更新，这在一定程度上达到了尽可能尝试所有可能的行为。但是该方法仍然可能锁死在次优行为上。理论上，该方法与greedy或Ɛ-greedy结合带来的结果同样是线性增加的总后悔值。

衰减Ɛ-greedy(Decaying Ɛ-greedy)

这是在Ɛ-greedy的基础上做细小的修改，这个在之前讲解过：即随着时间的延长，值越来越小。我们来从理论上考虑如下这个安排：

假设我们现在知道每一个行为的最优价值，那么我们可以根据行为的价值计算出所有行为的差距。可设置为：如果一个行为的差距越小，则尝试该行为的机会越多；如果一个行为的差距越大，则尝试该行为的几率越小。数学表达如下：

按照上述公式设定的Ɛ-greedy方法是一种衰减Ɛ-greedy方法，惊奇的是它能够使得总的后悔值呈现出与时间步长的次线性（sublinear）关系：对数关系。不巧的是，该方法需要事先知道每个行为的差距，实际上式不可行的。后续的任务就是要找一个实践可行的总后悔值与时间步长呈对数关系的探索方法。

不确定行为优先探索(optimism in the face of uncertainty)

在展开该方法之前，先思考一个问题：试想一下怎样的多臂赌博机问题容易选择最好行为？如果一个多臂赌博机其中某个单臂一直给以较高的奖励，而另一个（或其它）单臂则一直给出相对较低的奖励，那么选择起来就容易得多了。相反，如果多个单臂给出的奖励变异程度较大，忽高忽低，而且多个单臂给出的奖励值有很多时候非常接近，那么选择一个价值高的行为可能就要花费很长时间了，也就是说这些单臂给出的奖励虽然类似，但其均值却差距较大。因此，可以通过比较两个单臂价值（均值）的差距∆以及描述其奖励分布的相似程度的KL散度来判断总的后悔值下限：差距越大，后悔值越大；奖励分布的相似程度越高，后悔值越低。

针对多臂赌博机，有一个定理是这样说的：存在一个总后悔值的下限，没有哪一个算法能够做得比这个下限更好：

现在我们来看看不确定行为优先搜索具体是怎么回事。想象一下现在由3个不同的单臂组成的多臂赌博机，现根据历史行为和奖励信息，绘制它们当前的奖励分布图。

特别注意这并不一定是它们真正服从的奖励分布，而是个体根据历史信息构建的一个经验分布。现在问题是，接下来该如何选择哪一个行为？正确的行为是采取蓝色的单臂，而不是绿色的单臂。理由是，蓝色的分布虽然其奖励均值比绿色的低（图中相应曲线最大P值对应的Q值），但其实际奖励分布范围较广，由于探索次数的限制，蓝色单臂对应的行为价值有不少的几率要比分布较窄的绿色单臂要高，也就是说蓝色单臂的行为价值具有较高的不确定性。因此我们需要优先尝试更多的蓝色单臂，以更准确地估计其行为价值，即尽可能缩小其奖励分布的方差。

从上面的分析可以看出，单纯用行为的奖励均值作为行为价值的估计进而知道后续行为的选择因为采样数量的原因可能会不够准确，更加准确的办法是估计行为价值在一定可信度上的价值上限，比如可以设置一个行为价值95%的可信区间上限，将其作为指导后续行为的参考。如此一个行为的价值将有较高的可信度不高于某一个值：

下图针对红色行为的价值曲线标示了该不等式右侧的两个横坐标变量的位置（或范围）：

由此可以理解，当某一行为的计数较少时，该行为价值某一可信度上的价值上限将偏离均值较多；随着针对某一行为的奖励数据越来越多，该行为价值在某一可信度的上限将越来越接近均值。我们可以用置信区间上界(Upper Confidence Bound, UCB)来指导行为的选择，令：

$a_{t}=\underset{a\epsilon A}{argmax}(\hat{Q_{t}}(a)+\hat{U_{t}}(a))$

如果即时奖励分布是明确可知的，那么置信区间上界将比较容易根据均值进行求解。例如对于高斯分布95%的置信区间上界是均值与两倍标准差的和。而一般的对于分布未知的执行区间上界如何得到呢？

该定理给出了位于区间[0,1]的两两随机变量其期望与均值之间满足的关系。结合该不等式，很容易得到:

该不等式描述的置信区间上限较之前描述的置信区间上限较弱，但也是实际可用的不等式。利用该不等式得到一个特定可信度的置信区间上限就比较容易了。假定我们设定行为的价值有p的概率超过我们设置的可信区间上界，即令：

那么可以得到：

随着时间步长的增加，我们逐渐减少值，比如，那么随着时间步长趋向无穷大，我们据此可以得到最佳行为。

给出实际应用时和的公式：

注：上式中，argmax是针对后两项整体的，式中是行为a的计数、是根据历史数据获得的奖励的平均值。

结论：由UCB算法设计的探索方法可以使得总后悔值满足对数渐进关系。

下图展示了不同设置的UCB算法和不同设置的Ɛ-greedy算法在10臂赌博机上的表现情况。该图由四个分图组成，上方与下方的不同在于10-臂赌博机各臂参数设置不同，相当于描述了各个单臂的即时奖励的分布。左侧图描述的是各个算法随时间表现，右侧图描述的是总后悔值随时间的变化。

事实表明，Ɛ-greedy算法如果参数调整得当，可以表现的很好，反之则可能是灾难。UCB在没有掌握任何信息的前提下也能做得很好。

前文降到了UCB算法可以得到很好的效果，UCB算法仅仅依靠统计各个行为的奖励均值和出现的次数，并在此基础上设定一定的置信区间上节，指导行为选择。如果我们利用历史信息构建即时奖励针对每个行为的分布情况，在此基础上决定后续行为的选择也是一条可行的办法。

假设各单臂赌博机服从相互独立的高斯分布，可以用每一个单臂赌博机的均值和标准差参数化整体奖励分布：

选择均值和一定比例的标准差之和来作为UCB算法中的置信区间上限，即依据下式选择后续行为：

注：上式中，argmax是针对后两项整体的

概率匹配 Probability Matching

概率匹配的想法先估计每一个行为可能是最佳行为的概率，然后依据这个概率来选择后续行为。

该算法背后隐藏的思想是：越不确定价值的行为有着越高的几率被选择，这种被选择的目的是通过采样减少其不确定性，进而调整后续策略。

Thompson sampling算法是基于该思想的一种实际可行的算法，该算法实现起来非常简单，同时也是一个非常接近总后悔值对数关系的一个算法。该算法的步骤如下：

1. 利用历史信息构建各单臂的奖励分布估计

2. 依次从每一个分布中采样得到所有行为对应即时奖励的采样值

3. 选取最大采样值对应的行为。

该算法的采样过程中利用到了历史信息得到的分布，同时行为得到的真实奖励值将更新该行为的分布估计。

信息价值 Value of Information

本小节尝试从信息的角度来讲解另外一种探索方法。探索之所以有价值是因为它会带来更多的信息，那么能否量化被探索信息的价值和探索本身的开销，以此来决定是否有探索该信息的必要呢？这就涉及到信息本身的价值。

先打个比方，对于一个2臂赌博机。假如个体当前对行为a1的价值有一个较为准确的估计，比如是100镑，这意味着执行行为a可以得到的即时奖励的期望，个体虽然对于行为a2的价值也有一个估计，假如说是70镑，但这个数字非常不准确，因为个体仅执行了非常少次的行为a2。那么获取“较为准确的行为a2的价值”这条信息的价值有多少呢？这取决于很多因素，其中之一就是个体有没有足够多的行为次数来获取累计奖励，假如个体只有非常有限的行为次数，那么个体可能会倾向于保守的选择a1而不去通过探索行为a2而得到较为准确的行为a2的价值。因为探索本身会带来一定几率的后悔。相反如果个体有数千次的行为次数，那么得到一个更准确的行为a2的价值就显得非常必要了，因为即使通过一定次数的探索a2，后悔值也是可控的。而一旦得到的行为a2的价值超过a1，则将影响后续数千次的行为的选择。

为了能够确定信息本身的价值，可以设计一个MDP，将信息作为MDP的状态构建对其价值的估计：

继续使用2臂赌博机的例子来解释信息状态的内容。在这个例子中，一个信息状态对应于分别采取了行为a1和a2的次数，例如S0<5,3>可以表示一个信息状态，它意味着个体在这个状态时已经对行为a1执行了5次，a2执行了3次。随后个体又执行了一个行为a1，那么状态转移至S1<6,3>。事实上这样的信息状态构建得到的MDP是一个规模非常庞大的MDP，解决它需要使用之前将结果的函数近似。

我们再举一个例子来更加清楚的解释信息状态是如何转换以及转换概率是如何计算的。

现在考虑一个即时奖励服从伯努利分布的赌博机，或者一个服从伯努利分布的药物实验：

上式中是拉下一个拉杆能够获得奖励1的概率，或者是选择一个药物其疗效超过一定预期的概率。对于由服从该分布的单臂赌博机构成的2臂赌博机，我们的目标就是找到哪一个赌博机有较高的，这样就能每次选择那个较高的赌博机，以此来最小化总后悔值。如果是药物实验，则可以想象成是比较两种药物的疗效优劣，已决定后续选择的药物。

对于这样由2个行为组成的行为空间，可以将信息状态描述为，其中为执行行为得到奖励为0的次数，其中执行行为得到奖励为1的次数。该信息状态的内容记载了所有历史信息。

下图是较为直观的信息状态转移图。我们从药物实验的角度来解释，行为a1表示个体对某一患者使用药物a1，假设疗效服从伯努利分布，它与一个金标准比较可以是只有2个：优于金标准和不优于金标准。最初个体对于药物a1的疗效一无所知，即它并不清楚药物a1优于金标准疗效的概率分布，也就是说从0-1之间任意一个概率都是均一的（图中上方括号左侧的水平线图）；而对于药物a2，个体通过实验了解到其平均有50%的概率优于金标准疗效（途中上方括号右侧的曲线图）。每一个信息状态对应的两个曲线图都是对当前状态所有历史信息的描述，也就是各药物疗效优于或不优于金标准的计数。现在前向观察这个搜索树，比如现在选择了行为a1，发现行为a1的疗效要优于金标准，那么我们修改对行为a1疗效的计数，同时反映在对应的图上。如果随后继续使用a1但发现疗效不好，则目前对于a1来说一次疗效好，一次不好。则总体呈现出50%类似于药物a2的疗效。

上述MDP是一个无线状态MDP，可以通过强化学习的方法来解决。

下图是一个纯粹数字形式描述的信息状态和转移图，对于每一个信息状态，要统计两种药物疗效分别优于和不优于金标准的次数。这就相当于是一个Bayes-Adaptive MDP。理论上优于信息状态空间规模太大，精确的求解是很难的。近期的解决方案是利用基于模拟的搜索。这在上一讲描述过。

小结

至此通过与状态无关的例子讲解了几大类探索方法。其中特别要指出的是对不确定优先探索这类方法应用在工业上有一定的危险性。因为这类算法优先尝试那些不确定的行为，而一些不确定的行为在工业应用上可能并不安全。例如控制一个机器人行走，你可能并不想让其一直探索未知的行为，这可能导致其摔倒或者其它不可预知的不好后果。

Contextual Bandits

如果把状态考虑到探索方法中，相关的算法要略作修改。举了一个在线广告展示的例子。目标在于如何向不同的用户展示一组广告，吸引用户点击。这里的状态代表这不同用户的喜好信息。行为指的是用户点击其中某一条广告。视频对这一段内容很简单的略过。

MDPs

上述探索方法虽然都是基于赌博机问题，但同样可以应用到解决MDP问题中，其中朴素探索方法已经在之前几讲内容提及过。针对其它方法的描述视讲得很快，并没有详细展开，其具体内容参考pdf讲义。

本文转自：https://zhuanlan.zhihu.com/p/28428947

地产销售：用业余时间做了一个楼盘SCRM小程序？
为了完成销售业绩和用户满意，做了个小程序。–六居地产朱同学1需求背景六居地产，一家无锡专业的房地产中介公司，主要提供二手房买卖交易信息、房屋出租等服务，在房产销售领域，团队成员一直还在传统的微信笔记分享方式传递房产资料。随着房地产销售业绩下滑，六居地产销售团队面临着如何更有效地分发房产资源和持续运营客户的挑战，急需能够丰富资源展示并获取客户联系方式的解决方案。2选型之路六居公司以业务为重，客户体量
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
Seo新手入门，网络编辑如何写好文章（写文章技巧）魔仙堡捏泥巴 SEO
Seo新手入门，网络编辑如何写好文章（写文章技巧）概述刚入SEO门的小白在进行网站编辑的时候一定很头痛，SEO的标题怎么写？文章关键词怎么部署？注意要点都有什么？这一系列的问题，今天就让小编我来为您解答吧，文章技巧得这样写！SEO标题的重要性SEO标题就是网页的标题title在浏览器最左边最顶部显示的地方，他也是被搜索引擎当做是确定当前网页主体最主要的参数之一。为了吸引蜘蛛爬行，你的网站的标题是需
强化学习-双臂老虎机 transuperb 强化学习人工智能
本篇文章模拟AI玩两个老虎机，AI需要判断出哪个老虎机收益更大，然后根据反馈调整对于不同老虎机的价值判断，如果把这个看作一个简单的强化学习的话，那么AI就是agent，两个老虎机就是environment，AI首先会对两台老虎机有一个预测值Q，预测哪一个的价值高，然后AI通过策略函数判断应该选择哪个老虎机，进行Action后根据Reward更新每个老虎机的价值Value，然后再进行下一次判断，直到
Python视觉实战项目31讲源码地址机械小蛟龙笔记 opencv python 深度学习
Python视觉实战项目31讲源码地址来源：公众号小白学视觉2月1日使用OpenCV实现猜词游戏https://github.com/spmallick/learnopencv/tree/master/Hangman使用OpenCV实现图像修复https://github.com/spmallick/learnopencv/tree/master/Image-Inpainting自适应显着性的图像
刚入门3DGS的新手小白能够做的工作一碗姜汤计算机视觉 3d 计算机视觉
作为刚入门3DGaussianSplatting（3DGS）的新手，你可以从以下几个方向入手，逐步掌握核心概念并参与实践：1.基础学习与工具熟悉(1)理解核心概念必读资料原论文：3DGaussianSplattingforReal-TimeRadianceFieldRendering（Kerbletal.,SIGGRAPH2023）。通俗解读：博客或视频教程（如YouTube解析）。关键点：高斯球
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
解析AI算力网络与通信领域强化学习的算法 AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构人工智能网络算法 ai
解析AI算力网络与通信领域强化学习的算法：从"快递员找路"到"智能网络大脑"关键词：AI算力网络、通信领域、强化学习、马尔可夫决策、资源调度摘要：本文将用"快递物流系统"的类比，带您理解AI算力网络与通信领域如何通过强化学习实现智能决策。我们会从核心概念讲起，逐步拆解强化学习在网络资源调度中的算法原理，结合Python代码实战，最后探索其在5G/6G、边缘计算等场景的应用。即使您没学过复杂数学，也
C语言大作业——学生信息管理系统 yeye_queenmoon c语言开发语言
前言零基础小白第一次写项目，耗时两天，bug不断，浅浅记录一下项目介绍github依照作业要求分三层(1)Viewlayer(main.c):receiveuserinputs,displaydataandinteractwithusers.(2)Logiclayer(stu_service.c):processrelativebusinesslogics.(3)Dataaccesslayer(s
DevSecOps时代下测试工具的全新范式：从孤立到融合的质变之路不念霉运测试工具
在数字化转型浪潮席卷全球的今天，软件交付速度和质量之间的平衡成为企业面临的核心挑战。传统开发模式中，测试往往被视为独立环节，与安全、运维等活动相互割裂，导致质量缺陷和安全漏洞在后期才被发现，造成巨大的返工成本。然而，随着DevSecOps理念的兴起，这一困境正在被打破。GiteeTest等新一代测试平台通过整合安全检测、统一缺陷管理和智能报告生成等能力，正在重塑软件测试的边界和内涵，为企业构建起贯
探索高性能网络前沿：InfiniBand协议规范深度解读霍列领Hector
探索高性能网络前沿：InfiniBand协议规范深度解读【下载地址】IB协议规范文档下载IB协议规范文档下载项目地址:https://gitcode.com/open-source-toolkit/3c4e6项目介绍在高速数据传输与高性能计算的世界里，InfiniBand协议犹如一盏明灯，照亮了高效数据中心和超级计算的未来之路。今天，我们特别推荐一个宝贵的开源项目——【IB协议规范文档下载】。该项
AI重塑IT行业：从效率工具到认知杠杆的人机协同进化之路 AI_DL_CODE 人工智能之深度学习人工智能 IT行业变革人机协同 AI伦理软件开发网络安全职业转型
摘要：本文系统阐述AI技术对IT行业的革命性影响，揭示其作为"认知杠杆"而非"职业终结者"的本质。通过分析AI在软件开发、网络安全、数据决策等领域的应用实践，量化展示AI对编程效率（代码生成30%-50%）、测试周期（压缩40%）、故障修复时间（MTTR降低75%）等关键指标的提升。同时深入剖析人类在创新设计、伦理判断等维度的不可替代性，构建"AI处理确定性任务+人类主导价值创造"的双螺旋协作模型
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
找组织——机器学习社区、团体洞察小哥伯涵机器学习人工智能
在Github上，有一些中文社区可以看一看：prompt“如果我是个AI小白，想参加到一个组织，接收最新的AI有趣源项目、一些定期的刊物等。我应该加入哪些组织？”AI社区——深度学习社区Reddit上的MachineLearningsubreddit:https://www.reddit.com/r/MachineLearning/是一个拥有超过400,000名成员的活跃社区。在这里，您可以找到有
GitHub加速全攻略：5种科学提速方案实测有效（附详细教程）果果了不起 github 其他
文章目录一、为什么你的GitHub慢如蜗牛？（真相了！）二、Hosts文件修改法（永久有效！）1.获取最新IP地址2.修改系统Hosts文件3.刷新DNS缓存三、镜像站大法（小白首选）1.项目下载加速2.常用镜像站列表四、开发者的秘密武器（本地加速）1.Steam++（原名WattToolkit）2.FastGithub五、Git配置黑科技（命令行专属）六、浏览器插件方案（临时救急）七、终极方案大
AI 在自动驾驶路径规划中的深度强化学习优化 QuantumWalker 人工智能自动驾驶机器学习
```htmlAI在自动驾驶路径规划中的深度强化学习优化在当今快速发展的科技领域中，人工智能（AI）的应用正在不断拓展其边界。特别是在自动驾驶技术中，AI的应用已经从简单的感知和识别发展到了复杂的决策和控制阶段。其中，深度强化学习作为AI的一个重要分支，在自动驾驶路径规划中发挥着越来越重要的作用。一、深度强化学习简介深度强化学习是一种结合了深度学习和强化学习的机器学习方法。它通过让智能体在环境中进
[创业之路-441]：行业 - 互联网+移动互联网和大数据时代的100个预言：技术个性、商业变革、社会重构、文化娱乐、环境、教育、健康医疗、未来生活方式文火冰糖的硅基工坊创业之路大数据重构人工智能架构科技系统架构健康医疗
目录一、技术革新二、商业变革三、社会重构四、文化与娱乐六、环境与可持续发展七、教育与知识传播八、健康与医疗九、伦理与法律十、未来生活方式十一、终极预言结语在移动互联网和大数据时代，技术革新正以前所未有的速度重塑社会、经济与文化。以下是基于当前趋势和未来可能性的100个预言，涵盖技术、商业、社会、文化等多个维度：一、技术革新通信-5G与6G的普及：未来5年内，5G将覆盖全球90%的人口，6G技术开始
不用vue,只用html,即可简单实现electron项目豆豆（前端开发+ui设计） electron javascript 前端
为你提供一个最简单的Electron项目模板，包含完整的代码、配置和打包说明。即使你是小白，也能快速上手。1.项目结构/your-project├──main.js#Electron主进程文件├──preload.js#安全通信脚本（可选）├──index.html#前端页面├──package.json#项目配置└──build/#打包配置目录（后文会生成）2.初始化项目在空文件夹中打开终端，执
2025 年数据资产市场发展趋势：洞察先机，拥抱变革开利网络人工智能大数据搜索引擎信息可视化物联网
在数字化浪潮奔涌的当下，数据资产已然成为推动经济发展的关键力量。2025年，数据资产市场呈现出哪些令人瞩目的发展趋势？今天，就让我们一同深入探寻。政策东风，强劲助力2025年，数据资产市场可谓“政策春风拂面”。像财政部发布的《企业数据资源相关会计处理暂行规定》以及《关于加强数据资产管理的指导意见》，这就好比给企业指明了一条“数据资产价值挖掘之路”。明确了数据资产怎么确认、怎么计量、怎么入表，企业这
Stable Diffusion提示词终极指南：从手残党到绘画大神的进阶之路（附实战案例） qq_21422587 stable diffusion 其他
文章目录一、提示词不是玄学，是门科学（先搞懂底层逻辑）核心三要素（记笔记！）：二、新手必看的5大翻车现场（附拯救方案）避坑指南（划重点）：三、高能技巧大放送（直接抄作业）四、高阶玩家必备神器（省时省力）五、终极心法（价值百万！）六、常见QA急救站各位老铁们！！！今天咱们要聊的这个话题绝对劲爆——如何用StableDiffusion写出让人跪的提示词？（手把手教学，包教包会）作为把显卡烧坏过三块的老
python实现文件管理系统_Python - 文件管理系统 weixin_39998906 python实现文件管理系统
一、概述前段时间帮公司写了一个资产管理的网站，(https://www.cnblogs.com/ddzj01/p/11316837.html)，系统运行的比较稳定，小白的第一个项目得到了领导的肯定。果不其然，第二个需求就来了，需要帮公司再写一个文件管理的系统。二、过程1.由于公司属于跟钱有关的行业，监管严格。所以公司的所有电脑U盘，网盘全都被限制了。不要说把公司的文件拷走，就连从外网把文件拷贝到公
n8n 精通之路：从入门到专家级应用的全方位学习指南源力祁老师最佳工具人工智能学习方法
1.踏上您的n8n精通之旅：简介n8n是一款功能强大、可扩展的源可见工作流自动化工具，它允许用户通过可视化的节点式界面连接各种应用程序、API和服务，从而实现任务自动化。它同时支持低代码和无代码开发方式，兼具了开发的便捷性与灵活性。达到精通水平意味着您将能够从容应对复杂的自动化挑战，优化现有流程，集成先进的人工智能（AI）功能，甚至根据需求对n8n本身进行扩展。精通n8n不仅仅是简单的任务自动化，
人脑 vs AI：一场耗能相差50万倍的智慧竞赛，当硅基智能决定重走碳基进化之路，我们如何跨越鸿沟？ AI、少年郎人工智能机器学习计算机视觉深度学习神经网络自然语言处理
一、人脑：自然界最高效的“超算”，让AI望尘莫及1.效率碾压：1杯咖啡的能量vs一座小镇的耗电人脑：仅需20瓦功耗（相当于一盏节能灯），每秒处理1千亿次神经信号，可连续工作数十年。顶级AI（如GPT-4）：单次训练耗电1300兆瓦时，相当于130个家庭全年用电量，却仅学会静态文本匹配。震撼对比：人脑学习《红楼梦全集》的能耗≈0.001度电，而AI训练同等数据需消耗1000年的人脑总能耗。2.多模态
怎样在pycham上安装XGBoost(windows操作系统) youxiazzz12 综合大数据深度学习 xgboost
搞数据分析、挖掘的时候，网上的代码来了个看到下面的红色下划线，心里一咯噔，最怕这种导入包的问题，又要开始搞配置了。先运行代码看看吧，果然报错：ModuleNotFoundError:Nomodulenamed'xgboost'看来还是得安装这个xgboost。经历了各种痛苦的摸索，终于搞定，还是汇总一下吧。小白的摸索太过痛苦了，汇总一下大家共勉。弯路就不放出来了，全是泪。直接讲正确路径有一些初步准
OpenAI与微软的未来合作之路：充满挑战的AI竞赛与共赢人工智能我来了人工智能 AI microsoft 人工智能
在全球互联网巨头们的角力中，OpenAI与微软之间的合作关系无疑已成为焦点之一。自2019年微软向OpenAI投资10亿美元起，这对科技巨头便紧密地走在一起。在微软的Azure云平台上，OpenAI的软件工具得以独家销售，微软也因此获得优先使用这些创新技术的权利。然而，随着OpenAI不断发展壮大，这段合作关系正面临着一系列的挑战和考验。纷争的导火索OpenAI与微软的合作，初衷是通过资源共享来实
[创业之路-388]：华为人力资源管理 - 价值篇 - 围绕价值展开的人力资源建设文火冰糖的硅基工坊创业之路华为管理公司治理架构战略
前言：华为人力资源管理价值篇：以奋斗者为本的哲学启示在科技竞争白热化的今天，企业生存与发展的核心命题已从“资源占有”转向“价值创造”。华为三十余年从深圳民企成长为全球科技巨擘的历程，恰恰印证了“人力资源即第一战略资源”的真理。其价值创造与分配体系如同一台精密仪器，将个体奋斗与组织目标熔铸成持续进化的动力引擎，其管理哲学背后蕴含的深层逻辑，值得每个企业管理者反复咀嚼。一、价值创造的底层逻辑：从“狼性
深度解析 P600 生态：RWA 与实体经济融合的创新之路区块链小八歌区块链
在数字金融的漫长演进中，现实世界资产（RWA）上链被视为通往金融普惠和资本重构的关键入口。从美联储对TokenizedTreasury的认可，到香港、阿布扎比等地相继开放RWA试点，监管与市场的风向正在发生根本性变化。而在这个被视为区块链下一个万亿级应用入口的赛道中，五信控股（FiveTrustHoldings）构建的P600生态体系，正在以一种底层结构级的方式，回应“RWA如何与真实产业联动”、
磁悬浮轴承电磁设计：从理论到实践的高性能跃迁之路 FanXing_zl 磁悬浮轴承磁悬浮磁悬浮轴承磁悬浮电磁设计磁悬浮控制性能对比
某高速透平机械项目现场，工程师们屏息凝神。随着指令下达，转子在完全无接触的磁力支撑下平稳越过120kRPM临界转速，振动值稳定在2μm以内—这场静默的悬浮之舞，其核心秘密正隐藏在精妙的电磁设计之中。一、磁悬浮轴承：电磁力支撑的工业革新磁悬浮轴承（ActiveMagneticBearing,AMB）通过可控电磁力实现转子稳定无接触悬浮，彻底消除了机械摩擦与润滑需求。其核心优势在于：支持超高转速：支持
从蓝图到实景：成都芯谷金融中心文化科技产业园的崛起之路
成都芯谷金融中心文化科技产业园的崛起，是清晰战略指引下，从宏伟蓝图到产业实景的精准实践，其核心在于构建一个融合文化、科技与金融的创新生态。一、精准定位与战略擘画项目启动之初，即确立了“城市新地标，未来新中心”的战略愿景。此定位不仅明确了其在区域发展格局中的核心地位，更旨在通过高标准规划提升城市形象与产业能级，为后续发展奠定坚实基础。二、核心驱动：三大要素深度整合其崛起的关键在于深度整合文化、科技、
[创业之路-442]：行业 - 互联网 - B2C与B2B领域中互联网平台与销售角色的差异化分析
在数字化浪潮下，互联网平台对B2C与B2B领域的渗透呈现出截然不同的逻辑。B2C领域通过平台化重构了交易链条，而B2B领域则因行业特性仍高度依赖传统销售模式。以下从核心差异、平台作用边界、销售角色演变及未来趋势四个维度展开分析：一、B2C领域：平台化驱动的“去销售化”革命信任机制的重构平台背书：淘宝、亚马逊等平台通过信用评分、支付担保（如支付宝）、七天无理由退货等机制，将“陌生人交易”转化为“平台
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

David Silver强化学习公开课（九）：探索与利用

简介 Introduction

与状态无关的多臂赌博机 Multi-Armed Bandits

Contextual Bandits

MDPs

你可能感兴趣的:(【强化学习】,【强化学习小白之路】)