什么都不太行的syq

＜深度强化学习落地方法论＞笔记

Part 1. 需求分析

DRL的过拟合天性

DRL解决的是从过去经验中学习有用知识，并用于后续决策的问题。比起视觉方面的检测、识别等，决策是一个更高层的行为，所以对环境要求更为严苛，导致DRL十分依赖过拟合，并且泛化能力非常差（唯一被允许在训练集上测试的算法的称号不是盖的）。此外，由于训练过程中缺乏直接监督的信号，DRL对数据量的要求也非常巨大。

所以在DRL训练中，Value函数去过拟合环境转移特性与reward函数，而Policy函数去过拟合Value函数。所以当环境特性发生改变时，Value和Policy就会失效，DRL自然也就不具备泛化能力。

适用DRL的特征

能不能

DRL有所为，有所不为。知道算法不能做什么（能力边界）与知道算法能做什么同样重要。

场景固定

场景固定是指决定系统动态演化趋势的主要因素保持恒定。即MDP(p(s’ | s, a))在训练过程中是否变化。我们要保证训练环境尽可能与测试环境相同

目标明确

任务要达到何种效果清晰具体，最好可以量化。目标越明确，设计优质的reward函数就越容易，从而训练得到更接近预期的policy。

数据廉价

我们知道DRL目前最成功的领域是视频游戏，它在运行过程中收集数据是十分方便的，所以DRL才能大施拳脚。而对于牵涉导硬件的应用，DRL算法就显得非常不友好。

值不值

过程复杂

们用DRL的目的无非是看中了其处理复杂场景的能力，人类看不透，DRL来凑。如果任务太简单，依靠规则和启发式就能解决问题了，相当于拿到了“解析解”，还用神经网络拟合个什么劲儿。

自由度高

自由度高指的是选择空间大、限制少，通过大量探索总能拟合出不错的value函数指导policy做选择。自由度越高，DRL优势越明显，自由度越低，越有利于规则。因此在决定用DRL之前，一定要认真评估任务场景是否有足够的优化空间，千万不要拎着锤子找钉子，否则即使训出了policy，性能也不如传统算法，白忙活一场。

Part 2. 算法选择

目前DRL巨人最厚实的肩膀大致是TD3 PPO SAC，其他算法多是在它们的基础上添砖加瓦。对于一个特定的任务，我们可以分别测试三种算法的效果，并从中择优选取。

这里贴两篇文章作为参考：
https://zhuanlan.zhihu.com/p/342919579
https://zhuanlan.zhihu.com/p/96010395

Part 3. 动作空间

在将DRL应用于实际项目时，可能最轻松愉快的部分就是动作空间定义了。因为agent的控制方式往往早就定死了，留给我们发挥的空间很小。

如果可以设计动作空间，算法对动作空间有以下三个要求：

完备性

动作空间首先要提供实现预期目标的可能性，避免在任务解空间中出现无法触及的“状态盲区”，尤其是要保证高性能区域的充分可达性。它要求动作空间具备功能完备性与时效完备性。

高效性

动作空间应该尽可能简单高效，从而有效降低训练难度和提升算法性能。一方面，可以将连续动作空间化整为零，在满足基本控制精度的前提下将其转化为离散动作空间，这样可以显著压缩解空间维度，提高探索效率；另一方面，可以根据实际情况，将一些基本动作进行有机组合构成宏动作，直接学习这些动作可能难度很大，但如果能将这些技巧直接作为常备选项，由算法学习如何合理运用它们，将起到事半功倍的效果。

合法性

在DRL应用中并不是所有action在任何state下都有效，比如AlphaGo就不能在棋盘上已经被占据的位置落子，自动驾驶车辆遇到行人时绝对不能撞上去。对于特定状态下规则不允许出现的action或者引发严重后果的action，我们应该直接屏蔽掉。DRL与其他AI算法一样，都属于统计学范畴，我们在理解policy输出时也应该使用概率思维，即使agent学会在99.99%的情况下输出合法action，但仍存在0.01%的可能性输出非法action，与其寄希望于DRL完全学会遵守规则，不如加一层“硬保险”来得靠谱。

Part 4. 状态空间

状态信息是agent制定决策和评估其长期收益的依据，而状态设计的好坏直接决定了DRL算法能否收敛、收敛速度以及最终性能，兹事体大，不可不察。增加一个优秀的新状态信息所带来的性能提升明显高于其他方面的工作（如调参），性价比非常高，因此状态空间的优化工作几乎贯彻项目始终。

直接进行端到端的学习，让DNN挑选有用的状态信息并学习与决策之间的关系当然也可以，但强化学习本来数据利用率就低，这样会使学习效率更低。而且一些不相关的干扰信息还会起到反作用，影响训练效果。因此，要想尽量提高算法的学习效率，需要人为地筛选出一些好的状态信息，可以是raw infomation，也可以是经过二次加工的信息，帮助DNN更轻松准确地建立起决策相关性。

状态空间设计过程可以分为以下步骤：

任务分析

任务分析是状态设计的灵魂，好的状态信息建立在对任务逻辑的深入理解之上。我们需要对达到最终目标的过程进行分解，研究该目标的本质为何，有哪些重要环节，每个环节有什么影响因素，每个因素又由哪些信息体现。

信息筛选

在所有可用信息中找出与任务目标、子目标有关的那些。神经网络的作用是将原始状态信息经过层层非线性提炼后转化为与长期收益高度关联的形式，并进一步指导生成action决策。理想情况下，状态空间应该完全由筛选出的相关信息组成。某个状态信息所代表的事件在越短时间内得到反馈，神经网络就越容易学会如何对其进行加工并建立起决策相关性。按照这个反馈时间的长短，我们还可以粗略地将这些相关信息分为直接相关信息和间接相关信息。

直接相关信息

与某个reward奖励项或惩罚项即时联动的信息。比如为了更有效地避免小车之间发生碰撞，回报函数里设计了“最近小车距离反比”惩罚项-α * max(D - dmin) ，其中D是靠近惩罚阈值，当agent与周围最近小车距离dmin小于D时，即开始反比惩罚，靠得越近罚得越多。这里的dmin相对于该惩罚项就属于直接相关信息，agent在每一步都能收到与dmin线性相关的反馈，很容易建立起决策相关性。

直接相关信息不仅对DRL算法学习很友好，在有对口reward奖励/惩罚项的前提下，对算法工作者来说也更容易设计。事实上，DRL的状态空间设计往往和reward设计同时进行，为了达到某个目的需要增加一项奖励/惩罚，并相应增加一个或多个直接相关状态信息，帮助模型识别现象与反馈之间的因果关系，这一设计理念很直观也很有效。

间接相关信息

reward中没有即时联动项的状态信息，其所代表的事件需要一段时间后才得到反馈。相对于直接相关信息，DRL利用它们建立决策相关性的难度更高，学习效率更差。

间接相关信息通过某些手段可以转化为直接相关信息，从而提高DRL的学习效率。最简单的方法是对任务目标做更详细的credit assignment并增加相应的reward奖励/惩罚项，如果某状态信息恰好与之即时联动，相应状态信息就成为了直接相关信息。

统一性考虑

我们必须合理设计状态信息使其对环境主要因素的改变有最起码的兼容性，我把它称之为统一性考虑。具体地，这里的统一性又包含形式统一和逻辑统一。

形式统一

为了保证输入向量长度恒定，我们需要找到一种统一形式把不同信息填到对应的位置。比如小车周围装了一圈测距雷达，按固定顺序输出一维距离向量，那么无论把小车放到什么地方，这些信息所代表的含义也不会变。

逻辑统一

状态空间只做到外在形式统一是不够的。比如我们把小车当前位置(x0, y0)和终点位置坐标(x1, y1)作为状态信息同时输入网络，按照DRL的过拟合天性，神经网络最终会记住这张地图每个坐标处的特征以及在这里通行的最佳路线，policy在这幅地图里测试性能会很高，但换幅地图就完全不能用了。通常情况下，我们并不希望DRL用这种方式获得高性能，而是希望它能学会应对不同地形的通用知识，即使换张地图也至少能达到“勉强能用”的地步，再通过在新地图中finetune即可快速具备实用价值。因此，更合理的方式是将两个绝对坐标合并为一个相对坐标(x1 - x0, y1 - y0)，即终点位置在小车坐标系中的坐标，这样就可以使policy与具体地图“脱钩”，从而学习到更加通用的导航知识。可见，要想让网络学到我们希望它学到的知识，前提是输入正确形式的状态信息。

效果验证

通过实验验证其是否达到预期效果。验证方法可以分为三类：模仿学习验证，直接验证和缺省验证。

模仿学习验证

如果项目已经有一个较好的baseline，可以搭建一个policy网络，专门模仿该baseline在各种状态下的action，如果状态中包含了正确决策所需的相关信息，那么得到的policy性能就会越接近baseline。考虑到有监督学习的高效性，这是验证状态信息有效性的一种较快方式，尤其适用于项目初期一片懵懂的时候。

直接验证

如果没有这样的baseline，那就只能用直接验证了，即用DRL训练一个policy并验证其效果。为了提升效率，也可以只比较训练中途（固定步数、固定样本量）的性能，因为很多时候好状态和差状态的won-lost关系在较早的时候就确定了，当然这必须建立在对特定任务和特定算法训练过程较为熟悉的基础上，在DRL训练中，早期的性能优势无法保持到最后的情形也时有发生。另外可以优先选择收敛速度较快的DRL算法（先不考虑绝对性能），从而快速验证新状态相对旧状态的改进效果。

缺省验证

当我们已经训练得到一个不错的policy时，可以用缺省的方式验证每个状态信息的作用大小，即正常输入其他信息，而将目标信息取合理区间内的定值（如区间中点），测试性能损失的百分比。损失越大说明该状态信息越关键，反之则说明作用越边缘化，有时候甚至会发现性能不降反升，说明该信息有干扰作用，还是去掉的好。缺省验证的意义在于，剔除那些无用或起反作用的状态，为进一步优化关键状态和弱作用状态提供指导。

Part 5. 回报函数

回报函数（reward）设计在DRL应用中是极其重要的一环，通过将任务目标具体化和数值化，reward就如同一种特殊语言，实现了目标与算法之间的沟通，算法工作者在这里面承担了翻译的角色，翻译的好坏体现了其对任务逻辑的理解深度，决定了agent最终是否能学到期望的技能，并直接影响算法的收敛速度和最终性能。

主线reward与稀疏回报

当我们拿到一个任务目标，往往能够简单分析就能找出与该目标紧密联系的主线事件。这就是我们的第一个reward项，也就是主线reward，一般是正奖励，当主线事件发生时反馈给agent。

理论上，只要有主线reward就可以进行训练了。在简单任务中，agent只靠随机地探索就可能可以遇到主线事件，并进一步更新policy逐渐提升得到奖励的概率，直到收敛。但是当问题稍微复杂一点，只靠随机探索几乎不可能遇到主线事件时，算法就会收敛很慢，甚至难以收敛，因为中间缺乏有效信号来指导agent向正确的方向前进。这就是稀疏回报问题(sparse reward problem)，它对数据效率低下的RL算法而言，学习难度是很大的，因为大部分状态信息对主线reward来说都是间接相关信息。

目标分解与辅助reward

我们接下来就要将原始任务目标进一步分解成子目标，并分别给予合理的奖励或惩罚，从而达到引导agent趋利避害提高主线事件发生概率的目的。学术界一般称该过程为credit assignment，说的是某个子目标在达成总目标的过程中起了多大作用，是正向作用还是负向作用。这些子目标对应的reward可以称之为辅助reward，它们使reward不再稀疏。通常情况下，为了保证主线奖励的核心地位和吸引力，各种辅助reward的绝对值都设得相对较小，以免喧宾夺主。

目标分解实例

agent在环境中探索时需要获得反馈，即刚刚的决策好不好，反馈越及时学得越快，理想情况是每一步都有反馈。还以小车导航到终点的应用为例，除了抵达终点+10分，如果每次靠近终点也+1分，那么小车在抵达终点之前就学会主动靠近终点，这样探索到抵达终点的概率也大大提高了，DRL算法收敛速度自然会加快。

除了抵达终点，小车还要避免与障碍物和其他小车发生碰撞，我们还要对碰撞事件做出惩罚。为了使agent更好地学会避免碰撞，我们除了对已经发生的碰撞事件给予惩罚，还可以再增加一个预防式的靠近惩罚，并利用状态空间里的直接相关信息——与最近邻居的距离，提高算法学习效率。

辅助reward的设计建立在对任务逻辑的深刻分析和理解之上，有很多细节都会对最终目标的实现产生正向或负向的影响，值得我们深入挖掘。此外，由于将最终目标分解成了子目标，在设计对应辅助reward时往往很容易找到与之即时联动的直接相关状态信息，或者相关性较强的间接相关信息。事实上，我们每设计一个reward项，就应该回过头去检查状态空间中是否包含了直接或间接相关信息，已经包含的信息是否足够直接高效，有没有改进的空间。

杜绝异常行为

应该避免reward项的不合理取值及多项reward之间的不合理相对大小，导致agent学到异常行为。因为不合理reward造成的常见异常行为主要包括三种类型：鲁莽、贪婪和胆怯。

鲁莽

鲁莽行为指的是reward中漏掉了针对某个不希望出现的事件的惩罚项或者惩罚力度太小，被其他reward项盖过，导致agent无法学到主动规避该事件或者权衡利弊后仍然选择接受该事件的惩罚以换取更大收益。在小车导航的例子中，碰撞惩罚相对于远离惩罚过小，小车可能为了尽快到达终点宁愿撞到其他小车上也不愿意绕远。

贪婪

靠近终点奖励使reward变稠密了，但这样做就够了吗？我们说过RL追求的是长期收益，事实上对小车来说收益最高的选择不是尽快抵达终点，而是不断重复“靠近-远离”的动作，如此一点点地累加，收益远超过抵达终点的一锤子买卖！很显然，agent钻了reward设计漏洞的空子，变得不思进取，贪得无厌。为了防止这种情况发生，我们还要对原地不动或远离终点的行为进行惩罚，而且相对于靠近奖励，扣分太少也不行，否则agent仍然会发现钻空子是划算的。一劳永逸的办法是，将靠近终点的正向奖励改成微小惩罚，绝对值小于原地不动或远离惩罚，这样做的好处是不仅不给agent钻空子的机会，而且还能督促小车尽快向终点行驶。

实际上，除了主线reward应该提供正向奖励以外，其他辅助reward最好都设置为惩罚项。除非某个子目标与主线事件之间存在强关联，而且该子目标的达成是一次性的或者数量可控，否则不应轻易设置额外奖励项，因为这样很容易诱导agent学习到短视的贪婪策略，只捡芝麻，不要西瓜。

胆怯

如果惩罚项很多且绝对值相对于主线reward太大，那么agent在探索过程中会收到大量负反馈，从而变得畏首畏尾，学习到各种意想不到的“绥靖”策略。比如在小车到终点的例子中，假如碰撞惩罚和转弯惩罚绝对值过大，agent有可能宁愿选择原地不动，这是因为训练初期policy很差，需要经历大量转弯和碰撞后才可能出现主线事件（到达终点），而收到的负反馈完全湮没了主线奖励，因此在agent看来原地不动的长期累计收益暂时不比到终点差，尽管只是暂时的，但agent很可能陷在这个局部最优里出不来了。

在上述情况下，你会发现只需要将惩罚项绝对值减小，突出主线奖励的影响，其他什么也不用干，DRL模型就能顺利收敛了。当然，还可以适当降低折扣因子，让agent变成“近视眼”，更多关注眼前利益，忽略长期的负收益期望（靠后的负反馈都被折扣掉了），只要agent“迈开腿”出来探索，就有更大可能遇到主线事件，并在主线reward的奖励下学习到目标技能。

reward shaping

在原有reward基础上增加一项shaping reward，该项代表某种势能函数，与最终目标的差距决定了势能大小。这样做还可以让RL算法收敛得更快一些。

总结

reward设计的原则是：尽可能稠密（最好每步都有反馈），能够反映任务目标/子目标逻辑，与状态空间相呼应，控制好各项取值和相对大小，避免异常行为，适时采用reward shaping。

Part 6. 训练

训练前

可视化

如果条件允许，开始训练前最好先可视化一个随机环境，观察是否会出现你希望的状态（即上一篇里的主线事件）。如果靠随机选择action都能以一定概率探索到目标状态，那说明该任务难度比较低，心里就可以更有底；如果从来不会出现目标状态，说明该任务难度较高，需要在状态空间和reward函数设计时特别下功夫，从而更好地引导agent向目标状态前进。

数据预处理

还可以实时打印出state和reward，看看它们是否在合理范围内取值，是否存在幅值过大的情况，如果是则需要增加必要的归一化操作。事实上，可以无条件进行状态空间归一化和reward rescale & clipping，实践证明这两个操作无论在收敛速度还是最终性能上都会带来明显提升。

reward rescale & clipping，该操作尤其适合基于episode的A3C/A2C/PPO算法，参考形式为r=clip(r/(std(Return)+ eps ),-10,10)，其中Return = ∑γt * rt ，是一段episode内reward的折扣累加和，也就是V网络拟合的对象，而V网络输出又为policy优化提供参考，使用该值的统计方差对reward进行rescale，可以反过来有效降低Return的variance，有助于V网络和policy网络进行更加无偏地学习。训练过程中通常采用Return的running std来rescale当前reward。最外层的clip操作可以滤除那些绝对值过大的reward，作用类似。

训练时

调参

折扣因子

折扣因子通常以符号γ表示，在强化学习中用来调节近远期影响，即agent做决策时考虑多长远，取值范围(0,1]。γ越大agent往前考虑的步数越多，但训练难度也越高；γ越小agent越注重眼前利益，训练难度也越小。我们都希望agent能“深谋远虑”，但过高的折扣因子容易导致算法收敛困难。还以小车导航为例，由于只有到达终点时才有奖励，相比而言惩罚项则多很多，在训练初始阶段负反馈远多于正反馈，一个很高的折扣因子（如0.999）容易使agent过分忌惮前方的“荆棘丛生”，而宁愿待在原地不动；相对而言，一个较低的折扣因子（如0.9）则使agent更加敢于探索环境从而获取抵达终点的成功经验；而一个过低的折扣因子（如0.4），使得稍远一点的反馈都被淹没了，除非离终点很近，agent在大多数情况下根本看不到“光明的未来”，更谈不上为了抵达终点而努力了。

折扣因子的取值原则是，在算法能够收敛的前提下尽可能大。在实践中，有个经验公式1/(1-γ)，可以用来估计agent做决策时往前考虑的步数。根据对特定任务的分析，合理选择γ值，避免“近视”和“远视”。比如可以根据观察或统计agent到达终点所需的步数分布，选择合适的步数使得agent在该步数内的探索下有一定概率到达终点（正样本），注意这个概率越高训练难度就越小，然后利用经验公式把该步数换算成γ即可。

网络结构

DRL算法中的网络结构也属于超参数，然而DRL绝不应该片面追求网络的复杂化，否则你会发现训练根本无法收敛。对于网络结构的选择，DRL有自己的规矩——契合状态，够用就好。前者针对网络类型，后者针对网络深度。

网络类型

网络类型的选择主要取决于状态空间设计，如果状态信息是向量式的，即一组拉成一维的标量，比如位置、角度、速度等，那就适合采用全连接（MLP）网络；如果状态信息是imagelike的，比如图像，或者其他以二维形式重组的信息，就适合采用卷积神经网络（CNN）。实际应用中往往同时包含这两种状态信息，因此网络类型也可以既有CNN也有MLP，处理完各自对应的输入信息后，在高层通过concat操作汇集在一起，再通过若干层全连接，最后输出action或Q/V值。

对于on-policy算法，episode形式的数据天然适合采用RNN来挖掘更多时序信息，但同时也会显著提高训练难度，用与不用取决于决策对时序相关性的依赖程度。换句话说，如果之前的经验对当前决策很有参考意义（比如Dota）就适合用RNN，反之仅依靠即时信息做应激式决策就足以应付就没必要用RNN。实践中经常采取折中方案，将最近几个step的原始状态信息叠加到一起作为当前时刻的实际状态信息输入policy，既可以挖掘一定范围内的时序信息，又避免增加训练难度。

网络深度

虽然深层网络的表征能力更强，但训练难度非常高，更适合有监督训练。DRL算法由于数据效率低下又缺乏直接监督信号，并不擅长以end-to-end的方式训练过深的网络，如果还同时采用了RNN结构，那就是相当不擅长了。

当然，如果任务逻辑和状态信息确实非常复杂，浅层网络不足以提供所需的特征提取和加工能力，那么可以考虑适当加深网络，但仍应以够用为准则，不可矫枉过正。

算法特色参数

也是贴两个网站作为参考：
https://zhuanlan.zhihu.com/p/345353294

收敛后

观察Value网络对Returns拟合的精度如何，value loss是否还有进一步下降的空间

Value网络越精确，由其计算得到的advantage越有意义，也就越有利于policy的优化。
注意精度和loss都是相对概念，与reward函数中各项的绝对值息息相关。一般说来，在DRL中对reward进行等比例缩放不会改变policy的最终特性，即(+10,-2,-1,-0.5)与(+100,-20,-10,-5)的作用是一样的，但体现在value loss上就差了10倍。对拟合精度更可靠的评估标准是explained variance，计算公式是1 - Var(return - value) / Var(return) ，取值区间(-∞, 1]，该值越接近1说明拟合精度越高。

观察entropy是否处在合理范围内，相对于action维度是否过高或过低？

假如policy输出10维categorical分布，其entropy有两种极端情况：(1) 完全随机，每个维度概率均为0.1，此时entropy最大等于10*[-0.1*log(0.1)]=2.3；(2) 完全确定，其中一维为1.0其余都是0.0，此时entropy最小等于0。整个训练过程，entropy从2.3开始逐渐下降，当训练收敛后，entropy应该稳定在较低水平。如果太高则说明policy对决策信心不足，如果不是任务本身太复杂那就是entropy系数过大造成的，应该适当降低该系数增加exploitation的力度，很有可能继续提升模型性能。当然，entropy很少能降到0，除非是极其简单的任务。

你可能感兴趣的:(＜深度强化学习落地方法论＞笔记)

python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
环境配置（1）：笔记本window、虚拟机ubuntu、开发板三者互ping通信，并且虚拟机ubuntu和开发板能上网 lishing6 ubuntu linux mcu 嵌入式硬件 arm开发物联网硬件工程
1.配置网络我们配置网络是为了方便后续调试开发板系统或者应用程序时，能够使用tftp协议nfs协议等拷贝文件，以及设置文件系统启动方式为nfs挂载启动。2.设置Ubuntu使用NAT网络NAT是什么意思？NetworkAddressTranslation，网络地址转换。举个例子，在NAT里，Windows就是一个爱护孩子的父亲，Ubuntu就是受保护的小孩。小孩要买东西，都由他父亲代劳，别人根本不
systemd-networkd 的 *.network 配置文件详解笔记250323 kfepiza 网络通讯传输协议物联 #控制台命令行 Shell脚本 sh cmd 等 #Linux CentOS Ubuntu 等笔记 tcp/ip 网络 linux
systemd-networkd的*.network配置文件详解笔记250323查看官方文档可以用mansystemd.network命令,或访问:https://www.freedesktop.org/software/systemd/man/latest/systemd.network.html名称systemd.network—网络配置概要network.network描述一个纯INI风格的
systemctl restart 和 systemctl reload 和 systemctl daemon-reload 对比笔记250322 kfepiza #Linux CentOS Ubuntu 等 #控制台命令行 Shell脚本 sh cmd 等笔记 bash
systemctlrestart和systemctlreload和systemctldaemon-reload对比以下是systemctlrestart、systemctlreload和systemctldaemon-reload的对比总结：命令作用对象行为适用场景对服务的影响systemctlrestart服务名具体服务强制停止服务，再重新启动。配置或代码有重大变更，或服务出现异常需完全重启。服
新需求如何实现火火PM打怪中考公笔记笔记
作为产品经理，面对新需求时，我会结合产品管理和项目管理的双重逻辑，采用以下结构化流程，确保需求既能满足用户价值，又能高效落地：一、需求澄清与价值验证（NPDP核心逻辑）需求背景挖掘与需求提出方（用户/业务/领导）深度沟通，明确：痛点场景：需求解决的具体问题（例如“政务数据共享接口调用失败率高”）。期望目标：量化成功标准（如“接口成功率从70%提升至95%”）。工具：5W1H分析法、用户故事地图（U
Xilinx系ZYNQ学习笔记（二）ZYNQ入门及点亮LED灯贾saisai FPGA学习学习笔记 fpga开发
系列文章目录文章目录系列文章目录前言简单介绍简称xc7z020型号FPGAZYNQ实操通用IO点亮LED灯硬件逻辑基础前言简单入门一下ZYNQ是何种架构，如何编程，至于深入了解应该要分开深入学习Linux和FPGA简单介绍其基本架构都是在同一个硅片上集成FPGA和CPU，并通过高速、高带宽的互联架构连接起来。ARM的顺序控制、丰富外设，开源驱动、FPGA的并行运算、高速接口、灵活定制、数字之王的特
ZYNQ学习笔记_GPIO之输入输出凌星星星星星 ZYNQ学习笔记 gpio mio fpga 嵌入式单片机
ZYNQ学习笔记_GPIO之输入输出GPIO介绍MIO介绍EMIO介绍控制GPIO接口的寄存器原理_输入输出部分GPIO介绍GPIO的英文全称为General-purposeinput/output，即一种通用外设，可以通过MIO（MultiuseI/O）模块对器件的引脚做观测（input）和控制（output）。ZYNQ的PS端上的GPIO也可以通过EMIO（ExtraMIO）模块对PL端的IP
zynq设计学习笔记2——GPIO之MIO控制LED实验墨漓_lyl FPGA之zynq设计学习笔记嵌入式 fpga
vivado软件操作步骤与学习笔记1——helloworld差不多，这里不再过多赘述，不同点是在zynq的设置中添加上GPIO的设置即可。进入SDK软件后，程序如下：#include"stdio.h"#include"xparameters.h"#include"xgpiops.h"#include"sleep.h"#defineGPIO_DEVICE_IDXPAR_XGPIOPS_0_DEVIC
Ubuntu-Server 设置多个ip和多个ipv6 笔记250320 kfepiza #Linux CentOS Ubuntu 等 #控制台命令行 Shell脚本 sh cmd 等网络通讯传输协议物联 ubuntu tcp/ip 笔记
Ubuntu-Server设置多个ip和多个ipv6在UbuntuServer上为同一网卡配置多个IPv4和IPv6地址，Ubuntu-server-16用的是/etc/network/interfaces配置的networkingUbuntu-server-17.10及更新版本默认用的是systemd-networkd+Netplan,用Netplan来管理systemd-networkd对于U
RK3588开发笔记-buildroot添加telnet服务 flypig哗啦啦 RK3588 buildroot busybox
目录前言一、Telnet服务背景与适用场景二、telnet服务开启Busybox配置三、固件编译及烧录RK3588烧录验证客户端连接测试3.1Linux/MacOS连接3.2Windows连接总结前言本文主要介绍在RK3588SDK文件包中添加telnet服务，由于sdkbuildroot默认添加的是ssh服务，如用户需要主动开启telnet，则需要另外在busybox中开启telnetd服务，下
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
鸿蒙相机开发实战：从设备适配到性能调优 —— 我的 ArkTS 录像功能落地手记（API 15） harmonyos
引言：为什么我要写这份开发指南？作为一名老技术，最近特别喜欢研究鸿蒙相机功能，而且目前已经更新到API15了，那么咱们更要好好研究一下。而且从手持云台到车载记录仪，每个项目都面临独特挑战：车载场景的高温稳定性、可穿戴设备的低功耗限制、多设备分辨率适配的玄学……这些痛点促使我重新梳理HarmonyOS相机开发的技术脉络——这正是本文的起源。比如之前在一款运动相机项目中，我们最初直接复用Android
《Operating System Concepts》阅读笔记：p460-p4470 操作系统
《OperatingSystemConcepts》学习第36天，p460-p4470总结，总计11页。一、技术总结无。二、英语总结(生词：3)1.lifespan(1)lifespan:life+span("theperiodoftimethatsthexistsorhappens")c.也写作life-span,thelengthoftimeforwhichathingexists(寿命)。(2
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
linux+docker安装常见中间件+shell学习笔记芦屋花绘 linux docker 中间件
初始设置下载虚拟机软件：选择适合的虚拟机软件（如VirtualBox或VMware）。下载操作系统ISO映像文件：选择并下载你想安装的Linux发行版（例如Ubuntu、CentOS等）的ISO文件。ISO映像文件：是包含了完整光盘内容的文件，包含引导记录、文件系统、数据文件和目录结构。导入ISO文件到虚拟机，并进行相关配置，如分配内存、硬盘空间等。了解基本linuxLinux常见目录及其用途Li
rabbitmq笔记 java
消息可靠性rabbitmq向消费者投递消息后，有可能会丢失，有可能会重复投递。比如：投递过程网络故障消费者收到消息后宕机消费者接收到消息后处理不当导致异常...rabbitmq需要做的事：机制消费者确认机制消费者处理成功后需要通知发幂等性幂等性指同一个业务，执行一次或多次对业务状态的影响是一致的例如唯一消息id业务状态判断但是数据的更新往往不是幂等的，所以需要确保幂等性确保幂等性方法有两种方案唯一
mysql数据库学号数据类型_MySQL数据库学习笔记（二）----MySQL数据类型艾萨里昂之光 mysql数据库学号数据类型
【正文】上一章节中，我们学习了MySQL软件的安装，既然软件都装好了，现在就正式开始MySQL的基础知识的学习吧，即使是零基础，也要一步一个脚印。恩，首先要学习的就是MySQL的数据类型。一、数据类型：1、整型(xxxint)2、浮点型(float和double)3、定点数(decimal)4、字符串(char,varchar,xxxtext)5、二进制数据(xxxBlob)6、日期时间类型二、数
笔记本Win7系统无线网名称显示乱码解决方案 mmoo_python windows
笔记本Win7系统无线网名称显示乱码解决方案在使用Windows7操作系统的笔记本电脑时，用户可能会遇到无线网络名称显示乱码的问题。这一问题不仅影响了用户识别无线网络的便利性，还可能阻碍正常的网络连接。本文将详细介绍解决这一问题的方法，帮助用户恢复无线网名称的正常显示。具体解决方法1.打开控制面板首先，我们需要进入Windows7的控制面板。可以通过点击开始菜单，然后在搜索框中输入“控制面板”来快
mysql笔记 m0_67015473 mysql 笔记
mysql日志分析错误日志日志默认开启，查询showvariableslike“%error_log%”，日志存在于/var/log/mysqld.log二进制日志日志默认开启，记录所有的DDL(Create等)和DML(insert等)，但不包括数据查询（SELECT、SHOW)语句作用：灾难时的数据恢复mysql的主从复制查询showvariableslike“%log_bin%”，日志存在于
学习笔记——GPU 鹤岗小串 gpu算力分布式信息与通信系统架构硬件架构运维笔记
本文为学习笔记，故只对知识点依据自己的理解作概要总结，方便以后复习激活记忆。注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。一、GPU硬件结构NVIDIAA100GPU的硬件结构HBM2：显存MemoryController：负责控制HBM2和L2Cache之间的通信High-SpeedHub：GPU总线，将NVLink、PCIE、E
【QT入门】 Qt槽函数五种常用写法介绍不吃~香菜 QT入门 qt 开发语言槽函数信号槽
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】实现一个简单的图片查看软件-CSDN博客【QT入门】图片查看软件(优化)-CSDN博客【QT入门】lambda表达式(函数)详解-CSDN博客【QT入门】Qt槽函数五种常用写法介绍一、信号槽基本概念Qt的信号槽是一种用于处理事件和通信的机制，是Qt框架中的一个重要特性。信号槽机制使得对象之间
【QT入门】qmake和cmake的简单区别不吃~香菜 QT入门 qt 开发语言学习 qmake cmake
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】Windows平台下QT的编译过程-CSDN博客【QT入门】VS2019+QT的开发环境配置-CSDN博客【QT入门】VS2019和QTCreator如何添加第三方模块-CSDN博客【QT入门】qmake和cmake的简单区别qmake和cmake是两种常用的构建工具，用于自动化构建C++项
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
侯捷 C++ 课程学习笔记：深入掌握 C++ 高阶特性 —— 实践与心得分享清水白石008 C++学习笔记课程教程 c++学习笔记
侯捷C++课程学习笔记：深入掌握C++高阶特性——实践与心得分享自从开始接触侯捷C++系列精品课程以来，我对C++语言有了全新的认识与深入理解。这套课程不仅系统地梳理了C++的基础知识，更从实际案例中展示了许多高阶特性和工程实战技巧。作为一名长期从事C++开发的专业人士，我深深感受到侯捷老师讲解中那种由浅入深、逻辑严密的魅力，也正是这种教学风格让我在短时间内掌握了不少难以琢磨的知识点。今天，我将结
WHAM 人体3d重建部署笔记 AI算法网奇深度学习宝典 3d 笔记
目录依赖项：mmpose的依赖项：demo脚本WHAM:ReconstructingWorld-groundedHumanswithAccurate3DMotion2024依赖项：pipinstallmmposemmpose的依赖项：mmcv>=2.0.0,=3.0.0,=0.4.0,<1.0.0demo脚本Youcantrywithoneexamplarvideo:pythondemo.py--
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力香菜9527 人工智能业界资讯经验分享
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力近年来，全球跨境电商市场格局加速演变，中国跨境电商平台正积极拓展海外市场。继在北美、欧洲、澳大利亚等地区取得显著成绩后，拼多多旗下跨境电商平台Temu正式开启中亚市场布局。乌兹别克斯坦成为Temu在中亚的首个重点市场，标志着其全球扩张战略进入新的阶段。乌兹别克斯坦市场潜力与政策环境乌兹别克斯坦作为中亚人口最多的国家（约3500万人），近年来消费
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
【自学笔记】Linux基础知识点总览-持续更新 Long_poem 笔记 linux 运维
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置总结Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置Linux简介Linux是一个基于Uni
c++算法赛万能模板个人笔记适用蓝桥杯，天梯赛，acm等赛事 a东方青个人笔记 c++算法笔记
算法笔记-更新与2025-3-22点赞收藏+关注持续更新算法基础二分整数二分//在一个单调区间里面去找答案boolcheck(intx){/*...*/}//检查x是否满足某种性质//区间[l,r]被划分成[l,mid]和[mid+1,r]时使用：intbsearch_1(intl,intr){while(l>1;if(check(mid))r=mid;//check()判断mid是否满足性质el
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

＜深度强化学习落地方法论＞ 笔记