松间沙路hba646333407

第七章深度强化学习-深度Q网络系列1（Deep Q-Networks，DQN）

获取更多资讯，赶快关注上面的公众号吧！

文章目录

第七章深度强化学习-深度Q网络

7.1 学习目标
7.2 深度学习和强化学习的区别
7.3 DQN原理
7.4 DQN算法

7.4.1 预处理
7.4.2 结构

7.5 实验结果

7.5.1 训练和稳定性
7.5.2 可视化值函数
7.5.3 对比

7.6 感悟
参考文献

第七章深度强化学习-深度Q网络

2013年Mnih等[1]提出了第一个使用强化学习从高维感官输入直接学习控制策略的深度学习模型。该模型是一个卷积神经网络，使用带有逼近器的Q-learning的进行训练，输入为原始像素，输出未用来估计未来奖励的值函数。DQN在架构或学习算法不需调整的情况下，应用于7个来自街机学习环境的雅达利2600游戏，实现结果表明，它在6个游戏上的表现超过了之前的所有方法，并且在3个游戏上也超过了人类专家。DQN的提出可以说代表着深度强化学习时代的到来。

随后业界开始了一股深度强化学习的热潮，数据源Web of Science中标题包含“Deep Reinforcement Learning”的文献，自2013年以来共有751篇，平均3.4天就产生一篇。从图1可以看出，论文发表数量逐渐递增，到2018年达到顶峰。从图2可知，发表最多论文的出版物是IEEE Access，还有不少IEEE的国际会议。图3中中国遥遥占据领先位置，美国和英国分列二三位。图4列出了主要的研究领域，集中在计算机科学、工程和电讯等领域。北邮、中科院和加州大学伯克利分校是发表文章最多的前三甲（图5）。

图1 每年发表论文数量

图2 主要发表的出版物

图3 发表国家和地区

图4 研究领域

图5 研究机构

本节内容将从DQN开始，逐步了解学习各种经典的深度强化学习算法，针对不同算法的不足，研究者们都做了哪些改进。

7.1 学习目标

理解Deep Q-Learning（DQN）算法；
理解为什么经验回放和目标网络对深度DQN在实践中起作用是必要的；
理解Double DQN；
理解优先级经验回放。

7.2 深度学习和强化学习的区别

深度学习是一种典型的监督学习方式，基于大量带有标签的数据进行预测（回归问题）或分类（分类问题），而强化学习则是通过与环境不断地交互获得奖励，并基于这些奖励调整学习过程以获得全局最优的行为策略。可以看出，两者在训练数据和学习过程等方面存在巨大差异，主要表现在以下几个方面：

深度学习有固定明确的监督信号即标签，而强化学习缺乏监督信号且只有环境反馈的奖励信号，奖励本身也可能存在噪声、延迟和稀疏性等问题。
深度学习中的样本一般满足独立同分布，而强化学习的状态和行为分布存在前后相关性。
深度学习的网络结构可以用于刻画非线性函数关系，但在实际任务中，采用非线性的深度学习网络结构表示值函数时，可能会引起强化学习算法的损失值设置损失函数都无法收敛。

7.3 DQN原理

接下来一起看一下DQN是如何将深度学习和强化学习结合在一起的。前面也提到过，强化学习从标量奖励中学习，而这些奖励往往稀疏、有噪声、延迟，状态序列也是高度相关的，同时随着强化学习的进行，数据分布还会发生变化。为了克服这些问题，Mnih等采用了一个卷积神经网络，在复杂的RL环境中，采用随机梯度下降直接从原始的视频数据中学习控制策略。为缓和数据相关和非平稳分布的问题，还引入了经验回放（experience replay）机制，从先前的状态转移中随机采样，从而使得在已经历行为上训练分布平稳。

在玩Atari游戏中，环境就是Atari模拟器，在每一时间步，强化学习代理从可选行为集合中选择一个动作，该动作被输入到模拟器中，然后改变内部状态和游戏得分。通常环境是随机的，代理无法感知模拟器的内部状态，而是观察到一幅图像，该图像是表达当前屏幕的由原始像素值构成的向量。此外代理还会收到一个奖励来表示游戏得分的变化，通常游戏得分和之前的整个动作和观察都有关系。

由于代理只观察当前屏幕的图像，因此学习过程是部分可观的，仅从当前屏幕不可能完全理解当前情况，为此作者考虑了动作和观察序列，根据这些序列来学习游戏策略。

代理的目标就是通过选择动作与模拟器交互，以最大化未来奖励。文中做了一个标准假设，即未来奖励是每时间步按γ折扣的，定义t时刻的未来折扣回报为 $R_{t}=\sum_{t^{\prime}=t}^{T} \gamma^{t^{\prime}-t} r_{t^{\prime}}$ ，其中T为游戏终止的时间。最优动作值函数为Q*(s,a)，则Q*(s,a)为遵循某一策略所能得到的最大期望回报，即 $Q^{*}(s, a)=\max _{\pi} \mathbb{E}\left[R_{t} | s_{t}=s, a_{t}=a, \pi\right]$ 。

最优动作值函数遵循一个重要的等式，即贝尔曼方程：

$Q^{*}(s, a)=\mathbb{E}_{s^{\prime} \sim \mathcal{E}}\left[r+\gamma \max _{a^{\prime}} Q^{*}\left(s^{\prime}, a^{\prime}\right) | s, a\right]\tag 1$

强化学习的基本思想就是使用贝尔曼方程作为迭代更新来估计动作值函数， $Q_{i+1}(s, a)=\mathbb{E}\left[r+\gamma \max _{a^{\prime}} Q_{i}\left(s^{\prime}, a^{\prime}\right) | s, a\right]$ ，当迭代次数趋于∞时，Q收敛于Q*。但是在实际中，这种方法是完全不可行的，因为动作值函数是为每个序列单独估计的，没有任何泛化、因此需要通过函数逼近器来估计动作值函数 $\theta) \approx Q^{*}(s, a)$ 。可以将具有权重θ的神经网络叫作Q网络，通过最小化损失函数L_i(θ_i)就可以训练Q网络。

$L_{i}\left(\theta_{i}\right)=\mathbb{E}_{s, a \sim \rho(\cdot)}\left[\left(y_{i}-Q\left(s, a ; \theta_{i}\right)\right)^{2}\right]\tag 2$

其中 $y_{i}=\mathbb{E}_{s^{\prime} \sim \mathcal{E}}\left[r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; \theta_{i-1}\right) | s, a\right]$ 为第i次迭代的目标，ρ(s,a)是序列s和动作a上的概率分布。当最优化损失函数L_i(θ_i)时前一次迭代的参数θi-1保持不变。注意这里的目标是和权重有关的，与监督学习中使用的固定目标不同。对损失函数求权重上的导数可得以下梯度：

$\nabla_{\theta_{i}} L_{i}\left(\theta_{i}\right)=\mathbb{E}_{s, a \sim \rho(\cdot) ; s^{\prime} \sim \mathcal{E}}\left[\left(r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; \theta_{i-1}\right)-Q\left(s, a ; \theta_{i}\right)\right) \nabla_{\theta_{i}} Q\left(s, a ; \theta_{i}\right)\right]$

该算法是无模型的：因为它直接利用模拟器中的样本来解决强化学习任务，而没有明确地构造模拟器的估计。该算法也是离策略的：它在遵循一种行为分布以保证充分探索状态空间的同时，学习了一个贪婪策略 $a=\max _{a} Q(s, a ; \theta)$ 。

7.4 DQN算法

DQN将强化学习算法与深度神经网络连接起来，这种深度神经网络直接作用于RGB图像，并利用随机梯度更新有效地处理训练数据，该算法借鉴了Tesauro的TD- Gammon结构，但不同于TD-Gammon的是，DQN采用了经验回放技术，将代理在每一时间步的经验 $e_{t}=\left(s_{t}, a_{t}, r_{t}, s_{t+1}\right)$ 储存于数据集 $\mathcal{D}=e_{1}, \dots, e_{N}$ 中。算法的内循环过程中，从样本池中随机抽取经验样本 $\sim \mathcal{D}$ ，采用Q学习更新或最小批量个更新。执行完经验回放后，代理根据ε-贪婪策略选择并执行一个动作，由于使用任意长度的历史记录作为神经网络的输入是困难的，因此Q函数是作用于由函数Φ生成的固定长度的历史表达。该完整算法在文中被称为深度Q学习（Deep Q-learning），下面给出其算法伪代码。

图6 使用经验回放的深度Q学习

算法中各步骤的具体含义如下：
Step1：初始化经验池 $\mathcal{D}$ ，其容量为N（即可存储N个历史样本），用作历史经验回放。
Step2：使用卷积神经网络作为预测Q值的逼近器，并初始化该网络模型的权重参数θ。
Step3：设定游戏片段总数为M，即代理最多执行游戏次数为M次。
Step4：初始化网络输入，得到系列s₁={x₁}，并预处理得到Φ₁=Φ(s₁)。
Step5：以概率ε随机选择代理需要执行的动作a_t，或以概率1-ε执行网络输出最大Q值所对应的动作。
Step6：代理执行动作a_t，获得环境反馈的奖励rt和下一时间步的游戏图像x_t+1。
Step7：基于新的状态s_t+1=s_t，a_t，x_t+1，根据Φ_t+1=Φ(s_t+1)计算下一时间步的固定序列游戏帧Φ_t+1。
Step8：将获得的状态转移(Φ_t,a_t,r_t, Φ_t+1)存入经验池 $\mathcal{D}$ 中。
Step9：代理从 $\mathcal{D}$ 中随机采样最小批量转移。
Step10：计算每一个状态的目标值，代理通过执行动作后的奖励rj来更新Q值作为Q学习算法的目标值。
Step11：根据式（3），基于最小批量样本采用随机梯度下降法更新Q网络权重参数θ。

相比较于标准的在线Q学习，DQN的优势在于：

每一步产生的经验都可能用于多次权重更新，从而提高了数据利用率。
直接从连续样本中学习效率较低，因为样本之间具有强相关性，随机采样可以打破这种相关性，从而降低更新的方差；
当学习在策略时，当前参数决定了用于参数训练的下一数据样本。

7.4.1 预处理

原始的Atari游戏的每一帧是一幅210x160像素的128色图像，直接对该图像进行操作将会需要大量的计算，为此先进行预处理以降低输入维度。首先将RGB转换成灰度图，并下采样成110x84的图像，最后只保留大致可以捕捉游戏范围的84x84区域作为最终的输入。至于为什么图像的宽和高相等，是因为采用了2D卷积的GPU实现，该操作需要方形输入。前面提到为了保证输入相同，函数Φ会得到固定长度的历史表达，这里对最近4幅图像进行预处理，并叠在一起作为Q函数的输入。

7.4.2 结构

图7 两种不同的神经网路结构

使用神经网络参数化Q可以有多种不同的方法，先前的方法是将状态历史和动作输入到神经网络中，这种结构的缺点在于计算每一个动作Q值都需要一次前向传播，导致计算成本与动作数量成正比。DQN采用了另一种结构，每个可能的动作都有自己单独的输出单元，只需将状态表达输入到神经网络中，其优点是只需一次前向传播就能够计算给定状态下所有可能动作的Q值。

在Atari游戏中，输入到神经网络的是一幅84x84x4的图像，第一个隐藏层采用步长为4大小为168x8的滤波器对输入图像进行卷积，并应用非线性整流器，第二个隐藏层采用步长为2大小为324x4的滤波器进行卷积，同样应用非线性整流器，最后一个隐藏层是一个全连接层，包含256个校正单元。输出层是一个全连接的线性层，每一个有效动作对应一个输出。将采用这种方法训练得到的卷神经网络称为深度Q网络（DQN）。

7.5 实验结果

文中对7个Atari游戏进行了实验，并在不同的游戏上保持相同的网络结构、学习算法和超参数设置，这就是深度强化学习的优势所在。在使用真实游戏评估代理时，只在训练期间对游戏的奖励结构做了一个改变。由于不同游戏间得分范围变化很大，将所有正奖励设置为1，所有负奖励设置为-1，奖励不变时设置为0，通过这样的裁剪处理就可以限制误差导数的范围，使其更容易在多个游戏间使用相同的学习率。同时也会影响代理的性能，因为代理无法区分不同规模的奖励。

在这些实验中，使用了最小批量为32的RMSProp算法，训练过程中行为策略采用的是ε-贪婪策略，ε在前100万帧线性的从1递减至0.1，然后保持不变，总共训练1000万帧，并将最近的10万帧进行回访存储。

文中还使用了跳帧技术，准确地说，代理每隔k帧才会选择动作，而是每一帧，在跳过的帧中会重复采取上一动作，由于将模拟器向前运行一步所需的计算量要比让代理选择一个动作少得多，因此这种技术允许代理在不显著增加运行时的情况下多玩大约k倍的游戏。

7.5.1 训练和稳定性

在这里强化学习的评估指标是多个游戏上的平均片段总奖励。该指标可能会有较多噪声，因为策略权重的微小变化可能导致策略已访问状态分布的巨大变化，图8和图9就可以说明这一点，图中曲线给人的印象是学习算法并没有稳定的收敛。

图8 Breakout游戏上的每代平均奖励

图9 Seaquest游戏上的每代平均奖励

而另一个更加稳定的指标是策略的动作值函数估计值Q，代表从给定的状态开始遵循某一策略代理所能获得的折扣奖励。在开始训练前先收集随机策略下一组固定的状态，并记录这些状态的最大预测Q值的平均值，从图10和图11可以看出该指标更加平滑，也没有发散问题，这说明尽管缺乏任何理论上的收敛性保证，该方法能够非常稳定地利用强化学习信号和随机梯度下降训练大型神经网络。

图10 Breakout游戏上的平均最大预测动作值

图11 Seaquest游戏上的平均最大预测动作值

7.5.2 可视化值函数

图12中展示的是在游戏Seaquest上学习到的值函数，当在屏幕左边有敌人出现时，预测值会跳跃（图13对应A点），然后代理向敌人发射鱼雷，当鱼雷即将击中敌人时，预测值达到峰值（图14对应B点），最后敌人消失后，估计值又会下降到原始值（图15对应C点）。这说明该方法能够学习到在一系列相当复杂的事件中值函数是如何进化的。

图12 Seaquest游戏在一个30帧的片段上的预测值函数

图13 对应A点的截图

图14 对应B点的截图

图15 对应C点的截图

7.5.3 对比

表1 DQN vs 其他学习算法和人类玩家

	B. Rider	Breakout	Enduro	Pong	Q*bert	Seaquest	S. Invaders
Random	354	1.2	0	-20.4	157	110	179
Sarsa	996	5.2	129	-19	614	665	271
Contingency	1743	6	159	-17	960	723	268
DQN	4092	168	470	20	1952	1705	581
Human	7456	31	368	-3	18900	28010	3690

表2 DQN vs 进化策略搜索

HNeat Best	3616	52	106	19	1800	920	1720
HNeat Pixel	1332	4	91	-16	1325	800	1145
DQN Best	5184	225	661	21	4500	1740	1075

7.6 感悟

目前正在研究的基于深度强化学习的柔性作业车间调度问题根本上也是以这篇文章为出发点，利用深度强化学习针对不同的调度状态自适应地做出较优的决策，但是该方法也有很明显的弊端，自己做实验时也有体会，后面也会介绍针对存在的问题都有哪些改进。

参考文献

[1] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science. 2013.

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
碎片化学习笔记分享剑客写作
现在生活节奏很快，学习力成为了我们拥有的最大财富。碎片化学习是最好的。首先，不要太过自信，学会虚心学习，是我们面对现实的好方法，才能够常保新鲜。平时我们要拥有什么工具呢？1.思维导图2.写在印象笔记里3.听书，消燥耳机4.教学输出5.录音笔里面最好的方式就是教学输出法，记忆里最好。当输出时我们集中精力记忆里最好。有人认为缩短睡眠时间来学习，其实最好的方式是保持最好的睡眠，记忆力会更好。剥夺睡眠，会
《随园诗话》学习笔记三百零六飞鸿雪舞
卷五凡诗之传者，都在灵性五、五斗米与诗【原文】丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。竹锐穿泥壁，蝇酣落酒尊。钓久知鱼性，樵多识树名。笔残芦并用，墨尽指同磨。＂七言云：＂小窗近水寒偏觉，古木遮天曙不知。旧生萍处泥犹绿，新落花时水亦香。旧甓恐闲都贮水
D15 论语学习笔记许小兔Angelina
悟：上级对下级的宽容：凡事成定局，就不你说了；已接近完结的事，也没必要匡正和挽回了；既然是过去的事，也没必要追究得失和责任了。对待孩子教育也是，不用“问责制”，这样容易让孩子因为害怕担责而说谎。应当循循善诱，避免再犯错才是最重要的。3.16：【原文】子曰：“射不主皮，为力不同科，古之道也。”【译文】孔子说：“射箭比赛不以射透为主，而主要看是否射得准确，因为人的力量不同，自古如此。”3.17：【原文
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
网络工程师学习笔记（一）专业白嫖怪网络工程师学习笔记学习笔记网络
为了备战下半年的软考——网络工程师，利用每天的下班的闲暇时间看书听课，然后自己手敲整理的系列资料。希望能够对你们有所帮助第一章__计算机网络概述计算机网络的定义：将分散的具有独立运算功能的计算机系统，通过通信线路和通信设备进行连接起来的实现资源的共享。ARPAnet网络的特征：资源共享、分散控制、分组交换1946年第一台通用计算机—埃尼亚克能够相互连通进行数据交换。1960年提出巨型网络，出现了对
K8S学习笔记02——K8S组件沉淅尘 #Docker #K8S kubernetes
Kubernetes组件一、控制平面组件（ControlPlaneComponents）(1)kube-apiserver(2)etcd(3)kube-scheduler(4)kube-controller-manager(5)cloud-controller-manager二、Node组件1.kubelet2.kube-proxy3.容器运行时（ContainerRuntime）三、插件（Add
「Python」2020.04.08学习笔记 | 第六章文件（a+）模式+把随机手机号写入文件小练习 Yetta的书影屋
学习测试开发的Day97，真棒！学习时间为40M第九次全天课(下午视频二20M-50M）>>>fp.seek(0)0>>>fp.read()'你好11你好12你好13你好14你好15\n你好16\n你好17\n你好18\n'>>>fp.seek(0,0)0>>>fp.write("*********************************\n")34>>>fp.seek(0,0)0>>>f
《金文成〈中庸〉学习笔记401。2020-2-24》金吾生
《金文成〈中庸〉学习笔记401。2020-2-24》今天是庚子年戊寅月丁酉日，二月初二，2020年2月24日星期一。二月二龙抬头。第二十二章【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则能赞天地之化育；能赞天地之化育，则可以与天地参矣。】上一节，船山讲解说，性作为天用之本体，于圣人和匹夫匹妇而言并无二致，区别来自于诚。诚的区别来自于纯粹与掺杂。掺杂什么呢
CDGA学习笔记三-《数据安全》 zy_chris 网络安全
七、数据安全7.1引言数据安全包括安全策略和过程的规划、建立与执行，为数据和信息资产提供正确的身份验证、授权、访问和审计。要求来自以下方面：（1）利益相关方（2）政府法规（3）特定业务关注点（4）合法访问需求（5）合同义务7.1.1业务驱动因素1、降低风险信息安全首先对组织数据进行分级分类，对组织数据进行分类分级的整个流程：1）识别敏感数据资产并分类分级2）在企业中查找敏感数据3）确定保护每项资产
vue学习笔记——关于对Vue3 ref(), toRef(), toRefs(), unref(), isRef(), reactive()方法的理解。 chen_sir_sh vue学习笔记 javascript 前端 vue
VUE3出现了很多新的API，下面是自己的一些理解进行的总结。欢迎大家一起交流补充。ref()使用ref创建一个数据类型，ref有value这个属性constname1={age:"14",name:"bob1"};constname2=ref({name:"bob2"});//使用ref创建一个数据类型相对于reactive，ref有value属性name2.value="bob3"consol
遇到僵尸进程，怎么处理---学习笔记 summer@彤妈性能优化 linux
僵尸进程解释当iowait升高时，进程很可能因为得不到硬件的响应，而长时间处于不可中断状态。从ps或者top命令的输出中，你可以发现它们都处于D状态，也就是不可中断状态（UninterruptibleSleep）。既然说到了进程的状态，进程有哪些状态你还记得吗？我们先来回顾一下。top和ps是最常用的查看进程状态的工具，我们就从top的输出开始。下面是一个top命令输出的示例，S列（也就是Stat
C++学习笔记----6、内存管理（五）---- 智能指针（3）王俊山IT c++学习笔记开发语言
2、shared_ptr有时候吧，有些对象或者一部分代码需要同一个指针的拷贝。那么unique_ptr不能被拷贝，因此就不能用于些场景。这样的话，std::shared_ptr就是一个支持能够被拷贝的拥有共享属主的智能指针。但是，如果有指向同一个资源的多个shared_ptr实例，那么怎么知道什么时候去释放资源呢？这可以通过对于引用记数来解决，这个我们以后再聊。首先，让我们看一下怎么构造与使用sh
【学习笔记】武志红心理学—潜意识决定命运万万千千
冰山一角什么构成了我们的命运？命运是由我们的显意识和潜意识来决定的。我们可以用一张图做一个比喻。看过“冰山一角”图片的都知道，潜意识就是水面以下的部分，显意识是水面以上的部分，从体积来看，潜意识占了大部分，而显意识只是冰山一角，纵向来看，庞大的潜意识支撑着冰山一角的显意识，才得以让冰山漂浮在水面。延伸到我们的人生，我们对自己显意识层面的想法很容易感知到，所以我们会说这是“我”自己做的选择。而潜意识
Prism 教程 yang_B621 Prism IOC
http://t.csdnimg.cn/VXSSvhttps://blog.csdn.net/u010476739/article/details/119341731Prism-随笔分类-Hello——寻梦者！-博客园(cnblogs.com)C#IoC学习笔记-缥缈的尘埃-博客园(cnblogs.com)WPF_SchuylerEX的博客-CSDN博客
绘本讲师训练营【第30期】2/21阅读原创《绘本之力》学习笔记2 郑贤钰
30028郑贤钰今天读了绘本之力《留在灵魂里的东西》读了心里有非常大的感触！两个年幼什么都不懂的孩子，为了自己心爱的东西，攒下来自己的零花钱，却买了一个自己不知道怎么用的东西，当他们觉得这个东西根本就不好，准备扔掉的时候，这是故事中的有趣有爱的老爷爷出现了，帮助孩子们再一次发现之前别人拉出优美的音乐，原来自己买的这一个琴，自认为没用的琴也能够经过老爷爷熟练的演奏也能拉出这样优美的声音，这让孩子们十
仿老师悟耕海者
毕业十年了，今天去拜访老师，看到老师的学习笔记，看到老师努力学习，积极提高的状态，我觉着自己真是有些懈怠了，孩子们，老师的老师都在孜孜不倦，我们岂能偷懒！
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
C++学习笔记----7、使用类与对象获得高性能（一）---- 书写类（2）王俊山IT c++学习笔记开发语言
2.2、定义成员函数前面对SpreadsheetCell类的定义足以让你生成类的对象。然而，如果想调用setValue()或者getValue()成员函数，连接器就会抱怨这些函数没有定义。这是因为到目前为止，这些成员函数只有原型，而还没有实现。通常，类的定义会在模块接口文件。对于成员函数的定义，你有一个选择：可以在模块定义文件或者在模块实现文件。下面是SpreadsheetCell类，在类内对成员
Spring6学习笔记4：事务 ·云扬· SSM Java #Spring 学习笔记 spring
1JdbcTemplate1.1简介Spring框架对JDBC进行封装，使用JdbcTemplate方便实现对数据库操作准备工作①搭建子模块搭建子模块：spring-jdbc-tx②加入依赖org.springframeworkspring-jdbc6.0.2mysqlmysql-connector-java8.0.30com.alibabadruid1.2.15③创建jdbc.propertie
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

第七章 深度强化学习-深度Q网络系列1（Deep Q-Networks，DQN）