舒晨young

强化学习学习笔记

强化学习

一.基本概念

1.什么是强化学习：

个体主动对环境作试探而不是静止地被动地等待
环境对试探动作产生的反馈是评价性的，个体根据环境的评价来调整以后的行为，是一种从环境状态到行为映射的学习。

一个以“打翻水杯”为例的机器-环境交互的例子：

注：
结合两幅图可以发现这是一个连续的过程
这个状态是环境的状态，而不是机器的状态，实质上是机器的一个observation.

AlphaGo的示例：

在大多数情况下reward都是0，这个过程中机器需要做的一个事情就是通过调整模型，学习在什么状态下应该采取什么行动可以使得期望reward取得一个最大值。
AlphaGo的实际操作过程是令两个机器做对手下棋来进行学习。

2.用马尔可夫决策过程(MDP) 的描述方式：
机器处于环境E中，状态空间为X，其中每个状态x∈X是机器感知到的环境的描述；机器能采取的动作构成动作空间A，若某个动作a∈A作用在当前状态x上，则潜在的转移函数P使得环境从当前状态按某种概率转移到另一个状态；在转移到另一个状态的同时，环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏。
综合起来对应一个四元组：E=
主要是表示机器和环境交互的整个过程
eg:给西瓜浇水问题的MDP：

MDP本质：
设系统在某任意时刻t的状态为s,则机器在t时刻执行动作a后使状态转变为下一状态s’的概况P(s’|s,a)，以及获得的瞬时奖赏值r(s,a)都仅仅依赖于当前状态s和选择的动作a,而与历史状态和历史动作无关，即“将来”与“现在”有关，而与“过去”无关。
3.机器与环境：
（机器只能做出行动、接受结果，不能决定行动对应啥结果） 在环境中状态的转移、奖赏的返回是不受机器控制的；机器只能通过选择要执行的动作来影响环境，只能通过观察转移后的状态和返回的奖赏来感知环境。
机器的任务：在环境中不断尝试学得策略 $\pi$ （用函数或者概率表示）,这个决策使得在某状态下就能得知要执行的动作。
关于策略：

在每一个状态都会给出一个动作，是一个状态到动作映射的函数
输出的是在当前状态所有可能动作的概率分布
表现形式： $\pi(a|s)=P(A_t=a|S_t=s)$
还有一个假设是策略函数是静态的，不同时间上概率分布是独立的。

策略的优劣标准：长期执行后得到的累计奖赏。计算方式：

T步累积奖赏： $E[\frac{1}{T}\sum_{t=1}^{T}r_t]$
$\gamma$ 折扣累积奖赏: $E[\sum_{t=0}^{+∞}\gamma^tr_{t+1}]$

4.强化学习任务：
找到能使长期累积奖赏最大化的策略。
total reward期望值的计算：

$\tau$ 是一次执行的序列（过程），把每一步的奖赏加起来就是 $R(\tau)$ ,我们希望的就是这个玩意儿的期望值可以最大，在参数 $\theta$ 下所求的期望值等于每一个过程发生的概率与该过程的总奖赏的乘积。
我们不可能罗列某策略下所有的可能序列，因此实质上是在该策略下进行N次，获得N个过程，对这N个过程的总奖赏求平均。

5.强化学习与监督学习

模型的形式无差别（状态–示例，动作–标记，策略–分类器or回归器）
监督学习是希望使得total loss最小，强化学习是希望total reward期望值最大
强化学习中并没有监督学习中的有标记样本，机器只有通过“反思”之前的动作是否正确来学习什么状态下该做什么动作。可看作“延迟标记信息”的监督学习问题。
什么状态应该对应什么动作有时候是提前不知道的，这类场景下监督学习的方法受限，可以用强化学习，因为它是从experiment中进行学习。

6.强化学习面临的困难

一是奖赏存在延迟，也就是主体动作存在潜在的影响未来奖赏的可能，不止影响立即得到的奖励，而且影响接下来的动作和最终的奖励，但是现在看不出来；另一方面机器的动作会影响它接收到的后面的数据信息，比如有些东西是它没探索过的，就无法获知这种情形下会有什么奖赏
7.强化学习方法分类

基于策略的方法学习的是采取何种行动，希望学得策略，以状态为输入，然后以动作为输出，奖赏用来帮助选择最优的一个function.
基于值的方法学的是批评，评价现在的行为有多好或者有多不好，而不学习采取什么行动。

除了这种分类方式，其实还有其他的分类方式：比如可以分为有模型学习方法和免模型学习方法

二.K-摇臂赌博机（单步强化学习任务理论模型）

考虑最大化单步奖赏（也可以认为是在选择有价值的数据的方式）

“仅探索”法：轮流按下每个摇臂，最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。（仅为获知每个摇臂的期望奖赏的方法，会失去很多选择最优摇臂的机会）
“仅利用”法：按下到目前为止平均奖赏最大的摇臂（仅为执行奖赏最大的动作的方法，没有很好地估计期望奖赏）

事实上，面临“探索-利用”窘境。搜索新动作（试错）可以带来长期的性能改善，帮助收敛到最优策略，但是探索多了有可能找到差的动作；利用（强化）可以帮助系统短期性能改善，但可能收敛到次优解，但是探索少了有可能错过好的动作。
所以欲累积奖赏最大，必须在两者之间达成较好折中。

1. $\epsilon$ -贪心
基于一个概率来对探索和利用进行折中：
每次尝试时，以 $\epsilon$ 的概率进行探索（以均匀概率随机选取一个摇臂）；以 $1-\epsilon$ 的概率进行利用（选择当前平均奖赏最高的摇臂。摇臂奖赏不确定性较大时，需要更多的探索，则需要较大的 $\epsilon$ 值；反之需要的 $\epsilon$ 值较小。（可以令 $\epsilon=1/\sqrt{t}$ ）

尝试n次,得到奖赏 $v_1,...,v_n,$ 摇臂k的平均奖赏： $Q(k)=\frac{1}{n}\sum_{i=1}^{n}v_i$
第n次更新： $Q_n(k)=\frac{1}{n}((n-1)×Q_{n-1}(k)+v_n)=Q_{n-1}(k)+\frac{1}{n}(v_n-Q_{n-1}(k))$ （这样只需要记录次数和最近平均奖赏）

算法描述：

2.Softmax
基于当前已知的摇臂平均奖赏来进行折中：
平均奖赏相当则被选取概率也相当，平均奖赏高的摇臂被选取概率也更高。
摇臂概率分配基于Boltzmann分布：

其中 $\tau$ 越小则平均奖赏高的摇臂被选取的概率越高 （ $\tau$ 越小，那么俩个不同的Q值使得P值相差越大） $\tau$ 趋于0是算法趋于“仅利用”，趋于无穷大时算法趋于“仅探索”。

算法描述：

三.有模型学习

考虑多步强化学习任务，假定模型已知。(机器已对环境进行了建模，能在机器内部模拟出与环境相同或近似的状况，此时 $P_{x→x'}^a$ 和 $R_{x→x'}^a$ 已知）

1.策略评估 （基于值的方法）
在给出的一个策略 $\pi$ 基础上，对策略 $\pi$ 估计它带来的期望累积奖赏。

状态值函数 $V^\pi(x)$ :从状态x出发，使用策略 $\pi$ 带来的期望累积奖赏

① $\gamma$ 是一个折扣量，取值范围[0,1],根据步骤对奖励进行一定折扣计算在t步骤的收益（在一段时间内的奖励函数加权平均值） $r_1+\gamma r_2+\gamma^2 r_3+..$ 奖励有累积，但是会随着时间衰减，更重视当前奖励；避免出现带环马尔可夫过程中的无穷奖励；为0表示只关注当前奖励，为1表示同样程度地关心未来奖励
状态-动作值函数 $Q^\pi(x,a)$ :从状态x出发，执行动作a后再使用策略 $\pi$ 带来的累积奖赏(一个从现在开始到结束的累积的期望）

状态值函数与Q函数的关系：对Q函数进行边缘概率求和得到V函数（结合一个图感受一下）：

对于最上面那个状态，会有一个动作的概率分布，动作确定后就会得到一个Q函数

贝尔曼方程
主要定义当前状态和外来状态之间的一个关联。
根据马尔可夫性质（系统下一时刻的状态仅由当前时刻状态决定），状态值函数的递归形式：

算法描述：

对于 $V_\gamma^\pi$ ,由于 $\gamma^t$ 在t很大时趋于0，因此也能使用类似算法，将(16.7)换成(16.8)即可。

算法迭代的停止准则：可以设一个阈值 $\theta$ ,然后把第四行条件替换为：

有了状态值函数V后，可直接计算出状态-动作值函数：

2.策略改进
理想的策略应能最大化累积奖赏： $\pi^*=\operatorname{arg\,max}_\pi\sum_{x∈X}V^\pi(x)$ (对所有的初始状态经过策略 $\pi$ 后计算累计奖赏，然后把它们加起来)
最优值函数：最优策略对应的值函数
最优Bellman等式：

这一块前面提到的递归式相当于是考虑了每个可能的动作带来的累计奖赏，对每个求出来的值乘了该动作发生的概率；最优值函数里面则是直接选择了令 $V_T^*(x)$ 最大的那个动作。

最优Bellman等式揭示了非最优策略的改进方式：将策略选择的动作改变为当前最优的动作。

3.策略迭代与值迭代（在MDP中的方法）

动态规划方法：把一个复杂的问题变为相对简单的一些子问题，再利用保存解决这些子问题得到结果来减少运算复杂度。
强化学习中的动态规划：

预测：评估一个策略
控制：找到一个最优策略

获取最优策略：

直接在动作价值函数获取最大化值
当 $a=argmax_{a∈A}Q_{\pi}(x,a)$ 时， $\pi^*(x,a)=1$ 否则为0

策略迭代：不断迭代进行策略评估和改进，直到策略收敛、不再改变为止。
基于T步累积奖赏的策略迭代算法 算法描述：

基于T步累积奖赏的值迭代算法算法描述：

四.免模型学习

学习算法不依赖于环境建模。
1.蒙特卡罗强化学习
是一种模型无关的，解决基于平均样本回报的强化学习问题的学习方法。
策略评估替代方法：多次“采样”，然后求取平均累积奖赏作为期望累积奖赏的近似。
在模型未知的情形下，从起始状态出发，使用某种策略进行采样，执行该策略T步并获得轨迹 $< x_{0}, a_{0}, r_{1}, x_{1}, a_{1}, r_{2}, . . ., x_{T - 1}, a_{T - 1}, r_{T}, x T >$ 对轨迹中每一对状态-动作，记录之后的奖赏之和，作为该状态-动作对的一次累积奖赏采样值。多次采样得到多条轨迹后，将每个状态-动作对的累积奖赏采样值进行平均，即得到状态-动作值函数的估计。

估计状态值函数：

在完成一次迭代中每一步t状态是可以观察的
增加迭代次数：N(s)=N(s)+1
增加总的回报：S(s)=S(s)+G(t)
计算回报的均值：v(s)=S(s)/N(s)
当N(s)趋于∞，v(s)趋于 $v_\pi$

2.TD
可以看成是MC和DP算法的一个折中算法。

Sarsa
推导TD目标：

$\gamma$ 折扣累积奖赏： $U^\pi_t=R_t+\gamma R_{t+1}+\gamma^2R_{t+2}+...$
提出一个 $\gamma$ 之后: $U^\pi_t=R_t+\gamma（ R_{t+1}+\gamma R_{t+2}+...)=R_t+\gamma U^\pi_{t+1}$ 假设 $r_t$ 依赖于t时刻的状态、动作、下一时刻的状态:( $S_t,A_t,S_{t+1}$ )
$Q^\pi(s_t,a_t)=E[U^\pi_t|s_t,a_t]=E[R_t+\gamma U^\pi_{t+1}|s_t,a_t]$
把两项期望分解开来： $Q^\pi(s_t,a_t)=E[R_t|s_t,a_t]+\gamma E[U^\pi_{t+1}|s_t,a_t]$ 而 $E[U^\pi_{t+1}|s_t,a_t]=E[Q^\pi(S_{t+1},A_{t+1})|s_t,a_t]$
所以可以写成 $Q^\pi(s_t,a_t)=E[R_t+\gamma Q^\pi(S_{t+1},A_{t+1})]$ 直接求期望很困难，所以对期望做蒙特卡洛近似：把 $R_t$ 近似为观测到的奖励 $r_t$ ,用观测到的 $s_{t+1}和a_{t+1}$ 代替随机变量 $S_{t+1}和A_{t+1}$
TD 目标： $y_t=r_t+\gamma Q^\pi(s_{t+1},a_{t+1})$ TD学习是希望 $Q^\pi(s_t,a_t)更接近y_t$

表格形式的Sarsa：

$\alpha$ 是一个学习率

Q-learning:
用来学习最优状态-动作值函数 $Q^*(s,a)$
推导TD目标：

AlphaGo

大体思路：
训练

模仿人类学习，初始化策略网络（实质上是一种监督学习）
用强化学习进一步学习策略网络（使用的是策略梯度方法，策略网络自我博弈）
训练价值网络（使用了策略网络）

实施

使用策略网络和价值网络，通过蒙特卡罗搜索树搜索

参考资料：

【1】西瓜书
【2】李宏毅强化学习系列网课
【3】https://www.bilibili.com/video/BV1Qt411j7e6?p=2
【4】https://www.bilibili.com/video/BV1rv41167yx?p=5
（以上是一些主要的资源与网课链接，侵权删减）

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
碎片化学习笔记分享剑客写作
现在生活节奏很快，学习力成为了我们拥有的最大财富。碎片化学习是最好的。首先，不要太过自信，学会虚心学习，是我们面对现实的好方法，才能够常保新鲜。平时我们要拥有什么工具呢？1.思维导图2.写在印象笔记里3.听书，消燥耳机4.教学输出5.录音笔里面最好的方式就是教学输出法，记忆里最好。当输出时我们集中精力记忆里最好。有人认为缩短睡眠时间来学习，其实最好的方式是保持最好的睡眠，记忆力会更好。剥夺睡眠，会
《随园诗话》学习笔记三百零六飞鸿雪舞
卷五凡诗之传者，都在灵性五、五斗米与诗【原文】丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。竹锐穿泥壁，蝇酣落酒尊。钓久知鱼性，樵多识树名。笔残芦并用，墨尽指同磨。＂七言云：＂小窗近水寒偏觉，古木遮天曙不知。旧生萍处泥犹绿，新落花时水亦香。旧甓恐闲都贮水
D15 论语学习笔记许小兔Angelina
悟：上级对下级的宽容：凡事成定局，就不你说了；已接近完结的事，也没必要匡正和挽回了；既然是过去的事，也没必要追究得失和责任了。对待孩子教育也是，不用“问责制”，这样容易让孩子因为害怕担责而说谎。应当循循善诱，避免再犯错才是最重要的。3.16：【原文】子曰：“射不主皮，为力不同科，古之道也。”【译文】孔子说：“射箭比赛不以射透为主，而主要看是否射得准确，因为人的力量不同，自古如此。”3.17：【原文
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
网络工程师学习笔记（一）专业白嫖怪网络工程师学习笔记学习笔记网络
为了备战下半年的软考——网络工程师，利用每天的下班的闲暇时间看书听课，然后自己手敲整理的系列资料。希望能够对你们有所帮助第一章__计算机网络概述计算机网络的定义：将分散的具有独立运算功能的计算机系统，通过通信线路和通信设备进行连接起来的实现资源的共享。ARPAnet网络的特征：资源共享、分散控制、分组交换1946年第一台通用计算机—埃尼亚克能够相互连通进行数据交换。1960年提出巨型网络，出现了对
K8S学习笔记02——K8S组件沉淅尘 #Docker #K8S kubernetes
Kubernetes组件一、控制平面组件（ControlPlaneComponents）(1)kube-apiserver(2)etcd(3)kube-scheduler(4)kube-controller-manager(5)cloud-controller-manager二、Node组件1.kubelet2.kube-proxy3.容器运行时（ContainerRuntime）三、插件（Add
「Python」2020.04.08学习笔记 | 第六章文件（a+）模式+把随机手机号写入文件小练习 Yetta的书影屋
学习测试开发的Day97，真棒！学习时间为40M第九次全天课(下午视频二20M-50M）>>>fp.seek(0)0>>>fp.read()'你好11你好12你好13你好14你好15\n你好16\n你好17\n你好18\n'>>>fp.seek(0,0)0>>>fp.write("*********************************\n")34>>>fp.seek(0,0)0>>>f
《金文成〈中庸〉学习笔记401。2020-2-24》金吾生
《金文成〈中庸〉学习笔记401。2020-2-24》今天是庚子年戊寅月丁酉日，二月初二，2020年2月24日星期一。二月二龙抬头。第二十二章【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则能赞天地之化育；能赞天地之化育，则可以与天地参矣。】上一节，船山讲解说，性作为天用之本体，于圣人和匹夫匹妇而言并无二致，区别来自于诚。诚的区别来自于纯粹与掺杂。掺杂什么呢
CDGA学习笔记三-《数据安全》 zy_chris 网络安全
七、数据安全7.1引言数据安全包括安全策略和过程的规划、建立与执行，为数据和信息资产提供正确的身份验证、授权、访问和审计。要求来自以下方面：（1）利益相关方（2）政府法规（3）特定业务关注点（4）合法访问需求（5）合同义务7.1.1业务驱动因素1、降低风险信息安全首先对组织数据进行分级分类，对组织数据进行分类分级的整个流程：1）识别敏感数据资产并分类分级2）在企业中查找敏感数据3）确定保护每项资产
vue学习笔记——关于对Vue3 ref(), toRef(), toRefs(), unref(), isRef(), reactive()方法的理解。 chen_sir_sh vue学习笔记 javascript 前端 vue
VUE3出现了很多新的API，下面是自己的一些理解进行的总结。欢迎大家一起交流补充。ref()使用ref创建一个数据类型，ref有value这个属性constname1={age:"14",name:"bob1"};constname2=ref({name:"bob2"});//使用ref创建一个数据类型相对于reactive，ref有value属性name2.value="bob3"consol
遇到僵尸进程，怎么处理---学习笔记 summer@彤妈性能优化 linux
僵尸进程解释当iowait升高时，进程很可能因为得不到硬件的响应，而长时间处于不可中断状态。从ps或者top命令的输出中，你可以发现它们都处于D状态，也就是不可中断状态（UninterruptibleSleep）。既然说到了进程的状态，进程有哪些状态你还记得吗？我们先来回顾一下。top和ps是最常用的查看进程状态的工具，我们就从top的输出开始。下面是一个top命令输出的示例，S列（也就是Stat
C++学习笔记----6、内存管理（五）---- 智能指针（3）王俊山IT c++学习笔记开发语言
2、shared_ptr有时候吧，有些对象或者一部分代码需要同一个指针的拷贝。那么unique_ptr不能被拷贝，因此就不能用于些场景。这样的话，std::shared_ptr就是一个支持能够被拷贝的拥有共享属主的智能指针。但是，如果有指向同一个资源的多个shared_ptr实例，那么怎么知道什么时候去释放资源呢？这可以通过对于引用记数来解决，这个我们以后再聊。首先，让我们看一下怎么构造与使用sh
【学习笔记】武志红心理学—潜意识决定命运万万千千
冰山一角什么构成了我们的命运？命运是由我们的显意识和潜意识来决定的。我们可以用一张图做一个比喻。看过“冰山一角”图片的都知道，潜意识就是水面以下的部分，显意识是水面以上的部分，从体积来看，潜意识占了大部分，而显意识只是冰山一角，纵向来看，庞大的潜意识支撑着冰山一角的显意识，才得以让冰山漂浮在水面。延伸到我们的人生，我们对自己显意识层面的想法很容易感知到，所以我们会说这是“我”自己做的选择。而潜意识
Prism 教程 yang_B621 Prism IOC
http://t.csdnimg.cn/VXSSvhttps://blog.csdn.net/u010476739/article/details/119341731Prism-随笔分类-Hello——寻梦者！-博客园(cnblogs.com)C#IoC学习笔记-缥缈的尘埃-博客园(cnblogs.com)WPF_SchuylerEX的博客-CSDN博客
绘本讲师训练营【第30期】2/21阅读原创《绘本之力》学习笔记2 郑贤钰
30028郑贤钰今天读了绘本之力《留在灵魂里的东西》读了心里有非常大的感触！两个年幼什么都不懂的孩子，为了自己心爱的东西，攒下来自己的零花钱，却买了一个自己不知道怎么用的东西，当他们觉得这个东西根本就不好，准备扔掉的时候，这是故事中的有趣有爱的老爷爷出现了，帮助孩子们再一次发现之前别人拉出优美的音乐，原来自己买的这一个琴，自认为没用的琴也能够经过老爷爷熟练的演奏也能拉出这样优美的声音，这让孩子们十
仿老师悟耕海者
毕业十年了，今天去拜访老师，看到老师的学习笔记，看到老师努力学习，积极提高的状态，我觉着自己真是有些懈怠了，孩子们，老师的老师都在孜孜不倦，我们岂能偷懒！
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
C++学习笔记----7、使用类与对象获得高性能（一）---- 书写类（2）王俊山IT c++学习笔记开发语言
2.2、定义成员函数前面对SpreadsheetCell类的定义足以让你生成类的对象。然而，如果想调用setValue()或者getValue()成员函数，连接器就会抱怨这些函数没有定义。这是因为到目前为止，这些成员函数只有原型，而还没有实现。通常，类的定义会在模块接口文件。对于成员函数的定义，你有一个选择：可以在模块定义文件或者在模块实现文件。下面是SpreadsheetCell类，在类内对成员
Spring6学习笔记4：事务 ·云扬· SSM Java #Spring 学习笔记 spring
1JdbcTemplate1.1简介Spring框架对JDBC进行封装，使用JdbcTemplate方便实现对数据库操作准备工作①搭建子模块搭建子模块：spring-jdbc-tx②加入依赖org.springframeworkspring-jdbc6.0.2mysqlmysql-connector-java8.0.30com.alibabadruid1.2.15③创建jdbc.propertie
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&