丸丸丸子w

【Hung-Yi Lee】强化学习笔记

文章目录

What is RL
Policy Gradient
- Policy Gradient实际是怎么做的
- On-policy v.s. Off-policy
- Exploration
- 配音大师
Actor-Critic
- 训练value function的方式
- 网络设计
- DQN
Reward Shaping
No Reward：Learning from Demonstration

What is RL

定义一个策略网络，来接受输入，并决定什么输出

不断的在环境和执行的action之间切换，最后获得一个总的reward（每一步的reward加起来），是我们要最大化的东西。

reward是一个function，把s1（observation）和a1(action)当作输入，r1当作输出

我们要learn network里的参数，让R越大越好

但是RL没有一般的深度学习那么简单，主要难在以下几点：

对于Actor，对于一样的s1，其输出的a1是有随机性的
ENV只是一个黑盒子，Reward只是一个规则。而不是一个network，只是都会输入一个东西，然后输出一个东西而已。此外他们也有随机性，对于同样的action，对手的反应是存在随机性的。

所以没办法用梯度下降的方式来训练

Policy Gradient

定义Loss为输出的 $\alpha$ ，与我们想要他进行的 $\hat{\alpha}$ （比如这里是希望他向左），计算交叉熵，其结果就是loss，然后我们希望actor中的参数能让loss最小

这样用一个训练分类器的方法，大致就是可以去控制actor

这里就是给定s1和a1后，给出一个参数A1，用于判断a1这个行为对于当前s1这个环境，是正确的决定，还是不要执行的决定。而且有一个正确/错误的程度。

前面这个A的值只是±1，现在有大小区别

至于这个数据是如何产生的，这是后面要讨论的问题

训练数据是如何产生的

跑很多个episode，然后进行每个pair的评估，将对应reward的值作为评估结果。

不过这样有个问题，这样是一个短期的评估，他没有长期的规划，只知道“一时爽”。

An action affects the subsequent observations and thussubsequent rewards.
- 比如a1会影响到s2、a2、r2
Reward delay: Actor has to sacrifice immediate reward togain more fong-term reward.
- 有时候我们需要牺牲短期利益，获取长期目标
- 比如我们要先左右移动瞄准，再进行射击，左右瞄准没有短期reward，但并不代表不重要

我们进一步修正，将对于一个a1，将其后面的r都加起来，作为reward，来评估action的好坏

进一步添加 $\gamma$ ，距离越远，action的影响越小

考虑到reward是相对的，所以我们要做一下类似标准化的事情
- 比如全班的最高分是80，而你得了20分，这样其实是差的，但是G的绝对值还是20分，所以只拿G的数值去算是不对的
- 所以给定一个baseline b，所有的G都要减去这个b

Policy Gradient实际是怎么做的

具体的操作

data collection是在for循环，这个训练里面的

图像化表示这个过程，每一次更新参数之后，都要重新收集数据，这也是为什么rl的training这么浪费时间的原因

为什么一次更新完就要重新收集资料呢
- $\theta^i$ 是根据 $\theta^{i-1}$ 推演过来的没错，但是在 $\theta^{i-1}$ 的时刻，其后面的推测的 $\theta^i$ 的Traiectory部分，并非真正在 $\theta^i$ 时刻的Traiectory
- 所以不能只收集一次数据，要一轮收集一次

On-policy v.s. Off-policy

我们前面用的方法都是On-policy的，就是训练的actor跟与环境交互的actor是同一个actor。但是也有Off-policy的训练方法，这个这里不细讲，比如用一些方法，用 $\theta^{i-1}$ 所搜集到的资料去训练 $\theta^{i}$ ，这样就可以收集一次资料训练好多次，是Off-policy的好处
举例一个Off-policy的方法

Exploration

一个重要的技巧

与环境互动的这个actor的随机性非常重要，这个actor多尝试，我们才能获取更大范围的资料，行为对应的reward，更好的训练。

配音大师

全视频最好笑的地方

配音大师 39:39

Actor-Critic

Critic 是 Actor-Critic 方法中的一部分，主要用于评估给定的Actor（即策略）的性能

对于同一个s，不同的actor $\theta$ ，其V值不同

值函数：这是一个由Critic学习的函数，用来估计在策略θ下，在状态s开始并遵循该策略能获得的折扣累积奖励。这个值函数预测了从当前状态s开始，未来所有可能收到的奖励的当前价值。

值函数表示一个策略在特定状态s下的期望收益。它是一个平均的结果，因为它试图总结在该状态下，遵循特定策略可能导致的所有可能的未来路径的预期回报。

对于一个s，一个a会得到多种可能的汇报，而V是一个期望值

训练value function的方式

马尔可夫方法
- 需要玩完整把游戏，直接看我们观察到的资料
- 通过完整的序列（或者说是episode）来估计价值函数，这意味着它必须等到一个episode结束后才能进行价值估计
- MC方法不需要模型，即不需要知道环境的状态转移概率和奖励函数。

TD
- 不需要玩完整把游戏
- 与 $r_t$ 越接近越好
- TD方法可以在不需要等待当前episode结束的情况下，通过部分序列来估计价值函数，通常每步都会更新。
- 它结合了当前收到的奖励和下一个状态的估计值来更新当前状态的价值。

两种方法比较

选择MC方法还是TD方法取决于应用的特定需求，包括环境的特性、是否有明确的episode边界、以及学习的速度需求等。在实际中，强化学习的策略往往需要根据具体问题进行调整和优化。一些高级的算法如Actor-Critic方法，实际上结合了两种方法，使用TD方法来估计Critic的价值函数，同时使用Policy Gradient方法（可能基于MC的思想）来更新Actor的策略。

将Critic用于RL

对于version3来说，如何设置b的值。这里给他设置为V(s)

learn出一个Critic后，对应每个s，都有V值

Advantage函数 $A_t$ ：它定义为在时间步t的实际回报（ $G^{'}_t$ ）减去在状态 $S_t$ 下的值函数估计 $(V^{\theta}(S_t))$ 。这个值告诉我们一个动作实际上比我们通常期望的要好或要坏多少。
如果 $A_t$ >0，意味着动作 $a_t$ 的表现比平均的期望要好。
如果 $A_t$ <0，意味着动作 $a_t$ 的表现比平均的期望要差。

为什么这样做
- 对于一个s，actor的输出是有随机性的，所以会有不同的reward
- 在实际训练中，我们会调整策略来提高那些具有正Advantage值的动作的概率，同时降低那些具有负Advantage值的动作的概率。
- 但是这有一个小问题，就是 $G^{'}_t$ 是一次随机的值，而值函数估计 $(V^{\theta}(S_t))$ 是一个平均值，拿某一次值减随机，总感觉怪怪的。
- 所以最后一个版本，就是拿平均减平均
Version 4
- 根据训练好的Critic（相当于预测模型），可以直接根据 $s_{t+1}$ 得到 $V^{\theta}(S_{t+1})$
- 这个版本与前面版本的主要区别在于它不等待整个序列（或episode）结束来计算回报、G，而是使用当前步骤的即时奖励和对下一个状态的值估计来更新。
- 意思是什么呢
  - 就是对于st，采取at这个action，得到的期望reward。减去不采取at，而是根据某种概率分布sample到的action得到的reward期望。两个期望值差距有多大
  - 如果 $A_{t}$ >0，那么就说明这个at好，否则就差。
  - 这就是大名鼎鼎的Advantage Actor-Critic

有一些我对概念的困惑，问了问gpt。

Actor：强化学习算法中的决策实体，负责根据当前环境状态选择动作。在Actor-Critic架构中，actor是指那部分网络，其目标是通过学习来优化策略参数 ( $\theta$ )，以最大化期望奖励。

**Action ( $a_t $KaTeX parse error: Can't use function '\)' in math mode at position 1: \̲)̲**：在每个时间步 $$ t $) 智能体所执行的具体操作。动作是智能体与环境交互的手段，智能体的目标是通过选择最优动作来最大化其长期奖励。

Actor像是一个分类器，要经过训练，最后输出多个可能的Actions，并且带有每种Action 的概率。最后决定使用的Action是从中sample出来的。

策略参数 ( $\theta $)：定义智能体策略的参数集，通常在基于模型的强化学习中，( $\theta$ ) 表示神经网络的权重和偏置。这些参数确定了智能体在特定状态下各个动作的选择概率。

动作选择过程：智能体（actor）观察当前环境状态 ($ s_t $)，并使用其策略参数 ( $\theta $KaTeX parse error: Can't use function '$' in math mode at position 1: \̲)̲ 来决定动作 \($ a_t $) 的概率分布。然后智能体从这个概率分布中采样，以选择下一步要执行的具体动作。

总结如下：

智能体（Actor）使用其策略参数 ($ \theta$ ) 来决定在特定环境状态 ( $s_t$ ) 下的动作概率分布，并从中选择动作 ( $a_t$ )，这个动作随后会影响环境，产生新的状态和奖励。这些信息被用来更新策略参数 ($ \theta$ )，从而优化未来的动作选择。

如果有某些observation是没观察到过的话，就没办法训练

网络设计

训练技巧

在Actor-Critic强化学习架构中，"Actor"和"Critic"是两种不同的网络组件，但它们可以共享一些参数：

Actor：负责选择动作的网络部分，它输出在给定状态下执行每个可能动作的概率。在上图中，Actor根据输入的状态 ( s ) 输出三个动作：“left”, “right”, 和 “fire”。
Critic：评估当前策略价值的网络部分，它输出一个标量值，表示当前状态或者状态-动作对的预期回报。Critic的输出有助于指导Actor的训练，通过评价Actor选取动作的好坏。
共享参数：Actor和Critic可以共享一些底层的网络参数。在这种情况下，一个单独的网络会首先处理输入状态 ( s )，然后分别为Actor和Critic生成特征表示。这种共享结构的好处是可以减少模型的总参数数量，同时让Actor和Critic能从相同的状态表示中学习，这可能会导致更快的学习和更好的泛化能力。

图中所示的“Tip of Actor-Critic”表明，在设计Actor-Critic网络时，可以让Actor和Critic共享一些（通常是底层的）网络层。这种方法被认为可以提高学习效率和减少所需的计算资源。

DQN

在RL中，有一种犀利的做法，是只知道Critic就可以决定Action。其中最知名的就是DQN

Reward Shaping

对于某些任务，假设reward几乎都是0，只有某些情况有巨大的reward。这时候我们就提供格外的reward帮助训练，叫做Reward Shaping。类似望梅止渴

举一个例子
- 一款射击游戏，额外添加的一些reward

再举一个例子
- 训练机械手臂，只是将板子离棍子的距离越近作为新的reward，会造成一些错误
所以reward shaping需要较强的domain knowledge，对问题本身和环境有足够的见解。才能更好的使用。

No Reward：Learning from Demonstration

有时候人定的reward不见得是最好的，容易让机器产生出人类意想不到的结果。

所以在没有reward的时候，有一种训练方式Imitation Learning。

但是如果只是单纯的让机器模仿人类的动作，在机器能力有限的情况下，容易造成更大的问题，机器不知道哪些该学哪些不该学。

于是又有一个新的技术Inverse reinforcement learning，让机器自己定reward。

原来的
反转的
- 通过expert的掩饰，来反向学习出reward function
- 再通过这个function进行训练
举一个算法例子
- 初始化一个智能体（Actor）：这个智能体会在环境中执行动作，试图模仿专家的行为。
- 交互：在每次迭代中，智能体与环境交互以获得轨迹，即一系列的状态和动作序列。
- 定义奖励函数：基于专家的轨迹，定义一个奖励函数，这个函数旨在使专家的轨迹看起来比智能体的轨迹更好，即奖励专家动作高于智能体的动作。
- 学习：智能体根据新定义的奖励函数学习并尝试最大化它的期望奖励，从而提升其行为策略贴近于专家。
更加形象的表达这个过程
1. 专家 ( $\pi^*$ )：这是执行任务的最佳方式的模型或实体。专家的策略 ( $\pi^*$ ) 生成了优化的轨迹集合 ( $\{\tau_1^*, \tau_2^*, ..., \tau_K^*\}$ )，这些轨迹表示在特定任务中的最佳行为序列。
2. 奖励函数 R：IRL的目标是从专家的轨迹中推断出这个函数。奖励函数是一个映射，它将每一个轨迹映射到一个数值上，该数值表示轨迹的好坏。在这个框架中，我们希望找到一个奖励函数，使得专家轨迹的总奖励大于其他可能的轨迹 ($ \tau$ ) 的总奖励。
3. Actor ( $\pi $)：一旦获得了奖励函数，就会使用强化学习来训练一个智能体（Actor），使其能够基于这个奖励函数采取行动。Actor在这里充当了Generator的角色，尝试生成与专家轨迹相似的行为。
4. 生成器和鉴别器：这个概念类似于生成对抗网络（GAN）中的概念。智能体（Actor）作为生成器尝试生成数据（轨迹），而奖励函数在这里可以看作是鉴别器，用于区分生成的轨迹和专家轨迹的质量。

数学建模清风课程笔记——第二章 TOPSIS法 minpengyuanBITer 数学建模数学建模笔记
TOPSIS(TechniqueforOrderPreferencebySimilaritytoIdealSolution)可翻译为逼近理想解排序法，国内简称为优劣解距离法。TOPSIS法是一种常用的综合评价方法，其能充分利用原始数据的信息，其结果能够精确地反映各评价方案之间的差距。评价类问题1TOPSIS法TOPSIS法概念：TOPSIS法是一种常用的综合评价方法，能充分利用原始数据的信息，其结
JDK8 Stream 数据流效率分析，Java开发你需要了解的那些事气质大叔程序员后端面试 java
此外还有一系列特化流，如IntStream，LongStream，DoubleStream等），Java8引入的的Stream主要用于取代部分Collection的操作，每个流代表一个值序列，流提供一系列常用的聚集操作，可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构；作为阅读福利，小编也整理了一些Java学习笔记（包含面试真题+脑图
计算机网络笔记、面试八股（二）—— HTTP协议 Your_Raymond 计算机网络 http 计算机网络面试
本章目录2.HTTP协议2.1HTTP协议简介2.2HTTP协议的优点2.3HTTP协议的缺点2.4HTTP协议属于哪一层2.5HTTP通信过程2.6常见请求方法2.7GET和POST的区别2.8请求报文与响应报文2.8.1HTTP请求报文2.8.2HTTP响应报文2.9响应状态码2.10HTTP1.0和1.1的区别2.10.1长连接2.10.2错误响应码2.10.3缓存处理2.10.4带宽的优化
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
linuxcentos6笔记 lnes， linux centos vim
目录Linux笔记11目录结构51.1基本指令51.2Ls指令：51.3Pwd指令：61.4Cd指令：71.5mkdir指令：71.6touch指令：71.7cp指令：71.8mv指令：81.9rm指令：81.10vim指令：91.11输出重定向：91.12cat指令：102进阶指令102.1Df指令：102.2free指令：102.3head指令：112.4tail指令：112.5less指令：
【考研计算机网络】课堂笔记1 第一章概述刘鑫磊up #操作系统计算机网络计算机网络
文章目录：一：计算机网络的概述1.计算机网络的基本概念2.计算机网络的组成3.计算机网络的功能4.计算机网络的分类4.1分布范围分类4.2传输技术分类4.3按照拓扑结构分类4.4按照使用者分类4.5按照传输介质分类二：计算机网络的标准化工作及相关组织三：计算机网络的性能指标速率kb千Mb兆Gb吉Tb太的单位换算存储容量KBMBGBTB的单位换数四：网络分层五：计算机网络协议、接口、服务的概念1.协
常用的pdf技术有哪些？--笔记我不是彭于晏灬 pdf 笔记
常用的pdf技术有哪些？1.iTextPDF：iText是著名的开放项目，是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档，而且可以将XML、Html文件转化为PDF文件。Openoffice：openoffice是开源软件且能在windows和linux平台下运行，可以灵活的将word或者Excel转化为PDF文档。JasperReport：是一个强大、灵活
计算机网络笔记再战——理解几个经典的协议HTTP章4 charlie114514191 计算机网络学习计算机网络笔记 http 学习网络协议网络
计算机网络笔记再战——理解几个经典的协议10HTTP章4确保Web安全的HTTPSHTTP是不安全的，它使用的是明文传递，这意味着潜在的报文纂改。这里我们将学习更加安全的HTTPS协议通信使用明文（不加密），内容可能会被窃听不验证通信方的身份，因此有可能遭遇伪装无法证明报文的完整性，所以有可能已遭篡改HTTP本身没有办法加密，但是可以跟SSL（SecureSocketLayer）或者是TLS（Tr
C++ 结构型设计模式十七12138 C++c++设计模式
C++设计模式自己理解整理笔记结构型-适配器模式适配器模式（AdapterPattern）是一种结构型设计模式，它的主要作用是将一个类的接口转换成客户希望的另一个接口，使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。适配器模式主要有两种实现方式：类适配器模式和对象适配器模式。类适配器类适配器通过多重继承实现，这种方式利用了继承优点直接调用：由于适配器类继承了被适配类，所以可以直接调用被适
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
numpy学习笔记3：三维数组 np.ones((2, 3, 4)) 的详细解释宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记3：三维数组np.ones((2,3,4))的详细解释以下是关于三维数组np.ones((2,3,4))的详细解释：1.三维数组的形状形状(2,3,4)表示：最外层维度：2个“层”（或“块”）；中间维度：每个层有3行；最内层维度：每行有4个元素。可以类比为：2本书（外层），每本书有3页（中间层），每页有4行文字（内层）。2.创建全1三维数组代码示例：importnumpyasnp
Ts学习笔记初学者7. 学习笔记 typescript
一、Ts与Js区别TsJsJavaScript的超集，用于解决大型项目的代码复杂性一种脚本语言，用于创建动态网页。强类型，支持静态和动态类型动态弱类型语言可以在编译期间发现并纠正错误只能在运行时发现错误不允许改变变量的数据类型变量可以被赋予不同类型的值二、Ts基础类型：boolean,number,string,undefined,null,any,unknown,void，neverany,un
Qt爬坑笔记 klzed_ qt c++后端 ui
1.自定义一个QWidget的派生类，将其作为子部件并设置样式表时，需要重写paintEvent事件，否则样式表可能无效，如下所示：voidCustomWidget::paintEvent(QPaintEvent*){QStyleOptionopt;opt.init(this);QPainterp(this);
LeetCode刷题笔记小李李李李腊八 leetcode 算法 java
leetcode_01两数之和斐波那契数列三个数最大乘积反转链表x的平方根环形列表LeetCode随笔两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。暴力法记录下数组第一个数值，对数组进行循环，将之后的值
numpy学习笔记2：ones = np.ones((2, 4)) 的详解宁宁可可 #机器学习 #Python基础与进阶 numpy python 开发语言
numpy学习笔记2：ones=np.ones((2,4))的详解np.ones()是NumPy中用于创建全1数组的核心函数，其用法和参数与np.zeros()类似，但生成的数组元素值全部为1。以下是详细解释：1、语法numpy.ones(shape,dtype=float,order='C')作用：生成一个指定形状和数据类型的全1数组。参数：shape：数组的形状，以元组形式传递（如(2,4)表
软考中级软件设计师考点知识点笔记总结 day05 莫问alicia 软考中级软件设计师笔记算法
文章目录4、栈和队列4.1、栈的定义4.2、队列定义5、串、数组、矩阵和广义表5.1、串5.2、数组5.3、稀疏矩阵5.4、广义表4、栈和队列4.1、栈的定义线性表是具有相同数据类型的n个数据元素的有限序列，n为表厂。n=0时线性表是一个空表L=（a1,a2,a3,…an）栈是只允许在一端进行插入或删除操作的线性表栈顶允许插入和删除的一端栈顶进栈顶出栈底不允许插入和删除的一端4.2、队列定义队列是
numpy学习笔记10：arr *= 2向量化操作性能优化宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记10：arr*=2向量化操作性能优化在NumPy中，直接对整个数组进行向量化操作（如arr*=2）的效率远高于显式循环（如foriinrange(len(arr)):arr[i]*=2）。以下是详细的解释：1.性能差异的原理(1)底层实现不同显式循环（错误示范）：Python的for循环是解释执行的，每次迭代需要动态解析变量类型、执行函数调用等操作。对每个元素的操作会触发多次Py
Python个人学习笔记（17）：模块（sys、pickle&json） NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
五、sys模块sys.exit()：退出while1:print(123)sys.exit(0)#程序退出，0是正常退出，1是非正常退出，记录在日志中sys.version：得到当前解释器的运行环境sys.platform：运行平台，win32=windows代码：print(sys.version)print(sys.platform)结果：3.13.0(tags/v3.13.0:60403a5
python学习笔记之异常（内置标准异常总结） Molly_DD Python学习笔记 python 软件测试
python异常处理机制异常处理是python的一种高级工具，当异常发生时，程序会停止当前的所有工作，跳转到异常处理部分去执行。异常既可以是程序错误引发的，也可以由代码主动触发。异常处理基本结构try:可能引发异常的代码except异常类型名称：异常处理代码else：没有发生异常时执行的代码异常报错：try：classtest:defgetdata(self):returnself.datay=t
小黑笔记本，写的todolist效果，增删效果，显示隐藏，全部清除效果。 YangHuan3 html
先说一下总的大致要去实现的效果：1.新增2.删除3.统计4.清除5.隐藏给大家看一下todoList的大致样式吧！第一个效果：新增1.生成列表结构（v-for数组）2.获取用户输入（v-model）3.回车获取数据（v-on，enter添加数据）第二个效果：删除1.点击删除指定的内容（v-onsplice索引）通过对应的下标删除指定的元素，并且v-for指定的内部是可以获取到当前循环元素下标的，这
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
HPC综合-心得与笔记【19】 sakura_sea HPC and 3D Graphics Engine 线性规划
Dijkstra算法【2】基础距离数组dist，设置起点距离为0，其他节点距离为无穷大（∞）用最小堆创建优先队列，将起点放入队列。从队列中取出当前距离最小的节点u。遍历u的每个邻接节点v，计算从起点到v的路径长度：alt=dist[u]+weight(u,v)。如果altdist[u]:continue#遍历邻接节点forv,weightingraph[u].items():alt=dist[u]
《算法笔记》9.4小节——数据结构专题(2)-＞二叉查找树（BST）问题 A: 二叉排序树圣保罗的大教堂《算法笔记》算法
题目描述输入一系列整数，建立二叉排序数，并进行前序，中序，后序遍历。输入输入第一行包括一个整数n(1#include#include#include#include#include#include#include#include#include#include#include#include#include#defineINF0x3f3f3f3f#definedb1(x)coutleft);Fre
小红书app复制链接转换为直接可访问链接，网页版链接，小红书短链转长链（最新版）才华是浅浅的耐心 python 爬虫开发语言
简介：小红书手机app分享的链接需要点击才能获取完成链接，本文教大家如何通过代码的方式将xhs的短连接转化为长链接。1.正常我们分享的链接是这样的：44小猪吃宵夜发布了一篇小红书笔记，快来看吧！KeA1GIGiSMXGWy7http://xhslink.com/a/sT7omKb6ijX6，复制本条信息，打开【小红书】App查看精彩内容！转换后是这样的：https://www.xiaohongsh
C# 技术使用笔记：如何高效处理字符串 caifox菜狐狸 C#技术使用笔记 c#笔记 string StringBuilder Substring Replace Split
1.C#字符串基础概念1.1字符串不可变性在C#中，字符串具有不可变性，这意味着一旦创建了一个字符串对象，其内容就不能被修改。例如，当我们执行以下代码时：stringstr="Hello";str=str+"World";实际上，str+"World"并是修改了原来的"Hello"字符串，而是创建了一个全新的字符串对象"HelloWorld"，并将str的引用指向了这个新对象，原来的"Hello"
TCP/IP学习笔记(5) --IP选路 ox0080 Linux 网络 linux网络
静态IP选路一个简单的路由表选路是IP层最重要的一个功能之一。前面的部分已经简单的讲过路由器是通过何种规则来根据IP数据包的IP地址来选择路由。这里就不重复了。首先来看看一个简单的系统路由表。命令:routeprint|more对于一个给定的路由器，可以打印出五种不同的flag。U表明该路由可用。G表明该路由是到一个网关。如果没有这个标志，说明和Destination是直连的，而相应的Gatewa
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
大众文艺杂志社大众文艺杂志大众文艺编辑部2025年第3期目录 QQ296078736 人工智能
公共文化服务研究提高基层群众音乐鉴赏水平的策略研究罗婉琳;1-3文艺评论《增广贤文》：深入剖析其中的人学智慧姚志清;4-6当代战争视阈下近20年军旅戏剧军事文化观的嬗变研究（2000～2023年）邱远望;7-9从奥威尔的《射象》看分裂的自我与身份认同何玉蔚;10-12南宋都市笔记中的临安园林及其美学意义张凯歌;13-15文博与数字化研究数字时代与媒介史视域下的多模态图书馆系统及新质书香社会建设鹿钦
施磊老师c++笔记(三) Zhuai-行淮施磊老师cpp c++笔记
c++模板编程-学习cpp类库的编程基础文章目录c++模板编程-学习cpp类库的编程基础1.函数模板2.理解模板函数3.实现cpp的vector向量容器4.理解容器空间配置器allocator的重要性1.函数模板内容:模板的实例化,模板函数,模板类型参数,模板非类型参数,模板的实参推演,模板的特例化,模板函数模板的特例化非模板函数的重载关系区分函数模板和模板函数的概念!!!模板的意义?对类型也可以
S32K144外设实验（二）：ADC单通道单次采样（软件触发）上层精灵的赞美诗 #S32K144的外设基础实验单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.概述1.1理论回顾1.1.1时钟系统1.1.2采样通道1.2实验目的2.配置与代码编写1.概述1.1理论回顾S32K144的ADC应该说是特别灵活，笔者采用循序渐进的方式来学习使用这个很重要的外设。在《入门笔记系列》专栏中对用户手册进行了翻译和解读，这里在回顾一下ADC的基本功能，第一次实验我们不使用过于复杂的触发方式。只使用一个通道来理解S32K144的ADC。1.1.1时钟系统首先
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &