酒饮微醉-

论文阅读--Behavior Proximal Policy Optimization

作者：Zifeng Zhuang ，Kun Lei ，Jinxin Liu ，Donglin Wang ，Yilang Guo

论文链接：http://arxiv.org/abs/2302.11312

arXiv 2023-02-22

代码链接：https://github.com/Dragon-Zhuang/BPPO

摘要

离线强化学习( RL )是一个具有挑战性的场景，现有的非策略行动者-评论家方法由于高估了分布外的状态-动作对而表现不佳。因此，提出了各种额外的增强来保持学习到的策略接近离线数据集(或行为政策)。在这项工作中，从分析离线单调策略改进出发，我们得到了一个令人惊讶的发现，一些在线在策略算法自然能够解决离线RL。具体来说，这些在策略算法固有的保守性正是离线RL方法需要克服高估的地方。基于此，我们提出了行为近似策略优化( Behavior Proximal Policy Optimization，BPPO )，在不引入任何额外约束或正则化的情况下求解离线RL。在D4RL基准测试集上的大量实验表明，该方法优于当前最先进的离线RL算法。

BPPO

BPPO（Behavior Proximal Policy Optimization）算法用于解决离线强化学习中的策略优化问题。在离线强化学习中，由于数据集的局限性，传统的在线离策略方法可能无法直接应用。BPPO通过限制学习策略与行为策略之间的差距，实现了在离线数据集上的策略优化，从而解决了离线强化学习中的策略优化问题。

论文概述

本文主要介绍了一种名为Behavior Proximal Policy Optimization (BPPO)的算法，用于解决离线强化学习策略优化问题。文章首先介绍了强化学习的基本框架和目标，然后详细阐述了BPPO算法的推导过程，包括理论基础、实验设计和算法原理。文章指出，BPPO算法可以通过最大化特定目标函数来实现从行为策略到改进策略的单调性改进，同时限制它们之间的变化程度，从而解决了离线强化学习中的过度估计问题。此外，文章还对BPPO算法的性能和设计选择进行了实验评估。

贡献

提出了一种基于理论结果的实用算法——行为近端策略优化（Behavior Proximal Policy Optimization，简称BPPO），该算法的损失函数与在线策略优化方法Proximal Policy Optimization（PPO）相同。
通过限制学习策略与行为策略之间的差异，BPPO能够在离线数据集上实现策略的单调改进，从而解决离线强化学习问题。
在D4RL基准测试中，BPPO表现出优越的性能，超过了现有的离线强化学习算法。

展示了行为近端策略优化（BPPO）方法在离线强化学习问题上的有效性和优越性能。

OFFLINE MONOTONIC IMPROVEMENT OVER BEHAVIOR POLICY

讨论了如何在离线数据集上实现单调策略改进：

这一部分首先介绍了性能差异定理，该定理表明，从在线单调策略改进（如近端策略优化）可以得出离线单调策略改进。然后，作者提出了一种名为行为近端策略优化（Behavior Proximal Policy Optimization，简称BPPO）的算法，该算法基于在线单调策略改进的理论结果，并通过限制学习策略与行为策略之间的差异来实现离线单调策略改进。

BPPO的核心思想是通过限制每个策略更新的散度来正则化每个策略更新。尽管BPPO与在线近端策略优化（PPO）的损失函数相同，但BPPO的状态分布有所不同。BPPO使用离线数据集恢复的状态分布ρD(s)替换在线方法中使用的旧状态分布ρπβ(s)。通过这种方法，BPPO可以在不引入任何额外约束或正则化的情况下，优雅地解决离线强化学习问题。

实验结果表明，BPPO在D4RL数据集上表现出优越的性能，且与之前的一步方法和迭代方法相比，具有更好的性能。

BEHAVIOR PROXIMAL POLICY OPTIMIZATION

主要研究了一种实际的算法，即基于理论结果的行为近端策略优化（Behavior Proximal Policy Optimization，简称BPPO）。BPPO的损失函数与在线策略优化方法Proximal Policy Optimization（PPO）相同。由于BPPO高度依赖于行为策略，因此将其命名为行为近端策略优化。根据结论2，要逐步改进策略π_k，应共同优化：

最大化J_∆(π, π_k)，其中k = 0, 1, 2, …
约束散度：D_KL(π || π_k) ≤ δ

该部分还讨论了BPPO如何解决离线强化学习问题，以及与先前的OneStep和迭代方法之间的关系。此外，实验部分展示了BPPO在D4RL基准上的性能以及与其他算法的比较。总之，第四部分主要关注了行为近端策略优化算法的设计、实现和性能评估。

DISCUSSIONS AND IMPLEMENTATION DETAILS

Why BPPO can solve offline RL?

BPPO 可以解决离线 RL 的原因如下：

损失函数与 PPO 相同：BPPO 的损失函数与在线策略优化方法 PPO（Proximal Policy Optimization）相同。由于 PPO 的内在保守性，BPPO 限制了学习策略与行为策略之间的差距，这与离线 RL 方法相似，后者使学习策略接近行为策略。

监督策略优化：BPPO 从离线单调策略改进的角度出发，使用 PPO 的损失函数优雅地解决了离线 RL 问题，而无需引入任何额外的约束或正则化。这意味着一些在线策略优化方法（如 PPO）可以实现离线策略优化，这进一步表明 PPO 可以解决离线 RL。

应对过度估计问题：通过限制策略更新的整体变分散度，BPPO 可以在离线情况下实现单调策略改进。这使得 BPPO 能够克服离线 RL 中的过度估计问题。

简单易实现：BPPO 非常简单且易于实现。在 D4RL 数据集上，BPPO 实现了优越的性能。

How to approximate the advantage?

在离线强化学习中，由于无法与环境进行交互，因此在计算损失函数时，我们需要对优势函数（Advantage Function）进行近似。在Behavior Proximal Policy Optimization（BPPO）中，我们直接根据定义估计优势函数，而不是使用在线情况下的通用优势估计（GAE）方法。具体来说，我们将Q函数估计通过SARSA进行，而值函数通过拟合返回

与MSE损失进行。这种函数逼近方法可以推广到(st , ãt )的优势。

BPPO如何解决离线强化学习问题，以及与先前的OneStep和迭代方法之间的关系

BPPO（Behavior Proximal Policy Optimization）通过以下方式解决离线强化学习问题：

使用与在线策略优化方法（如PPO）相同的损失函数，以便在离线设置中实现策略改进。
通过限制学习策略与行为策略之间的差距，使学习策略接近行为策略。
使用剪切比率衰减技术，逐渐松弛对学习策略与行为策略之间差距的限制，以确保最终学习策略与行为策略之间的接近性。

与先前的OneStep和迭代方法的关系：

BPPO与OneStep RL有关，因为BPPO仅改进行为策略πβ，而OneStep RL解决离线RL问题而无需进行离策略评估。然而，BPPO还改进了π k ，这是在πβ 之上的改进策略。
BPPO与迭代方法的关系：BPPO在某种程度上位于OneStep和迭代之间。BPPO的Onestep版本严格要求新策略接近πβ，而BPPO适度放宽了这种限制。

RELATED WORK

迭代方法（Iterative Methods）：迭代方法是一类离线强化学习方法，它们通过多次迭代来更新策略。这些方法通过计算Q函数并根据计算结果更新相应的策略。迭代方法的一个关键优势是它们可以在训练过程中不断改进策略。

行为近端策略优化（Behavior Proximal Policy Optimization, BPPO）：BPPO是一种离线强化学习算法，它通过限制新策略与行为策略之间的差距来实现策略的单调改进。BPPO的损失函数与在线策略优化方法PPO（Proximal Policy Optimization）相同，但状态分布有所不同。BPPO通过对行为策略进行迭代优化，实现了在离线数据集上的策略单调改进。

Offline Reinforcement Learning

离线强化学习（Offline Reinforcement Learning）：离线强化学习与在线强化学习相比，其主要区别在于训练数据是事先收集好的，而不是通过与环境交互收集的。离线强化学习面临的挑战是如何在不与环境交互的情况下推断出好的策略。

主要讨论了在离线场景下如何从固定数据集中推断出良好的策略。

在这种情况下，智能体仅有一个包含状态转换的固定数据集，而无法与环境进行交互。这使得离线强化学习面临诸多挑战，例如过拟合、分布漂移和稀疏奖励等问题。为了解决这些问题，研究者提出了许多方法，如批量约束、KL控制、行为正则化和策略限制等。这些方法通过限制策略与离线数据（或行为策略）之间的差异来避免过拟合和分布漂移。

Monotonic Policy Improvement

单步强化学习（One-step Reinforcement Learning）：One-step RL 是一种离线强化学习方法，它通过仅改进行为策略来解决离线强化学习问题，而不需要进行离策略评估。这种方法可以避免在离线强化学习中出现的过度估计问题。

主要讨论了如何在强化学习中通过限制策略更新的散度来实现稳定的策略改进。

这种方法源自在线强化学习中的 Proximal Policy Optimization（PPO）算法，并将其应用于离线强化学习。通过在离线数据集上实现单调策略改进，可以在不引入任何额外约束或正则化的情况下有效地解决离线强化学习问题。这种方法被称为 Behavior Proximal Policy Optimization（BPPO），实验证明它在 D4RL 基准数据集上具有优越的性能。

EXPERIMENTS

作者通过一系列实验来评估行为近端策略优化（Behavior Proximal Policy Optimization，BPPO）的性能，并分析了其设计选择。具体而言，实验旨在回答以下问题：

1）BPPO与先前的One-step和迭代方法相比如何；
2）BPPO相较于其One-step和迭代版本的优越性；
3）超参数clip ratio和clip ratio decay σ的影响。

RESULTS ON D4RL BENCHMARKS

在D4RL基准上，Behavior Proximal Policy Optimization（BPPO）表现出色，超过了其他离线RL算法。在Gym任务中，BPPO的性能略微优于其他方法。对于Adroit和Kitchen任务，BPPO明显优于其他方法。与BC相比，BPPO在所有D4RL任务中实现了51%的性能提升。在Antmaze任务中，BPPO与Decision Transformer（DT）、RvS-G和RvS-R进行了比较。BPPO在大部分任务上可以达到与其他算法相当的性能，并在所有任务的总体性能上明显优于其他算法。

总之，BPPO在D4RL基准上表现出优越的性能，证明了其在离线RL问题上的有效性和优越性。

在D4RL Gym、Adroit和Kitchen上的归一化结果。我们大胆地提出了最好的结果，BPPO是通过平均10个评估轨迹和5个随机种子的平均回报来计算的。符号*表示通过运行官方开源代码来复现结果。

表2：D4RL Antmaze任务的标准化结果。CQL和IQL的结果是从论文IQL中提取的，而其他的结果是从论文RvS中提取的。在BC列中，符号*指定了Filtered BC ( Emmons et al , 2021)，它删除了失效轨迹，而不是标准BC。

THE SUPERIORITY OF BPPO OVER ONESTEP AND ITERATIVE VERSION

BPPO的优越性主要表现在以下几个方面：

性能提升：与OneStep和迭代方法相比，BPPO在多个任务上取得了更好的性能。这表明BPPO能够更有效地从行为策略中提取信息，并利用这些信息进行策略优化。

更强的稳定性：BPPO在训练过程中保持了较高的稳定性，这意味着它能够在不同的任务和环境中更可靠地找到优秀的策略。

更广泛的适用性：BPPO可以应用于多种离线强化学习场景，包括具有稀疏奖励的任务。这表明BPPO在处理复杂任务和环境时具有更强的适应能力。

更简单的实现：BPPO相对于其他离线强化学习算法实现更简单，且不需要引入额外的约束或正则化项。这使得BPPO易于理解和应用，同时具有较高的性能。

图2：Onestep BPPO (左)和BPPO (右)之间的差值，其中减小的圆对应于衰减。

图3：BPPO与Onestep BPPO的比较。两种方法的超参数都是通过网格搜索来调整的，然后我们以最佳的性能展示了它们的学习曲线。

图4：BPPO (绿色曲线)及其迭代版本的比较，其中我们更新Q网络来近似Q π k，而不是BPPO中使用的Q π β。特别地，我们用' BPPOoff = 5 '表示每个策略训练步更新5个梯度步的Q网络。

ABLATION STUDY OF DIFFERENT HYPERPARAMETERS

作者对不同的超参数进行了消融研究，主要关注了以下几个方面：

Clip Ratio：作者分析了五个值（0.05，0.1，0.2，0.25，0.3）。在大多数环境中，这些值之间没有显著差异，所以选择了 = 0.25。

Clip Ratio Decay (σ)：作者展示了如何选择σ以实现稳定的策略改进。一个较低的衰减率（σ = 0.90）或没有衰减（σ = 1.00）可能在训练过程中导致崩溃。因此，作者选择了σ = 0.96。

Asymmetric Coefficient (ω)：作者引入了一个不对称系数ω∈（0，1），以根据优势的正负调整基于优势的Āπβ。对于ω>0.5，它会降低小于其期望值（即Vπβ）的状态-动作值Qπβ的贡献，而给予较大Qπβ更多的权重。作者分析了这三个系数对BPPO性能的影响。

这些消融研究有助于了解各种超参数对BPPO性能的影响，从而为实际应用提供了有益的指导。

图5：对夹子比( 5 ( a )，5 ( b ) )和夹子比衰变σ ( 5 ( c )，5 ( d ) )的烧蚀研究。

实验结果表明，BPPO在多个任务上的表现与迭代方法（如CQL和TD3+BC）相当，略优于One-step方法（如Onestep RL和IQL）。此外，BPPO在使用不同超参数设置时的表现也进行了评估，以找出最佳配置。

CONCLUSION

Behavior Proximal Policy Optimization（BPPO）是一种基于离线单调策略改进的方法，它使用Proximal Policy Optimization（PPO）的损失函数来巧妙地解决离线强化学习问题，而无需引入任何额外的约束或正则化项。这是因为PPO的固有保守性使其能够克服离线强化学习中的过度估计问题。BPPO非常简单易于实现，并在D4RL数据集上取得了优越的性能。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
AI问答之手机相机专业拍照模式的主要几个参数解释 piaopiaolanghua 拍摄曝光时间 ISO感光度
一、背景近期突然想了解下手机的专业拍照模式，了解如何拍出拖尾效果，譬如拍摄运动的车辆，长曝光拍摄星空，甚至能够拍到卫星（再来个漂亮的拖尾），因此想到先了解下手机相机专业模式的参数再说，通过AI问答，学习了下，也就有了本文。二、主要参数详细解释截图显示了在“专业”模式下设置的典型核心参数。这些参数共同决定了照片的曝光、清晰度、色彩和焦点。下面逐一解释每个参数及其典型用法：1、ISO640解释：ISO
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
three前置课程知识
学习中文网(1.threejs文件包下载和目录简介|Three.js中文网)threejs官方文件包所有版本：https://github.com/mrdoob/three.js/releases更新迭代较快，要选择对应版本使用---下载zip压缩包Threejs官网中文文档链接：https://threejs.org/docs/index.html#manual/zh/重要的内容docs包:文档
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置