manmanxiaowugun

知识图谱_关系抽取_文献笔记（三）———利用分层强化学习

本文介绍一篇发表在AAAI 2019上的关系抽取方向的文章：A Hierarchical Framework for Relation Extraction with Reinforcement Learning。对知识图谱关系抽取前世了解一下。

源代码：https://github.com/truthless11/HRL-RE

【一些废话】paper中其实对于任务具体是个什么样子，预训练的过程，为什么预训练之后需要用到强化学习、强化学习中的reward设计没有讲特别清楚，建议看源码！！建议看源码！！建议看源码！！我也是在看完源码后写下这篇笔记以备不时之需啦！强化学习在nlp中用的较少，这篇真是太厉害了！而且这是一篇看起来简单，其实蛮复杂的文章，一定要花大篇幅介绍。

一、数据格式

每一条数据如下图所示，看了数据对任务会更清晰一点，本文的任务就是训练一个模型，输入为下图的sentext，希望模型能输出relations（包含其中的rtext，em2，em1，tags），想一下人能不能通过输入标出这么多输出呢，答案是能，说明我们的人工智能真的是朝向自然人的思考方式在发展：

二、框架简介

分层强化学习包含两层强化学习，分别为high-level（用于检测关系）和low-level（用于提取描述该关系的实体对）, 整个过程如上图所示： (I). 依次遍历句子的每个单词，high-level如果在某个单词处，鉴定之前的这段句子存在某种关系，就会激发一个low-level的序列标注 (II). 当low-level完成了实体抽取 (III), high- level就会继续遍历剩下的句子(IV) .

这个时候你会有疑问，high-level怎样检测关系，low-level怎样提取实体对，下面还会详细介绍！

三、方法优点

现有的关系抽取方法：

1）先识别实体，再确定实体之间的关系，一是没有考虑实体与关系之间的交互，将他们割裂成两个子任务分别处理，二是一个句子对不一定只描述一种关系；

2）关系抽取会存在重叠关系问题（也叫一对多问题）：在一句话中，一个实体可能参与进了多个关系，或者一个实体对可能存在多种关系。目前已知只有CopyR方法研究了这个问题（但是本文作者实验证明了这种方法严重依赖数据，并且无法抽取多词语关系）。

本文改进：

1）应用分层强化学习框架来增强实体提及和关系类型之间的交互，将相关实体视为关系的证明，他们之间的依赖交互关系通过state和reward的设计来实现。state为强化学习中的状态，high-level的强化学习在启动low-level的强化学习来抽取实体时，会将自身的state传给low-level，low-level在完成任务后会把自身的state传给high-level；reward为强化学习中的奖赏，low-level在完成任务后也会把自身的reward传给high-level，来表示任务是不是被很好的完成。

2）因为会先检测关系，再抽取该关系的实体，重叠关系（overlapping relations）得以被分开处理。

四、框架细节

1. 整体框架

首先，文章定义了“关系指示符”（relation indicator）。当在一句话中的某个位置有足够信息去识别语义关系时，我们把这个位置就叫做“关系指示符”。它可以是名词（his father）、动词（die of）、介词（in），或者是一些其他的符号比如逗号、时间等等。关系指示符在本结构中非常重要，因为整个的关系抽取任务可以分解为“在关系指示符处检测关系”和“关系中的实体抽取”。

整体来看，关系抽取过程如下：

1）high-level主要是预测rtext：一个agent遍历句子的每一个单词，预测这个位置之前的那段句子表示的关系类型（不同于识别实体对之间关系的关系分类，该过程不需要对实体进行标注，你可以理解它是根据句子中是否包含his father，in，die of等预测的）。当在一个时间步中没有足够的信息来指示语义关系时，agent可以选择NR，表示没有关系。否则，触发一个关系指示符，agent启动一个用于实体提取的子任务。

2）实体提取是通过序列标注完成的，先根据第一步预测的关系对整个句子做标注（即得到tags），再根据tags得到em1和em2，当实体被识别时，子任务完成，agent继续扫描句子的其余部分寻找其他关系。

这时你会有疑问，在数据形式介绍的时候不是说模型输入只有句子文本嘛，那这个relation indicator的正确值是多少呢，其实事实上是没有这个正确值的，这块我们会在第五部分（一些思考）里面介绍（预训练也是在代码里面可以看到）。

2. Relation Detection with High-level RL

High-level RL的策略（policy）u目的是在句子中找到存在的关系，可以看做是带有options的RL policy。

Option： 当agent遍历到每个单词处时，根据当前的state作出选择（option），在集合O = {NR} ∪ R中选择，R为所有的关系集合，当option不等于NR时，agent被low-level RL接管，当low-level RL进入结束状态，agent的控制将被high-level接管去执行下一个option。

State：状态S由以下三者共同决定：当前的隐状态 $h _ { t }$ ，前一个非NR的option的relation type vector $\mathbf { v } _ { t } ^ { r }$ 和上一个时步的state $S _ { t - 1 }$ 。公式如下：

$\mathbf { s } _ { t } ^ { h } = f ^ { h } \left( \mathbf { W } _ { s } ^ { h } \left[ \mathbf { h } _ { t } ; \mathbf { v } _ { t } ^ { r } ; \mathbf { s } _ { t - 1 } \right] \right)$

$f ^ { h } ( \cdot )$ 是非线性变换， $h _ { t }$ 是由Bi-LSTM得到隐状态。

Policy：关系检测的策略，也就是option的概率分布，如下，其中 $\mathbf { W } _ { \mu }$ 是权重

$o _ { t } \sim \mu \left( o _ { t } | \mathbf { s } _ { t } ^ { h } \right) = \operatorname { softmax } \left( \mathbf { W } _ { \mu } \mathbf { s } _ { t } ^ { h } \right)$

Reward： 环境在每个时步，提供给Agent的一个可量化的标量反馈信号，也就是reward，计算方法如下：

$r _ { t } ^ { h } = \left\{ \begin{array} { l l } { - 1 , } & { \text { if ot not in } S } \\ { 0 , } & { \text { if } o _ { t } = \mathrm { NR } } \\ { 1 , } & { \text { if } o _ { t } \text { in } S . } \end{array} \right.$

在这个公式里，代表的是这个句子中的所有正确的关系，其实上面的公式指的是看预测的关系在不在正确的关系中啦。（虽然在代码中，为了更好的实验效果，鼓励某种关系预测，打击某种关系预测，reward的设计比这个复杂，但上述公式已经不影响对框架的理解啦）

最后，用一个最终的reward $r _ { f i n } ^ { h }$ 来评价句子级别的抽取效果

$r _ { f i n } ^ { h } = F _ { \beta } ( S ) = \frac { \left( 1 + \beta ^ { 2 } \right) \operatorname { Prec } \cdot \operatorname { Rec } } { \beta ^ { 2 } \operatorname { Prec } + \operatorname { Rec } }$

这里的精确率指的是在所有标注为非NR关系的时步中，真正在正确的关系中的比率（low-level将reward传递给high-level进行交互就是在这里完成的，因为只有当这个关系的实体对也被预测出来才算关系被正确预测）；指的是所有正确的关系，被预测出来的比率。 $r _ { f i n } ^ { h }$ 是被当成最后一个时步后面的那个时步的reward（可以理解为 $r _ { T+1} ^ { h }$ ）算进累积reward的。

3. Entity Extraction with Low-level RL

当High-level RL policy预测了一个非NR的relation，Low-level RL会抽取relation中的实体。High-level RL的option会作为Low-level RL的额外输入（记得没，这就是前面说的交互）。

Action： action会给当前时步的词分配一个tag，tag包括 $\mathcal { A } = ( \{ \mathrm { S } , \mathrm { T } , \mathrm { O } \} \times \{ \mathrm { B } , \mathrm { I } \} ) \cup \{ \mathrm { N } \}$ 。其中，S是参与的源实体，T是目标实体，O是和关系无关的实体，N是非实体单词，B和I表示一个实体的开始和内部（注意，基于当前时步的关系，相同的实体可能被标注不同的S、T、O）。可参看下图：

state：

$\begin{aligned} \mathbf { c } _ { t ^ { \prime } } & = g \left( \mathbf { W } _ { h } ^ { l } \mathbf { s } _ { t ^ { \prime } } ^ { h } \right) \\ \mathbf { s } _ { t } ^ { l } & = f ^ { l } \left( \mathbf { W } _ { s } ^ { l } \left[ \mathbf { h } _ { t } ; \mathbf { v } _ { t } ^ { e } ; \mathbf { s } _ { t - 1 } ; \mathbf { c } _ { t ^ { \prime } } \right] \right) \end{aligned}$

$h _ { t }$ 是当前单词的隐状态，同样也是经过Bi-LSTM计算得到， $\mathbf { v } _ { t } ^ {e }$ 是上一时步的实体标签 $a_{t-1}$ 的向量（可学习）， $s_{t-1}$ 是上一阶段的state（注意，既可以是High-level的state，也可以是Low-level的上一时步的state）。g和f都是非线性变换。

Policy：由句子到实体的概率计算如下：

$a _ { t } \sim \pi \left( a _ { t } | \mathbf { s } _ { t } ^ { l } ; o _ { t ^ { \prime } } \right) = \operatorname { softmax } \left( \mathbf { W } _ { \pi } \left[ o _ { t ^ { \prime } } \right] \mathbf { s } _ { t } ^ { l } \right)$

$\mathbf { W } _ { \pi }$ 是一个数组，数组的长度为总共的关系种类数，数组中的每个元素为对应某种关系的参数矩阵，也就是说，不同的关系tag标注的参数不共享哦！

Reward： 我们需要用reward来衡量预测的标签是否准确，一种是每个时步的reward：

$r _ { t } ^ { l } = \lambda \left( y _ { t } \right) \cdot \operatorname { sgn } \left( a _ { t } ^ { l } = y _ { t } \left( o _ { t ^ { \prime } } \right) \right)$

$\lambda ( y ) = \left\{ \begin{array} { l l } { 1 , } & { \text { if } y \neq \mathrm { N } } \\ { \alpha , } & { \text { if } y = \mathrm { N } } \end{array} \right.$

其中， $\lambda ( y )$ 降低non-entity tag的权重，不然的话，机器为了获取高reward，全标成N了。

还有一种是对这个关系的序列标注完成后，对整体的reward $r _ { f i n } ^ { l }$ 为：如果全部序列标注都对的话， $r _ { f i n } ^ { l }$ 为1，否则为-1； $r _ { f i n } ^ { l }$ 是被当成最后一个时步后面的那个时步的reward（可以理解为 $r _ { T+1} ^ { l }$ ）算进累积reward的。

4. Hierarchical Policy Learning

在优化High-level policy时，我们需要最大化预期累积回报，如下：

$J \left( \theta _ { \mu , t } \right) = \mathbb { E } _ { \mathbf { s } ^ { h } , o , r ^ { h } \sim \mu \left( o | \mathbf { s } ^ { h } \right) } \left[ \sum _ { k = t } ^ { T } \gamma ^ { k - t } r _ { k } ^ { h } \right]$

$\gamma$ 是RL中的折扣因子。在结束前，整个采样过程需要T个时间步长。

同样的，在优化Low-level policy时，我们也需要最大化累计回报，公式如下：

$J \left( \theta _ { \pi , t } ; O _ { t ^ { \prime } } \right) = \mathbb { E } _ { \mathbf { s } ^ { l } , a , r ^ { l } \sim \pi \left( a | \mathbf { s } ^ { l } ; o _ { t ^ { \prime } } \right) } \left[ \sum _ { k = t } ^ { T ^ { \prime } } \gamma ^ { k - t } r _ { k } ^ { l } \right]$

把累计回报分解成Bellman方程，得到：

$\begin{aligned} R ^ { \mu } \left( \mathbf { s } _ { t } ^ { h } , o _ { t } \right) = & \mathbb { E } \left[ \sum _ { j = 0 } ^ { N - 1 } \gamma ^ { j } r _ { t + j } ^ { h } + \right. \\ & \gamma ^ { N } R ^ { \mu } \left( \mathbf { s } _ { t + N } ^ { h } , o _ { t + N } \right) | \mathbf { s } _ { t } ^ { h } , o _ { t } ] \end{aligned}$

$R ^ { \pi } \left( \mathbf { s } _ { t } ^ { l } , a _ { t } ; o _ { t ^ { \prime } } \right) = \mathbb { E } \left[ r _ { t } ^ { l } + \gamma R ^ { \pi } \left( \mathbf { s } _ { t + 1 } ^ { l } , a _ { t + 1 } ; o _ { t ^ { \prime } } \right) | \mathbf { s } _ { t } ^ { l } , a _ { t } \right]$

当实体提取策略根据选项ot运行时，子任务持续的时间步数是N。当option是NR是，N=1。
可以一同优化High-level和Low-level两段策略，High-level的梯度是：

$\begin{aligned} \nabla _ { \theta _ { \mu } } J \left( \theta _ { \mu , t } \right) = & \mathbb { E } _ { \mathbf { s } ^ { h } , o , r ^ { h } \sim \mu \left( o | \mathbf { s } ^ { h } \right) } \left[ R ^ { \mu } \left( \mathbf { s } _ { t } ^ { h } , o _ { t } \right) \right. \\ & \nabla _ { \theta _ { \mu } } \log \mu \left( o | \mathbf { s } _ { t } ^ { h } \right) ] \end{aligned}$

Low-level的梯度是：

$\begin{aligned} \nabla _ { \theta _ { \pi } } J \left( \theta _ { \pi , t } ; o _ { t ^ { \prime } } \right) = & \mathbb { E } _ { \mathbf { s } ^ { l } , a , r ^ { l } } \sim \pi \left( a | \mathbf { s } ^ { l } ; o _ { t ^ { \prime } } \right) \left[ R ^ { \pi } \left( \mathbf { s } _ { t } ^ { l } , a _ { t } ; o _ { t ^ { \prime } } \right) \right. \\ & \nabla _ { \theta _ { \pi } } \log \pi \left( a | \mathbf { s } _ { t } ^ { l } ; o _ { t ^ { \prime } } \right) ] \end{aligned}$

整个训练过程如下：

五、一些思考

1. high-level为什么要用强化学习？

事实上我们不知道relation indicator的正确值是多少，所以我们先做数据预处理生成一些relation indicator（只是比较接近正确值），拿这些来做预训练，预训练的差不多了再利用强化学习来更精细化的接近relation indicator的正确值（你要知道，强化学习和非强化学习的区别在于，因为我们不知道什么是真正的对，无法直接教给模型，才用强化学习的，让它自行用reward来接近真正的对）。和强化学习不一样的是，预训练反向传播的时候不带reward，强化学习就是乘上了个reward。

2. low-level为什么要用强化学习？

你可能会问，low-level的tag标注是有正确值的呀，为什么还要用强化学习。其实是因为连high-level给它传的关系都不一定是准确的，基于这个关系的tag标注当然也只能给个reward来判断啦。

六、实验

数据集：通过远程监督得到的数据：NYT10和NYT11；
评价方法：采用micro-F1评价方法，如果关系类型和两个对应的实体都正确，则认为三元组是正确的；
Baselines：作为对比的baseline方法有：FCM、MultiR、CoType、SPTree、Tagging和CopyR

关系抽取：

重叠关系抽取：

交互的优势：

参考文献：paperweekly https://www.paperweekly.site/papers/notes/667

NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
知识图谱系列（2）：知识图谱的技术架构与组成要素程序员查理 #知识图谱知识图谱架构人工智能 AI Agent RAG
1.引言知识图谱作为一种强大的知识表示和组织方式，已经在搜索引擎、推荐系统、智能问答等多个领域展现出巨大的价值。在之前的上一篇文章中，我们介绍了知识图谱的基础概念与发展历程，了解了知识图谱的定义、核心特征、发展历史以及在AI发展中的地位与作用。要深入理解和应用知识图谱，我们需要进一步探索其内部的技术架构和组成要素。知识图谱不仅仅是一个简单的数据结构，而是一个复杂的技术体系，涉及知识的表示、存储、查
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
AI驱动下的企业学习平台，如何重构员工发展与HR角色 weixin_54980836 人工智能学习重构
近期，JoshBersin官方网站分享了一篇关于L&D领域AI深度变革的文章，文章所描绘的并非仅仅是新工具的涌现，而是一场触及L&D本质与HR战略价值的深刻革命。当Docebo坚定走向“AI原生”，当Sana以知识图谱重构组织智慧，它们揭示的正是我们HR从业者必须直面的未来——AI驱动的学习已不再是效率的提升，而是组织能力与人才价值创造方式的根本性进化。一、超越自动化：AI原生平台对学习本质的重构
多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey 资源存储库笔记
Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置