Trouble..

【ACL 2023】A Novel Table-to-Graph Generation Approach for Document-Level Joint Entity and RE

【ACL 2023】A Novel Table-to-Graph Generation Approach for Document-Level Joint Entity and Relation Extraction

论文：https://aclanthology.org/2023.acl-long.607/

代码：https://github.com/ridiculouz/TaG / https://github.com/tonytan48/Re-DocRED

Abstract

文档级关系提取（DocRE）旨在提取文档中实体之间的关系，这对知识图构建等应用程序至关重要。现有的方法通常假设实体及其提及是预先识别的，这与现实世界中的应用程序不符。为了克服这一限制，我们提出了TAG，这是一种新的 table-to-graph 生成模型，用于在文档级别联合提取实体和关系。为了增强任务依赖性的学习，TAG在提及之间引入一个潜在图，不同类型的边指示不同的任务信息，并通过关系图卷积网络进一步传播。为了缓解错误传播问题，我们采用分层聚集聚类算法在解码阶段反向传播任务信息。在基准数据集DocRED上的实验表明，TAG在很大程度上超过了以前的方法，并取得了最先进的结果。

Introduction

早期的研究主要集中在句子层面的Relation Extraction（RE），即在一个句子中预测实体之间的关系。然而，在维基百科文章或科学论文等现实世界场景中，大量的关系事实是在多个句子中表达的，这就需要句子间推理技巧。因此，最近的努力一直在向更现实的文档级RE（DocRE）迈进。

尽管进展迅速，但大多数以前的DocRE方法都只专注于关系提取任务，该任务假设实体及其相应的提及是预先给定的。如图1所示，要在文档级别提取实体和关系，自然的想法是使用pipline方法。传统上，它首先将整个任务划分为提及提取（ME）、共指消解（COREF）和关系提取（RE）的子任务，然后使用单独的模型逐步执行每个任务。然而，流水线框架忽略了子任务之间的底层依赖关系，这可能导致性能不理想。在联合考虑子任务方面已经取得了一些进展，然而，之前的尝试仍然分别对COREF和RE的任务进行建模，在编码和解码阶段都可能产生偏差。一方面，这些方法仍然存在缺乏信息共享的问题。它们要么完全依赖于共享语言模型（例如BERT），或者只考虑从RE到COREF的单向信息流，而忽略其他跨任务依赖性。另一方面，现有的方法大多采用流水线式解码，首先识别提及跨度并形成实体簇，然后对每个实体对进行关系分类。这样的例程不仅耗时，而且还面临着错误传播问题。实体提取的结果可能会影响关系提取的性能，并导致级联错误。Xu和Choi试图在COREF得分手中使用正则化术语来缓解这个问题，但这个问题仍然没有完全解决。

在这项工作中，我们提出了TAG，一种新的 table-to-graph 生成模型，以解决上述挑战。我们首先将COREF和RE的任务与经典的表填充框架统一起来。然后，我们设计了一个下面的表格填充器来对原始文本进行编码，并对这两项任务进行粗略的预测。将提及作为节点，我们动态地构建两个相应的共指图和关系图，其中边由表填充器的置信度得分加权。此外，为了缓解长期依赖问题，并对句法信息进行显式建模，我们构建了一个过度提及的句法图。给定这三个子图，TAG将它们视为三种不同类型的边，并使用关系图卷积网络（RGCN）对隐式任务依赖性进行精细建模。与以前仅直接从语言模型共享跨度表示的多任务系统不同，我们的粗到细框架通过语义和句法链接传播信息，利用丰富的节点表示。

直观地说，同一实体集群中的提及应该与其他实体建立类似的关系链接。为了避免错误传播问题，我们利用这一假设，并将层次聚集聚类（HAC）算法应用于聚类提及。HAC的核心是计算每个聚类对之间的共指距离。为了反向传播关系信息，我们计算节点的关系向量，并使用不同集群之间的平均汉明距离（Hamming distance）作为额外的惩罚。

我们在DocRED数据集上评估TAG，这是一个广泛采用的DocRE基准。实验表明：（1）与以前的方法相比，粗粒度的表填充基线建立了具有竞争力的结果。（2）细粒度的信息传播模块和增强的HAC解码算法可以有效地促进跨任务交互，更好地缓解错误传播问题。（3）我们提出的TAG实现了新的最先进技术，并在很大程度上优于先前的方法。我们还报告了关于Re-DocRED的联合实体和关系提取的第一个结果，这是DocRED的修订版，用于未来的研究。

我们的贡献可以总结如下：

我们将COREF和RE在文档级联合实体和关系提取中的任务与表填充框架相统一，并提出了一种新的 table-to-graph 生成方法TAG，以促进信息共享。在解码阶段，我们采用HAC算法来增强RE预测的COREF，从而减轻错误传播的问题。
我们证明TAG超越了以前的方法，并在标准DocRE基准上获得了最先进的新结果。

Problem Formulation

给定由 $L$ 个token组成的文档 $D$ ，我们的目标是以端到端的方式联合抽取所有实体和关系。由于一个实体可能在文档中多次出现，并有不同的提及，因此联合提取过程可以自然地分为三个子任务：

提及提取（ME），它提取所有可能的跨度 $\mathcal{M}=\{m_i\}^M_{i=1}$ 表示原始文档中的实体，其中跨度定义为单词的连续序列；
共指解析（COREF），将本地提及分组为实体簇 $\mathcal{E}=\{e_i\}^E_{i=1}$ ，其中 $e_i=\{m^i_j\}^{N_{e_i}}_{j=1}$ ;
关系提取（RE），它从实体对 $(e_h,e_t)_{h,t=1,\dots,E;h \ne t}$ 之间的预定义关系集 $\mathcal{R} \cup {\bot}$ ， $\bot$ 表示没有关系。

与以往的工作不同，我们使用表格填充框架来制定COREF和RE的任务，每个提及对 $m_i,m_j)$ 之间的多类分类。我们维护一个表 $T^{|M|\times|M|}$ 来表示提及对，并对这两个任务使用共享表示。

我们分别为表中的每个单元分配COREF标签 $y_c^{(i,j)} \in \{ 0,1\}$ 和RE标签 $y_r^{(i,j)} \subseteq \mathcal{R} \cup \{\bot \}$ 。对于COREF，我们使用1/0来表示提及对是否属于同一实体。对于RE，我们将实体级标签转移到提及级，其中提及对 $m_i,m_j)$ 标记有其所属实体 $e_h,e_t)$ 的相同关系，其中 $m_i \in e_h,m_j \in e_t$ 。

Methodology

Mention Extractor

我们将实体提及提取问题归结为具有BIO标记的序列标记任务。尽管基于跨度的方法由于其更强的表达能力而更为普遍，但它们通常需要 $\mathcal{O}(L^2)$ 时间复杂性，而基于序列的方法只需要线性时间。由于DocRE的任务包含很少的重叠点，为了提高效率，我们采用了顺序方法。

我们利用预训练语言模型（PLM）将文档中的token转换为矢量化特征，并使用分类器预测每个标记的BIO标签。我们将提取的提及表示为 $\{m_i\}^M_{i=1}$ 。

Table-to-Graph Generation

Biaffine Table Filler

给出一个文档 $D=[w_i]_{i=1}^L$ 和提及 ${m_i \}_{i=1}^M$ ，我们构建了每个提及对的表表示。我们采用实体标记策略，在每次提及的开始和结束处插入一个特殊的标记“”。然后，我们使用单独的PLM来获得上下文表示 ${H}=[\mathbf{h}_1,\dots,\mathbf{h}_L]^{\tau}$ ， $\mathbf{h}_i\in \mathbb{R}^d$ 和多头注意力 $\mathbf{A}\in \mathbb{R}^{H\times L \times L}$ ：
$\mathbf{H,A}=\text{PLM}([w_1,\dots,w_L])$
其中 $\mathbf{A}$ 是最后一个transformer层中的多头注意力矩阵。我们将起始标记“”的嵌入视为提及的嵌入。为了捕获相关的上下文对 $m_i,m_j)$ ，我们应用本地化上下文池技术来计算上下文嵌入 $c^{(i,j)}$ ：
$q^{(i,j)}=\sum_{k=1}^H \mathbf{A}_k^i \circ \mathbf{A}_k^j,\\ c^{(i,j)}=\mathbf{H}^{\top} \frac{q^{(i,j)}}{1^{\top} q^{(i,j)}}$
$\circ$ 是指Hadamard乘积， $\mathbf{A}_k^i, \mathbf{A}_k^j \in \mathbb{R}^L$ 分别是 $m_i,m_j$ 在第 $k$ 个注意力头中的注意力权重。 $c^{(i,j)}$ 是从对 $m_i$ 和 $m_j$ 都高度关注的token聚合而来的，因此可能对它们都很重要。

让 $h_i,h_j$ 成为PLM中 $m_i,m_j$ 的隐藏特征。我们首先将 $h_i,h_j$ 和 $c^{(i,j)}$ 投影为头部和尾部特征:
$z_i^{(i,j)}=\tanh(W_h h_i + W_{ch} c^{(i,j)}),\\ z_j^{(i,j)}=\tanh(W_t h_j + W_{ct} c^{(i,j)})$
$W_h,W_{ch},W_t,W_{ct} \in \mathbb{R}^{d \times d}$ 是可训练的参数。然后，我们使用biaffine注意力模型将提及特征转换为表示共指或关系链接的标量分数的表 $S\in \mathbb{R}^{M\times M}$ ：
$s^{(i,j)}=z_i^{(i,j)}W_1 z_j^{(i,j)} + w_2^{\top}(z_i^{(i,j)} \oplus z_j^{(i,j)})+b$
$W_1 \in \mathbb{R}^{d \times d},w_2 \in \mathbb{R}^{2d},b \in \mathbb{R}$ 是可训练参数， $\oplus$ 是连接操作。我们分别预测具有共享表示 $z$ 的共指和关系得分 $S_{tc},S_{tr}$ 。特别地，如果RE标签 $y_r^{(i,j)} \ne \{ \bot \}$ ，则 $s_{tr}^{(i,j)}$ 被标记为1，否则为0。

Latent Graph Construction

共指图和关系图。在获得共指和关系得分 $S_{tc},S_{tr}$ 之后，我们针对列对每个表进行归一化：
$G_c=\text{Softmax}(S_{tc}),\\ G_r=\text{Softmax}(S_{tr})$
我们将 $G_c$ 和 $G_r$ 作为先前模块预测的共指和关系链接的动态加权图。每个单元 $g^{(i,j)}$ 表示有向边 $m_i \to m_j$ 的权重。

句法图。为了增强对自然语言基础结构知识的学习，我们试图在提及图中显式地引入句法信息。理想情况下，句法链接可以有效地编码本地上下文，这些上下文可以通过共同引用或关系链接进一步广播。因此，它使模型能够在良好的水平上学习长期依赖关系。

有几种可选的方法可以构建所需的语法图。例如，一个直观的解决方案是将单词上的依赖树转移到图中，其中提及是节点。由于依赖树只揭示句内线索，以前的工作通常会利用共现信息。按照这种做法，我们的句法图 $G_s$ 使用双向边连接同一句子中的所有提及。

Propagating Information with R-GCN

为了考虑COREF和RE任务之间的相互作用，并结合明确的语法信息，我们提出了一个信息传播模块来细化提及表示。

具体地，我们将潜在图 $G_c,G_r,G_s$ 视为提及图上的三种不同类型的边。然后，我们在提到的图上应用关系图卷积网络来聚合沿不同类型边的邻居特征。给定第 $l$ 层的节点 $x_i$ ，更新过程由
$x_i^{(l+1)}=\tanh(\sum_{t \in \{ c,r,s\}}\sum_{j=1}^M g_t^{(i,j)}W_t^l x_j^l +b_t^l)$
$t$ 是边的类型， $g_t^{(i,j)}$ 表示有向边 $m_i \to m_j$ ， $W_t^l,b_t^l$ 是可训练参数。我们初始化节点嵌入 $x_i^0$ 使用提及 $m_i$ 的隐藏特征 $h_i$ 。

与之前的Joint IE方法不同，前者要么以流水线方式传播任务信息（DYGI），要么只考虑单向信息流，我们的模块并行集成了跨任务信息，并提取了两个任务的相关提及特征。

Classifier

在 $N$ 次传播之后，我们使用强化提及嵌入 $x^N_i,x^N_j$ 和上下文嵌入 $c^{(i,j)}$ 来预测COREF得分 $s^{(i,j)}_{gc}$ 和RE得分 $s^{(i,j)}_{gr}$ ：
$v_i^{(i,j)}=\tanh(U_h x_i^N + U_{ch}c^{(i,j)}),\\ v_j^{(i,j)}=\tanh(U_t x_j^N + U_{ct} c^{(i,j)}),\\ s_{gc}^{(i,j)}=\text{CorefBiaff}(v_i^{(i,j)},v_j^{(i,j)}),\\ s_{gr}^{(i,j)}=\text{ReBiaff}(v_i^{(i,j)},v_j^{(i,j)})$
$U_h,U_{ch},U_t,U_{ct} \in \mathbb{R}^{d \times d}$ 是可训练的参数，n维的biaffine函数被定义为：
$\text{Biaff}(x,y)=xU_1^{\top}y+U_2 (x \oplus y)+b$
$U_1 \in \mathbb{R}^{n \times d \times d},U_2 \in \mathbb{R}^{n \times 2d},b \in \mathbb{R}^{n}$ 是可训练参数，注意，对于COREF的任务， $n = 1$ ，对于RE， $n=|\mathcal{R}|+1$ ，其中我们使用伪类TH来学习多标签分类的动态阈值（Zhou等人，2021）。在测试时，分数高于TH类的关系类型被预测为输出 $\hat{y}_r^{(i,j)}$ 。在不存在此类的情况下，分类器返回 $\{ \bot \}$ 。

Training

Table Encoder. 给定提及对 $m_i,m_j)$ ，表编码器以标量分数 $s_{tc}^{(i,j)},s_{tr}^{(i,j)}$ 的形式预测共指和关系链接。对于共引用链接，我们直接使用COREF标签 $y_{c}^{(i,j)}$ 作为正确标注。对于关系链接，我们定义 $y_{rbinary}^{(i,j)}=1(y_{r}^{(i,j)} \ne \{\bot \})$ ，表示是否存在任何关系 $e_h,r,e_t)$ ，其中 $m_i \in e_h,m_j \in e_t$ 。我们用sigmoid函数σ将 $S_c,S_r$ 转换为概率，并用二分类交叉熵损失 $L_{tc},L_{tr}$ 进行优化。

Coreference Resolution. 精细级共指解析的训练目标和标签与表编码器中的共指链接预测的训练目标相同。唯一的区别在于，它采用了强化的提及表示作为输入。我们将损失表示为 $L_{gc}$ 。

Relation Extraction. 对于 $m_i,m_j)$ ，我们将关系集 $\mathcal{R}$ 分为两部分：包含关系 $x$ 的正集 $\mathcal{P}$ 存在于 $m_i,m_j)$ 之间，负集 $\mathcal{N}=\mathcal{R−P}$ 。我们应用自适应阈值损失（Zhou et al，2021）来学习RE分类器：
$\begin{aligned} l^{(i, j)}= & -\sum_{x \in \mathcal{P}} \log \left(\frac{\exp \left(s_{x}^{(i, j)}\right)}{\sum_{x^{\prime} \in \mathcal{P} \cup\{\mathrm{TH}\}} \exp \left(s_{x^{\prime}}^{(i, j)}\right)}\right) \\ & -\log \left(\frac{\exp \left(s_{\mathrm{TH}}^{(i, j)}\right)}{\sum_{x^{\prime} \in \mathcal{N} \cup\{\mathrm{TH}\}} \exp \left(s_{x^{\prime}}^{(i, j)}\right)}\right), \end{aligned}$
最终综合所有的损失，最终的损失函数为：
$L=L_{tc}+L_{tr}+\alpha \cdot(L_{gc}+L_{gr})$

Decoding

为了避免流水线解码中固有的错误传播问题，我们旨在设计一种解码算法，使上游任务（COREF）能够有效地利用下游任务信息（RE）。

Entity Cluster Decoding. 我们基于层次聚集聚类（HAC）算法对实体聚类进行解码，如算法1所述。HAC的核心是测量两个聚类 $C_x$ 和 $C_y$ 之间的距离 $D$ 。我们将 $D$ 分解为两部分：共指距离 $D_c$ 和关系距离 $D_r$ 。我们使用平均链接来计算 $D_c$ 为：
$D_c = \frac{1}{|C_x|\cdot |C_y|} \sum_{m_i \in C_x} \sum_{m_j \in C_y}(1-\sigma(s_{gc}^{(i,j)}))$
在训练阶段，如果 $m_i$ 和 $m_j$ 属于同一实体，对于所有 $m_k\in \mathcal{M}$ ，则标注关系 $y_r^{(i,k)}$ 和 $y_r^{(j,k)}$ 是相同的。因此，对于训练良好的模型，同一实体簇内的提及应与其他实体建立类似的关系链接。我们利用这条线索作为COREF和RE之间的联系。预测RE的标签 $\hat y_r^{(i,j)}$ 是 $\mathcal{R}$ 维度的0-1向量，其中每个数字指示一种关系类型的存在。我们定义关系向量 $r_i \in \mathbf{R}^{2M \times |R|}$ 为
$r_i = [\hat y_r^{i,1},\dots,\hat y_r^{(i,M)},\hat y_r^{1,i},\dots,\hat y_r^{(M,i)}]$
我们使用聚类 $C_x,C_y$ 中每个提及对之间的平均Hamming距离作为 $D_r$ ：
$D_{r}=\frac{1}{\left|C_{x}\right|\left|C_{y}\right|} \sum_{m_{i} \in C_{x}} \sum_{m_{j} \in C_{y}} \sigma\left(\operatorname{Hamming}\left(\mathbf{r}_{i}, \mathbf{r}_{j}\right)\right)$
Relation Triple Decoding. 给定两个实体 $e_1$ 和 $e_2$ ，我们预测它们与多数投票机制的关系标签。对于关系式 $x$ ，最终预测由
$\hat{y}_{x}^{\left(e_{1}, e_{2}\right)}=\mathbb{1}\left(\left(\sum_{m_{i} \in e_{1}} \sum_{m_{j} \in e_{2}} \hat{y}_{x}^{(i, j)}\right)>\frac{\left|e_{1}\right| \cdot\left|e_{2}\right|}{2}\right)$

Experiments and Results

Conclusion

在本文中，我们提出了TAG，一种新的table-to-graph生成模型，用于联合提取文档中的实体和关系。与以前的方法不同，我们将共指解析和关系提取的任务与表填充框架统一起来，并利用从粗到细的策略来促进这些子任务之间的信息共享。为了避免误差传播问题，我们在解码阶段采用HAC算法来增强具有RE预测的COREF。在广泛采用的基准DocRED上的实验结果表明，TAG显著优于以前的方法。进一步的分析也证实了我们模型中模块的有效性。

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
AIGC与自动驾驶：文心一言的车载交互设计 AI天才研究院 ChatGPT 实战计算 Agentic AI 实战 AIGC 自动驾驶文心一言 ai
AIGC与自动驾驶：文心一言的车载交互设计关键词：AIGC、自动驾驶、车载交互、文心一言、自然语言处理、多模态交互、用户体验摘要：本文深入探讨人工智能生成内容（AIGC）技术在自动驾驶领域的创新应用，特别是百度文心一言如何重构车载交互体验。通过解析文心一言的核心技术架构、多模态融合算法、场景化交互模型，结合具体代码实现和数学模型，揭示其在语音交互、情境理解、个性化服务等场景中的技术优势。同时通过项
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
Char Studio 使用入门：高效构建企业级对话系统的实战指南 charles666666 人工智能产品经理语言模型自然语言处理架构
数字化浪潮推动下，企业与用户的交互模式正经历深刻变革，对话系统作为核心交互手段，其重要性日益凸显。然而，众多企业在构建对话系统时，却深陷诸多困境，难以自拔。一、开篇痛点场景：企业对话系统开发的典型困境企业在自行开发对话系统时，往往面临预算超支、周期漫长以及维护成本居高不下等问题。开发团队需要投入大量时间和精力进行底层技术架构的搭建，例如自然语言处理算法的研究、对话逻辑的设计等，这不仅消耗了大量的人
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
中文大模型的技术债问题大鹏的NLP博客大模型 transformer 大模型
中文大模型的技术债问题摘要随着中文大语言模型（LargeLanguageModels,LLMs）在自然语言处理（NLP）领域的广泛应用，其研发和部署过程中积累的“技术债”（TechnicalDebt）问题日益突出。本文系统性地分析了中文大模型在数据采集、预训练、微调、评估与部署等生命周期各阶段产生的技术债类型，包括代码复杂性、数据隐患、训练流程依赖、工具链碎片化、模型解释性差、隐性资源耦合等问题，
新手向:中文语言识别的进化之路
自然语言处理（NLP）技术正在以前所未有的速度改变我们与机器的交互方式，而中文作为世界上使用人数最多的语言，其处理技术面临着独特的挑战与机遇。本文将全面剖析中文自然语言识别模型的发展历程、核心技术原理、当前应用现状以及未来发展趋势，带您深入了解这一改变人机交互方式的关键技术。一、中文NLP的特殊挑战：为什么中文处理如此困难？中文自然语言处理面临着一系列西方语言所不具备的特殊挑战，这些挑战直接影响了
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
提示词工程在实体关系抽取中的创新 AI天才研究院计算 ChatGPT AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
1.5概念结构与核心要素组成在深入探讨提示词工程在实体关系抽取中的应用之前，我们需要对其概念结构与核心要素组成有一个清晰的理解。这一部分将介绍提示词工程的基本框架，以及实体关系抽取的关键技术。提示词工程的基本框架提示词工程（PromptEngineering）是指利用人工智能技术和自然语言处理方法，设计并优化用于训练语言模型的输入提示（prompt），以达到特定任务目标的过程。其核心框架包括以下几
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l