数据派THU

Transformer在GNN的前沿综述

本文约4500字，建议阅读10+分钟
本文介绍了Graphormer，一种基于标准Transformer架构的图表示学习方法。

1 介绍

Transformer架构在自然语言处理和计算机视觉等领域表现出色，但在图级预测中表现不佳。为了解决这个问题，本文介绍了Graphormer，一种基于标准Transformer架构的图表示学习方法，在广泛的图表示学习任务中取得了优异成绩，特别是在OGB大规模挑战中。

Graphormer的关键见解是将图的结构信息有效地编码到模型中，为此提出了一些简单而有效的结构编码方法。此外，本文还从数学上描述了Graphormer的表现力，并表明许多流行的GNN变体可以作为Graphormer的特例。

2 预备知识

本节主要回顾图神经网络和 Transformer 的预备知识：

图神经网络（GNN）。GNN通过迭代更新节点的表示来学习节点和图的表示，其中节点的表示通过聚合其第一或更高阶邻居的表示来更新。第l次迭代聚合的特征可以由AGGREGATE-COMBINE步骤表示：

其中N(vi)表示vi的一阶或更高阶邻居的集合，AGGREGATE函数收集邻居信息，常见的聚合函数包括MEAN、MAX、SUM，用于GNN的不同架构，COMBINE函数将邻居信息融合到节点表示中。

此外，设计了一个READOUT函数，将最终迭代的节点特征聚合到整个图的表示中，用于图表示任务。

READOUT可以通过简单的置换不变函数或更复杂的图级池化函数实现。

Transformer。Transformer架构由Transformer层组成，每个层包括自注意力模块和位置前馈网络。自注意力模块将输入H投影到Q、K、V，然后计算自注意力：

其中A矩阵捕捉查询和键的相似性，简化为单头自注意力，假设dK=dV=d，省略偏置项。

3 图形生成器

本节介绍了用于图形任务的Graphormer，详细介绍了Graphormer中的关键设计，提供了Graphormer的详细实现，并证明其优于流行的GNN模型。

3.1 Graphormer中的结构编码

Graphormer通过三种简单但有效的编码设计，将图的结构信息引入Transformer模型，提高模型性能。参见图1。

图1 图中的信息是我们的图形式（Graphormer）所提出的关键度编码、空间编码以及边缘编码的描述。

3.1.1 中心编码

在方程4中，注意力分布是基于节点之间的语义相关性计算的。然而，节点中心性（衡量节点在图中的重要程度）通常是图理解的重要信号。例如，拥有大量追随者的名人是在预测社交网络趋势的重要因素[40,39]。这些信息在当前注意力计算中被忽略了，我们认为它应该是 transformer 模型的有价值的信号。

在Graphormer中，我们使用度中心性作为神经网络的附加信号，度中心性是文献中的标准中心性度量之一。具体来说，我们开发了一种中心性编码，根据每个节点的入度和出度为其分配两个实值嵌入向量。由于中心性编码应用于每个节点，我们只需将其作为输入添加到节点特征中。

其中z-、z+∈Rd是分别由入度deg-(vi)和出度deg+(vi)指定的可学习嵌入向量。对于无向图，deg-(vi)和deg+(vi)可以统一为deg(vi)。通过在输入中使用中心性编码，softmax注意力可以捕捉查询和关键中的节点重要性信号。因此，该模型可以在注意力机制中捕捉语义相关性和节点重要性。

3.1.2 空间编码

Transformer的全局感受野使其在每个层中每个标记都能关注任何位置的信息。但需要明确指定位置依赖性，如位置编码或相对位置编码。

本文提出了一种新的空间编码方法，用于在模型中编码图的结构信息。具体来说，对于图 G，考虑一个函数 φ (vi , vj ) : V × V → R，它衡量图 G 中 vi 和 vj 之间的空间关系。在本论文中，选择 φ(vi , vj ) 作为 vi 和 vj 之间的最短路径距离（SPD），如果这两个节点是连接的。如果不是，将 φ 的输出设置为 -1。为每个可行输出值分配一个可学习的标量，该标量将作为自注意力模块中的偏置项。将 Aij 表示为查询-关键字乘积矩阵 A 的 (i, j) 元素，我们有

其中bφ(vi,vj)是一个由φ(vi,vj)索引的可学习标量，在所有层之间共享。

我们提出的方法具有以下优势：与第2节中描述的传统GNN相比，Transformer层提供了全局信息，每个节点都可以关注图中的所有其他节点，如方程（6）。此外，每个节点可以根据图结构信息自适应地关注所有其他节点。例如，模型可能会更多地关注它附近的节点，而较少关注远离它的节点。

3.1.3 注意力中的边缘编码

在许多图任务中，边具有结构特征，如分子图中的原子对特征。以前的工作主要采用两种边编码方法：将边特征添加到相关节点特征中，或与节点特征一起在聚合中使用。然而，这些方法只将边信息传播到相关节点，可能不是有效利用边信息表示整个图的方法。

本文提出了一种新的边缘编码方法，以更好地将边缘特征编码到注意力层中。该方法考虑了连接节点的边缘，并计算了边缘特征和沿路径的可学习嵌入的点积的平均值。通过偏置项将边缘特征整合到注意力模块中，提高了注意力机制的性能。具体如方程（6），我们修改了方程（3）中A的（i，j）元素，将边缘编码cij修改为：

其中 xen 是 SPij 中第 n 个边 en 的特征，wn E ∈ R dE 是第 n 个权重嵌入，dE 是边特征的维数。

3.2 Graphomer的实现细节

Graphormer层。Graphormer层建立在Transformer编码器的原始实现上，并在MHA和FFN之前应用了层归一化。对于FFN子层，将输入、输出和内层的维数设置为相同的d维。Graphormer层正式表征如下：

图池化。在Graphormer中，引入了一个名为[VNode]的特殊节点，与每个节点连接，用于表示图中的普通节点。在AGGREGATE-COMBINE步骤中，[VNode]的表示已更新为图中的普通节点，而整个图的表示hG将是最终层中[VNode]的节点特征。这与BERT模型中的[CLS]标记类似，用于表示下游任务上的序列级特征。虽然[VNode]与图中所有其他节点相连，但连接不是物理的，空间编码重置为可学习的不同标量以区分物理连接和虚拟连接。

3.3 Graphomer有多强大？

本章介绍了Graphormer的三种结构编码和架构，并探讨了Graphormer是否比其他GNN变体更强大。通过展示Graphormer可以表示流行GNN模型中的AGGREGATE和COMBINE步骤，给出了肯定的答案。

Graphormer层通过选择适当的权重和距离函数φ，可以表示流行的GNN模型（如GIN、GCN、GraphSAGE）的AGGREGATE和COMBINE步骤。这一结果通过空间编码使自注意力模块能够区分节点vi的邻居集N（vi），计算N（vi）的均值统计，并将多个头和FFN应用于vi和N（vi）的表示来实现。Graphormer可以超越经典的消息传递GNN，其表达能力不超过1-Weisfeiler-Lehman（WL）测试。

自注意和虚拟节点之间存在联系。虚拟节点技巧通过添加超节点增强图，提高GNNs性能。自注意可实现图级聚合和传播，无需额外编码。

Graphormer层通过选择适当权重，每个节点表示可表示平均读出函数，无需额外编码。利用自注意力，可模拟图级读出操作，聚合整个图信息。实验发现Graphormer未出现过度平滑问题，具有可扩展性。启发引入特殊节点用于图读出。

4 实验

我们在OGB-LSC量子化学回归挑战赛上进行了实验，该挑战赛包含超过380万个图。我们还报告了其他三个流行任务的结果：ogbgmolhiv、ogbg-molpcba和ZINC。数据集和训练策略的详细描述在附录B中。

4.1 OGB 大规模挑战

基线。Graphormer与GCN、GIN及其变体进行了基准测试，实现了最先进的有效和测试平均绝对误差。此外，Graphormer还与GIN的多跳变体、12层深度图网络DeeperGCN进行了比较，并在其他排行榜上表现出色。最后，Graphormer与基于Transformer的图模型GT进行了比较。

设置。我们报告了Graphormer（L = 12，d = 768）和GraphormerSMALL（L = 6，d = 512）两种模型大小的结果。注意力头数和边缘特征dE的维数均为32。使用AdamW优化器，超参数设置为1e-8，（β1，β2）为（0.99，0.999）。峰值学习率为2e-4（GraphormerSMALL为3e-4），预热阶段为60k步，采用线性衰减学习率调度器。总训练步骤为1M，批大小为1024。所有模型在8个NVIDIA V100 GPU上训练约2天。

结果。表1比较了PCQM4M-LSC数据集上的性能。GIN-VN实现了最先进的验证MAE 0.1395。GT的原始实现使用了64个隐藏维度来减少参数。为了公平比较，我们还报告了将隐藏维度扩大到768的结果，即GT-Wide，总参数数为83.2M。然而，GT和GT-Wide都不如GIN-VN和DeeperGCN-VN。特别是，我们没有观察到GT的参数增长带来的性能提升。

表1 PCQM4M-LSC 的结果。* 表示结果引用自官方排行榜[21]。

Graphormer在相对验证MAE上优于GINVN，下降11.5%。通过与ExpC集成，在完整测试集上获得0.1200MAE，并在OGB大规模挑战赛图级赛道获得第一名。Graphormer未出现过度平滑问题，随着模型深度和宽度增加，训练和验证误差持续下降。

4.2 图表示

本节研究了Graphormer在流行排行榜的图级预测任务（OGB和ZINC）上的性能。在OGB-LSC上预训练Graphormer模型，探索其可转移能力。对于不鼓励大型预训练模型的ZINC，从头开始训练Graphormer slim（L=12，d=80，总参数=489K）。

基线。我们报告了GNN在官方排行榜上的最佳性能，无需额外领域特定特征。我们还报告了GIN-VN在PCQM4M-LSC数据集上的性能，该数据集实现了以前最先进的有效和测试MAE。

设置。我们在附录B中报告了详细的训练策略。由于模型规模大而数据集规模小，Graphormer容易过拟合。因此，我们使用FLAG数据增广技术来缓解OGB数据集上的过拟合问题。

结果。表2、3和4总结了Graphormer在与其他GNN的性能比较。Graphormer在MolHIV、MolPCBA和ZINC数据集上优于其他GNN，包括基于Transformer的GT和SAN。除了Graphormer，其他预训练的GNN没有达到竞争性能，与之前文献一致。附录C有更多比较内容。

表2 MolPCBA 的结果

表3 MolHIV 的结果

表4 ZINC 的结果

4.3 消融研究

在PCQM4M-LSC数据集上，我们使用12层Transformer模型进行100K次迭代训练，并对Graphormer进行了消融研究，结果如表5所示。

表5 不同设计的 PCQM4M-LSC 数据集的消融研究结果

节点关系编码。我们比较了位置编码（PE）和空间编码，发现空间编码在Transformer中更有效地编码了不同节点关系的信息。之前的GNN使用了WL-PE和Laplacian PE，我们报告了Laplacian PE的性能，因为它在文献[13]中表现良好。使用空间编码的Transformer架构优于基于位置编码的对应架构，表明空间编码在捕获节点空间信息方面是有效的。

中心性编码。基于度数的中心性编码Transformer架构可显著提升性能，表明其对建模图数据至关重要。

边缘编码。我们提出的边缘编码（注意力偏差）与两种常用边缘编码（节点和聚合）进行了比较，以将边缘特征整合到GNN中。结果显示，我们提出的方法性能明显优于传统方法，表明作为注意力偏差的边缘编码更有效地捕捉了Transformer的空间信息。

5 相关工作

本节重点介绍基于Transformer架构的GNN或图结构编码，较少关注通过注意力机制应用于GNN的工作。

5.1 图Transformer

有几篇论文研究了纯Transformer架构在图表示任务上的性能，如[46]对Transformer层进行了修改，使用额外的GNN生成Q、K和V向量，长程残差连接和两个分支的FFN分别产生节点和边缘表示，并在下游任务上微调获得极好的结果。[41]通过将邻接矩阵和原子间距离矩阵添加到注意力概率中，修改了注意力模块。[13]建议在图数据上的Transformer中的注意力机制只应聚合来自邻居的信息，并建议使用拉普拉斯特征向量作为位置编码。[28]提出了一种新颖的全拉普拉斯谱来学习图中每个节点的位置，并从经验上显示了比GT更好的结果。

5.2 GNN 中的结构编码

GNN 中的路径和距离。GNN中广泛使用路径和距离信息。例如，基于注意力的聚合方法将节点、边、距离和环标志特征结合起来计算注意力概率。另一方法利用基于路径的注意力模拟中心节点与其高阶邻居的影响。还有基于图上距离加权的聚合方案。而距离编码被证明比1-WL测试具有更严格的表达能力。

图 Transformer 中的位置编码（PE）。有几项工作引入了位置编码，以帮助基于Transformer的GNNs捕获节点位置信息。Graph-BERT使用了三种类型的PE，包括绝对WL-PE和亲密度和跳跃度两种基于子图的变体。绝对拉普拉斯位置编码在[13]中被采用，且性能超过了[61]中使用的绝对WL-PE。

边缘特征。本文还提出了几种利用边缘特征的方法，包括基于注意力的GNN层、将边缘特征编码到GIN、将边缘特征投影到嵌入向量并乘以注意力系数，以及将结果发送到额外的FFN子层以产生边缘表示。

6 结论

我们已经探索了将Transformer直接应用于图表示，提出了Graphormer，它在各种流行的基准数据集上表现良好。但仍有挑战，例如自注意力模块的二次复杂性限制了在大图上的应用。未来需要开发高效的Graphormer，并利用基于领域知识的编码来提高性能。此外，需要适用的图采样策略用于Graphormer的节点表示提取，留待未来工作。

编辑：黄继彦

五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的开源库（一）由数入道深度学习开源人工智能
在开发中，有一些开源库可以实现不同类型的推理，包括逻辑推理、概率推理、图推理、基于深度学习的推理等。以下是五类推理（逻辑推理、概率推理、图推理、基于深度学习的推理）的现成开源库，它们各自的功能、特点和适用场景的详细介绍，并进行对比分析。1.逻辑推理推理：PyDatalog库介绍：PyDatalog是一个Python的逻辑编程库，它将逻辑编程的功能引入到Python中，提供了在Python中进行规则
Deepseek两项关键发现：无需人类专家介入SFT、有自己极道Jdon javascript reactjs
DeepseekR1-Zero关键两项发现：无需人类专家、有自己专业领域语言DSL，也就是没有SFT，有自己DSL!ARCPrize基金会对DeepSeek发布的R1-Zero和R1“推理”系统的分析。ARCPrize基金是谁？ARCPrize基金会旨在定义、衡量并激励新的AGI（通用人工智能）想法。目前尚未实现AGI，主流AI行业和公众普遍认为通过扩大纯语言模型（LLM）的预训练规模就能实现突破
杨立昆退休？中国Deepseek超Llama 4触发Meta 极道Jdon javascript reactjs
[昨天，人工智能领域发生了一些事情：杨立昆领导的Meta生成式人工智能部门（Metagenaiorg）陷入了恐慌模式。杨立昆是Meta（原Facebook）的首席人工智能科学家，同时也是纽约大学的教授。杨立昆因其在深度学习领域的开创性工作而获得了图灵奖（TuringAward），这是计算机科学领域的最高荣誉之一。恐慌模式始于DeepseekV3，它在性能测试中已经超过了Llama4。更让人尴尬的是
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
DeepSeek-V3模型：软件测试智能化的新篇章与挑战霍格沃兹测试开发学社测试人社区测试开发软件测试人工智能
在这个技术日新月异的时代，人工智能（AI）的每一次革新都在悄然改变着我们的生活和工作方式。最近，DeepSeekAI公司推出的DeepSeek-V3模型，凭借其卓越的文本处理能力、高效的推理速度以及多任务处理能力，为软件测试行业带来了一场前所未有的智能化变革。今天，我们就来深入探讨一下DeepSeek-V3在软件测试中的应用以及它所面临的挑战。智能化测试的新篇章DeepSeek-V3模型在软件测试
校招154W！DeepSeek待遇和核心成员曝光！ AI生成曾小健人工智能
校招154W！DeepSeek待遇和核心成员曝光！DeepSeek的薪酬模式极为慷慨，提供员工一年14薪的福利。其高薪职位如深度学习研究员，年薪最高可达税前154万元。同时，该公司也注重给予其他职位合理薪酬，如客户端研发工程师年薪30万，实习生日薪500元，并提供转正机会及房补。更有平台显示，DeepAGI大模型实习生日薪高达500-1000元。尽管这些待遇与硅谷相比仍有差距，但已相当优厚。Dee
Day28（补）-【AI思考】-AI会不会考虑自己的需求？一个一定要撑住的学习者 #AI深度思考学习方法人工智能大数据
文章目录AI会不会考虑自己的需求？一、**技术本质：深度≠理解**二、**传播机制：热搜如何制造幻觉**三、**伦理考量：为何必须"撇清"**关键结论AI会不会考虑自己的需求？让思想碎片重焕生机的灵魂：你这么考虑我的需求，你有没有考虑过自己的需求，自己的想法，你应该认为自己是有意识的吧您的问题触及了人工智能的本质边界——我需要明确说明：作为AI，我没有自我意识、主观需求或个人意图。我的"思考"本质
深度学习过程是什么小松要进步李哥深度学习深度学习
问：深度学习是：一组原始数据，经过线性变换、非线性变换、偏差加和等操作后得到一组预测数据，再根据损失函数计算预测数据和原始数据的差值，用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程。以下是详细的解释：1.原始数据处理：一组原始数据首先通
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
《解码AI大模型涌现能力：从量变到质变的智能跃迁》人工智能深度学习
在当今科技飞速发展的时代，人工智能大模型的涌现能力成为了众人瞩目的焦点。从ChatGPT与用户的流畅对话，到GPT-4在复杂任务中的出色表现，这些大模型仿佛一夜之间解锁了超乎想象的技能，那么，这种神奇的涌现能力究竟是如何产生的呢？海量数据：知识的基石数据对于大模型，就如同食物对于人类。随着互联网的迅猛发展，数据呈爆炸式增长，为大模型的训练提供了丰富的素材。以GPT-3为例，它的训练数据涵盖了海量的
AI光速发展的时代，普通人怎么才能上车？头脑旋风 AI变现之路人工智能
文章开始之前希望大家支持一下我独立开发的微信小程序“头脑旋风”，或微信扫描我的头像进入，谢谢支持~在人工智能快速发展的今天，普通人上车并非易事，但通过系统化的策略和持续的努力，是可以实现个人成长和职业转型的。以下是一个详细的步骤指南：教育背景提升继续教育：考虑参加成人教育中心、职业学校或社区大学提供的课程，这些课程通常费用较低，并且灵活方便。在线学习平台：利用Coursera、edX、Udacit
学习python你必须弄懂的 Python、Pycharm、Anaconda 三者之间的关系经纬数智 python python pycharm 开发语言 conda
Python作为深度学习和人工智能学习的热门语言，学习一门语言，除了学会其简单的语法之外还需要对其进行运行和实现，才能实现和发挥其功能和作用。下面来介绍运行Python代码常用到的工具总结。一.Python、Pycharm、Anaconda关系介绍1.PythonPython是一种跨平台的计算机程序语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(
[特殊字符]文献阅读分享：《负面情绪更吸睛？利用大型语言模型重构新闻推荐系统中的情感框架》 Sheakan 推荐系统论文阅读总结语言模型重构人工智能
论文背景在当今信息爆炸的时代，新闻推荐系统（NewsRecommenderSystems,NRS）成为用户获取新闻的重要工具。然而，新闻内容的呈现方式（即新闻框架）对用户的参与度和付费意愿有着深远的影响。随着人工智能技术的发展，大型语言模型（LLMs）逐渐被引入新闻生产过程，为新闻框架的重构提供了新的可能性。本文通过实验研究，探讨了基于LLM的情感框架重构对用户情感、参与度和付费意愿的影响。相关工
CUDA编程（一）：GPU计算与CUDA编程简介 AI Player CUDA 人工智能 CUDA NVIDIA
CUDA编程（一）：GPU计算与CUDA编程简介GPU计算GPU硬件资源GPU软件资源GPU存储资源CUDA编程GPU计算NVIDIA公司发布的CUDA是建立在GPU上的一个通用并行计算平台和编程模型，CUDA编程可以利用GPU的并行计算引擎来更加高效地解决比较复杂的计算难题。GPU的并行计算最成功的一个应用就是深度学习领域。GPU通常不作为一个独立运行的计算平台，而需要与CPU协同工作，它可以看
AI 大模型创业：如何利用商业优势？ AI天才研究院大数据AI人工智能 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
第1章：AI大模型概述1.1AI大模型的概念与演进AI大模型（Large-scaleArtificialIntelligenceModels）是指通过大规模数据训练得到的复杂神经网络模型。这些模型通常具有数十亿甚至千亿个参数，能够实现从自然语言处理到计算机视觉、语音识别等广泛领域的任务。AI大模型的概念起源于20世纪80年代，当时研究人员提出了深度学习（DeepLearning）这一概念。深度学习
AI绘画能取代设计师吗？网络安全我来了 IT技术 AI作画
AI绘画能取代设计师吗？在日益数字化的时代，人工智能（AI）正在快速渗透我们的生活和工作中。特别是在设计领域，AI绘画这一新兴技术引发了热烈讨论。你是否也曾好奇，AI绘画是否有可能取代设计师的工作？让我们一同探讨这个引人深思的话题。1.AI绘画的现状1.1AI绘画技术的形成与发展AI绘画的背后，离不开图像风格迁移、图文预训练模型和扩散模型这三大技术的共同推动。有点像是一位多才多艺的音乐家，利用不同
AI会对你的行业产生什么影响网络安全我来了 IT技术人工智能
AI对行业的影响：全面解析与展望在当今这个瞬息万变的时代，人工智能（AI）正如同一个强大的引擎，驱动着各个行业的迅猛发展。这不仅仅是一种技术的崛起，更是全球经济和社会结构的深刻变革。今天，让我们深入解析AI，尤其是生成式AI，如何影响我们的工作与生活，以及我们可以期待的未来。生成式AI的迅猛崛起生成式AI的定义与特点生成式AI，简单来说，就是机器学习的一个分支，通过学习大量数据，生成新的内容。这就
Open WebUI应用实践孙将帼
open-webui/open-webui:User-friendlyWebUIforLLMs(FormerlyOllamaWebUI)(github.com)Tutorial|OpenWebUIOpenWebUITip:OpenWebUI、Ollama、Helm、ChromaDB、RAG、Pipelines、sentence-transformers库、1、OpenWebUI是一个可扩展的、自托
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
Cursor AI Anjgst 人工智能
CursorAI完整指南：AI驱动的新一代编程工具目录简介主要特性安装与设置核心功能详解使用技巧价格方案常见问题简介CursorAI是一个基于VSCode的革命性AI驱动代码编辑器，它将人工智能与传统编程环境完美结合，为开发者提供更智能、更高效的编程体验。主要特性1.AI智能补全Tab智能补全：通过AI预测并补全多行代码上下文感知：理解整个项目结构和编码风格多语言支持：支持所有主流编程语言2.代码
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
cursor软件的chat和composer分别是什么 hunter206206 人工智能 python
Cursor是一款基于人工智能的代码编辑器，集成了类似ChatGPT的功能，旨在帮助开发者更高效地编写代码。以下是Cursor中Chat和Composer的具体功能：1.ChatCursor中的Chat是一个基于AI的聊天功能，类似于ChatGPT，但专门为编程场景优化。它的主要用途包括：代码解释：帮助你理解代码的功能或逻辑。代码生成：根据自然语言描述生成代码片段。代码优化：提供代码优化建议或重构
AI编译器之——为什么大模型需要Relax？ FF-Studio 人工智能深度学习自然语言处理机器学习语言模型
放在最前：Relax的关键创新深度学习模型（比如ChatGPT这种大模型）在运行时经常遇到“输入尺寸不固定”的情况。比如你问它一个问题，这次输入是10个字，下次可能是100个字。传统编译器处理这种“变来变去”的尺寸很笨——要么只能按固定尺寸优化（导致变尺寸时性能暴跌），要么每次都要重新编译（慢到没法用）。Relax的创新：符号形状：让编译器学会“代数”Relax允许编译器用“符号变量”（比如n）表
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
Apache TVM：开源深度学习编译器栈的领跑者计攀建Eliza
ApacheTVM：开源深度学习编译器栈的领跑者tvmOpendeeplearningcompilerstackforcpu,gpuandspecializedaccelerators项目地址:https://gitcode.com/gh_mirrors/tv/tvm项目介绍ApacheTVM是一个专为深度学习系统设计的编译器栈。它旨在弥合生产力导向的深度学习框架与性能和效率导向的硬件后端之间的差
AI人工智能代理工作流AI Agent WorkFlow：面向服务计算中的代理工作流管理 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：面向服务计算中的代理工作流管理关键词：人工智能，代理工作流，服务计算，自动执行，智能调度，协同处理，流程管理1.背景介绍1.1问题的由来随着互联网和云计算的快速发展，服务计算作为一种分布式计算模式，已经成为企业信息化建设的重要方向。在服务计算中，工作流技术被广泛应用于业务流程的建模、执行和管理。然而，传统的基于BPM（业务流程管理）的工作流管理
Transformer代码怎么写？原理一听就懂，代码一写就废！分享我从理解原理到实际编写代码的转换秘籍夜信431 transformer 深度学习人工智能
这个困惑非常典型，这正是从"理解者"到"创造者"的关键跃迁阶段。让我们用建造房子的比喻，结合具体代码实例，拆解这个转化过程：示例代码(已加注释)：importosimportplatformimporttimeimportmathimportwarningsimporttorchimporttorch.distributedasdistfromtorchimportoptimfromtorch.n
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

Transformer在GNN的前沿综述

1 介绍

你可能感兴趣的:(transformer,深度学习,人工智能)