AI科技大本营

打通语言理论和统计NLP，Transformers/GNNs架构能做到吗？

作者 | Chaitanya K. Joshi

译者 | 苏本如，责编 | 夕颜

来源 | CSDN（ID:CSDNnews）

我的工程师朋友经常问我：图深度学习听起来很棒，但是有没有实际应用呢？

虽然图神经网络被用于Pinterest、阿里巴巴和推特的推荐系统，但一个更巧妙的成功案例是Transformer架构，它在NLP（Natural Language Processing ，自然语言处理）世界掀起了一场风暴。

在这篇文章中，我尝试在图神经网络（GNNs）和Transformers之间建立一种联系。我将讨论NLP和GNN社区对于模型架构背后的直觉，用方程和图形建立两者之间的联系，并讨论两者如何合作来共同进步。

让我们从模型架构的目的——表示学习（representation learning）开始。

NLP的表示学习

在较高的层次上，所有的神经网络结构都将输入数据的“表示”构建为嵌入向量，并对有关数据的有用统计和语义信息进行编码。这些潜在的或隐藏的“表示”可以用于执行一些有用的操作，例如对图像进行分类或翻译句子。神经网络通过接收反馈(通常是通过误差/损失函数)来学习构建更好的“表示”。

对于自然语言处理（NLP），通常递归神经网络（RNNs）以顺序的方式构建句子中每个单词的“表示”，即一次一个单词。直观地说，我们可以把一个RNN层想象成一个传送带，上面的文字从左到右进行递归处理。最后，我们得到了句子中每个单词的一个隐藏的特征，我们将其传递给下一个RNN层或用于我们选择的NLP任务。

如果你想回顾一下RNNs和NLP的表示学习，我强烈推荐Chris Olah的博客。

Transformers 最初是为机器翻译而引入的，现在已经逐渐取代了主流NLP中的RNNs。该架构采用了一种全新的表示学习方法：完全不需要使用递归，Transformers使用一种注意力机制（attention mechanism）来构建每个单词的特征，以确定句子中所有其他单词对前述单词的重要性。了解了这一点，单词的更新特征就是所有单词特征的线性变换的和，并根据其重要性进行加权。

在2017年的时候，这种想法听起来非常激进，因为NLP社区已经习惯了使用RNN处理文本的顺序式方式（即一次一个单词）。它的名字可能也起到了推波助澜的作用。

详解Transformer

让我们通过将前一段翻译成数学符号和向量的语言来发展关于架构的直觉。我们将句子S中第i个单词的隐藏特征h从从第 ℓ 层更新到第 ℓ+1层，如下所示：

例如：

这里的：

其中j∈S表示句子中的词集，、、是可学习的线性权重（分别表示注意力计算的Query、Key和Value）。

对于句子中的每个单词，注意力机制是并行执行的，以一个单词一个单词地方式获得更新后的特征，这是RNNs上的Transformer的另一个优点：它逐词逐词地更新特征。

我们可以通过以下管道（pipeline）来更好地理解注意力机制：

考虑到单词的特征和其他词集的特征，通过向量点积计算每对（i，j）的注意力权重，然后对所有j的注意力权重执行softmax运算。最后。我们得到单词i的最新特征。句子中的每个单词都会并行地通过相同的管道来更新其特征。

多头注意力机制

让这个简单的向量点积注意力机制发挥作用是很棘手的。因为错误的可学习权重的随机初始化会使训练过程变得不稳定。

我们可以通过并行执行多个注意力“头”并将结果串联起来（让每个“头”现在都有独立的可学习权重）来解决这个问题：

式中，是第k个注意力头的可学习的权重，是降维投影，以匹配跨层的和的维度。

多个头部允许注意力机制从本质上“对冲赌注”，可以从上一层观察前一层隐藏特征的不同转换或不同的方面。我们稍后会详细讨论。

规模大小问题

Transformer架构的一个关键问题是，经过注意力机制之后的单词特征可能具有不同的规模和大小。这可能是由于在对一些单词的其他单词特征进行求和的时候，这些单词具有非常尖锐或非常分散的注意力权重。此外，在单个特征向量条目层面上，将多个注意力头拼接在一起，每个注意力头的输出值可以在不同的尺度上，从而导致最终向量的值具有很宽的动态值范围。

按照传统的机器学习（ML）的经验，这时候向pipeline中添加一个归一化层似乎是合理的。

Transformer通过使用LayerNorm克服了第二个问题，LayerNorm在特征级别进行规一化并学习仿射变换。此外，通过特征维度的平方根来调整向量点积注意力有助于解决第一个问题。

最后，Transformer的作者提出了另一个控制尺度问题的“技巧”：一个具有特殊结构的基于位置排列的2层MLP。在多头注意力之后，他们通过一个可学习的权重将投射到一个（荒谬的）更高的维度，在那里它经历了ReLU非线性后，再被投射回其原始维度，然后再进行另一次归一化：

老实说，我不确定这个过于参数化的前馈子层背后的确切直觉是什么。我想LayerNorm和scaled dot products并没有完全解决前面提到的问题，所以大的MLP可以说是一种独立地重新缩放特征向量的hack方法。根据Jannes Muenchmeyer的说法，前馈子层确保了Transformer是一个万能逼近器。因此，投影到一个非常高的维度空间，经历一次ReLU非线性，然后重新投射到原始维度，使模型能够比在隐藏层中保持相同维度时可以“表示”更多的功能。

Transformer层的最终结构图看起来是这样的：

Transformer架构也非常适合深度学习网络，这使得NLP社区在模型参数和扩展数据方面都能够进行扩展。

每个多头注意力子层和前馈子层的输入和输出之间的残差连接是堆叠Transformer层的关键(但为了清晰起见，在图中省略了)。

使用GNNs构建图的表示

现在，我们暂时先不讨论NLP。

图神经网络（GNNs）或图卷积神经网络（GCNs）构建图数据中节点和边的表示。它们通过邻域聚合（或消息传递）来实现这一点，每个节点从其邻域收集特征，以更新其对周围的局部图结构的表示。堆叠几个GNN层使得模型能够在整个图中传播每个节点的特征--从它的邻居传播到邻居的邻居，依此类推。

以这个表情符号社交网络为例: GNN产生的节点特征可以用于预测任务，例如：识别最有影响力的成员或提出潜在的联系。

在其最基本的形式中，GNNs通过对第ℓ层节点（比如说）自身特征的非线性变换，在每个相邻节点j∈N（i）的特征的集合中加入节点自身特征的非线性变换，从而更新第ℓ层节点i的隐藏特征h：

在这里，，是GNN层的可学习权重矩阵，σ是一个类似于ReLU的非线性变换函数。在本示例中， = { }。

邻域节点j∈N（i）上的求和可以用其他输入大小不变的聚合函数来代替，例如简单的mean/max或更强大的函数，比如基于注意力机制的加权求和函数。

这听起来耳熟吗？

也许一个pipeline（管道）将有助于实现连接：

如果我们将多个并行的邻域头进行聚合，并用注意力机制（即加权和）代替邻域j上的求和，加上归一化和前馈MLP，看，我们就得到了一个图Transformer！

句子是全连通的词图

为了使连接更加明确，可以将一个句子看作一个完全连通的图，其中每个单词都与其他每个单词相连。现在，我们可以使用GNN为图(句子)中的每个节点(单词)构建特性，然后我们可以使用它执行NLP任务。

广义地说，这就是Transformers正在做的: 它们是具有以多头注意力作为邻域聚合函数的GNNs。而标准的GNNs从其局部邻域节点j∈N（i）聚合特征，NLP的Transformer将整个句子S视为局部邻域，在每一层聚合来自每个单词j∈S的特征。

重要的是，各种特定于问题的技巧，-- 例如位置编码、因果/屏蔽聚合、学习速率调度器和广泛的预训练 -- 对Transformers 的成功至关重要，但在GNN社区中很少出现。同时，从GNN的角度来看，Transformers可以启发我们摆脱架构中的许多华而不实的东西。

我们学到了什么？

句子都是全连通图吗？

既然我们已经在Transformer和GNNs之间建立了联系，让我来谈谈一些想法。

首先，全连通图是NLP的最佳输入格式吗？

在统计NLP和ML（机器学习）流行之前，像Noam Chomsky这样的语言学家专注于发展语言结构的形式化理论，例如语法树/图。树形长短期记忆网络（Tree LSTMs）模型已经被尝试过了，但是否有可能Transformers/GNNs是可以将语言理论和统计NLP这两个世界结合在一起的更好的架构？例如，MILA(蒙特利尔学习算法研究所和斯坦福大学最近的一项研究探索了使用语法树增强预训练的Transformer，如Sachan等人在2020年提出的基于Transformer的双向编码器表示（ BERT）。

图片来源: 维基百科

长期依赖性

全连通图的另一个问题是，它们使得学习单词之间的长期依赖关系变得困难。原因很简单，这是因为图的边数量和节点的数量成平方量级关系，即在一个有着n个单词的句子中，Transformer/GNN将在对单词的量级上进行计算。对于非常大的n来说，这个计算规模大到无法控制。

NLP社区对长序列和依赖关系问题的看法很有趣:使注意力机制在输入大小方面变得稀疏或自适应，在每一层中添加递归或压缩，以及使用局部敏感哈希来获得有效的注意力，这些都是可能使得Transformers变得更好的新想法。

看到来自GNN社区的想法加入其中是一件很有趣的事，例如用于句子图稀疏化的二分法（BP- Binary Partitioning）似乎是另一种令人兴奋的方法。BP-Transformers递归地将句子分为两部分，直到它们能够从句子标记中构造出一个分层二叉树。这种结构化的归纳偏置有助于模型以内存级效率的方式处理较长的文本序列。

资料来源：Ye等人，2019年

Transformers正在学习“神经语法吗” ？

在一些有关Transformers学习的文章中，基本假设是Transformers对句子中的所有词对进行注意力计算，以确定哪些词对是最有趣的，也就是能让“Transformer”学习一些类似于特定任务语法的东西。在多头注意力中，不同的头也可以“观察”不同的句法属性。

用图的术语来说，通过在全图上使用GNN，我们能从GNN在每一层执行邻域聚合的方式恢复最重要的边以及它们可能包含的内容吗？我还不太相信这个观点。

资料来源：Clark等人， 2019

为什么是多头注意力？为什么是注意力？

我更赞同多头机制的优化观点，即拥有多个注意力头可以改进学习，并克服糟糕的随机初始化。例如，这些论文表明，Transformer头可以在训练后被“修剪”或移除，而不会对性能产生显著影响。

多头邻域聚合机制在GNNs中也被证明是有效的，例如，GAT使用相同的多头注意力，MoNet使用多个高斯核来聚合特征。虽然这些是为了稳定注意力机制而发明的，但这些多头技巧会成为挤出额外模型性能的标准吗？

相反，具有简单聚合函数（如sum或max）的GNN不需要多个聚合头来进行稳定的训练。如果我们不必计算句子中每个词对之间的配对兼容性，那对Transformers来说不是很好吗？

Transformers能从完全摆脱注意力中获益吗？Yann Dauphin和合作者的最近工作提出了一种替代的ConvNet的架构。Transformers也可能最终会做一些类似的事情。

资料来源：Wu等人，2019年

为什么Transformers的训练这么难？

阅读最新的Transformer论文让我觉得，训练这些模型需要一些类似于黑魔法的东西来确定最佳学习速率调度器、热身策略和衰减设置。这可能只是因为模型太过庞大，而NLP的研究任务又太具有挑战性了。

但是最近的结果表明，这也可能是因为归一化的具体排列和架构内的残差连接所导致的。

我很喜欢阅读最新的@DeepMind Transformer论文，但是训练这些模型为什么需要它样的黑魔法呢？”对于基于单词的语言模型（LM），我们使用了16,000个warmup-step和500,000个decay-step，并牺牲了9000个goat。”

https://t.co/dP49GTa4zepic.twitter.com/1K3Fx4s3M8

- Chaitanya K.Joshi（@chaitjo）于2020年2月17日

我知道自己过分激动了，但这让我提出疑问：我们真的需要多头的昂贵的配对的注意力，过分参数化的MLP子层，和复杂的学习速度调度器吗？

我们真的需要如此之大的模型吗？对于手头的任务来说，具有良好的归纳偏差的体系结构不应该更容易训练吗？

原文链接：

https://thegradient.pub/transformers-are-graph-neural-networks/

更多精彩推荐

神经网络其实和人一样懒惰，喜欢走捷径？
自拍卡通化，拯救动画师，StyleGAN再次玩出新花样
干货！高频手撕算法合集来了
Azure Arc 正式商用、Power Platform+GitHub 世纪牵手，一文看懂 Ignite 2020
起底 ARM：留给中国队的时间不多了

机器学习-K近邻算法 shy_snow python 机器学习机器学习近邻算法人工智能
k-近邻分类算法，即物以类聚的思想，通过已知分类中的点和未知分类的点距离最近的前k个点的分类来预测未知点的分类。kNN.pyfromnumpyimport*importoperatordefcreateDataSet():group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=['A','A','B','B']returngroup,label
第八十九篇大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术
在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核
华为od 机试 2025 B卷 - 数值同化 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
数值同化华为OD机试真题目录:点击去查看华为OD2025B卷100分题型题目描述存在一个m*n的二维数组，其成员取值范围为0，1，2。其中值为1的元素具备同化特性，每经过1S，将上下左右值为0的元素同化为1，而值为2的元素，免疫同化。将数组所有成员随机初始化为0或2，再将矩阵的[0,0]元素修改为1，在经过足够长的时间后，求矩阵中有多少个元素是0或2（即0和2数量之和）。输入描述输入的前两个数字是
使用Python调用C++：简单易学的方法程序员杨弋 Python全栈工程师学习指南 python c++开发语言
Python是一种易于学习和理解的编程语言，而C++是强大的编程语言。Python代码可以在很短的时间内编写出来，但如果涉及到大量的计算或需要高性能，则需要使用更快、更高效的编程语言。在这种情况下，Python调用C++是一种常见的方法，因为它可以提供C++的高速性能和Python的便捷性。在本文中，我们将介绍如何使用Python调用C++。首先，需要创建C++函数库（DLL），并确保该库包含需要
python之vars函数使用介绍 yueguang8 python python 开发语言
在Python中,vars()是一个内置函数,它可以用来获取对象的属性字典。1.vars()函数的用法无参数调用vars()：当不带参数调用vars()时,它会返回当前本地作用域中的变量名和值组成的字典。带参数调用vars()：当传递一个对象作为参数时,vars()会返回该对象的属性字典。这等价于object.__dict__。下面是一些示例:#无参数调用x=10y=20print(vars())
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
【人工智能】大比拼：文心一言 VS ChatGPT —— 禅与计算机程序设计艺术亲自测评 AI天才研究院 ChatGPT 人工智能文心一言 chatgpt
收到了百度“文心一言”的内测邀请，现在给大家亲身体验测评一下！禅与计算机程序设计艺术先说结论：文心一言表现基本符合预期。与ChatGPT有一定差距，应该在几个月左右。但是禅与计算机程序设计艺术，挺期待ChatGLM-130B版本的效果的。因为，ChatGLM-6B在本地测评的效果，还是非常不错的！目录文心一言写一篇论文介绍一下你自己，从技术原理、应用场景、未来发展、当前不足等方面，不少于3000字
python中vars()的作用 m0_45093979 python 开发语言
在Python中，vars()是一个内置函数，用于返回对象的属性和属性值的字典。它可以用于获取一个对象的命名空间中的所有变量和属性，然后以字典的形式返回这些变量和属性的名称及其对应的值。如果没有提供参数给vars()，它会返回当前作用域（scope）的变量和属性。通常在函数内部调用vars()，它将返回函数的局部命名空间中的所有变量和属性。在模块级别调用vars()，它将返回当前模块的全局命名空间
C++调用python的方法
一、C++中调用python接口在线手册：https://docs.python.org/3/c-api/intro.htmlWindows环境下python安装时提供了给C++调用的头文件及库文件。C++中引用头文件include，放在所有标准引用之前。将头文件目录、库文件目录添加到工程属性。调用python提供的API，传入模块名、函数名、函数参数（封装成PyObject的形式）获取返回值并解
在Windows系统中配置Python 3.11环境安装教程俊星学长 windows python3.11
在Windows系统中配置Python3.11环境安装教程是一个相对直接且简单的过程，但为了确保所有步骤都被详细覆盖，我将分步介绍，并提供必要的背景信息和注意事项。以下是详细的安装教程：一、下载Python3.11首先，需要从Python的官方网站下载Python3.11的安装包。请按照以下步骤操作：访问Python官方网站：打开浏览器，访问Python的官方网站。在网站首页，找到并点击“Down
python vars的作用 jjw_zyfx python python 开发语言后端
classMyDict:name="jjw"age=14result=vars(MyDict)print(result)print("*"*30)print(MyDict.__dict__)#说明vars的一个做用就是其等价于调用类的__dict__属性print(result==MyDict.__dict__)print('-'*30)print(vars())print('#'*30)#函数会
项目篇：加入Python程序之如何在Python中使用C++？ guangcheng0312q python c++windows 开发语言
项目篇：加速Python程序之如何在Python中使用C++？通常像一些耗时的操作，我们期望在C++中去实现，然后使用Python去调用对应的接口，或者因为底层库的原因，需要支持对外的PythonAPI，那么我们通常需要支持在Python中访问C++，如何实现呢？方法比较多，本节以pybind11为例，引入一个完整的项目工程模版，如果你后续有这种需求，可以基于模版去修改。注：(懒人版)本节的所有代
Python与c++互相调用（pybind11）欢迎下辈子光临 CPP Python python c++开发语言
1.安装pybind11看网上使用pipinstallpybind11,没有弄明白，因此下载源码编译。1.1下载pybind11gitclonehttps://github.com/pybind/pybind11.git1.2源码编译cd/pybind11mkdirbuildcdbuildcmake..make编译完成2.cpp样例//example.cpp#include#include"Abs
Python vars() 函数：探索对象的内部程序员喵哥 Python python 开发语言
更多Python学习内容：ipengtao.comPython是一门具有强大而灵活的编程语言，可以访问和探索对象的内部属性。vars()函数是Python标准库中的一个强大工具，它可以获取对象的属性和属性值，并以字典的形式返回它们。在本文中，将深入研究vars()函数，探讨它的用途、示例和适用场景。前言在Python中，对象是一切。对象可以是数字、字符串、列表、字典、函数、类实例等等。每个对象都可
python和C++相互调用使用妄想出头的工业炼药师 c++开发语言
结论：首选PyBind11：综合性能、易用性最佳（GitHub⭐48k+）优先考虑Cython：涉及大量科学计算或已有Cython代码避免Boost.Python（历史包袱重）和SWIG（配置复杂），除非维护旧项目。python调用C++接口C++调用python接口在C++中使用Python库，特别是使用pybind11，是一个非常强大的方法，可以让你在C++项目中轻松地利用Python的强大功
华为OD机试 2025B卷 - 士兵过河 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机考2025A卷华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
士兵过河2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD2025B卷200分题型题目描述一支N个士兵的军队正在趁夜色逃亡，途中遇到一条湍急的大河。敌军在T的时长后到达河面，没到过对岸的士兵都会被消灭。现在军队只找到了1只小船，这船最多能同时坐上2个士兵。当1个士兵划船过河，用时为a[i]；0<=i
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python中字符串的操作方法幻鸩605 python java 开发语言
字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
【图像处理基石】如何检测到画面中的ppt并对其进行增强？
1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始
Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

打通语言理论和统计NLP，Transformers/GNNs架构能做到吗？

神经网络其实和人一样懒惰，喜欢走捷径？

自拍卡通化，拯救动画师，StyleGAN再次玩出新花样

干货！高频手撕算法合集来了

你可能感兴趣的:(大数据,python,机器学习,人工智能,深度学习)