MoonLer

Transformer——理论篇

序

在看这一篇之前，我希望你有一定的基础知识：
1. CNN,RNN,Transformer比较
2. Attention机制
3. self-attention机制
本文将紧接着前文的内容，对Transformer再进行一次探索
（本人之前很浅的看过一遍，当初没有写点理论的笔记，现在忘了还得重新翻资料）

Transformer没有你想的那么难，我们开篇。

Who is it?

姓名：Transformer
名子来源：变形金刚
出生年：2017年
父亲 and 母亲 : google
出生记录：《Attention is all you need》
简介：允许更大的并行度(parallelization)，在eight P100 GPUs上训练12小时后，在翻译质量上可以达到一种新的state-of-art效果。
外形描述 : A seq2seq model with “self-attention”

Why is it?

本段开始前，如果你没看过本人之前的1. CNN,RNN,Transformer比较，建议看一下，你会知道，我们选用Transformer是因为这孩子它足够优秀，为了连贯性，对于 Seq2seq任务而言，下面对于三者进行简单的比较：
RNN : 最大的缺点， hard to parallel ( 难以平行化，速度太慢，所以工业界难以落地 )
CNN: 用CNN代替RNN,确实可以解决平行化问题，但是另一个问题也产生了，CNN只有堆叠很多层之后，才能捕捉到所有的输入的全局信息
self-attention layer：用self-attention layer取代RNN,既可以看到全局，同时又容易并行化。

左图为：Bi-RNN 右图：self-attention layer

到这里我们需要花点时间，去知道self-attention到底在做什么？
请参考：
2. Attention机制
3. self-attention机制
OK,到这里，我们大致可以有一个总结：
oh,原来transformer里面是由self-attention组成的，self-attention有很多好处，所以我们可以用它替代原本RNN的工作，可就仅仅如此吗？
本文不想过度吹嘘 self-attention layer(前文已经吹过了…)，这里，我希望你看到两个单词 seq2seq model,既然是一个model.那它肯定不只是self-attention。而且这里也需要重点注意，transformer的厉害不仅仅是self-attention的结果，而是整个model里所有组建的共同作用，所有的他们都很重要。
所以，从此刻开始，我们把重点集中在 seq2seq model上。

What is it?

整个分析流程参考：[ 2 ]

模型结构

我们由外到内，一层一层的拨。

seq2seq结构

transformer作为一个seq2seq模型，它同样可以看作一个这样的seq2seq结构，即输入一个句子，输出也是一个句子。当然，这样的架构也叫做：end to end。
现在，transformer仍然是一个黑箱结构，我们再来拨一层看看：

同样是seq2seq的经典架构，分encoder和decoder两部分。我们继续拆解：

很明显，编码组件部分由一堆编码器（encoder）构成（论文中是将6个编码器叠在一起——数字6没有什么神奇之处，你也可以尝试其他数字）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。
注意：所有的编码器在结构上都是相同的，但它们没有共享参数。
我们继续解剖，看一下，编码器里面到底是什么？

从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈（feed-forward）神经网络中。每个位置的单词对应的前馈神经网络都完全一样（译注：另一种解读就是一层窗口为一个单词的一维卷积神经网络）。当然，我们这里只是宏观介绍，毕竟我们还可以继续往下拆解。
说了编码器，对比着的说一下解码器：
解码器中也有编码器的自注意力（self-attention）层和前馈（feed-forward）层。除此之外，这两个层之间还有一个注意力层，用来关注输入句子的相关部分（和seq2seq模型的注意力作用相似）。

到这里我们基本有个宏观认知了，但是为了更好的分解，我们需要把数据引入网络，看懂数据如何在模型里流动，不就意味着懂了这个网络架构了。
个人认为看这篇文章的基本都有基础吧，词向量这个概念应该可以接受，
现在，我们让词向量流入编码器，看一下编码器的原理：

输入序列的每个单词都经过自编码过程。然后，他们各自通过前向传播神经网络——完全相同的网络，而每个向量都分别通过它。
所以，我们总结一下：Encode由n个编码单元组成，每个编码器的核心是n个特征提取器，而我们比较过CNN，RNN,self-attention做特征提取的优缺点，self-attention是那个最优秀的孩子，所以我们transformer里的特征提取器就选用了self-attention。
很明显，想要继续解剖，我们需要重点关注这个self-attention长什么样子？
我单独把它拿出去做了以篇文章，不清楚的可以参考：self-attention机制
但是上文，我们只是单纯理解了self-attention机制，我们还需要一点点扩充知识！

扩充知识

本段假设你知道self-attention的工作原理。

“大战多头怪”

我们卷积时，每一个形状的卷积我们经常都会设置n^2个，而不是一个，哦豁？这个操作每其名曰：拓展网络宽度。
tansformer也这么干了，特征提取时，我怎么能单独用一个self-attention呢？这么做有什么好处吗？给一个官方说法：

通过增加一种叫做“多头”注意力（“multi-headed” attention）的机制，论文进一步完善了自注意力层，并在两方面提高了注意力层的性能：

它扩展了模型专注于不同位置的能力。在上面的例子中，虽然每个编码都在z1中有或多或少的体现，但是它可能被实际的单词本身所支配。如果我们翻译一个句子，比如“The animal didn’t cross the street because it was too tired”，我们会想知道“it”指的是哪个词，这时模型的“多头”注意机制会起到作用。

它给出了注意力层的多个“表示子空间”（representation subspaces）。接下来我们将看到，对于“多头”注意机制，我们有多个查询/键/值权重矩阵集(Transformer使用八个注意力头，因此我们对于每个编码器/解码器有八个矩阵集合)。这些集合中的每一个都是随机初始化的，在训练之后，每个集合都被用来将输入词嵌入(或来自较低编码器/解码器的向量)投影到不同的表示子空间中。

其实个人理解就是：每一个head都是独立的，意味着每一个都会有自己的见解，那多个head提取出来的信息，一定比一个多，所以效果也会相对好一点，毕竟，encode的目的是特征提取，提取信息越多肯定相对越好。

多头引入

多头引入的效果是什么？引入后我该怎么计算呢？这里我们不给出详细计算，
但给你思路，很简单：煎饼果子，各来一套

我原来只有一套 Q,K,V用来表示一个head。对于多个head,我多弄几个不就行了！所以参考上图，我弄两套Q，K,V，就是两个head。
比如我们有8个头，我们的输入经过八个头的self-attention后，会得到8个维度相同的输出：

但是有一个问题，self-attention的下一层前馈神经网络表示我吃不了这么多！！！

如这个图，我每一个单词对应的输出位置只要一个z，你给我8个是什么鬼？
所以，引入多头后，为了数据还可以正常流进前馈神经网络，我们需要做一个维度变换，也可以理解为压缩，方法还是神经网络的老方法，老子上个矩阵不就行了。
具体操作就是：8个输出concat起来，然后乘个矩阵。

不太形象的可视化

最后，放上一个比较乱但包含所有的可视化

我希望你不要被我这一系列说明搞蒙，我们并没有改变最最上面对框架的介绍，我们只是为了让模型更好，把self-attention的单层变成了多头怪，然后为了数据正常流动，稍微做了个压缩。

Position

self-attention不是一个全优好孩子，它还是有缺点的，他的一个无法忽视的缺点：就是它提取出来的特征没有位置信息.
oh,所以我们只能用CNN用的套路，输入时，就加一层position embedding进去。

位置编码改变的只是输入，见下图

由于我个人对这个position embedding感兴趣已久，以前很好奇，我的位置信息到底是怎么加入的？
根据上面的图，我觉可以提出两个疑惑：
一：位置编码向量是什么？
二：位置编码怎么加入到输入里面？图中是相加，为什么我们要相加，不是concat?

第一个疑惑

在原始论文《 Attention is all you need 》里，位置编码t是人手动设置的,不是学出来的。每一个位置都有一个对应的位置编码。
具体怎么设置这里就不讨论了，反正写代码时也逃不掉。

第二个疑惑

这里放上李宏毅大佬的ppt

简单说明一下就是：
假设我有一个位置编码pi，把它和xi concat起来，然后乘于一个权重，通过线性代数的trick（就是小技巧），可以化作图中的结果，发现和相加没区别！！
所以，直接相加是也是有道理的，并不是我们直观的认为，位置信息由于相加被埋没在input里了。
但是这里又出来一个很神奇的东西，注意图1中的Wp，这是位置向量的权重矩阵，它到底是学出来的还是人手设置的，这是有一个讨论的。
我们直接说结果：
1. Wp学习出来的效果并不好。
1. 《Attention is all you need》由于根据前人在CNN中设置wp的效果不好，所以他们用一个奇怪的式子，人手设置出这个wp。它的可视化就是下面这张图：

残差模块

我们继续回到主线上去，对于一个解码器，其实它不像上面那么简单，单纯就一个self-attention和一个前馈网络，它还需要再添加一些组件：
可以看到，它多了两个东西：求和与归一化和残差模块。为了很好的理解，我们同样让数据流过他们：

我觉得图已经很明白了，我们来简单形容一下：
我们将self-attention的input：z和它的output相加，再做一次normalization，注意，这里不是softmax，而是layer normalization。
我们简单和batch normalization区别一下：
其实他们的本质对待的维度不一样，batch normalization看名字也知道，是在batch之内做的，也就是不同样本的同一特征做normalization。而layer normalization是相反的，它针对每一个样本的所有特征做normalization。
ok,补充完毕，我们继续。
看到这里我真的很想问一句，为啥要加上这两个东西？参考[ 7 ]

Add操作借鉴了ResNet模型的结构，其主要作用是使得transformer的多层叠加而效果不退化
Layer Normalization操作对向量进行标准化，可以简化学习难度。

oh,原来这样，但是，我很…的再问一句，为啥用layer normalization，不用batch normalization。
啊，我觉得解决这个问题就得分析他们各自的优缺点，这肯定没毛病，但是这篇文章这里要是再展开写，就没完没了了，我自己看都觉得太长了不爽，所以这个优缺点我觉得需要单独开一篇。个人找到一篇很不错的文章，以后对它做笔记。
详解深度学习中的Normalization，BN/LN/WN

解码器

其实解码器基本和编码器的结构一模一样。如果我们只有两层的编码器：
我们唯一需要注意的就是数据流动的方式？
我个人觉得这张图说起来不舒服，我换一张经典的：

我们对decoder举一个简单宏观的例子：
首先要明确：解码阶段的每个步骤都会输出一个输出序列（在这个例子里，是英语翻译的句子）的元素
接下来的步骤重复了这个过程，直到到达一个特殊的终止符号，它表示transformer的解码器已经完成了它的输出。
每个步骤的输出在下一个时间步被提供给底端解码器，并且就像编码器之前做的那样，这些解码器会输出它们的解码结果。另外，就像我们对编码器的输入所做的那样，我们会嵌入并添加位置编码给那些解码器，来表示每个单词的位置。
而那些解码器中的自注意力层表现的模式与编码器不同：在解码器中，自注意力层只被允许处理输出序列中更靠前的那些位置，也就是只看的到已经产生的单词，没有产生的单词要mask掉。在softmax步骤前，它会把后面的位置给隐去（把它们设为-inf）。
个人对mask操作和这里的sotfmax的操作还比较懵懂，个人暂时还得不出很好的结论，暂寄希望与源码可以弄清楚具体细节。

最后的线性层

解码组件最后会输出一个实数向量。我们如何把浮点数变成一个单词？这便是线性变换层要做的工作，它之后就是Softmax层。
线性变换层是一个简单的全连接神经网络，它可以把解码组件产生的向量投射到一个比它大得多的、被称作对数几率（logits）的向量里。这个操作我们前面用过，无非就是乘以一个权重而已，前面是压缩，这里是扩充，扩充成多少（当然是你的vocab_size大小啊）。
上面会得到每一个vocab的评分，我们一般习惯把它转化为概率，即，用Softmax 层便会把那些分数变成概率（都为正数、上限1.0）。概率最高的单元格被选中，并且它对应的单词被作为这个时间步的输出。

整个过程如下图

这就是所有的前向传播过程。

END

单纯的理论学完其实都是浮在表面，落到实地的源码才是实质名归 ！

参考

[ 1 ] The Annotated Transformer

[ 2 ] BERT大火却不懂Transformer？读这一篇就够了

[ 3 ] Attention is all you need

[ 4 ]Transformer 李宏毅

[ 5 ]Transformer (变形金刚，大雾) 三部曲：RNN 的继承者

[ 6 ]Self-Attention with Relative Position Representations

[ 7 ]Transformer: NLP里的变形金刚 — 详述

[ 8 ] 详解深度学习中的Normalization，BN/LN/WN

AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
【拥抱AI】如何实现AI外呼通话，并与客户达成确认奔跑草- 人工智能人工智能
实现AI外呼通话并与客户达成确认涉及多个技术组件和步骤。以下是一个基本的流程和技术方案，仅供参考。1.技术选型与准备主要技术组件语音识别（ASR）：将客户的语音转换为文本。自然语言处理（NLP）：理解和生成自然语言对话。语音合成（TTS）：将文本转换为客户可以听到的语音。呼叫平台/API：用于发起和管理电话呼叫。数据库：存储客户信息、通话记录等数据。业务逻辑层：处理对话管理和决策逻辑。2.系统架构
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
自然语言处理NLP 01语言转换&语言模型伊一大数据&人工智能学习日志自然语言处理自然语言处理人工智能语言模型 nlp 机器学习深度学习
目录语言转化方式1.数据预处理（DataPreprocessing）(1)文本清理(2)分词(3)语言特殊处理2.特征提取（FeatureExtraction）(1)词袋模型（BagofWords,BoW）(2)TF-IDF(3)词嵌入（WordEmbedding）3.模型输入（ModelInput）(1)序列编码(2)预训练模型输入4.模型推理（ModelInference）(1)使用传统模型(
DeepSeek底层揭秘——多跳推理 9命怪猫 AI 人工智能大模型深度学习 ai 神经网络
1.多跳推理(1)定义多跳推理（Multi-hopReasoning）是一种复杂的推理技术，指模型在回答问题或解决任务时，需要跨越多个信息片段或知识点，逐步推导出最终答案，而不是直接从单一信息源中获取结果。每一次跨越称为一个“跳跃”（hop），多跳推理通常需要模型具备逻辑推理能力、上下文理解能力以及信息整合能力。例如，在自然语言处理（NLP）中，多跳推理任务可能需要模型从多个段落中提取相关信息，并
基于 HanLP 的句子结构分析与关系抽取梦落青云知识图谱 java HanLP
一、引言自然语言处理（NLP）是人工智能领域的重要分支，旨在让计算机理解和处理人类语言。句子结构分析和关系抽取是NLP中的关键任务，它们可以帮助我们理解句子的语法结构和语义关系。HanLP是一款功能强大的中文自然语言处理工具包，提供了丰富的功能，包括分词、词性标注、依存句法分析等。本文将介绍如何使用HanLP进行句子结构分析与关系抽取。二、HanLP简介HanLP是由汉语言技术实验室开发的开源中文
AI人工智能代理工作流AI Agent WorkFlow：自然语言处理在工作流中的应用 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：自然语言处理在工作流中的应用关键词：AI代理工作流管理自然语言处理业务流程自动化交互式AI助手1.背景介绍1.1问题的由来随着数字化转型的深入，企业对提高运营效率的需求日益迫切。传统的业务流程处理方式，如手工操作、邮件交流等，既耗费时间又容易出错。为了解决这些问题，企业开始探索利用自动化技术来提高业务流程的效率和准确性。自然语言处理（NLP）技
《大模型应用开发极简入门》随记 hoypte 人工智能
术语：自然语言处理（NLP)人工智能（AI）大预言模型（LLM）机器学习（ML)深度学习（DL)内容LLM概述ML算法被称为人工神经网络DL是ML的一个分支最先开始简单语言模型吗，例如：n-gram模型（通过词频来根据前面的词预测句子里下一个词---可能生成不连贯的词），为了提升性能引入循环神经网络（RNN）和长短期记忆（LSTM）网络---处理大量数据效率还是不行。Transformer架构架构
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
【Python】成功解决NameError: name ‘XXX’ is not defined 云天徽上 python运行报错解决记录 python 开发语言 pandas 机器学习 numpy
【Python】成功解决NameError:name‘XXX’isnotdefined欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够
DeepSeek-R1驱动下一代AIGC安全：全面解析智能内容合规审查技术体系与实战案例 Coderabo DeepSeek R1模型企业级应用 AIGC 安全
DeepSeek-R1赋能AIGC内容合规审查：技术实践与案例解析一、AIGC内容合规审查技术架构（此处展开约1500字的技术原理说明，涵盖深度学习模型、规则引擎、多模态检测等核心组件）二、核心实施步骤与代码实现1.文本内容预处理模块importrefromdeepseek_nlpimportTextCleanerdeftext_preprocessing(text):#特殊字符过滤cleaner
【DeepSeek】DeepSeek 如何应用于政务系统？深度求索者政务
DeepSeek作为一款高性能、低成本的AI大模型，近期在政务系统中得到了广泛应用，其技术能力和场景适配性正在推动数字政府的智能化转型。以下从应用场景、技术支撑、实际成效及未来方向等方面进行深度解析：一、核心应用场景智能公文处理政策解读与文件起草：DeepSeek基于自然语言处理（NLP）技术，可自动生成公文初稿，结合政务语境提取关键信息，生成拟办意见。例如，深圳市龙岗区的公文校对时间从人工5分钟
Decoder-Only、Encoder-Only、Encoder-Decoder 区别会喘气的粽子丶 nlp 人工智能
Decoder-Only、Encoder-Only和Encoder-Decoder是三种常见的神经网络架构，主要用于自然语言处理（NLP）任务。它们在结构和应用上有显著的区别。1.Decoder-Only架构描述：仅包含解码器部分，没有编码器。应用：通常用于生成任务，如语言模型和对话系统。代表模型：GPT（GenerativePre-trainedTransformer）特点：自回归生成：模型通过
【AI引领潮流|未来智慧生活】国内机器聊天软件推荐（超全！）and人工智能&智能学习熔光人工智能 AI软件智能学习生活
1.AI聊天软件概述1.1AI聊天软件的关键技术1.2AI聊天软件的应用1.3AI聊天软件的挑战1.4总结2.智普清言3.文心一言4.讯飞星火5.知元AI6.白马AI7.ChatGPT8.一览AI应用链接9.人工智能10.机器学习↓个人主页：C_GUIQU↑1.AI聊天软件概述AI聊天软件是一种利用自然语言处理（NLP）、自然语言理解（NLU）和机器学习（ML）技术构建的软件，它能够理解用户的自然
使用OpenAI LLM与Neo4j数据库进行自然语言交互 bBADAS neo4j 数据库交互 python
技术背景介绍在现代数据分析和应用开发中，图数据库以其独特的强大功能越来越受到重视。其中，Neo4j是最受欢迎的图数据库之一。结合自然语言处理（NLP），可以使数据查询变得更加直观和便捷。本篇文章将介绍如何使用OpenAI的语言模型将自然语言问题转换成Cypher查询，并通过Neo4j数据库执行该查询，并给出自然语言的响应。核心原理解析我们的目标是实现一个系统，该系统能够接受自然语言输入，将其转换为
【AI日记】24.10.30 做项目的一些前期准备工作 AI完全体 AI日记人工智能机器学习自然语言处理 langchain 日记读书学习资源
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】工作工作1内容：看AI大佬访谈B站地址：SamAltman最新5月播客长篇访谈|@All-In播客2024.5.11时间：1.5小时评估：继续工作2内容：思考如何开始自己的RAG项目时间：0.5小时决定：采用搭积木的方法来做自己的RAG项目。从最基础的开始，不断学习各种RAG和NLP相关的技术，然后不断加入到自己的项目中，而不
transformer概述沉墨的夜 transformer 深度学习人工智能
Transformer架构的提出，不仅在自然语言处理（NLP）领域掀起了革命，也在多个深度学习任务中获得了广泛应用。自2017年由Vaswani等人提出以来，Transformer经历了多次优化和扩展，成为深度学习领域的基石。以下是Transformer架构的演进历程、作用和意义、架构详情以及未来发展趋势的详细阐述。Transformer架构的演进历程(1)Transformer的起源（2017年
【开源向量数据库】Milvus简介 IT古董开源数据库 milvus
Milvus是一个开源、高性能、可扩展的向量数据库，专门用于存储和检索高维向量数据。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、异常检测等AI应用场景。官网：https://milvus.io/1.Milvus的特点（1）高性能支持数十亿级向量数据，查询速度快。使用近似最近邻（ANN）索引算法，如HNSW、IVF-FLAT、IVF-PQ、SCANN等。（2）分
【深度学习基础】什么是注意力机制我的青春不太冷深度学习人工智能注意力机制
文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中，注意力机制（AttentionMechanism）的引入堪称一场革命。它不仅解决了传统模型的根本性缺陷，更通过动态聚焦关键信息的能力，重塑了人工智能处理复杂任务的范式。本文
语音与自然语言处理（NLP）：智能交互的核心技术给生活加糖！热门知识自然语言处理交互人工智能
随着人工智能（AI）技术的飞速发展，语音识别与自然语言处理（NaturalLanguageProcessing,NLP）成为了智能交互系统的核心技术。它们不仅改变了人们与计算机、设备的交互方式，也推动了众多行业的革新。从智能助手（如苹果的Siri、亚马逊的Alexa）到机器翻译、自动客服系统，语音和NLP技术正逐步融入日常生活，改善我们与数字世界的沟通方式。一、什么是语音识别与自然语言处理（NLP
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
nlp技术 tqs_12345 人工智能自然语言处理
自然语言处理（NaturalLanguageProcessing,NLP）技术是一种计算机科学与人工智能的交叉领域，涉及机器对人类语言进行处理和理解的能力。以下是一些常见的NLP技术的示例：1.机器翻译：NLP技术可以帮助机器将一种语言翻译成另一种语言。例如，谷歌翻译使用NLP技术实现自动翻译，用户可以输入一段文本，然后谷歌翻译会自动将其翻译成其他语言。2.文本分类：NLP技术可以将文本分类到不同
《深入浅出多模态》（五）：多模态经典模型ALBEF GoAI 深入浅出多模态多模态大模型 LLM 深度学习人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
《一文吃透！NLTK与SpaCy，自然语言处理的神兵利器》人工智能深度学习
在人工智能的璀璨星空中，自然语言处理（NLP）无疑是最为耀眼的领域之一。它让机器能够理解、处理和生成人类语言，极大地推动了智能交互的发展。而在Python的NLP工具库中，NLTK和SpaCy就像两把锋利的宝剑，各自散发着独特的光芒。今天，就让我们深入探究这两款工具的使用技巧与优势，为你的NLP之旅增添强大助力。一、NLTK：自然语言处理的瑞士军刀NLTK（NaturalLanguageToolk
AI —— 文字生成图片的逻辑鱼不知海 AI写作 AI作画
事情的起因是我在做一个自用软件时，需要测试文字生成图像的功能。于是就对现在能使用的ai大模型去做了一些尝试。输入几组我的描述性文字其中的一张图片令我大为震撼。（师妹师兄温酒毛驴）问题大家应该可以发现，一位图像人物的下半身时有问题的。同时从人的逻辑上，这种图缺少内核逻辑。在NLP的成熟度如此高的情况下，对描述性文字进行逻辑上的重构并不是太麻烦的事情。豆包扩充文字（在一个宁静的日子里，师兄与师妹并辔而
Deepseek详细的自我介绍 welcome_123_ 人工智能
###**DeepSeek：中国自研AGI大模型的深度解析**---####**1.技术背景与研发理念**DeepSeek由国内顶尖AI科学家团队领衔，核心技术成员来自清华大学、北京大学及国际顶级AI实验室，团队在NLP、分布式训练、模型压缩等领域发表顶会论文超200篇。研发理念聚焦三个核心：-**高效性**：通过模型架构创新（如MoE）实现“小参数量，大性能”。-**可控性**：内置可解释性模块
AI 大模型创业：如何利用市场优势？ SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI大模型创业：如何利用市场优势？1.背景介绍随着人工智能技术的不断发展，大模型（LargeModels）在商业化应用中日益受到关注。大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型，如BERT、GPT-3、DALL-E等。这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D