Miracle.W

【自学】Transformer——NLP、计算机视觉常见算法模型

该知识点学自两个视频——

1、Knowing AI知智（b站）

2、李宏毅（YouTube）

一、Knowing AI知智（b站）

1.1什么是Transformer

1.2什么是Attention

1.3什么是BERT

1.4什么是GPT

1.5什么是ViT

二、李宏毅（YouTobe）

2.1Self-Attention的演变

2.2视频链接及其他大牛对Transformer的理解

三、笔者理解

3.1整体架构

3.2Encoder

3.3Decoder

3.4Transformer的训练

建议：①为了更好地帮助自己理解视频内容，我可能会对视频演讲者的说话内容以文字形式记录下来，我也会把视频链接附上，各位读者请注意辨别。②学习Transformer之前最好先学习RNN（循环神经网络）、Seq2Seq模型，有助于理解哦！

一、Knowing AI知智（b站）

1.1什么是Transformer

什么是transformer？【知多少】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Zz4y127h1/?spm_id_from=333.337.search-card.all.click&vd_source=23dd4249b2e4e05d2a24fb7ba074103b

单词的先后顺序会影响句子的意义，而RNN擅长捕捉序列关系，因此它可以用于处理机器翻译模型。但是对于翻译而言，句子间的单词数量并非是一一对应的，受限于结构。RNN只能实现N to N、1 to N、N to 1的模式，而对于N to M的问题却不能很好地来解决。

后来呢人们找到了Seq2Seq模型，该模型拥有一个编码器Encoder和解码器Decoder，这两种器件均是RNN网络。先由Encoder提取原始句子的意义，再由Decoder将意义转换成相应的语言，其中“意义”是这两个器件之间的中介。但是“意义”单元能存储的信息是十分有限的，如果句子太长，翻译精度就会下降，所以后来人们找到了一种称为“Attention”的注意力机制，在原有的Seq2Seq基础结构上，生成每个单词时，都有意识的从原始句子中提取生成该单词时最需要的信息，成功摆脱输入序列的长度限制。但是这种结构的计算方式还是太慢了，RNN需要逐个“看”过句子中的单词，才能给出输出。

为了解决计算慢速的问题，人们进一步找到了Self-Attention自注意机制——先提取每个单词的意义，再依据生成顺序选取所需要的信息，这样的结构不仅支持并行运算，而且效率高，类似人类翻译句子的过程。此时模型已经由原来的RNN结构演变成现在基于Self-Attention且拥有一个Encoder和一个Decoder的模型，即Transformer。Transformer于2017年由谷歌团队在论文《Attention is All You Need》中提出。Transformer在NLP中得到广泛应用（如文本摘要、文本生成、Chatbot），也在计算机视觉领域中得到应用（如ViT、图像分类），亦或是语音识别、股价预测。

下面附上视频的总结图：

1.2什么是Attention

什么是 Attention（注意力机制）？【知多少】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1G64y1S7bc/?spm_id_from=333.337.search-card.all.click 上文提到了Attention注意力机制，那么在这部分内容中将会对Attention做一个更加详细的介绍，它于2014年被提出。关于“注意力”这个词首先想到的是我们人类在忙活、在完成某些任务时，都会把自己的注意力放在当前要做的事情上，也就是说即使一天当中我们需要完成很多事情，小到刷牙洗脸吃饭，大到学习工作敲代码，但是在面对不同的事情，我们只会专注于当下的任务。因此“注意力机制”这个名称非常形象地概括了该模型的特点和作用。

Attention也像是一个简化过程，它能从纷繁复杂的数据中找出当前输出最重要的部分。一个典型的Attention包括三个部分：Q（Query）、K（Key）、V（Value），Q表示输入的信息，Key和Value成组出现，通常是原有的源语言、原始文本等已有的信息。

那么Q、K、V这三个量是如何协同合作的呢？首先通过计算Q与K之间的相关性，得出不同的K对输出的重要程度，再与对应的V相乘求和，得到Q的输出（Attention Value）。以阅读理解为例，Q是问题，K与V是原始文本，计算相关性即找到文本中最需要注意的部分，利用V得到了答案。

Attention模型还延伸出了其他模型。如Self-Attention，Self-Attention只关注输入序列元素之间的关系，通过将输入序列直接转化为Q、K、V，内部进行Attention计算，能很好地捕捉文本的内在联系。另一种进化结构是MULTI-HEAD-Attention（多头注意力机制），是在自注意力机制的基础上使用多种变换生成的Q、K、V进行运算，再将它们对相关性的结论综合起来，进一步增强Self-Attention的效果。

Attenton在NLP中应用广泛，但其最初诞生于计算机视觉领域。

1.3什么是BERT

机器要想理解图像，则必须先将图像转换为RGB数值来表示，同理，机器想要理解语言，需要将语言转换由数字组成的向量。那么为什么是向量呢？词语的意义之间是有关联的，距离可以表示词与词之间的关系，比如苹果和梨都是水果，那么它们之间的距离就会比苹果和猫之间的距离来得近。问题又来了，这些向量该如何获得呢？机器学习的出现让我们不必一一为单词设计向量，只需要将数据交给模型，模型就会自动给出这些数据各自对应的向量（也即适合它们的位置），而BERT就是帮助我们找到向量（位置）的模型之一。（下面附上有关词向量的链接）

一文读懂Embedding的概念，以及它和深度学习的关系 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/164502624 BERT诞生于2018年，源于Transformer，实际上它是其中的Encoder。前面介绍Transformer的时候介绍过其Encoder能很好地理解单词的意义，既然如此人们就想将该部分单独抽离出来使用，没准能获取不错的效果。说干就干，嘿好家伙，没想到还真可以。

此外，人们还为BERT设计了独特的训练方式，其中之一是有遮挡的训练，在收集到的语料中，随机覆盖15%（这里我有一个疑问，为啥是15%？）的词汇，让BERT去猜被遮挡的词是什么，该方式可以让BERT更好的依据语境作出预测；或者输入成组的句子，让BERT去判断两个句子是否相连，该方式可以让BERT对上下文关系有更好的理解。在处理不同NLP任务时，需要将已经训练好的BERT依据任务目标增加不同功能的输出层联合训练，例如文本分类任务就增加了分类器，输入句子输出类别；阅读理解增加了一个全连接层，输入问题和文章，输出答案的位置；在联合训练过程中，BERT只需要进行微调即可。

BERT的可解释性好（我有一个疑问就是为啥说它好嘞？理由和依据是啥？），关于什么是可解释性，可看附上的文章。我的理解是当你拿到一个东西，你可以说出它的来龙去脉，当它在使用过程中如果异常了，你能很快根据对它的了解来判断并解决问题，那么这个东西就是可解释的；反之如果这个东西你是一知半解或者全然无知，它的工作结果只能靠猜，存在许多不确定性因素，那么这个东西就是不可解释的，这里的你指代是普遍的人，而不是个例。如果我的理解有不到位的地方还请多多指正！

万字长文概览深度学习的可解释性研究 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/110078466#:~:text=%E5%8F%AF%E8%A7%A3%E9%87%8A%E6%80%A7%E6%98%AF%E4%BB%80%E4%B9%88%EF%BC%9F%20%E5%B9%BF%E4%B9%89%E4%B8%8A%E7%9A%84%E5%8F%AF%E8%A7%A3%E9%87%8A%E6%80%A7%E6%8C%87,%E5%9C%A8%E6%88%91%E4%BB%AC%E9%9C%80%E8%A6%81%E4%BA%86%E8%A7%A3%E6%88%96%E8%A7%A3%E5%86%B3%E4%B8%80%E4%BB%B6%E4%BA%8B%E6%83%85%E7%9A%84%E6%97%B6%E5%80%99%EF%BC%8C%E6%88%91%E4%BB%AC%E5%8F%AF%E4%BB%A5%E8%8E%B7%E5%BE%97%E6%88%91%E4%BB%AC%E6%89%80%E9%9C%80%E8%A6%81%E7%9A%84%E8%B6%B3%E5%A4%9F%E7%9A%84%E5%8F%AF%E4%BB%A5%E7%90%86%E8%A7%A3%E7%9A%84%E4%BF%A1%E6%81%AF%20%E3%80%82%20%E6%AF%94%E5%A6%82%E6%88%91%E4%BB%AC%E5%9C%A8%E8%B0%83%E8%AF%95bug%E7%9A%84%E6%97%B6%E5%80%99%EF%BC%8C%E9%9C%80%E8%A6%81%E9%80%9A%E8%BF%87%E5%8F%98%E9%87%8F%E5%AE%A1%E6%9F%A5%E5%92%8C%E6%97%A5%E5%BF%97%E4%BF%A1%E6%81%AF%E5%AE%9A%E4%BD%8D%E5%88%B0%E9%97%AE%E9%A2%98%E5%87%BA%E5%9C%A8%E5%93%AA%E9%87%8C%E3%80%82

1.4什么是GPT

什么是 GPT？【知多少】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Jv411a7RB/?spm_id_from=333.337.search-card.all.click&vd_source=23dd4249b2e4e05d2a24fb7ba074103b GPT结构同样源于Transformer，实际上它是其中的Decoder。GPT同样是一个需要面对不同任务进行微调的语言模型，不过由于刚面世的时候效果不如BERT，所以没有受到广泛关注。在提升了网络层数和训练数据量后推出了GPT-2，后来又将数据量拓展到45TB，最终获得拥有1750亿参数，大小超过700G的GPT-3。在使用GPT-3的时候，只要输入问题，它就能输出答案，不需要面对不同的问题再训练，也不需要调试就能使用，也即所谓的零样本学习。GPT-3更像一个接近于以一个包含知识，语境理解和语言组织能力的“数据库”。GPT-3作为一个商业项目没有开源，只能通过OpenAI官网申请使用API。

1.5什么是ViT

什么是 ViT（Vision Transformer）？【知多少】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV18u411m7PY/?spm_id_from=333.337.search-card.all.click&vd_source=23dd4249b2e4e05d2a24fb7ba074103b 顾名思义，就是将Transformer应用在计算机视觉领域。由于Transformer的输入是词语句子即序列，而图像是一种二维数据，所以需要将二维的数据转换为一维的序列。图片是由像素组成的阵列，将其逐个拆开按顺序排列起来，理论可行，但现实是组成的序列数据量相较于语言序列来说过大，远超计算机处理长度。既然如此，可以将图像分割成小方块，每一个小方块就像单词，组合成的原始图像就像是句子，再将每一个小方块转换为向量输入到Transformer中，如此一来序列长度减短，数据的信息将会更丰富清晰，注意力也会更集中。

Transformer还可以改造成适合目标检测、语义分割的模型。

二、李宏毅（YouTobe）

2.1Self-Attention的演变

由于RNN不容易被平行化，CNN可以平行化，所以有人提出用CNN代替RNN，但是，CNN有一个缺点——需要堆叠多层CNN才能看到输入的全部序列，因为它的第一层的每个“三角形”只看过一小部分序列。最后人们提出用Sel-Attention Layer。

2.2视频链接及其他大牛对Transformer的理解

Transformer——李宏毅讲述https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=60Transformer模型详解（图解最完整版） - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/338817680(2条消息) 机器学习-31-Transformer详解以及我的三个疑惑和解答_迷雾总会解的博客-CSDN博客_transformer不收敛https://blog.csdn.net/qq_44766883/article/details/112008655

详解Transformer （Attention Is All You Need） - 知乎先导知识Attention残差网络Layer Normalization前言注意力（Attention）机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域，例如在计算机视觉方向用于捕捉图像上的感受野，或者NLP中用于…https://zhuanlan.zhihu.com/p/48508221

为什么残差连接的网络结构更容易学习？ - 知乎这几天读了何凯明的残差网络，不得不佩服他对神经网络的深入理解，从他灵感的来源，让我感觉他就是个数学…https://www.zhihu.com/question/306135761/answer/2491142607

三、笔者理解

3.1整体架构

3.2Encoder

6个encoder block构成一个Encoder，Encoder的输入即第一个encoder block的输入，假设想要翻译的句子是“我有一只猫”，那么输入就是句子经过Embedding后得到每个字的表示向量组成的矩阵，但是之后每一个encoder block的输入都为前一个encoder block的输出。每一个encoder block由Multi-Head Attention、Feed Forward和Add&Norm组成，如下图所见，其中两个Add&Norm计算内容不同，但计算公式一样。

对于一个Multi-Head Attention，其实它是由多个Self-Attention组合而成，如下图所示，也就是说一个encoder block包含多个Self-Attention，但只包含一个Multi-Head Attention，而一个Encoder则包含6个Multi-Head Attention。

将得到的词表示向量矩阵输入Encoder 中，经过 6 个 encoder block后可以得到句子所有单词的编码信息矩阵，如下图所示。这个编码矩阵将作为Decoder的每个decoder block中的Multi-Head Attention的输入之一。3.1第二张图所示内容其实都只是其中一个encoder block和一个decoder block。

3.3Decoder

6个decoder block构成一个Decoder，Decoder的输入即第一个decoder block的Masked Multi-Head Attention输入，假设被翻译出的句子是“I have a cat”，那么输入就是句子经过Embedding后得到每个单词的表示向量组成的矩阵，但是之后每一个decoder block的输入都为前一个decoder block的输出。每一个encoder block由Masked Multi-Head Attention、Multi-Head Attention、Feed Forward和Add&Norm组成，如下图所见，其中两个Add&Norm计算内容不同，但计算公式一样。

由3.3的第一段描述和下图内容可知decoder block的Multi-Head Attention和Masked Multi-Head Attention的输入不同，Multi-Head Attention的输入由Encoder的输出和Masked Multi-Head Attention的输出组成。其中Encoder的输出用来计算Multi-Head Attention的K、V（可以看出每个decoder block的Multi-Head Attention的Q、K是一样的），Masked Multi-Head Attention的输出用来计算Multi-Head Attention的Q。

Masked Multi-Head Attention和Multi-Head Attention的区别就在于，Masked Multi-Head Attention在SoftMax的前一步多加了一步QK与Mask矩阵相乘的步骤。

一个decoder block包含一个Masked Multi-Head Attenton和一个Multi-Head Attention，那么Encoder则包含6个Masked Multi-Head Attenton和6个Multi-Head Attention。

3.4Transformer的训练

①训练时：第i个decoder的输入 = encoder输出 + ground truth embeding；
预测时：第i个decoder的输入 = encoder输出 + 第(i-1)个decoder输出

②训练时因为知道ground truth embeding，相当于知道正确答案，网络可以一次训练完成。
预测时，首先输入start，输出预测的第一个单词然后start和新单词组成新的query，再输入decoder来预测下一个单词，循环往复直至end。从3.1的第一张图其实也可以看出Decoder是没有单词表示向量矩阵作为输入，只有Encoder的输出作为输入，因此这张图显示的其实是训练好后的模型，在训练过程中Decoder是具有单词向量矩阵作为输入的。

③训练Transformer的输出Z矩阵中，已经包含了对目标句子的每个单词的预测（每行对应一个单词）。也就是说明，Transformer的输入是一条句子一起输入，输出的也是整个句子（各个单词在一个输出矩阵中同时输出。简单一句话就是：输入或者输出的是一个矩阵（整个句子）。

有人提出疑问：输入一个句子之后开始预测，是不是encoder部分只执行一次，然后是decoder部分不停地重复执行，依次输出I, I hava,I have a,I have a cat(最终输出结果) ？

有人对这个疑问的回答：本质上是一个一个单词生成的，但是由于生成速度比较快，所以他看起来是一下子都输出的。但是实际上，输出的是有先后顺序的，(begin）输出后才有I，begin I都有输出后才有have。

④Wq,Wk,Wv这个三个矩阵一开始是直接随机初始化得到的，它在训练过程中就行更新，和其他参数一样根据梯度下降进行更新。

本文提出的算法对应的论文如下：

Attention is All You Need.（Transformer）

Recurrent Models of Visual Attention（最早提出用于图像分类的Attention）

Neural Machine Translation by Jointly Learning to Align and Translate（第一次提出将Attention用于NLP）

BERT

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale（ViT）

embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
LLaMA Factory 微调后，迁移模型激进小猪1002 llama llamafactory 人工智能 python
方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub("your-username/your-model-name")tokenizer.push_to_hub("your-username/your-model-name")
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
渗透测试/漏洞赏金/src/黑客自学指南
Web渗透测试方法论方法论概要在此方法论中我们的目标范围仅是一个域名或一个子域名，因此你应当针对你测试范围内的每一个不确定其web服务的域名，子域名或ip进行测试1.首先确定web服务器所使用的技术，其次如果你成功识别到技术，那么接下来要知道如何利用检索的信息。·该技术版本有任何已知的漏洞吗·使用的是常规的技术吗？有什么有用的技巧以此来检索更多的信息？·有没有针对某种技术的专用的扫描器可以用？比如
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
大模型笔记10：LoRA微调 errorwarn 笔记
LoRA微调的原理矩阵的秩矩阵的秩代表一个矩阵中所含信息的大小。行秩：矩阵中互相不重复、不依赖（即线性无关）的行的最大数目。列秩：矩阵中互相不重复、不依赖的列的最大数目。事实上，行秩和列秩总是相等的，因此我们通常直接称之为“矩阵的秩”。Transformer中微调哪些参数：LoRA的改进版本
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
使用YOLOv5-ONNX-PyQT-EXE: 全栈式对象检测应用的构建与部署
使用YOLOv5-ONNX-PyQT-EXE:全栈式对象检测应用的构建与部署去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，实时对象检测是一个至关重要的任务。是一个开源项目，它将流行的YOLOv5对象检测模型集成到ONNX(OpenNeuralNetworkExchange)中，并通过PyQT构建了一个可执行的应用程序，使得非开发人员也能轻松地进行对象检测。项目简
OpenCV实现相机标定的棋盘格制作与应用 BIG-HO
本文还有配套的精品资源，点击获取简介：在计算机视觉领域，棋盘格标定板用于获取相机参数，实现图像校正和三维重建。OpenCV库提供了绘制棋盘格和相机标定的功能。本文将详细介绍如何使用OpenCV制作棋盘格标定板，包括设计、绘制、保存、相机标定过程和应用。通过实际案例，如畸变矫正、三维重建、AR应用和机器人导航，展示棋盘格标定板在视觉技术中的关键作用。1.棋盘格设计与绘制1.1棋盘格的基本概念与应用棋
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
自学Java怎么入门 Java鼠鼠吖 java 开发语言
自学Java其实没有想象中那么难，只要找对方法，循序渐进地学习，很快就能上手。下面我结合自己的经验，给你整理一条清晰的学习路径，咱们一步步来。一、先了解Java能做什么在开始之前，建议你先看看Java都能用在哪些地方。比如开发企业级系统、Android应用、大数据处理等等。这样你就能明白为什么要学它，也更有动力。Java最大的特点就是"一次编写，到处运行"，这要归功于JVM虚拟机。二、准备好学习环
MIAOYUN | 每周AI新鲜事儿（06.14-06.20）人工智能算法机器学习深度学习
紧跟技术浪潮，洞察行业未来，MIAOYUN《每周AI新鲜事儿》，为您精选全球AI领域的最新动态，涵盖AI技术突破、行业动态、趋势发展、前沿政策与学术研究，带您走在智能时代前沿，一起来回顾本周发生的AI新鲜事儿吧！AI开源大模型腾讯混元3D2.1大模型全链路开源6月14日，在CVPR2025（计算机视觉领域顶会之一）上，腾讯混元3D2.1大模型对外全链路开源，其模型权重及架构、训练代码、数据处理流程
【人工智能】微调的秘密武器：释放大模型的无限潜能蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在人工智能迅猛发展的今天，大规模语言模型（LLMs）以其强大的通用能力席卷各行各业。然而，如何让这些通用模型在特定领域或任务中发挥最大潜力？答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力
基于Transformer实现机器翻译 yyyyurina. transformer 机器翻译深度学习
目录一、前言1.1什么是Transformer?1.2Transfomer的基本结构1.2Transformer的重要组成部分1.2.1位置编码（PositionalEncode）1.2.2自注意力机制（Self-Attention）1.2.3多头注意力（Multi-HeadAttention）1.2.4位置感知前馈层（Position-wiseFFN）1.2.5残差连接与层归一化二、AutoDL
【运维】Python与Ansible协同作战：打造自动化服务器配置管理的终极解决方案蒙娜丽宁 Python杂谈人工智能运维 python ansible
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在现代IT运维中，服务器配置管理是一项繁琐但至关重要的任务。手动配置多台服务器不仅耗时，还容易出错。本文深入探讨如何利用Python结合Ansible工具实现自动化服务器配置管理与环境部署。通过Python脚本调用AnsibleAPI，我们可以动态生成配
LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM ctrl A_ctrl C_ctrl V #大模型llm python 自然语言处理人工智能
文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑1.HuggingFace模型下载模型在HuggingFace下载，如果下载速度太慢，可以在HuggingFace镜像网站或ModelScope进行下载。使用HuggingFace的下载
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
Python爬虫实战：研究TextBlob相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html TextBlob
1.引言1.1研究背景与意义随着互联网技术的飞速发展，社交媒体已成为人们获取信息和表达观点的重要平台。每天在社交媒体上产生的海量文本数据蕴含着丰富的情感信息和社会舆情，分析这些文本情感倾向，有助于企业了解消费者对产品和服务的评价，政府部门监测社会舆论动态，研究机构探索公众对热点事件的态度。情感分析（SentimentAnalysis）作为自然语言处理的重要分支，旨在通过计算方法识别和提取文本中的主
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
c语言opencv所用库函数,Py之cv2：cv2库(OpenCV，opencv-python)的简介、安装、使用方法(常见函数、方法等)最强详细攻略... weixin_39729272 c语言opencv所用库函数
##关于OpenCV简介##OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和MacOS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV用C++语言编写，它的主要接口也是C++语言，但是依然保留
不用公式！用生活例子讲透Transformer，大模型为何强大九章云极DataCanvas 技术干货人工智能
想象一下，你现在是个翻译员，手头有一本厚厚的英文书，要把它翻译成中文。这可不是个轻松活儿！以前的翻译方法（老派翻译官：RNNs）过去，我们的电脑（也就是老模型，比如RNNs）是这样翻译的：就像一个超级认真的翻译官，他会逐字逐句地读英文书。他读到一个英文词时，会琢磨这个词之前讲了什么，以及他到现在为止记住了多少内容，然后才决定怎么翻译。这种方法有两个大毛病：太慢，不能分工合作：就像一个翻译官，他必须
入选 ICML 2025！哈佛医学院等推出全球首个 HIE 领域临床思维图谱模型，神经认知结果预测任务上性能提升 15% hyperai
在人工智能技术突飞猛进的当下，大型视觉-语言模型（LVLMs）正以惊人的速度重塑多个领域的认知边界。在自然图像与视频分析领域，这类模型依托先进的神经网络架构、海量标注数据集与强大算力支持，已能精准完成物体识别、场景解析等高阶任务。而在自然语言处理领域，LVLMs通过对TB级文本语料的学习，在机器翻译、文本摘要、情感分析等任务上达到专业级水准，其生成的学术摘要甚至能精准提炼医学文献的核心结论。然而当
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
AI人工智能领域中OpenCV的深度学习融合 AI大模型应用实战人工智能 opencv 深度学习 ai
AI人工智能领域中OpenCV的深度学习融合关键词：AI人工智能、OpenCV、深度学习融合、计算机视觉、图像识别摘要：本文深入探讨了在AI人工智能领域中OpenCV与深度学习的融合。我们将先介绍OpenCV和深度学习的基本概念，再讲解它们融合的原理和方式，通过实际代码案例展示融合的具体操作，探讨其在不同场景的应用，推荐相关工具和资源，分析未来发展趋势与挑战。希望能让大家对这一融合有全面且深入的了
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

【自学】Transformer——NLP、计算机视觉常见算法模型

一、Knowing AI知智（b站）

1.1什么是Transformer

1.2什么是Attention

1.3什么是BERT

1.4什么是GPT

1.5什么是ViT

二、李宏毅（YouTobe）

2.1Self-Attention的演变

2.2视频链接及其他大牛对Transformer的理解

三、笔者理解

3.1整体架构

3.2Encoder

3.3Decoder

3.4Transformer的训练

你可能感兴趣的:(自学,transformer,自然语言处理,计算机视觉)