黑夜路人

【原创】理解ChatGPT之注意力机制和Transformer入门

作者：黑夜路人

时间：2023年4月27日

想要连贯学习本内容请阅读之前文章：

【原创】理解ChatGPT之GPT工作原理

【原创】理解ChatGPT之机器学习入门

【原创】AIGC之 ChatGPT 高级使用技巧

GPT是什么意思

GPT的全称是 Generative Pre-trained Transformer（生成型预训练变换模型），它是基于大量语料数据上训练，以生成类似于人类自然语言的文本。其名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程，其中模型学习预测文章中下一个单词，它可以完成各种自然语言处理任务，例如文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等等。

下面我们用大家容易理解的方式简单介绍一下GPT模型的整个工作原理。

上面讲了我们GPT的单词是：Generative Pre-trained Transformer ，简单这三个词语拆解下来就是：

Generative - 生成下一个词

Pre-trained - 文本预训练（互联网各种文字材料）

Transformer - 基于Transformer架构（无监督学习）

GPT用中概括描述就是：通过Transformer 架构进行文本预训练后能够按照给定的文本，生成合理文本延续的模型。（文本接龙）

其中无监督训练中，核心依赖的就是Transformer模型，这是一个优秀的模型，如果说到Transformer框架比较优秀，就需要大概了解一下神经网络在这个过得的迭代发展过程，了解为什么它是一个在AI问答（ChatGPT）中优秀的模型框架。

对于ChatGPT能够取得那么好的一个互动交流的效果，最核心的是GPT机制，GPT机制里面除了预训练（ Pre-trained）和人工反馈强化学习（RLHF - Reinforcement Learning from Human Feedback），最基础的就是这个T（Transformer）机制了。

整个Transformer可以简单理解为一个“无监督学习”的“文字接龙”游戏，然后完成整个核心基础大模型的训练，然后通过 RLHF 强化训练让这个LLM（大模型）看起来越来越智能。

RNN如何发展到Transformer

在我们先看一下整个Transformer发展路线图：

看到上面比较关键的几个节点主要是 RNN -> LSTM ->Attention -> Transformer ，基本就是从循环神经网络（RNN）发展长短记忆网络（LSTM），然后诞生了注意力机制（Attention），然后到Transformer（包含Multi-Head Attention多头自注意力），奠定了整个Transformer的大框架体系。

RNN（Recurrent Neural Network - 循环神经网络）

要理解RNN基本原理，我们可以简单理解理解一下。

比如当我们在识别一张图片的时候,每张图片都是独立的,认出图片中是“苹果”和对下一张图片是“梨”的识别没有影响。但是对语言来说,顺序是超级重要的。“我吃苹果”和“苹果吃我”两个句子意思完全不同,顺序也提供了信息,比如“吃”后面跟的大概率可能是食物名词。

为了理解数据之间的这种关联,人们发明了一种叫做循环神经网络的模型,简称RNN。RNN是一种神经网络,可以理解它有一个小记忆盒子,用来记住过去的数据。当新数据进来时,网络要考虑记忆盒子里保存的信息，随着新数据的输入,存储的信息也在不断更新，记忆盒子里的信息被称为“隐状态”。

RNN最常用于自然语言处理，比如说机器翻译和写诗。“机器翻译”是找到不同语言中表达相同意思的序列（中文翻译成为英文）；诗歌生成是根据主题按规则生成有逻辑的词序列；改变输入和输出的类型,输入图片输出句子就是“看图说话”；语音也可以看作是一个时间序列的声音信号，语音识别和语音生成等场景也在RNN的能力范围内；股票价格变化也可以看作一个随时间变化的序列,很多量化交易模型就是基于这个认知建立的。

（中间的h就是隐状态，c是输入，y是输出）

RNN能够处理序列数据,即其输入和输出都可以是序列。这是因为RNN在隐藏层里面有循环,能够维持网络的内部状态,并根据输入的序列数据不断更新状态。

RNN很厉害，图片文本等都能够很好处理，有很多适用场景。但是RNN也有明显的缺点，比如数据输入的越早,在隐状态中占的影响就越小。也就是说,如果一个句子很长,RNN就会忘记开始说了什么，标准的RNN在较长的序列上会出现梯度消失或梯度爆炸的问题,导致它无法捕捉到长期的依赖关系。为此,后来发明了RNN的改进版本——LSTM（长短期记忆网络）。

LSTM（Long Short-Term Memory，长短期记忆网络）

RNN有一定的记忆能力,但是遗憾的是它只能记住短期记忆,在各种任务中的表现不太好。那么该怎么办?

人们将目光投向了人类自己。人的记忆是有选择的,我们不会记住每一时每一刻发生的所有事,会选择性地保存重要的事情,丢弃不重要的事情。参考人类这种记忆机制，Sepp Hochreiter在1997年改造了“记忆盒子”，并找到了“门”这种机制。“门”是用来决定信息如何保存的开关,它的值在0到1之间,1表示完全保存,0表示完全丢弃。

“记忆盒子”上有三个门:

遗忘门（Forgot gate）：决定记忆盒子要保存多少原有信息,也就是丢弃哪些不重要的记忆;

输入门（Input gate）：决定当前网络信息有多少要保存到记忆盒子,也就是接触哪些新东西;

输出门（Output gate）：决定输出记忆盒子中的信息的程度。

经过改造的记忆盒子既可以通过输入门了解当前网络状态,又可以利用遗忘门保留过去重要的信息。这就是LSTM长短期记忆模型。

通过改变记忆盒子的结构,LSTM还有许多变体,比如GRU。GRU只有两个门,更新门是遗忘门和输入门的结合,决定丢弃哪些旧信息,添加哪些新信息。 GRU还决定写入多少当前时刻的网络状态,用来捕捉短期记忆。GRU的结构更简洁,计算更高效,效果与LSTM不相上下,所以GRU变得越来越流行。还有一些包含了 Remember-负责记忆中的信息存储，Update gate-控制 Remember 中存储的信息更新等等模块。

一个大概的LSTM网络：

Attention（注意力机制）

注意力机制不是凭空出来，主要还是从人类本身进行学习的基本人类原理。

深度学习里面的一个注意力机制，它从名字上来看，就和我们人类视觉的注意力机制是非常相似的，其实它也是借鉴于人类视觉注意力机制的。他们的核心是什么？他们的核心就是关注重点的信息，而忽略掉不重点的信息。而这个机制的形成就是人类在漫长的进化当中形成的，从大量的信息里面去获取少量的关键信息的一个主要的核心的东西，也就是人类规避危险的最核心的一种能力。

我们直接来看，比如说这样的一张图，我们首先看到的时候，我们会优先关注婴儿的脸，然后才会关注到熊熊玩具：

比如这个新闻，首先其实会看到“标题”，然后才是看到下面的内容：

上面两张图片中，我们会优先关注婴儿的脸，然后文章我们会先关注标题；比如这个新闻，这个标题这一大段文字的开头，而这些东西恰好就是这张图片的核心的最关键的位置，我们关注这些东西之后，我们会对最核心的位置再继续深入去看，比如说我们看婴儿的脸，皮肤白不白，什么表情等等；比如说我们看这个标题，看这个标题具体讲的什么，而对于其他一些无关的信息，我们就会选择把它给忽略掉。

这个核心简单可以总结为：“视觉注意力机制是人类视觉所持有的大脑信号处理器，人类视觉通过快速扫描全局图像获得需要重点关注的目标区域，也就是一般所说的注意力的焦点，而后对这一区域投入更多的注意力资源，以获取更多所需要关注的目标的细节信息，而抑制其他无用的信息”。

人类的注意力机制和和深度学习中注意力机制的一个核心，就是“关注最核心的部分，抑制其他无用的信息”。这是人类利用有限的注意力资源，从大量的信息中快速筛选出高信息的一个手段，是人类在长期进化中形成的一种生存的机制，然后Attention也学习了整个机制，能够极大的提高了信息的处理的效率与准确性。

可以用自然界中的一些概念来拟人化地描述注意力机制，可以关注到这些特点:

1. 聚焦: 就像我们的视觉系统可以聚焦在视野中的某个区域,注意力机制也可以聚焦在输入序列的某些部分,并为其赋予更高的权重。这种聚焦能力使模型可以专注在当前最重要和相关的信息上。

2. 过滤: 我们的感知系统会过滤掉很多不太相关和重要的信息,只选择critical信息。同样,注意力机制也具有过滤的功能,它可以过滤掉输入序列中不太相关的元素,只选择最相关和重要的信息。

3. 上下文感知: 人类在理解语言时会根据上下文来正确解释某个词或短语的意思。同样,注意力机制可以将上下文信息融入当前输入的表达中,从而产生上下文相关的输出。这使模型的预测结果更加合适当前输入的上下文。

4. 关注漂移: 人类的注意力不是固定不变的,我们可以根据需求随时改变关注的目标。注意力机制也具有类似的能力,它可以随时根据输入的重要性来改变注意力的分配,从而动态地聚焦在当前最相关的输入上。这种动态的注意力分配使模型更加灵活和强大。

所以，注意力机制类似于人类注意力的一些特点,比如聚焦、过滤、上下文感知和关注漂移的能力，这使注意力机制具有选择性地关注输入序列的某些部分,过滤不太相关的信息,并根据上下文来调整注意力分布的能力,从而产生更加准确的输出结果。这些特点都被神经网络学习过去，然后进行模拟。

Attention在深度学习的应用

注意力在图片和文本中的应用

以上就是利用注意力机制进行关键信息识别，所有白色区域就是为下面图片识别生成文字：

一个带有注意力机制文本计算的LSTM网络：

既然自然界和人类有注意力机制这件事，那么在深度学习中，如何计算注意力，就是如何判断图片和文本中哪个内容是更需要关注的。

图片注意力计算

在图片处理中,注意力机制的主要原理也是判断当前输入与输入序列中每个历史元素(此处为像素)之间的相关性,并根据相关性为每个像素赋予权重,这些权重决定了哪些像素需要特别注意和聚焦,哪些需要过滤。

具体来说,注意力机制会计算当前输入特征与每一个历史像素之间的相似度或相关性,相似度越高的像素被赋予更大的权重,表示其对当前输入特征更重要,需要更多注意;相似度越低的像素被赋予更小的权重,表示其影响较小,可以被过滤。

那么,在图片中,注意力机制主要通过以下方法来判断两个输入之间的相关性:

1. 空间注意力:计算两个像素在空间上的相对位置关系,位置越近的像素相关性越高,权重越大。这种注意力可以捕捉空间结构信息。

2. 通道注意力:如果两个像素在RGB通道上值越接近,则认为其相关性越高,权重越大。这可以学习通道之间的依赖关系。

3. 分层注意力:在空间注意力和通道注意力的基础上,可以建立多层注意力,高层综合低层结果与输入计算相关性。这使注意力可以在不同抽象层面审视输入,更加准确。

4. 相似性注意力:直接采用点乘或余弦相似度等方法计算两个像素之间的相似性,相似性越高则相关性越强,权重越大。

在图片处理中，注意力机制主要是通过计算当前输入特征与每个像素的相关性,为后者赋予不同的权重,并据此产生当前输入特征的新表示。相关性越高的像素影响越大,权重越大,这使得模型可以选择性地关注输入图像中的重要区域,过滤不太相关的背景区域。这种过程模拟了人类在理解图片时对重要信息的注意力分配机制。

文本注意力计算

在文本处理中,注意力机制的主要原理是:判断当前输入与输入序列中每个历史元素之间的相关性,并根据相关性为每个历史元素赋予权重,这些权重决定了哪些历史元素需要特别注意和聚焦,哪些需要过滤。

具体来说,注意力机制会计算当前输入与每个历史输入之间的相似度或相关性,相似度越高的元素被赋予更大的权重,表示其对当前输入更重要,需要更多注意;相似度越低的元素被赋予更小的权重,表示其影响较小,可以被过滤。

那么,注意力机制是如何判断两个输入之间的相关性的呢?主要采用以下方法:

1. 点乘注意力:计算两个输入的向量表示(Embedding)之间的点积,点积越大则相关性越高。

2. 缩放点乘注意力:在点乘注意力的基础上,对点积结果除以一个缩放因子(如向量维度的平方根),这样可以使得权重分布更集中,关注更重要的元素。

3. 多头注意力:使用多个注意力头,每个头有自己的Query、Key和Value,最终将每个头的输出拼接或求平均以产生最终输出。这使模型可以从不同角度审视相关性,更加准确。

4. 位置编码:对输入序列的输入 Embedding 加入位置信息,以便模型可以利用位置信息判断相关性。位置更靠近的两个输入相关性更高。

所以，文本的注意力机制主要是通过计算当前输入与历史输入的相关性,为后者赋予权重,并据此产生当前输入的新表示。相关性越高的历史输入影响越大,权重越大,这使得模型可以选择性地关注输入序列中的重要元素,过滤不太相关的元素。这种过程模拟了人类在解码文本时的注意力分配机制。

Transformer模型概要

Transformer 解决seq2seq的问题

在机器学习里，一般需要解决的问题主要包括，我输入一个东西给模型，然后模型输出一个东西（比如一个词或者是一张图）然后输出：（比如单词翻译或者是分类问题）

或者是输入一堆东西，然后输出一个东西，整个输入序列最后输出一个标签：（比如分类问题，或者是情感分析）

再进一步，在计算中，可能是N个输入向量，输出也是N个标签（输入输出向量是固定的）：

还有一种常见是输入N个向量，输出可能是M个标签，这种问题叫做Seq2Seq（Sequence to Sequence，机器学习中比较典型的一种方式，常见比如AI问答、机器翻译等）：

ChatGPT可以认为是一种Seq2Seq的问题，用户输入一堆Prompt，然后GPT输出一堆文本。Seq2Seq实现了从一个序列到另外一个序列的转换，比如Google曾用Seq2Seq模型加attention模型来实现了翻译功能，类似的还可以实现聊天机器人对话模型。经典的RNN模型固定了输入序列和输出序列的大小，而Seq2Seq模型则突破了该限制。

Seq2Seq 这种结构最重要的地方在于输入序列和输出序列的长度是可变的。

一般处理seq2seq的问题都会采用 Encoder-Decoder 的结构，输入一个seq，经过encoder各种处理，然后decoder成为一个目标想要的内容，比如经典的RNN中的Encode-Decoder架构：

Encoder-Decoder架构，我们举例看一个翻译的场景：

对于ChatGPT中T 就是我们上文提到的Transformer框架，Transformer就是一种处理seq2seq的模型设计。上面这个图可以简单理解为，Transformer 框架基本工作结构图，它本质就是一个Encoder-Decoder 的结构。

Transformer和LSTM/RNN 的区别

本质使用RNN或者LSTM都能够解决这种AI问答的问题，但是Transformer对比它们有这些更多优点：

1. 并行计算：RNN和LSTM是顺序模型,计算过程中每个步骤的输出都依赖于上一步的输出,无法并行计算。而Transformer采用Attention机制,可以并行计算所有 timesteps,大大提高计算速度。

2. 长期依赖学习：RNN和LSTM虽然有循环结构可以捕捉上下文信息,但在较长序列中难以学习长期依赖,会出现梯度消失问题。而Transformer通过采用Attention机制,可以直接建模任意两个timesteps之间的依赖关系,更好地学习长期依赖。

3. 训练更稳定：RNN和LSTM中的循环结构使得其训练过程较为困难,参数选择和初始化都会对最终结果产生较大影响,并且容易出现梯度爆炸问题。而Transformer的非循环结构使其训练更加稳定。

4. 更少的参数：RNN和LSTM需要的参数较多,而Transformer通过使用Attention机制,可以用更少的参数获得同等或更好的性能。

5. 无需标定的输入输出：RNN和LSTM对序列进行编码时,通常需要在输入序列两端添加特殊的起始和结束标记,Transformer则无此要求。

Transformer 框架的优秀不只是 Encoder-Decoder 机制，更主要的是它Multi-Header Attention机制。transformer架构完全依赖于Attention机制（注意力机制），解决了输入输出的长依赖问题，并且拥有并行计算的能力（Multi-head），大大减少了计算时间。self-attention模块，让源序列和目标序列首先“自关联”起来，这样的话，源序列和目标序列自身的Embedding（单词嵌入）表示所蕴含的信息更加丰富，而且后续的FFN（前馈网络）层也增强了模型的表达能力。Muti-Head Attention模块使得Encoder端拥有并行计算的能力。

Transformer对比RNN和LSTM具有并行计算,计算速度更快，学习长期依赖更好,不易出现梯度消失问题，训练更加稳定,不易出现梯度爆炸问题，参数更少,空间复杂度和计算复杂度更低，无需在输入输出序列添加特殊标记等优点，所以是一个非常优秀的神经网络模型。

Transformer 既可以看作一种模型,也可以看作一种架构。如果从具体的模型实现来看,如BERT,GPT等等,这些都是基于Transformer架构设计的独立的模型,用于不同的自然语言处理任务,可以看作是各种模型。但如果从更高的层面来理解,Transformer本质上提出了一种基于注意力机制的encoder-decoder框架或架构。这个架构中的主要组件,如多头注意力机制、位置编码、残差连接以及前馈神经网络都是通用的构建块。

所以,从这个意义上讲,Transformer更像是一种统一的架构或框架。研究人员可以基于这个架构,通过选择不同的训练语料或任务,设计出用于不同目的的变体模型,如:

- BERT:通过自监督的方式,在大规模语料上预训练得到的Transformer模型,用于语言理解。

- GPT:通过自我监督学习在大规模语料上预训练得到的Transformer模型,用于语言生成。

- Transformer-Align:用于序列对齐任务的Transformer模型。

- Graph Transformer:用于处理图数据的Transformer模型。

所以,总的来说,我的理解是:Transformer提出的是一个通用的注意力为基础的神经网络架构,而各种基于该架构设计的模型,如BERT,GPT等则可以看作是该架构的具体实例。这些具体的实例模型通过选择不同的数据集以及训练目标,可以完成不同的自然语言处理任务。

总结

Transformer模型的主要优点如下:

1. 并行计算。Transformer可以并行计算所有时间步,计算速度很快,这是其相比RNN和LSTM的最大优势。

2. 学习长期依赖。Transformer通过Attention机制可以直接建模任意两个时间步之间的依赖关系,可以很好地学习长期依赖,不容易出现梯度消失问题。

3. 训练更稳定。Transformer的非循环结构使其训练过程更加稳定,不容易出现梯度爆炸问题,参数选择也更加灵活。

4. 参数更少。相比RNN和LSTM,Transformer需要的参数更少,尤其在更长序列的任务中参数量的差距更加明显。

5. 无需标定的输入输出。Transformer无需在序列两端添加特殊的开始和结束标记。

Transformer主要缺点如下:

1. Transformer contains no recurrence. 形式上Transformer没有循环结构,丢失了RNN的一些特征。例如,Transformer无法很好地建模周期时间序列。

2. Transformer可能不适合较短序列。对于较短的序列,Transformer的参数相对较多,并不一定优于RNN和LSTM。

3. 计算复杂度较高。Transformer中的Attention计算成本比较大,在一些计算资源受限的情况下可能会出现瓶颈。

4. 缺乏韵律和时域信息。Transformer不像RNN和LSTM中包含循环结构和隐状态,无法很好地建模时域和韵律信息。

总体来说,Transformer的主要优势在于并行计算、学习长期依赖以及训练稳定性,但也存在一定的缺点,如无循环结构、处理短序列时效果可能不佳、计算复杂度高以及建模时域和韵律信息的能力较弱等。选用什么样的模型还需要根据具体任务的需求和数据特征进行权衡。

本文概要的了解了一下Transformer的整个发展历程，以及在Transformer中占据主导地位的Attention注意力机制的基本自然界面和深度学习中的工作原理。

希望能够稍微对Transformer模型有个印象和好感，了解这个神器背后的基本自然规律。

取代你的不是AI，而是比你更了解AI和更会使用AI的人！

##End##

想关注更多技术信息，可以关注"黑夜路人技术” 公众号

你可能感兴趣的:(chatgpt,transformer,人工智能,ai,AIGC)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，