littlely_ll

神经网络机器翻译总结

神经网络机器翻译(Neural Machine Translation, NMT)是最近几年提出来的一种机器翻译方法。相比于传统的统计机器翻译（SMT）而言，NMT能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列，这在翻译、对话和文字概括方面能够获得非常好的表现。NMT其实是一个encoder-decoder系统，encoder把源语言序列进行编码，并提取源语言中信息，通过decoder再把这种信息转换到另一种语言即目标语言中来，从而完成对语言的翻译。

神经网络的seq2seq学习

序列对序列的学习，顾名思义，假设有一个中文句子“我也爱你”和一个对应英文句子“I love you too”，那么序列的输入就是“我也爱你”，而序列的输出就是“I love you too”，从而对这个序列对进行训练。对于深度学习而言，如果要学习一个序列，一个重要的困难就是这个序列的长度是变化的，而深度学习的输入和输出的维度一般是固定的，不过，有了RNN结构，这个问题就可以解决了，一般在应用的时候encoder和decoder使用的是LSTM或GRU结构。

如上图，输入一个句子ABC以及句子的终结符号< EOS>，输出的结果为XYZ及终结符号< EOS>。在encoder中，每一时间步输入一个单词直到输入终结符为止，然后由encoder的最后一个隐藏层 ht 作为decoder的输入，在decoder中，最初的输入为encoder的最后一个隐藏层，输出为目标序列词X，然后把该隐藏层以及它的输出X作为下一时间步的输入来生成目标序列中第二个词Y，这样依次进行直到< EOS>。下面看它详细的模型。
给定一个输入序列 (x1,⋯,xT) ，经过下面的方程迭代生成输出序列 (y1,⋯,yT′) ：

h t = f (W h x x t + W h h h t - 1) y t = W y h h t (1)

其中，

Whx W h x 为输入到隐藏层的权重，

Whh W h h 为隐藏层到隐藏层的权重，

ht h t 为隐藏结点，

Wyh W y h 为隐藏层到输出的权重。
在这个结构中，我们的目标是估计条件概率

p(y1,⋯,yT′|x1,⋯,xT) p ( y 1 , ⋯ , y T ′ | x 1 , ⋯ , x T ) ，首先通过encoder的最后一个隐藏层获得

(x1,⋯,xT) ( x 1 , ⋯ , x T ) 的固定维度的向量表示

v v ，然后通过decoder进行计算

y1,⋯,yT′ y 1 , ⋯ , y T ′ 的概率，这里的初始隐藏层设置为向量

v v ：

p (y 1, \dots, y T' | x 1, \dots, x T) = Π T' t = 1 p (y t | v, y 1, \dots, y t - 1) (2)

在这个方程中，每个

p(yt|v,y1,⋯,yt−1) p ( y t | v , y 1 , ⋯ , y t − 1 ) 为一个softmax函数。
Sutskever等人在实际建模中有三点与上述描述不同：
1. 使用两个LSTM模型，一个是用于encoder的，另一个用于decoder
2. 由于深层模型比浅层模型表现要好，所以使用了4层LSTM结构
3. 对输入序列进行翻转，即由原来的输入ABC变成CBA。假设目标语言是XYZ，则LSTM把CBA映射为XYZ，之所以这样做是因为A在位置上与X相近，B、C分别于Y、Z相近，实际上使用了短期依赖，这样易于优化

带注意力机制的seq2seq学习

Bahdanau等人在Sutskever研究的基础上又提出了注意力机制，这种机制的主要作用就是在预测一个目标词汇的时候，它会自动的查找源语言序列中哪一部分与它相对应，并且在后续的查找生词中可以直接复制相对应的源语言词，这在后面再讲。

Encoder

Bahdanau等人使用的encoder是一个双向RNN（bi-directional RNN），双向RNN有前向和后向RNN组成，前向RNN f→ 正向读取输入序列（从 x1 到 xT ），并计算前向隐藏层状态 (h1→,⋯,hT−→) ,而后向RNN f← 从反向读取输入序列（从 xT 到 x1 ），并计算反向隐藏状态 (h1←,⋯,hT←−) 。对于每个单词 xj ，我们把它对应的前向隐藏状态向量 hj→ 和后向隐藏状态向量 hj← 拼接起来来表示对 xj 的注解（annotation,就还是个隐藏向量呗），例如 hj=[hj→;hj←] ，这样，注解 hj 就包含了所有词的信息。由于RNN对最近的输入表达较好，所以注解 hj 主要反映了 xj 周围的信息。

Decoder

在这个新的结构中，定义条件概率：

p (y) = Π T' t = 1 p (y t | {y 1, \dots, y t - 1}, c) p (y t | {y 1, \dots, y t - 1}, c) = g (y t - 1, s t, c) (3)

其中，

g g 为非线性函数，

st s t 是decoder的隐藏状态，

c c 是由encoder的隐藏序列产生的上下文向量，这个具体是什么等一会说。
把（3）式的条件概率写为：

p (y i | y 1, \dots, y i - 1, x) = g (y i - 1, s i, c i) (4)

其中，

si s i 是时间步

i i 的隐藏状态，可由下式来计算：

si=f(si−1,yi−1,ci) s i = f ( s i − 1 , y i − 1 , c i )
下面来说说这个

ci c i 是怎么出来的。上下文向量

ci c i 依赖于一系列的注解

(h1,⋯,hT) ( h 1 , ⋯ , h T ) ，这些注解上面我们已经讲过。上下文向量是由这些注解

hj h j 加权求和算出来的：

c i = Σ T j = 1 α i j h j (5)

每个注解

hj h j 的权重

αij α i j 由下式计算：

α i j = e x p ( e i j ) Σ T k = 1 e x p ( e i k ) (6)

其中，

eij=a(si−1,hj) e i j = a ( s i − 1 , h j ) 为对位模型(alignment model)，由于它计算位置

j j 周围的输入与位置

i i 的输出相匹配的得分，所以又称为得分函数。而向量

αi=(αi1,αi2,⋯,αiT) α i = ( α i 1 , α i 2 , ⋯ , α i T ) 为注意力向量，又为词对位向量。
整个过程的图示如下：

训练

训练集WMT’14 英语-法语，字典30000常用词，不在字典中的生词用[unk]表示，没有改变大小写，没有进行词干化。

两个模型，一个RNN encoder-decoder模型（RNNencdec），另一个为建议模型（RNNsearch），训练两次，一次句子长度最大30，另一次最大50

RNNencdec的encoder和decoder各有1000个隐藏单元。RNNsearch的encoder前后向RNN各1000隐藏单元，decoder1000个隐藏单元

输出使用maxout函数，L2正则化损失函数

带有Adadelta( ϵ=10−6,ρ=095 )的minbatch SGD，min-batch=80

Bahdanau与Sutskever的几点不同：
1. 在结构上，Sutskever使用了单向的RNN，而Bahdanau使用了双向的RNN
2. Sutskever使用了encoder的最后一个隐藏状态来作为decoder的输入并且后续的过程中不再把decoder的隐藏层作为下一时间步的输入，而Bahdanau使用了所有的encoder的隐藏状态并经过注意力机制与decoder的隐藏层一起作为decoder的初始输入，并且在后续中前一decoder的隐藏层和输出作为下一时间步的输入
3. Bahdanau加入了注意力机制，获得了注意力向量 αi=(αi1,αi2,⋯,αiT)

注意力机制的改进

在Bahdanau提出注意力机制后不久，Luong又在其基础上把注意力机制分为全局注意力(globale attention)机制和局部注意力(local attention)机制。简单的来说，是使用全部的encoder的隐藏层还是部分。要进行预测，首先还是要获得这个上下文向量 ct ，这个上下文向量用来捕获源语言的相关信息来预测目标词 yt ，然后把decoder的隐藏状态 st 与这个上下文向量 ct 拼接起来通过非线性函数产生注意力隐藏状态(attentional hidden state)：

h t ~ = t a n h (W c [c t; s t]) (7)

最后，使用softmax函数进行预测：

p (y t | y < t, x) = s o f t m a x (W s h t ~) (8)

现在的重点还是怎么获得上下文向量

ct c t 。

Global Attention

其实global attention与Bahdanau的一样，都是使用了全部的encoder的隐藏状态。在模型中，注意力向量 αt=(αt1,αt2,⋯,αtT) ，每一个 αtj=exp(etj)ΣTk=1exp(etk) ，而

e t j = ⎧ ⎩ ⎨ ⎪ ⎪ s' t h j, s' t W α h j, v' α t a n h (W α [s t; h j]), d o t g e n e r a l c o n c a t (9)

其中，

etj e t j 就是上面所说的对应模型，也是得分函数，而

s′t s t ′ 为decoder第t时间步隐藏层状态的转置，

hj h j 为encoder的第

j j 时间步的隐藏状态，

Wα,vα W α , v α 是可训练参数。
最后算出

ct c t :

c t = Σ T j = 1 α t j h j

（这里注意一点，不要认为计算 etj 的时候应该用 st−1 ，因为这个模型在计算计算 st 的时候没有用到 ct ，要与Bahdanau的相区别）
global attention的图示如下：

Local Attention

Local attention就是选择一个较小的上下文向量窗口，具体来说，模型在时间步 t 首先为每个目标词产生一个对应位置 pt ，而这个 ct 就是在这个对应位置上下文窗口 [pt−D,pt+D] 中encoder的隐藏状态的加权平均，这个 D 是自己选择的（如果这个窗口到达了句子的边界，那么只考虑在窗口中词，忽略其他部分）。不同于global attention的 αt ，local attention的 αt 是一个固定维度的向量,即 ∈R2D+1 。而local attention又有两个变体：
1. Monotonic alignment（local-m），即认为目标序列与源序列是单调对应的，所以设置 pt=t ，然后计算 αt
2. Predictive alignment（local-p），此方法是预测一个对应位置：

p t = L * s i g m o i d (v' p t a n h (W p s t)) (10)

其中，

Wp和vp W p 和 v p 是预测未知的参数，可用梯度下降法计算，

L L 为源语言句子的长度，

pt∈[0,L] p t ∈ [ 0 , L ] 。然后Luong使用了一个高斯分布来修正词对位权重

αt α t ：

α t = : α t e x p (- ( x - p t ) 2 2 σ 2)

其中，设置的标准差为

σ=D/2 σ = D / 2 ，注意，

pt p t 是一个实数，而

x x 是以

pt p t 为中心窗口内的整数。
具体的local attention结构表示图如下：

Input-feeding方法

其实这一步与Bahdanau的方法一样，是把最后的注意力隐藏状态 ht~ 与输出拼接后作为下一时间步的输入，这样模型能有效获得前面的对位信息，图示如下：

训练

Luong的训练使用的是WMT’14训练集，两种语言字典大小50K，不在字典内的词用< unk>表示

过滤掉超过50字的句子并进行混洗

4层LSTM，每层1000个cell，1000维度的词向量

参数使用均匀分布[-0.1,0.1]初始化

使用SGD训练10轮

首先用学习率1开始，5轮后，每轮对学习率减半

min-batch大小为128

dropout=0.2，使用dropout时，进行12轮，8轮后每轮对学习率减半

对于local attention模型，设置D为10

Luong与Bahdanau模型的不同之处：
1. 使用结构不同，Bahdanau使用双向RNN，而Luong又变为单向的RNN。
2. Luong在Bahdanau的基础上把注意力机制分为global attention和local attention方法
3. 在计算decoder的 st 的时候，Bahdanau使用了 st−1,yt−1,ct ，而Luong用了 st−1,yt−1,h~t−1 ，没有用 ct ，这在前面计算Luong的得分 etj 的时候也说了
4. 在计算输出概率的时候，Bahdanau是把上下文向量 ct 与decoder的隐藏状态 st 直接作为参数经过非线性变换得到概率 p(yt|y1,⋯,yt−1,x) ，而Luong是先把 ct 和 st 拼接在一起，经过非线性变换得到注意力隐藏向量 ht~ ，最后再经过softmax函数进行预测

神经网络机器翻译的几个问题

神经网络机器翻译相比于其他统计机器翻译有很多的优势，例如NMT需要很少的领域知识，整个系统可以一起优化以及占用内存较小等。尽管有很多优点，但还有一些其他问题困扰着NMT，例如目标词汇数量可能受到限制，这是由于训练的复杂性而引起的。实践中大多使用的目标词汇为30000至80000，其他生词用[UNK]表示，但如果翻译后的目标语言中有[UNK]怎么处理呢。对于这个问题一般有两种解法：一是仍然使用大的目标词汇字典，但可使用不同的方法提高运算效率，把最后的softmax改成别的函数，如NCE(Noise Contrastive Estimation)、Hierarchical softmax等；二是仍然使用有限的字典，不过是要处理翻译出的[UNK]，例如基于字符的方法，混合的方法等。本次主要讲两种方法，一种是使用大的目标字典的方法，另一种是解决输出[UNK]的方法。

基于大的目标字典的方法

Jean根据Bahdanau的模型使用了一个非常大的目标字典来训练NMT，但是由于输出的概率是使用softmax计算，如下式：

p (y t | y < t, x) = 1 Z e x p {w' t ϕ (y t - 1, s t, c t) + b t} (11)

而计算成本最高的就是softmax的正则化项

Z Z ，所以Jean在大目字典上提出了一种近似学习方法
首先考虑对（11）式求对数梯度：

▽ l o g p (y t | y < t, x) = ▽ ϵ (y t) - Σ k : y k \in V p (y k | y < t, x) ▽ ϵ (y k) (12)

其中，能量函数

ϵ(yj)=w′jϕ(yj−1,sj,cj)+bj ϵ ( y j ) = w j ′ ϕ ( y j − 1 , s j , c j ) + b j
公式（12）右边的第二项就是能量函数梯度的期望：

E P [▽ ϵ (y)] (13)

其中，

P P 表示为

p(y|y<t,x) p ( y | y < t , x )
现在是怎样估计或近似这个期望Jean使用了重要性抽样（importance sampling）方法，即找到一个提议分布（proposal distribution）

Q Q 和从提议分布中抽取的样本

Vs V s ，那么可由下式近似估计（13）式：

E P [▽ ϵ (y)] \approx Σ k : y k \in V s ω k Σ k ' : y k ' \in V s ω k ' [▽ ϵ (y k)] (14)

其中：

ω k = e x p {ϵ (y k) - l o g Q (y k)} (15)

在这里只是使用了一个目标字典的较小的一个子集

Vs V s 就能计算出正则项。但是怎么选择这个提议分布呢？首先Jean在实践中把训练语料进行分区，在训练前，对每个分区定义一个目标词汇子集

V′ V ′ ，然后顺序扫描句子，抽取不同的单词，直到到达一个阈值

τ=|V′| τ = | V ′ | ，这些句子就作为一个分区，而这个词汇子集就用于这个分区的训练，重复上述过程直到把训练目标句子分区完。假设第

i i 个分区用的目标词典为

V′i V i ′ ，对于每一个分区都对应一个

Qi Q i ，在

V′i V i ′ 内，每一个目标词都具有相同的概率，而不在

V′i V i ′ 内的概率为0：

Q i (y k) = {1 | V ' i | 0 i f y t \in V' i o t h e r w i s e (16)

而这个提议分布可以抵消（15）式的校正项

−logQ(yk) − l o g Q ( y k ) ，非常简单，我们来推导一下：

ω k = e x p {ϵ (y k) - l o g Q (y k)} = e x p {ϵ (y k) - l o g 1 | V ' i |} = e x p {ϵ (y k) + l o g | V' i |} = e x p {ϵ (y k) + l o g τ}

最后得到与（11）式近似的概率：

p (y t | y < t, x) = e x p { w ' t ϕ ( y t - 1 , s t , c t ) + b t } Σ k : y k \in V ' e x p { w ' k ϕ ( y t - 1 , s t , c t ) + b k } (17)

这里的

V′ V ′ 就是

V′i V i ′ ，注意，提议分布

Q Q 得到的估计式有偏的。

在解码的时候，我们可以使用整个目标字典，但是计算成本很大，一个自然地想法就是使用一部分目标字典而不是整个，Jean使用了一个候选列表（candidate list）构建字典子集，这个候选列表包括两部分：一部分是在训练集中使用词对位模型（Bahdanau模型， αij 越大，则第i个目标词与第j个源语言词对位的概率越大）对应源语言和目标语言的单词，并构建一个字典，根据这个字典，找到每个源语言句子的每个单词的前 K′ 个最相近的目标词；第二部分是对每一个源语言句子，构建一个由前 K 个最大频率词（可以根据一元模型计算）组成的目标词汇集（在这里每个句子的前 K 个最大频率词应该是一样的）。如下图表示：

处理[UNK]单词

不管是使用大的目标词字典还是小的目标词字典，总会有出现的生词，而在翻译中生词都是表示为[UNK]字符，这会造成信息的缺失，所以还原单词信息是翻译中非常重要的一步。
对于这种问题，Gulcehre认为要么是从源语言中直接复制单词过去要么是用模型进行解码生成单词。如下图所示：

他们把这两种方式整合到一个模型中去。所以他们提出了pointer softmax模型。
他们额模型仍然以Bahdanau为基础，对输出概率形式进行改进。Gulcehre的模型使用两种softmax，shortlist softmax和location softmax，前一种就是普通的softmax，每一维度对应一个字典中的词，后一种是每一个输出维度对应源语言序列一个单词的位置，然后把该单词复制过去。关键是怎么选择这两种softmax，Gulcehre使用的是一个开关网络，它输出的是一个二元变量 zt ，其表明是使用shortlist softmax（当 zt=1 ）还是使用location softmax（当 zt=0 ），如果时间步中期望产生的单词既不在字典中，也没有复制源语言句子的单词，那么开关网络就选择shortlist softmax，这样会产生一个[UNK]。整个示意图如下：

具体来说，给定一个输入序列 x=(x1,x2,⋯,xT) ，我们的目标就是最大化目标单词序列 y=(y1,y2,⋯,yT′) 和单词生成 z=(z1,z2,⋯,zT′) ：

p θ (y, z | x) = Π T' t = 1 p θ (y t, z t | y < t, z < t, x) (18)

其中，产生的

yt y t 可以是shortlist softmax产生的单词

wt w t ，也可以是location softmax产生的位置

lt l t （这个

lt l t 就是前面所说的词对应权重

αt α t ）。
把上式因式分解：

p (y, z | x) = Π t \in T w p (w t, z t | (y, z) < t, x) \times Π t' \in T l p (l t', z t' | (y, z) < t', x) (19)

其中，

Tw T w 是

zt=1 z t = 1 的时间步集合，

Tl T l 是

zt=0 z t = 0 的时间步集合，

Tw⋃Tl={1,2,⋯,T′} T w ⋃ T l = { 1 , 2 , ⋯ , T ′ } ，

Tw⋂Tl=∅ T w ⋂ T l = ∅
等式右边的概率可以分别表示如下：

p (w t, z t | (y, z) < t) = p (w t | z t, (y, z) < t) \times p (z t = 1 | (y, z) < t) (20)

p (l t, z t | (y, z) < t) = p (l t | z t = 0, (y, z) < t) \times p (z t = 0 | (y, z) < t) (21)

这里都省略了

x x ，其中，

p(wt|zt,(y,z)<t,x) p ( w t | z t , ( y , z ) < t , x ) 为shortlist softmax，

p(lt|zt=0,(y,z)<t) p ( l t | z t = 0 , ( y , z ) < t ) 为location softmax。而开关概率可以作为一个有二元输出的多层感知机：

p (z t = 1 | (y, z) < t, x) = σ (f (x, h t - 1; θ)) (22)

p (z t = 0 | (y, z) < t, x) = 1 - σ (f (x, h t - 1; θ)) (23)

其中，

σ σ 为sigmoid函数。
那么，给定

N N 个源语言句子和目标语言句子对，训练的目标就是最大化下式：

m a x 1 N Σ N n = 1 l o g p θ (y n, z n | x n) (24)

使用Google的一篇文章对它的评价作为结束：
this approach is both unreliable at scale — the attention mechanism is unstable when the network is deep — and copying may not always be the best strategy for rare words —sometimes transliteration is more appropriate

主要参考文献
【Ilya Sutskever, Oriol Vinyals, Quoc V. Le】Sequence to Sequence Learning with Neural Networks
【Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio】NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
【Minh-Thang Luong, Hieu Pham, Christopher D. Manning】Effective Approaches to Attention-based Neural Machine Translation
【S´ebastien Jean, Kyunghyun Cho, Roland Memisevic, Yoshua Bengio】On Using Very Large Target Vocabulary for Neural Machine Translation
【Caglar Gulcehre, Sungjin Ahn, Ramesh Nallapati, Bowen Zhou, Yoshua Bengio】Pointing the Unknown Words

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
使用LangChain与Together AI模型交互：深入探讨和实践指南 llzwxh888 langchain 人工智能交互 python
使用LangChain与TogetherAI模型交互：深入探讨和实践指南1.引言在人工智能和自然语言处理领域，TogetherAI已经成为一个强大的平台，提供了对50多个领先开源模型的访问。本文将深入探讨如何使用LangChain与TogetherAI模型进行交互，为开发者提供实用的知识和见解，同时解决可能遇到的常见问题。2.TogetherAI简介TogetherAI是一个强大的API平台，允许
OpenLM: 一个灵活的开源大语言模型接口工具 llzwxh888 语言模型人工智能自然语言处理 python
OpenLM:一个灵活的开源大语言模型接口工具引言在人工智能和自然语言处理快速发展的今天，大语言模型(LLM)已经成为许多应用的核心。然而，不同的LLM提供商往往有着各自的API和使用方式，这给开发者带来了一定的挑战。本文将介绍OpenLM，这是一个零依赖、兼容OpenAIAPI的LLM提供者接口，它可以直接通过HTTP调用不同的推理端点。我们将深入探讨OpenLM的特性、使用方法，以及如何将其与
使用中专API实现AI模型调用与部署 llzwxh888 人工智能 easyui 前端 python
在AI技术领域，如何调用和部署大语言模型（LLM）是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip，实现对OpenAI大模型的调用与部署，并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展，大语言模型在自然语言处理任务中的表现尤为突出。然而，由于国内访问海外API存在一定限制，本文将使用中专API地址来解决这一问题，并展示如何在本地环境中配
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
安装jina，并使用jina的向量化和重排序的功能 MonkeyKing.sun milvus numpy
为了在Python的FastAPI项目中使用Jina进行向量化和重排序，您需要按照以下步骤安装和使用Jina。1.安装Jina首先，确保您已经安装了Jina。可以使用pip来安装。pipinstalljina如果需要特定的功能模块，例如自然语言处理相关的向量化模型，可以通过JinaHub获取。pipinstalljina[hub]2.在FastAPI项目中集成Jina接下来，我们将Jina集成到F
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe