Mark_Aussie

Attention 理解汇总

在 Encoder-Decoder中，预测每个Decoder 的语义编码 c 是一样的，句子 X 中每个词对输出 Y 的每个词的影响都是相同的。

这样有两个弊端：

一是语义向量无法完全表示整个序列的信息；

二是先输入的内容携带的信息会被后输入的信息稀释掉，输入序列越长越严重，解码时就没有获得输入序列足够的信息，解码准确度也就不会太好。

比如输入的是英文句子：Tom chase Jerry，Encoder-Decoder框架逐步生成中文单词：“汤姆”，“追逐”，“杰瑞”。在没加入Attention Model之前，生成的语义编码C是一致的，而加入之后，对应的语义编码可能如下：

f2 代表 Encoder 对输入词的某种变换函数，如 Encoder 使用RNN，f2 就是某个时刻输入 xi 后隐层节点状态值；g 代表 Encoder 根据单词的中间表示合成整个句子中间语义表示的变换函数；

一般 g 函数就是对构成元素加权求和：

例如 Ci 中 i 是“汤姆”，Tx 就是3(输入句子的长度)，h1 = f(“Tom”)，h2 = f(“Chase”)，h3 = f(“Jerry”)，对应注意力模型权值是0.6, 0.2, 0.2，g 函数就是个加权求和函数。

Attention在RNN中相当于给每个cell的时刻分配权重(特征抽取)

Attention在seq2seq中的原理计算

计算 decoder 的St-1状态与 encoder 的h1，h2...hT的关联性，使用 a(St-1, h1)...a(St-1, hT) 表示

a(St-1, h1) = exp(score(St-1, h1)) / sum(exp(score(St-1, h1)...exp(score(St-1, hT)))

score 的三种计算方式：Dot是向量内积，General是通过Wa参数矩阵计算；hs对应的是 St-1

ct 和 ht 拼接后导致shape变化，使用 Wc 恢复 shape；

这里的 Attention 是基于source 端和 target 端的隐变量（hidden state）计算 Attention 值，结果是源端（source端）的每个词与目标端（target端）每个词之间的依赖关系；这是不同于self-attention的。

Attention 计算公式：

hj ：Encoder 隐层第 j 时刻输出，si−1 是Decoder 第 i−1 时刻隐层的输出。

计算 ci 实际是个线性模型，而 ci 是Encoder层中各时刻隐层的输出的加权平均值。

小结：上述解决方法是对于每个Decoder输出都加权Encoder的信息，以Tom chase Jerry，Encoder-Decoder “汤姆”，“追逐”，“杰瑞”为例子，不计算起止符号，输出为3个单元，输入为3个单元。有时输入单元与输出数目会不一致，这里我们假设输入为X，m个，输出为Y，n个。对于每个yj都会综合所有x的信息共m个，同时m个X的信息权重之和为1（因为每个yj由X决定）。一共有n个y，所以有n组，n*m个权重要计算。

Self-attention 分别在source端和target端进行自身的attention 值计算，仅与 source input或者target input 自身相关的 Self -Attention，捕捉source端或target端自身的词与词之间的依赖关系；再把source端的得到的self -Attention加入到target端得到的Attention中，称作为Cross-Attention，以捕捉source端和target端词与词之间的依赖关系。

self -Attention比之前的 Attention 机制效果好，主要是传统的Attention机制忽略了源端或目标端句子中词与词之间的依赖关系，self-attention 不仅可以得到源端与目标端词与词之间的依赖关系，同时还可以有效获取源端或目标端自身词与词之间的依赖关系。

self-attention 中的 Q、K、V 单词以词向量输入，

先经过线性变换一般维度变小，而且参数W不共享

Q作为搜索词与句子中所有词K计算attention score，

单头的attention输出softmax(Q * KT / sqrt(dk)) * V

解析self-attention计算过程：动手推导Self-attention-译文 - 知乎

self-attention 模块输入为 n, 输出也为 n。self-attention 允许输入彼此之间进行交互并找出应更多关注的区域(“Attention”)。输出是这些交互作用和注意力得分的总和。

self-attention中的position向量计算

pos为token在序列中的位置号码，取值是 0 到序列最大长度 max_que_length - 1 间的整数。

如序列 “[cls] 我爱中华 [sep]” 是 6 个token组成的序列，[cls]的pos值为0，“我”的pos值为1，“爱”的pos为2，“中”为3，“华”为4，'[sep]'为5 。bert base 最大长度 max_que_length 是512，pos取值到511，如果序列真实长度小于最大长度时，后面的位置号没有意义，最终会被mask掉。

dmodel 是位置向量的维度，与整个模型的隐藏状态维度值相同，在 bert base 模型里设置为768。

i 是从0到dmodel/2-1之间的整数值，即0，1，2，... 383

2i 是指向量维度中偶数维，即第0维，第2维，第4维，直到第766维。

2i + 1 是维度中奇数维，即第1维，第3维，第5维，直到第767维。

PE矩阵行数是最大序列长度max_que_length，列数为 dmodel，

shape = [max_que_length，dmodel]

PE(pos, 2i)是 PE 矩阵中第 pos 行，第2i列的数值，是标量，偶数列用正玄函数计算。

PE(pos,2i +1) 是PE矩阵中第 pos 行，第2i +1列的数值，是标量，奇数列用余玄函数计算。

以序列 “[cls] 我爱中华 [sep]” 为例，计算序列中 "我" 的位置向量，有768维，以前面4维的值和最后2维做为例。"我" 的 pos 值是1，当 i = 0 时，2i 表示第0维，2i+1表示第1维，dmodel=768。

PE(1,0）= sin(1 / (10000)^(0/768)) = sin(1/1) = sin(1) = 0.84

PE(1,1) = cos(1 / (10000)^(0/768)) = cos(1/1)=cos(1) = 0.54

再看当i=1时的第2维和第3维

PE(1,2) = sin(1 / (10000 ^ (2 / 768))) = sin(1 / (10000 ^ (1 / 384))) = sin(1 / 1.02) = 0.83

PE(1,3) = cos(1 / (10000 ^ (2 / 768))) = cos(1 / 1.02) = 0.56

再看最后两维的情况，i = 383：

PE(1,766) = sin(1 / (10000 ^ (766/768))) = sin(1 / 9763.00) = 0.00

PE(1,767) = cos(1 / (10000 ^ (766/768))) = cos(1 / 9763.00) = 1.00

当位置号pos不断增大时，如第 0 维的变化。三角函数是关于 2 倍圆周率 Pi 的周期函数，所以把数值转为 Pi 的倍数，三角函数是周期函数，随着位置号的增加，相同维度的值周期性变化。

P(1,0)=sin(1)=sin(0.31Pi)

P(2,0)=sin(2)=sin(0.64Pi)

P(3,0)=sin(3)=sin(0.96Pi)

P(6,0)=sin(6)=sin(1.91Pi)

P(7,0)=sin(7)=sin(2.23Pi)=sin(0.23Pi)

P(8,0)=sin(8)=sin(2.54Pi)=sin(0.54Pi)

三角函数性质：sin(a+b) = sin(a) * cos(b) + cos(a) * sin(b)；

cos(a+b) = cos(a) * cos(b) - sin(a) * sin(b)；

两个位置向量的点积与两个位置差值（即相对位置）有关，与绝对位置无关。这个性质使得在计算注意力权重的时候(两个向量做点积)，使得相对位置对注意力发生影响，而绝对位置变化不会对注意力有任何影响，这更符合常理。

如 ”我爱中华“，”华“ 与 ”中“ 相对位置为1，华与中的相关性程度取决于相对位置值1。如果这句话前面还有其他字符，华和中两个字的绝对位置会变化，此变化不影响到中华这两个字的相关程度。

缺陷：相对位置没有正负之分，比如"华"在"中"的后面，对于"中"字，"华"相对位置值应该是1，而"爱"在"中"的前面，相对位置仍然是1，无法区分到底是前面的还是后面的。

transformer的位置向量还有一种生成方式是可训练位置向量。即随机初始化一个向量，然后由模型自动训练出最可能的向量。transformer的作者指出这种可训练向量方式的效果与正玄余玄编码方式的效果差不多，bert 中采用的是可训练向量方式。

不考虑seq2seq模型，单独思考Attention；将Source中的构成元素当成是由一系列数据对构成，给定Target中的某个元素Query，计算Query和各个Key的相似性或者相关性，Key对应Value的权重系数，对Value加权求和，即Attention值。所以Attention是对Source中元素的Value值加权求和，Query和Key用来计算对应Value的权重系数；当K=V=P的时候，就是Self-Attention。

Key和Value 指向同一个东西，即输入句子中每个单词对应的语义编码。

Attention值计算的三个阶段：

阶段1可使用不同函数计算，根据Query和某个计算相似性或者相关性，

常用方法：求两者向量点积、求两者的向量Cosine相似性或引入额外的神经网络来求值。

Attention 计算公式的解释：有两个句子，现需要对比两个句子；于是第一个句子用矩阵 Q 表示出来，第二个句子用矩阵 K 和矩阵 V 表示出来；计算的时候先用 Q 和 K 点积，再用 softmax 激活，得到两个句子的相似性，值的大小代表把注意力放在 V 不同位置的值；结果乘 V 得到最终提取到的特征。

Self Attention可捕获同一个句子中单词之间的一些句法特征，其核心就是使用句子中的其他词汇增强目标词汇的语义表示。

RNN或者LSTM，需要依次序序列计算，对于远距离的相互依赖的特征，要经过若干时间步步骤的信息累积才能将两者联系起来，距离越远，有效捕获的可能性越小。

Self Attention会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来，这样远距离依赖特征之间的距离被极大缩短，可有效地利用这些特征。此外Self Attention也增加计算的并行性。

Self Attention 让Value充当Query，表示某单词自身与此句子其他单词的关联权重。可以增强句子中长距离的依赖关系（解决了RNN的长时间依赖问题）。

对Query、Key、Value的理解：

例如：Source：我是中国人；Target: I am Chinese

翻译的目标单词为 I 时，I 就是Query；

Source中的词都是 Key；计算每个 Key与Query的相似度，再用softmax归一化；

Value是Source中的词经过神经网络输出的vector；如使用RNN，Value就是对应的状态向量，即key与value相同；

小结：Encoder-Decoder中，Attention的 target 来自Decoder的词，source 是encoder输入句子；

self-attention 中target 和source都来自相同句子。

Keras中没有定义Attention层，需要自定义；Keras实现一个Layer 实现三个方法即可:

build(input_shape): 定义权重。必须设 self.built = True，调用 super([Layer], self).build() 完成。

call(x): 编写层的功能逻辑。只需关注传入 call 的第一个参数：输入张量，除非需要支持masking。

compute_output_shape(input_shape): 如果层更改了输入张量的形状，在这里定义形状变化的逻辑，这让Keras能够自动推断各层的形状。

import keras.backend as K
class AttentionWeightedAverage(Layer):
    """
    Computes a weighted average of the different channels across timesteps.
    Uses 1 parameter pr. channel to compute the attention value for a single timestep.
    """

    def __init__(self, return_attention=False, **kwargs):
        self.init = initializers.get('uniform')
        self.supports_masking = True
        self.return_attention = return_attention
        super(AttentionWeightedAverage, self).__init__(**kwargs)

    def build(self, input_shape):
        self.input_spec = [InputSpec(ndim=3)]
        assert len(input_shape) == 3

        self.W = self.add_weight(shape=(input_shape[2], 1),
                                 name='{}_W'.format(self.name),
                                 initializer=self.init)
        self.trainable_weights = [self.W]
        super(AttentionWeightedAverage, self).build(input_shape)

    def call(self, x, mask=None):
        # computes a probability distribution over the timesteps
        # uses 'max trick' for numerical stability
        # reshape is done to avoid issue with Tensorflow
        # and 1-dimensional weights
        logits = K.dot(x, self.W)
        x_shape = K.shape(x)
        logits = K.reshape(logits, (x_shape[0], x_shape[1]))
        ai = K.exp(logits - K.max(logits, axis=-1, keepdims=True))

        # masked timesteps have zero weight
        if mask is not None:
            mask = K.cast(mask, K.floatx())
            ai = ai * mask
        att_weights = ai / (K.sum(ai, axis=1, keepdims=True) + K.epsilon())
        weighted_input = x * K.expand_dims(att_weights)
        result = K.sum(weighted_input, axis=1)
        if self.return_attention:
            return [result, att_weights]

Multi-Head-Attention:

依旧是encoder-decoder的结构，只是使用self-attention替换了CNN和RNN；

编码器由一个多头attention子层和一个前馈神经网络子层组成，整个编码器栈式搭建了N个块。

解码器中多了一个多头attention层，为优化深度网络，整个网络使用残差连接和对层规范化处理（Add&Norm）。

当输入序列长度 n 小于 embedding 维度 d 时，每一层的时间复杂度 self-attention 是比较有优势的。当 n 比较大时，每个词不是和所有词计算attention，而只与限制的 r 个词去计算attention；并行方面，多头attention和CNN一样不依赖于前一时刻的计算，可以很好的并行，优于RNN。在长距离依赖上，由于 self-attention 是每个词和所有词都要计算 attention 值，所以不管中间有多长距离，最大的路径长度也都只是1，可以捕获长距离依赖关系。

Self-Attention 的应用：Attention 机制一般用于RNN，主要思想是引入一个外部的权重得分值，对RNN每个时刻Cell的输出做一个重要度打分。由于RNN本质上还是一个特征抽取的过程，所以Attention机制的目标是帮助自动找出RNN的哪个时刻Cell的输出是强特，如果是RNN的输入是一个句子，则Attention机制能够找到哪个词是比较关键的词，Attention机制使模型做任务时将注意力集中在对任务有帮助的的重要的特征上面。

Attention 机制包含一个Query，一个Key和一个Value，Key和Value 向量是对映的，如果是文本任务，Key 和 Value 表示的是同一句话（可能只是表示方式不同，通过了不同的参数进行特征变换），Query 和 Key 通过某种运算得到权重分值，获得 Value 中重要的特征做任务。

将Query和Key 经过某种数学运算的结果通过softmax激活函数激活可以得到权重得分值 at，Query 和 Key 在不同的任务中可以是不同东西。

在基于aspect 的情感分析中，Query 指的是 aspect，Key指的是句子；
在阅读理解任务中 Query指的是问题，Key指的是文档；
在文本分类任务中，Query 和 Key 指同一个句子，即self-attention。

将权重得分值 at 和 Value 加权求和或者加权平均，得到最终的特征表示。Value 和Key 指代的东西几乎一样，只不过表示方式不同（可能通过了不同的参数进行特征变换）。

在基于aspect 的情感分析中，Value指的是句子；
在阅读理解任务中Value指的是文档；
而在简单的文本分类任务中，Value依然指的是句子。

参考：

完全解析RNN, Seq2Seq, Attention注意力机制 - 知乎

Attention机制详解（一）——Seq2Seq中的Attention - 知乎

一文彻底搞懂attention机制 - 光彩照人 - 博客园

Attention机制详解（二）——Self-Attention与Transformer - 知乎 (zhihu.com)

Attention机制详解（三）——Attention模型的应用 - 知乎

基于keras的MultiAttention实现及实例 - 知乎

自然语言处理中的自注意力机制（Self-attention Mechanism） - robert_ai - 博客园

transformer 模型（self-attention自注意力）_ChihkAnchor的博客-CSDN博客_self-attention

浅谈对Attention机制的理解及Keras实现_林大大zzz的博客-CSDN博客_attention keras

[深度概念]·Attention机制实践解读_简明AI工作室-CSDN博客_attention解读

超细节！从源代码剖析Self-Attention知识点 (360doc.com)

通俗理解注意力机制中的Q、K和V表示的具体含义 - 简书 (jianshu.com)

第五课第四周笔记3：Multi-Head Attention多头注意力 - xingye_z - 博客园(多头的过程)

The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time. (jalammar.github.io)transformer模型中的多头attention机制_NeilGY的博客-CSDN博客_多头attention

5分钟理解transformer模型位置编码_u013853733的博客-CSDN博客

一种超级简单的Self-Attention ——keras 实战 - 简书

Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
使用LangChain与Together AI模型交互：深入探讨和实践指南 llzwxh888 langchain 人工智能交互 python
使用LangChain与TogetherAI模型交互：深入探讨和实践指南1.引言在人工智能和自然语言处理领域，TogetherAI已经成为一个强大的平台，提供了对50多个领先开源模型的访问。本文将深入探讨如何使用LangChain与TogetherAI模型进行交互，为开发者提供实用的知识和见解，同时解决可能遇到的常见问题。2.TogetherAI简介TogetherAI是一个强大的API平台，允许
OpenLM: 一个灵活的开源大语言模型接口工具 llzwxh888 语言模型人工智能自然语言处理 python
OpenLM:一个灵活的开源大语言模型接口工具引言在人工智能和自然语言处理快速发展的今天，大语言模型(LLM)已经成为许多应用的核心。然而，不同的LLM提供商往往有着各自的API和使用方式，这给开发者带来了一定的挑战。本文将介绍OpenLM，这是一个零依赖、兼容OpenAIAPI的LLM提供者接口，它可以直接通过HTTP调用不同的推理端点。我们将深入探讨OpenLM的特性、使用方法，以及如何将其与
使用中专API实现AI模型调用与部署 llzwxh888 人工智能 easyui 前端 python
在AI技术领域，如何调用和部署大语言模型（LLM）是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip，实现对OpenAI大模型的调用与部署，并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展，大语言模型在自然语言处理任务中的表现尤为突出。然而，由于国内访问海外API存在一定限制，本文将使用中专API地址来解决这一问题，并展示如何在本地环境中配
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

Attention 理解汇总

你可能感兴趣的:(nlp,自然语言处理)