weixin_39677203

transformer模型_Transformer模型细节理解及Tensorflow实现

Transformer模型使用经典的Encoder-Decoder架构，在特征提取方面抛弃了传统的CNN、RNN，而完全基于Attention机制，在Attention机制上也引入了Self-Attention和Context-Attention，下面结合Transformer架构图和Tensorflow实现了解一下Transformer

一、Transformer架构简说

Transformer是Encoder-Decoder架构，因此先整体分为Encoder、Decoder两部分

Encoder由6个相同的层组成，每层包含如下两部分：

第一部分：Multi-Head Attention多头注意力层

第二部分：Feed Forward全连接层

以上两部分都包含Residual Connection残差连接、Add&Norm数据归一化

Decoder也有6个相同的层组成，每层包含如下三部分：

第一部分：Masked Multi-Head Attention 经Sequence Mask处理的多头注意力层

第二部分：Multi-Head Attention

第三部分：Feed Forward全连接层

以上两部分都包含Residual Connection残差连接、Add&Norm数据归一化

二、Transformer模型细节理解

1、Encoder部分的输入是Input Embedding + Positional Embedding，Decoder部分的输入是Output Embedding + Positional Embedding，在MachineTranslation任务中，Input Embedding对应了输入的待翻译文本，Output Embedding对应了翻译后的文本

2、Encoder部分的Multi-Head Attention是self attention，对应输入的Q,k,V均相同是Input Embedding + Positional Embwedding，Decoder部分的Masked Multi-Head

Attention是self attention，对应的Q,K,V相同都是Output Embedding + Positional

Embedding，Decoder部分的Multi-Head Attention是Context attention，其中K,V相同来自于Encoder的输出memory，Q来自于Docoder词层的OutputEmbedding + Positional Embedding

3、Attention区别

self-attention和context-attention划分的区别是Attention衡量的是一个序列对自身的Attention权重还是一个序列对另一个序列的Attention权重，self-attention即计算自身的Attention权重，而Context-attention计算的是Encoder序列对Decoder序列的Attention权重；

ScaledDot-Product Attention和Multi-Head Attention划分是根据Attention权重计算方式，除了这些还有多种Attention权重计算方式，如下图所示

这里简单说一下Transformer中使用的Scaled Dot-Product Attention和Multi-Head

Attention

ScaledDot-Product Attention：通过Q,K矩阵计算矩阵V的权重系数

Multi-HeadAttention：多头注意力是将Q,K,V通过一个线性映射成h个Q,K,V，然后每个都计算Scaled Dot-Product Attention，最后再合起来，Multi-HeadAttention目的还是对特征进行更全面的抽取

4、Residual Connection残差连接原理及作用，先通过下图认识一下残差连接

如上图网络某层对输入x作用后输出是F(x)，那么增加残差连接即是在原来F(x)上加上x,输出变成了F(x)+x，即+x操作即是残差连接，残差连接的作用是通过+x，在网络反向传播的时候会多出一个常数项1，防止梯度消失

5、masked区别

Transformer中有两种mask，一种是padding mask，一种是sequence mask

(1) Padding mask：每次批次输入序列的长度是不一样的，需要对序列进行对齐操作，具体做法以seq_length为标准，对大于seq_length的序列进行截断，对小于seq_length序列进行填充，但填充部分我们又不希望其被注意，因此填充部分为0，可以在填充位置加上一个负无穷大的数，这样经过softmax后便趋向于0

(2) Sequence mask：sequencemask是为了使得decodeer不能看到未来的解码信息，因为在transformer中，输出序列是训练的时候是全部一下子全部传入网络中的，不似RNN那种递归的形式，因此对于一个序列来说，在t时刻我们解码输出只应该依赖于t时刻之前的输出，而不应该看到t时刻之后的输出，如果看到了那就不需要解码了，因此我们需要将传入的解码数据进行sequence mask操作。具体操作是产生一个矩阵，矩阵的上三角全为1，对角线以及下三角全为0，再将该矩阵作用在Q,K产生的矩阵上便达到了对后续序列mask

在transformer中，Encoder中的Multi-Head Attention和Decoder中的Masked Multi-

HeadAttention以及Multi-Head Attention中都有Padding mask，Sequence mask只出现在Decoder的Masked Multi-Head Attention中

三、核心单元Tensorflow实现

下面通过Tensorflow中的代码看一下核心单元的具体实现，解释请看代码注释

1、Encoder

    def encode(self, xs, training=True):        '''        Returns        memory: encoder outputs. (N, T1, d_model)        '''        with tf.variable_scope("encoder", reuse=tf.AUTO_REUSE):            x, seqlens, sents1 = xs            # embedding: 计算word embedding和position embedding，使用word embedding+position embedding作为输入            enc = tf.nn.embedding_lookup(self.embeddings, x) # (N, T1, d_model)            enc *= self.hp.d_model**0.5 # scale            enc += positional_encoding(enc, self.hp.maxlen1)            # dropout防止过拟合处理            enc = tf.layers.dropout(enc, self.hp.dropout_rate, training=training)            # Blocks: num_blocks=6，Encoder部分叠加6层(multihead_attention+Feed Forward)            # 注意Encoder部分的attention是self attention，因此query,key,value都等于输入enc            # muultihead_attention函数参数num_heads=8，共计算八个attention            # causality=False表明此处对Attention的mask操作是padding mask            for i in range(self.hp.num_blocks):                with tf.variable_scope("num_blocks_{}".format(i), reuse=tf.AUTO_REUSE):                    # self-attention                    enc = multihead_attention(queries=enc,                                              keys=enc,                                              values=enc,                                              num_heads=self.hp.num_heads,                                              dropout_rate=self.hp.dropout_rate,                                              training=training,                                              causality=False)                    # feed forward: 前向传播                    enc = ff(enc, num_units=[self.hp.d_ff, self.hp.d_model])        memory = enc        return memory, sents1

2、Decoder

    def decode(self, ys, memory, training=True):        '''        memory: encoder outputs. (N, T1, d_model)        Returns        logits: (N, T2, V). float32.        y_hat: (N, T2). int32        y: (N, T2). int32        sents2: (N,). string.        '''        with tf.variable_scope("decoder", reuse=tf.AUTO_REUSE):            decoder_inputs, y, seqlens, sents2 = ys            # embedding: 和Encoder部分输入大体一致，也是word embedding+position embedding            dec = tf.nn.embedding_lookup(self.embeddings, decoder_inputs)  # (N, T2, d_model)            dec *= self.hp.d_model ** 0.5  # scale            dec += positional_encoding(dec, self.hp.maxlen2)            dec = tf.layers.dropout(dec, self.hp.dropout_rate, training=training)            # Blocks: num_blocks=6，Decoder部分叠加6层(Masked multihead attention+multihead_attention+Feed Forward)            # Masked multihead attention是self attention，因此query,key,value都等于输入enc            # num_heads=8，其中causality=True表明此处除了有padding mask还有sequence mask            # 第二个multihead attention部分是self attention，其中query=舒睿enc、key,value为Encoder部分输出memory            for i in range(self.hp.num_blocks):                with tf.variable_scope("num_blocks_{}".format(i), reuse=tf.AUTO_REUSE):                    # Masked self-attention (Note that causality is True at this time)                    dec = multihead_attention(queries=dec,                                              keys=dec,                                              values=dec,                                              num_heads=self.hp.num_heads,                                              dropout_rate=self.hp.dropout_rate,                                              training=training,                                              causality=True,                                              scope="self_attention")                    # Vanilla attention                    dec = multihead_attention(queries=dec,                                              keys=memory,                                              values=memory,                                              num_heads=self.hp.num_heads,                                              dropout_rate=self.hp.dropout_rate,                                              training=training,                                              causality=False,                                              scope="vanilla_attention")                    ### Feed Forward: 前向传播                    dec = ff(dec, num_units=[self.hp.d_ff, self.hp.d_model])        # Final linear projection (embedding weights are shared)        weights = tf.transpose(self.embeddings) # (d_model, vocab_size)        logits = tf.einsum('ntd,dk->ntk', dec, weights) # (N, T2, vocab_size)        y_hat = tf.to_int32(tf.argmax(logits, axis=-1))        return logits, y_hat, y, sents2

3、Multi-Head Attention

def multihead_attention(queries, keys, values,                        num_heads=8,                         dropout_rate=0,                        training=True,                        causality=False,                        scope="multihead_attention"):    '''Applies multihead attention. See 3.2.2    queries: A 3d tensor with shape of [N, T_q, d_model].    keys: A 3d tensor with shape of [N, T_k, d_model].    values: A 3d tensor with shape of [N, T_k, d_model].    num_heads: An int. Number of heads.    dropout_rate: A floating point number.    training: Boolean. Controller of mechanism for dropout.    causality: Boolean. If true, units that reference the future are masked.    scope: Optional scope for `variable_scope`.            Returns      A 3d tensor with shape of (N, T_q, C)      '''    d_model = queries.get_shape().as_list()[-1]    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):        # Linear projections: 在进行Scaled Dot-Product Attention前先对Q,K,V做一个线性变换        Q = tf.layers.dense(queries, d_model, use_bias=False) # (N, T_q, d_model)        K = tf.layers.dense(keys, d_model, use_bias=False) # (N, T_k, d_model)        V = tf.layers.dense(values, d_model, use_bias=False) # (N, T_k, d_model)        # Split and concat: 将8个multi-heads线性变换后的Q,K,V各自做concat操作        Q_ = tf.concat(tf.split(Q, num_heads, axis=2), axis=0) # (h*N, T_q, d_model/h)        K_ = tf.concat(tf.split(K, num_heads, axis=2), axis=0) # (h*N, T_k, d_model/h)        V_ = tf.concat(tf.split(V, num_heads, axis=2), axis=0) # (h*N, T_k, d_model/h)        # Attention: Scaled Dot-Product Attention操作，causality区别是否进行sequence mask        outputs = scaled_dot_product_attention(Q_, K_, V_, causality, dropout_rate, training)        # Restore shape: 对8个multi-heads输出attention结果做concat操作        outputs = tf.concat(tf.split(outputs, num_heads, axis=0), axis=2 ) # (N, T_q, d_model)                      # Residual connection: 残差连接操作        outputs += queries                      # Normalize: 归一化操作        outputs = ln(outputs)     return outputs

4、Scale-Dot-Product-Attention

def scaled_dot_product_attention(Q, K, V,                                 causality=False, dropout_rate=0.,                                 training=True,                                 scope="scaled_dot_product_attention"):    '''See 3.2.1.    Q: Packed queries. 3d tensor. [N, T_q, d_k].    K: Packed keys. 3d tensor. [N, T_k, d_k].    V: Packed values. 3d tensor. [N, T_k, d_v].    causality: If True, applies masking for future blinding    dropout_rate: A floating point number of [0, 1].    training: boolean for controlling droput    scope: Optional scope for `variable_scope`.    '''    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):        d_k = Q.get_shape().as_list()[-1]        # dot product        outputs = tf.matmul(Q, tf.transpose(K, [0, 2, 1]))  # (N, T_q, T_k)        # scale        outputs /= d_k ** 0.5        # key masking: 对Q,K,outputs做padding mask操作        outputs = mask(outputs, Q, K, type="key")        # causality or future blinding masking: 下面mask操作是sequence mask操作        if causality:            outputs = mask(outputs, type="future")        # softmax        outputs = tf.nn.softmax(outputs)        attention = tf.transpose(outputs, [0, 2, 1])        tf.summary.image("attention", tf.expand_dims(attention[:1], -1))        # query masking：最后对输出再做一次padding mask操作        outputs = mask(outputs, Q, K, type="query")        # dropout        outputs = tf.layers.dropout(outputs, rate=dropout_rate, training=training)        # weighted sum (context vectors)        outputs = tf.matmul(outputs, V)  # (N, T_q, d_v)    return outputs

5、Feed Forward

def ff(inputs, num_units, scope="positionwise_feedforward"):    '''position-wise feed forward net. See 3.3        inputs: A 3d tensor with shape of [N, T, C].    num_units: A list of two integers.    scope: Optional scope for `variable_scope`.    Returns:      A 3d tensor with the same shape and dtype as inputs    '''    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):        # Inner layer: 做两次前向传播全连接操作        outputs = tf.layers.dense(inputs, num_units[0], activation=tf.nn.relu)        # Outer layer        outputs = tf.layers.dense(outputs, num_units[1])        # Residual connection: 全连接层也做一次残差连接        outputs += inputs        # Normalize: 归一化操作        outputs = ln(outputs)

6、Positional Embedding

def positional_encoding(inputs,                        maxlen,                        masking=True,                        scope="positional_encoding"):    '''Sinusoidal Positional_Encoding. See 3.5    inputs: 3d tensor. (N, T, E)    maxlen: scalar. Must be >= T    masking: Boolean. If True, padding positions are set to zeros.    scope: Optional scope for `variable_scope`.    returns    3d tensor that has the same shape as inputs.    '''    E = inputs.get_shape().as_list()[-1] # static    N, T = tf.shape(inputs)[0], tf.shape(inputs)[1] # dynamic    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):        # position indices        position_ind = tf.tile(tf.expand_dims(tf.range(T), 0), [N, 1]) # (N, T)        # First part of the PE function: sin and cos argument        position_enc = np.array([            [pos / np.power(10000, (i-i%2)/E) for i in range(E)]            for pos in range(maxlen)])        # Second part, apply the cosine to even columns and sin to odds.        position_enc[:, 0::2] = np.sin(position_enc[:, 0::2])  # dim 2i        position_enc[:, 1::2] = np.cos(position_enc[:, 1::2])  # dim 2i+1        position_enc = tf.convert_to_tensor(position_enc, tf.float32) # (maxlen, E)        # lookup        outputs = tf.nn.embedding_lookup(position_enc, position_ind)        # masks        if masking:            outputs = tf.where(tf.equal(inputs, 0), inputs, outputs)        return tf.to_float(outputs)

7、Mask

def mask(inputs, queries=None, keys=None, type=None):    """Masks paddings on keys or queries to inputs    inputs: 3d tensor. (N, T_q, T_k)    queries: 3d tensor. (N, T_q, d)    keys: 3d tensor. (N, T_k, d)    e.g.,    >> queries = tf.constant([[[1.],                        [2.],                        [0.]]], tf.float32) # (1, 3, 1)    >> keys = tf.constant([[[4.],                     [0.]]], tf.float32)  # (1, 2, 1)    >> inputs = tf.constant([[[4., 0.],                               [8., 0.],                               [0., 0.]]], tf.float32)    >> mask(inputs, queries, keys, "key")    array([[[ 4.0000000e+00, -4.2949673e+09],        [ 8.0000000e+00, -4.2949673e+09],        [ 0.0000000e+00, -4.2949673e+09]]], dtype=float32)    >> inputs = tf.constant([[[1., 0.],                             [1., 0.],                              [1., 0.]]], tf.float32)    >> mask(inputs, queries, keys, "query")    array([[[1., 0.],        [1., 0.],        [0., 0.]]], dtype=float32)    """    padding_num = -2 ** 32 + 1    # 其中type=k/q都是padding mask,type=feature是sequence mask    if type in ("k", "key", "keys"):        # Generate masks        masks = tf.sign(tf.reduce_sum(tf.abs(keys), axis=-1))  # (N, T_k)        masks = tf.expand_dims(masks, 1) # (N, 1, T_k)        masks = tf.tile(masks, [1, tf.shape(queries)[1], 1])  # (N, T_q, T_k)        # Apply masks to inputs        paddings = tf.ones_like(inputs) * padding_num        outputs = tf.where(tf.equal(masks, 0), paddings, inputs)  # (N, T_q, T_k)    elif type in ("q", "query", "queries"):        # Generate masks        masks = tf.sign(tf.reduce_sum(tf.abs(queries), axis=-1))  # (N, T_q)        masks = tf.expand_dims(masks, -1)  # (N, T_q, 1)        masks = tf.tile(masks, [1, 1, tf.shape(keys)[1]])  # (N, T_q, T_k)        # Apply masks to inputs        outputs = inputs*masks    elif type in ("f", "future", "right"):        diag_vals = tf.ones_like(inputs[0, :, :])  # (T_q, T_k)        tril = tf.linalg.LinearOperatorLowerTriangular(diag_vals).to_dense()  # (T_q, T_k)        masks = tf.tile(tf.expand_dims(tril, 0), [tf.shape(inputs)[0], 1, 1])  # (N, T_q, T_k)        paddings = tf.ones_like(masks) * padding_num        outputs = tf.where(tf.equal(masks, 0), paddings, inputs)    else:        print("Check if you entered type correctly!")            return outputs

8、Add&Norm

def ln(inputs, epsilon = 1e-8, scope="ln"):    '''Applies layer normalization. See https://arxiv.org/abs/1607.06450.    inputs: A tensor with 2 or more dimensions, where the first dimension has `batch_size`.    epsilon: A floating number. A very small number for preventing ZeroDivision Error.    scope: Optional scope for `variable_scope`.          Returns:      A tensor with the same shape and data dtype as `inputs`.    '''    # Normalization有很多种，但是它们都有一个共同的目的，那就是把输入转化成均值为0方差为1的数据    # 我们在把数据送入激活函数之前进行normalization(归一化)，因为我们不希望输入数据落在激活函数的饱和区    # Batch Normalization: BN的主要思想就是：在每一层的每一批数据上进行归一化    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):        inputs_shape = inputs.get_shape()        params_shape = inputs_shape[-1:]            mean, variance = tf.nn.moments(inputs, [-1], keep_dims=True)        beta= tf.get_variable("beta", params_shape, initializer=tf.zeros_initializer())        gamma = tf.get_variable("gamma", params_shape, initializer=tf.ones_initializer())        normalized = (inputs - mean) / ( (variance + epsilon) ** (.5) )        outputs = gamma * normalized + beta            return outputs

在看让我看到你哦，别偷偷摸摸的在看

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
计算机网络八股总结 Petrichorzncu 八股总结计算机网络笔记
这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
KVM虚拟机源代码分析【转】 xidianjiapei001 #虚拟化技术
1.KVM结构及工作原理1.1KVM结构KVM基本结构有两部分组成。一个是KVMDriver，已经成为Linux内核的一个模块。负责虚拟机的创建，虚拟内存的分配，虚拟CPU寄存器的读写以及虚拟CPU的运行等。另外一个是稍微修改过的Qemu，用于模拟PC硬件的用户空间组件，提供I/O设备模型以及访问外设的途径。KVM基本结构如图1所示。其中KVM加入到标准的Linux内核中，被组织成Linux中标准
《算法》四学习——1.1节进阶的Farmer 算法算法笔记
前言买了一本算法4，每天看一点，对每个小结来个学习总结，输出驱动输入。本篇笔记针对第一章基础1.1基础编程模型1.1节总结了相关的语法、语言特性和书中将会用到的库。笔记自己在编码中容易遗漏的点&&优先级比||高在开发中习惯了加括号，所以没注意到这点，教材上也有但是忘记了二分查找中计算mid=left+(right-left)/2这样计算可以有效避免(left+right)/2溢出答疑java无穷大
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

transformer模型_Transformer模型细节理解及Tensorflow实现

你可能感兴趣的:(transformer模型)