帅气的琳仔

Transformer源码理解(Tensorflow)

主要是留给自己以后回忆用的，写的不好，评论区不要开炮，Love&Peace。

源码：https://github.com/Kyubyong/transformer

本文参考博文内容：(细节参考在每一节)

NLP系列——Transformer源码解析（TensorFlow版）

论文解读:Attention is All you need

图解Transformer（完整版）

Transformer解析与tensorflow代码解读

Transformer源码解读

FlyAI小课堂：代码解读Transformer--Attention is All You Need

非常感谢以上大佬！

代码

hparams.py

import argparse

class Hparams:
    parser = argparse.ArgumentParser()

    # prepro
    parser.add_argument('--vocab_size', default=32000, type=int)

    # train
    ## files
    parser.add_argument('--train1', default='iwslt2016/segmented/train.de.bpe',
                             help="german training segmented data")
    parser.add_argument('--train2', default='iwslt2016/segmented/train.en.bpe',
                             help="english training segmented data")
    parser.add_argument('--eval1', default='iwslt2016/segmented/eval.de.bpe',
                             help="german evaluation segmented data")
    parser.add_argument('--eval2', default='iwslt2016/segmented/eval.en.bpe',
                             help="english evaluation segmented data")
    parser.add_argument('--eval3', default='iwslt2016/prepro/eval.en',
                             help="english evaluation unsegmented data")

    ## vocabulary
    parser.add_argument('--vocab', default='iwslt2016/segmented/bpe.vocab',
                        help="vocabulary file path")

    # training scheme
    parser.add_argument('--batch_size', default=128, type=int)
    parser.add_argument('--eval_batch_size', default=128, type=int)

    parser.add_argument('--lr', default=0.0003, type=float, help="learning rate")
    parser.add_argument('--warmup_steps', default=4000, type=int) # 预热学习率
    parser.add_argument('--logdir', default="log/1", help="log directory") # 日志存储路径
    parser.add_argument('--num_epochs', default=20, type=int)
    parser.add_argument('--evaldir', default="eval/1", help="evaluation dir")

    # model
    parser.add_argument('--d_model', default=512, type=int,
                        help="hidden dimension of encoder/decoder") # 词嵌入维度
    parser.add_argument('--d_ff', default=2048, type=int,
                        help="hidden dimension of feedforward layer") # 前向传播网络隐层单元数量
    parser.add_argument('--num_blocks', default=6, type=int,
                        help="number of encoder/decoder blocks") # blocks的数量
    parser.add_argument('--num_heads', default=8, type=int,
                        help="number of attention heads") # 多头注意力 “头”的数量
    parser.add_argument('--maxlen1', default=100, type=int, 
                        help="maximum length of a source sequence") # 源句最大长度 
    parser.add_argument('--maxlen2', default=100, type=int, 
                        help="maximum length of a target sequence") # 目标句最大长度 
    parser.add_argument('--dropout_rate', default=0.3, type=float) # dropout丢弃概率
    parser.add_argument('--smoothing', default=0.1, type=float,
                        help="label smoothing rate") # 平滑率

    # test
    parser.add_argument('--test1', default='iwslt2016/segmented/test.de.bpe',
                        help="german test segmented data")
    parser.add_argument('--test2', default='iwslt2016/prepro/test.en',
                        help="english test data")
    parser.add_argument('--ckpt', help="checkpoint file path") # 保存checkpoint的地址
    parser.add_argument('--test_batch_size', default=128, type=int)
    parser.add_argument('--testdir', default="test/1", help="test result dir")

定义了一些与训练、词汇表、模型、测试相关的超参数。

argparse库

用于命令项选项与参数解析的模块。

一般为三个步骤：

创建 ArgumentParser() 对象
调用 add_argument() 方法添加参数
使用 parse_args() 解析添加的参数

参考：python学习笔记之argparse库的使用

train.py

import tensorflow as tf

from model import Transformer
from tqdm import tqdm
from data_load import get_batch
from utils import save_hparams, save_variable_specs, get_hypotheses, calc_bleu
import os
from hparams import Hparams
import math
import logging

logging.basicConfig(level=logging.INFO)

logging日志库

记录日志信息，见参考链接。

参考：logging的简单介绍

读取超参数

logging.info("# hparams")
hparams = Hparams() 
parser = hparams.parser
hp = parser.parse_args()
save_hparams(hp, hp.logdir)

利用Hparmas类实例化一个对象，获取其中参数，并将参数信息写为日志保存到logdir路径中。

准备训练/评估的批数据

logging.info("# Prepare train/eval batches")
train_batches, num_train_batches, num_train_samples = get_batch(hp.train1, hp.train2,
                                             hp.maxlen1, hp.maxlen2,
                                             hp.vocab, hp.batch_size,
                                             shuffle=True)
eval_batches, num_eval_batches, num_eval_samples = get_batch(hp.eval1, hp.eval2,
                                             100000, 100000,
                                             hp.vocab, hp.batch_size,
                                             shuffle=False)

# create a iterator of the correct shape and type
iter = tf.data.Iterator.from_structure(train_batches.output_types, train_batches.output_shapes)
xs, ys = iter.get_next()

train_init_op = iter.make_initializer(train_batches)
eval_init_op = iter.make_initializer(eval_batches)

调用data_load中的get_batch函数，得到batch数据。

使用给定结构创建一个新的未初始化的迭代器Iterator，且未绑定到特定的数据集。

后续使用make_initializer()绑定特定数据集。

使用模型进行训练与评估

logging.info("# Load model")
m = Transformer(hp)
loss, train_op, global_step, train_summaries = m.train(xs, ys)
y_hat, eval_summaries = m.eval(xs, ys)

向Transformer类中传递hp参数，实例化出模型对象。

用模型中的方法，根据数据集进行训练、评估。

训练

with tf.Session() as sess:
    ckpt = tf.train.latest_checkpoint(hp.logdir)    # 查找最新保存的checkpoint文件，读取模型保存好的参数
    if ckpt is None:    # 可能没有检查点
        logging.info("Initializing from scratch")    # 日志记录，从头开始初始化
        sess.run(tf.global_variables_initializer())    # 初始化变量
        save_variable_specs(os.path.join(hp.logdir, "specs"))    # 存储变量相关的信息，如变量名、大小、参数数量等
    else:
        saver.restore(sess, ckpt)    # 有检查点的话，恢复保存先前的变量，不必从头初始化

    summary_writer = tf.summary.FileWriter(hp.logdir, sess.graph)    # 保存训练过程数据的实例

    sess.run(train_init_op)     # 开始训练
    total_steps = hp.num_epochs * num_train_batches    # 训练需要的循环次数
    _gs = sess.run(global_step)
    for i in tqdm(range(_gs, total_steps+1)):    # 训练
        _, _gs, _summary = sess.run([train_op, global_step, train_summaries])
        epoch = math.ceil(_gs / num_train_batches)      # 向上取整，计算epoch
        summary_writer.add_summary(_summary, _gs)    # 保存训练过程数据

        if _gs and _gs % num_train_batches == 0:    # 根据当前进度，记录日志信息
            logging.info("epoch {} is done".format(epoch))    # 代数
            _loss = sess.run(loss) # train loss    # 计算训练损失

            logging.info("# test evaluation")
            _, _eval_summaries = sess.run([eval_init_op, eval_summaries])    # 评估效果
            summary_writer.add_summary(_eval_summaries, _gs)

            logging.info("# get hypotheses")
            hypotheses = get_hypotheses(num_eval_batches, num_eval_samples, sess, y_hat, m.idx2token)    # 获取假设

            logging.info("# write results")    # 记录结果信息
            model_output = "iwslt2016_E%02dL%.2f" % (epoch, _loss)
            if not os.path.exists(hp.evaldir): os.makedirs(hp.evaldir)
            translation = os.path.join(hp.evaldir, model_output)
            with open(translation, 'w') as fout:
                fout.write("\n".join(hypotheses))

            logging.info("# calc bleu score and append it to translation")    # 计算BLEU分数
            calc_bleu(hp.eval3, translation)

            logging.info("# save models")    # 保存模型相关参数信息，
            ckpt_name = os.path.join(hp.logdir, model_output)
            saver.save(sess, ckpt_name, global_step=_gs)
            logging.info("after training of {} epochs, {} has been saved.".format(epoch, ckpt_name))

            logging.info("# fall back to train mode")
            sess.run(train_init_op)    # 继续训练
    summary_writer.close()

参考：

tf.train.latest_checkpoint()
Tensorflow模块：tf.train.Checkpoint
tf.summary.FileWriter用法

data_load.py

与数据加载相关的一些函数。

load_vocab

get_batch→load_data→input_fn→generator_fn→encoder

注：变量名后缀为1表示为与源句相关，为2与目标句相关。如：fpath1源语句文件路径，fpath2目标语句文件路径

load_vocab(vocab_fpath)

import tensorflow as tf
from utils import calc_num_batches

def load_vocab(vocab_fpath): # 加载词汇表
    '''Loads vocabulary file and returns idx<->token maps
    vocab_fpath: string. vocabulary file path.
    Note that these are reserved
    0: , 1: , 2: , 3: 

    Returns
    two dictionaries.
    '''
    vocab = [line.split()[0] for line in open(vocab_fpath, 'r').read().splitlines()] # list comprehension实现 每次读一行，去空格得单词
    token2idx = {token: idx for idx, token in enumerate(vocab)} # 利用迭代器，返回索引与对应数据
    idx2token = {idx: token for idx, token in enumerate(vocab)}
    return token2idx, idx2token

生成词汇表字典，满足索引→单词，单词→索引两个需求。

get_batch(fpath1, fpath2, maxlen1, maxlen2, vocab_fpath, batch_size, shuffle=False)

def get_batch(fpath1, fpath2, maxlen1, maxlen2, vocab_fpath, batch_size, shuffle=False):
    '''Gets training / evaluation mini-batches
    fpath1: source file path. string.
    fpath2: target file path. string.
    maxlen1: source sent maximum length. scalar.
    maxlen2: target sent maximum length. scalar.
    vocab_fpath: string. vocabulary file path.
    batch_size: scalar
    shuffle: boolean

    Returns
    batches
    num_batches: number of mini-batches
    num_samples
    '''
    sents1, sents2 = load_data(fpath1, fpath2, maxlen1, maxlen2) # 读取数据
    batches = input_fn(sents1, sents2, vocab_fpath, batch_size, shuffle=shuffle)
    num_batches = calc_num_batches(len(sents1), batch_size)
    return batches, num_batches, len(sents1)

生成批数据。

load_data(fpath1, fpath2, maxlen1, maxlen2)

def load_data(fpath1, fpath2, maxlen1, maxlen2):
    '''Loads source and target data and filters out too lengthy samples.
    fpath1: source file path. string.
    fpath2: target file path. string.
    maxlen1: source sent maximum length. scalar.
    maxlen2: target sent maximum length. scalar.

    Returns
    sents1: list of source sents
    sents2: list of target sents
    '''
    sents1, sents2 = [], []
    with open(fpath1, 'r') as f1, open(fpath2, 'r') as f2:
        for sent1, sent2 in zip(f1, f2):  # zip将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表
            # 换句话说，每一次循环，sent1和sent2读取一对源语句+目标语句
            if len(sent1.split()) + 1 > maxlen1: continue # 1: 
            if len(sent2.split()) + 1 > maxlen2: continue  # 1: 
            # 如果源语句/目标语句大于设定的长度，直接过滤掉不加入到列表中。
            # 这里+1是因为也占一位。
            sents1.append(sent1.strip()) # 删除字符串前后空格，加入列表
            sents2.append(sent2.strip())
    return sents1, sents2

将所有满足要求的句子加入到列表中，返回，相当于过滤出可以使用的数据，返回到get_batch中给Input_fn用。

语句由结尾，因此需要+1。

结尾的必要性（和代码没关系，只是复习一下之前学过的知识，可以不看这句）：在n-gram中，需要用到使其成为真正的概率分布。如果没有结束符号，所有给定句子长度的句子概率之和需要为1，则模型将定义一个无限的概率分布集合，每个句子都有一个分布。

参考：《Speech and Language Processing》Chapter3 P4

input_fn(sents1, sents2, vocab_fpath, batch_size, shuffle=False)

def input_fn(sents1, sents2, vocab_fpath, batch_size, shuffle=False):
    '''Batchify data
    sents1: list of source sents
    sents2: list of target sents
    vocab_fpath: string. vocabulary file path.
    batch_size: scalar
    shuffle: boolean
    
    '''

    shapes = (([None], (), ()),
              ([None], [None], (), ()))
    types = ((tf.int32, tf.int32, tf.string),
             (tf.int32, tf.int32, tf.int32, tf.string))
    paddings = ((0, 0, ''),
                (0, 0, 0, ''))

    dataset = tf.data.Dataset.from_generator(
        generator_fn,
        output_shapes=shapes,
        output_types=types,
        args=(sents1, sents2, vocab_fpath))  # <- arguments for generator_fn. converted to np string arrays

    if shuffle: # for training
        dataset = dataset.shuffle(128*batch_size)

    dataset = dataset.repeat()  # 无限次重复
    dataset = dataset.padded_batch(batch_size, shapes, paddings).prefetch(1)

    return dataset

载入数据一般使用numpy、tensors或者是placeholder，但当一个数组中元素的长度不相同时，使用generator更有效。

tensorflow tf.data.Dataset.from_generator：

利用generator_fn函数，生成数据。

output_shapes 可选参数，但也建议填写，设置为None说明可变或未知。
output_types 必选参数。

<未解决>为什么是128*batch_size (猜测：mini-batch的个数硬编码为128，每个batch的大小为bach_size，总数据128*128，但感觉不太靠谱，姑且这么认为)

数据训练时需要先经过shuffle，评估时不需要。

shuffle

shuffle(
    buffer_size, seed=None, reshuffle_each_iteration=None
)

随机重新排列数据集元素，用buffrer_size个元素来填充缓冲区，从缓冲区中随机采样元素（达到shuffle效果），采样后缓冲区中元素大小会不足buffer_size个，从数据集中顺序选择下一个元素进行空位的补充。

repeat

repeat(
    count=None
)

如果指定了count，dataset重复count次，没指定就是无限重复。 repeat的次数相当于epoch的个数。

batch

batch(
    batch_size, drop_remainder=False, num_parallel_calls=None, deterministic=None
)

padded_batch

padded_batch(
    batch_size, padded_shapes=None, padding_values=None, drop_remainder=False
)

参考：

如何使用TensorFlow中的Dataset API
from_generator() 官方文档
TensorFlow dataset.shuffle、batch、repeat用法
tf.data.Dataset.shuffle(buffer_size)中buffer_size的理解
tf.data: Build TensorFlow input pipelines
tensorflow dataset.shuffle dataset.batch dataset.repeat 理解注意点
【进阶Python】第五讲：迭代器与生成器
TensorFlow的Dataset的padded_batch使用

generator_fn(sents1, sents2, vocab_fpath)

def generator_fn(sents1, sents2, vocab_fpath):
    '''Generates training / evaluation data
    生成训练/评估集数据
    sents1: list of source sents
    sents2: list of target sents
    vocab_fpath: string. vocabulary file path.

    yields
    xs: tuple of
        x: int32 tensor. (N, T1) N个句子，每个句子长度都是T1（被补全）
        x_seqlens: int32 tensor. (N,) N个句子的长度
        sents1: str tensor. (N,) N个句子
    ys: tuple of
        decoder_input: int32 tensor. (N, T2) N个句子，每个句子长度都是T2
        y: int32 tensor. (N, T2) N个句子，每个长度都是T2
        y_seqlen: int32 tensor. (N, ) N个句子，每个句子的长度
        sents2: str tensor. (N,) N个句子
    '''
    token2idx, _ = load_vocab(vocab_fpath)
    for sent1, sent2 in zip(sents1, sents2):
        x = encode(sent1, "x", token2idx)
        y = encode(sent2, "y", token2idx)
        decoder_input, y = y[:-1], y[1:]  # decoder_input舍去 y舍去

        x_seqlen, y_seqlen = len(x), len(y) # 获取源句目标句序列长度
        yield (x, x_seqlen, sent1), (decoder_input, y, y_seqlen, sent2)

将输入的列表（列表里装的都是一个个str），用encode函数编码成对应的数字序列。

<未解决>x的T1是什么时候被补全的，又或者说什么时候变成T1的。

联想RNN：

~~decoder_input，输入到解码器中。去掉~~，解码前N-1个词。
y，期望输出第2个到第N个。

yield：见参考链接

参考：python中yield的用法详解——最简单，最清晰的解释

encode(inp, type, dict)

def encode(inp, type, dict):
    '''Converts string to number. Used for `generator_fn`.
    inp: 1d byte array. 由token(str)组成的句子
    type: "x" (source side) or "y" (target side) 源/目标
    dict: token2idx dictionary

    Returns
    list of numbers
    '''
    inp_str = inp.decode("utf-8")
    # 以 encoding 指定的编码格式解码字符串。默认编码为字符串编码
    if type=="x": tokens = inp_str.split() + [""]
    else: tokens = [""] + inp_str.split() + [""]
    # 目标句需要在开头加一个，标识句子的开头

    x = [dict.get(t, dict[""]) for t in tokens]
    # 未找到则标记代表的索引
    return x

利用token2index，将string转换成数字序列。

注意：这里在处理的时候如果是目标句，需要在开始和结尾处加上和，传回generator_fn的时候会根据需要舍弃开头或结尾符。

model.py

模型的主体部分。

import tensorflow as tf from data_load import load_vocab from modules import get_token_embeddings, ff, positional_encoding, multihead_attention, label_smoothing, noam_scheme from utils import convert_idx_to_token_tensor from tqdm import tqdm import logging logging.basicConfig(level=logging.INFO)

用到的库，及日志的设置。

__init__(self, hp)

class Transformer: ''' xs: tuple of x: int32 tensor. (N, T1) x_seqlens: int32 tensor. (N,) sents1: str tensor. (N,) ys: tuple of decoder_input: int32 tensor. (N, T2) y: int32 tensor. (N, T2) y_seqlen: int32 tensor. (N, ) sents2: str tensor. (N,) training: boolean. ''' def __init__(self, hp): self.hp = hp self.token2idx, self.idx2token = load_vocab(hp.vocab) self.embeddings = get_token_embeddings(self.hp.vocab_size, self.hp.d_model, zero_pad=True) # (V,E)

获取超参数、两个字典、构建词嵌入矩阵。

encode(self, xs, training=True)

def encode(self, xs, training=True): ''' Returns memory: encoder outputs. (N, T1, d_model) ''' with tf.variable_scope("encoder", reuse=tf.AUTO_REUSE): x, seqlens, sents1 = xs # 被补全的句子，句子长度，原句 # src_masks 源句掩码 src_masks = tf.math.equal(x, 0) # (N, T1) 掩码，标记补全位置 # embedding 嵌入 enc = tf.nn.embedding_lookup(self.embeddings, x) # (N, T1, d_model) # 词嵌入 Input Embedding enc *= self.hp.d_model**0.5 # scale 对enc缩放，但是原论文中没有发现相关内容 enc += positional_encoding(enc, self.hp.maxlen1) # 位置嵌入 enc = tf.layers.dropout(enc, self.hp.dropout_rate, training=training) #Dropout 防止过拟合 # 截止现在输入已被嵌入完毕 ## Blocks Encoder 块 for i in range(self.hp.num_blocks): # 设定的Encoder块 with tf.variable_scope("num_blocks_{}".format(i), reuse=tf.AUTO_REUSE): #当前是第几个Encoder块 # self-attention 多头注意力机制 enc = multihead_attention(queries=enc, keys=enc, values=enc, key_masks=src_masks, num_heads=self.hp.num_heads, dropout_rate=self.hp.dropout_rate, training=training, causality=False) # 多头注意力机制 # feed forward 前向传播 enc = ff(enc, num_units=[self.hp.d_ff, self.hp.d_model]) memory = enc # 记住当前进度 return memory, sents1, src_masks

mask作用：

在positional_encoding函数中也有体现

这里的mask是Padding mask，比较短的句子后面会直接补0。由于在Attention机制中，补充的位置不需要被关注，将位置值加上一个非常大的负数(-2^32+1)，经过softmax的时候概率较小。

参考：tf.AUTO_REUSE作用

decode(self, ys, memory, src_masks, training=True)

def decode(self, ys, memory, src_masks, training=True): ''' memory: encoder outputs. (N, T1, d_model) src_masks: (N, T1) Returns logits: (N, T2, V). float32. y_hat: (N, T2). int32 y: (N, T2). int32 sents2: (N,). string. ''' with tf.variable_scope("decoder", reuse=tf.AUTO_REUSE): decoder_inputs, y, seqlens, sents2 = ys # tgt_masks tgt_masks = tf.math.equal(decoder_inputs, 0) # (N, T2) # embedding dec = tf.nn.embedding_lookup(self.embeddings, decoder_inputs) # (N, T2, d_model) dec *= self.hp.d_model ** 0.5 # scale dec += positional_encoding(dec, self.hp.maxlen2) dec = tf.layers.dropout(dec, self.hp.dropout_rate, training=training) # Blocks for i in range(self.hp.num_blocks): with tf.variable_scope("num_blocks_{}".format(i), reuse=tf.AUTO_REUSE): # Masked self-attention (Note that causality is True at this time) dec = multihead_attention(queries=dec, keys=dec, values=dec, key_masks=tgt_masks, num_heads=self.hp.num_heads, dropout_rate=self.hp.dropout_rate, training=training, causality=True, scope="self_attention") # Vanilla attention dec = multihead_attention(queries=dec, keys=memory, values=memory, key_masks=src_masks, num_heads=self.hp.num_heads, dropout_rate=self.hp.dropout_rate, training=training, causality=False, scope="vanilla_attention") ### Feed Forward dec = ff(dec, num_units=[self.hp.d_ff, self.hp.d_model]) # Final linear projection (embedding weights are shared) weights = tf.transpose(self.embeddings) # (d_model, vocab_size) logits = tf.einsum('ntd,dk->ntk', dec, weights) # (N, T2, vocab_size) y_hat = tf.to_int32(tf.argmax(logits, axis=-1)) return logits, y_hat, y, sents2

train(self, xs, ys)

def train(self, xs, ys): ''' Returns loss: scalar. train_op: training operation global_step: scalar. summaries: training summary node ''' # forward 前向 memory, sents1, src_masks = self.encode(xs) # 编码 logits, preds, y, sents2 = self.decode(ys, memory, src_masks) # 解码 # train scheme y_ = label_smoothing(tf.one_hot(y, depth=self.hp.vocab_size)) # 平滑标签 ce = tf.nn.softmax_cross_entropy_with_logits_v2(logits=logits, labels=y_) # softmax分类 nonpadding = tf.to_float(tf.not_equal(y, self.token2idx[""])) # 0: loss = tf.reduce_sum(ce * nonpadding) / (tf.reduce_sum(nonpadding) + 1e-7) global_step = tf.train.get_or_create_global_step() lr = noam_scheme(self.hp.lr, global_step, self.hp.warmup_steps) optimizer = tf.train.AdamOptimizer(lr) train_op = optimizer.minimize(loss, global_step=global_step) tf.summary.scalar('lr', lr) tf.summary.scalar("loss", loss) tf.summary.scalar("global_step", global_step) summaries = tf.summary.merge_all() return loss, train_op, global_step, summaries

eval(self, xs, ys)

def eval(self, xs, ys): '''Predicts autoregressively At inference, input ys is ignored. Returns y_hat: (N, T2) ''' decoder_inputs, y, y_seqlen, sents2 = ys decoder_inputs = tf.ones((tf.shape(xs[0])[0], 1), tf.int32) * self.token2idx[""] ys = (decoder_inputs, y, y_seqlen, sents2) memory, sents1, src_masks = self.encode(xs, False) logging.info("Inference graph is being built. Please be patient.") for _ in tqdm(range(self.hp.maxlen2)): logits, y_hat, y, sents2 = self.decode(ys, memory, src_masks, False) if tf.reduce_sum(y_hat, 1) == self.token2idx[""]: break _decoder_inputs = tf.concat((decoder_inputs, y_hat), 1) ys = (_decoder_inputs, y, y_seqlen, sents2) # monitor a random sample n = tf.random_uniform((), 0, tf.shape(y_hat)[0]-1, tf.int32) sent1 = sents1[n] pred = convert_idx_to_token_tensor(y_hat[n], self.idx2token) sent2 = sents2[n] tf.summary.text("sent1", sent1) tf.summary.text("pred", pred) tf.summary.text("sent2", sent2) summaries = tf.summary.merge_all() return y_hat, summaries

modules.py

构建Transformer模型需要的函数。

import numpy as np import tensorflow as tf

ln(inputs, epsilon = 1e-8, scope="ln")

Layer Normalization

epsilon防止分母过小

def ln(inputs, epsilon = 1e-8, scope="ln"): '''Applies layer normalization. See https://arxiv.org/abs/1607.06450. inputs: A tensor with 2 or more dimensions, where the first dimension has `batch_size`. epsilon: A floating number. A very small number for preventing ZeroDivision Error. scope: Optional scope for `variable_scope`. Returns: A tensor with the same shape and data dtype as `inputs`. ''' with tf.variable_scope(scope, reuse=tf.AUTO_REUSE): inputs_shape = inputs.get_shape() # 输入形状 params_shape = inputs_shape[-1:] # mean, variance = tf.nn.moments(inputs, [-1], keep_dims=True) # 求均值和方差 beta= tf.get_variable("beta", params_shape, initializer=tf.zeros_initializer()) gamma = tf.get_variable("gamma", params_shape, initializer=tf.ones_initializer()) normalized = (inputs - mean) / ( (variance + epsilon) ** (.5) ) outputs = gamma * normalized + beta return outputs

参考：tf.nn.moments( ) 的用法

get_token_embeddings(vocab_size, num_units, zero_pad=True)

def get_token_embeddings(vocab_size, num_units, zero_pad=True): '''Constructs token embedding matrix.000000. Note that the column of index 0's are set to zeros. vocab_size: scalar. V. 词汇表词汇量V num_units: embedding dimensionalty. E. 嵌入维度E zero_pad: Boolean. If True, all the values of the first row (id = 0) should be constant zero To apply query/key masks easily, zero pad is turned on. 设置后嵌入矩阵第一行皆为0 Returns weight variable: (V, E) ''' with tf.variable_scope("shared_weight_matrix"): embeddings = tf.get_variable('weight_mat', dtype=tf.float32, shape=(vocab_size, num_units), initializer=tf.contrib.layers.xavier_initializer()) # 利用xavier初始化方法，初始化嵌入矩阵 if zero_pad: # 便于创建常量掩码 embeddings = tf.concat((tf.zeros(shape=[1, num_units]), embeddings[1:, :]), 0) # 生成一行全0向量，与去掉第一行的embeddings矩阵进行拼接。 return embeddings

scaled_dot_product_attention(Q, K, V, key_masks, causality=False, dropout_rate=0., training=True, scope="scaled_dot_product_attention")

大意如下图所示

def scaled_dot_product_attention(Q, K, V, key_masks, causality=False, dropout_rate=0., training=True, scope="scaled_dot_product_attention"): '''See 3.2.1. Q: Packed queries. 3d tensor. [N, T_q, d_k]. K: Packed keys. 3d tensor. [N, T_k, d_k]. V: Packed values. 3d tensor. [N, T_k, d_v]. key_masks: A 2d tensor with shape of [N, key_seqlen] causality: If True, applies masking for future blinding dropout_rate: A floating point number of [0, 1]. training: boolean for controlling droput scope: Optional scope for `variable_scope`. ''' with tf.variable_scope(scope, reuse=tf.AUTO_REUSE): d_k = Q.get_shape().as_list()[-1] # dot product outputs = tf.matmul(Q, tf.transpose(K, [0, 2, 1])) # (N, T_q, T_k) # scale outputs /= d_k ** 0.5 # key masking outputs = mask(outputs, key_masks=key_masks, type="key") # causality or future blinding masking if causality: outputs = mask(outputs, type="future") # softmax outputs = tf.nn.softmax(outputs) attention = tf.transpose(outputs, [0, 2, 1]) tf.summary.image("attention", tf.expand_dims(attention[:1], -1)) # # query masking # outputs = mask(outputs, Q, K, type="query") # dropout outputs = tf.layers.dropout(outputs, rate=dropout_rate, training=training) # weighted sum (context vectors) outputs = tf.matmul(outputs, V) # (N, T_q, d_v) return outputs

mask(inputs, key_masks=None, type=None):

def mask(inputs, key_masks=None, type=None): """Masks paddings on keys or queries to inputs inputs: 3d tensor. (h*N, T_q, T_k) key_masks: 3d tensor. (N, 1, T_k) type: string. "key" | "future" e.g., >> inputs = tf.zeros([2, 2, 3], dtype=tf.float32) >> key_masks = tf.constant([[0., 0., 1.], [0., 1., 1.]]) >> mask(inputs, key_masks=key_masks, type="key") array([[[ 0.0000000e+00, 0.0000000e+00, -4.2949673e+09], [ 0.0000000e+00, 0.0000000e+00, -4.2949673e+09]], [[ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09], [ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09]], [[ 0.0000000e+00, 0.0000000e+00, -4.2949673e+09], [ 0.0000000e+00, 0.0000000e+00, -4.2949673e+09]], [[ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09], [ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09]]], dtype=float32) """ padding_num = -2 ** 32 + 1 #足够小的负数，保证被填充的位置进入softmax之后概率接近0 if type in ("k", "key", "keys"): # padding mask key_masks = tf.to_float(key_masks) key_masks = tf.tile(key_masks, [tf.shape(inputs)[0] // tf.shape(key_masks)[0], 1]) # (h*N, seqlen) key_masks = tf.expand_dims(key_masks, 1) # (h*N, 1, seqlen) outputs = inputs + key_masks * padding_num # elif type in ("q", "query", "queries"): # # Generate masks # masks = tf.sign(tf.reduce_sum(tf.abs(queries), axis=-1)) # (N, T_q) # masks = tf.expand_dims(masks, -1) # (N, T_q, 1) # masks = tf.tile(masks, [1, 1, tf.shape(keys)[1]]) # (N, T_q, T_k) # # # Apply masks to inputs # outputs = inputs*masks elif type in ("f", "future", "right"): # future mask diag_vals = tf.ones_like(inputs[0, :, :]) # (T_q, T_k) tril = tf.linalg.LinearOperatorLowerTriangular(diag_vals).to_dense() # (T_q, T_k) # 上三角皆为0 future_masks = tf.tile(tf.expand_dims(tril, 0), [tf.shape(inputs)[0], 1, 1]) # (N, T_q, T_k) # N batch size paddings = tf.ones_like(future_masks) * padding_num outputs = tf.where(tf.equal(future_masks, 0), paddings, inputs) # 上三角中用padding值代替 else: print("Check if you entered type correctly!") return outputs

multihead_attention(queries, keys, values, key_masks, num_heads=8, dropout_rate=0, training=True, causality=False, scope="multihead_attention")

多头注意力机制，注意causality参数，

def multihead_attention(queries, keys, values, key_masks, num_heads=8, dropout_rate=0, training=True, causality=False, scope="multihead_attention"): '''Applies multihead attention. See 3.2.2 queries: A 3d tensor with shape of [N, T_q, d_model]. keys: A 3d tensor with shape of [N, T_k, d_model]. values: A 3d tensor with shape of [N, T_k, d_model]. key_masks: A 2d tensor with shape of [N, key_seqlen] num_heads: An int. Number of heads. dropout_rate: A floating point number. training: Boolean. Controller of mechanism for dropout. causality: Boolean. If true, units that reference the future are masked. scope: Optional scope for `variable_scope`. Returns A 3d tensor with shape of (N, T_q, C) ''' d_model = queries.get_shape().as_list()[-1] # 获取词向量长度 with tf.variable_scope(scope, reuse=tf.AUTO_REUSE): # Linear projections # 通过权重矩阵得出Q,K,V矩阵 Q = tf.layers.dense(queries, d_model, use_bias=True) # (N, T_q, d_model) K = tf.layers.dense(keys, d_model, use_bias=True) # (N, T_k, d_model) V = tf.layers.dense(values, d_model, use_bias=True) # (N, T_k, d_model) # Split and concat 针对最后一个维度划分为多头，词向量长度512 → 每个头64 Q_ = tf.concat(tf.split(Q, num_heads, axis=2), axis=0) # (h*N, T_q, d_model/h) K_ = tf.concat(tf.split(K, num_heads, axis=2), axis=0) # (h*N, T_k, d_model/h) V_ = tf.concat(tf.split(V, num_heads, axis=2), axis=0) # (h*N, T_k, d_model/h) # Attention 计算自注意力 outputs = scaled_dot_product_attention(Q_, K_, V_, key_masks, causality, dropout_rate, training) # Restore shape 合并多头 outputs = tf.concat(tf.split(outputs, num_heads, axis=0), axis=2 ) # (N, T_q, d_model) # Residual connection 残差链接 outputs += queries # Layer Normalize outputs = ln(outputs) return outputs

ff(inputs, num_units, scope="positionwise_feedforward")

def ff(inputs, num_units, scope="positionwise_feedforward"): '''position-wise feed forward net. See 3.3 inputs: A 3d tensor with shape of [N, T, C]. num_units: A list of two integers. num_units[0]=d_ff: 隐藏层大小（2048） num_units[1]=d_model: 词向量长度（512） scope: Optional scope for `variable_scope`. Returns: A 3d tensor with the same shape and dtype as inputs ''' with tf.variable_scope(scope, reuse=tf.AUTO_REUSE): # Inner layer outputs = tf.layers.dense(inputs, num_units[0], activation=tf.nn.relu) # Outer layer outputs = tf.layers.dense(outputs, num_units[1]) # Residual connection outputs += inputs # Layer Normalize outputs = ln(outputs) return outputs

label_smoothing(inputs, epsilon=0.1):

def label_smoothing(inputs, epsilon=0.1): '''Applies label smoothing. See 5.4 and https://arxiv.org/abs/1512.00567. inputs: 3d tensor. [N, T, V], where V is the number of vocabulary. epsilon: Smoothing rate. For example, ``` import tensorflow as tf inputs = tf.convert_to_tensor([[[0, 0, 1], [0, 1, 0], [1, 0, 0]], [[1, 0, 0], [1, 0, 0], [0, 1, 0]]], tf.float32) outputs = label_smoothing(inputs) with tf.Session() as sess: print(sess.run([outputs])) >> [array([[[ 0.03333334, 0.03333334, 0.93333334], [ 0.03333334, 0.93333334, 0.03333334], [ 0.93333334, 0.03333334, 0.03333334]], [[ 0.93333334, 0.03333334, 0.03333334], [ 0.93333334, 0.03333334, 0.03333334], [ 0.03333334, 0.93333334, 0.03333334]]], dtype=float32)] ``` ''' V = inputs.get_shape().as_list()[-1] # number of channels return ((1-epsilon) * inputs) + (epsilon / V)

positional_encoding(inputs, maxlen, masking=True, scope="positional_encoding"):

位置编码

def positional_encoding(inputs, maxlen, masking=True, scope="positional_encoding"): '''Sinusoidal Positional_Encoding. See 3.5 inputs: 3d tensor. (N, T, E) maxlen: scalar. Must be >= T masking: Boolean. If True, padding positions are set to zeros. scope: Optional scope for `variable_scope`. returns 3d tensor that has the same shape as inputs. ''' E = inputs.get_shape().as_list()[-1] # static 获取此向量维度 d_model N, T = tf.shape(inputs)[0], tf.shape(inputs)[1] # dynamic N为batch_size，T为最长句子长度 with tf.variable_scope(scope, reuse=tf.AUTO_REUSE): # position indices 位置索引 position_ind = tf.tile(tf.expand_dims(tf.range(T), 0), [N, 1]) # (N, T) 对张量进行扩展 1,T → N,T # First part of the PE function: sin and cos argument 位置嵌入方法 position_enc = np.array([ [pos / np.power(10000, (i-i%2)/E) for i in range(E)] for pos in range(maxlen)]) # Second part, apply the cosine to even columns and sin to odds. 不同位置使用sin和cos方法 position_enc[:, 0::2] = np.sin(position_enc[:, 0::2]) # dim 2i position_enc[:, 1::2] = np.cos(position_enc[:, 1::2]) # dim 2i+1 position_enc = tf.convert_to_tensor(position_enc, tf.float32) # (maxlen, E) # lookup outputs = tf.nn.embedding_lookup(position_enc, position_ind) # masks if masking: # 是否需要掩码 outputs = tf.where(tf.equal(inputs, 0), inputs, outputs) # inputs中值为0的地方（为True的地方）保持值不变，其余元素替换为outputs结果。因为0的地方就是掩码的地方，不需要有所谓的位置嵌入。 return tf.to_float(outputs)

参考：

直观的理解tensorflow中的tf.tile()函数

tf.expand_dims用法详解

TensorFlow函数：tf.where

noam_scheme(init_lr, global_step, warmup_steps=4000.)

def noam_scheme(init_lr, global_step, warmup_steps=4000.): '''Noam scheme learning rate decay init_lr: initial learning rate. scalar. global_step: scalar. warmup_steps: scalar. During warmup_steps, learning rate increases until it reaches init_lr. ''' step = tf.cast(global_step + 1, dtype=tf.float32) return init_lr * warmup_steps ** 0.5 * tf.minimum(step * warmup_steps ** -1.5, step ** -0.5)

Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
创客匠人视角下：创始人 IP 打造与知识变现的深度耦合路径创小匠 tcp/ip 大数据人工智能
在知识经济蓬勃发展的当下，创始人IP打造与知识变现的融合已成为行业破局关键。创客匠人作为深耕知识付费赛道多年的服务平台，其创始人老蒋提出的“土壤构建能力”理论，为理解这一融合逻辑提供了独特视角。从本质来看，创始人IP并非简单的个人品牌包装，而是企业价值观与专业能力的人格化投射。以创客匠人服务的众多知识创业者为例，成功的创始人IP往往具备三大特征：专业领域的深度沉淀、用户需求的精准洞察，以及价值输出
[netty5: MessageAggregator & HttpObjectAggregator]-源码解析
在阅读这篇文章前，推荐先阅读[netty5:ByteToMessageCodec&MessageToByteEncoder&ByteToMessageDecoder]-源码分析[netty5:HttpObject]-源码解析100-continue100-continue是HTTP/1.1协议中的一种机制，用于客户端在发送大体积请求体（如文件上传）前，先向服务器发送一个带有Expect:100-c
Linux内核IPv4路由子系统深度剖析：FIB前端实现与设计原理 109702008 编程 #C语言网络 linux 网络人工智能
深入理解Linux网络栈的核心组件：路由表管理、地址验证与事件处理机制引言在Linux网络栈中，IPv4转发信息库（FIB）是决定数据包传输路径的核心子系统。fib_frontend.c作为FIB的前端实现，承担着路由表管理、用户接口交互和网络事件响应等关键任务。本文将深入剖析这一关键文件的实现原理，揭示Linux路由机制的设计哲学。一、FIB前端整体架构/*核心数据结构*/structfib_t
Java+Python智能化云盘【Day3】关沐吖 Java+Python Ai智能云盘项目开发专栏 java python 开发语言
提示词工程Prompt简介：大模型必备Prompt提示词工程讲解什么是PromptEngineering提示词工程通过特定格式的文本输入引导AI模型生成期望输出的技术，明确地告诉模型你想要解决的问题或完成的任务也是大语言模型理解用户需求并生成相关、准确回答或内容的基础类比：给Java程序员的任务需求文档（越清晰明确，结果越符合预期）为什么需要学习？大模型就是你的员工，你可以有多个助手，OpenAI
【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等十小大超分辨率重建（理论+实战科研+应用）超分辨率重建人工智能图像处理深度学习计算机视觉图像超分 pytorch
文章目录专栏简介专栏亮点适配人群相关说明关于答疑环境配置超分理解实现流程文章目录基础知识三个常用的SR框架数据集相关可解释性（论文中的可视化说明）图像超分（ImageSuper-Resolution）经典超分（ClassicalSR）任意尺度超分（Arbitrary-ScaleSR）高效/轻量化超分（Efficient/LightweightSR，ESR）盲超分/真实世界图像超分辨率（Blind/
【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
基于uniapp小程序的诗词学习系统附带文章源码部署视频讲解等
文章目录前言详细视频演示具体实现截图核心技术介绍小程序框架Uniapp前端框架Vue持久层框架MyBaits为什么选择我代码参考数据库参考测试用例参考源码获取前言博主介绍：✌CSDN特邀作者、资深全栈开发程序员，曾在互联网大厂担任高级职位、码云/掘金/华为云/阿里云/InfoQ/StackOverflow/github等平台优质作者、专注于Java、小程序、前端、python等技术领域毕业项目实战
鸿蒙设备开发OpenHarmony深度解读之设备认证：HiChain机制部分源码解析1（推荐模块之外）
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……一、概述H
你以为的 () 只是函数调用？栈的战争：函数调用背后，编译器、链接器、CPU与黑客的四方博弈解剖CPU、内存与安全交织的底层真相了解函数调用的暗流：从C括号到CPU指令、栈帧攻防的生死时速 small_wh1te_coder c++c 算法 c语言 c++c 算法面试
作者：smallcodewhite更新：2025.6.4号下午6点13分小引子：在软件这行当里混久了，你会发现一个现象：很多人能用各种高级语言、框架写出复杂的业务，但一遇到诡异的崩溃、性能瓶颈，或者需要和底层硬件打交道时，就抓瞎了。究其原因，是对计算机体系最基础的运行模型理解得不够透。上一篇我们聊了点数据在内存里的存放问题，有兄弟说不够劲，没触及灵魂。说得好。今天，咱们就来干一件有挑战性的事：把C
dnSpy 使用教程
一、dnSpy简介dnSpy是一款功能强大的免费开源.NET反编译工具，支持对.NETFramework、.NETCore和Mono程序进行反编译、调试与修改，能将程序集反编译为C#或IL（中间语言）代码，帮助开发者或安全研究人员深入分析和理解.NET程序的内部逻辑。它为逆向工程工作提供了极大便利，使相关操作更易于理解和执行。与之类似的ILspy也是一款知名的开源.NET反编译软件，下面将对二者进
（LeetCode）Java 求解最长回文子串南淮北安冲刺大厂之 Java 刷题笔记 leetcode 字符串动态规划 java 算法
文章目录一、题解二、常规理解三、简单理解四、总结一、题解给定一个字符串s，找到s中最长的回文子串。你可以假设s的最大长度为1000。示例1：输入:“babad”输出:“bab”注意:“aba”也是一个有效答案。示例2：输入:“cbbd”输出:“bb”二、常规理解思路就是创建一个二维数组，boolean[][]flag,flag[i][j]表示字符串第i到j是否是回文。边界：字符串长度为1是为TRU
Java 数据类型详解：从初学者到理解底层原理超浪的晨 java合集开发语言 java 后端
作为一名Java开发工程师，你可能已经对数据类型有了一定的了解。但无论你是刚入门的新手，还是想系统回顾基础知识的老手，这篇文章都将帮助你全面、深入地掌握Java中的数据类型。一、什么是数据类型？在Java中，数据类型（DataType）决定了变量可以存储什么类型的数据，以及该变量占用多少内存空间。Java是一种静态类型语言，也就是说，在声明变量时必须指定其数据类型。Java的数据类型可以分为两大类
STM32定时器详细教程楠离啊 c语言 stm32 嵌入式硬件单片机
STM32定时器1.引言STM32微控制器以其丰富的外设和强大的性能，在嵌入式领域得到了广泛应用。其中，定时器作为其核心外设之一，在实现精确时间控制、波形生成、事件测量等方面发挥着不可替代的作用。本教程将深入探讨STM32定时器的分类、工作原理、主要寄存器配置以及常见应用，旨在帮助读者全面理解并熟练运用STM32定时器。2.STM32定时器分类STM32系列微控制器通常包含以下三类定时器：基本定时
QML Property属性语法 Little-Hu QML 数据库开发语言 QML
QML作为Qt框架中的声明式UI语言，其property属性是构建动态用户界面的核心要素。property不仅是存储数据的容器，更是实现数据绑定、组件通信和状态管理的基石。本文将全面剖析QML中property属性的语法特性、使用场景和最佳实践，帮助开发者深入理解并高效运用这一重要机制。一、Property属性基础1.属性定义与声明在QML中，property属性用于存储对象的状态信息，其基本声明
微服务: Feign调用GET请求找不到请求体实体类 pingzhuyan #SpringCloud微服务 #异常总结分类 java SpringCloud feign Get 实体类
目录彩蛋:里面传递了token使用过滤器可以实现自动传递token无需传递,下一篇介绍1.方法一:尽可能使用post请求把GET改成POST,把方法上参数实体类加上@RequstBodY,这是最快速得方案2.方式二:依然使用get请求需要使用feign新加的请求参数->@SpringQueryMap注解2.1添加的位置:2.2写一个配置类注入feignBuilder方法(重点)2.3源码剖析Bea
JWT鉴权的流程和原理 hwg985 八股-java基础 Java 鉴权 JWT
文章目录1\.JWT的原理：它是什么构成的？a)第一部分：Header(头部)b)第二部分：Payload(载荷)c)第三部分：Signature(签名)2\.JWT的鉴权流程3\.JWT的优缺点优点：缺点：好的，我们来详细、清晰地介绍一下JWT（JSONWebToken）的鉴权流程和其背后的原理。这是一个在现代Web应用和API安全中非常核心的概念。我将用一个通俗的比喻来帮助你理解：传统的Ses
LinkedList数据结构链表辞暮尔尔-烟火年年集合数据结构链表
LinkedList在Java中是一个实现了List和Deque接口的双向链表。它允许我们在列表的两端添加或删除元素，同时也支持在列表中间插入或移除元素。在分析LinkedList之前，需要理解链表这种数据结构：链表：链表是一种动态数据结构，由一系列节点组成，每个节点包含数据部分和指向列表中下一个节点的引用。双向链表：每个节点都有两个链接，一个指向前一个节点，另一个指向后一个节点。LinkedLi
JVM垃圾回收算法全解析：从基础到GC调优实战 Java大师兄学大数据AI应用开发 AI人工智能与大数据应用开发 AI实战 jvm 算法 ai
JVM垃圾回收算法全解析：从基础到GC调优实战关键词：JVM、垃圾回收算法、基础原理、GC调优、实战应用摘要：本文将全面深入地解析JVM垃圾回收算法，从最基础的概念开始讲起，帮助读者理解垃圾回收的本质和原理。接着详细介绍各种常见的垃圾回收算法，并用通俗易懂的方式解释其工作机制。之后通过实战案例展示如何进行GC调优，让读者不仅了解理论知识，还能掌握实际应用技能。最后对垃圾回收的未来发展趋势进行探讨，
HarmonyOS ArkTS卡片堆叠滑动组件实战与原理详解（含源码）谦和的大熊鸿蒙开发 harmonyos 华为
HarmonyOSArkTS卡片堆叠滑动组件实战与原理详解（含源码）作者：kumaleap|项目地址：ArkSwipeDeckonGitHub一、项目背景与定位随着鸿蒙生态的快速发展，ArkTS组件化开发成为主流。Tinder风格的卡片堆叠滑动交互广泛应用于社交、推荐、内容发现等场景。ArkSwipeDeck致力于为HarmonyOS提供一个高性能、易扩展、纯净的卡片堆叠滑动组件，助力开发者快速实
基于python版本secsgem源码开发gem，该gem作为一个中间平台，既要连接EAP，又要连接探针台，应该如何设置devicetype、connectmode SunkingYang #SECS协议 python gem eap 中间平台三方连接设备类型
文章目录一、角色定义与连接模式设计1.中间平台的双向角色2.核心参数设置二、代码实现步骤1.创建两个独立连接实例2.数据转发逻辑实现三、高级配置与注意事项1.状态机管理2.多线程与异步处理3.协议兼容性4.调试与错误排查四、典型应用场景1.配方管理2.事件与报警处理五、扩展方案（多设备协同）总结基于Python的secsgem库开发中间平台需同时连接EAP（作为Host端）和探针台（作为Equip
虚拟数据室：数据管理的创新解决方案办公效能师人工智能网络大数据
在当今数字化驱动的商业世界里，数据已然成为企业最具价值的资产之一。从机密的商业计划、敏感的财务报表，到关乎知识产权的研发资料，海量且多样的数据贯穿于企业运营的每一个环节。然而，传统的数据管理方式在面对日益增长的数据量、复杂的协作需求以及严苛的安全监管要求时，显得力不从心。此时，虚拟数据室作为一种创新的数据管理解决方案，正以前沿的科技手段和卓越的管理效能，重塑数据管理格局，为企业筑牢数据根基、释放数
基于PHP音乐交流论坛的设计与实现(含源文件) 设计源码分享 java
欢迎添加微信互相交流学习哦！项目源码：https://gitee.com/oklongmm/biye摘要本系统采用PHP语言，在Windows平台上设计实现一个网络论坛，实现了论坛的的基本功能：账户申请、登陆、帖子分类管理、查看、发帖、回帖、送花、加好友、发短信；用户界面亲切友善，便于使用；后台管理简单。本系统之所以坚持PHP与MySQL数据组合，因为在众多的数据库中，MySQL数据库有着特殊的魅
python 会议室预约系统解决方案_会议预约系统_智能会议预约管理系统_轻松实现会议管理解决方案... weixin_39779032 python 会议室预约系统解决方案
随着社会的发展，会议预约管理系统在近年来呈现高速发展，但是各种等级层次不齐。现代办公会议室是组织的公共资源，会议室及其附属的设备构成召开会议的基础环境。广州朗歌公司以提高会议效率为焦点，以会议全过程管理为理念，开发了会议预定管理系统产品。会议室预约管理系统的目标是为会议的准备提供便捷的服务，实时动态的将会议室预定信息，传递到每个会议室门口、大厅及楼梯口等公共通道的显示屏上，实现会议信息发布引导功能
ALLinSSL：一站式SSL证书管理解决方案 ivwdcwso 安全 ssl 网络协议网络安全运维证书
引言在当今互联网安全日益重要的背景下，SSL证书已成为保护网站安全的必备工具。然而，管理多个SSL证书常常是一项繁琐且容易出错的任务。ALLinSSL应运而生，它提供了一个一站式的SSL证书管理解决方案，大大简化了证书的申请、安装和更新过程。本文将深入介绍ALLinSSL的特性、使用方法以及它如何revolutionizeSSL证书管理。ALLinSSL是什么？ALLinSSL是一个综合性的SSL
【网络安全】SSL/TLS协议运行机制详解秋说 ssl 网络网络安全
未经许可，不得转载。文章目录为什么使用SSL/TLSSSL/TLS的历史SSL/TLS运行过程握手过程详解1、客户端请求（ClientHello）2、服务器回应（ServerHello）3、客户端回应4、服务器的最后回应互联网通信的安全性，几乎完全依赖于SSL/TLS协议。理解这一协议的工作机制，对于确保网络安全至关重要。为什么使用SSL/TLS如果不使用SSL/TLS，HTTP通信将完全以明文形
网络资源模板--基于Android Studio 实现的喝水提醒App 编程乐学 Android 网络项目模板 android studio android ide 安卓大作业移动端开发大作业喝水提醒
目录一、测试环境说明二、项目简介三、项目演示四、部设计详情（部分)注册页面首页统计页五、项目源码一、测试环境说明二、项目简介本应用采用经典的MVC（Model-View-Controller）架构，将数据模型（Model）、视图（View）和控制器（Controller）分离，提高代码的可维护性和可扩展性。Model：负责数据的存储和处理，包括用户信息、饮水记录等。使用Room数据库来实现数据的持
网络资源模板--基于Android Studio 实现的天气预报App 编程乐学 Android 网络项目模板安卓课设安卓大作业 androidstudio android 天气预报
目录一、环境说明二、项目简介三、项目演示四、部设计详情（部分)注册页面首页五、项目源码一、环境说明二、项目简介该项目是一个基于Android平台的天气预报应用，使用AndroidStudio开发工具和Java编程语言完成。项目采用了SQLite数据库存储用户数据和地区信息，通过OkHttp实现网络请求获取天气数据，并结合Gson解析JSON格式的天气信息。界面方面使用MaterialDesign设
【花雕学编程】Arduino FOC 之动态角度输入的五连杆分析驴友花雕嵌入式硬件单片机 c++动态角度输入的五连杆分析 Arduino FOC
Arduino是一个开放源码的电子原型平台，它可以让你用简单的硬件和软件来创建各种互动的项目。Arduino的核心是一个微控制器板，它可以通过一系列的引脚来连接各种传感器、执行器、显示器等外部设备。Arduino的编程是基于C/C++语言的，你可以使用ArduinoIDE（集成开发环境）来编写、编译和上传代码到Arduino板上。Arduino还有一个丰富的库和社区，你可以利用它们来扩展Ardui
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

Transformer源码理解(Tensorflow)

代码

hparams.py

argparse库

train.py

logging日志库

读取超参数

准备训练/评估的批数据

使用模型进行训练与评估

训练

data_load.py

load_vocab(vocab_fpath)

get_batch(fpath1, fpath2, maxlen1, maxlen2, vocab_fpath, batch_size, shuffle=False)

load_data(fpath1, fpath2, maxlen1, maxlen2)

input_fn(sents1, sents2, vocab_fpath, batch_size, shuffle=False)

generator_fn(sents1, sents2, vocab_fpath)

encode(inp, type, dict)

model.py

init(self, hp)

encode(self, xs, training=True)

decode(self, ys, memory, src_masks, training=True)

train(self, xs, ys)

eval(self, xs, ys)

modules.py

ln(inputs, epsilon = 1e-8, scope="ln")

get_token_embeddings(vocab_size, num_units, zero_pad=True)

scaled_dot_product_attention(Q, K, V, key_masks, causality=False, dropout_rate=0., training=True, scope="scaled_dot_product_attention")

mask(inputs, key_masks=None, type=None):

multihead_attention(queries, keys, values, key_masks, num_heads=8, dropout_rate=0, training=True, causality=False, scope="multihead_attention")

ff(inputs, num_units, scope="positionwise_feedforward")

label_smoothing(inputs, epsilon=0.1):

positional_encoding(inputs, maxlen, masking=True, scope="positional_encoding"):

noam_scheme(init_lr, global_step, warmup_steps=4000.)

你可能感兴趣的:(源码理解)