MoonLer

Transformer——代码篇

最最前面

本文是边看代码，边思考，边验证写的，所以很杂乱，我个人喜欢记录这样的笔记，方便看到自己的不足。
我尽可能的分块表达。
上半部分代码讲完后，我最后还稍微做了些疑惑验证，很建议首先看。

序

理论基本看完了，宏观认知有了，所以？开始愉快的lu代码把。
一般而言源码解析博客都是对着源码看得，只看博客感觉太重了，本人想不到写源码解析博客有什么好办法，所以这里也只能放代码加解析了。
解析代码：transformer
你可能由于tensorflow版本原因会有一些报错，但都是小问题，原因是原代码的tensorflow版本一些函数被移除了，自己根据报错定位一下，改改就可以了。
有很多注释我觉得加在代码里更清晰，尤其是维度变换，所以，并不是所有的东西都在外面的文字里。代码训练即视感：

我个人没训练，太久了，我就看波源码把，代码作者有训练好的模型，想用的可以去试试。
我主要是跑通代码，至少没有错。跑的时候注意内存大小，你可以自己调超参数防止内存溢出，内存不够也有报错，所以我只能强制cpu上跑，个人显存不够。
PS: 原代码跑起来很慢，如果我们单纯只是想跑通，或者看某一个节点的情况，我们可以删减它原本的train文件（import 那些没有加，是因为我自己Import 的model文件名是自己起的，我怕误导你们），类似于这样，跑起来又快，又利于理解代码，简直不要太爽：

hparams = Hparams()
parser = hparams.parser
hp = parser.parse_args()
save_hparams(hp, hp.logdir)



# 返回dataset
train_batches, num_train_batches, num_train_samples = get_batch(hp.train1, hp.train2,
                                             hp.maxlen1, hp.maxlen2,
                                             hp.vocab, hp.batch_size,
                                             shuffle=True)

eval_batches, num_eval_batches, num_eval_samples = get_batch(hp.eval1, hp.eval2,
                                             100000, 100000,
                                             hp.vocab, hp.batch_size,
                                             shuffle=False)

# create a iterator of the correct shape and type
iter = tf.data.Iterator.from_structure(train_batches.output_types, train_batches.output_shapes)

xs, ys = iter.get_next()

train_init_op = iter.make_initializer(train_batches)
eval_init_op = iter.make_initializer(eval_batches)

logging.info("# Load model")

m = Transformer(hp)

loss, train_op, global_step = m.train(xs, ys)

# 使用cpu
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

with tf.Session() as sess:

    # 数据init
    sess.run(train_init_op)

    sess.run(tf.global_variables_initializer())

    _loss = sess.run(loss) # train loss

    print(_loss)

预处理模块(prepro)

这个不是重点，感兴趣的可以细看，大致做法是：Load raw data -> Preprocessing -> Segmenting with sentencepice
其中sentencepice主要是对数据做BPE处理，这个我也单独成文写过，感兴趣的可以看看。

preprocessing后结果

segmenting with sentencepice后的结果

数据加载模块(data_load)

该文件包含所有关于加载数据以及批量化数据的函数

载入数据

def load_data(fpath1, fpath2, maxlen1, maxlen2):
    '''Loads source and target data and filters out too lengthy samples.
    fpath1: source file path. string.
    fpath2: target file path. string.
    maxlen1: source sent maximum length. scalar.
    maxlen2: target sent maximum length. scalar.

    Returns
    sents1: list of source sents
    sents2: list of target sents
    '''
    sents1, sents2 = [], []
    
    with open(fpath1, 'r') as f1, open(fpath2, 'r') as f2:
        for sent1, sent2 in zip(f1, f2):
            if len(sent1.split()) + 1 > maxlen1: continue # 1: 
            if len(sent2.split()) + 1 > maxlen2: continue  # 1: 
            sents1.append(sent1.strip())
            sents2.append(sent2.strip())
    return sents1, sents2

并没有什么难的，只是个人第一次见到同时加载两个文件的写法，觉得可以贴一贴。

def encode(inp, type, dict):
    '''Converts string to number. Used for `generator_fn`.
    inp: 1d byte array.
    type: "x" (source side) or "y" (target side)
    dict: token2idx dictionary

    Returns
    list of numbers
    '''
    inp_str = inp
    if type=="x": tokens = inp_str.split() + [""]
    else: tokens = [""] + inp_str.split() + [""]

    x = [dict.get(t, dict[""]) for t in tokens]
    return x

神经网络embedding的老套路了，把词的index用于词的表示，方便以后lookup，
这里放上是第一次见到：[dict.get(t, dict["< unk >"]这种写法，很巧秒。

def generator_fn(sents1, sents2, vocab_fpath)：
	token2idx, _ = load_vocab(vocab_fpath)
	for sent1, sent2 in zip(sents1, sents2):
	     x = encode(sent1, "x", token2idx)
	     y = encode(sent2, "y", token2idx)
	     decoder_input, y = y[:-1], y[1:]
	
	     x_seqlen, y_seqlen = len(x), len(y)
	     yield (x, x_seqlen, sent1), (decoder_input, y, y_seqlen, sent2)

这个函数的yield值得说一下： (decoder_input, y, y_seqlen, sent2)，这个和上面那个函数呼应，因为traget句子多一个< s >用于decode的第一个开始，所以这里，decode的input和output不一样。

进入最重要的一个函数

def input_fn(sents1, sents2, vocab_fpath, batch_size, shuffle=False):
    '''Batchify data
    sents1: list of source sents
    sents2: list of target sents
    vocab_fpath: string. vocabulary file path.
    batch_size: scalar
    shuffle: boolean

    Returns
    xs: tuple of
        x: int32 tensor. (N, T1)
        x_seqlens: int32 tensor. (N,)
        sents1: str tensor. (N,)
    ys: tuple of
        decoder_input: int32 tensor. (N, T2)
        y: int32 tensor. (N, T2)
        y_seqlen: int32 tensor. (N, )
        sents2: str tensor. (N,)
    '''
    shapes = (([None], (), ()),
              ([None], [None], (), ()))
    types = ((tf.int32, tf.int32, tf.string),
             (tf.int32, tf.int32, tf.int32, tf.string))
    paddings = ((0, 0, ''),
                (0, 0, 0, ''))

    dataset = tf.data.Dataset.from_generator(
        lambda:generator_fn(sents1, sents2, vocab_fpath),
        output_shapes=shapes,
        output_types=types)

	# 参数参考[5]
    if shuffle: # for training
        dataset = dataset.shuffle(128*batch_size)
	
	# 多个epoch
    dataset = dataset.repeat()  # iterate forever

	# 填充为固定长度，这个shpe没有固定，经验证，默认batch内最大句子的维度
    dataset = dataset.padded_batch(batch_size, shapes, paddings).prefetch(1)

    return dataset

其中 tf.data.Dataset.from_generator可以参考[ 4 ]

一、Tensorflow读入数据的三种方式
1）Feeding：Python代码在运行每一步时提供数据
2）从文件中读取：输入管道从TensorFlow图形的开头读取文件中的数据。
3）预加载数据：TensorFlow图中的常量或变量保存所有数据（对于小数据集）

Dataset API属于第二种方式，使读取数据、复杂的数据格式变换变得更容易

def get_batch(fpath1, fpath2, maxlen1, maxlen2, vocab_fpath, batch_size, shuffle=False):
    '''Gets training / evaluation mini-batches
	    fpath1: source file path. string.
	    fpath2: target file path. string.
	    maxlen1: source sent maximum length. scalar.
	    maxlen2: target sent maximum length. scalar.
	    vocab_fpath: string. vocabulary file path.
	    batch_size: scalar
	    shuffle: boolean
	
	    Returns
	    batches
	    num_batches: number of mini-batches
	    num_samples
    '''
    # ....这还不是一次性加载到内存里了
    sents1, sents2 = load_data(fpath1, fpath2, maxlen1, maxlen2)
    batches = input_fn(sents1, sents2, vocab_fpath, batch_size, shuffle=shuffle)

	# 计算batch个数
    num_batches = calc_num_batches(len(sents1), batch_size)
    
    return batches, num_batches, len(sents1)

模型篇（model）

embedding

词库单词的embedding，这里直接xavier随机初始化了，唯一特别的是最前面加了一行zero_pad,你可以认为填充词的编码为0，也就是第一行是专门针对填充词的编码。他是不变的，而且是常数0，不然填充就有意义了，然后我突然知道，自己以前也同样有这样的操作，**但是我没有设置为常数！！！

self.embeddings = get_token_embeddings(self.hp.vocab_size, self.hp.d_model, zero_pad=True)

def get_token_embeddings(vocab_size, num_units, zero_pad=True):
    '''Constructs token embedding matrix.
    Note that the column of index 0's are set to zeros.
    vocab_size: scalar. V.
    num_units: embedding dimensionalty. E.
    zero_pad: Boolean. If True, all the values of the first row (id = 0) should be constant zero
    To apply query/key masks easily, zero pad is turned on.

    Returns
    weight variable: (V, E)
    '''
    with tf.variable_scope("shared_weight_matrix"):
        embeddings = tf.get_variable('weight_mat',
                                   dtype=tf.float32,
                                   shape=(vocab_size, num_units),
                                   initializer=tf.contrib.layers.xavier_initializer())
        if zero_pad:
            embeddings = tf.concat((tf.zeros(shape=[1, num_units]),
                                    embeddings[1:, :]), 0)
    return embeddings

positional_encoding

def positional_encoding(inputs,
                        maxlen,
                        masking=True,
                        scope="positional_encoding"):
    '''Sinusoidal Positional_Encoding. See 3.5
    inputs: 3d tensor. (N, T, E)
    maxlen: scalar. Must be >= T
    masking: Boolean. If True, padding positions are set to zeros.
    scope: Optional scope for `variable_scope`.

    returns
    3d tensor that has the same shape as inputs.
    '''
	# 和embedding一样，方便相加
    E = inputs.get_shape().as_list()[-1] # static
    
    N, T = tf.shape(inputs)[0], tf.shape(inputs)[1] # dynamic
    
    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):
    
        # position indices,T最大长度，N：batc_size,纵向维度
        position_ind = tf.tile(tf.expand_dims(tf.range(T), 0), [N, 1]) # (N, T)

        # First part of the PE function: sin and cos argument
        position_enc = np.array([
            [pos / np.power(10000, (i-i%2)/E) for i in range(E)]
            for pos in range(maxlen)])

        # Second part, apply the cosine to even columns and sin to odds.
        position_enc[:, 0::2] = np.sin(position_enc[:, 0::2])  # dim 2i
        position_enc[:, 1::2] = np.cos(position_enc[:, 1::2])  # dim 2i+1
        position_enc = tf.convert_to_tensor(position_enc, tf.float32) # (maxlen, E)

        # lookup
        # position_enc整个长度都编码，这里是找对应的编码
        outputs = tf.nn.embedding_lookup(position_enc, position_ind)

        # masks
        # 原先位置为0的位置，仍然为0
        if masking:
            outputs = tf.where(tf.equal(inputs, 0), inputs, outputs)
            
        return tf.to_float(outputs)

其实就是根据公式进行位置编码，但是其中的维度变换亮瞎了我的眼，还好老子会print这种大法。
position_ind维度是[ N,T ] N,T是变化的，它究竟是什么？
类似于这种，它的作用其实就是索引，没其他用。
position_enc你可以看作position的embedding，他是根据上面的公式计算的，关键是，他的维度是[maxlen, E]，请注意，maxlen不等于T。把这个信息利用起来的，是look_up这个我小瞧了的函数，我只用过一维索引，二维索引是什么效果？见下：
你可以理解为，这时候我索引的第一维度表示句子个数（batch）,第二维度表示句子里的单词数（T）,所以它直接将整个batch的位置编码直接给弄出来了。
所以最后的维度是？
[N,T,E]
但是我一直有一点疑惑是，这里我在load_data里填充过数据了，这里为什么还是不定长的T1,个人分析是,padding_batch时用的不定长维度，所以默认该batch内最大长度为标准填充，而不是整个都用一个维度填充，自己这个函数用的不熟，暂时只是猜测。这里对padding的部分编码了也没问题，我们有mask标记。

encode

    def encode(self, xs, training=True):
        '''
        Returns
        memory: encoder outputs. (N, T1, d_model)
        '''
        with tf.variable_scope("encoder", reuse=tf.AUTO_REUSE):

            x, seqlens, sents1 = xs

            # src_masks
            # 对比这两个矩阵或者向量的相等的元素，如果是相等的那就返回True，反正返回False，返回的值的矩阵维度和A是一样的
            # 找句子里面填充为0的位置
            # (N, T1)
            src_masks = tf.equal(x, 0) 

            # embedding
            enc = tf.nn.embedding_lookup(self.embeddings, x) # (N, T1, d_model)
		
			# 去除维度的影响
            enc *= self.hp.d_model**0.5 # scale

			# 句子加上位置信息
            enc += positional_encoding(enc, self.hp.maxlen1)
            enc = tf.layers.dropout(enc, self.hp.dropout_rate, training=training)

            ## Blocks
            for i in range(self.hp.num_blocks):
                with tf.variable_scope("num_blocks_{}".format(i), reuse=tf.AUTO_REUSE):
                    # self-attention
                    enc = multihead_attention(queries=enc,
                                              keys=enc,
                                              values=enc,
                                              key_masks=src_masks,
                                              num_heads=self.hp.num_heads,
                                              dropout_rate=self.hp.dropout_rate,
                                              training=training,
                                              causality=False)
                    # feed forward
                    enc = ff(enc, num_units=[self.hp.d_ff, self.hp.d_model])
                    
        # 最后输出：(N, T1, d_model)            
        memory = enc
        return memory, sents1, src_masks

multi-attention

def multihead_attention(queries, keys, values, key_masks,
                        num_heads=8, 
                        dropout_rate=0,
                        training=True,
                        causality=False,
                        scope="multihead_attention"):
    '''Applies multihead attention. See 3.2.2
    queries: A 3d tensor with shape of [N, T_q, d_model].
    keys: A 3d tensor with shape of [N, T_k, d_model].
    values: A 3d tensor with shape of [N, T_k, d_model].
    key_masks: A 2d tensor with shape of [N, key_seqlen]
    num_heads: An int. Number of heads.
    dropout_rate: A floating point number.
    training: Boolean. Controller of mechanism for dropout.
    causality: Boolean. If true, units that reference the future are masked.
    scope: Optional scope for `variable_scope`.
        
    Returns
      A 3d tensor with shape of (N, T_q, C)  
    '''
    
    d_model = queries.get_shape().as_list()[-1]
    
    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):
    
        # Linear projections
        # 前向传播，Q,K,V计算
        Q = tf.layers.dense(queries, d_model, use_bias=True) # (N, T_q, d_model)
        K = tf.layers.dense(keys, d_model, use_bias=True) # (N, T_k, d_model)
        V = tf.layers.dense(values, d_model, use_bias=True) # (N, T_k, d_model)
        
        # Split and concat
        Q_ = tf.concat(tf.split(Q, num_heads, axis=2), axis=0) # (h*N, T_q, d_model/h)
        K_ = tf.concat(tf.split(K, num_heads, axis=2), axis=0) # (h*N, T_k, d_model/h)
        V_ = tf.concat(tf.split(V, num_heads, axis=2), axis=0) # (h*N, T_k, d_model/h)

        # Q_, K_, V_ 计算Attention
        outputs = scaled_dot_product_attention(Q_, K_, V_, key_masks, causality, dropout_rate, training)

        # Restore shape
        outputs = tf.concat(tf.split(outputs, num_heads, axis=0), axis=2 ) # (N, T_q, d_model)
              
        # Residual connection
        outputs += queries
              
        # Normalize (N, T_q, d_model)
        outputs = ln(outputs)
 
    return outputs

Attention计算

计算Q,K,V

计算相似度+softmax

def scaled_dot_product_attention(Q, K, V, key_masks,
                                 causality=False, dropout_rate=0.,
                                 training=True,
                                 scope="scaled_dot_product_attention"):
    '''See 3.2.1.
	    Q: Packed queries. 3d tensor. [N, T_q, d_k].
	    K: Packed keys. 3d tensor. [N, T_k, d_k].
	    V: Packed values. 3d tensor. [N, T_k, d_v].
	    key_masks: A 2d tensor with shape of [N, key_seqlen]
	    causality: If True, applies masking for future blinding
	    dropout_rate: A floating point number of [0, 1].
	    training: boolean for controlling droput
	    scope: Optional scope for `variable_scope`.
    '''
    
    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):
        d_k = Q.get_shape().as_list()[-1]
        
        # 计算Q,K相似度。
        # Q: (h*N, T_q, d_model/h)  V: (h*N, T_k, d_model/h),其中 T_q == T_k
        # tf.transpose,高维度矩阵转置，输出维度:(h*N, d_model/h,T_k)
        # tf.matmul，最后两维度做矩阵乘法，所以最后维度为：
        # (h*N, T_q, T_k)
        outputs = tf.matmul(Q, tf.transpose(K, [0, 2, 1]))

        # scale，同样，对值scale有点不清楚为啥
        outputs /= d_k ** 0.5

        # key_masks: [N, key_seqlen]
        # outputs维度不会变化
        outputs = mask(outputs, key_masks=key_masks, type="key")

        # causality or future blinding masking
        if causality:
            outputs = mask(outputs, type="future")

        # softmax，数值转化为概率
        outputs = tf.nn.softmax(outputs)
        
        # (h*N, T_k，T_q)，这个转变只为了下面画图
        attention = tf.transpose(outputs, [0, 2, 1])
        
        # tensorboard记录，相当于attention可视化，但是注意：
        # TensorBord中看到的image summary永远是最后一个global step的
        tf.summary.image("attention", tf.expand_dims(attention[:1], -1))


        # dropout
        outputs = tf.layers.dropout(outputs, rate=dropout_rate, training=training)

        # weighted sum (context vectors)
        outputs = tf.matmul(outputs, V)  # (N, T_q, d_v)

    return outputs

masking

解决填充问题：Masks paddings on keys or queries to inputs
想让那些key值的unit为0的key对应的attention score极小，这样在加权计算value的时候相当于对结果不造成影响。
代码内其实有点乱的是维度变化，我们先不管维度，先看一下他在干啥？？我举一个简单的例子：

上图代码思路基本就是其paading_mask的思路

def mask(inputs, key_masks=None, type=None):
    """Masks paddings on keys or queries to inputs
	    inputs: 3d tensor. (h*N, T_q, T_k)
	    key_masks: 3d tensor. (N, 1, T_k)
	    type: string. "key" | "future"
	
	    e.g.,
	    >> inputs = tf.zeros([2, 2, 3], dtype=tf.float32)
	    >> key_masks = tf.constant([[0., 0., 1.],
	                                [0., 1., 1.]])
	    >> mask(inputs, key_masks=key_masks, type="key")
	    array([[[ 0.0000000e+00,  0.0000000e+00, -4.2949673e+09],
	        [ 0.0000000e+00,  0.0000000e+00, -4.2949673e+09]],
	
	       [[ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09],
	        [ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09]],
	
	       [[ 0.0000000e+00,  0.0000000e+00, -4.2949673e+09],
	        [ 0.0000000e+00,  0.0000000e+00, -4.2949673e+09]],
	
	       [[ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09],
	        [ 0.0000000e+00, -4.2949673e+09, -4.2949673e+09]]], dtype=float32)
    """
    
    padding_num = -2 ** 32 + 1
    
    # padding_mask
    if type in ("k", "key", "keys"):
    	# [N,T1]
    	# True矩阵转化为float
        key_masks = tf.to_float(key_masks)
        
        # tf.title(key_masks,[h,1]) #同一维度上复制的次数
        # 目的是：对应多头的attention
        # 输出： (h*N, T1)
        key_masks = tf.tile(key_masks, [tf.shape(inputs)[0] // tf.shape(key_masks)[0], 1]) 
        
        # 扩充维度为：（ h*N, 1, T1)，行之间广播
        # 要mask的目标： （h*N, T_q, T_k）
        key_masks = tf.expand_dims(key_masks, 1) 
        
        # 最后效果如上，需要mask的地方，全都为很小的负数。
        outputs = inputs + key_masks * padding_num
        
    # 屏蔽未来信息    
    elif type in ("f", "future", "right"):
    
        diag_vals = tf.ones_like(inputs[0, :, :])  # (T_q, T_k)
        
        # 右上叫全为0的矩阵
        tril = tf.linalg.LinearOperatorLowerTriangular(diag_vals).to_dense()  # (T_q, T_k)
		
		# 将上面的操作扩充到batch里
        future_masks = tf.tile(tf.expand_dims(tril, 0), [tf.shape(inputs)[0], 1, 1])  # (N, T_q, T_k)

        paddings = tf.ones_like(future_masks) * padding_num
		
		# 太强了
        outputs = tf.where(tf.equal(future_masks, 0), paddings, inputs)
    else:
        print("Check if you entered type correctly!")

    return outputs

我们先来形容一下他在干什么，然后说它怎么做。
encoder时的目的是特征提取，什么顾虑都没有。但是到decoder时，每一个对应位置的attention就不能这么弄了，它要加入一个限制条件，不能看到未来信息。简单来说，就是第一个词对应的输出，他的attention计算时，q,k,v不能用用第一个以后的计算，但是！为了维度统一，为了方便我们可以用矩阵实现，我们还是照常算attention,但是算出的结果我们要处理一下。怎么处理，见下面的说明，关键就是那个三角阵（不理解可以注意三角阵的维度：[q,k]）
怎么屏蔽未来信息？
该部分实现还是比较巧妙的，利用了一个三角阵的构思来实现。下面详细介绍。
首先定义一个和outputs后两维的shape相同shape（T_q,T_k）的一个张量（矩阵）。
然后将该矩阵转为三角阵tril。三角阵中，对于每一个T_q,凡是那些大于它角标的T_k值全都为0，这样作为mask就可以让query只取它之前的key（self attention中query即key）。由于该规律适用于所有query，接下来仍用tile扩展堆叠其第一个维度，构成masks，shape为(h*N, T_q,T_k).

layer normalizition层（ln）

def ln(inputs, epsilon = 1e-8, scope="ln"):

    '''Applies layer normalization. See https://arxiv.org/abs/1607.06450.
	    inputs: A tensor with 2 or more dimensions, where the first dimension has `batch_size`.
	    epsilon: A floating number. A very small number for preventing ZeroDivision Error.
	    scope: Optional scope for `variable_scope`.    
    Returns:
      A tensor with the same shape and data dtype as `inputs`.
    '''
    
    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):
        inputs_shape = inputs.get_shape()
        params_shape = inputs_shape[-1:]
   
    	# 求均值，方差，以最后一维度求解， (N, T_q, d_model)
    	# 意味着只针对对应位置的输出
        mean, variance = tf.nn.moments(inputs, [-1], keep_dims=True)
        
        beta= tf.get_variable("beta", params_shape, initializer=tf.zeros_initializer())
        
        gamma = tf.get_variable("gamma", params_shape, initializer=tf.ones_initializer())
        
        normalized = (inputs - mean) / ( (variance + epsilon) ** (.5) )
        
        outputs = gamma * normalized + beta
        
    return outputs

ff（前馈神经网络层）

def ff(inputs, num_units, scope="positionwise_feedforward"):
    '''position-wise feed forward net. See 3.3
    
	    inputs: A 3d tensor with shape of [N, T, C].
	    num_units: A list of two integers.
	    scope: Optional scope for `variable_scope`.

    Returns:
      A 3d tensor with the same shape and dtype as inputs
    '''
    
    with tf.variable_scope(scope, reuse=tf.AUTO_REUSE):
    
        # Inner layer
        # num_units : [self.hp.d_ff, self.hp.d_model], 默认为[2048,512]
        # outputs: [N,T,d_ff]
        outputs = tf.layers.dense(inputs, num_units[0], activation=tf.nn.relu)

        # Outer layer
        # [N,T,d_model]
        outputs = tf.layers.dense(outputs, num_units[1])

        # Residual connection
        outputs += inputs
        
        # Normalize
        outputs = ln(outputs)
    
    return outputs

decoder部分

  def decode(self, ys, memory, src_masks, training=True):
       '''
	       memory: encoder outputs. (N, T1, d_model)
	       src_masks: (N, T1)
	
	       Returns
	       logits: (N, T2, V). float32.
	       y_hat: (N, T2). int32
	       y: (N, T2). int32
	       sents2: (N,). string.
       '''
       
       with tf.variable_scope("decoder", reuse=tf.AUTO_REUSE):
           decoder_inputs, y, seqlens, sents2 = ys

           # tgt_masks
           tgt_masks = tf.equal(decoder_inputs, 0)  # (N, T2)

           # embedding
           dec = tf.nn.embedding_lookup(self.embeddings, decoder_inputs)  # (N, T2, d_model)
           dec *= self.hp.d_model ** 0.5  # scale

           dec += positional_encoding(dec, self.hp.maxlen2)
           dec = tf.layers.dropout(dec, self.hp.dropout_rate, training=training)

           # Blocks
           for i in range(self.hp.num_blocks):
               with tf.variable_scope("num_blocks_{}".format(i), reuse=tf.AUTO_REUSE):
                   # Masked self-attention (Note that causality is True at this time)
                   dec = multihead_attention(queries=dec,
                                             keys=dec,
                                             values=dec,
                                             key_masks=tgt_masks,
                                             num_heads=self.hp.num_heads,
                                             dropout_rate=self.hp.dropout_rate,
                                             training=training,
                                             causality=True,
                                             scope="self_attention")

                   # Vanilla attention,中间层
                   dec = multihead_attention(queries=dec,
                                             keys=memory,
                                             values=memory,
                                             key_masks=src_masks,
                                             num_heads=self.hp.num_heads,
                                             dropout_rate=self.hp.dropout_rate,
                                             training=training,
                                             causality=False,
                                             scope="vanilla_attention")
                   ### Feed Forward
                   dec = ff(dec, num_units=[self.hp.d_ff, self.hp.d_model])

       # Final linear projection (embedding weights are shared)
       
       weights = tf.transpose(self.embeddings) # (d_model, vocab_size)
       
       # 也是一种矩阵乘法，三维和二维之间
       logits = tf.einsum('ntd,dk->ntk', dec, weights) # (N, T2, vocab_size)
       
       # (N, T2)
       y_hat = tf.to_int32(tf.argmax(logits, axis=-1))

       return logits, y_hat, y, sents2

最后输出部分可以看：

我觉得唯一一个需要注意的点就是，我可能被一个讲解给误导了：常里来说，讲decode时，都会讲出一种循环的味道，但其实，这里没有循环操作！！！！没有！！
decode的input是（< s >，你）对应的label是( 你，好)，你完全可以看作一个独立的模块一次执行，只不过，这个模块，用了encode出来的memory信息，同时加上了防止未来信息泄漏的mask，可以说，mask的引入，使得我们不需要循环操作了。

train

模型搭建后训练操作，无非就那点东西。

额外探索

bleu评分

全称为Bilingual Evaluation Understudy（双语评估替换），是一种对生成语句进行评估的指标，用于比较候选文本翻译与其他一个或多个参考翻译的评价分数。其实就是一个公式，可以看一下下面的博客（当然相关介绍还有很多，这个评分就不展开了，通用方法）
浅谈BLEU评分

输入数据维度的探索

上面说了，我对填充完后的数据表示很疑惑，到底是最大长度填充，还是batch内最大句子长度填充，所以我就来了波玄学探索
32是我的batch_size,44是句子长度，但我的最大句子长度是100,噢或！我看到了什么，我猜对了！
我们打印两次：
验证一个猜想后，我又一个疑惑出来了，输出的句子维度动态变化，我的模型接受数据也动态变化？不可能啊（可能我都是填充一个相同维度惯了）

再探索encode的维度

拿我们的source数据举例子，它进入encdoe时，会经过下面的代码，提取出Q,K,V，那我们打印一下Q的维度

Q = tf.layers.dense(queries, d_model, use_bias=True)  # (N, T_q, d_model)

???
我们注意！layers.dense改变的只是最后一维的维度（embedding_size），当我们设定好后，他是固定的，所以，句子的长度变化不影响这一层的权重（ps:后补充，因为句子里的每一个单词都用同一个）。所以这里可以看作一个权重，不然随着句子长度变化，权重维度不断变化…想多了。不可能。
我们寻找下一个tf.Variable，看看这个句子长度变换对它的影响。

enc = ff(enc, num_units=[self.hp.d_ff, self.hp.d_model])

# Inner layer
outputs = tf.layers.dense(inputs, num_units[0], activation=tf.nn.relu)

# Outer layer
outputs = tf.layers.dense(outputs, num_units[1])

# Residual connection
outputs += inputs

# Normalize
outputs = ln(outputs)

这个num_units是人工设置的，相当于这里又是，句子长度变化，不影响这个权重参数。
然后encode里就没参数了…???
所以我句子长度一直变，是没事儿的，虽然它常理上违反我的认知（给我一种那参数权重不久一直变的错觉！！！）
上一张图自己笔记里的图：

一种自己没仔细思考，自己吃苦果的mmp心情…
那我觉得我还想看一下，decoder里，有一个attention很特殊接受两个信息，我还想看看它，就是下面这个：

上面那三个箭头对应：
		queries=dec,
		keys=memory,
		values=memory

我觉得要是理解attention的应该对这个很熟悉，这个其实就不是self-attention了，更像attention，query是target的Hi-1，我从memory里做相似性匹配（所谓的对齐），找利于我翻译的信息。
So，直白点，这一层往上走的信息还是从memory里提取的，但是怎么提取，要看我现在已经产生的traget，其实就是注意力机制。

label smoothing

把之前的one_hot中的0改成了一个很小的数，1改成了一个比较接近于1的数
个人没有探究为啥这样做。

def label_smoothing(inputs, epsilon=0.1):
    '''Applies label smoothing. See 5.4 and https://arxiv.org/abs/1512.00567.
		    inputs: 3d tensor. [N, T, V], where V is the number of vocabulary.
		    epsilon: Smoothing rate.
		    
		    For example,
		    
		    ```
		    import tensorflow as tf
		    inputs = tf.convert_to_tensor([[[0, 0, 1], 
		       [0, 1, 0],
		       [1, 0, 0]],
		
		      [[1, 0, 0],
		       [1, 0, 0],
		       [0, 1, 0]]], tf.float32)
		       完毕
		    outputs = label_smoothing(inputs)
		    
		    with tf.Session() as sess:
		        print(sess.run([outputs]))
		    
		    >>
		    [array([[[ 0.03333334,  0.03333334,  0.93333334],
		        [ 0.03333334,  0.93333334,  0.03333334],
		        [ 0.93333334,  0.03333334,  0.03333334]],
		
		       [[ 0.93333334,  0.03333334,  0.03333334],
		        [ 0.93333334,  0.03333334,  0.03333334],
		        [ 0.03333334,  0.93333334,  0.03333334]]], dtype=float32)]   
		    ```
	'''
	
    V = inputs.get_shape().as_list()[-1] # number of channels
    return ((1-epsilon) * inputs) + (epsilon / V)

datasets

代码里用了tf.data.Dataset的API，像我这种用惯了place_holder的人一下子不习惯，可以参考下面教程：
简单教程

END

本人疑惑的坑全部填完

本文完！

参考

[ 1 ]The Annotated Transformer

[ 2 ]A TensorFlow Implementation of the Transformer: Attention Is All You Need

[ 3 ]机器翻译模型Transformer代码详细解析

[ 4 ]ensorflow中API------tf.data.Dataset使用

[ 5 ]tf.data.Dataset.shuffle(buffer_size)中buffer_size的理解

[ 6 ] tensorflow 多张量计算

[ 7 ]einsum的基础使用

[ 8 ]浅谈BLEU评分

你可能感兴趣的:(NLP,deeplearning)

深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟