aumii44448

TensorFlow 2.0 教程25：Transformer

　　这里我们将实现一个Transformer模型，将葡萄牙语翻译为英语。Transformer的核心思想是self-attention–通过关注序列不同位置的内容获取句子的表示。

　　Transformer的一些优点：

　　不受限于数据的时间/空间关系

　　可以并行计算

　　远距离token的相互影响不需要通过很长的时间步或很深的卷积层

　　可以学习远程依赖

　　Transformer的缺点：

　　对于时间序列，输出需要根据整个历史，而不是当前状态和输入，可能造成效率较低

　　如果想要获取时间空间信息，需要额外的位置编码

　　from __future__ import absolute_import, division, print_function, unicode_literals

　　# 安装tfds pip install tfds-nightly==1.0.2.dev201904090105

　　import tensorflow_datasets as tfds

　　import tensorflow as tf

　　import tensorflow.keras.layers as layers

　　import time

　　import numpy as np

　　import matplotlib.pyplot as plt

　　print(tf.__version__)

　　2.0.0-alpha0

　　1.数据输入pipeline

　　我们将使用到Portugese-English翻译数据集。

　　该数据集包含大约50000个训练样例，1100个验证示例和2000个测试示例。

　　examples, metadata = tfds.load('ted_hrlr_translate/pt_to_en', with_info=True,

　　as_supervised=True)

　　将数据转化为subwords格式

　　train_examples, val_examples = examples['train'], examples['validation']

　　tokenizer_en = tfds.features.text.SubwordTextEncoder.build_from_corpus(

　　(en.numpy() for pt, en in train_examples), target_vocab_size=2**13)

　　tokenizer_pt = tfds.features.text.SubwordTextEncoder.build_from_corpus(

　　(pt.numpy() for pt, en in train_examples), target_vocab_size=2**13)

　　token转化测试

　　sample_str = 'hello world, tensorflow 2'

　　tokenized_str = tokenizer_en.encode(sample_str)

　　print(tokenized_str)

　　original_str = tokenizer_en.decode(tokenized_str)

　　print(original_str)

　　[3222, 439, 150, 7345, 1378, 2824, 2370, 7881]

　　hello world, tensorflow 2

　　添加start、end的token表示

　　def encode(lang1, lang2):

　　lang1 = [tokenizer_pt.vocab_size] + tokenizer_pt.encode(

　　lang1.numpy()) + [tokenizer_pt.vocab_size+1]

　　lang2 = [tokenizer_en.vocab_size] + tokenizer_en.encode(

　　lang2.numpy()) + [tokenizer_en.vocab_size+1]

　　return lang1, lang2

　　过滤长度超过40的数据

　　MAX_LENGTH=40

　　def filter_long_sent(x, y, max_length=MAX_LENGTH):

　　return tf.logical_and(tf.size(x) <= max_length,

　　tf.size(y) <= max_length)

　　将python运算，转换为tensorflow运算节点

　　def tf_encode(pt, en):

　　return tf.py_function(encode, [pt, en], [tf.int64, tf.int64])

　　构造数据集

　　BUFFER_SIZE = 20000

　　BATCH_SIZE = 64

　　# 使用.map()运行相关图操作

　　train_dataset = train_examples.map(tf_encode)

　　# 过滤过长的数据

　　train_dataset = train_dataset.filter(filter_long_sent)

　　# 使用缓存数据加速读入

　　train_dataset = train_dataset.cache()

　　# 打乱并获取批数据

　　train_dataset = train_dataset.padded_batch(

　　BATCH_SIZE, padded_shapes=([40], [40])) # 填充为最大长度-90

　　# 设置预取数据

　　train_dataset = train_dataset.prefetch(tf.data.experimental.AUTOTUNE)

　　# 验证集数据

　　val_dataset = val_examples.map(tf_encode)

　　val_dataset = val_dataset.filter(filter_long_sent).padded_batch(

　　BATCH_SIZE, padded_shapes=([40], [40]))

　　de_batch, en_batch = next(iter(train_dataset))

　　de_batch, en_batch

　　(

　　array([[8214, 116, 84, ..., 0, 0, 0],

　　[8214, 7, 261, ..., 0, 0, 0],

　　[8214, 155, 39, ..., 0, 0, 0],

　　...,

　　[8214, 639, 590, ..., 0, 0, 0],

　　[8214, 204, 3441, ..., 0, 0, 0],

　　[8214, 27, 13, ..., 0, 0, 0]])>,

　　array([[8087, 83, 145, ..., 0, 0, 0],

　　[8087, 4670, 1783, ..., 0, 0, 0],

　　[8087, 169, 56, ..., 0, 0, 0],

　　...,

　　[8087, 174, 79, ..., 0, 0, 0],

　　[8087, 11, 16, ..., 0, 0, 0],

　　[8087, 4, 12, ..., 0, 0, 0]])>)

　　2.位置嵌入

　　将位置编码矢量添加得到词嵌入，相同位置的词嵌入将会更接近，但并不能直接编码相对位置

　　基于角度的位置编码方法如下：

　　PE(pos,2i)=sin(pos/100002i/dmodel)\Large{PE_{(pos, 2i)} = sin(pos / 10000^{2i / d_{model}})} PE(pos,2i)=sin(pos/100002i/dmodel)

　　PE(pos,2i+1)=cos(pos/100002i/dmodel)\Large{PE_{(pos, 2i+1)} = cos(pos / 10000^{2i / d_{model}})} PE(pos,2i+1)=cos(pos/100002i/dmodel)

　　def get_angles(pos, i, d_model):

　　# 这里的i等价与上面公式中的2i和2i+1

　　angle_rates = 1 / np.power(10000, (2*(i // 2))/ np.float32(d_model))

　　return pos * angle_rates

　　def positional_encoding(position, d_model):

　　angle_rads = get_angles(np.arange(position)[:, np.newaxis],

　　np.arange(d_model)[np.newaxis,:],

　　d_model)

　　# 第2i项使用sin

　　sines = np.sin(angle_rads[:, 0::2])

　　# 第2i+1项使用cos

　　cones = np.cos(angle_rads[:, 1::2])

　　pos_encoding = np.concatenate([sines, cones], axis=-1)

　　pos_encoding = pos_encoding[np.newaxis, ...]

　　return tf.cast(pos_encoding, dtype=tf.float32)

　　获得位置嵌入编码

　　pos_encoding = positional_encoding(50, 512)

　　print(pos_encoding.shape)

　　plt.pcolormesh(pos_encoding[0], cmap='RdBu')

　　plt.xlabel('Depth')

　　plt.xlim((0, 512))

　　plt.ylabel('Position')

　　plt.colorbar()

　　plt.show() # 在这里左右边分别为原来2i 和 2i+1的特征

　　(1, 50, 512)

　　3.掩码

　　为了避免输入中padding的token对句子语义的影响，需要将padding位mark掉，原来为0的padding项的mark输出为1

　　def create_padding_mark(seq):

　　# 获取为0的padding项

　　seq = tf.cast(tf.math.equal(seq, 0), tf.float32)

　　# 扩充维度以便用于attention矩阵

　　return seq[:, np.newaxis, np.newaxis, :] # (batch_size,1,1,seq_len)

　　# mark 测试

　　create_padding_mark([[1,2,0,0,3],[3,4,5,0,0]])

　　array([[[[0., 0., 1., 1., 0.]]],

　　[[[0., 0., 0., 1., 1.]]]], dtype=float32)>

　　look-ahead mask 用于对未预测的token进行掩码

　　这意味着要预测第三个单词，只会使用第一个和第二个单词。要预测第四个单词，仅使用第一个，第二个和第三个单词，依此类推。

　　def create_look_ahead_mark(size):

　　# 1 - 对角线和取下三角的全部对角线(-1->全部)

　　# 这样就可以构造出每个时刻未预测token的掩码

　　mark = 1 - tf.linalg.band_part(tf.ones((size, size)), -1, 0)

　　return mark # (seq_len, seq_len)

　　# x = tf.random.uniform((1,3))

　　temp = create_look_ahead_mark(3)

　　print(temp)

　　tf.Tensor(

　　[[0. 1. 1.]

　　[0. 0. 1.]

　　[0. 0. 0.]], shape=(3, 3), dtype=float32)

　　4.Scaled dot product attention

　　进行attention计算的时候有3个输入 Q (query), K (key), V (value)。计算公式如下：

　　Attention(Q,K,V)=softmaxk(QKTdk)V\Large{Attention(Q, K, V) = softmax_k(\frac{QK^T}{\sqrt{d_k}}) V} Attention(Q,K,V)=softmaxk(dkQKT)V

　　点积注意力通过深度d_k的平方根进行缩放,因为较大的深度会使点积变大，由于使用softmax，会使梯度变小。

　　例如，考虑Q和K的均值为0且方差为1.它们的矩阵乘法的均值为0，方差为dk。我们使用dk的根用于缩放(而不是任何其他数字)，因为Q和K的matmul应该具有0的均值和1的方差。

　　在这里我们将被掩码的token乘以-1e9(表示负无穷),这样softmax之后就为0,不对其他token产生影响。

　　def scaled_dot_product_attention(q, k, v, mask):

　　# query key 相乘获取匹配关系

　　matmul_qk = tf.matmul(q, k, transpose_b=True)

　　# 使用dk进行缩放

　　dk = tf.cast(tf.shape(k)[-1], tf.float32)

　　scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)

　　# 掩码

　　if mask is not None:

　　scaled_attention_logits += (mask * -1e9)

　　# 通过softmax获取attention权重

　　attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)

　　# attention 乘上value

　　output = tf.matmul(attention_weights, v) # (.., seq_len_v, depth)

　　return output, attention_weights

　　使用attention获取需要关注的语义

　　def print_out(q, k, v):

　　temp_out, temp_att = scaled_dot_product_attention(

　　q, k, v, None)

　　print('attention weight:')

　　print(temp_att)

　　print('output:')

　　print(temp_out)

　　attention测试

　　# 显示为numpy类型

　　np.set_printoptions(suppress=True)

　　temp_k = tf.constant([[10,0,0],

　　[0,10,0],

　　[0,0,10],

　　[0,0,10]], dtype=tf.float32) # (4, 3)

　　temp_v = tf.constant([[ 1,0],

　　[ 10,0],

　　[ 100,5],

　　[1000,6]], dtype=tf.float32) # (4, 3)

　　# 关注第2个key, 返回对应的value

　　temp_q = tf.constant([[0,10,0]], dtype=tf.float32)

　　print_out(temp_q, temp_k, temp_v)

　　attention weight:

　　tf.Tensor([[0. 1. 0. 0.]], shape=(1, 4), dtype=float32)

　　output:

　　tf.Tensor([[10. 0.]], shape=(1, 2), dtype=float32)

　　# 关注重复的key(第3、4个), 返回对应的value(平均)

　　temp_q = tf.constant([[0,0,10]], dtype=tf.float32)

　　print_out(temp_q, temp_k, temp_v)

　　attention weight:

　　tf.Tensor([[0. 0. 0.5 0.5]], shape=(1, 4), dtype=float32)

　　output:

　　tf.Tensor([[550. 5.5]], shape=(1, 2), dtype=float32)

　　# 关注第1、2个key, 返回对应的value(平均)

　　temp_q = tf.constant([[10,10,0]], dtype=tf.float32)

　　print_out(temp_q, temp_k, temp_v)

　　attention weight:

　　tf.Tensor([[0.5 0.5 0. 0. ]], shape=(1, 4), dtype=float32)

　　output:

　　tf.Tensor([[5.5 0. ]], shape=(1, 2), dtype=float32)

　　# 依次放入每个query

　　temp_q = tf.constant([[0, 0, 10], [0, 10, 0], [10, 10, 0]], dtype=tf.float32) # (3, 3)

　　print_out(temp_q, temp_k, temp_v)

　　attention weight:

　　tf.Tensor(

　　[[0. 0. 0.5 0.5]

　　[0. 1. 0. 0. ]

　　[0.5 0.5 0. 0. ]], shape=(3, 4), dtype=float32)

　　output:

　　tf.Tensor(

　　[[550. 5.5]

　　[ 10. 0. ]

　　[ 5.5 0. ]], shape=(3, 2), dtype=float32)

　　5.Mutil-Head Attention

　　mutil-head attention包含3部分：

　　线性层与分头

　　缩放点积注意力

　　头连接

　　末尾线性层

　　每个多头注意块有三个输入; Q(查询)，K(密钥)，V(值)。它们通过第一层线性层并分成多个头。

　　注意:点积注意力时需要使用mask，多头输出需要使用tf.transpose调整各维度。

　　Q，K和V不是一个单独的注意头，而是分成多个头，因为它允许模型共同参与来自不同表征空间的不同信息。在拆分之后，每个头部具有降低的维度，总计算成本与具有全维度的单个头部注意力相同。

　　# 构造mutil head attention层

　　class MutilHeadAttention(tf.keras.layers.Layer):

　　def __init__(self, d_model, num_heads):

　　super(MutilHeadAttention, self).__init__()

　　self.num_heads = num_heads

　　self.d_model = d_model

　　# d_model 必须可以正确分为各个头

　　assert d_model % num_heads == 0

　　# 分头后的维度

　　self.depth = d_model // num_heads

　　self.wq = tf.keras.layers.Dense(d_model)

　　self.wk = tf.keras.layers.Dense(d_model)

　　self.wv = tf.keras.layers.Dense(d_model)

　　self.dense = tf.keras.layers.Dense(d_model)

　　def split_heads(self, x, batch_size):

　　# 分头, 将头个数的维度放到 seq_len 前面

　　x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))

　　return tf.transpose(x, perm=[0, 2, 1, 3])

　　def call(self, v, k, q, mask):

　　batch_size = tf.shape(q)[0]

　　# 分头前的前向网络，获取q、k、v语义

　　q = self.wq(q) # (batch_size, seq_len, d_model)

　　k = self.wk(k)

　　v = self.wv(v)

　　# 分头

　　q = self.split_heads(q, batch_size) # (batch_size, num_heads, seq_len_q, depth)

　　k = self.split_heads(k, batch_size)

　　v = self.split_heads(v, batch_size)

　　# scaled_attention.shape == (batch_size, num_heads, seq_len_v, depth)

　　# attention_weights.shape == (batch_size, num_heads, seq_len_q, seq_len_k)

　　# 通过缩放点积注意力层

　　scaled_attention, attention_weights = scaled_dot_product_attention(

　　q, k, v, mask)

　　# 把多头维度后移

　　scaled_attention = tf.transpose(scaled_attention, [0, 2, 1, 3]) # (batch_size, seq_len_v, num_heads, depth)

　　# 合并多头

　　concat_attention = tf.reshape(scaled_attention,

　　(batch_size, -1, self.d_model))

　　# 全连接重塑

　　output = self.dense(concat_attention)

　　return output, attention_weights

　　测试多头attention

　　temp_mha = MutilHeadAttention(d_model=512, num_heads=8)

　　y = tf.random.uniform((1, 60, 512))

　　output, att = temp_mha(y, k=y, q=y, mask=None)

　　print(output.shape, att.shape)

　　(1, 60, 512) (1, 8, 60, 60)

　　point wise前向网络

　　def point_wise_feed_forward_network(d_model, diff):

　　return tf.keras.Sequential([

　　tf.keras.layers.Dense(diff, activation='relu'),

　　tf.keras.layers.Dense(d_model)

　　])

　　sample_fnn = point_wise_feed_forward_network(512, 2048)

　　sample_fnn(tf.random.uniform((64, 50, 512))).shape

　　TensorShape([64, 50, 512])

　　6.编码器和解码器

　　通过N个编码器层，为序列中的每个字/令牌生成输出。

　　解码器连接编码器的输出和它自己的输入(自我注意)以预测下一个字。

　　编码层

　　每个编码层包含以下子层

　　Multi-head attention(带掩码)

　　Point wise feed forward networks

　　每个子层中都有残差连接，并最后通过一个正则化层。残差连接有助于避免深度网络中的梯度消失问题。

　　每个子层输出是LayerNorm(x + Sublayer(x))，规范化是在d_model维的向量上。Transformer一共有n个编码层。

　　class LayerNormalization(tf.keras.layers.Layer):

　　def __init__(self, epsilon=1e-6, **kwargs):

　　self.eps = epsilon

　　super(LayerNormalization, self).__init__(**kwargs)

　　def build(self, input_shape):

　　self.gamma = self.add_weight(name='gamma', shape=input_shape[-1:],

　　initializer=tf.ones_initializer(), trainable=True)

　　self.beta = self.add_weight(name='beta', shape=input_shape[-1:],

　　initializer=tf.zeros_initializer(), trainable=True)

　　super(LayerNormalization, self).build(input_shape)

　　def call(self, x):

　　mean = tf.keras.backend.mean(x, axis=-1, keepdims=True)

　　std = tf.keras.backend.std(x, axis=-1, keepdims=True)

　　return self.gamma * (x - mean) / (std + self.eps) + self.beta

　　def compute_output_shape(self, input_shape):

　　return input_shape

　　class EncoderLayer(tf.keras.layers.Layer):

　　def __init__(self, d_model, n_heads, ddf, dropout_rate=0.1):

　　super(EncoderLayer, self).__init__()

　　self.mha = MutilHeadAttention(d_model, n_heads)

　　self.ffn = point_wise_feed_forward_network(d_model, ddf)

　　self.layernorm1 = LayerNormalization(epsilon=1e-6)

　　self.layernorm2 = LayerNormalization(epsilon=1e-6)

　　self.dropout1 = tf.keras.layers.Dropout(dropout_rate)

　　self.dropout2 = tf.keras.layers.Dropout(dropout_rate)

　　def call(self, inputs, training, mask):

　　# 多头注意力网络

　　att_output, _ = self.mha(inputs, inputs, inputs, mask)

　　att_output = self.dropout1(att_output, training=training)

　　out1 = self.layernorm1(inputs + att_output) # (batch_size, input_seq_len, d_model)

　　# 前向网络

　　ffn_output = self.ffn(out1)

　　ffn_output = self.dropout2(ffn_output, training=training)

　　out2 = self.layernorm2(out1 + ffn_output) # (batch_size, input_seq_len, d_model)

　　return out2

　　encoder层测试

　　sample_encoder_layer = EncoderLayer(512, 8, 2048)

　　sample_encoder_layer_output = sample_encoder_layer(

　　tf.random.uniform((64, 43, 512)), False, None)

　　sample_encoder_layer_output.shape

　　TensorShape([64, 43, 512])

　　解码层

　　每个编码层包含以下子层：

　　Masked muti-head attention(带padding掩码和look-ahead掩码)

　　Muti-head attention(带padding掩码)value和key来自encoder输出，query来自Masked muti-head attention层输出

　　Point wise feed forward network

　　每个子层中都有残差连接，并最后通过一个正则化层。残差连接有助于避免深度网络中的梯度消失问题。

　　每个子层输出是LayerNorm(x + Sublayer(x))，规范化是在d_model维的向量上。Transformer一共有n个解码层。

　　当Q从解码器的第一个注意块接收输出，并且K接收编码器输出时，注意权重表示基于编码器输出给予解码器输入的重要性。换句话说，解码器通过查看编码器输出并自我关注其自己的输出来预测下一个字。

　　ps：因为padding在后面所以look-ahead掩码同时掩padding

　　class DecoderLayer(tf.keras.layers.Layer):

　　def __init__(self, d_model, num_heads, dff, drop_rate=0.1):

　　super(DecoderLayer, self).__init__()

　　self.mha1 = MutilHeadAttention(d_model, num_heads)

　　self.mha2 = MutilHeadAttention(d_model, num_heads)

　　self.ffn = point_wise_feed_forward_network(d_model, dff)

　　self.layernorm1 = LayerNormalization(epsilon=1e-6)

　　self.layernorm2 = LayerNormalization(epsilon=1e-6)

　　self.layernorm3 = LayerNormalization(epsilon=1e-6)

　　self.dropout1 = layers.Dropout(drop_rate)

　　self.dropout2 = layers.Dropout(drop_rate)

　　self.dropout3 = layers.Dropout(drop_rate)

　　def call(self,inputs, encode_out, training,

　　look_ahead_mask, padding_mask):

　　# masked muti-head attention

　　att1, att_weight1 = self.mha1(inputs, inputs, inputs,look_ahead_mask)

　　att1 = self.dropout1(att1, training=training)

　　out1 = self.layernorm1(inputs + att1)

　　# muti-head attention

　　att2, att_weight2 = self.mha2(encode_out, encode_out, inputs, padding_mask)

　　att2 = self.dropout2(att2, training=training)

　　out2 = self.layernorm2(out1 + att2)

　　ffn_out = self.ffn(out2)

　　ffn_out = self.dropout3(ffn_out, training=training)

　　out3 = self.layernorm3(out2 + ffn_out)

　　return out3, att_weight1, att_weight2

　　测试解码层

　　sample_decoder_layer = DecoderLayer(512, 8, 2048)

　　sample_decoder_layer_output, _, _ = sample_decoder_layer(

　　tf.random.uniform((64, 50, 512)), sample_encoder_layer_output,

　　False, None, None)

　　sample_decoder_layer_output.shape

　　TensorShape([64, 50, 512])

　　编码器

　　编码器包含：

　　Input Embedding

　　Positional Embedding

　　N个编码层

　　class Encoder(layers.Layer):

　　def __init__(self, n_layers, d_model, n_heads, ddf,

　　input_vocab_size, max_seq_len, drop_rate=0.1):

　　super(Encoder, self).__init__()

　　self.n_layers = n_layers

　　self.d_model = d_model

　　self.embedding = layers.Embedding(input_vocab_size, d_model)

　　self.pos_embedding = positional_encoding(max_seq_len, d_model)

　　self.encode_layer = [EncoderLayer(d_model, n_heads, ddf, drop_rate)

　　for _ in range(n_layers)]

　　self.dropout = layers.Dropout(drop_rate)

　　def call(self, inputs, training, mark):

　　seq_len = inputs.shape[1]

　　word_emb = self.embedding(inputs)

　　word_emb *= tf.math.sqrt(tf.cast(self.d_model, tf.float32))

　　emb = word_emb + self.pos_embedding[:,:seq_len,:]

　　x = self.dropout(emb, training=training)

　　for i in range(self.n_layers):

　　x = self.encode_layer[i](x, training, mark)

　　return x

　　编码器测试

　　sample_encoder = Encoder(2, 512, 8, 1024, 5000, 200)

　　sample_encoder_output = sample_encoder(tf.random.uniform((64, 120)),

　　False, None)

　　sample_encoder_output.shape

　　TensorShape([64, 120, 512])

　　解码器

　　解码器包含以下部分：1、输出嵌入;2、位置编码;3、n个解码层

　　输出嵌入和位置编码叠加后输入解码器，解码器最后的输出送给一个全连接

　　# import pdb

　　# pdb.set_trace()

　　class Decoder(layers.Layer):

　　def __init__(self, n_layers, d_model, n_heads, ddf,

　　target_vocab_size, max_seq_len, drop_rate=0.1):

　　super(Decoder, self).__init__()

　　self.d_model = d_model

　　self.n_layers = n_layers

　　self.embedding = layers.Embedding(target_vocab_size, d_model)

　　self.pos_embedding = positional_encoding(max_seq_len, d_model)

　　self.decoder_layers= [DecoderLayer(d_model, n_heads, ddf, drop_rate)

　　for _ in range(n_layers)]

　　self.dropout = layers.Dropout(drop_rate)

　　def call(self, inputs, encoder_out,training,

　　look_ahead_mark, padding_mark):

　　seq_len = tf.shape(inputs)[1]

　　attention_weights = {}

　　h = self.embedding(inputs)

　　h *= tf.math.sqrt(tf.cast(self.d_model, tf.float32))

　　h += self.pos_embedding[:,:seq_len,:]

　　h = self.dropout(h, training=training)

　　# print('--------------------\n',h, h.shape)

　　# 叠加解码层

　　for i in range(self.n_layers):

　　h, att_w1, att_w2 = self.decoder_layers[i](h, encoder_out,

　　training, look_ahead_mark,

　　padding_mark)

　　attention_weights['decoder_layer{}_att_w1'.format(i+1)] = att_w1

　　attention_weights['decoder_layer{}_att_w2'.format(i+1)] = att_w2

　　return h, attention_weights

　　解码器测试

　　sample_decoder = Decoder(2, 512,8,1024,5000, 200)

　　sample_decoder_output, attn = sample_decoder(tf.random.uniform((64, 100)),

　　sample_encoder_output, False,

　　None, None)

　　sample_decoder_output.shape, attn['decoder_layer1_att_w1'].shape

　　(TensorShape([64, 100, 512]), TensorShape([64, 8, 100, 100]))

　　创建Transformer

　　Transformer包含编码器、解码器和最后的线性层，解码层的输出经过线性层后得到Transformer的输出

　　class Transformer(tf.keras.Model):

　　def __init__(self, n_layers, d_model, n_heads, diff,

　　input_vocab_size, target_vocab_size,

　　max_seq_len, drop_rate=0.1):

　　super(Transformer, self).__init__()

　　self.encoder = Encoder(n_layers, d_model, n_heads,diff,

　　input_vocab_size, max_seq_len, drop_rate)

　　self.decoder = Decoder(n_layers, d_model, n_heads, diff,

　　target_vocab_size, max_seq_len, drop_rate)

　　self.final_layer = tf.keras.layers.Dense(target_vocab_size)

　　def call(self, inputs, targets, training, encode_padding_mask,

　　look_ahead_mask, decode_padding_mask):

　　encode_out = self.encoder(inputs, training, encode_padding_mask)

　　print(encode_out.shape)

　　decode_out, att_weights = self.decoder(targets, encode_out, training,

　　look_ahead_mask, decode_padding_mask)

　　print(decode_out.shape)

　　final_out = self.final_layer(decode_out)

　　return final_out, att_weights

　　Transformer测试

　　sample_transformer = Transformer(

　　n_layers=2, d_model=512, n_heads=8, diff=1024,

　　input_vocab_size=8500, target_vocab_size=8000, max_seq_len=120

　　)

　　temp_input = tf.random.uniform((64, 62))

　　temp_target = tf.random.uniform((64, 26))

　　fn_out, _ = sample_transformer(temp_input, temp_target, training=False,

　　encode_padding_mask=None,

　　look_ahead_mask=None,

　　decode_padding_mask=None,

　　)

　　fn_out.shape

　　(64, 62, 512)

　　(64, 26, 512)

　　TensorShape([64, 26, 8000])

　　7.实验设置

　　设置超参

　　num_layers = 4

　　d_model = 128

　　dff = 512

　　num_heads = 8

　　input_vocab_size = tokenizer_pt.vocab_size + 2

　　target_vocab_size = tokenizer_en.vocab_size + 2

　　max_seq_len = 40

　　dropout_rate = 0.1

　　优化器

　　带自定义学习率调整的Adam优化器

　　lrate=dmodel−0.5∗min(step_num−0.5,step_num∗warmup_steps−1.5)\Large{lrate = d_{model}^{-0.5} * min(step{\_}num^{-0.5}, step{\_}num * warmup{\_}steps^{-1.5})}lrate=dmodel−0.5∗min(step_num−0.5,step_num∗warmup_steps−1.5)

　　class CustomSchedule(tf.keras.optimizers.schedules.LearningRateSchedule):

　　def __init__(self, d_model, warmup_steps=4000):

　　super(CustomSchedule, self).__init__()

　　self.d_model = tf.cast(d_model, tf.float32)

　　self.warmup_steps = warmup_steps

　　def __call__(self, step):

　　arg1 = tf.math.rsqrt(step)

　　arg2 = step * (self.warmup_steps ** -1.5)

　　return tf.math.rsqrt(self.d_model) * tf.math.minimum(arg1, arg2)

　　learing_rate = CustomSchedule(d_model)

　　optimizer = tf.keras.optimizers.Adam(learing_rate, beta_1=0.9,

　　beta_2=0.98, epsilon=1e-9)

　　# 测试无锡人流哪家好 http://www.wxbhffk.com/

　　temp_learing_rate = CustomSchedule(d_model)

　　plt.plot(temp_learing_rate(tf.range(40000, dtype=tf.float32)))

　　plt.xlabel('learning rate')

　　plt.ylabel('train step')

　　Text(0, 0.5, 'train step')

　　损失和指标

　　由于目标序列是填充的，因此在计算损耗时应用填充掩码很重要。

　　padding的掩码为0，没padding的掩码为1

　　loss_object = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True,

　　reduction='none')

　　def loss_fun(y_ture, y_pred):

　　mask = tf.math.logical_not(tf.math.equal(y_ture, 0)) # 为0掩码标1

　　loss_ = loss_object(y_ture, y_pred)

　　mask = tf.cast(mask, dtype=loss_.dtype)

　　loss_ *= mask

　　return tf.reduce_mean(loss_)

　　train_loss = tf.keras.metrics.Mean(name='train_loss')

　　train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='train_accuracy')

　　8、训练和保持模型

　　transformer = Transformer(num_layers, d_model, num_heads, dff,

　　input_vocab_size, target_vocab_size,

　　max_seq_len, dropout_rate)

　　# 构建掩码

　　def create_mask(inputs,targets):

　　encode_padding_mask = create_padding_mark(inputs)

　　# 这个掩码用于掩输入解码层第二层的编码层输出

　　decode_padding_mask = create_padding_mark(inputs)

　　# look_ahead 掩码，掩掉未预测的词

　　look_ahead_mask = create_look_ahead_mark(tf.shape(targets)[1])

　　# 解码层第一层得到padding掩码

　　decode_targets_padding_mask = create_padding_mark(targets)

　　# 合并解码层第一层掩码

　　combine_mask = tf.maximum(decode_targets_padding_mask, look_ahead_mask)

　　return encode_padding_mask, combine_mask, decode_padding_mask

　　创建checkpoint管理器

　　checkpoint_path = './checkpoint/train'

　　ckpt = tf.train.Checkpoint(transformer=transformer,

　　optimizer=optimizer)

　　# ckpt管理器

　　ckpt_manager = tf.train.CheckpointManager(ckpt, checkpoint_path, max_to_keep=3)

　　if ckpt_manager.latest_checkpoint:

　　ckpt.restore(ckpt_manager.latest_checkpoint)

　　print('last checkpoit restore')

　　target分为target_input和target real.

　　target_input是传给解码器的输入，target_real是其左移一个位置的结果，每个target_input位置对应下一个预测的标签

　　如句子=“SOS A丛林中的狮子正在睡觉EOS”

　　target_input =“SOS丛林中的狮子正在睡觉”

　　target_real =“丛林中的狮子正在睡觉EOS”

　　transformer是个自动回归模型：它一次预测一个部分，并使用其到目前为止的输出，决定下一步做什么。

　　在训练期间使用teacher-forcing，即无论模型当前输出什么都强制将正确输出传给下一步。

　　而预测时则根据前一个的输出预测下一个词

　　为防止模型在预期输出处达到峰值，模型使用look-ahead mask

　　@tf.function

　　def train_step(inputs, targets):

　　tar_inp = targets[:,:-1]

　　tar_real = targets[:,1:]

　　# 构造掩码

　　encode_padding_mask, combined_mask, decode_padding_mask = create_mask(inputs, tar_inp)

　　with tf.GradientTape() as tape:

　　predictions, _ = transformer(inputs, tar_inp,

　　True,

　　encode_padding_mask,

　　combined_mask,

　　decode_padding_mask)

　　loss = loss_fun(tar_real, predictions)

　　# 求梯度

　　gradients = tape.gradient(loss, transformer.trainable_variables)

　　# 反向传播

　　optimizer.apply_gradients(zip(gradients, transformer.trainable_variables))

　　# 记录loss和准确率

　　train_loss(loss)

　　train_accuracy(tar_real, predictions)

　　葡萄牙语用作输入语言，英语是目标语言。

　　EPOCHS = 20

　　for epoch in range(EPOCHS):

　　start = time.time()

　　# 重置记录项

　　train_loss.reset_states()

　　train_accuracy.reset_states()

　　# inputs 葡萄牙语， targets英语

　　for batch, (inputs, targets) in enumerate(train_dataset):

　　# 训练

　　train_step(inputs, targets)

　　if batch % 500 == 0:

　　print('epoch {}, batch {}, loss:{:.4f}, acc:{:.4f}'.format(

　　epoch+1, batch, train_loss.result(), train_accuracy.result()

　　))

　　if (epoch + 1) % 2 == 0:

　　ckpt_save_path = ckpt_manager.save()

　　print('epoch {}, save model at {}'.format(

　　epoch+1, ckpt_save_path

　　))

　　print('epoch {}, loss:{:.4f}, acc:{:.4f}'.format(

　　epoch+1, train_loss.result(), train_accuracy.result()

　　))

　　print('time in 1 epoch:{} secs\n'.format(time.time()-start))

　　(64, 40, 128)

　　(64, 39, 128)

　　(64, 40, 128)

　　(64, 39, 128)

　　epoch 1, batch 0, loss:4.0259, acc:0.0000

　　epoch 1, batch 500, loss:3.4436, acc:0.0340

　　(31, 40, 128)

　　(31, 39, 128)

　　epoch 1, loss:3.2112, acc:0.0481

　　time in 1 epoch:467.3876633644104 secs

　　…

　　epoch 20, batch 0, loss:0.5182, acc:0.3193

　　epoch 20, batch 500, loss:0.5374, acc:0.3263

　　epoch 20, save model at ./checkpoint/train/ckpt-10

　　epoch 20, loss:0.5344, acc:0.3257

　　time in 1 epoch:377.9467544555664 secs

转载于:https://www.cnblogs.com/gnz49/p/11550279.html

你可能感兴趣的:(TensorFlow 2.0 教程25：Transformer)

2023-09-17 余則徐
2023.9.17.达视津气象2023.9.17.达视津气象秋色斑斓朋友们早上好！今天2023.9.17.星期日，农历八月初三的4:33，干支历法是癸卯年辛酉月丁丑日壬寅时。今天的天气预报又是个颇有争议的日子啦：手机气象软件认为今天有雷阵雨，而其逐小时预报却是9点钟以前每个小时都是晴天，然后两个小时多云，再往后一直到夜间是阴天，没有说有雨；敝人六爻八卦预测倾向于气象台的逐小时预报哦。当前气温25摄
Lightroom Classic 教程，如何在 Lightroom 中增强照片的孤立区域？ Mac123123
欢迎观看LightroomClassic中文版教程，小编带大家学习LightroomClassic的基本工具和使用技巧，了解如何在Lightroom中增强照片的孤立区域，对照片的一部分进行处理以完善它。打开LightroomClassic，在「图库」模块中选择照片。除了可以对整张照片进行更改外，还可以使用Lightroom的「局部调整」工具轻松增强图像中的选定区域。选择「修改照片」模块，降低「曝光
XLua个人学习——C#访问Lua 一枚骰子学习 lua 开发语言 xLua
目录0.引言1.访问基本数据类型全局变量2.访问全局的table2.1.映射到class或struct2.2.映射到一个interface2.3.映射到List、Dictionary2.4.映射到LuaTable类3.访问全局函数3.1映射到delegate3.2映射到LuaFunction4.官方使用建议0.引言本文是个人学习xLua中C#访问Lua的一些知识点总结。参考教程的是官方教程:xLu
焦点技术网络培训初、中级第23期坚持原创分享陈斌第107天2020年10月25日 65af922df989
守护心灵保护健康每到星期天总是最忙碌的时候，一个又一个的预约电话，一个又一个的来访者如约而至，看到人们越来越认识到心理健康的重要性了，也知道心理问题需要通过专业的心理咨询师解决。我的感悟是，心理问题早觉察、早发现、早处理、早找专业老师帮助，就能够让自己快速的走出心理困境。
小程序源码：全新超火的微信小说小程序源码-自带采集带安装教程-多玩法安装简单哔咔app下载入口微信小程序源码教程小程序源码小程序微信微信小程序
下面给大家带来一款最近超火的一款微信小说小程序源码本套源码自带采集,拿到手的时候没有安装教程不过小编在测试的时候给大家把安装教程给补上了安装教程:PHP选择5.6以上的版本上传我们的后端解压伪静态选择thinkphp修改数据库链接文件config/database.php然后我们导入数据库后台点击小程序把你的小程序该设置的设置就可以了小说的话就点击数据采集然后采集就可以了小程序首页轮播推荐和首页分
uniapp 引入高德api 白月光和意难平 uni-app javascript 前端
mounted(){if(typeofwindow.AMap==='function'){this.initAmap()}else{constscript=document.createElement('script');script.async="async";script.src='https://webapi.amap.com/mapsv=2.0&key=你的key&plugin=AMap.
《三十岁，一切刚刚开始》读书笔记Day02/25 设绘喵爱读书April
第一章：三十岁轨迹1-2三十岁，真正的人生才刚刚开始•人和人不能用生理年龄来区分，更不能十年、十年地来划分。•见过很多二十多岁却从不学习的年轻人，也见过六十多岁还在路上奔波的长者，前者已经老了，后者依旧年轻。所以，人到底什么时候才算变老了呢？答案是，不学习的时候，不进步的时候。•有两种方式可以让人减缓衰老：第一，寻找一个伟大的目标，用一生完成。第二，做一件持续升值的事情，直到永远。•这两种减缓衰老
大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
PGSql性能测试无级程序员数据库大数据
一个40亿的表，分成128个区，16384个slot，每个表分区大约3000W数据，每个slot大约25W数据，虚拟机8C16G，1T空间，测试导出一个slot数据性能，结果如下：select*fromtablewhereslot_id=0;以slot_id为索引：大约100多秒，以slot_id和slice_id为索引时大约2秒，很奇怪的结果。另外，数据增加到60亿，即每个表4500W数据时，一
高通手机跑AI系列之——人像与背景分割伊利丹~怒风 Qualcomm 人工智能智能手机 python arm AI编程
环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能越好的手机运行速度越快软件APP：AidLux2.0系统环境：Ubunt
python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦... 日向夕阳
Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip
2023-09-25中原焦点学员李灵芝坚持分享第495天越来越好崔
透过应对问句所进行的重要觉察与练习，将会协助当事人建构对抗与处理困境的希望，动机与觉察，同时也将会帮助当事人离开受害者的位置。而以生存者，应对者的姿态来看待历经生命挑战中的自己。罗马并非一日造成的，问题的产生也并非一日，而就要问题立即消失是不可能的，要学会与问题共处，同时接受生命的限制是一个需要学习以勇气与智慧来承担的历程。自我照顾是人生而具有的本能，在这个过程中要强调自我照顾的能
攒贝计划第30天明天de太阳
10月8日，持钻13950，加成卡26600，发文两篇，点赞收获20个，点出去25个赞，时段奖励，转盘奖励都领取了，收益32.5贝。事实证明，经常互动，看好文章点赞还是会有高的收益。对于我这样的文字功底，一天30个贝左右，已经满足了，如果能数量再提高点，也不介意的，哈哈。
Windows安装子系统部署服务并实现外部访问，WSL安装Ubuntu、CentOS、openEuler子系统，最全保姆级教程，手把手教会你。 Mr.L-OAM linux系统运维服务器运维
1环境准备1.1系统设置打开powershellwin+r输入poweroff如果后面操作提示需要提升权限，此处在搜索栏输入powershell右键以管理员身份运行官网文档1.1.1适用于Linux的Windows子系统dism.exe/online/enable-feature/featurename:Microsoft-Windows-Subsystem-Linux/all
怎样学习2.0（也就是怎样实现自己的梦想）？希望是终结版 gjf05_05 初学者综合 google 百度
2$*******************************************************************324.怎样学习？41.前期：整体规划与局部规划52.中期：提出问题与解决问题与同行交流！63.后期:笔记（总结）。7******************************8解释1.整体规划:了解怎样实现梦想?9(也就是实现梦想大致应该做些什么？也就是把梦
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
SinoLC-1:中国首幅1米分辨率土地覆盖图做科研的周师兄遥感数据集数据集分享数据库数据分析
时间分辨率：年空间分辨率：<=1m共享方式：开放获取数据大小：146.42GB数据时间范围：2002-12-01—2021-12-01元数据更新时间：2023-09-25数据集摘要SinoLC-1：中国1米分辨率土地覆盖图为首个具有中国国家尺度覆盖，空间分辨率1米的土地覆盖专题图。针对大范围高分辨率土地覆盖制图中地物复杂多样、高精度训练样本缺乏、制图方法区域迁移性要求高等关键难题，中国地质大学（武
Linux Ubuntu安装教程|附安装文件➕安装教程仰望天空—永强软件工程数学建模硬件工程 linux python
[软件名称]:LinuxUbuntu18.0[软件大小]:1.8GB[安装环境]:VMware[夸克网盘接]链接：https://pan.quark.cn/s/971f685256ef（建议用手机保存到网盘后，再用电脑下载）更多免费软件见https://docs.qq.com/sheet/DRkdWVFFCWm9UeGJP
【手把手教学】NAS音乐远程播放从入门到精通：无需公网IP的内网穿透+手机端秒播微学AI tcp/ip 网络协议网络
文章目录前言1.本教程使用环境：2.制作音频分享链接3.制作永久固定音频分享链接：前言当您需要跨越地理界限获取家中数字资产时，本文将提供一套创新性的解决方案。通过构建智能网络架构，您可在任何场景下——无论是移动办公、差旅途中还是短途外出——实现对本地音频数据的即时访问。本方案依托于分布式网络架构设计，通过部署安全通信协议，建立设备与家庭存储中心的加密传输链路。借助先进的远程访问技术，用户可将Syn
2021-2-25晚间日记潘驴邓小闲_
今天是个蜕变开始日子起床：5:40就寝：10:45天气：晴转多云心情：较愉悦纪念日：无叫我起床的不是闹钟是梦想年度目标及关键点：娶媳妇本月重要成果：加入奕龙公司人际的投入认识新同事，结交新朋友开卷有益-学习/读书喜马拉雅APP听叶武滨老师的时间管理100讲以及家慧库APP有关家庭的学习
PS2025最新稳定版下载安装详细图文教程（附安装包）牛马baby 开发工具办公工具
hello啊，各位观众姥爷们！！！本baby今天又来报道了！哈哈哈哈哈嗝PS普通速度下载高速下载安装PhotoshopWindows/macOS通用步骤运行安装程序：打开下载的CreativeCloud应用→找到Photoshop→点击安装。选择安装位置（可选）：默认路径：C:\ProgramFiles\Adobe\（Windows）或/Applications（macOS）。等待安装完成：安装时
5商学习笔记爱英思谭523
【Jocelyn1月25日习得小结:】1.知识划重点(R):快速学习：如何用20小时，快速学习？2.我的理解(I):润总这个快速学习，跟李笑来老师的最小必要知识很类似，都是通过快速掌握入门的知识，完成从0到1的跨越。时间越快，掌握大概知识越多进门就越快。3.我的相关经验或经历(A1):复述其实是帮助自己去理解概念的绝佳方式。自己带课这几年，对于教材中的概念从浅入深的学习和理解，跟我面对无数个不一样
.NET CORE 分布式事务(四) CAP实现最终一致性精神小伙就是猛 .netcore 分布式架构微服务
目录引言：1.0最终一致性介绍2.0CAP2.0架构预览3.0.NETCORE结合CAP实现最终一致性分布式事务3.1准备工作(数据库，本文使用的是MySql)3.1.1数据模型3.1.2DbContext3.1.3数据库最终生成3.2Nuget引入3.3appsettings.json3.4docker启动一个RabbitMQ3.5Program.cs3.6用户1API控制器3.7用户2API控
2021-09-25中原焦点团队Sunny持续分享第49天素玲Sunny
今天遇到一来访，一直认为自己开心愉快之后便会有不幸发生，所以不敢太开心，也不该太顺利，甚至会自残。而且对此深信不疑，甚至会因此而采取相应的应对，如果发生不好的事情，便会有自责。虽然对该来访表示同理，也问了一些讨论成长经历，因为时间关系没有太多，但对怎样理解她也很好奇，于是从书上找答案。TA中脚本过程，之后脚本：我今天可以享受乐趣，但我明天一定会付出代价。达莫克滋的神话故事体现了之后脚本。从书上找到
中国男篮首战大败，张镇麟21+5爆发，五人未获出场机会体娱荒原
中国男篮在欧洲开始了首场热身赛，令人遗憾的是久疏战阵的中国队以64比82输给了克罗地亚。这场比赛中国队的中投命中率低至18%，三分球也只有25%，中远投的低效导致了得分低效以及比赛的失利。本场比赛有13人获得出场机会，其中五人枯坐替补席没有出场，包括备受信任的赵继伟和周琦，还有新人程帅澎、曾凡博，老将周鹏，可能是由于身体状态的原因没有出场，特别是周琦正在寻找比赛状态。虽然是一场大败，也有表现出色的
2023-02-25 春雪ChunXue
更多的时候，我们就是不接纳自己的普通和平凡，即使在心理学书中读懂了再多的心理学理论也还是没有什么用处。因为我们从小接受的理论便是人的生命只有一次这样的思想和教育，仿佛人生如果不辉煌一次，便是对生命更大的不敬。青春里的我们，曾经对人生做过许多绚烂的梦，甚至还以为实现梦境也不是什么难以做到的事情。那个时候的我们从心里往外释放着一种叫做狂妄的东西。没有想到的却是，我们从来不曾看见生活的最真实的面目。只有
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
跟小朋友学英语25——20220412 李杨手记
群内打卡：1.复习卡片今天晚上复习了近三十张卡片。牛仔好像记得不牢（其实是我有期待）。这两天没有好好听前两周的音频，今晚把音频重新调整一下。如果晚上没有专门的时间听，就睡前再磨一下耳朵。2.复习指定绘本FridaKhalo读了两遍，但都没读完，第二遍还差两页，孩子的注意力就跑到别的书上去了。后来我们阅读了甜心英语的绘本《Rainbowdiningtable》。读完后还一起讨论。最近陪伴精读绘本的能
2023-03-25 快乐有我_c00f
大荔县心理咨询协会郭亚婵坚持分享第838天：学习摘录1、学校社会工作包括以下含义：（1）学校社会工作服务的提供者应该具有专业资格。（2）学校社会工作服务应该遵循相关的价值理念。（3）学校社会工作服务应该集科学性、技术性及艺术性于一体。（4）学校社会工作服务应该整合政府及社会资源。（5）学校社会工作以全体学生为服务对象。（6）学校社会工作服务以帮助学生获得幸福人生及促进社会进步为目标。2、学校社会工
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。