林子要加油

深入tensorflow1.x

文章目录

一、tensorflow 安装
二、核心概念
- 2.1 计算图
- 2.2 Tensor
- 2.3 会话Session
- 2.4 两层神经网络
三、深层神经网络
- 1. 优化方法
- 2. 指数衰减的学习率
- 3. $L_1 L_2$ 正则化
- 4. 指数加权平均（指数滑动平均）
- - 4.1 原理
  - 4.2 偏差修正
四、mnist数据集处理
- 变量的管理
- 模型持久化
- - save model to file
  - restore model from saved file
五、卷积神经网络
- 1. 常用图像识别数据集
- 2. 卷积神经网络
六、循环神经网络
- RNN
- LSTM
- GUR
- 双向RNN
- DeepRNN
- 循环神经网络的dropout
七、自然语言处理
- 1. 语言模型的评价规则
- PTB数据预处理
- embedding层
- softmax层
- 以PTB数据集的语言模型
- - dynamic_rnn
  - - 单层单向lstm
    - 单层双向lstm
    - 单步多层LSTM
    - 一次性执行多步call：dynamic_rnn
- seq2seq模型
- Attention机制

目前所有的算法是基于1.12版本的tensorflow的实现，所以有必要学习一下1.x版本的tensorflow。

一、tensorflow 安装

基于tensorflow 1.4及以上
tensorflow的两个重要的依赖包：

protocol buffer：谷歌开发的结构化数据处理工具，例如json，xml等。
- 主要的功能是把结构化的数据序列化进行网络传输或存储，然后把序列化的数据再反序列化为结构化数据。protocol buffer 需要定义数据的schema，利用schema来还原数据。使用 - protocol buffer序列化的数据比xml小3到10倍，反序列化时也快20到100倍。
- tensorflow系统中的数据基本上都使用protocol buffer来组织的，分布式的tensorflow的通信协议也gRPC也是以protocol buffer为基础的。
bazel：谷歌开源的自动化构建工具，谷歌内部的绝大部分应用都是通过bazel构建的。功能类似于Maven等。

可以使用pip安装、docker安装及源码编译安装。

mac使用pip安装1.12.0版本的：
pip install --ignore-installed --upgrade https://storage.googleapis.com/tensorflow/mac/cpu/tensorflow-1.12.0-py3-none-any.whl

二、核心概念

计算模型
数据模型
运行模型

2.1 计算图

Tensorflow计算的过程有两个阶段：首先是定义计算，定义的计算是作为计算图上的一个节点。在Tensorflow程序中，会维护自动维护一个计算图，可以通过tf.get_default_graph函数来获取默认的计算图。除了使用默认的计算图，Tensorflow还支持tf.Graph()来创建新的计算图。在不同的计算图中的张量和计算是不可以共享的。

# coding:utf-8
import tensorflow as tf

# 不同的计算图中的计算与张量是相互隔离的

# 创建一个计算图
g1 = tf.Graph()
# 在计算图中定义一个张量v
with g1.as_default():
    # 1.12版本把shape在initializer外边定义了
    v = tf.get_variable("v", initializer=tf.zeros_initializer(), shape=[1])

# 创建一个新的计算图
g2 = tf.Graph()
with g2.as_default():
    v1 = tf.get_variable("v", initializer=tf.ones_initializer(), shape=[1])

# 获取并输出g1中的张量v，结果是[0.]
with tf.Session(graph=g1) as sess:
    tf.global_variables_initializer().run()
    with tf.variable_scope("", reuse=True):
        print(sess.run(tf.get_variable("v")))

# 获取并输出g2中的张量v，结果是[1.]
with tf.Session(graph=g2) as sess:
    tf.global_variables_initializer().run()
    with tf.variable_scope("", reuse=True):
        print(sess.run(tf.get_variable("v")))

还可以指定计算图的设备，上一个计算两个常量的计算图：

with g.device("\gpu:0"):
	result = a + b

计算图另一个作用是管理Tensorflow中的资源，把资源放到collection中，可以使用tf.add_to_collection函数来把资源放到collection，tf.get_collection函数来获取collection中所有的资源。放入到collection中的可以是常量、变量或队列等资源。
为了管理方便，Tensorflow也自动维护了一些常用的集合。

2.2 Tensor

Tensorflow中的张量Tensor是数据管理的模型，有零阶张量（也就是标量），一阶张量可以理解为一维数组，n阶张量可以理解为n维数组。Tensorflow中的张量并不会保存数据，只保存计算过程，是计算结果的引用。有三个属性：name，shape和dtype。

name是node: src_output形式，node代表结点，src_output表示这个结点的第几个输出值。下面的例子result是来自add结点的第1个输出。
shape是张量的维度，是一个一维数组，这个数组的长度是2.
dtype是数据的type，浮点类型默认使用float32，整数默认是使用int32，使用默认类型容易出现类型不匹配的情况，所以一般会指定数据类型。

张量的使用：

是整个计算过程的引用，可以存储中间结果；
可以用来计算真实的数值；

2.3 会话Session

Session拥有并且管理Tensorflow运行过程中的所有的资源。可以显示的打开Session，并关闭Session。另一种方法是使用上下文管理器with来管理。
当一个会话声明后，可以使用指定session的方法来计算一个Tensor

sess = tf.Session()
result.eval(session=sess)

2.4 两层神经网络

一个两层的神经网络：

这个一个由输入层，隐藏层、输出层组成的典型的两层神经网络。使用向量的形式：

参数W的维度是 $input \times output$ 。x的组织形式与Andrew ng的课中的组织形式是不同的，一行代表一个样本，一个样本有两个特征，所以x的维度是一行二列。

a = tf.matmul(x, W1)
y = tf.matmul(a, W2)

# 声明一个二行三列的变量，使用正态分布的对变量初始化
weight = tf.Variable(tf.random_normal([2,3], stddev=2))

两层神经网络的前向传播：

# coding=utf-8

import tensorflow as tf

w1 = tf.Variable(tf.random_normal([2, 3], stddev=1, seed=1))
w2 = tf.Variable(tf.random_normal([3, 1], stddev=1, seed=1))

# 这里x是一行两列的矩阵
x = tf.constant([[0.7, 0.9]])

a = tf.matmul(x, w1)
y = tf.matmul(a, w2)

with tf.Session() as sess:
    # 对变量执行初始化
    # sess.run(w1.initializer)
    # sess.run(w2.initializer)
    # 下面是对所有的变量进行初始化，而不是对每个变量单独执行
    tf.global_variables_initializer().run()
    print(sess.run(y))

可以通过tf.global_variables()来获取计算图上的所有变量，对持久化计算图的运行状态有帮助。

为什么要用placeholder?
训练一个神经网络需要进行很多轮的迭代，如果每次使用常量时，则会生成百万个的节点，占用很多的资源。而placeholder是占位的意思，先把计算图上位置占住，当用session计算的时候再把数据值传入。

# coding:utf-8
import warnings

warnings.filterwarnings('ignore')
import tensorflow as tf
import numpy as np
from numpy.random import RandomState

# 生成训练数据
datasize = 128
# 定义批大小
batch_size = 8

rdm = RandomState(1)
X = rdm.random([datasize, 2])
print(X.shape)
Y = np.array([[int(x1 + x2 > 1)] for (x1, x2) in X])
print(Y.shape)

# 定义placeholder
x = tf.placeholder(dtype=tf.float32, shape=(None, 2), name='x-input')
y_ = tf.placeholder(dtype=tf.float32, shape=(None, 1), name='y-input')
# 定义参数
w1 = tf.Variable(initial_value=tf.random_normal(shape=(2, 3), stddev=1, seed=1))
w2 = tf.Variable(initial_value=tf.random_normal(shape=(3, 1), stddev=1, seed=1))
# 定义模型
a = tf.matmul(x, w1)
y_pred = tf.sigmoid(tf.matmul(a, w2))

# 定义loss
cross_entropy = -tf.reduce_mean(
    y_ * tf.log(tf.clip_by_value(y_pred, 1e-10, 1.0)) + (1 - y_) * tf.log(tf.clip_by_value(1 - y_pred, 1e-10, 1.0)))

# 向后传播
learning_rate = 0.001
train_step = tf.train.GradientDescentOptimizer(learning_rate=learning_rate).minimize(cross_entropy)

# 开始迭代
STEMPS = 5000

with tf.Session() as sess:
    # 在迭代之前初始化所有的数据
    tf.global_variables_initializer().run()
    print('before loop w1:{}'.format(sess.run(w1)))
    print('before loop w2:{}'.format(sess.run(w2)))

    for i in range(STEMPS):
        start = i * batch_size % datasize
        # 当datasize无法整除batch_size时，end只能取到datasize的位置
        end = min(start + batch_size, datasize)

        sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})
        if i % 1000 == 0:
            # 计算在全部训练数据上的cross entropy
            print(f'After loop {i}, cross entropy loss is:{sess.run(cross_entropy, feed_dict={x: X, y_: Y})}')
    print('after loop w1:{}'.format(sess.run(w1)))
    print('after loop w2:{}'.format(sess.run(w2)))

三、深层神经网络

非线性变换，激活函数：

# coding:utf-8
import tensorflow as tf
a = tf.nn.relu(tf.matmul(x, w1) + biase1)
y = tf.nn.relu(tf.matmul(a, w2) + biase2)

tf.reduce_mean()函数：

print(tf.reduce_mean([[1.0,2.0,3.0],[4.0,5.0,6.0]]))
# 结果是3.5，只是一个数字

1. 优化方法

batch处理
指数衰减的学习率(learning_rate)
过拟合处理
滑动平均模型：会将每一轮迭代的模型综合起来，从而使得最终得到的模型更加健壮

2. 指数衰减的学习率

一开始有一个基础学习率，在这个基础上衰减，比如0.01
decay_steps：迭代多少步就衰减一次，一般是num_examples/ batch_size，比如有55000个样本，batch_size为100，则迭代550步就衰减一次。
global_step：代表此时的迭代轮数，比如1100轮，则global_step / decay_steps =2
decay_rate：衰减率，比如0.9
则迭代到1100轮的时候的learning_rate是多少？
$0.01 \times 0.9 ^ {\frac{1100}{550}} = 0.0081$
所以是指数衰减的，在Tensorflow中用exponential_decay表示，exponential是指数的意思。

 # Example: decay every 100000 steps with a base of 0.96
  global_step = tf.Variable(0, trainable=False)
  starter_learning_rate = 0.1
  learning_rate = tf.train.exponential_decay(starter_learning_rate, global_step,
                                             100000, 0.96, staircase=True)
  # Passing global_step to minimize() will increment it at each step.
  learning_step = (
      tf.train.GradientDescentOptimizer(learning_rate)
      .minimize(...my loss..., global_step=global_step)
  )

3. $L_1 L_2$ 正则化

# 在tf.contib.layers模块中
# coding:utf-8
import warnings

warnings.filterwarnings('ignore')
import tensorflow as tf

weights = tf.constant([[1.0, -2.0], [3.0, -4.0]])

with tf.Session() as sess:
    # (|1.0| + |-2.0| + |3.0| + |-4.0|) * 0.5 = 5.0
    # 参数0.5是正则化项的系数
    print(sess.run(tf.contrib.layers.l1_regularizer(.5)(weights)))
    # ((1.0)^2 + (-2.0)^2 + 3.0^2 + (-4.0)^2) * 0.5 / 2 = 7.5
    print(sess.run(tf.contrib.layers.l2_regularizer(0.5)(weights)))

4. 指数加权平均（指数滑动平均）

4.1 原理

在创建滑动平均模型后，滑动平均模型会对每一个变量维护一个影子变量(shadow variable)，影子变量的初始值为相应变量的初始值，每当变量更新时，影子变量的值会更新为：

shadow_variable = decay * shadow_variable + (1-decay) * variable

shadow_variable为影子变量，variable为待更新的变量，decay为衰减率，衰减率越大模型越稳定，因为从上实在可以看出，衰减率越大，影子变量受变量更新的影响越小。在实际应用中，decay一般会设置成非常接近1的数(如0.999或0.9999)。

[注意！变量的影子变量和变量的滑动平均值是一样的！]

滑动平均可以看作是变量的过去一段时间取值的均值，相比对变量直接赋值而言，滑动平均得到的值在图像上更加平缓光滑，抖动性更小，不会因为某次的异常取值而使得滑动平均值波动很大。

而滑动平均为什么会在测试中被使用，来使用模型的健壮性更强呢？

滑动平均可以使模型在测试数据上更健壮（robust）。“采用随机梯度下降算法训练神经网络时，使用滑动平均在很多应用中都可以在一定程度上提高最终模型在测试数据上的表现。”

对神经网络边的权重 weights 使用滑动平均，得到对应的影子变量 shadow_weights。在训练过程仍然使用原来不带滑动平均的权重 weights，不然无法得到 weights 下一步更新的值，又怎么求下一步 weights 的影子变量 shadow_weights。之后在测试过程中使用 shadow_weights 来代替 weights 作为神经网络边的权重，这样在测试数据上效果更好。因为 shadow_weights 的更新更加平滑，对于随机梯度下降而言，更平滑的更新说明不会偏离最优点很远；

设decay=0.999，一个更直观的理解，在最后的1000次训练过程中，模型早已经训练完成，正处于抖动阶段，而滑动平均相当于将最后的1000次抖动进行了平均，这样得到的权重会更加robust。在整个训练过程中影子变量并不会对实际需要训练的变量产生影响啊，后面持久化的变量也不是影子变量。在训练过程中，为参数维护更新一个影子变量，这样影子变量会停留在最终参数的周围保持稳定。在测试阶段，使用影子变量代替参数，进行测试。

4.2 偏差修正

指数加权平均值通常都需要偏差修正，TensorFlow中提供的ExponentialMovingAverage()函数也带有偏差修正。

为什么叫做“滑动平均”？

实际上当前计算得到的shadow_variable约等于前 $\frac{1}{1- decay}$ 个的平均值。比如decay=0.98，1/(1-0.98) = 50，当前的为平均的前50个的平均值。

注意一点：当decay非常大，接近1时，计算的shadow_variable是取决于上一个的值，当前轮的weight影响比较小。

在前期的时候，weight值变化比较大时，如果decay值非常接近1，如0.999，平均值就会滞后。所以引入num_updates变量：
$\{ decay , \frac{1+ num\_updates }{10 + num\_updates}\}$

在前期的时候，decay比较小，以减少上一个shadow_variable的影响。

# 在所有的变量上应用滑动平均模型
   variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECYA, global_step)
   average_op = variable_averages.apply(tf.trainable_variables())

   with tf.control_dependencies([train_step, average_op]):
       train_op = tf.no_op('train')

四、mnist数据集处理

手写数字识别数据集一共有60000万图片，tensorflow分为了训练集55000张，验证集5000张，测试集10000张。每张图片的维度是28x28=784，每个像素点的值是[0,1]之间的数。标签值是已经经过one hot处理的，是一个10维的数组，如果是某个数字则为1。其实是一个多分类问题。

# coding:utf-8
import warnings

warnings.filterwarnings('ignore')
from tensorflow.examples.tutorials.mnist import input_data
from os.path import dirname, abspath
import os

workspace_path = dirname(dirname(dirname(abspath(__file__))))
mnist = input_data.read_data_sets(os.path.join(workspace_path, 'tensor_flow', 'google_tf', 'data'), one_hot=True)

# Training data 55000
print('Training data size:{}'.format(mnist.train.num_examples))
# Validation data size: 5000
print('Validation data size:{}'.format(mnist.validation.num_examples))
# Test data size: 10000
print('Test data size:{}'.format(mnist.test.num_examples))

# [0, 0, 0.98,...] 28x28=784维的数组
# print('Train data: {}'.format(mnist.train.images[0]))
# 训练数据的label是一个10维数组，[0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
print('Train label:{}'.format(mnist.train.labels[0]))

batch_size = 100
xs, ys = mnist.train.next_batch(batch_size)
# X shape:(100, 784)
print('X shape:{}'.format(xs.shape))
# y shape:(100, 10)
print('y shape:{}'.format(ys.shape))

mnist数据集上的两层神经网络：

# coding:utf-8
import warnings

warnings.filterwarnings('ignore', category=FutureWarning)
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
import os
import numpy as np

cwd = os.getcwd()

INPUT_NODE = 28 * 28
OUTPUT_NODE = 10

LAYER1_NODE = 500

BATCH_SIZE = 100

LEARNING_RATE_BASE = 0.8
LEARNING_RATE_DECAY = 0.99
# 正则化项系数
REGULARIZATION_RATE = 0.0001
# 总的训练次数
TRANING_STEPS = 30000

# 滑动平均衰减系数
AVERAGE_MOVING_DECAY = 0.99


def inference(input_tensor, avg_class, weight1, bias1, weight2, bias2):
    """
    设置一个可以加入所有参数的添加一层神经网络的函数，
    :param input_tensor:
    :param avg_class:
    :param weight1:
    :param bias1:
    :param weight2:
    :param bias2:
    :return: 最后的预测值
    """
    if avg_class is None:
        layer1 = tf.nn.relu(tf.matmul(input_tensor, weight1) + bias1)
        return tf.matmul(layer1, weight2) + bias2
    else:
        # 首先计算出变量的滑动平均值，再计算这一层的值，这里的平均值是如何计算的？
        layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weight1)) +
                            avg_class.average(bias1))
        return tf.matmul(layer1, avg_class.average(weight2)) + avg_class.average(bias2)


def train(mnist):
    x = tf.placeholder(shape=[None, INPUT_NODE], name='x-input', dtype=tf.float32)
    y_ = tf.placeholder(shape=[None, OUTPUT_NODE], name='y-input', dtype=tf.float32)

    # 生成隐藏层参数
    weight1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
    bias1 = tf.Variable(tf.constant(0.1, dtype=tf.float32, shape=[LAYER1_NODE]))
    weight2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
    bias2 = tf.Variable(tf.constant(0.1, dtype=tf.float32, shape=[OUTPUT_NODE]))

    # 预测值
    y = inference(x, None, weight1, bias1, weight2, bias2)

    # global_step 代表训练轮数的变量，一般是trainable=False，不用计算滑动平均值
    global_step = tf.Variable(0, trainable=False)

    # 给定平均滑动衰减率和训练轮数，初始化平均滑动类。可以在前期加快训练的速度，它是如何加快速度的？
    average_class = tf.train.ExponentialMovingAverage(AVERAGE_MOVING_DECAY, global_step)

    # 在所有的变量上使用滑动平均,tf.trainable_variable是返回所有的trainable的变量
    variable_average_op = average_class.apply(tf.trainable_variables())

    average_y = inference(x, average_class, weight1, bias1, weight2, bias2)

    # 计算交叉熵, 使用sparse_softmax_cross_entropy_with_logits
    cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
    # 计算一个批的平均交叉熵
    cross_entropy_mean = tf.reduce_mean(cross_entropy)
    # 计算L2正则化
    regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)
    # 正则化只能W进行，一般不对bias正则化
    regularization = regularizer(weight1) + regularizer(weight2)
    # 计算总的损失 交叉熵损失 + 正则化项
    loss = cross_entropy + regularization
    # 设置指数衰减的学习率
    learning_rate = tf.train.exponential_decay(learning_rate=LEARNING_RATE_BASE,
                                               global_step=global_step,
                                               decay_steps=mnist.train.num_examples / BATCH_SIZE,  #
                                               decay_rate=LEARNING_RATE_DECAY)

    # 使用optimizer来优化损失 GradientDescentOptimizer
    train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss=loss,
                                                                           global_step=global_step)

    # 在训练神经网络模型时，每过一篇数据，既要通过反向传播来更新神经网络中的参数，又要更新每一个参数的滑动平均值。
    # 为了同时完成两个操作，Tensorflow提供了group机制和control_dependencies机制
    with tf.control_dependencies([train_step, variable_average_op]):
        train_ops = tf.no_op(name='train')

    # 计算滑动平均模型的准确率
    correct_predict = tf.equal(tf.argmax(average_y, 1), tf.argmax(y_, 1))
    accuracy = tf.reduce_mean(tf.cast(correct_predict, tf.float32))

    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        # 准备验证集和测试集
        validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels}
        test_feed = {x: mnist.test.images, y_: mnist.test.labels}
        print(f'Validate set shape:{np.array(mnist.validation.labels).shape}')
        for i in range(TRANING_STEPS):

            if i % 1000 == 0:
                validate_accuracy = sess.run(accuracy, feed_dict=validate_feed)
                print(f'After {i} training steps, validation accuracy is: {validate_accuracy}')

            xs, ys = mnist.train.next_batch(BATCH_SIZE)
            sess.run(train_ops, feed_dict={x: xs, y_: ys})

        test_acc = sess.run(accuracy, feed_dict=test_feed)
        print(f'After {TRANING_STEPS} training steps, test accuracy is: {test_acc}')


def main(argv=None):
    print(cwd)
    mnist = input_data.read_data_sets(os.path.join(cwd, 'data'), one_hot=True)
    train(mnist)


if __name__ == '__main__':
    tf.app.run()

变量的管理

# coding: utf-8
import tensorflow as tf

# 创建变量的两种方式：在创建变量的形式上来看，这两种方式是相同的
# 两者最大的区别是指定变量名的参数，tf.get_variable()是位置参数，而tf.Variable()是默认参数
# 第一种方式是创建一个变量名为v1的变量，如果已经有同名的参数就会报错，而创建失败。
v1 = tf.get_variable('v1', shape=[1], dtype=tf.float32, initializer=tf.constant_initializer(1.0))
v2 = tf.Variable(tf.constant(1.0, shape=[1]), name='v2')

with tf.Session() as sess:
    tf.global_variables_initializer().run()
    print('--->v1:', sess.run(v1))
    print('--->v2:', sess.run(v2))

# TODO
with tf.variable_scope('foo', reuse=True)

get_variable也可以以numpy数据为initializer创建变量。

token_ebms = np.float32(np.random.randn(1000, 100))
    print(token_ebms[0])
    emb_tables = tf.get_variable('embeddings', initializer=token_ebms, dtype=tf.float32)
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        emb_tables_val = sess.run(emb_tables)
        print(emb_tables_val)
        print(type(emb_tables_val))

TensorFlow中的变量一般就是模型的参数，当模型比较复杂时共享变量会变的非常复杂。官网给了一个例子，是当创建两层卷积的过滤器时，每输入一次图片就需要重新创建一次过滤器对应的变量，但是我们希望所有的图片共享这个变量，一共有四个变量，conv1_weights, conv1_biases, conv2_weights, conv2_biases。一般的做法是将这些变量设置为全局变量，这就打破了封装性。还有一种方法是保证封装性的方式是将模型封装成类。

不过，TF提供了Varible Scope这种机制来共享变量，这个机制主要涉及两个函数：

tf.get_variable(<name>, <shape>, <initializer>)：# 创建或返回给定名称的变量

tf.variable_scope()：# 管理传给get_varible()的变量名称的作用域，创建一个scope

详细介绍tf.get_varible()和tf.varible_scope()

https://www.cnblogs.com/MY0213/p/9208503.html

tf.get_variable_scope().reuse==True的时候，tf.get_variable()就不是创建变量了，而是从作用域中获取已经创建的变量。否则会报错。
- 当前作用域的名字可以通过tf.get_variable_scope()来获取，并且reuse属性可以通过reuse_variables来设置。
with tf.variable_scope()，其实就是给变量加上一个作用域，也就是同名的变量如果在不同的作用域中名字是可以相同的。
作用域可以相互嵌套，其实就是在变量上加上一个前缀；
作用域中的resuse默认是False，调用函数reuse_variables()可设置为True，一旦设置为True，就不能返回到False，并且该作用域的子空间reuse都是True。如果不想重用变量，那么可以退回到上层作用域，相当于exit当前作用域.
一个作用域可以作为另一个新的作用域的参数
不管作用域如何嵌套，当使用with tf.variable_scope()打开一个已经存在的作用域时，就会跳转到这个作用域。

tf.variable_scope可以控制tf.get_variable的函数语义。在tf.variable中，

reuse = True时，在variable_scope中所有的get_variable是根据变量名来获取已经存在的变量，如果变量不存在则报错。实际上，如果resue=True则无法创建变量，只是获取已经存在的变量。
reuse = False 或者 reuse=None，则在variable_scope中get_variable是创建一个新的变量，如果名字已经存在则报错。只能创建，无法获取已经创建好的变量。

模型持久化

save model to file

# coding:utf-8
import warnings
import os

warnings.filterwarnings('ignore', category=FutureWarning)
import tensorflow as tf

cwd = os.getcwd()

v1 = tf.Variable(tf.constant(1.0, shape=[1], name='v1'))
v2 = tf.Variable(tf.constant(2.0, shape=[1], name='v2'))

result = v1 + v2

saver = tf.train.Saver()
model_save_path = os.path.join(cwd, 'model', 'add_model.ckpt')

with tf.Session() as sess:
    tf.global_variables_initializer().run()
    print(sess.run(result))
    saver.save(sess, model_save_path)

以上代码会把模型保存到model目录下，虽然指定了保存的名字，但是仍然会有三个文件

Tensorflow把计算图的结构与参数是分开保存的，其中：

add_model.ckpt.meta：保存了计算图的结构；
add_model.ckpt.index和add_model.ckpt.data-00000-of-00001保存了计算图上所有的变量的取值；
checkpoint：不同文件对应的位置；

restore model from saved file

# coding:utf-8
import tensorflow as tf
import os

cwd = os.getcwd()

v1 = tf.Variable(tf.constant(1.0, shape=[1], name='v1'))
v2 = tf.Variable(tf.constant(2.0, shape=[1], name='v2'))

result = v1 + v2

saver = tf.train.Saver()
model_save_path = os.path.join(cwd, 'model', 'add_model.ckpt')

with tf.Session() as sess:
    model = saver.restore(sess, model_save_path)
    print(sess.run(result))

loss为Nan的情况：
https://blog.csdn.net/princexiexiaofeng/article/details/79975964
learning_rate太大，出现loss为Nan的情况，减小到原来的1/10再试验。

优化之后的代码：
mnist_inference.py

# -*- coding:utf-8 -*-
import warnings

warnings.filterwarnings('ignore', category=FutureWarning)
import tensorflow as tf

# 定义整个网络的前向传播，即神经网络的框架

INPUT_NODE = 28 * 28
HIDDEN_NODE = 500
OUTPUT_NODE = 10


def get_weight_variable(shape, regularizer):
    """
    创建一个variable, 在训练时，会创建这些变量，在测试时会通过保存的模型加载这些变量
    :param shape:
    :param regularizer:
    :return:
    """
    # weight的stddev=0.1 否则会很大，如果此时learning_rate比较小的话，loss很大
    weight = tf.get_variable('weight', shape, initializer=tf.truncated_normal_initializer(stddev=0.1))
    # 如果regularizer不为None时，则需要将weight正则化，放到collection中
    if regularizer:
        tf.add_to_collection('losses', regularizer(weight))

    return weight


def inference(input_tensor, regularizer):
    """
    定义了两层神经网络
    :param input_tensor:
    :param regularizer:
    :return:
    """
    with tf.variable_scope('layer1'): # 用这个variable_scope是为了调用weight时防止名字相同而报错
        weight = get_weight_variable([INPUT_NODE, HIDDEN_NODE], regularizer)
        # bias是一维的可以直接相加么, 一个矩阵和一个行向量相加，矩阵的列与行向量的维度是一样的
        bias = tf.get_variable('bias', [HIDDEN_NODE], initializer=tf.constant_initializer(0.0))
        layer1 = tf.matmul(input_tensor, weight) + bias

    with tf.variable_scope('layer2'):
        weight = get_weight_variable([HIDDEN_NODE, OUTPUT_NODE], regularizer)
        bias = tf.get_variable('bias', [OUTPUT_NODE], initializer=tf.constant_initializer(0.0))
        layer2 = tf.matmul(layer1, weight) + bias
    return layer2

mnist_train.py

# -*- coding:utf-8 -*-
import sys
from tensor_flow import workspace_path
import os

sys.path.append(workspace_path)

from tensor_flow.google_tf.mnist_nn_best import mnist_inference
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

BATCH_SIZE = 100
# 学习率要变小，0.8->0.001
LEARNING_RATE_BASE = 0.001
LEARNING_DECAY = 0.99
MOVING_AVERAGE_DECYA = 0.9
REGULARIZER_RATE = 0.0001
TRAINING_STEPS = 30000

MODEL_SAVE_PATH = os.path.join(workspace_path, 'tensor_flow/google_tf/mnist_nn_best', 'model')
MODEL_SAVE_NAME = 'mninst_model'


def train(mnist):
    x = tf.placeholder(tf.float32, [None, mnist_inference.INPUT_NODE], name='input_data')
    y_ = tf.placeholder(tf.float32, [None, mnist_inference.OUTPUT_NODE], name='output_data')

    regularizer = tf.contrib.layers.l2_regularizer(REGULARIZER_RATE)
    y = mnist_inference.inference(x, regularizer)

    global_step = tf.Variable(0, trainable=False)
    learning_rate = tf.train.exponential_decay(learning_rate=LEARNING_RATE_BASE,
                                               global_step=global_step,
                                               decay_steps=mnist.train.num_examples / BATCH_SIZE,
                                               decay_rate=LEARNING_DECAY)

    cross_entropy_loss = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_, 1))
    cross_entropy_mean = tf.reduce_mean(cross_entropy_loss)
    # 从名字为losses的collection中拿出所有的weight的正则化项，加到交叉熵损失中，作为总的损失
    loss = cross_entropy_mean + tf.add_n(tf.get_collection('losses'))
    # 梯度下降的方法，根据loss作反向传播
    train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step)

    # 滑动平均操作
    variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECYA, global_step)
    average_op = variable_averages.apply(tf.trainable_variables())

    with tf.control_dependencies([train_step, average_op]):
        train_op = tf.no_op('train')

    # 保存模型的saver
    saver = tf.train.Saver()
    # 开始迭代训练
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        for i in range(TRAINING_STEPS):
            xs, ys = mnist.train.next_batch(BATCH_SIZE)
            _, loss_value, cross_mean_value, step = sess.run([train_op, loss, cross_entropy_mean, global_step],
                                                             feed_dict={x: xs, y_: ys})
            if i % 1000 == 0:
                # 打印一下训练过程的数据
                print(
                    f'After {i} training step, loss with regularization value: {loss_value}, cross entropy loss: {cross_mean_value},step: {step}')
                # 这里为什么传入的是global_step?
                if not os.path.exists(MODEL_SAVE_PATH):
                    os.mkdir(MODEL_SAVE_PATH)
                saver.save(sess, os.path.join(MODEL_SAVE_PATH, MODEL_SAVE_NAME), global_step=global_step)


def main(argv=None):
    training_data_path = os.path.join(workspace_path, 'tensor_flow/google_tf/data')
    mnist = input_data.read_data_sets(training_data_path, one_hot=True)
    train(mnist)


if __name__ == '__main__':
    tf.app.run()

mnist_eval.py

# -*- coding:utf-8 -*-
import time
import tensorflow as tf
from tensor_flow.google_tf.mnist_nn_best import mnist_inference, mnist_train
import os
from tensorflow.examples.tutorials.mnist import input_data
from tensor_flow import workspace_path

EVAL_INTERVAL_SECS = 5


def evaluate(mnist):
    with tf.Graph().as_default() as g:
        x = tf.placeholder(tf.float32, [None, mnist_inference.INPUT_NODE], name='x-input')
        y_ = tf.placeholder(tf.float32, [None, mnist_inference.OUTPUT_NODE], name='y-input')

        validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels}

        y = mnist_inference.inference(x, None)

        correct_predict = tf.equal(tf.argmax(y_, 1), tf.argmax(y, 1))
        accuracy = tf.reduce_mean(tf.cast(correct_predict, tf.float32))

        variable_averages = tf.train.ExponentialMovingAverage(mnist_train.MOVING_AVERAGE_DECYA)
        variable_to_restore = variable_averages.variables_to_restore()
        saver = tf.train.Saver(variable_to_restore)

        while True:
            with tf.Session() as sess:
                ckpt = tf.train.get_checkpoint_state(mnist_train.MODEL_SAVE_PATH)
                if ckpt and ckpt.model_checkpoint_path:
                    saver.restore(sess, ckpt.model_checkpoint_path)
                    global_step = ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1]
                    accuracy_score = sess.run(accuracy, feed_dict=validate_feed)
                    print(f'After {global_step} steps training, accuracy: {accuracy_score}')
                else:
                    print('No checkpoint file Found')
                    return
            time.sleep(EVAL_INTERVAL_SECS)


def main(argv=None):
    training_data_path = os.path.join(workspace_path, 'tensor_flow/google_tf/data')
    mnist = input_data.read_data_sets(training_data_path, one_hot=True)
    evaluate(mnist)


if __name__ == '__main__':
    tf.app.run()

五、卷积神经网络

1. 常用图像识别数据集

MNIST 数据集： 60000万张手写数字，有10000万张的测试集。图片的大小28*28像素
CIFAR-10：10个种类的60000张彩色图片，图片的像素为32*32，人工标注的准确率大约94%。目前最好的深度学习算法在CIFAR-10的准确率达到95.59%，已经超过了人类。
ImageNet：是基本WordNet的大型图库，将近有1500万图片被关联到2000万个名词的同义词集上。ImageNet每年都举办图像识别相关的竞赛(ImageNet Large Scale Visual Recognization Challage, ILSVRC)
ILSVRC2012来自1000个类别的120万张图片。

2. 卷积神经网络

卷积后图像的通道数的计算：
一开始一个图片是一个32323的矩阵，32是高和宽，3是通道的个数，如果使用10个553的Filter过滤之后则第二卷积层的层数是10，也就是filter的个数。
卷积后图像大小的计算：
如果没有padding，步长为1的情况：卷积之后得到的维度是n-f+1
如果padding的像素大小为p，由于图片的两个边都要padding，则为2p，如果Filter的移动步长为s，则nxn的图片卷积完得到的大小为
$\frac{n+2p-f}{s}+1$

Tensorflow实现卷积层

# -*- coding: utf-8 -*-
"""
Tensorflow 上实现卷积层是非常简单的，过滤器的参数是变量
"""
import tensorflow as tf

def conv_layer(inputs):
    # 过滤器的权重变量
    # shape是四维，前两维代表过滤器的尺寸，第三个维度代表当前层的通道个数，
    # 第四个维度代表过滤器的个数（也就是下一层的通道个数）
    filter_weight = tf.get_variable('weight', shape=[5, 5, 3, 16],
                                    initializer=tf.truncated_normal_initializer(stddev=0.1))

    biases = tf.get_variable('bias', shape=[16], initializer=tf.constant_initializer(0.1))

    # tf.nn.conv2d实现了卷积的前向传播
    # inputs代表输入，是一个四维的矩阵[0, :, :, :]代表第1个图片，第一个维度输入是batch，
    # 后三个维度代表当层矩阵上的一个点
    # 第二个参数代表filter
    # 第三个参数代表步长，也是一个四维向量，第1个和第4个维度是固定为1 ，
    # 第二个和第三个维度代表在图片的高和宽上的步长。
    # padding: SAME代表不填充
    conv = tf.nn.conv2d(inputs, filter_weight, strides=[1, 1, 1, 1], padding='SAME')

    # 为每个节点加上bias项
    bias = tf.nn.bias_add(conv, biases)
    # 经过relu返回最后的结果
    return tf.nn.relu(bias)

池化层 (pooling layer)
池化层可以有效的缩小矩阵的尺寸，而且可以起到防止过拟合。

# -*- coding: utf-8 -*-
"""
Tensorflow 上实现卷积层是非常简单的，过滤器的参数是变量，并加入池化层
"""
import tensorflow as tf


def conv_layer(inputs):
    # 过滤器的权重变量
    # shape是四维，前两维代表过滤器的尺寸，第三个维度代表当前层的通道个数，
    # 第四个维度代表过滤器的个数（也就是下一层的通道个数）
    filter_weight = tf.get_variable('weight', shape=[5, 5, 3, 16],
                                    initializer=tf.truncated_normal_initializer(stddev=0.1))

    biases = tf.get_variable('bias', shape=[16], initializer=tf.constant_initializer(0.1))

    # tf.nn.conv2d实现了卷积的前向传播
    # inputs代表输入，是一个四维的矩阵[0, :, :, :]代表第1个图片，第一个维度输入是batch，
    # 后三个维度代表当层矩阵上的一个点
    # 第二个参数代表filter
    # 第三个参数代表步长，也是一个四维向量，第1个和第4个维度是固定为1 ，
    # 第二个和第三个维度代表在图片的高和宽上的步长。
    # padding: SAME代表不填充
    conv = tf.nn.conv2d(inputs, filter_weight, strides=[1, 1, 1, 1], padding='SAME')

    # 为每个节点加上bias项，并用relu函数激活
    actived_conv = tf.nn.relu(tf.nn.bias_add(conv, biases))

    # 池化层
    # ksize是池化层的大小，第1个和第4个维度是1，代表不能在图片之间及深度之间传递
    # 第二个和第三个参数代表池化层的尺寸，一般是2x2或3x3
    # strides：步长，代表池化层移动的步长。
    # padding: 'SAME'表示全0填充，VALID表示不填充
    value = tf.nn.max_pool(actived_conv, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1],
                           padding='SAME')

    return value

六、循环神经网络

RNN

在一个RNN的cell中的参数都是一样的，随着时间步的移动，计算每一个输入的输出。当前cell的输入包括上一个的状态及x，内部的本质其实就是全连接层。

循环神经网络在每时都有输出，所以RNN的总的损失是所有时刻（或者部分时刻）的损失的和。

LSTM

LSTM 在1997年由“Hochreiter & Schmidhuber”提出，目前已经成为 RNN 中的标准形式，用来解决上面提到的 RNN 模型存在“长期依赖”的问题。LSTM中有三个门：forget gate，update gate，output gate

门的输出是一个（0,1）之间的数，然后乘以需要

LSTM中的参数个数的计算：
比如设置一个LSTM的num_units=128，这个参数其实各个门全连接层的神经单元的个数，再白点就是参数W的输出维度。输入的x的维度是200
则每个门的个数为：(128 + 200)128 +128 = 42112
一共有三个门加一个 $c^{}$ 的计算参数一共是四个：所以总的参数是421124 = 168448
参数一般是tf.float32：16万个参数总的空间大小为 168448/(1024*1024) = 1.2M

在使用LSTM时，有一个问题：
一层神经网络有kernal的shape为（256，512），已知：num_units=128, emb_size=128.

GUR

Gated Recurrent Unit(GRU)门控循环单元，GRU（Gated Recurrent Unit）是2014年提出来的新的 RNN 架构，它是简化版的 LSTM。这里的门就是一个0~1的系数，来确定某个组成的权重；

The cat, which already ate …, was full. 前面是cat所以后面的使用单数

The cats, which already ate…, were full. 前面是cats，所以后面是复数。

如何利用神经网络把这点学到？

Simple GRU 有一个新的变量c，代表memory cell

替代值 $\widetilde{c}^{}$ 是由输入和x使用tanh函数计算出来的
$\widetilde{c}^{} = tanh(W_c[c^{},x^{}]+b_c)$
用输入的 $c^{}$ 和 $x^{t}$ 及sigmoid函数计算一个0~1的概率，作为门 $\Gamma_u$

$\Gamma_u = \sigma(W_u[c^{},x^{}]+b_u)$

更新 $c^{}$

$c^{t} = \Gamma_u*\widetilde{c}^{} + (1-\Gamma_u)*c^{}$

Full GRU ：有两个门 update gate 和relavation gate

候选值 $\widetilde{c}^{}$ 是由输入和x使用tanh函数计算出来的

候选值： $\widetilde{c}^{} = tanh(W_c[\Gamma_r*c^{},x^{}]+b_c)$
用输入的 $c^{}$ 和 $x^{t}$ 及sigmoid函数计算一个0~1的概率，作为门 $\Gamma_u$

更新门： $\Gamma_u = \sigma(W_u[c^{},x^{}]+b_u)$
表示线性相关性

相关门： $\Gamma_r=\sigma(W_r[c^{},x^{}]+b_u)$
更新 $c^{}$

双向RNN

双向循环神经网络是两个独立的RNN的叠加在一起组合而成，输出由这个两个循环神经网络简单的拼接。

双向循环神经网络的主体结构就是两个单向循环神经网络的结合。在第一个时刻t，输入会同时提供给这两个方向相反的循环神经网络。两个网络独立进行计算，各自产生这个时刻的新状态和输出，而双向循环神经网络的最终输出是这两个单向循环神经网络的输出的简单拼接。两个循环神经网络除了方向不同以外，苦命结构完全对称。每一层网络中的Cell可以自由选用，可以是RNN，也可以是LSTM。

DeepRNN

深层循环神经网络，一层神经网络的表达能力有限，因为一层的神经网络相当于是从输入 $x_t$ 到输出 $o_t$ 只有一层全连接，现在是从输入 $x_t$ 到输出 $o_t$ 经过了L个RnnCell。
这个图从左到右看，一行是一层，每一层的参数是一样的，而不同层的cell的参数是不同的。
从下向上看， $A_1$ -> $A_2$ ->…-> $A^L$ ，是同一时刻t，上一层的输出是当前层的输入。
在Tensorflow是使用MultiRNNCell来实现深层循环神经网络的前向传播的。

循环神经网络的dropout

类似卷积神经网络只在全连接层使用dropout，循环神经网络也只在不同层之间使用dropout，而不在同一层的不同时间步使用dropout。

# 定义LSTM结构
num_layers = 10
lstm = tf.nn.rnn_cell.BasicLSTMCell

rnn_cells = []
for _ in range(num_layers):
    # 用input_keep_prob和output_keep_prob两个参数来控制输入和输入的dropout概率，0.9是保留的，有10%的被dropout
    dropout_rnn_cell = tf.nn.rnn_cell.DropoutWrapper(lstm(lstm_hidden_siz), input_keep_prob=0.9,
                                                     output_keep_prob=0.8)
                                                     
    rnn_cells.append(dropout_rnn_cell)

stacked_rnn = tf.nn.rnn_cell.MultiRNNCell(rnn_cells)

七、自然语言处理

1. 语言模型的评价规则

复杂度：

复杂度的log形式：

与交叉熵的形式是一样的，交叉熵是描述两个概率分布距离的，也就是真实值与预测之间的误差有多少。交叉熵越大，说明预测的准确性越低，交叉熵越小，说明预测的准确性越高。

softmax_cross_entropy_with_logits
在神经网络中往往用softmax来归一化，这是为什么？

如何从反向传播的度角理解
https://blog.csdn.net/flying_sfeng/article/details/80927098

# -*- coding:utf-8 -*-
import tensorflow as tf

"""
tf.nn.sparse_softmax_cross_entropy_with_logits 与
tf.nn.softmax_cross_entropy_with_logits的区别：
只是在labels参数的形式不同

cross entropy：交叉熵  sum(-y*log(y_pred)),用来衡量两个向量的相似程度
"""

# 词典的大小有3个单词，语料中包含的单词有2个
labels = tf.constant([2, 0])

# logtis不是概率值如果需要计算概率值
# sigmoid也可以计算概率值，那么和softmax有啥区别呢？
# sigmoid是一维的，比如二分类问题中，预测值是一个比较大的数，需要映射到0~1之间。
# 而softmax是多维的，对一个向量来说，向量的和是1，每个位置的值对应的概率值。比如两个单词，第一个单词
# 在词典中的位置是分别的概率
predict_logits = tf.constant([[2.0, -1.0, 3.0], [1.0, 0.0, -0.5]])

# softmax之后再求cross entropy
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=labels, logits=predict_logits)

word_prob_distribute = tf.constant([[0, 0, 1], [1, 0, 0]])
loss = tf.nn.softmax_cross_entropy_with_logits(labels=word_prob_distribute, logits=predict_logits)

# 在实际是应用中softmax_cross_entropy用的比较多，因为真实值的labels可以是一个概率
# 对于没有出现的词的话可以用比较接近0的值来代表

word_prob_smooth = tf.constant([[0.01, 0.01, 0.98], [0.98, 0.01, 0.01]])
smoth_loss = tf.nn.softmax_cross_entropy_with_logits(labels=word_prob_smooth, logits=predict_logits)

total_loss = tf.reduce_mean(loss)

with tf.Session() as sess:
    # 下面两个计算的值是一样的，输出的是一个两维的矩阵，代表两个单词的损失
    # 如果要计算所有的损失和的话：tf.reduce_mean()来得到一个均值
    # sparse cross entropy: [0.32656264 0.4643688 ]
    # softmax cross entropy:[0.32656264 0.4643688 ]
    # smoth softmax cross entropy:[0.37656265 0.48936883]
    # mean loss: 0.3954657316207886
    print('sparse cross entropy:', sess.run(cross_entropy))
    print('softmax cross entropy:{}'.format(sess.run(loss)))
    print('smoth softmax cross entropy:{}'.format(sess.run(smoth_loss)))

    print('mean loss:{}'.format(sess.run(total_loss)))

PTB数据预处理

原始数据集是一段段的文字，首先根据训练数据构建词典，把单词转化为单词在词典中的index，另外加入了和表示未知词汇和句子结束。所有的文本数量化后，把整个文本处理成一个单词index的list，是一个长的list。

为了增加并行处理文本能力，把文本处理成batch的形式。RNN的输入是一个单词的index，输出是输入单词的下一个单词。

批的大小batch_size，一个批内的数据大小是num_time_step。

# -*- coding: utf-8 -*-
from collections import Counter
from operator import getitem
import numpy as np
import os

cwd = os.getcwd()

TRAIN_BATCH_SIZE = 20
TRAIN_NUM_STEP = 35


class Vocab:
    """
    根据读入的数据构建vocab
    """

    def __init__(self, training_data_path, test_data_path):
        self.training_data_path = training_data_path
        self.test_date_path = test_data_path

    def build_vocab(self):
        counter = Counter()
        with open(self.training_data_path, 'r', encoding='utf-8') as f:
            for line in f:
                for word in line.strip().split():
                    counter[word] += 1
        self.counter = counter
        words_sorted = sorted(counter.items(), key=lambda x: x[1], reverse=True)
        # 加入eos 换行符
        self.itos = [''] + [w[0] for w in words_sorted]
        self.word2id = {word: self.itos.index(word) for word in self.itos}

    def get_id(self, word):
        return self.word2id[word] if word in self.word2id else self.word2id['']

    def numerical(self, input_file, out_file):
        with open(input_file, 'r', encoding='utf-8') as f:
            for line in f:
                # 在每行上加入换行符，换行符也是有意义的
                words = line.strip().split() + ['']
                words_ids = [str(self.get_id(word)) for word in words]
                with open(out_file, 'a', encoding='utf-8') as ff:
                    ff.write(' '.join(words_ids) + '\n')


def read_data(data_path):
    """
    把用id表示的训练数据读取成一个list
    :param data_path:
    :return:
    """
    with open(data_path, 'r', encoding='utf-8') as f:
        # 整个文档组成一个string
        id_string = ' '.join([line.strip() for line in f.readlines()])
        return [int(idx) for idx in id_string.split()]


def make_batches(id_list, batch_size, num_step):
    """
    把整个文档的id list 分割成批，一批数据的大小是batch_size * num_step.
    训练数据和label：babel是训练数据的下一个单词
    一个timestep是一个单词
    :param id_list:
    :param batch_size:
    :param num_step:
    :return:
    """
    # 最后不够一批的数据就不用了
    num_batch = (len(id_list) - 1) // (batch_size * num_step)
    data = np.array(id_list[:num_batch * batch_size * num_step])
    data = np.reshape(data, [batch_size, num_batch * num_step])
    # 按行分割成num_batch个批
    data_batches = np.split(data, num_batch, axis=1)

    labels = np.array(id_list[1:num_batch * batch_size * num_step + 1])
    labels = np.reshape(labels, [batch_size, num_batch, num_step])
    labels_batches = np.split(labels, num_batch, axis=1)

    return list(zip(data_batches, labels_batches))


if __name__ == '__main__':
    data_dir = os.path.join(cwd, 'ptb_data')
    # train_data_path = os.path.join(data_dir, 'ptb.train.txt')
    # test_data_path = os.path.join(data_dir, 'ptb.test.txt')
    # vocab = Vocab(train_data_path, test_data_path)
    # vocab.build_vocab()
    output_data_path = os.path.join(data_dir, 'ptb.train')
    # vocab.numerical(train_data_path, output_data_path)

    batches = make_batches(read_data(output_data_path),TRAIN_BATCH_SIZE,TRAIN_NUM_STEP)
    print(batches[:])

embedding层

与一般的循环神经网络相比，nlp的应用中加入了embedding层和softmax层

1. 为什么需要word embedding?

现在的输入是一个单词在词典中的index，如果进行one-hot处理后就是一个10000维的向量，这样的话向量太稀疏，也太大。

word ebedding之后，一方面是降维，从10000维降低到200~400维，可以大大减少神经网络的参数量和计算量。另一方面是增加语义信息，ebedding之后的词向量有了语义，比如意思相近的词的词向量的距离更小一些。

假设词向量的维度是EMB_SIZE，词汇表的大小是VOCAB_SIZE，那么所有的单词可以放入到一个大小为VOCAB_SIZE x EMB_SIZE的矩阵内，在读取词向量的时候，可以调用tf.nn.embedding_lookup方法。

# -*- coding: utf-8 -*-
import tensorflow as tf

VOCAB_SIZE = 10000
EMB_SIZE = 200

embedding = tf.get_variable('embedding', [VOCAB_SIZE, EMB_SIZE])

# 输入是一个batch_size=3, num_step=2, 词典大小是7
input_data = [[1, 2], [3, 4], [5, 6]]

# 输出的维度比输入的维度多一个维度，新增维度的大小是EBM_SIZE
# 在语言模型中，一般input_data的维度是batch_size x num_steps，而
# 输出的iput_embeddings的维度是 batch_size x num_steps x EMB_SIZE
# `embedding_lookup`函数作了查找的工作，把id转化为 word embedding vectors
input_embeddings = tf.nn.embedding_lookup(embedding, input_data)

softmax层

softmax层的作用是把循环神经网络的输出转化为一个单词表的每个单词的概率值。

第一步是使用一个线性映射把循环神经网络的输出映射为一个VOCAB_SIZE大小的向量，这一步的输出叫做logits

第二步是把logits计算为一个加和为1的概率向量

# softmax层中的参数
weight = tf.get_variable('weight', [HIDDEN_SIZE, VOCAB_SIZE])
bias = tf.get_variable('bias', [VOCAB_SIZE])

# 计算logits
# output是循环神经网络的输出，维度是[batch_size x num_step, HIDDEN_SIZE]
# logits的维度是[batch_size x num_step, VOCAB_SIZE]
logits = tf.nn.bias_add(tf.matmul(output, weight), bias)

# 再用softmax函数将logits归一化为一个加和概率为1的向量, 再用这个prob计算交叉熵
prob = tf.nn.softmax(logits)

# 而往往我们并不关注logits的值，而是直接计算cross entropy的值
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(
    labels=tf.reshape(target, [-1]), logits=logits)

如果EMB_SIZE = 512, VOCAB_SIEZ=10000, HIDDEN_SIZE=512，则各种层的参数的个数：

embedding层没有bias，10000*512 = 5120000
双层LSTM参数： 2 x [(512 + 512)x512+512]x4 =4198400个
softmax层：10000*512 + 10000 = 5130000
可见双层LSTM参数占了不到30%

ebedding层和softmax层共享参数可以减少参数量，并且可以提高效果。

以PTB数据集的语言模型

概念：

batch：把10000个训练样本分成20样本一个的batch来训练。在这个batch的数据上做梯度的反向传播。
epoch：所有的训练数据循环的次数。比如有10000个训练数据，epoch=5, 则这10000个训练数据循环5遍，相当于有50000个训练样本。

# -*- coding: utf-8 -*-
import warnings

warnings.filterwarnings('ignore', category=FutureWarning)
import tensorflow as tf
import numpy as np
import os

cwd = os.getcwd()

from tensor_flow.google_tf.nlp.handle_data import read_data, make_batches

TRAIN_BATCH_SIZE = 20
TRAIN_NUM_STEP = 35

EVAL_BATCH_SIZE = 1
EVAL_NUM_STEP = 1

NUM_EPOCH = 5


class PtbModel(object):
    def __init__(self, is_training, batch_size=20, num_step=35,
                 vocab_size=10000, emb_size=300, hidden_size=300,
                 num_layers=2, lstm_keep_prob=0.9, embedding_keep_prob=0.9,
                 max_grad_norm=5, share_emb_and_softmax=True):
        self.is_training = is_training
        self.batch_size = batch_size
        self.num_step = num_step
        self.vocab_size = vocab_size
        self.emb_size = emb_size
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.emb_size = emb_size
        self.lstm_keep_prob = lstm_keep_prob
        self.embedding_keep_prob = embedding_keep_prob
        self.max_grad_norm = max_grad_norm
        self.share_emb_and_softmax = share_emb_and_softmax

        self.input_data = tf.placeholder(tf.int32, [self.batch_size, self.num_step], name='inputs')
        self.targets = tf.placeholder(tf.int32, [self.batch_size, self.num_step], name='targets')

        # embedding layer
        embeddings = tf.get_variable('embeddings', [self.vocab_size, self.hidden_size], tf.float32)
        # 把输入的单词转化为词向量，inputs: [batch_size, num_step, emb_size]
        inputs = tf.nn.embedding_lookup(embeddings, self.input_data)
        # 如果是训练的时候，再dropout
        if is_training:
            inputs = tf.nn.dropout(inputs, self.embedding_keep_prob)

        # two layers lstm
        lstm_cells = [tf.nn.rnn_cell.DropoutWrapper(tf.nn.rnn_cell.BasicLSTMCell(self.hidden_size),
                                                    input_keep_prob=self.lstm_keep_prob)
                      for _ in range(self.num_layers)]
        cell = tf.nn.rnn_cell.MultiRNNCell(lstm_cells)
        # 两层lstm的初始化state，包括h和c
        self.initial_state = cell.zero_state(self.batch_size, dtype=tf.float32)

        # 把结果放到outputs中
        outputs = []
        state = self.initial_state
        with tf.variable_scope('rnn'):
            for time_step in range(self.num_step):
                if time_step > 0:
                    tf.get_variable_scope().reuse_variables()
                # 每一个时间步输出和状态
                cell_outputs, state = cell(inputs[:, time_step, :], state)
                outputs.append(cell_outputs)

        # 把输出outputs展开为[batch, hidden_size*num_step]，再reshape成[batch_size*num_step, hidden_size]的形状
        outputs = tf.reshape(tf.concat(outputs, axis=1), [-1, self.hidden_size])

        # =======softmax layer==========
        if self.share_emb_and_softmax:
            # 如果共享参数，embedding层的参数转置之后就是softmax层的参数，但是没有bias
            weight = tf.transpose(embeddings)
        else:
            weight = tf.get_variable('softmax_w', [self.hidden_size, self.vocab_size])

        bias = tf.get_variable('softmax_b', [self.vocab_size])

        # [batch_size*num_step, vocab_size]
        logits = tf.matmul(outputs, weight) + bias
        # loss的维度:[batch_size*num_step]一维
        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.reshape(self.targets, [-1]), logits=logits)
        # 这个批的平均损失
        self.cost = tf.reduce_sum(loss) / self.batch_size
        self.final_state = state

        if not is_training:
            return

        # ==============back propagation========
        trainable_variables = tf.trainable_variables()
        grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, trainable_variables), self.max_grad_norm)
        optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)
        self.train_op = optimizer.apply_gradients(zip(grads, trainable_variables))


def run_epoch(session, model, batches, train_op, output_log, step):
    total_cost = 0.0
    iters = 0
    state = session.run(model.initial_state)
    for x, y in batches:
        # print(np.array(x).shape, np.array(y).shape)
        cost, state, _ = session.run([model.cost, model.final_state, train_op], {model.input_data: x, model.targets: y,
                                                                                 model.initial_state: state})
        total_cost += cost
        iters += model.num_step

        if output_log and step % 100 == 0:
            print(f'After {step}, perplexity is: {np.exp(total_cost / iters)}')

        step += 1

    return step, np.exp(total_cost / iters)


def main():
    # 定义初始化函数
    initializer = tf.random_uniform_initializer(minval=-0.1, maxval=0.1)
    # 初始化模型
    with tf.variable_scope('language_model', reuse=None, initializer=initializer):
        train_model = PtbModel(True, batch_size=TRAIN_BATCH_SIZE, num_step=TRAIN_NUM_STEP)

    # 定义测试用的模型，与训练模型共用参数，但是没有dropout
    with tf.variable_scope('language_model', reuse=True, initializer=initializer):
        eval_model = PtbModel(False, batch_size=EVAL_BATCH_SIZE, num_step=EVAL_NUM_STEP)

        # 训练模型
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        train_batches = make_batches(read_data(os.path.join(cwd, 'ptb_data/ptb.train')), TRAIN_BATCH_SIZE,
                                     TRAIN_NUM_STEP)
        eval_batches = make_batches(read_data(os.path.join(cwd, 'ptb_data/ptb.eval')), EVAL_BATCH_SIZE, EVAL_NUM_STEP)
        test_batches = make_batches(read_data(os.path.join(cwd, 'ptb_data/ptb.test')), EVAL_BATCH_SIZE, EVAL_NUM_STEP)

        step = 0
        for i in range(NUM_EPOCH):
            print(f"In iteration: {i + 1}")
            step, train_pplx = run_epoch(sess, train_model, train_batches, train_model.train_op, True, step)
            print(f"Epoch:{i + 1}, train perplexity:{train_pplx}")
            _, eval_pplx = run_epoch(sess, eval_model, eval_batches, tf.no_op(), False, 0)
            print(f"Epoch:{i + 1}, eval perplexity:{eval_pplx}")

        _, test_pplx = run_epoch(sess, eval_model, test_batches, tf.no_op(), False, 0)
        print(f"Epoch:{i + 1},test perplexity:{test_pplx}")


if __name__ == '__main__':
    main()

dynamic_rnn

在进行自然语言处理时，可能每句话长度不一致，但是在我们将矩阵送入模型时，要求长度是一致的。因此不相同的时间步长要求一致，以最大步长为准。这样也就需要进行填充，但是如果仅仅完成填充，在训练的时候不把这些填充的数据去除的话，那么这些填充位置的向量也会学习到特征，进一步影响梯度的计算，因此需要使用sequence_length来指定有效长度，跳过填充的部分。

单层单向lstm

def one_layer_lstm_cell(batch_size=1, emb_size=200, num_units=128, sequence_len=25):
    X = np.random.randn(batch_size, sequence_len, emb_size)
    sequence_len = [sequence_len]
    # 前4个有值，后面的为padding的，为0
    X[0, 4:] = 0
    cell = tf.nn.rnn_cell.LSTMCell(num_units=num_units)
    outputs, last_state = tf.nn.dynamic_rnn(cell=cell,
                                            dtype=tf.float64,
                                            sequence_length=sequence_len,
                                            inputs=X,
                                            time_major=False)
    print('============lstm cell =======')

    # outputs是所有时间步的输出
    # last_states是一个tuple，里面有两个值，分别是c，h 。 c是最后一个时间步的长期记忆，h是最后一个时间步的短期记忆

    print(f'----->outputs:{outputs}')
    print(f'----->state:{last_state}')

单层双向lstm

def one_layer_bilstm_cell(batch_size=1, emb_size=200, num_units=128, sequence_len=25):
    X = np.random.randn(batch_size, sequence_len, emb_size)
    sequence_len = [sequence_len]
    cell_fw = tf.nn.rnn_cell.LSTMCell(num_units=num_units)
    cell_bw = tf.nn.rnn_cell.LSTMCell(num_units=num_units)

    print('========bilstm cell==========')
    outputs, last_state = tf.nn.bidirectional_dynamic_rnn(cell_fw, cell_bw,
                                                          inputs=X,
                                                          dtype=tf.float64,
                                                          sequence_length=sequence_len)

    # outputs是一个tuple，里面有两个值。第一个值是前向循环单元每一个时间步的输出，第二个值是反向循环单元每一个时间步的输出。
    # states也是一个tuple，里面仍然有两个值分别都是LSTMStateTuple，第一个（前向循环单元最后一个时间步的长期记忆c,
    # 前向循环单元最后一个时间步的短期记忆h） 第二个（反向循环单元最后一个时间步的长期记忆c,反向循环单元最后一个时间步的短期记忆h）
    print(f'----->outputs:{outputs}')
    print(f'----->state:{last_state}')

单步多层LSTM

def multi_lstm():
    batch_size = 10
    depth = 128
    num_units = [100, 400, 300]
    last_num_units = num_units[-1]

    cells = [tf.nn.rnn_cell.BasicLSTMCell(num_unit) for num_unit in num_units]

    # 得到的mul_cells也是RNNCell的子类的对象
    mul_cells = tf.nn.rnn_cell.MultiRNNCell(cells)

    # 接下来使用mul_cells的call方法，在一个时间步上运行

    # 下面三个参数分别是指，3层lstm网络中，每一层lstm，上一个时间步的输出, previous_state包括c和h
    previous_state0 = (tf.random_normal([batch_size, 100]), tf.random_normal([batch_size, 100]))
    previous_state1 = (tf.random_normal([batch_size, 400]), tf.random_normal([batch_size, 400]))
    previous_state2 = (tf.random_normal([batch_size, 300]), tf.random_normal([batch_size, 300]))
    """
     这里的inputs 和普通的inputs 不同。普通的inputs的shape是(batch_size,max_step,depth)，
     这里的inputs的shape是(batch_size,depth)，原因在于这里的时间步骤已经指定。
    """
    inputs = tf.Variable(tf.random_normal([batch_size, depth]))

    # 调用call方法，在当前时间步骤运行网络
    outputs, states = mul_cells.call(inputs=inputs, state=(previous_state0, previous_state1, previous_state2))

    print(outputs.shape)  # (10, 300) Tensor
    print(states)  # (3,) 元组类型，存有3个LSTMStateTuple对象，((c,h),(c,h),(c,h))

    """
     接下来说明一下 outputs和states 这两个返回值
     （1）outputs 的shape (batch_size,last_num_units) 表示当前step最后一层的输出
     （2）states 包含3个LSTMStateTuple，每一个表示每一层的当前step的输出，这个输出有两个信息，
         一个是h表示短期记忆信息，一个是c表示长期记忆信息。维度都是[batch_size，num_units]，
         states的最后一个LSTMStateTuple中的h就是outputs的最后一个step的输出
    """

一次性执行多步call：dynamic_rnn

一次性执行多步call方法：tf.nn.dynamic_rnn

基础的RNNCell有一个很明显的问题：对于单个的RNNCell，我们使用它的call函数进行运算时，只是在序列时间上前进了一步。比如使用x1、h0得到h1，通过x2、h1得到h2等。这样的h话，如果我们的序列长度为10，就要调用10次call函数，比较麻烦。对此，TensorFlow提供了一个函数，使用该函数就相当于调用了n次call函数。即通过{h0,x1, x2, …., xn}直接得{h1,h2…,hn}。

还有一个作用是：根据输入的sequence_length，读取batch里的每一条数据，在读取了相应的内容之后就跳过后面的输入。这样就把padding的数据跳过了。

并且输入的每个batch的time step也不一定相同，但是dynamic会根据每个batch的max_sequence_length来展开rnn的cell。在计算权重的时候也是一样的，需要把padding位置的wight设置为0，这样就不会引起梯度的计算了。

tf.nn.dynamic_rnn返回值详解

def dynamic_rnns(num_steps=2, emb_size=3, num_units=5):
    """
    tf.nn.dynamic_rnn(
    cell,
    inputs,
    sequence_length=None,
    initial_state=None,
    dtype=None,
    parallel_iterations=None,
    swap_memory=False,
    time_major=False,
    scope=None
)
    :param num_steps:
    :param emb_size:
    :param num_units:
    :return:
    """
    X = tf.placeholder(tf.float32, [None, num_steps, emb_size])  # [batch_size, num_steps, emb_size]
    lstm_cell = tf.nn.rnn_cell.BasicRNNCell(num_units=num_units)
    seq_length = tf.placeholder(tf.int32, [None])  # [batch_size]
    outputs, last_state = tf.nn.dynamic_rnn(lstm_cell, X, sequence_length=seq_length, dtype=tf.float32)

    X_batch = np.array([
        # step 0     step 1
        [[0, 1, 2], [9, 8, 7]],  # instance 1
        [[3, 4, 5], [0, 0, 0]],  # instance 2 (padded with zero vectors)
        [[6, 7, 8], [6, 5, 4]],  # instance 3
        [[9, 0, 1], [3, 2, 1]]  # instance 4
    ])
    seq_length_batch = [2, 1, 2, 2]
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        outputs_val, last_state_val = sess.run([outputs, last_state],
                                               feed_dict={X: X_batch, seq_length: seq_length_batch})
        print(f'outputs.shape:{outputs_val.shape}, last_state.shape:{last_state_val.shape}')
        print(f'outputs_val: \n{outputs_val}')
        print(f'last_state_val: \n{last_state_val}')

输入是一个(4, 2, 5)的一批数据，batch_size是4，有2个time_step，RNN cell中的神经元的个数是5。先说outputs是啥：outputs是最后一层RNN的所有time step的h，而state是所有层的最后一个time step的h。如果是LSTM cell的话，则state中是h和c。这个其实很好理解：既然是ouputs，则每个time step要有一个对应的输出，因为每一个time step就是一个单词。而state只要保留最后一个就好了，这样可以作为下一个batch的输入。
outputs是一个（4, 2, 5）Tensor，分别是[batch_size, num_steps, num_units]， last_state是一个[batch_size, num_units]的Tensor。

多层RNN

def dynamic_rnns(num_steps=2, emb_size=3, num_units=5, num_layers=3):
    """
    tf.nn.dynamic_rnn(
    cell,
    inputs,
    sequence_length=None,
    initial_state=None,
    dtype=None,
    parallel_iterations=None,
    swap_memory=False,
    time_major=False,
    scope=None
)
    """
    X = tf.placeholder(tf.float32, [None, num_steps, emb_size])  # [batch_size, num_steps, emb_size]
    rnn_cells = tf.nn.rnn_cell.MultiRNNCell(
        [tf.nn.rnn_cell.BasicRNNCell(num_units=num_units) for _ in range(num_layers)])

    seq_length = tf.placeholder(tf.int32, [None])  # [batch_size]
    outputs, last_state = tf.nn.dynamic_rnn(rnn_cells, X, sequence_length=seq_length, dtype=tf.float32)

    X_batch = np.array([
        # step 0     step 1
        [[0, 1, 2], [9, 8, 7]],  # instance 1
        [[3, 4, 5], [0, 0, 0]],  # instance 2 (padded with zero vectors)
        [[6, 7, 8], [6, 5, 4]],  # instance 3
        [[9, 0, 1], [3, 2, 1]]  # instance 4
    ])
    seq_length_batch = [2, 1, 2, 2]
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        outputs_val, last_state_val = sess.run([outputs, last_state],
                                               feed_dict={X: X_batch, seq_length: seq_length_batch})
        # 这里直接打印的是ouputs，而不是outputs_val
        print(f'outputs.shape:{outputs}, \n last_state.shape:{last_state}')
        print(f'outputs_val: \n{outputs_val}')
        print(f'last_state_val: \n{last_state_val}')

双向LSTM

def bidirection_lstms(num_units=5, emb_size=3, num_steps=2):
    """tf.nn.bidirectional_dynamic_rnn(
    cell_fw,
    cell_bw,
    inputs,
    sequence_length=None,
    initial_state_fw=None,
    initial_state_bw=None,
    dtype=None,
    parallel_iterations=None,
    swap_memory=False,
    time_major=False,
    scope=None
)"""
    X = tf.placeholder(tf.float32, [None, num_steps, emb_size])
    seq_len = tf.placeholder(tf.int32, [None])
    lstm_fw = tf.nn.rnn_cell.BasicLSTMCell(num_units=num_units)
    lstm_bw = tf.nn.rnn_cell.BasicLSTMCell(num_units=num_units)
    outputs, last_state = tf.nn.bidirectional_dynamic_rnn(lstm_fw, lstm_bw, X, sequence_length=seq_len,
                                                          dtype=tf.float32)

    X_batch = np.array([
        # step 0     step 1
        [[0, 1, 2], [9, 8, 7]],  # instance 1
        [[3, 4, 5], [0, 0, 0]],  # instance 2 (padded with zero vectors)
        [[6, 7, 8], [6, 5, 4]],  # instance 3
        [[9, 0, 1], [3, 2, 1]]  # instance 4
    ])
    seq_length_batch = [2, 1, 2, 2]
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        outputs_val, last_state_val = sess.run([outputs, last_state],
                                               feed_dict={X: X_batch, seq_len: seq_length_batch})
        print(f'outputs.shape:{outputs}, \n last_state.shape:{last_state}')
        print(f'outputs_val: \n{outputs_val}')
        print(f'last_state_val: \n{last_state_val}')

先forward，再backward：

seq2seq模型

Seq2seq于2014年提出来，可以用于机器翻译方面。思想也比较简单：用一个循环神经网络读入句子，把句子压缩成一个固定维度的编码中；再用另一个循环神经网络将其解压成目标语言的句子。这两个神经网络分别称为编码器（Encoder）和解码器（Decoder），这个模型又称为Encoder-decoder模型。

解码器部分的结构与语言模型几乎完全相同：输入为单词的词向量，输出为softmax层产生的单词概率，损失函数为log perplexity。语言模型中使用的一些技巧，如共享softmax层与词向量的参数，都可以直接应用到Seq2Seq模型的解码器中。

编码器则更简单，它解码器一样也拥有词向量层和循环神经网络，但是由于在编码阶段并未输出，因此是不需要softmax层的。

在训练的过程中，Encoder顺序读入每个单词的词向量，然后将最后的隐藏状态复制到Decoder作为初始状态。Decoder的第一个输入是一个特殊的符号（start of Sentence），每一步预测的单词是训练数据的句子，预测序列的最后一个单词是与语言模型相同的（end of Sentence）。

机器翻译最重要的公开数据集是WMT数据集，全称是Workshop on Statistical Machine Translation.
假设有四个句子，组成batch_size为2的两个batch，并对句子进行了填充。

Corpus处理：

# -*- coding: utf-8 -*-
import os
import nltk.tokenize as tk
from typing import List, Tuple
import logging
from collections import Counter

cwd = os.getcwd()


class Preprocessor:
    def __init__(self, raw_en_path, raw_zh_path, en_vocab_size=10000,
                 zh_vocab_size=4000, logger=None):
        self.raw_en_path = raw_en_path
        self.raw_zh_path = raw_zh_path
        self.en_vocab_size = en_vocab_size
        self.zh_vocab_size = zh_vocab_size

        self.logger = logger if logger is not None else logging

        self.handle_data()

    def handle_data(self):
        # preprocess
        self.preprocess_corpus()
        # tokenize
        self.tokenize_sentences()
        # build vocab
        self.build_vocab()
        # numerical
        self.numerical()
        # padding
        self.padding()

    def preprocess_corpus(self):
        delete_tags = ['', '', '', '', ', ']
        contain_tags = [(''</span><span class="token punctuation">,</span> <span class="token string">''), ('', '')]

        def is_deleted(sentence: str) -> bool:
            for t in delete_tags:
                if sentence.startswith(t):
                    return True
                else:
                    continue

            return False

        def only_drop_tags(sentence: str) -> str:
            for t in contain_tags:
                if sentence.startswith(t[0]):
                    s = sentence.replace(t[0], '')
                    s = s.replace(t[1], '')
                    return s
                else:
                    continue
            return sentence

        def read_lines(file_path, is_zh=False):
            target_lines = []
            with open(file_path, 'r', encoding='utf-8') as f:
                for line in f:
                    line = line.strip()
                    if is_deleted(line):
                        continue
                    line = only_drop_tags(line)
                    if is_zh:
                        line = line.strip().replace(' ', '')

                    # if not is_zh:
                    #     line = line.lower()

                    target_lines.append(line.strip())
            return target_lines

        self.en_lines, self.zh_lines = read_lines(self.raw_en_path), read_lines(self.raw_zh_path, is_zh=True)
        if len(self.en_lines) != len(self.zh_lines):
            raise ValueError(
                f"The lines of en corpus {len(self.en_lines)} not match zh corpus'lines {len(self.zh_lines)} ")
        print(f"en lines:{len(self.en_lines)}, zh lines:{len(self.zh_lines)}")

    def tokenize_sentences(self):
        en_tokens = []
        zh_tokens = []
        for line in self.en_lines:
            tokenizer = tk.WordPunctTokenizer()
            tokens = tokenizer.tokenize(line)
            en_tokens.append(tokens)

        for line in self.zh_lines:
            zh_tokens.append(list(line))

        # the shape of self.en_tokens is [[word1, word2, ...,],[word1, word2,.. ]]
        self.en_tokens, self.zh_tokens = en_tokens, zh_tokens
        self.max_en_sentence_len = max([len(words) for words in self.en_tokens])
        self.max_zh_sentence_len = max(len(words) for words in self.zh_tokens)
        print(f"max en sentence len:{self.max_en_sentence_len}")
        print(f'max zh sentence len:{self.max_zh_sentence_len}')

    def build_vocab(self):
        def count_words(tokens, vocab_size):
            counter = Counter()
            for words in tokens:
                for word in words:
                    counter[word] += 1
            words_sorted = sorted(counter.items(), key=lambda x: x[1], reverse=True)
            itos = ['', '', ''] + [w[0] for w in words_sorted]
            if vocab_size is not None:
                print(f'total words in vocab:{len(itos)}')
                itos = itos[:vocab_size]
            word2id = {word: itos.index(word) for word in itos}
            return word2id

        self.en_vocab = count_words(self.en_tokens, self.en_vocab_size)
        self.zh_vocab = count_words(self.zh_tokens, self.zh_vocab_size)
        print(f"en vocab size:{len(self.en_vocab)}, zh vocab size: {len(self.zh_vocab)}")

    def numerical(self):
        def _get_id(word, vocab):
            return vocab[word] if word in vocab else vocab['']

        def _numerical(line_words, vocab):
            numerical_lines = []
            for words in line_words:
                words = words + ['']
                words_ids = [str(_get_id(word, vocab)) for word in words]
                numerical_lines.append(' '.join(words_ids))
            return numerical_lines

        # self.en_numerical_tokens shape []
        self.en_numerical_tokens = _numerical(self.en_tokens, self.en_vocab)
        self.zh_numerical_tokens = _numerical(self.zh_tokens, self.zh_vocab)

    def padding(self):
        pass

    @staticmethod
    def write_lines(path, lines):
        with open(path, 'w', encoding='utf-8') as f:
            f.write('\n'.join(lines))


def get_abs_path(filename):
    return os.path.join(cwd, 'data/en-zh', filename)


if __name__ == '__main__':
    raw_files = ['train.tags.en-zh.en', 'train.tags.en-zh.zh']
    lines_files = ['train.line.en', 'train.line.zh']
    words_files = ['train.words.en', 'train.words.zh']
    ids_files = ['train.ids.en', 'train.ids.zh']

    processor = Preprocessor(get_abs_path(raw_files[0]), get_abs_path(raw_files[1]))
    Preprocessor.write_lines(get_abs_path(lines_files[0]), processor.en_lines)
    Preprocessor.write_lines(get_abs_path(lines_files[1]), processor.zh_lines)

    Preprocessor.write_lines(get_abs_path(words_files[0]), [' '.join(tokens) for tokens in processor.en_tokens])
    Preprocessor.write_lines(get_abs_path(words_files[1]), [' '.join(tokens) for tokens in processor.zh_tokens])

    Preprocessor.write_lines(get_abs_path(ids_files[0]), processor.en_numerical_tokens)
    Preprocessor.write_lines(get_abs_path(ids_files[1]), processor.zh_numerical_tokens)

    en_ids = '1,127,13,5,692,1771,2'
    en_s = 'life in the deep oceans'
    print([processor.en_vocab[w] for w in en_s.split()])
    zh_s = '深海中的生命－大卫.盖罗'
    print([processor.zh_vocab[w] for w in list(zh_s)])

生成batch数据

# -*- coding: utf-8 -*-
import tensorflow as tf
import os
import numpy as np
import logging

cwd = os.getcwd()

MAX_LEN = 50  # 限定句子的最大单词数量。
SOS_ID = 1  # 目标语言词汇表中的ID。

src_file_path = os.path.join(cwd, 'data/en-zh', 'train.ids.en')
tgt_file_path = os.path.join(cwd, 'data/en-zh', 'train.ids.zh')


def iterator(src_path=src_file_path, target_path=tgt_file_path, batch_size=100, logger=None):
    en_lines = []
    with open(src_path, 'r', encoding='utf-8') as f:
        for line in f:
            en_lines.append([int(index) for index in line.strip().split()])

    zh_label_lines = []
    zh_input_lines = []
    with open(target_path, 'r', encoding='utf-8') as ff:
        for line in ff:
            ids = [int(index) for index in line.strip().split()]
            zh_label_lines.append(ids)

            ids_input = [SOS_ID] + ids[:-1]
            zh_input_lines.append(ids_input)

    assert len(en_lines) == len(zh_input_lines)
    # logger.info(f'en_lines len:{len(en_lines)}, zh lines len:{len(zh_input_lines)},label len:{len(zh_label_lines)}')

    sentences = []
    for en, zh, label in zip(en_lines, zh_input_lines, zh_label_lines):
        if min(len(en), len(zh)) > MAX_LEN:
            continue
        sentences.append((en, zh, label))

    num_batches = (len(sentences) - 1) // batch_size + 1
    # logger.info(f'---->num batches:{num_batches}-----')

    for i in range(num_batches):
        batch_examples = sentences[i * batch_size:(min(len(sentences), i * batch_size + batch_size))]
        en_batch = []
        zh_batch = []
        label_batch = []
        for x, y, z in batch_examples:
            en_batch.append(x)
            zh_batch.append(y)
            label_batch.append(z)

        en_seq_len = [len(w) for w in en_batch]
        zh_seq_len = [len(w) for w in zh_batch]

        en_batch = padding(en_batch, en_seq_len)
        zh_batch = padding(zh_batch, zh_seq_len)
        label_batch = padding(label_batch, zh_seq_len)

        yield en_batch, en_seq_len, zh_batch, zh_seq_len, label_batch


def padding(inputs, seq_len):
    max_seq_len = max(seq_len)
    batch_size = len(inputs)
    padded_inputs = np.zeros(shape=(batch_size, max_seq_len), dtype=np.int32)
    for i, ids in enumerate(inputs):
        padded_inputs[i, :len(ids)] = ids
    return padded_inputs


def zip_test():
    en_inputs = [[1, 2], [28, 12, 2, 3]]
    en_seq_len = [len(w) for w in en_inputs]
    zh_inputs = [[1], [23, 32, 3, 5]]
    zh_seq_len = [len(w) for w in zh_inputs]

    sentences = []
    for x, y in zip(en_inputs, zh_inputs):
        if min(len(x), len(y)) < 1:
            continue
        else:
            sentences.append((x, y))

    print(sentences[:2])


if __name__ == '__main__':
    for en, en_len, zh, zh_len, labels in iterator():
        print(en.shape)
        print(en)
        print(en_len)
        print('*' * 40)
        print(zh)
        print(zh_len)
        print('*' * 40)
        print(labels)
        break

模型



# -*- coding: utf-8 -*-
import tensorflow as tf
import numpy as np
import logging


class MTModel(object):
    def __init__(self, hidden_size=1024, num_layers=2, src_vocab_size=10000,
                 tgt_vocab_size=4000, max_grad_norm=5,
                 share_emb_and_sofmax=True, emb_keep_prob=0.9,
                 learning_rate=0.001,
                 initializer=tf.random_normal_initializer(stddev=0.1),
                 logger=None):
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.src_vocab_size = src_vocab_size
        self.tgt_vocab_size = tgt_vocab_size
        self.max_grad_norm = max_grad_norm
        self.share_emb_and_softmax = share_emb_and_sofmax
        self.emb_keep_prob = emb_keep_prob
        self.learning_rate = learning_rate
        self.initializer = initializer
        self.logger = logger if logger is not None else logging

        self.add_placehoders()
        self.forward()
        self.backward()

        self.logger.info('Init model finised!')

    def add_placehoders(self):
        self.src_inputs = tf.placeholder(tf.int32, [None, None], 'src_inputs')  # [batch_size, seq_len]
        self.src_seq_len = tf.placeholder(tf.int32, [None], 'src_seq_len')  # [batch_size]
        self.tgt_inputs = tf.placeholder(tf.int32, [None, None], 'tgt_inputs')  # [batch_size, seq_len]
        self.tgt_seq_len = tf.placeholder(tf.int32, [None], 'tgt_seq_len')  # [batch_size]
        self.tgt_labels = tf.placeholder(tf.int32, [None, None], 'tgt_labels')  # [batch_size, seq_len]

        self.global_step = tf.Variable(0, trainable=False)

    def forward(self):

        with tf.variable_scope('encoder'):
            # Encoder和Decoder使用的embedding params
            self.enc_embeddings = tf.get_variable('src_emb_params', [self.src_vocab_size, self.hidden_size],
                                                  initializer=self.initializer)
            # embedding layer
            src_emb = tf.nn.dropout(tf.nn.embedding_lookup(self.enc_embeddings, self.src_inputs),
                                    keep_prob=self.emb_keep_prob)

            self.enc_cell = tf.nn.rnn_cell.MultiRNNCell([tf.nn.rnn_cell.BasicLSTMCell(self.hidden_size)
                                                         for _ in range(self.num_layers)])
            # outputs and laste_state are Tuple
            # [batch_size, seq_len, hidden_size], state.shape: [batch_size, hidden_size]
            enc_outputs, enc_state = tf.nn.dynamic_rnn(self.enc_cell, src_emb,
                                                       sequence_length=self.src_seq_len,
                                                       dtype=tf.float32)

        # decoder的初始state是encoder层的last_state
        with tf.variable_scope('decoder'):
            # embedding layer
            self.dec_embeddings = tf.get_variable('tgt_emb_params', [self.tgt_vocab_size, self.hidden_size],
                                                  initializer=self.initializer)
            tgt_emb = tf.nn.dropout(tf.nn.embedding_lookup(self.dec_embeddings, self.tgt_inputs),
                                    keep_prob=self.emb_keep_prob)

            self.dec_cell = tf.nn.rnn_cell.MultiRNNCell([tf.nn.rnn_cell.BasicLSTMCell(self.hidden_size)
                                                         for _ in range(self.num_layers)])
            dec_outputs, dec_state = tf.nn.dynamic_rnn(self.dec_cell, tgt_emb,
                                                       sequence_length=self.tgt_seq_len,
                                                       initial_state=enc_state)
        with tf.variable_scope('softmax_layer'):
            if self.share_emb_and_softmax:
                self.sofmax_w = tf.transpose(self.dec_embeddings)
            else:
                self.sofmax_w = tf.get_variable('softmax_w', [self.hidden_size, self.tgt_vocab_size])

            self.sofmax_b = tf.get_variable('softmax_b', [self.tgt_vocab_size])

            batch_size = tf.shape(dec_outputs)[0]
            # softmax layer
            output = tf.reshape(dec_outputs, [-1, self.hidden_size])
            logits = tf.matmul(output, self.sofmax_w) + self.sofmax_b  # [batch_size*seq_len, tgt_vocab_size]

        # 计算Decoder每一步的损失 每一个样本的损失，里面包含了padding的样本
        # loss shape : 一维，[batch_size*seq_len]
        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.reshape(self.tgt_labels, [-1]), logits=logits)

        # 在计算损平均损失时，需要将填充位置的权重设置为0， 以避免无效位置预测干扰
        label_weights = tf.sequence_mask(self.tgt_seq_len, maxlen=tf.shape(self.tgt_labels)[1],
                                         dtype=tf.float32)  # [batch_size, max_seq_len]
        label_weights = tf.reshape(label_weights, [-1])
        total_cost = tf.reduce_sum(label_weights * loss)  # 不能直接用tf.reduce_mean，因为样本中有padding的样本
        self.cost_per_batch = total_cost / tf.to_float(batch_size)
        self.cost_per_token = total_cost / tf.reduce_sum(label_weights)

    def backward(self):
        # GradientDescentOptimizer
        # trainable_variables = tf.trainable_variables()
        # grads = tf.gradients(self.cost_per_batch, trainable_variables)
        # grads, _ = tf.clip_by_global_norm(grads, self.max_grad_norm)
        # optimizer = tf.train.GradientDescentOptimizer(learning_rate=self.learning_rate)
        # self.train_op = optimizer.apply_gradients(zip(grads, trainable_variables))
        # Adam optimizer
        optimizer = tf.train.AdamOptimizer(learning_rate=self.learning_rate)
        self.train_op = optimizer.minimize(self.cost_per_batch, global_step=self.global_step)

    def inference(self, src_input, dec_max_step=100):
        SOS_ID, EOS_ID = 1, 2
        src_size = tf.convert_to_tensor([len(src_input)], dtype=tf.int32)
        src_input = tf.convert_to_tensor([src_input], dtype=tf.int32)
        # 用训练好的encoder的embedding参数来对输入的英文句子作embedding
        src_emb = tf.nn.embedding_lookup(self.enc_embeddings, src_input)
        with tf.variable_scope('encoder'):
            enc_outputs, enc_state = tf.nn.dynamic_rnn(self.enc_cell, src_emb, sequence_length=src_size,
                                                       dtype=tf.float32)

        with tf.variable_scope('decoder/rnn/multi_rnn_cell'):
            init_array = tf.TensorArray(dtype=tf.int32, size=0, dynamic_size=True, clear_after_read=False)
            init_array = init_array.write(0, SOS_ID)
            # 构建初始的循环状态，包括encoder输出的state, 存储句子的数组及步数
            init_loop_var = (enc_state, init_array, 0)

            def continue_loop_conditions(state, trg_ids, step):
                return tf.reduce_all(tf.logical_and(
                    tf.not_equal(trg_ids.read(step), EOS_ID),
                    tf.less(step, dec_max_step - 1)
                ))

            def loop_body(state, trg_ids, step):
                # 读取最后一步输出的单词，并取其词向量
                self.logger.debug(trg_ids.size())
                trg_inputs = [trg_ids.read(step)]
                trg_emb = tf.nn.embedding_lookup(self.dec_embeddings, trg_inputs)
                self.logger.debug('---->trg_emb', trg_emb)
                # 直接使用decoder的cell来一步步的计算,dec_outputs:[batch_size, max_seq_len, hidden_size]
                dec_outputs, next_state = self.dec_cell.call(inputs=trg_emb, state=state)
                # 计算logits
                dec_outputs = tf.reshape(dec_outputs, [-1, self.hidden_size])
                logits = tf.matmul(dec_outputs, self.sofmax_w) + self.sofmax_b
                next_id = tf.argmax(logits, axis=1, output_type=tf.int32)
                # 把预测到zh单词写到动态数组中
                # 这里有一个坑 trg_ids = trg_ids.write(step+1, next_id[0]) right
                # trg_ids.write(step+1, next_id[0]) wrong
                trg_ids = trg_ids.write(step + 1, next_id[0])
                return next_state, trg_ids, step + 1

            final_state, final_ids, final_step = tf.while_loop(continue_loop_conditions, loop_body, init_loop_var)

            return final_ids.stack()


if __name__ == '__main__':
    mt_model = MTModel()
    print(mt_model)
    for v in tf.global_variables():
        print(v)

    feed = dict()
    feed[mt_model.src_inputs] = np.random.randint(low=0, high=10000, size=[128, 50])
    feed[mt_model.src_seq_len] = np.random.randint(low=0, high=50, size=[128])
    feed[mt_model.tgt_inputs] = np.random.randint(low=0, high=4000, size=[128, 50])
    feed[mt_model.tgt_seq_len] = np.random.randint(low=0, high=50, size=[128])
    feed[mt_model.tgt_labels] = np.random.randint(low=0, high=4000, size=[128, 50])

    sentence_ids = [95, 14, 10, 701, 4, 2]
    pred_op = mt_model.inference(sentence_ids)
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        cost_val, _ = sess.run([mt_model.cost_per_batch, mt_model.train_op], feed_dict=feed)
        print(cost_val)

        outputs_val = sess.run(pred_op)
        print(outputs_val)

训练

# -*- coding: utf-8 -*-
import tensorflow as tf

import sys
from os.path import abspath, dirname
sys.path.append(dirname(dirname(dirname(dirname(abspath(__file__))))))

from tensor_flow.google_tf.seq2seq.datasets import iterator
from tensor_flow.google_tf.seq2seq.seq_model import MTModel
from tensor_flow.google_tf.seq2seq.basic_logging import init_logger
import os
import numpy as np
import logging

cwd = os.getcwd()


def run_epoch(model, session, saver, step, ckpt_path, logger=None):
    for en_inputs, en_seq_len, zh_inputs, zh_seq_len, labels in iterator():
        cost_per_token_val, _ = session.run([model.cost_per_token, model.train_op],
                                            feed_dict={model.src_inputs: en_inputs,
                                                       model.src_seq_len: en_seq_len,
                                                       model.tgt_inputs: zh_inputs,
                                                       model.tgt_seq_len: zh_seq_len,
                                                       model.tgt_labels: labels})
        if step % 10 == 0:
            logger.info('After {} step, per token cost: {:.4f}'.format(step, cost_per_token_val))

        if step % 200 == 0:
            saver.save(session, ckpt_path, global_step=step)

        step += 1


def main():
    logger_path = os.path.join(cwd, 'log')
    init_logger(logger_path)
    logger = logging.getLogger('logger')
    mt_model = MTModel(logger=logger)
    saver = tf.train.Saver()
    ckpt_path = os.path.join(cwd, 'model', 'mt-model')
    num_epoches = 5
    step = 0

    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        for i in range(num_epoches):
            logger.info(f'---------------Running the epoch {i}--------------')
            run_epoch(model=mt_model, session=sess, saver=saver, step=step, ckpt_path=ckpt_path,
                      logger=logger)


if __name__ == '__main__':
    main()

训练完成后，从checkpoint中加载模型，并对一个新的句子（英译汉）进行预测。与训练时不同，训练的时候，Decoder可以读取汉语句子作为输入，但是在预测时就没有汉语句子可以输入了。所以在预测时Decoder读取预测目标句子的第一个单词，然后需要将这一个单词复制到第二步作为输入，再预测第二个单词，直到预测到为止。这个过程需要一个循环结构来实现。在Tensorflow中，循环结构是用tf.while_loop来实现的。

Attention机制

浅谈 Attention 机制的理解

在上图中， $h_i$ 表示编码器在第 $i$ 个单词上的输出， $s_j$ 是Decoder在预测第 $j$ 个单词时的状态。有一个问题是Encoder和Decoder的时间步的长度是不一样的？ $i$ 和 $j$ 是如何对应的呢？其实没有对应，在解码的时候，每一步的context是单独计算的。如果把Encoder层的输出作为一个hidden_size维的向量时，在每个维度上乘了个权重，本质上还是带权重的特征。

计算 $j$ 时刻的context的方法如下：
$\alpha_{i,j}=\frac{exp(e(h_i,s_j))}{\sum_i exp(e(h_i,s_j))}$
$context_j=\sum_i \alpha_{i,j} h_i$

其中 $e(h_i,s_j)$ 是计算原文各个单词与当前解码器状态的“相关度”的函数。最常用的 $e (h, s)$ 函数定义是一个带有单个隐藏层的前馈神经网络：
$e (h, s) = U t a n h (V h + W s)$
这个函数构成了一个包含一个隐藏层的全连接神经网络。这个模型是是Dzmitry Bahdanau等在第一次提出注意力机制的论文中采用的模型。除此之外，还有Minh-Thang Luong等提取的 $e(h,s)=h^TWs$ 或者直接使用两个状态之间的点乘 $e(h,s)=h^Ts$ 。

在计算得到第j步context向量之后，context被加入到j+1时刻作为循环层的输入。

还有两个注意的地方：

Encoder采用了一个双向循环网络；
取消了Encoder与Decoder之间的连接，Decoder完全依赖于注意力机制获取原文信息。取消这一连接使得Encoder与Decoder可以自由选择模型。例如它们可以选择不同层数，不同维度、不同结构的循环神经网络。可以在Encoder中使用双向LSTM，而在Decoder中使用单向LSTM，甚至可以使用卷积网络作为Encoder，用循环神经网络作为Decoder.

参考：
https://blog.csdn.net/u014453898/article/details/83303312

你可能感兴趣的:(深度学习,tensorflow,深度学习,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n