Omni-Space

tensorflow笔记：多层LSTM代码分析

tensorflow笔记系列：
（一） tensorflow笔记：流程，概念和简单代码注释
（二） tensorflow笔记：多层CNN代码分析
（三） tensorflow笔记：多层LSTM代码分析
（四） tensorflow笔记：常用函数说明
（五） tensorflow笔记：模型的保存与训练过程可视化
（六）tensorflow笔记：使用tf来实现word2vec

之前讲过了tensorflow中CNN的示例代码，现在我们来看RNN的代码。不过好像官方只给了LSTM的代码。那么我们就来看LSTM吧。LSTM的具体原理就不讲了，可以参见深度学习笔记(五)：LSTM，讲的非常清楚。

坦白说，这份写LSTM的代码有点难，倒不是说LSTM的原理有多难，而是这份代码中使用了大量tf提供的现成的操作函数。在精简了代码的同时，也增加了初学者阅读的难度。很多函数的用法我是去看源码，然后自己写示例代码才搞懂的。当然如果能把整份代码搞清楚的话，掌握这么多操作函数还是非常有用的。

这份代码并没有完整的出现在tf给出的示例中见这里，而是只挑选了几个片段简略的介绍了一下。我当时看完之后简直是一头雾水。后来在github找到了这份代码的完整文件，发现这份文件只能在命令行里面运行，需要输入参数，例如

python ptb_word_lm.py --data_path=/tmp/simple-examples/data/ --model small
   
   
   
   
    
    
    
    1

后来我改写了一下，使之可以直接运行。当然，运行之前需要先手动下载数据集，数据集的地址在这里

分段讲解

总的来看，这份代码主要由三步分组成。
第一部分，是PTBModel,也是最核心的部分，负责tf中模型的构建和各种操作(op)的定义。
第二部分，是run_epoch函数，负责将所有文本内容分批喂给模型（PTBModel）训练。
第三部分，就是main函数了，负责将第二部分的run_epoch运行多遍，也就是说，文本中的每个内容都会被重复多次的输入到模型中进行训练。随着训练的进行，会适当的进行一些参数的调整。
下面就按照这几部分来分开讲一下。我在后面提供了完整的代码，所以可以将完整代码和分段讲解对照着看。

参数设置

在构建模型和训练之前，我们首先需要设置一些参数。tf中可以使用tf.flags来进行全局的参数设置

flags = tf.flags
logging = tf.logging    

flags.DEFINE_string(    # 定义变量 model的值为small, 后面的是注释
    "model", "small",
    "A type of model. Possible options are: small, medium, large.")

flags.DEFINE_string("data_path",   #定义下载好的数据的存放位置
                    '/home/multiangle/download/simple-examples/data/', 
                    "data_path")
flags.DEFINE_bool("use_fp16", False,    # 是否使用 float16格式？
                  "Train using 16-bit floats instead of 32bit floats")

FLAGS = flags.FLAGS     # 可以使用FLAGS.model来调用变量 model的值。

def data_type():
    return tf.float16 if FLAGS.use_fp16 else tf.float32
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17

细心的人可能会注意到上面有行代码定义了model的值为small.这个是什么意思呢？其实在后面的完整代码部分可以看到，作者在其中定义了几个参数类，分别有small,medium,large和test这4种参数。如果model的值为small，则会调用SmallConfig，其他同样。在SmallConfig中，有如下几个参数：

init_scale = 0.1        # 相关参数的初始值为随机均匀分布，范围是[-init_scale,+init_scale]
learning_rate = 1.0     # 学习速率,在文本循环次数超过max_epoch以后会逐渐降低
max_grad_norm = 5       # 用于控制梯度膨胀，如果梯度向量的L2模超过max_grad_norm，则等比例缩小
num_layers = 2          # lstm层数
num_steps = 20          # 单个数据中，序列的长度。
hidden_size = 200       # 隐藏层中单元数目
max_epoch = 4           # epochmax_epoch时,lr_decay逐渐减小
max_max_epoch = 13      # 指的是整个文本循环次数。
keep_prob = 1.0         # 用于dropout.每批数据输入时神经网络中的每个单元会以1-keep_prob的概率不工作，可以防止过拟合
lr_decay = 0.5          # 学习速率衰减
batch_size = 20         # 每批数据的规模，每批有20个。
vocab_size = 10000      # 词典规模，总共10K个词
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12

其他的几个参数类中，参数类型都是一样的，只是参数的值各有所不同。

PTBModel

这个可以说是核心部分了。而具体来说，又可以分成几个小部分：多层LSTM结构的构建，输入预处理，LSTM的循环，损失函数计算，梯度计算和修剪

LSTM结构

self.batch_size = batch_size = config.batch_size
self.num_steps = num_steps = config.num_steps
size = config.hidden_size       # 隐藏层规模
vocab_size = config.vocab_size  # 词典规模

self._input_data = tf.placeholder(tf.int32, [batch_size, num_steps])    # 输入
self._targets = tf.placeholder(tf.int32, [batch_size, num_steps])       # 预期输出，两者都是index序列，长度为num_step
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7

首先引进参数，然后定义2个占位符，分别表示输入和预期输出。注意此时不论是input还是target都是用词典id来表示单词的。

lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(size, forget_bias=0.0, state_is_tuple=True)
   
   
   
   
    
    
    
    1

首先使用tf.nn.rnn_cell.BasicLSTMCell定义单个基本的LSTM单元。这里的size其实就是hidden_size。
从源码中可以看到，在LSTM单元中，有2个状态值，分别是c和h，分别对应于下图中的c和h。其中h在作为当前时间段的输出的同时，也是下一时间段的输入的一部分。

那么当state_is_tuple=True的时候，state是元组形式，state=(c,h)。如果是False，那么state是一个由c和h拼接起来的张量，state=tf.concat(1,[c,h])。在运行时，则返回2值，一个是h，还有一个state。

DropoutWrapper

if is_training and config.keep_prob < 1: # 在外面包裹一层dropout
    lstm_cell = tf.nn.rnn_cell.DropoutWrapper(
        lstm_cell, output_keep_prob=config.keep_prob)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3

我们在这里使用了dropout方法。所谓dropout,就是指网络中每个单元在每次有数据流入时以一定的概率(keep prob)正常工作，否则输出0值。这是是一种有效的正则化方法，可以有效防止过拟合。在rnn中使用dropout的方法和cnn不同，推荐大家去把recurrent neural network regularization看一遍。
在rnn中进行dropout时，对于rnn的部分不进行dropout，也就是说从t-1时候的状态传递到t时刻进行计算时，这个中间不进行memory的dropout；仅在同一个t时刻中，多层cell之间传递信息的时候进行dropout，如下图所示

上图中，t-2时刻的输入 xt−2 首先传入第一层cell，这个过程有dropout，但是从t−2时刻的第一层cell传到t−1,t,t+1的第一层cell这个中间都不进行dropout。再从t+1时候的第一层cell向同一时刻内后续的cell传递时，这之间又有dropout了。

在使用tf.nn.rnn_cell.DropoutWrapper时，同样有一些参数，例如input_keep_prob,output_keep_prob等，分别控制输入和输出的dropout概率，很好理解。

多层LSTM结构和状态初始化

cell = tf.nn.rnn_cell.MultiRNNCell([lstm_cell] * config.num_layers, state_is_tuple=True) 

# 参数初始化,rnn_cell.RNNCell.zero_stat
self._initial_state = cell.zero_state(batch_size, data_type()) 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

在这个示例中，我们使用了2层的LSTM网络。也就是说，前一层的LSTM的输出作为后一层的输入。使用tf.nn.rnn_cell.MultiRNNCell可以实现这个功能。这个基本没什么好说的，state_is_tuple用法也跟之前的类似。构造完多层LSTM以后，使用zero_state即可对各种状态进行初始化。

输入预处理

with tf.device("/cpu:0"):
    embedding = tf.get_variable(
        # vocab size * hidden size, 将单词转成embedding描述
        "embedding", [vocab_size, size], dtype=data_type()) 

    # 将输入seq用embedding表示, shape=[batch, steps, hidden_size]
    inputs = tf.nn.embedding_lookup(embedding, self._input_data)

if is_training and config.keep_prob < 1:
    inputs = tf.nn.dropout(inputs, config.keep_prob)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10

之前有提到过，输入模型的input和target都是用词典id表示的。例如一个句子，“我/是/学生”，这三个词在词典中的序号分别是0,5,3，那么上面的句子就是[0,5,3]。显然这个是不能直接用的，我们要把词典id转化成向量,也就是embedding形式。可能有些人已经听到过这种描述了。实现的方法很简单。

第一步，构建一个矩阵，就叫embedding好了，尺寸为[vocab_size, embedding_size]，分别表示词典中单词数目，以及要转化成的向量的维度。一般来说，向量维度越高，能够表现的信息也就越丰富。

第二步，使用tf.nn.embedding_lookup(embedding,input_ids) 假设input_ids的长度为len，那么返回的张量尺寸就为[len,embedding_size]。举个栗子

# 示例代码
import tensorflow as tf
import numpy as np

sess = tf.InteractiveSession()

embedding = tf.Variable(np.identity(5,dtype=np.int32))
input_ids = tf.placeholder(dtype=tf.int32,shape=[None])
input_embedding = tf.nn.embedding_lookup(embedding,input_ids)

sess.run(tf.initialize_all_variables())
print(sess.run(embedding))
#[[1 0 0 0 0]
# [0 1 0 0 0]
# [0 0 1 0 0]
# [0 0 0 1 0]
# [0 0 0 0 1]]
print(sess.run(input_embedding,feed_dict={input_ids:[1,2,3,0,3,2,1]}))
#[[0 1 0 0 0]
# [0 0 1 0 0]
# [0 0 0 1 0]
# [1 0 0 0 0]
# [0 0 0 1 0]
# [0 0 1 0 0]
# [0 1 0 0 0]]
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25

第三步，如果keep_prob<1，那么还需要对输入进行dropout。不过这边跟rnn的dropout又有所不同，这边使用tf.nn.dropout。

LSTM循环

现在，多层lstm单元已经定义完毕，输入也已经经过预处理了。那么现在要做的就是将数据输入lstm进行训练了。其实很简单，只要按照文本顺序依次向cell输入数据就好了。lstm上一时间段的状态会自动参与到当前时间段的输出和状态的计算当中。

outputs = []
state = self._initial_state # state 表示 各个batch中的状态
with tf.variable_scope("RNN"):
    for time_step in range(num_steps):
        if time_step > 0: tf.get_variable_scope().reuse_variables()
        # cell_out: [batch, hidden_size]
        (cell_output, state) = cell(inputs[:, time_step, :], state) # 按照顺序向cell输入文本数据
        outputs.append(cell_output)  # output: shape[num_steps][batch,hidden_size]

# 把之前的list展开，成[batch, hidden_size*num_steps],然后 reshape, 成[batch*numsteps, hidden_size]
output = tf.reshape(tf.concat(1, outputs), [-1, size])
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11

这边要注意，tf.get_variable_scope().reuse_variables()这行代码不可少，不然会报错，应该是因为同一命名域(variable_scope)内不允许存在多个同一名字的变量的原因。

损失函数计算

# softmax_w , shape=[hidden_size, vocab_size], 用于将distributed表示的单词转化为one-hot表示
softmax_w = tf.get_variable(
    "softmax_w", [size, vocab_size], dtype=data_type())
softmax_b = tf.get_variable("softmax_b", [vocab_size], dtype=data_type())
# [batch*numsteps, vocab_size] 从隐藏语义转化成完全表示
logits = tf.matmul(output, softmax_w) + softmax_b

# loss , shape=[batch*num_steps]
# 带权重的交叉熵计算
loss = tf.nn.seq2seq.sequence_loss_by_example(
    [logits],   # output [batch*numsteps, vocab_size]
    [tf.reshape(self._targets, [-1])],  # target, [batch_size, num_steps] 然后展开成一维【列表】
    [tf.ones([batch_size * num_steps], dtype=data_type())]) # weight
self._cost = cost = tf.reduce_sum(loss) / batch_size # 计算得到平均每批batch的误差
self._final_state = state
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15

上面代码的上半部分主要用来将多层lstm单元的输出转化成one-hot表示的向量。关于one-hot presentation和distributed presentation的区别，可以参考这里

代码的下半部分，正式开始计算损失函数。这里使用了tf提供的现成的交叉熵计算函数，tf.nn.seq2seq.sequence_loss_by_example。不知道交叉熵是什么？见这里各个变量的具体shape我都在注释中标明了。注意其中的self._targets是词典id表示的。这个函数的具体实现方式不明。我曾经想自己手写一个交叉熵，不过好像tf不支持对张量中单个元素的操作。

梯度计算

之前已经计算得到了每批数据的平均误差。那么下一步，就是根据误差来进行参数修正了。当然，首先必须要求梯度

self._lr = tf.Variable(0.0, trainable=False)  # lr 指的是 learning_rate
tvars = tf.trainable_variables()
   
   
   
   
    
    
    
    1
    
    
    
    2

通过tf.trainable_variables 可以得到整个模型中所有trainable=True的Variable。实际得到的tvars是一个列表，里面存有所有可以进行训练的变量。

grads, _ = tf.clip_by_global_norm(tf.gradients(cost, tvars),
                                    config.max_grad_norm)
   
   
   
   
    
    
    
    1
    
    
    
    2

这一行代码其实使用了两个函数，tf.gradients 和 tf.clip_by_global_norm。我们一个一个来。

tf.gradients
用来计算导数。该函数的定义如下所示

def gradients(ys,
              xs,
              grad_ys=None,
              name="gradients",
              colocate_gradients_with_ops=False,
              gate_gradients=False,
              aggregation_method=None):
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7

虽然可选参数很多，但是最常使用的还是ys和xs。根据说明得知，ys和xs都可以是一个tensor或者tensor列表。而计算完成以后，该函数会返回一个长为len(xs)的tensor列表，列表中的每个tensor是ys中每个值对xs[i]求导之和。如果用数学公式表示的话，那么 g = tf.gradients(y,x)可以表示成

g i = \sum j = 0 l e n (y) \partial y j \partial x i g = [g 0, g 1, . . ., g l e n (x)]

梯度修剪

tf.clip_by_global_norm
修正梯度值，用于控制梯度爆炸的问题。梯度爆炸和梯度弥散的原因一样，都是因为链式法则求导的关系，导致梯度的指数级衰减。为了避免梯度爆炸，需要对梯度进行修剪。
先来看这个函数的定义：

def clip_by_global_norm(t_list, clip_norm, use_norm=None, name=None):
   
   
   
   
    
    
    
    1

输入参数中：t_list为待修剪的张量, clip_norm 表示修剪比例(clipping ratio).

函数返回2个参数： list_clipped，修剪后的张量，以及global_norm，一个中间计算量。当然如果你之前已经计算出了global_norm值，你可以在use_norm选项直接指定global_norm的值。

那么具体如何计算呢？根据源码中的说明，可以得到
list_clipped[i]=t_list[i] * clip_norm / max(global_norm, clip_norm),其中
global_norm = sqrt(sum([l2norm(t)**2 for t in t_list]))

如果你更熟悉数学公式，则可以写作

L i c = L i t * N c m a x ( N c , N g ) N g = \sum i (L i t) 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

其中，

Lic 和

Lig 代表t_list[i]和list_clipped[i]，

Nc 和

Ng 代表clip_norm 和 global_norm的值。
其实也可以看到其实

Ng 就是t_list的L2模。上式也可以进一步写作

L i c = {L i t, (N g < = N c) L i t * N c N g, (N g > N c) N g = \sum i (L i t) 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

也就是说，当t_list的L2模大于指定的

Nc 时，就会对t_list做等比例缩放

优化参数

之前的代码已经求得了合适的梯度，现在需要使用这些梯度来更新参数的值了。

# 梯度下降优化，指定学习速率
optimizer = tf.train.GradientDescentOptimizer(self._lr)
# optimizer = tf.train.AdamOptimizer()
# optimizer = tf.train.GradientDescentOptimizer(0.5)
self._train_op = optimizer.apply_gradients(zip(grads, tvars))  # 将梯度应用于变量
# self._train_op = optimizer.minimize(grads)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6

这一部分就比较自由了，tf提供了很多种优化器，例如最常用的梯度下降优化（GradientDescentOptimizer）也可以使用AdamOptimizer。这里使用的是梯度优化。值得注意的是，这里使用了optimizer.apply_gradients来将求得的梯度用于参数修正，而不是之前简单的optimizer.minimize(cost)

还有一点，要留心一下self._train_op，只有该操作被模型执行，才能对参数进行优化。如果没有执行该操作，则参数就不会被优化。

run_epoch

这就是我之前讲的第二部分，主要功能是将所有文档分成多个批次交给模型去训练，同时记录模型返回的cost,state等记录，并阶段性的将结果输出。

def run_epoch(session, model, data, eval_op, verbose=False):
    """Runs the model on the given data."""
    # epoch_size 表示批次总数。也就是说，需要向session喂这么多批数据
    epoch_size = ((len(data) // model.batch_size) - 1) // model.num_steps  # // 表示整数除法
    start_time = time.time()
    costs = 0.0
    iters = 0
    state = session.run(model.initial_state)
    for step, (x, y) in enumerate(reader.ptb_iterator(data, model.batch_size,
                                                      model.num_steps)):
        fetches = [model.cost, model.final_state, eval_op] # 要获取的值
        feed_dict = {}      # 设定input和target的值
        feed_dict[model.input_data] = x
        feed_dict[model.targets] = y
        for i, (c, h) in enumerate(model.initial_state):
            feed_dict[c] = state[i].c  
            feed_dict[h] = state[i].h
        cost, state, _ = session.run(fetches, feed_dict) # 运行session,获得cost和state
        costs += cost   # 将 cost 累积
        iters += model.num_steps

        if verbose and step % (epoch_size // 10) == 10:  # 也就是每个epoch要输出10个perplexity值
            print("%.3f perplexity: %.3f speed: %.0f wps" %
                  (step * 1.0 / epoch_size, np.exp(costs / iters),
                   iters * model.batch_size / (time.time() - start_time)))

    return np.exp(costs / iters)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27

基本没什么其他的，就是要注意传入的eval_op。在训练阶段，会往其中传入train_op，这样模型就会自动进行优化；而在交叉检验和测试阶段，传入的是tf.no_op，此时模型就不会优化。

main函数

这里略去了数据读取和参数读取的代码，只贴了最关键的一部分。

with tf.Graph().as_default(), tf.Session() as session:
    # 定义如何对参数变量初始化
    initializer = tf.random_uniform_initializer(-config.init_scale, 
                                                config.init_scale)
    with tf.variable_scope("model", reuse=None,initializer=initializer):
        m = PTBModel(is_training=True, config=config) 
    with tf.variable_scope("model", reuse=True,initializer=initializer):
        mvalid = PTBModel(is_training=False, config=config) 
        mtest = PTBModel(is_training=False, config=eval_config)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

注意这里定义了3个模型，对于训练模型，is_trainable=True; 而对于交叉检验和测试模型，is_trainable=False

    summary_writer = tf.train.SummaryWriter('/tmp/lstm_logs',session.graph)

    tf.initialize_all_variables().run()  # 对参数变量初始化

    for i in range(config.max_max_epoch):   # 所有文本要重复多次进入模型训练
        # learning rate 衰减
        # 在 遍数小于max epoch时， lr_decay = 1 ; > max_epoch时， lr_decay = 0.5^(i-max_epoch)
        lr_decay = config.lr_decay ** max(i - config.max_epoch, 0.0)
        m.assign_lr(session, config.learning_rate * lr_decay) # 设置learning rate

        print("Epoch: %d Learning rate: %.3f" % (i + 1, session.run(m.lr)))
        train_perplexity = run_epoch(session, m, train_data, m.train_op,verbose=True) # 训练困惑度
        print("Epoch: %d Train Perplexity: %.3f" % (i + 1, train_perplexity))
        valid_perplexity = run_epoch(session, mvalid, valid_data, tf.no_op()) # 检验困惑度
        print("Epoch: %d Valid Perplexity: %.3f" % (i + 1, valid_perplexity))

    test_perplexity = run_epoch(session, mtest, test_data, tf.no_op())  # 测试困惑度
    print("Test Perplexity: %.3f" % test_perplexity)
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18

注意上面train_perplexity操作中传入了m.train_op，表示要进行优化，而在valid_perplexity和test_perplexity中均传入了tf.no_op，表示不进行优化。

完整代码和注释

# Copyright 2015 The TensorFlow Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================

"""Example / benchmark for building a PTB LSTM model.
Trains the model described in:
(Zaremba, et. al.) Recurrent Neural Network Regularization
http://arxiv.org/abs/1409.2329
There are 3 supported model configurations:
===========================================
| config | epochs | train | valid  | test
===========================================
| small  | 13     | 37.99 | 121.39 | 115.91
| medium | 39     | 48.45 |  86.16 |  82.07
| large  | 55     | 37.87 |  82.62 |  78.29
The exact results may vary depending on the random initialization.
The hyperparameters used in the model:
- init_scale - the initial scale of the weights
- learning_rate - the initial value of the learning rate
- max_grad_norm - the maximum permissible norm of the gradient
- num_layers - the number of LSTM layers
- num_steps - the number of unrolled steps of LSTM
- hidden_size - the number of LSTM units
- max_epoch - the number of epochs trained with the initial learning rate
- max_max_epoch - the total number of epochs for training
- keep_prob - the probability of keeping weights in the dropout layer
- lr_decay - the decay of the learning rate for each epoch after "max_epoch"
- batch_size - the batch size
The data required for this example is in the data/ dir of the
PTB dataset from Tomas Mikolov's webpage:
$ wget http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz
$ tar xvf simple-examples.tgz
To run:
$ python ptb_word_lm.py --data_path=simple-examples/data/
"""
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import time

import numpy as np
import tensorflow as tf

from tensorflow.models.rnn.ptb import reader

flags = tf.flags
logging = tf.logging

flags.DEFINE_string(
    "model", "small",
    "A type of model. Possible options are: small, medium, large.")
flags.DEFINE_string("data_path", '/home/multiangle/download/simple-examples/data/', "data_path")
flags.DEFINE_bool("use_fp16", False,
                  "Train using 16-bit floats instead of 32bit floats")

FLAGS = flags.FLAGS


def data_type():
    return tf.float16 if FLAGS.use_fp16 else tf.float32


class PTBModel(object):
    """The PTB model."""

    def __init__(self, is_training, config):
        """
        :param is_training: 是否要进行训练.如果is_training=False,则不会进行参数的修正。
        """
        self.batch_size = batch_size = config.batch_size
        self.num_steps = num_steps = config.num_steps
        size = config.hidden_size
        vocab_size = config.vocab_size

        self._input_data = tf.placeholder(tf.int32, [batch_size, num_steps])    # 输入
        self._targets = tf.placeholder(tf.int32, [batch_size, num_steps])       # 预期输出，两者都是index序列，长度为num_step

        # Slightly better results can be obtained with forget gate biases
        # initialized to 1 but the hyperparameters of the model would need to be
        # different than reported in the paper.
        lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(size, forget_bias=0.0, state_is_tuple=True)
        if is_training and config.keep_prob < 1: # 在外面包裹一层dropout
            lstm_cell = tf.nn.rnn_cell.DropoutWrapper(
                lstm_cell, output_keep_prob=config.keep_prob)
        cell = tf.nn.rnn_cell.MultiRNNCell([lstm_cell] * config.num_layers, state_is_tuple=True) # 多层lstm cell 堆叠起来

        self._initial_state = cell.zero_state(batch_size, data_type()) # 参数初始化,rnn_cell.RNNCell.zero_state

        with tf.device("/cpu:0"):
            embedding = tf.get_variable(
                "embedding", [vocab_size, size], dtype=data_type()) # vocab size * hidden size, 将单词转成embedding描述
            # 将输入seq用embedding表示, shape=[batch, steps, hidden_size]
            inputs = tf.nn.embedding_lookup(embedding, self._input_data)

        if is_training and config.keep_prob < 1:
            inputs = tf.nn.dropout(inputs, config.keep_prob)

        # Simplified version of tensorflow.models.rnn.rnn.py's rnn().
        # This builds an unrolled LSTM for tutorial purposes only.
        # In general, use the rnn() or state_saving_rnn() from rnn.py.
        #
        # The alternative version of the code below is:
        #
        # inputs = [tf.squeeze(input_, [1])
        #           for input_ in tf.split(1, num_steps, inputs)]
        # outputs, state = tf.nn.rnn(cell, inputs, initial_state=self._initial_state)
        outputs = []
        state = self._initial_state # state 表示 各个batch中的状态
        with tf.variable_scope("RNN"):
            for time_step in range(num_steps):
                if time_step > 0: tf.get_variable_scope().reuse_variables()
                # cell_out: [batch, hidden_size]
                (cell_output, state) = cell(inputs[:, time_step, :], state)
                outputs.append(cell_output)  # output: shape[num_steps][batch,hidden_size]

        # 把之前的list展开，成[batch, hidden_size*num_steps],然后 reshape, 成[batch*numsteps, hidden_size]
        output = tf.reshape(tf.concat(1, outputs), [-1, size])

        # softmax_w , shape=[hidden_size, vocab_size], 用于将distributed表示的单词转化为one-hot表示
        softmax_w = tf.get_variable(
            "softmax_w", [size, vocab_size], dtype=data_type())
        softmax_b = tf.get_variable("softmax_b", [vocab_size], dtype=data_type())
        # [batch*numsteps, vocab_size] 从隐藏语义转化成完全表示
        logits = tf.matmul(output, softmax_w) + softmax_b

        # loss , shape=[batch*num_steps]
        # 带权重的交叉熵计算
        loss = tf.nn.seq2seq.sequence_loss_by_example(
            [logits],   # output [batch*numsteps, vocab_size]
            [tf.reshape(self._targets, [-1])],  # target, [batch_size, num_steps] 然后展开成一维【列表】
            [tf.ones([batch_size * num_steps], dtype=data_type())]) # weight
        self._cost = cost = tf.reduce_sum(loss) / batch_size # 计算得到平均每批batch的误差
        self._final_state = state

        if not is_training:  # 如果没有训练，则不需要更新state的值。
            return

        self._lr = tf.Variable(0.0, trainable=False)
        tvars = tf.trainable_variables()
        # clip_by_global_norm: 梯度衰减，具体算法为t_list[i] * clip_norm / max(global_norm, clip_norm)
        # 这里gradients求导，ys和xs都是张量
        # 返回一个长为len(xs)的张量，其中的每个元素都是\grad{\frac{dy}{dx}}
        # clip_by_global_norm 用于控制梯度膨胀,前两个参数t_list, global_norm, 则
        # t_list[i] * clip_norm / max(global_norm, clip_norm)
        # 其中 global_norm = sqrt(sum([l2norm(t)**2 for t in t_list]))
        grads, _ = tf.clip_by_global_norm(tf.gradients(cost, tvars),
                                          config.max_grad_norm)

        # 梯度下降优化，指定学习速率
        optimizer = tf.train.GradientDescentOptimizer(self._lr)
        # optimizer = tf.train.AdamOptimizer()
        # optimizer = tf.train.GradientDescentOptimizer(0.5)
        self._train_op = optimizer.apply_gradients(zip(grads, tvars))  # 将梯度应用于变量

        self._new_lr = tf.placeholder(
            tf.float32, shape=[], name="new_learning_rate")     #   用于外部向graph输入新的 lr值
        self._lr_update = tf.assign(self._lr, self._new_lr)     #   使用new_lr来更新lr的值

    def assign_lr(self, session, lr_value):
        # 使用 session 来调用 lr_update 操作
        session.run(self._lr_update, feed_dict={self._new_lr: lr_value})

    @property
    def input_data(self):
        return self._input_data

    @property
    def targets(self):
        return self._targets

    @property
    def initial_state(self):
        return self._initial_state

    @property
    def cost(self):
        return self._cost

    @property
    def final_state(self):
        return self._final_state

    @property
    def lr(self):
        return self._lr

    @property
    def train_op(self):
        return self._train_op


class SmallConfig(object):
    """Small config."""
    init_scale = 0.1        #
    learning_rate = 1.0     # 学习速率
    max_grad_norm = 5       # 用于控制梯度膨胀，
    num_layers = 2          # lstm层数
    num_steps = 20          # 单个数据中，序列的长度。
    hidden_size = 200       # 隐藏层规模
    max_epoch = 4           # epochmax_epoch时,lr_decay逐渐减小
    max_max_epoch = 13      # 指的是整个文本循环13遍。
    keep_prob = 1.0
    lr_decay = 0.5          # 学习速率衰减
    batch_size = 20         # 每批数据的规模，每批有20个。
    vocab_size = 10000      # 词典规模，总共10K个词


class MediumConfig(object):
    """Medium config."""
    init_scale = 0.05
    learning_rate = 1.0
    max_grad_norm = 5
    num_layers = 2
    num_steps = 35
    hidden_size = 650
    max_epoch = 6
    max_max_epoch = 39
    keep_prob = 0.5
    lr_decay = 0.8
    batch_size = 20
    vocab_size = 10000


class LargeConfig(object):
    """Large config."""
    init_scale = 0.04
    learning_rate = 1.0
    max_grad_norm = 10
    num_layers = 2
    num_steps = 35
    hidden_size = 1500
    max_epoch = 14
    max_max_epoch = 55
    keep_prob = 0.35
    lr_decay = 1 / 1.15
    batch_size = 20
    vocab_size = 10000


class TestConfig(object):
    """Tiny config, for testing."""
    init_scale = 0.1
    learning_rate = 1.0
    max_grad_norm = 1
    num_layers = 1
    num_steps = 2
    hidden_size = 2
    max_epoch = 1
    max_max_epoch = 1
    keep_prob = 1.0
    lr_decay = 0.5
    batch_size = 20
    vocab_size = 10000


def run_epoch(session, model, data, eval_op, verbose=False):
    """Runs the model on the given data."""
    # epoch_size 表示批次总数。也就是说，需要向session喂这么多次数据
    epoch_size = ((len(data) // model.batch_size) - 1) // model.num_steps  # // 表示整数除法
    start_time = time.time()
    costs = 0.0
    iters = 0
    state = session.run(model.initial_state)
    for step, (x, y) in enumerate(reader.ptb_iterator(data, model.batch_size,
                                                      model.num_steps)):
        fetches = [model.cost, model.final_state, eval_op] # 要进行的操作，注意训练时和其他时候eval_op的区别
        feed_dict = {}      # 设定input和target的值
        feed_dict[model.input_data] = x
        feed_dict[model.targets] = y
        for i, (c, h) in enumerate(model.initial_state):
            feed_dict[c] = state[i].c   # 这部分有什么用？看不懂
            feed_dict[h] = state[i].h
        cost, state, _ = session.run(fetches, feed_dict) # 运行session,获得cost和state
        costs += cost   # 将 cost 累积
        iters += model.num_steps

        if verbose and step % (epoch_size // 10) == 10:  # 也就是每个epoch要输出10个perplexity值
            print("%.3f perplexity: %.3f speed: %.0f wps" %
                  (step * 1.0 / epoch_size, np.exp(costs / iters),
                   iters * model.batch_size / (time.time() - start_time)))

    return np.exp(costs / iters)


def get_config():
    if FLAGS.model == "small":
        return SmallConfig()
    elif FLAGS.model == "medium":
        return MediumConfig()
    elif FLAGS.model == "large":
        return LargeConfig()
    elif FLAGS.model == "test":
        return TestConfig()
    else:
        raise ValueError("Invalid model: %s", FLAGS.model)


# def main(_):
if __name__=='__main__':
    if not FLAGS.data_path:
        raise ValueError("Must set --data_path to PTB data directory")
    print(FLAGS.data_path)

    raw_data = reader.ptb_raw_data(FLAGS.data_path) # 获取原始数据
    train_data, valid_data, test_data, _ = raw_data

    config = get_config()
    eval_config = get_config()
    eval_config.batch_size = 1
    eval_config.num_steps = 1

    with tf.Graph().as_default(), tf.Session() as session:
        initializer = tf.random_uniform_initializer(-config.init_scale, # 定义如何对参数变量初始化
                                                    config.init_scale)
        with tf.variable_scope("model", reuse=None,initializer=initializer):
            m = PTBModel(is_training=True, config=config)   # 训练模型， is_trainable=True
        with tf.variable_scope("model", reuse=True,initializer=initializer):
            mvalid = PTBModel(is_training=False, config=config) #  交叉检验和测试模型，is_trainable=False
            mtest = PTBModel(is_training=False, config=eval_config)

        summary_writer = tf.train.SummaryWriter('/tmp/lstm_logs',session.graph)

        tf.initialize_all_variables().run()  # 对参数变量初始化

        for i in range(config.max_max_epoch):   # 所有文本要重复多次进入模型训练
            # learning rate 衰减
            # 在 遍数小于max epoch时， lr_decay = 1 ; > max_epoch时， lr_decay = 0.5^(i-max_epoch)
            lr_decay = config.lr_decay ** max(i - config.max_epoch, 0.0)
            m.assign_lr(session, config.learning_rate * lr_decay) # 设置learning rate

            print("Epoch: %d Learning rate: %.3f" % (i + 1, session.run(m.lr)))
            train_perplexity = run_epoch(session, m, train_data, m.train_op,verbose=True) # 训练困惑度
            print("Epoch: %d Train Perplexity: %.3f" % (i + 1, train_perplexity))
            valid_perplexity = run_epoch(session, mvalid, valid_data, tf.no_op()) # 检验困惑度
            print("Epoch: %d Valid Perplexity: %.3f" % (i + 1, valid_perplexity))

        test_perplexity = run_epoch(session, mtest, test_data, tf.no_op())  # 测试困惑度
        print("Test Perplexity: %.3f" % test_perplexity)


# if __name__ == "__main__":
#     tf.app.run()	

   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34
    
    
    
    35
    
    
    
    36
    
    
    
    37
    
    
    
    38
    
    
    
    39
    
    
    
    40
    
    
    
    41
    
    
    
    42
    
    
    
    43
    
    
    
    44
    
    
    
    45
    
    
    
    46
    
    
    
    47
    
    
    
    48
    
    
    
    49
    
    
    
    50
    
    
    
    51
    
    
    
    52
    
    
    
    53
    
    
    
    54
    
    
    
    55
    
    
    
    56
    
    
    
    57
    
    
    
    58
    
    
    
    59
    
    
    
    60
    
    
    
    61
    
    
    
    62
    
    
    
    63
    
    
    
    64
    
    
    
    65
    
    
    
    66
    
    
    
    67
    
    
    
    68
    
    
    
    69
    
    
    
    70
    
    
    
    71
    
    
    
    72
    
    
    
    73
    
    
    
    74
    
    
    
    75
    
    
    
    76
    
    
    
    77
    
    
    
    78
    
    
    
    79
    
    
    
    80
    
    
    
    81
    
    
    
    82
    
    
    
    83
    
    
    
    84
    
    
    
    85
    
    
    
    86
    
    
    
    87
    
    
    
    88
    
    
    
    89
    
    
    
    90
    
    
    
    91
    
    
    
    92
    
    
    
    93
    
    
    
    94
    
    
    
    95
    
    
    
    96
    
    
    
    97
    
    
    
    98
    
    
    
    99
    
    
    
    100
    
    
    
    101
    
    
    
    102
    
    
    
    103
    
    
    
    104
    
    
    
    105
    
    
    
    106
    
    
    
    107
    
    
    
    108
    
    
    
    109
    
    
    
    110
    
    
    
    111
    
    
    
    112
    
    
    
    113
    
    
    
    114
    
    
    
    115
    
    
    
    116
    
    
    
    117
    
    
    
    118
    
    
    
    119
    
    
    
    120
    
    
    
    121
    
    
    
    122
    
    
    
    123
    
    
    
    124
    
    
    
    125
    
    
    
    126
    
    
    
    127
    
    
    
    128
    
    
    
    129
    
    
    
    130
    
    
    
    131
    
    
    
    132
    
    
    
    133
    
    
    
    134
    
    
    
    135
    
    
    
    136
    
    
    
    137
    
    
    
    138
    
    
    
    139
    
    
    
    140
    
    
    
    141
    
    
    
    142
    
    
    
    143
    
    
    
    144
    
    
    
    145
    
    
    
    146
    
    
    
    147
    
    
    
    148
    
    
    
    149
    
    
    
    150
    
    
    
    151
    
    
    
    152
    
    
    
    153
    
    
    
    154
    
    
    
    155
    
    
    
    156
    
    
    
    157
    
    
    
    158
    
    
    
    159
    
    
    
    160
    
    
    
    161
    
    
    
    162
    
    
    
    163
    
    
    
    164
    
    
    
    165
    
    
    
    166
    
    
    
    167
    
    
    
    168
    
    
    
    169
    
    
    
    170
    
    
    
    171
    
    
    
    172
    
    
    
    173
    
    
    
    174
    
    
    
    175
    
    
    
    176
    
    
    
    177
    
    
    
    178
    
    
    
    179
    
    
    
    180
    
    
    
    181
    
    
    
    182
    
    
    
    183
    
    
    
    184
    
    
    
    185
    
    
    
    186
    
    
    
    187
    
    
    
    188
    
    
    
    189
    
    
    
    190
    
    
    
    191
    
    
    
    192
    
    
    
    193
    
    
    
    194
    
    
    
    195
    
    
    
    196
    
    
    
    197
    
    
    
    198
    
    
    
    199
    
    
    
    200
    
    
    
    201
    
    
    
    202
    
    
    
    203
    
    
    
    204
    
    
    
    205
    
    
    
    206
    
    
    
    207
    
    
    
    208
    
    
    
    209
    
    
    
    210
    
    
    
    211
    
    
    
    212
    
    
    
    213
    
    
    
    214
    
    
    
    215
    
    
    
    216
    
    
    
    217
    
    
    
    218
    
    
    
    219
    
    
    
    220
    
    
    
    221
    
    
    
    222
    
    
    
    223
    
    
    
    224
    
    
    
    225
    
    
    
    226
    
    
    
    227
    
    
    
    228
    
    
    
    229
    
    
    
    230
    
    
    
    231
    
    
    
    232
    
    
    
    233
    
    
    
    234
    
    
    
    235
    
    
    
    236
    
    
    
    237
    
    
    
    238
    
    
    
    239
    
    
    
    240
    
    
    
    241
    
    
    
    242
    
    
    
    243
    
    
    
    244
    
    
    
    245
    
    
    
    246
    
    
    
    247
    
    
    
    248
    
    
    
    249
    
    
    
    250
    
    
    
    251
    
    
    
    252
    
    
    
    253
    
    
    
    254
    
    
    
    255
    
    
    
    256
    
    
    
    257
    
    
    
    258
    
    
    
    259
    
    
    
    260
    
    
    
    261
    
    
    
    262
    
    
    
    263
    
    
    
    264
    
    
    
    265
    
    
    
    266
    
    
    
    267
    
    
    
    268
    
    
    
    269
    
    
    
    270
    
    
    
    271
    
    
    
    272
    
    
    
    273
    
    
    
    274
    
    
    
    275
    
    
    
    276
    
    
    
    277
    
    
    
    278
    
    
    
    279
    
    
    
    280
    
    
    
    281
    
    
    
    282
    
    
    
    283
    
    
    
    284
    
    
    
    285
    
    
    
    286
    
    
    
    287
    
    
    
    288
    
    
    
    289
    
    
    
    290
    
    
    
    291
    
    
    
    292
    
    
    
    293
    
    
    
    294
    
    
    
    295
    
    
    
    296
    
    
    
    297
    
    
    
    298
    
    
    
    299
    
    
    
    300
    
    
    
    301
    
    
    
    302
    
    
    
    303
    
    
    
    304
    
    
    
    305
    
    
    
    306
    
    
    
    307
    
    
    
    308
    
    
    
    309
    
    
    
    310
    
    
    
    311
    
    
    
    312
    
    
    
    313
    
    
    
    314
    
    
    
    315
    
    
    
    316
    
    
    
    317
    
    
    
    318
    
    
    
    319
    
    
    
    320
    
    
    
    321
    
    
    
    322
    
    
    
    323
    
    
    
    324
    
    
    
    325
    
    
    
    326
    
    
    
    327
    
    
    
    328
    
    
    
    329
    
    
    
    330
    
    
    
    331
    
    
    
    332
    
    
    
    333
    
    
    
    334
    
    
    
    335
    
    
    
    336
    
    
    
    337
    
    
    
    338
    
    
    
    339
    
    
    
    340
    
    
    
    341
    
    
    
    342
    
    
    
    343
    
    
    
    344
    
    
    
    345
    
    
    
    346
    
    
    
    347
    
    
    
    348
    
    
    
    349
    
    
    
    350
    
    
    
    351
    
    
    
    352
    
    
    
    353
    
    
    
    354
    
    
    
    355

原文地址：　http://blog.csdn.net/Jerr__y/article/details/61195257

你可能感兴趣的:(lstm,多层lstm,rnn,tensorflow,TensorFlow,Deep,Learning,LSTM)

用于获得一个pb文件的所有节点名称 @Mr_LiuYang 写过的小程序
#-*-coding:utf-8-*-"""CreatedonTueDec1818:31:1320181、model_dir为模型路径文件夹，model_name为模型名称（自定义非如alexnet等训练实际名称）2、写入到模型路径下的result.txt文件内@author:Mr_dogyang"""importtensorflowastfimportosmodel_dir='D:\\Tenso
Deepseek 手搓资源全集赤胜骄阳大模型知识库人工智能 deepseek
你想要的都在此，请自取。若有补充，不吝赐教。DeepSeek基本信息2025年1月20日，杭州深度求索人工智能基础技术研究有限公司发布高性能AI推理模型DeepSeek-R1，对标OpenAI的o1正式版。DeepSeek官网：https://www.deepseek.com/Chat:https://chat.deepseek.com/API文档：https://api-docs.deepsee
DeepSeek预测2030年：全球 50% 的白领工作将由 AI Agent 辅助完成，金融、医疗等专业渗透率超 70% 未来AI编程 DeepSeek入门到精通人工智能金融
基于当前技术趋势、行业动态及搜索结果中的关键信息，对未来的发展进行多维度预测，涵盖人工智能、搜索行业、全球经济格局等领域：一、人工智能技术的革命性突破低成本高性能模型的普及DeepSeek-R1等国产大模型通过混合专家架构（MoE）和算法优化，以OpenAI1/70的训练成本实现同等性能，推动AI开发从“重训练”向“重推理”转型。这一模式将加速中小企业和新兴国家进入AI赛道，形成“算力平权”效应。
检测加密货币挖矿活动的异常端口扫地僧009 大数据安全分析深度学习机器学习安全
以下是基于DeepSeek架构思想实现的服务器异常端口检测案例与代码示例。我们以检测加密货币挖矿活动的异常端口为例，使用无监督学习（自编码器）实现动态基线建模。案例背景某云服务器出现异常流量：正常端口：80(HTTP),443(HTTPS),22(SSH)异常端口：6666（检测到高频TCP长连接，疑似门罗币挖矿流量）目标：通过自编码器学习正常端口行为模式，自动标记6666端口的异常活动。代码实现
DeepSeek革命性整合：零代码实现办公自动化全流程（Excel/PPT/Word+AI开发实战）——小白也能玩转的AI生产力核弹 Leaton Lee excel powerpoint word deepseek python
关键词：DeepSeek办公自动化、AI生成PPT、Excel智能分析、Word合同助手、Python实战前言：当DeepSeek遇见经典办公三件套，效率爆炸的化学反应该怎么做？你是否还在为这些场景抓狂？凌晨2点对着空白PPT抓耳挠腮在Excel海量数据中迷失方向反复修改合同条款到怀疑人生今天我要揭秘的DeepSeek+经典办公工具组合技，将彻底颠覆你的工作方式！通过本文，你将掌握：✅5分钟生成专
本地部署deepseek 只喜欢赚钱的棉花没有糖 ai ai
目录一、安装ollama1.下载ollama2.下载模型二、使用chatbox进行对话1.打开chatboxai.app页面2.使用方式3.设置chatbox4.设置环境变量windows设置：mac设置：一、安装ollama‌Ollama是一个开源的本地大语言模型运行框架，设计用于简化在本地运行大型语言模型的过程，降低使用门槛。步骤如下：1.下载ollama打开网页：ollama.com，安装对
完全免费白嫖GPT4以上的方法 m0_73981457 chatgpt 论文阅读
在网上看到很多人问如何免费用上GPT-4。说实话，截止到今天，还能提供免费GPT-4的项目已经很少了，去年好用的一些项目陆陆续续要么收紧了使用政策，；要么迫于各种无奈停止了项目维护。今天就跟大家聊一聊目前还推荐的免费使用GPT-4的方法。一、快速导航点此立即Chat支持免费访问gpt4,gpt4o,gpto1,gpto3,deepseekr1,deepseekv3等高级模型。支持识图，识文件，联网
51、深度学习-自学之路-自己搭建深度学习框架-12、使用我们自己建的架构重写RNN预测网络小宇爱深度学习-自学之路深度学习 rnn 人工智能
importnumpyasnpclassTensor(object):def__init__(self,data,autograd=False,creators=None,creation_op=None,id=None):self.data=np.array(data)self.autograd=autogradself.grad=Noneif(idisNone):self.id=np.rand
大语言模型能否完全替代人类？——技术、能力与未来的思考 Hello kele 人工智能
随着人工智能技术的迅猛发展，尤其是大语言模型（如DeepSeek、GPT系列、Grok等）的出现，人们开始探讨一个引人深思的问题：这些智能系统是否有一天能完全替代人类？本文从技术现状、能力边界以及未来趋势三个方面，分析这个问题，并试图给出一种平衡的视角。一、技术现状：大语言模型的能力与局限大语言模型在过去几年中取得了显著进步。可以理解复杂的自然语言，生成连贯的文本，甚至完成编程、分析和创意任务。例
deepin Linux 安装 mysql8.0 举个栗子777 linux mysql
deepinLinux安装mysql8.0下载安装配置修改密码设置开机自启本人使用的是Deepin，不同的发行版可能会有不同下载https://dev.mysql.com/downloads/mysql/选择tar.xz压缩包安装1、解压tar-xvfmysql-8.0.21-linux-glibc2.12-x86_64.tar.xz2、更名mvmysql-8.0.21-linux-glibc2.
Deepin登录后提示“解锁登陆密钥环里的密码不匹配” Lu01 Operating System linux
删掉.local/share/keyrings目录下的login.keyring文件即可。命令如下：cd.localcdshare/keyrings/rm-rflogin.keyring
deepin Java开发环境搭建和主力使用体验（2021.02更）我是你的橙子啊软件安装类推荐 deepin java intellij idea mysql linux
前言：之所以想体验一下deepin有2点原因1.美观（是的，没错，就是冲着好看去的）2.流畅（主要是一些编程软件比win下反应更快，体验更好）成果：1.UI整体风格我觉得OK（基本不用动手美化，原生的UI就够了）2.丝滑有些许夸大，流畅是一点不假（针对我常用的一些软件而言，ex,IDEA）so,符合预期，总体感觉良好，打算作为主力使用一段时间我的桌面时尚模式更好看一些，但是任务栏占的地方比较大，配
deepin mysql位置_在deepin linux系统安装mysql5.6 万能嬉皮士 deepin mysql位置
下载mysql-5.6.46-linux-glibc2.12-x86_64，如果没有见5.6版本，先点“lookingforthelastestGAversion”,就可以选择5.6版本切换root用户，用tar命令解压这个包，再文件复制到/usr/local/mysql文件夹下：root@fenghuo-PC:~#tar-zvxf/home/fenghuo/Desktop/mysql-5.6.4
免费无限次！671B满血版DeepSeek R1隐藏入口，优秀平台推荐！ datawhale
DatawhaleDatawhale推荐平台：AskManyAI**DeepSeek官网挤爆了，各种前几天大火的第三方平台也接连崩溃。我整理了一下问题，可以分成3类：回答卡顿，慢的要死，半天出不来结果，得反复重试服务器崩了，不知道啥时候能修复挂羊头卖狗肉，用8B蒸馏小模型冒充DeepSeekR1满血版，回答效果很差不能联网搜索不能支持图片对话不能支持文档对话这两天找遍各个渠道，深度体验了市面上接近
【MySQL】Linux(Deepin)安装MySQL WWGtest 后台
转载请声名出处！！！本篇博客写给安卓后台入门的同学们～推荐链接：Linux(Deepin)安装IDEA一、终端安装MySQLsudoapt-getinstallmysql-servermysql-client输入root管理员密码（deepin系统的终端输入管理员密码的时候是不显示的，但实际是已经输入，所以当你发现打字没反应时请不要惊讶，正常输入密码然后回车就可以了）PS：因为我已经安装好MySQ
Linux (deepin)网络管理详解. liguangxian2018 Linux linux deepin 网络
网络管理编辑历史版本English前言本条目简单介绍Linux下的网络管理，包含网络配置文件和网络管理命令。网络配置文件关于网络的配置文件有:主机地址配置文件:/etc/hosts网络服务信息文件:/etc/services允许与拒绝地址配置文件:/etc/hosts.allow和/etc/hosts.deny网络配置文件:/etc/network/interfaces主机查找配置文件:/etc/
Deepin Linux 15.7在安装过程中未出现提示输入root密码的解决方法 checkerror2 MySQL Linux Deepin MySQL 未出现输入root密码提示
今天，我通过U盘进行DeepinLinux15.7的全新安装后，在进行MySQL的安装过程中未出现输入root密码的提示，结果无论如何也无法登录MySQL，经过一番百度之后，发现这种情况下生成的相关用户名和密码都存储在【/etc/mysql/debian.cnf】文件中，不过这个用户名是【debian-sys-maint】，而密码是一串比较复杂的字符串。接下来是解决方法：本方法所用到的参考文章：m
deepin(ubuntu18.04+)上安装mysql(解决不提示设置密码的问题)并开启远程访问沈拙言_ 问题解决 Linux mysql deepin mysql 不提示密码 Linux
不是我说,咱在csdn上找个有用的教程那叫一个难啊,大部分都是雷同又不管用的.废话不多说,直接上代码.考虑到很多孩子不会Linux或Mysql,所以我这里提示一下,这篇教程里"有多行代码"的是给你展示结果的,不用你敲只有一行的才是要你自己敲进去的.1.首先更新一下仓库sudoapt-getupdate2.安装mysqlsudoaptinstall-ymariadb-server3.进入mysqls
deepin linux安装mysql启动方法 Wilburzzz linux
#deepin安装mysql启动方法在终端首先输入代码进入mysql安装的文件夹cd/usr/local/mysql然后exportPATH=/usr/local/mysql/bin:$PATH最后mysql-uroot-p输入你第一次安装mysql修改过的密码进入mysql后退出命令是exit
Deepin（Linux）设置开机自动启动 MySQL Lu01 The SQL Lab linux mysql 运维
要在系统启动时自动启动MySQL，可以通过配置systemd来实现。由于已经完成了MySQL的安装并且能够启动MySQL服务，接下来我们将创建一个systemd服务单元文件，让MySQL在系统启动时自动启动。1.创建systemd服务文件首先，创建一个新的systemd服务单元文件mysql.service。使用sudo编辑并创建该文件：sudonano/etc/systemd/system/my
将DeepSeek回答输出为文件格式 - 无需代码 ComPDFKit ai deepseek
让DeepSeek或者ChatGPT这样的AI来生成内容已经是我们日常生活中的基本操作了，往往需要我们手动把内容复制到文本中，那么有没有办法能够直接把AI的回答自动放到我们需要的文件格式里呢？当然可以，即使你不会写代码。下面就提供了一个示例，在低代码平台将DeepSeek（因为它有用且便宜）和PDF文件生成工具结合起来形成自动化流程。DeepSeek提供一个文件提取功能，但是目前使用起来不太稳定。
为什么DeepSeek必须开源（以及它为何不会打败OpenAI）新加坡内哥谈技术人工智能深度学习机器人科技语言模型
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/如今，DeepSeek的名字已经传遍整个科技圈。这家中国AI实验室训练出了R1——一款开
Deepseek 在电饭煲上应用会带来哪些影响？百态老人人工智能笔记大数据
DeepSeek在电饭煲上的应用可能带来以下影响：智能化操作与控制：DeepSeek作为一款强大的AI工具，其核心功能包括深度思考、联网搜索和智能对话等。如果将其应用于电饭煲，可以实现更智能的操作方式。例如，用户可以通过语音或触控界面直接与电饭煲交互，输入烹饪需求，电饭煲通过联网搜索或内置算法快速生成最佳烹饪方案并执行。这种智能化的控制方式能够提升用户体验，使烹饪过程更加便捷和高效。个性化推荐与优
DeepSeek高能AI：低成本高效应用突破智能计算研究中心其他
内容概要DeepSeek高能AI系统通过混合专家架构（Mixture-of-Experts）实现了技术范式的突破，其670亿参数的模型规模在保证计算效率的同时，构建了多模态处理能力的技术护城河。该系统整合自然语言处理与视觉语言理解的双通道架构，使文本生成、图像解析和跨模态推理形成协同效应。在应用层面，该模型通过动态路由机制实现功能模块的精准调度，为学术研究、商业运营和技术开发提供多场景解决方案。核
Mybatisplus的学习 Agnoni 学习笔记学习 java tomcat idea mybatis
一、条件查询部分在引入mybatisplus的依赖以后，我们不需要再引入mybatis的依赖，因为mybatisplus中已经包含mybatis的依赖。1自动映射规则变量名称：privateStringname属性名：publicStringgetName(){returnname;}这个getName中的name就是属性名称表名和实体类名的映射：表名user实体类名User字段名和实体类属性名映
使用open-webui+deepseek构建本地AI知识库 deepseek
序本文主要研究一下如何使用OpenWebUI+deepseek构建本地AI知识库步骤拉取open-webui镜像dockerpullghcr.io/open-webui/open-webui:maindocker启动dockerrun-d-p3000:8080\-eOLLAMA_BASE_URL=http://host.docker.internal:11434\ghcr.io/open-webu
Neovim 集成 DeepSeek & Copilot 双 AI 编程神器
目前Neovim中的AI插件，比较火的就属avante.nvim和codecompanion.nvim了，经过简单的测试我选择了后者。因为avante.nvim相对来说有些复杂，依赖组件过多，侵略性较强,光readme中列出的KeyBindings就有好多。还用到了Leader键，我不是很喜欢被强制快捷键，如果与我的习惯键冲突就麻烦了，让我改我一时又不知道改成什么，心理负担较重。加上他的界面与我的
‌挖数据平台对接DeepSeek推出一键云端部署功能：API接口驱动金融、汽车等行业智能化升级 wapi-API接口挖数据 API 接口金融汽车 php python java 人工智能
云端部署引言：当数据生产力遇上云端智能化2025年2月23日，国内领先的数据服务商挖数据平台宣布与人工智能巨头DeepSeek达成战略合作，正式推出“一键云端部署”功能。这一功能以API（应用程序接口）为核心，通过云端自动化配置能力，将企业数据服务的部署周期从数周缩短至分钟级，标志着数据服务行业正式迈入“开箱即用”的智能化时代。在金融风控、汽车智能驾驶、供应链管理等场景中，API正成为驱动行业数字
神经网络与深度学习入门：理解ANN、CNN和RNN shandianfk_com ChatGPT AI 神经网络深度学习 cnn
在现代科技日新月异的今天，人工智能已经成为了我们生活中的重要组成部分。无论是智能手机的语音助手，还是推荐系统，背后都有一项核心技术在支撑，那就是神经网络与深度学习。今天，我们就来聊一聊这个听起来高大上的话题，其实它也没那么难懂！什么是神经网络？首先，我们要了解什么是神经网络。神经网络（ArtificialNeuralNetwork，简称ANN）是模拟人脑神经元连接方式的一种算法。它由一层层的“神经
还不会用DeepSeek？看这篇就懂啦 t0_54coder 【AI】人工智能实用技术人工智能
在人工智能飞速发展的今天，DeepSeek作为一款强大的工具崭露头角。很多小伙伴可能听说过它，却不知道怎么用。别着急，这篇文章就手把手教你，保证通俗易懂，还有超多实用案例，让你快速上手！一、认识DeepSeekDeepSeek是一家专注通用人工智能（AGI）的中国科技公司，致力于大模型的研发与应用。它开源的推理模型DeepSeek-R1非常厉害，性能和OpenAI-o1正式版相当，而且可以免费商用
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息