Che_Hongshu

【TensorFlow实战笔记】通俗详述RNN理论,LSTM理论,以及LSTM对于PTB数据集进行实战

一、RNN

顾名思义，循环则神经元有前后的联系，而不光是像FCN(全连接)那样的只有输入和输出的同时间的输入输出，也可以说这种网络没有利用到时间的信息，更准确的说应该是一种序列信息，不管是位置序列、还是时间序列。

１．结构

从网络结构上,循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出。也就是说,循环神经网络的隐藏层之间的结点是有连接的 ,隐藏层的输入不仅包括输入层的输出 ,还包括上一时刻隐藏层的输出，当然如果需要后面序列的信息，也需要下一时刻的输出作为输入，所以这也就是单向RNN, 还是双向RNN。

最经典的一个图。
左面为表示出神经网络循环的感觉，后面是真实状态的展开。
在每一时刻 t，循环神经网络会针对该时刻的输入结合当前模型的状态给出一个输出,并更新模型状态。
理想上,在时刻 t,状态 ht-1 浓缩了前面序列 Xo,X1->Xt- 1 的信息,用于作为输出 o 的参考，可以理解为输出Ot有着前面所有的输入的信息关系。

对于我所画的所示，可以看出如果别的输入输出不理会的话，其实对于Ｏｔ和X0来讲就相当于一个有ｔ个中间隐藏层的前馈神经网络,因此可以直接使用反向传播算法进行训练,而不需要任何特别的优化算法。这样的训练方法称为“沿时间反向传播”,是训练循环神经网络最常见的方法。
这个图和上面那个图大同小异，我这里主要是想强调一个东西。
就是这个Ｖ，因为一般状态(state)的维度以及输入之后得到的维度都是需要我们在连接一个全连接层才能得到最后我们所想要的维度的，这个全连接层在这个图里就是V，状态就是Ｗ也就是上图中的h，一般用ｈ表示。
一般的神经网络有两个输入，一个是当前时刻的输入样本，一部分是上一时刻的状态。
所以假设　输入的数据为x维，状态的维度为n,则input的维度为x+n,如果循环神经元就是全连接层网络，因为此时的输出还是下一次的输入状态所以应该还是n维，所以循环体的参数个数为(n+x)*n+n
下图为一个例子讲述上述所说的关系，当然这只是神经网络为纯粹全连接的形式。

２．机器翻译

当然对于循环神经网络最多的就是机器翻译的model，大体形式如下:

来看一个example

EOS为结束符　ＬＳＴＭ为较为流行的rnn网络
从这两个图可以得到以下几个结论：每个时刻都要有输入但是不一定要有输出，当整个时序输入序列输入完毕之后，之后每个预测的值都是下一个时刻的输入。

还有更多比较常见的rnn形式如下，看图片即可知道其大概形式和结构

３．双向ＲＮＮ

４．深层RNN网络

５．RNN网络的dropout

类似卷积神经网络只在最后的全连接层中使用 dropout ,循环神经网络一般只在不同层循环
体结构之间使用 dropout ,而不在同一层的循环体结构之间使用。也就是说从时刻 t-1 传递
到时刻 t 时,循环神经网络不会进行状态的 dropout ;而在同一个时刻 t 中,不同层循环体
之间会使用 dropout 。
白话来说就是对于深层的rnn来讲，每一层之间有dropout，而每一个时刻之间不存在dropout。

二、LSTM

上述的rnn，理论上讲是ｔ时刻可以和0->t-1时刻的信息全都有关联，但是事实上无法做到这一点，可能会引起loss的爆炸或者消散。
所以引出了LSTM(Long short-term memory)长短时记忆网络。
为什么叫这么名字呢？？？
其实还是顾名思义，想想看我们去用时序去预测下一个时刻的结果的时候，以时间序列的句子预测为例，这个时刻的结果可能和前面一小段有关，也可能和很久之前的信息有关。
比如：
①这里的海很____　一般来讲都是蓝对吧，也可以说蓝输出的可能性最大
②最近旁边的工厂放了很多污水，这里的海很___ 这回就应该是黑或者污浊了吧
③这里的海很__，都没有多少生物生存了。　这里应该也是浑浊了吧，最大可能性。
①②：所以有选择的吸取以前的信息还是有必要的，或者说不是什么时候都需要很久之前的信息，或者很近的信息，也就是说有用的信息有大有小，由远有近。
③：这里对应于后面的信息也要关联，也就是所谓的双向lstm。

１．先来看一下lstm的结构示意图

说明

Ct-1　上一时刻的状态值。
ht-1　上一时刻的输出
Xt　　这个时刻的输入
ht　　这个时刻的输出

有三个核心结构

输入门：用很通俗的说法就是输入的信息你想让进来这个网络多少，输入信息由上一时刻的输入和这个时刻的输入组成
输出门：输出的信息走的门。
遗忘门：最为关键的门，选择之前的信息状态想去遗忘多少，最后之前的信息让进来网络多少，由上一时刻的状态值和这个时刻的输入以及上一时刻的输出组成。
输入门都是对应的组成成分，组成一个新的维度的输入，之后通过sigmoid的函数得到一个0-1的值，１为全部信息都通过，０则一点都不要。

２．细节图

c -> state
h -> output
x -> input
前向传播每个细节的运算就不一一举例了，都很简单，看图即可。
看一下这个可以更好地理解。
最左面为　遗忘门。中间为　输入门，右面为　输出门
国外大神写的博客真的超赞，值得一看
Understanding-LSTMs
中国博主翻译的也不错
（译）理解 LSTM 网络（Understanding LSTM Networks by colah）

三、实战

１．下载PTB数据集

如果没有这个数据集可以按照我以前写的文章。
《TensorFlow学习笔记》完美解决 pip3 install tensorflow 没有models库，读取PTB数据
也可以直接下载使用
http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz
主要用如图几个文件

里面都是英文句子

２．数据集预处理

①先把txt中的所有出现的word整理成一个按降序排列的词汇表文件

generate_VOCAB.py

# -*- coding:UTF-8 -*-

"""
@Author:Che_Hongshu
@Modify:2018.12.16
"""
import codecs
import collections
from operator import itemgetter

RAW_DATA = "simple-examples/data/ptb.train.txt"  # 输入的ptb训练数据

VOCAB_OUTPUT = "ptb.vocab" #输出词汇表文件

counter = collections.Counter() #一个计数器，统计每个单词出现的次数

with codecs.open(RAW_DATA, "r", "utf-8") as f: #utf-8格式读取
    for line in f:
        for word in line.strip().split(): #line.strip().split()相当于把每一行的前后空格去掉，再根据空格分词生成list
            counter[word] += 1 #统计相同单词出现次数＋１
#  Counter 集成于 dict 类，因此也可以使用字典的方法，此类返回一个以元素为 key 、元素个数为 value 的 Counter 对象集合
#　依据key排序　itermgetter(1)为降序
sorted_word_to_cnt = sorted(counter.items(), key=itemgetter(1), reverse=True)

#  转换成单词string的list
sorted_words_list = [x[0] for x in sorted_word_to_cnt]

#  加入句子结束符
sorted_words_list = [""] + sorted_words_list

with codecs.open(VOCAB_OUTPUT, 'w', 'utf-8') as file_output:
    for word in sorted_words_list:
        file_output.write(word + '\n')

ptb.vocab如下，按行数依次递减为出现次数依次减少的word

一共为１００００个高频词汇，因为这里的PTB数据集已经经过前期处理了，所以这边如果是其他数据集需要对词汇表的个数进行设定，并且更新，类似于加上下面这样的代码

if len(sorted words ) > 10000:
　　sorted words = sorted words [: 10000]

②通过得到的词汇表，将每个文件转换为数字化文件，每个单词的id为所在的词汇表行数

VOCAB_transfrom_sequence.py

# -*- coding:UTF-8 -*-

"""
@Author:Che_Hongshu
@Modify:2018.12.16
"""
import codecs


RAW_DATA = "simple-examples/data/ptb.valid.txt"  # 输入的ptb训练数据

VOCAB = "ptb.vocab" #输出词汇表文件

OUTPUT_DATA = 'ptb.valid' #将单词替换成单词编号后的输出文件

with codecs.open(VOCAB, 'r', 'utf-8') as f_vocab:  #打开文件进入读操作
    vocab = [w.strip() for w in f_vocab.readlines()]  # 先把所有词转换成list
    # 把每个词和所在行数对应起来并且zip打包成(“词”，行数)格式转换成dict格式
word_to_id = {k: v for (k, v) in zip(vocab, range(len(vocab)))}

# 返回id 如果在词汇表文件中则返回对应的id即可，如果没有则返回''
def get_id(word):
    return word_to_id[word] if word in word_to_id else word_to_id['']

# 打开文件
fin = codecs.open(RAW_DATA, 'r', 'utf-8')
fout = codecs.open(OUTPUT_DATA, 'w', 'utf-8')

for line in fin:
    words = line.strip().split() + [""] #每一行的单词变成sring list格式，每一句话后面加上一个结束符号
    out_line = ' '.join([str(get_id(w)) for w in words]) + '\n' #这一行中的每个单词取出对应的id之后用空格相连接　
    fout.write(out_line)

# 关闭文件
fin.close()
fout.close()

更改　RAW_DATA　和　OUTPUT_DATA
得到

以ptb.test：

３．自然语言处理建模示意图和batching方法

①自然语言处理建模示意图

数据经过词向量层(embedding)，经过rnn，最后经过softmax得到每个result的概率。

②batching方法

就是循环神经网络不能像卷积神经网络那样直接图片reshape，统一规格，还有一点就是需要把序列信息保留下来，解决方法就是把每个句子序列拉成一个很长的序列直接平均截取几份，之后统一对这几份一起序列截取采样，就是一个batch，从图上解释我自己理解就是（我个人感觉这里不是很好理解），根据下面的代码来看就是bachsize就是竖列的大小，一个bachsize的数据大小的宽度就为num_step，而分为多少份为num_batches

def make_batches(id_list, batch_size, num_step):
    # 计算总的 batch 数量。每个 batch 包含的单词数量是 batch_size＊num_step
    num_batches = (len(id_list) - 1) // (batch_size*num_step)
    # 从头开始取正好num_batches*batch_size*num_step
    data = np.array(id_list[: num_batches*batch_size*num_step])
    # 将数据整理成一个维度为[ batch_size, num_batches*numstep ]
    data = np.reshape(data, [batch_size, num_batches*num_step])
    # 相当于在第二维数据上竖着截取一部分数据
    data_batches = np.split(data, num_batches, axis=1)
    # 因为相当于一个时刻去预测下一个时刻，所以进行相应的+1，相当于每个时刻的预测真值都在下一时刻。
    label = np.array(id_list[1:num_batches*batch_size*num_step +1])
    label = np.reshape(label, [batch_size, num_batches*num_step])
    label_batches = np.split(label, num_batches, axis=1)

    return list(zip(data_batches, label_batches))

４．完整的训练程序

有详细的代码详细说明

# -*- coding:UTF-8 -*-
"""
@Author:Che_Hongshu
@Modify:2018.12.28
@CSDN:http://blog.csdn.net/qq_33431368

"""

import numpy as np
import tensorflow as tf

TRAIN_DATA = "ptb.train"  # 训练数据
EVAL_DATA = "ptb.valid"   # 验证数据
TEST_DATA = "ptb.test"    #  测试数据
HIDDEN_SIZE = 300         #　隐藏层

NUM_LAYERS = 2            #　LSTM 层数
VOCAB_SIZE = 10000        #　词典规模（只要这么大的规模的特征词的数字表示）
TRAIN_BATCH_SIZE = 20     #　训练数据的batchsize
TRAIN_NUM_STEP = 35       #　训练数据截断长度

EVAL_BATCH_SIZE = 1       #　验证数据的batchsize
EVAL_NUM_STEP = 1        #　验证数据截断长度
NUM_EPOCH = 5            #　训练数据的轮数
LSTM_KEEP_PROB = 0.9      #　LSTM节点不被dropout的概率
EMBEDDING_KEEP_PROB = 0.9  #　词向量不被dropout的概率
MAX_GRAB_NORM = 5         #　用于控制梯度膨胀大小的上限
SHARE_EMB_AND_SOFTMAX = True  #　Softmax预词向量层之间共享参数

"""
function: class of LSTM
Parameters:
Returns:
CSDN:
    http://blog.csdn.net/qq_33431368
"""
class PTBModel(object):
    def __init__(self, is_training, batch_size, num_steps):
        # 记录使用的 batch 大小和截断长度
        self.batch_size = batch_size
        self.num_steps = num_steps

        # 定义每一步的输入和预期输出, 两者的维度都是[ batch_size ,num_steps ]
        self.input_data = tf.placeholder(tf.int32, [batch_size, num_steps])
        self.targets = tf.placeholder(tf.int32, [batch_size, num_steps])

        # 定义使用 LSTM 结构为循环体结构且使用 dropout 的深层循环神经网络。
        dropout_keep_prob = LSTM_KEEP_PROB if is_training else 1.0  #训练时采用dropout

        #定义lstm
        lstm_cells = [

            #运用Dropout的LSTM，不同时刻不dropout，同一时刻dropout
            tf.nn.rnn_cell.DropoutWrapper(
                tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_SIZE),
                output_keep_prob=dropout_keep_prob
            )
            # NUM_LAYERS为层数,也就是LSTM为几层
            for _ in range(NUM_LAYERS)
        ]
        #创建多层深度lstm
        cell = tf.nn.rnn_cell.MultiRNNCell(lstm_cells)
        # 对创建的LSTM进行初始化
        #初始化最初的状态, 即全０的向量。这个量只在每个epoch初始化第一个batch才使用。
        self.initial_state = cell.zero_state(batch_size, tf.float32)

        # 定义单词的词向量矩阵。
        embedding = tf.get_variable("embedding", [VOCAB_SIZE, HIDDEN_SIZE])
        # 将输入单词转化为词向量
        inputs = tf.nn.embedding_lookup(embedding, self.input_data)
        #只在训练时进行dropout,测试和验证都不要dropout操作
        if is_training:
            inputs = tf.nn.dropout(inputs, EMBEDDING_KEEP_PROB)
        # 定义输出列表。在这里先将不同时刻 LSTM 结构的输出收集起来 , 再一起提供给softmax层
        outputs = []
        # lstm状态值
        state = self.initial_state
        with tf.variable_scope("RNN"):
            #numsteps为每次截断的序列长度
            for time_step in range(num_steps):
                #在第一个时刻声明ＬＳＴＭ使用的变量，在之后的时刻都需要复用之前定义好的变量
                if time_step > 0:
                    tf.get_variable_scope().reuse_variables()
                #　得到这个时刻lstm输出以及当前状态
                cell_output, state = cell(inputs[:, time_step, :], state)
                #　这个时间段的结构，因为一步一步来append，所以是相当于[[],[],[],[]]需要下面一步concat（，１）来使所有的结果在一个维度上
                outputs.append(cell_output)
        #　把输出进行调整维度(,HEDDEN_SIZE)
        output = tf.reshape(tf.concat(outputs, 1), [-1, HIDDEN_SIZE])
        # 是否共享参数（softmax层＋embedding层）\

        #Softmax摆: 将RNN在每个位置上的输出转化为各个单词的logits，也就是最后得出的每个单词是最终预测结果的概率。
        if SHARE_EMB_AND_SOFTMAX:
            weight = tf.transpose(embedding)
        else:
            weight = tf.get_variable("weight", [HIDDEN_SIZE, VOCAB_SIZE])
        bias = tf.get_variable("bias", [VOCAB_SIZE])
        #最后经过全连接层输出的结果
        logits = tf.matmul(output, weight) + bias
        #交叉熵损失函数，算loss
        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.reshape(self.targets, [-1]), logits=logits)
        #求出每个batch平均loss
        self.cost = tf.reduce_sum(loss)/batch_size
        #最终的state
        self.final_state = state

        if not is_training:
            return

        # 控制梯度大小,定义优化方法和训练步骤。
        trainable_variables = tf.trainable_variables()
        # 算出每个需要更新的值的梯度，并对其进行控制
        grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, trainable_variables), MAX_GRAB_NORM)
        # 利用梯度下降优化算法进行优化.学习率为1.0
        optimizer = tf.train.GradientDescentOptimizer(learning_rate=1.0)
        #相当于minimize的第二步，正常来讲所得到的list[grads,vars]由compute_gradients得到，返回的是执行对应变量的更新梯度操作的op
        self.train_op = optimizer.apply_gradients(zip(grads, trainable_variables))

"""
function: 使用给定的模型 model 在datasets　上运行 train op 并返回在全部数据上的 perplexity　值
Parameters:
    session-会话
    model-模型
    batches-批量值
    train_op-执行对应变量的更新梯度操作op
    output_log-
    step-训练步数
Returns:
     return step, np.exp(total_costs / iters)-步数和对应求出的perplexity
CSDN:
    http://blog.csdn.net/qq_33431368
"""
def run_epoch(session, model, batches, train_op, output_log, step):
    # 计算平均 perplexity 的辅助变量
    total_costs = 0.0
    iters = 0
    #得到final_state
    state = session.run(model.initial_state)
    # 训练一个 epoch
    for x, y in batches:
        # 在当前batch 上运行 train op 并计算损失值,　交叉炳损失函数计算的就是下一个单词为给定单词的概率。
        cost, state, _ = session.run([model.cost, model.final_state, train_op],
                                     {model.input_data: x, model.targets: y, model.final_state: state})
    # 总的loss
    total_costs += cost
    # 总的截断长度
    iters += model.num_steps

    if output_log and step % 100 == 0:
        print "After %d steps, perplexity is %.3f" % (step, np.exp(total_costs/iters))
    #训练次数
    step += 1

    return step, np.exp(total_costs / iters)

"""
function: 计算神经网络的前向传播的结果
Parameters:
    file_path-文件路径(文件已经是前面处理好的id文件了)
Returns:
    idlist-对于输入数据产生对应的转换为int的list
CSDN:
    http://blog.csdn.net/qq_33431368
"""
def read_data(file_path):
    with open(file_path, 'r') as fin: #打开文件
        id_string = " ".join([line.strip() for line in fin.readlines()]) #每一行读取，并用空格相连
    id_list = [int(w) for w in id_string.split()] #转换成id list
    return id_list

"""
function: 数据batching,产生最后输入数据格式
Parameters:
    id_list-文件的对应id文件，由read_data产生
    batch_size-batch的大小
    num_step-截断序列数据的长度
Returns:
    list(zip(data_batches, label_batches))-data,label的数据list
CSDN:
    http://blog.csdn.net/qq_33431368
"""
def make_batches(id_list, batch_size, num_step):
    # 计算总的 batch 数量。每个 batch 包含的单词数量是 batch_size＊num_step
    num_batches = (len(id_list) - 1) // (batch_size*num_step)
    # 从头开始取正好num_batches*batch_size*num_step
    data = np.array(id_list[: num_batches*batch_size*num_step])
    # 将数据整理成一个维度为[ batch_size, num_batches*numstep ]
    data = np.reshape(data, [batch_size, num_batches*num_step])
    # 相当于在第二维数据上竖着截取一部分数据
    data_batches = np.split(data, num_batches, axis=1)
    # 因为相当于一个时刻去预测下一个时刻，所以进行相应的+1，相当于每个时刻的预测真值都在下一时刻。
    label = np.array(id_list[1:num_batches*batch_size*num_step +1])
    label = np.reshape(label, [batch_size, num_batches*num_step])
    label_batches = np.split(label, num_batches, axis=1)

    return list(zip(data_batches, label_batches))


def main():
    # 定义初始化函数。
    initializer = tf.random_uniform_initializer(-0.05, 0.05)
    #      initializer: default initializer for variables within this scope.
    # tf.variable_scope(,initializer=initializer)相当于在这个scope中都是这样的初始化变量情况
    # #定义训练用的循环神经网络模型。
    with tf.variable_scope("language_model", reuse=None, initializer=initializer):
        train_model = PTBModel(True, TRAIN_BATCH_SIZE, TRAIN_NUM_STEP)
    # 定义测试用的循环神经网络模型。它与 train model 共用参数 ,　但是测试使用全部的参数，所以没有dropout 。
    with tf.variable_scope("language_model", reuse=True, initializer=initializer):
        eval_model = PTBModel(False, EVAL_BATCH_SIZE, EVAL_NUM_STEP)
    #train
    with tf.Session() as session:
        tf.global_variables_initializer().run()
        # 生成train,test,eval的batches
        train_batches = make_batches(
            read_data(TRAIN_DATA), TRAIN_BATCH_SIZE, TRAIN_NUM_STEP
        )
        eval_batches = make_batches(
            read_data(EVAL_DATA), EVAL_BATCH_SIZE, EVAL_NUM_STEP
        )
        test_batches = make_batches(
            read_data(TEST_DATA), EVAL_BATCH_SIZE, EVAL_NUM_STEP
        )
        step = 0
        #进行NUM_EPOCH次迭代
        for i in range(NUM_EPOCH):
            print "In iteration: %d" % (i+1)
            step, train_pplx = run_epoch(session, train_model, train_batches, train_model.train_op, True, step)

            print "Epoch : %d train Perplexity: %.3f" % (i + 1, train_pplx)

            _, eval_pplx = run_epoch(session, eval_model, eval_batches, tf.no_op(), False, 0)

            print "Epoch: %d Eval Perplexity: %.3f" % (i + 1, eval_pplx)

        _, test_pplx = run_epoch(session, eval_model, test_batches, tf.no_op(), False, 0)
        print "Test Preplex: %.3f" % test_pplx


if __name__ == '__main__':
    main()

model评价就是简单的交叉熵，描述现在的值和想要的值之间的距离差距
结果：

５．需要好好理解的点

BasicLSTMCell中num_units参数解释
其实说白了num_units就是最后LSTM为了得到output的维度，需要连接的全连接层。
tf.nn.embedding_lookup解释
embedding层，其实就是一个类似于把输入数据转换成输入向量的层，输入到rnn中，有点类似于提取特征的感觉
tf.nn.dynamic_rnn的输出outputs和state含义　这个其实我上面也讲到了，以及state.h state.c都讲到了（h为这个时刻的输出，c为这个时刻的得到的状态）。
tf.nn.dropout防止过拟合
tensorflow API:梯度修剪apply_gradients和compute_gradients
理解好　　　数据的预处理＋数据的batching＋网络层的构建(embedding+lstm+softmax)＋embedding的具体含义+lstm中的state+网络整体脉络。
如果有兴趣可以加个tensorboard看看loss是否下降了。
参考《TensorFlow实战笔记》卷积神经网络CNN实战-cifar10数据集（tensorboard可视化）
embedding 和 softmax　参数共享

四、github

代码链接，希望给予star或者fork
https://github.com/chehongshu/DL-tenserflow/tree/master/RNN_LSTM_PTB

PS：如果觉得本篇本章对您有所帮助，欢迎关注、评论、点赞！Github给个Star就更完美了_！

特此感谢网上的资源，如果哪里写的不对请指正，文章也会在我不断地加深理解中更改到更好！

Reference

A Critical Review of Recurrent Neural Networks for Sequence Learning

https://blog.csdn.net/xierhacker/article/details/73384760

https://blog.csdn.net/xierhacker/article/details/73480744

《TensorFlow: 实战Google深度学习框架》　值得一看

http://www.tensorfly.cn/home/

https://blog.csdn.net/songhk0209/article/details/71134698

http://nicodjimenez.github.io/2014/08/08/lstm.html

https://blog.csdn.net/hustqb/article/details/80260002

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
el-dialog高度设置夏之小星星前端 vue.js elementui css
el-dialog高度设置::v-deep.el-dialog{height:78vh;overflow:auto;}
elementuiPlus取消el-input的边框 qq_39016177 elementui
elementuiPlus取消el-input的边框1.通常取消边框的方法设置border为none2.还有其他类似边框的例如outlinebox-shadow这两个属性都是会产生边框效果3.el-input需要更改的话–如下需要修改box-shadow为空即可上代码:deep(.el-input__wrapper){align-items:center;background-color:#F7F
【双语新闻】AGI安全与对齐，DeepMind近期工作曲奇人工智能安全 agi 安全 llama 人工智能
我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。byRohinShah,SebFarquhar,AncaDragan21stAug2024AIAlignmentForumWewantedtosharearecapofourrecentoutput
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
Vue + Django的人脸识别系统 DXSsssss python DRF tensorflow 人脸识别
最近在研究机器学习，刚好最近看了vue+Djangodrf的一些课程，学以致用，做了一个人脸识别系统。项目前端使用Vue框架，用到了elementui组件，写起来真是方便。比之前传统的dtl方便了太多。后端使用了drf，识别知识刚开始打算使用opencv+tensorflow,但是发现吧识别以后的结果返回到浏览器当中时使用opencv比较麻烦（主要是我太菜，想不到比较好的方法），因此最终使用了tf
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
深度学习之基于Tensorflow卷积神经网络水果蔬菜分类识别系统 qq1744828575 python python plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与目标背景：在现代农业、智能零售等领域，自动化分类与识别技术对于提高效率、优化供应链管理具有重要意义。为了响应这一需求，本项目旨在构建一个基于深度学习技术的水果蔬菜分类识别系统。目标：构建一个准确率高、性能稳定的水果蔬菜分类识别模型，利用Tensorflow框架
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一