Garry1248

生成式深度学习(第二版)-译文-第五章-自回归模型

章节目标

了解自回归模型为何比较适合生成序列数据 (例如文本)

了解如何处理并tokenize文本数据

了解RNN(recurrent neural networks)的架构设计

利用Keras从零开始构建并训练 LSTM (long short-term memory network)

使用LSTM来生成新的文本

了解RNNs的其它变种，包括GRUs(Gated Recurrent Units) 以及双向cells

理解图形数据如何被当做像素序列处理

学习PixelCNN的架构设计

使用Keras从零开始构建PixelCNN

使用PixelCNN来生成图像

迄今为止，我们已经探索了两类不同的包含隐变量的生成模型 — 变分自编码器 (VAEs) 以及生成对抗网络(GANs)。在这两种情况下，我们都引入了一个新的变量，其分布易于采样，模型学会如何将该变量解码回原始的图像域。

现在，我们将注意力转向自回归模型 — 它将生成式建模问题简化为序列处理过程。自回归模型以序列中前序值作为预测条件，而非依赖于一个隐藏随机变量。因此，它们尝试显示对数据生成分布进行建模，而非只是(如VAEs)寻找数据分布的一个近似。

在本章中，我们需要寻求两类不同的自回归模型: LSTM 以及 PixelCNN。我们将LSTM应用到文本数据，将PixelCNN应用到图像数据。我们将在第九章中涉及另外一种成功的自回归模型，Transformer。

引言

要理解LSTM的工作机理，我们先一起访问一个奇怪的监狱，其中囚徒们组成了一个文学社:

囚徒的文学社
爱德华·索普不喜欢自己监狱长的工作。他整天忙于看管囚徒，无暇追求自己写短篇小说的爱好。他非常丧气，急需寻求某种方式来产出一些新内容。
一天，他偶获灵感，想到了一种方式，能够让自己在当前的工作模式下也能从事小说的写作 — 他想要让同监狱犯人一起帮他写作。他将这个新型社会命名为 Literary Society for Troublesome Miscreants, 或者叫LSTM (图5-1) 。该监狱属实奇怪，因为它仅仅只有一个大的隔间，却包含了256个囚徒。每个囚徒对于爱德华当前的故事该如何继续都有自己的想法。每一天，爱德华将他关于小说的最新的段落丢到隔间里，囚徒们的工作是根据新的段落和囚徒们前一天的想法来分别更新自己一对于故事当前状态的观点。
每个囚徒使用特定的思想过程来更新自己的观点，包括来自新增短路以及其他囚徒的观点的均衡信息。首先，他们决定前天的观点需要遗忘多少，以囊括新段落和其他囚徒的信息。他们也使用这些信息来形成新的想法，以决定从多大程度上将这些信息融合到昨天的旧想法中。这形成了囚徒今天的新观点。
但是，囚徒们都是隐秘的，并不总会告诉其他囚徒自己所有的观点。他们每人都会用最新的段落和其他囚徒的观点来决定自己披露多少观点。
当爱德华想要囚徒生成序列段落中的下一个词，所有囚徒将他们的观点告诉门卫，门卫聚合这些信息，并最终决定在小说的最后加入什么词。这个新词进一步反馈回监狱，整个过程持续知道全部故事完成。
为了训练囚徒和门卫，爱德华给了它们自己之前写的一系列词，并监控囚徒们选择的下一个词是否正确。基于准确率，他经常训练他们，慢慢的，他们逐渐学会了如何用爱德华独特的风格来撰写小说。
经过类似过程的多次迭代，爱德华发现系统已经可以生成相当真实的文本。爱德华满意的把生成的故事放入了他的新书，名为《爱德华·索普寓言》。

索普先生的故事以及他众包的寓言其实就是一项臭名昭著的序列数据(例如，文本)自回归技术的类比: long short-term memory network。

Long Short-Term Memory Network (LSTM)

一个LSTM是一种特定类型的循环神经网络(RNN)。RNNs包含一个循环层 (或者单元)，使得他们可以通过将某个时间点的输出作为另一时间点的输入来处理序列数据。

当RNNs 首次提出时，循环层非常简单，仅仅只包含了一个tanh操作子，以确保不同时间戳上传递的信息都会被放缩到 -1 和 1之间。但是，这个技术会遭受梯度消失问题，无法扩展到长序列数据。

LSTM 单元首次提出于Sepp Hochreiter和Jurgen Schmidhuber在1997年的一篇论文。在这篇论文中，作者描述了LSTMs如何摆脱普通RNNs会遭受的梯度消失问题，并且可以在数百个时间戳长度的序列上进行训练。自此以后，LSTM架构被采用并持续改进，其变种(如GRU，gated recurrent uinits，本章稍后会介绍)目前在Keras里也能提供。

LSTMs已经应用于诸多序列数据相关的问题，包括时间序列预测，情绪分析，音频分类。本章中，我们将使用LSTMs来解决文本生成的问题。

运行示例代码
本示例代码可以从Jupyter Notebook的如下路径找到:“notebooks/05_autoregressive/01_lstm/lstm.ipynb”

Recipes数据集

我们将使用Kaggle上可获取的表层食谱数据集(Epicurious Recipes dataset)。这是一个超过2万食谱的集合，同时也有其他的元数据，如营养信息以及成分列表。

我们可以运行本书代码仓中Kaggle数据集下载器来下载数据集，如样例5-1所示。这将本地保存食谱和其它关联元数据到 /data 目录。

bash scripts/download_kaggle_data.sh hugodarwood epirecipes

例5-2 给出了数据如何加载及过滤，使得只有包含标题和详细描述的菜谱得以保留。菜谱文本串的一个样例如下样例5-3所示。

with open('/app/data/epirecipes/full_format_recipes.json') as json_data:
	recipe_data = json.load(json_data)

filtered_data = ['Recipe for ' + x['title'] + ' |' + ‘’.join(x[‘directions’])
				for x in recipe_data
				if 'title' in x
				and x['title'] is not None
				and 'directions' in x
				and x['directions'] is not None
				]

样例 5-3. Recipes数据集中的一条文本字符串
“Recipe for Ham Persillade with Mustard Potato Salad and Mashed Peas | Chop enough
parsley leaves to measure 1 tablespoon; reserve. Chop remaining leaves and stems
and simmer with broth and garlic in a small saucepan, covered, 5 minutes.
Meanwhile, sprinkle gelatin over water in a medium bowl and let soften 1 minute.
Strain broth through a fine-mesh sieve into bowl with gelatin and stir to dissolve.
Season with salt and pepper. Set bowl in an ice bath and cool to room temperature,
stirring. Toss ham with reserved parsley and divide among jars. Pour gelatin on top
and chill until set, at least 1 hour. Whisk together mayonnaise, mustard, vinegar,
1/4 teaspoon salt, and 1/4 teaspoon pepper in a large bowl. Stir in celery,
cornichons, and potatoes. Pulse peas with marjoram, oil, 1/2 teaspoon pepper, and
1/4 teaspoon salt in a food processor to a coarse mash. Layer peas, then potato
salad, over ham.”

在我们通过Keras构建LSTM之前，我们需要快速理解文本数据结构，并理解文本数据结构与本书中迄今为止见过的图像数据有何区别。

使用文本数据

文本和图像数据有一些关键的不同，这意味着很多方法尽管在图像数据上可以较好工作，但不能应用于文本数据。特别的:

文本数据: 包含离散的块(字符或者单词)，而图像中的像素则是连续色度空间中的点。对于一个绿色像素，我们可以很轻易的让绿色像素更蓝，但是我们并不清楚，该怎样才能让一个单词 cat 更像单词 dog。这意味着，我们可以轻松的在图像数据上应用反向传播，因为我们可以计算损失函数相对单个像素的梯度来建立如何调节像素色彩的合适方向以最小化损失。而对于这些离散的文本数据，我们显然无法直接按照相同方式反向传播，所以我们需要找到一个围绕这一问题的方法。
文本数据有时间维度，而无空间维度，而图像数据有两个空间维度，而无时间维度。词语的顺序在文本数据中中非常重要，词语的翻转是无意义的，而图像通常可以翻转而不影响内容。进一步的，通常我们还需要捕捉词语间的长时序列依赖性: 例如，问题的答案，或者代词的上下文。对图像数据而言，所有的像素可被同时处理。
文本数据在个性单元 (单词或者字符) 对小的改变是非常敏感的。图像数据对单个像素单元的改变就没那么敏感 — 即使一些像素被改变，一个房子的图像仍然可以被识别为房子。但是，对于文本数据，改变少数单词会极大改变段落的意思，或者让段落无意义。这使得训练一个能生成一致文本你的模型更加困难，因为每一个单词都对整个段落的意义很重要。
文本数据有基于规则的语法结构，而图像数据则没有规则集合来指导像素如何赋值。例如，在任何语境下，我们写这么一段话 “The cat sat on the having” 都没有具体的语法意义。语义规则同样也极难建模，即使从语法上来讲，“I am in the beach” 没有任何错误，这句话也毫无意义。

基于文本的生成式深度学习前沿
直到最近，大部分复杂的生成式深度学习模型主要都聚焦在图像数据上，因为上文列的大部分挑战超过了当前最先进技术的应对范畴。然而，在最近五年中，基于文本的生成式深度学习发展迅速，这多亏了transformer模型架构的引入，正如第九章中我们将看到的。

记住上面几点，现在让我们一起看看需要采取哪些措施来使用文本数据训练LSTM网络。

Tokenization

第一步是清理并tokenize文本。Tokenization是将文本切分问个体单元(例如单词或字符)的过程。

你如何tokenize文本去决议你希望自己的文本生成模型达到什么目标。使用单词或者字符 tokens各有利弊，你的选择将影响你在建模之前将如何清理文本，也将影响模型之输出。

如果你使用单词tokens:

所有文本都转换为小写，以此来保证句首的大写单词跟句中的相同单词保持相同的tokenized方式。但是，在一些情况下，这可能是我们不希望的。例如，一些名词，如名字或地址，可能从保持大写中受益，因为这样他们可以独立的tokenized。
文本词典 (vocabulary，意指训练集中不同词的集合) 可能非常大，一些词可能仅仅只极少出现，甚至只出现一次。将出现极少的单词替换为未知词的token可能更为明智，而非将这些词也作为独立的tokens，以此来减少需要学习的神经网络权重数量。
单词是可以简化的，意思是他们可以简化到最简单的形式，以使得动词的不同时态也能一起tokenized。例如，browse，browsing，browses，以及browsed都会简化到brows。
对于标点符号，你要么tokenize，要么所需直接移除。
使用 tokenization 这个词的意思其实也在表明，模型永远预测不到训练字典之外的单词。

如果你使用字符tokens:

模型可能会产生训练字典之外的字符序列 — 这在某些情况下是我们想要的，但其他情况下并非如此。
大写字母可以被转换到小写形式，或者作为独立的tokens。
当使用字符tokenization时，字典通常更小。这对于模型训练速度是有益的，因为在最终的输出层只有更少的权重需要学习。

对于这个例子，我们将使用小写单词tokenization，不使用单词简化。我们也会将标点符合tokenize化，因为我们希望模型能够预测合适终结句子，何时需要逗号。

样例5-4之代码清理并tokenizes 文本。

def pad_punctuation(s):
	s = re.sub(f"([{string.punctuation}])", r' \1 ', s)
	s = re.sub(' +', ' ', s)
	return s
	
# 标点符号补齐，将它们看做是独立的单词
text_data = [pad_punctuation(x) for x in filtered_data]
# 转换成Tensorflow dataset
text_ds = tf.data.Dataset.from_tensor_slices(text_data).batch(32).shuffle(1000)

# 创建一个Keras TextVectorization层来将文本转换为小写，给最流形的10000个单词一个对应的整数token，将序列修剪或者补齐至201 tokens长。
vectorize_layer = layers.TextVectorization(
	standardize = 'lower',
	max_tokens = 10000,
	output_mode = "int",
	output_sequence_length = 200 + 1,
)
# 将TextVectorization层应用于训练数据
vectorize_layer.adapt(text.ds)
# vocab 变量存储了单词tokens的列表
vocab = vectorize_layer.get_vocabulary()

一个菜谱tokenization之后的示例如下5-5所示。我们训练模型时采样的序列长度是训练过程的一个参数。在这个例子中，我们选择了序列长度200，因此我们补齐或者裁切到这个长度+1, 以允许我们创建目标变量 (在下一小节我们将介绍更多)。为了达到目标长度，向量的末尾以0填充。

停止Tokens
Token 0 通常被认为是停止 Token，标志着文本串到达了结尾。

# 样例 5-3 中菜谱 tokenized 之后的结果
[  26   16  557    1    8  298  335  189    4 1054  494   27  332  228 
235  262    5  594   11  133   22  311    2  332   45  262    4  671
    4   70    8  171    4   81    6    9   65   80    3  121    3   59
   12    2  299    3   88  650   20   39    6    9   29   21    4   67
  529   11  164    2  320  171  102    9  374   13  643  306   25   21
    8  650    4   42    5  931    2   63    8   24    4   33    2  114
   21    6  178  181 1245    4   60    5  140  112    3   48    2  117
  557    8  285  235    4  200  292  980    2  107  650   28   72    4
  108   10  114    3   57  204   11  172    2   73  110  482    3  298
    3  190    3   11   23   32  142   24    3    4   11   23   32  142
   33    6    9   30   21    2   42    6  353    3 3224    3    4  150
    2  437  494    8 1281    3   37    3   11   23   15  142   33    3
    4   11   23   32  142   24    6    9  291  188    5    9  412  572
    2  230  494    3   46  335  189    3   20  557    2    0    0    0
    0    0    0    0    0]

样例5-6中，我们可以看到tokens列表的一个子集，映射到各自的标号。本层保留 token 0 以作补齐 (也即，0 作为停止token)。token 1 作为未知单词 (不在前10000单词中的词，如 persillade)。其他的词皆是以出现频率而赋予 token。词典中单词的数目也是训练过程的参数之一，囊括越多的单词，则越少会出现未知 token，但是，模型需要变得更大，以容纳更大的词典尺寸。

# 样例 5-6 TextVectorization层之词典
0: 
1: [UNK]
2: .
3: ,
4: and
5: to
6: in
7: the
8: with
9: a

训练集构建

给定该点之前的单词序列，我们的LSTM将被训练来预测序列中的下一个词。例如，我们可以把下面的tokens喂给模型: grilled chicken with boiled，我们可以期望模型输出合适的下一个单词 (例如，potatoes, 而非bananas)。

我们可以简单的把整个sequence移动一个token，以此来构建目标变量。

数据集生成步骤可以通过如下样例5-7中的代码生成。

# 创建训练集

def prepare_inputs(text):
	text = tf.expand_dims(text, -1)
	tokenized_sentences = vectorize_layer(text)
	x = tokenized_sentences[:,:, -1]
	y = tokenized_sentences[:,1:]
	return x, y
# 创建训练集: 包含食谱tokens (输入) 以及 同样的向量移动一个token (目标)
train_ds = text_ds.map(prepare_inputs)

LSTM架构

总体LSTM模型架构如下表5-1所示。模型的输入是整数token序列，输出是词典中10000个单词每个在序列的下一个位置出现的概率。要从细节上理解这是如何工作的，我们需要引入两个新的层类型，Embedding 层以及 LSTM。

层类型	输出形状	参数数目
InputLayer	(None, None)	0
Embedding	(None, None,100)	1,000,000
LSTM	(None, None, 128)	117,248
Dense	(None, None, 10000)	1,290,000

总的参数	2,407,248
训练参数	2,407,248
非训练参数	0

LSTM输入层
注意 Input 层不需要我们来特别提前指定序列长度，batch size 和序列长度都是灵活的 (因此，形状标注为 (None, None))。这是因为所有的下游层对将要通过的序列长度是不可知的。

嵌入层

一个 embedding 层本质上就是一个查找表，可以将每个整数token转换成一个长为 embedding_size的向量。如下图5-2所示。查找向量是作为权重通过模型学到的。因此，该层权重的数目等于字典的尺寸乘以嵌入向量的维度(例如，10000 x 100 = 1000000)。

我们将每个整数token嵌入到连续的向量，因为它使得模型可以学到每个单词的表示，该表示可以通过反向传播更新。我们当然也可以仅仅只对每个输入做独热编码，但使用嵌入层更常用，因为它使得嵌入层本身可训练，因此让模型具备更强的灵活性来决定该如何对每个token进行嵌入以提升性能。

因此，输入层传递了一个形状为[batch_size, seq_length] 的整数序列张量到嵌入层，嵌入层输出形状为 [batch_size, seq_length, embedding_size]。该输出进一步传递给 LSTM 层(图5-3)。

LSTM层

要理解 LSTM 层，我们需要首先看看一个通用的循环层(recurrent layer)如何工作的。

一个循环层具有特定的性质: 它可以处理序列输入数据 $x_1, ... , x_n$ 。它包含了一个单元(cell)，随着序列 $x_t$ 可以持续更新隐层状态 $h_t$ 。

隐层状态是一个向量，其长度等于cell中units个数 — 这可以被理解为cell对序列的当前理解。在时间步 t，cell 使用了隐状态的前序值 $h_{t-1}$ ，连同当前时间步的数据 $x_t$ 来产生一个更新的隐状态向量 $h_t$ 。这一循环过程一直持续，知道序列的结尾。一旦序列结束，循环层输出最终cell的隐状态 $h_n$ ，该状态传递给忘了的下一层。这一过程如下图5-4所示。

为了更细节的解释这点，让我们结构这一过程，使得我们可以看到一个单一序列是如何喂到层里(图5-5)。

Cell 权重
我们需要记住很重要的一点是，在这个框图中，所有的cell共享相同的权重(实际上，它们就是相同的cell)。这个框图本质上与图5-4并无区别，只是用另外一种方式画出了循环层的机制。

这里，我们通过把cell复制到各个时间步表示循环过程，并展示出当数据流经cell时隐层状态是如何持续更新的。我们可以清楚看到，之前的隐层状态如何与当前的序列数据点(当前的词向量嵌入)混合，来产生下一个隐状态。该层的输出是当输入序列中的每一个单词都经过处理之后cell的最终隐状态。

警告
cell的输出被称作隐状态是一个不幸的命名公约 — 事实上它并不是隐的，你也不必如此考虑它。实际上，最后的隐状态是该层的总输出，在本章中，我们只需要利用这一事实: 在每一个单一的时间步，我们都可以获取隐状态。

LSTM Cell

既然我们已经知道了一个通用的循环层是如何工作的，让我们进一步看看LSTM cell内部。

给定前序隐状态 $h_{t-1}$ 和当前的词嵌入 $x_t$ ，LSTM cell的职责是输出一个新的隐状态 $h_t$ 。简要回顾一下， $h_t$ 的长度等于 LSTM 的 units 数目。这是一个当你定义层时设定的参数，与序列的长度并无关系。

警告
确保你没有混淆两个术语 cell 以及 unit。LSTM 层中只有一个cell，它是由包含的 units 数目所定义。就像我们之前讲的故事中囚徒所处的监狱空间一样。我们通常把循环层画作一系列摊开的 cells，因为这种绘制方式有助于我们直观的看到隐层状态如何随着时间步来更新。

一个 LSTM cell 包含一个 cell 状态 $C_t$ ，它可以看做cell关于序列当前状态的内部置信度。这和cell在最后的时间步最终输出的隐状态 $h_t$ 是不同的。cell 状态和隐状态长度(cell中units个数)相同。

让我们进一步看看单一cell，以及隐状态是如何更新的(图5-6)。

隐状态之更新一共分为6步:

前序时间步之隐状态， $h_{t-1}$ 以及当前的词嵌入， $x_t$ ，这两者拼接起来，并传递给 forget 门。forget 门简单来说就是一个密集链接层，权重矩阵为 $W_f$ ，偏置为 $b_f$ ，以及一个sigmoid 激活函数。结果向量， $f_t$ 长度与cell中的units数目相同，其值为 0 到 1之间，可以决定之前的Cell状态 $C_{t-1}$ ，有多少需要保留。
拼接向量也将进一步传给一个 input 门，该门与 forget 门类似，也是一个密集连接层，权重矩阵为 $W_i$ ，偏置为 $b_i$ ，以及一个sigmoid 激活函数。该门的输出， $i_t$ , 长度与cell中的units数目相同，其值为 0 到 1之间，可以决定多少新的信息要加入到之前的Cell状态 $C_{t-1}$ 。
拼接向量也将进一步传给一个 dense 层，权重矩阵为 $W_C$ ，偏置为 $b_C$ ，以及一个 tanh 激活函数，该层的输出， $\bar{C}_t$ ，包含了 cell 想要保留的新信息。其长度与cell中的units数目相同，其值为 -1 到 1之间。
$f_t$ 和 $C_{t-1}$ 进行逐元素乘法，并与 $i_t$ 和 $\bar{C}_t$ 的逐元素乘法结果相加。这表示前序cell状态的遗忘部分加上新的相关信息，以产生更新的Cell 状态 $C_t$ 。
拼接向量进一步传给一个 output门：一个密集连接层，权重矩阵为 $W_o$ ，偏置为 $b_o$ ，以及一个sigmoid 激活函数。该门的输出， $o_t$ , 长度与cell中的units数目相同，其值为 0 到 1之间，可以决定多少更新后的Cell状态 $C_t$ ，需要从cell中输出。
$o_t$ 与经过tanh处理的更新后的Cell状态 $C_t$ 逐元素相乘，以此来产生新的隐状态 $h_t$ 。

Keras LSTM 层
所有的复杂性都被KERAS的LSTM层类型封装起来了，所以你不用担心如何自己实现它。

译者注: 上述的讲解过于简洁，关于RNN和LSTM的区别和联系对大部分读者而言可能没那么容易理解，可以进一步参考这篇博客。

LSTM训练

构建，编译及训练LSTM的代码如下示例5-8所示。

# 构建，编译及训练LSTM
# Input层不需要我们预先指定指定序列长度(它是灵活的)，所以我们可以用None占位
inputs  = layers.Input(shape=(None,),dtype="int32")
# Embedding层需要两个参数: 词典尺寸 (10000 tokens)，以及嵌入向量维度(100)
x = layers.Embedding(10000,100)(inputs)
# LSTM层需要我们指定隐向量的维度(128)。我们仍然选择返回隐状态的完整序列，而不仅仅只是最后一个时间步的隐状态
x = layers.LSTM(128, return_sequences=True)(x)
# Dense Layer将每步的隐状态转换为下一个token的概率
outputs = layers.Dense(10000, activation = 'softmax')(x)
# 给定一个tokens序列，整个模型预测下一个 token
lstm = models.Model(inputs, outputs)

loss_fn = losses.SparseCategoricalCrossentropy()
# 模型用 SparseCategoricalCrossentropy 损失编译 --- 这与 categorical cross-entropy 一致，但是这个当 labels是整数 而非 独热编码向量时使用
lstm.compile("adam", loss_fn)
# 模型拟合到训练数据集
lstm.fit(train_ds, epochs=25)

如下图5-7. 我们可以看到LSTM训练的开始几个 epochs — 注意 example output是如何随着损失度量下降而变得越来越具备可理解性。图5-8展示了cross-entropy loss metric 随着训练过程下降。

现在，我们已经编译并训练了LSTM，我们可以开始通过以下过程用它来生成长文本:

给网络喂已有单词序列，并让它来预测下一个单词。
把预测的单词加入已有序列，并重复。

网络会输出一组对应每个单词的概率，从这个概率分布中我们可以进行采样。因此，我们可以让文本的生成过程随机而非固定。进一步的，我们可以引入一个温度参数 (temperature) 到采样过程，以此参数标识我们希望该过程有几分固定。

温度参数
温度接近0，意味着让采样过程更确定 (也即，具有最高概率的单词有极大概率被选中)，而温度接近1意味着每个单词按照模型输出的概率来采样。

这一过程如样例5-9代码所示，其构建了一个callback函数，可以用于在每次训练epoch的末尾来生成文本。

# 样例5-9 The TextGenerator callback function
class TextGenerator(callbacks.Callback):
	def __init__(self, index_to_word, top_k = 10):
		self.index_to_word = index_to_word
		# 构建一个反向字典映射: 从单词到token
		self.word_to_index = {
			word: index for index, word in enumerate(index_to_word)
			}
	# 本函数用 temperature 放缩因子更新概率
	def sample_from(self, probs, temperature):
		probs = probs ** (1 / temperature)
		probs = probs / np.sum(probs)
		return np.random.choice(lens(probs), p = probs), probs

	def generate(self, start_prompt, max_tokens, temperature):
		# start_prompt是一组词串，用来给模型作为输入开启文本生成过程，例如 recipe for
		start_tokens = [
			self.word_to_index.get(x, 1) for x in start_prompt.split()
		]
		sample_tokens = None
		info = []
		# 单词先转换为一个tokens的列表
		while len(start_tokens) < max_tokens and sample_tokens != 0:
			x = np.array([start_tokens])
			# 模型输出每个单词可能为序列下一个词的概率
			y = self.model.predict(x)
			# 概率传递给sampler以输出下一个单词，参数为 temperature
			sample_tokens, probs = self.sample_from(y[0][-1], temperature)
			info.append({'prompt': start_prompt, 'word_probs': probs})
			# 我们将新单词加入prompt文本，以用于生成过程的下次迭代
			start_tokens.append(sample_token)
			start_prompt = start_prompt + ' ' + self.index_to_word[sample_token]
		print(f'\ngenerated text:\n{start_prompt}\n')
		return info

	def on_epoch_end(self, epoch, logs=None):
		self.generate("recipe for", max_tokens = 100, temperature = 1.0)

让我们具体看看两个不同的temperature值 (图5-9)。

以上两个段落中有一些事情需要注意。首先，两个在风格上都跟原始的菜谱训练集比较像。它们都以一个菜谱名开头，包含语法正确的表述。差别在于，使用 temperature = 1.0 来生成的文本更加冒险，因此不如 temperature=0.2 那样准确。使用 temperature = 1.0 会产生更大的发散性，因为模型才能从有更大离散度的概率分布中采样得到。

为了展示这一点，图5-10展示了对于两个不同temperature值，不同prompts的具有最高概率的头五个tokens。

对于一系列的上下文，模型都有能力生成下一个最可能词的合适分布。例如，即使模型从来未被告知如何对语言进行名词，动词，数字的划分，它却显然具备将单词划分到这些类别的能力，并可以以语法正确的方式来使用这些词。

进一步的，取决于前序标题之不同，模型可以选择合适的动词来开启菜谱指令。对于烤的蔬菜，它选择了 preheat，prepare，heat，put，或者 combine 作为最可能的，而对于冰激凌，它选择了 in，combine，stir，whisk，mix。这表明，模型具备一些上下文理解能力，可以根据成分表推断出菜谱之间的差异。

同时，也请注意，temperature = 0.2 示例对应的概率在首选项上是多么过分强调。这也是小的temperature对应更低的发散性的原因。

尽管我们的基础 LSTM 模型比较善于生成真实感文本，很显然它仍然比较难把握其某些生成单词的语义。它介绍了一些不可能在一起工作的成分 (例如，酸日本土豆，美洲山核桃面包屑，雪糕)！在一些情况下啊，这可能是理想的 — 例如，如果我们希望 LSTM 生成一些有趣的、独一无二类型的单词 — 但是在其他情况下，我们需要模型深入理解什么样的单词可以聚合到一起，并对于前序文本介绍的思想有更长久的记忆。

在下一章节中，我们会探索一些方式，用以提升基础LSTM网络。在第九章中，我们将一起看一种新的自回归模型， Transformer，这将会把语言模型提升到新的层次。

RNN 拓展

前面章节的模型是一个简单的示例，教会我们如何训练一个 LSTM 模型来生成给定风格的文本。在这一章节中，我们将进一步探索这个思想的几个拓展。

RNN 堆叠

我们使用的网络仅仅包含单一的LSTM层，但是实际上，我们也可以训练堆叠LSTM层，使得我们可以从文本学习更深层次的特征。

为了实现这一点，我们简单在第一个LSTM层之后引入另一个LSTM层。第二个LSTM层可以使用第一个LSTM层的隐状态作为输入数据。这个过程如图5-11所示，总体结构如表5-2所示。

层类型	输出形状	参数数目
InputLayer	(None, None)	0
Embedding	(None, None,100)	1,000,000
LSTM	(None, None, 128)	117,248
LSTM	(None, None, 128)	131,584
Dense	(None, None, 10000)	1,290,000

总的参数	2,538,832
训练参数	2,538,832
非训练参数	0

构建堆叠LSTM的样例代码如下样例5-10所示。

# 样例5-10: 构建堆叠 LSTM
text_in = layers.Input(shape = (None,))
# 可能是原作者的一个笔误 非 embedding 而是 x
x = layers.Embedding(total_words, embedding_size)(text_in)
x = layers.LSTM(n_units, return_sequences = True)(x)
x = layers.LSTM(n_units, return_sequences = True)(x)
probabilities = layers.Dense(total_words, activation = 'softmax')(x)
model = models.Model(text_in, probabilities)

门控循环单元 (Gated Recurrent Units，GRU)

另一种常用的RNN层是 GRU，其与LSTM单元的核心不同列举如下:

forget 和 input 门被替代为 reset 及 update门。
没有 cell 状态或 output门，只有一个隐状态从cell输出。

隐状态使用四步迭代，如图5-12所示。

前一个时间步的隐状态为 $h_{t-1}$ ，当前的词嵌入为 $x_t$ ，这两者拼接起来，用于构建 reset 门。该门是一个dense层，权重矩阵是 $W_r$ , 以及一个 sigmoid 激活函数。结果向量 $r_t$ 其长度与cell的单元个数相等，存储0-1之间的值以决定前一个隐状态 $h_{t-1}$ 有多少部分需要进一步参与cell新的置信度计算。
reset 门应用于隐状态 $h_{t-1}$ ，并与当前的词嵌入 $x_t$ 。向量喂给一个dense层，该层权重为 $W$ , 激活函数为 tanh，来产生一个向量 $\tilde{h}_t$ ，存储cell的新置信度。其长度与cell中的单元个数相等，存储z的值在-1和1之间。
前一个时间步的隐状态为 $h_{t-1}$ ，当前的词嵌入为 $x_t$ ，这两者拼接起来，也应用于构建 update 门。该门是一个dense层，权重矩阵是 $W_z$ , 以及一个 sigmoid 激活函数。结果向量 $z_t$ 其长度与cell的单元个数相等，存储0-1之间的值，以决定新的置信度 $\tilde{h}_t$ 在大多程度上混合入当前的隐状态 $h_{t-1}$ 。
新的置信度 $\tilde{h}_t$ ，当前的隐状态 $h_{t-1}$ ，按照update门决定的权重 $z_t$ 进行混合，以产生更新的隐状态 $h_{t}$ ，该状态为cell之输出。

双向Cells

对于预测问题来说，整个的text在推理时对模型均可见，没有任何理由只在前向过程处理处理序列 — 在后向过程中同样可以处理。一个双向层利用这一点来存储两组隐状态: 一组是跟之前一样在前向过程中对序列进行处理的结果。另一个是序列后向处理时生成的。通过这种方式，该层可以学习某个时间步之前和之后的信息。

在Keras中，这是通过对循环层的封装来实现的，如下样例 5-11所示。

# 构建双向GRU层
layer = layers.Bidirectional(layers.GRU(100))

隐状态
结果层之隐状态是一组长度两倍于封装单元(前向和后向隐状态的连接)units数的向量。因此，在这个例子中，层的隐状态数目是200。

截至目前，我们仅仅只在文本数据上应用了自回归模型 (LSTMs) 。在下一章节中，我们将一起看看如何应用自回归模型来生成图像。

PixelCNN

2016年，van den Oord等引入了一个模型，可以通过逐像素的方式来生成图像，它主要基于前序像素来预测下一个像素的likelihood。该模型被称为 PixelCNN, 它可训练用于自回归生成图像。

在 PixelCNN中，我们需要引入两个新的概念 — masked convolutional layers 以及 residual blocks。

运行本示例代码
本示例代码可以从本书附带代码库的以下目录找到 “notebooks/05_autoregressive/02_pixelcnn/pixelcnn.ipynb”, 代码实现修改自Keras官网上由 AMDoreau实现的杰出 PixelCNN tutorial

Masked Convolutional Layers

在第二章中，我们已经看到，卷积层可以利用一系列滤波器来抽取图像特征。在特定像素位置，该层的输出是滤波器权重和前层以该像素为中心的小方形区域之乘积的加权和。该方法可以检测边缘和纹理，在更深的层上，也可以检测形状和高层次特征。

尽管卷积层在特征检测上非常有用，他们不能直接以自回归的方式应用，因为在像素并非有序的。它们依赖于一个事实: 所有的像素都同等处理 — 没有哪个像素被视为图像的开头或者结尾。这与上一小节中我们看到的文本数据是相反的，在文本中，tokens是有清晰的顺序的，所以象LSTMs这样的循环模型才可以得到应用。

为了让我们用自回归的方式来应用卷积层，我们必须首先在像素上标定一个顺序，以此来确保滤波器只能看到当前像素之前的那些像素。我们可以通过将卷积层应用于当前图像根据前序像素来预测下一像素来实现一次生成图像的一个像素。

首先，我们需要选择像素的顺序 — 一个明智的建议是按照从左上到右下的顺序来给像素排序，首先在行上移动，然后在列上移动。

然后，我们对卷积滤波器进行掩膜操作，使得该层在每个像素的输出只受限于该像素之前的像素。这是通过使用一个0和1组成的掩膜与滤波器权重相乘实现的，使得目标像素之后的所有值均为0。

实际上，PixelCNN有两种实现方式，如下图5-13所示。

类型A，中心像素的值也加以掩膜；
类型B，中心像素的值不加掩膜。

初始的掩膜卷积层 (也即，直接应用于输入图像的掩膜卷积层) 不能使用中心像素，因为该像素恰恰是我们想要网络来预测的像素！无论如何，其他后续层中，我们可以使用中心像素，因为这个只是原始输入图像前序像素的信息聚合结果。

在Keras中，MaskedConvLayer的实现方式如下样例 5-12所示:

# 样例5-12 Keras中 MaskedConvLayer的实现
class MaskedConvLayer(layers.Layer):
	def __init__(self, mask_type, **kwargs):
		super(MaskedConvLayer, self).__init__()
		self.mask_type = mask_type
		# MaskedConvLayer基于正常的Conv2D层
		self.conv = layers.Conv2D(**kwargs)

	def build(self, input_shape):
		self.conv.build(input_shape)
		kernel_shape = self.conv.kernel.get_shape()
		#Mask初始化为全0
		self.mask = np.zeros(shape = kernel_shape)
		# 前序行的像素掩膜为1
		self.mask[: kernel_shape[0] // 2, ...] = 1.0
		# 同一行前序列的像素掩膜为1
		self.mask[kernel_shape[0] // 2, : kernel_shape[1], ...] = 1.0
		# 如果掩膜类型为B，则中心像素掩膜为1
		if self.mask_type == "B":
			self.mask[kernel_shape[0] // 2, kernel_shape[1] // 2, ...] = 1.0
	
	def call(self, inputs):
		# 掩膜与滤波器权重相乘
		self.conv.kernel.assign(self.conv.kernel * self.mask)
		return self.conv(inputs)

注意，这个简化的例子假定图像为灰度(也即，只有一个通道)。如果我们有彩色图像，我们将有三个彩色通道，则我们也可以有三个颜色通道，我们亦可设定一个顺序，例如，红色通道优先蓝色通道，蓝色通道优先绿色通道。

残差模块

现在，我们看到了如何来对卷积层施加掩膜，我们也可以开始构建自己的 PixelCNN。我们将要用的核心模块是残差模块。

一个残差block是一组层的集合，其block的输出在传递给网络其余部分之前首先加到输入上。换句话说，输入有一个到输出的快速路由，而无需经过一系列中间层 — 这被称为 跳跃连接 (skip connection)。跳跃连接背后的合理性在于，如果最优的变换恰好是保持输入不变，则它可以通过将所有中间层权重简单置0达到。没有跳跃连接的情况下，网络需要找到一个中间层的 identity mapping ，这显然难的多。

我们PixelCNN中的残差block框图如下图5-14所示。

我们可以按照样例5-13所示代码构建 ResidualBlock:

# 样例 5-13: A Residual Block
class ResidualBlock(layers.Layer):
	def __init__(self, filters, **kwargs):
		super(ResidualBlock, self).__init__(**kwargs)
		# 初始的Conv2D层将通道数减半
		self.conv1 = layers.Conv2D(
			filters = filters // 2, kernel_size = 1, activation = "relu"
		)
		# kernel size为3的类型B MaskedConv2D 层，只使用5个像素之信息 --- 三个像素在
		# 焦点像素之上一行，一个在其左，另一个是焦点像素自己
		self.pixel_conv = MaskedConv2D(
			mask_type = "B",
			filters = filters // 2,
			kernel_size = 3,
			activation = "relu",
			padding = "same",
		）
		# 最后一个Conv2D层加倍通道数，以匹配输入形状
		self.conv2 = layers.Conv2D{
			filters = filters, kernel_size = 1, activation = "relu"
		}
	def call(self, inputs):
		x = self.conv1(inputs)
		x = self.pixel_conv(x)
		x = self.conv2(x)
		# 卷积层的输出加到input上去 --- 这是一个跳跃连接
		return layers.add([inputs, x])

PixelCNN 训练

在样例5-14中，我们把整个PixelCNNwang放到一起，与原始paper的结构比较接近。在原始的论文里，输出层是一个带softmax激活的 256 滤波器 Conv2D层。换句话说，网络尝试通过预测正确的像素值来重新创造输入，有一点像自编码器。差别在于， PixelCNN 是受限的，使得前序 pixels 的信息不能流动以影响每个像素的预测，这主要是由于网络的设计方式决定的，使用了MaskedConv2D。

这种方法的一个挑战是，网络没法理解一个像素值(如200) 和另一个像素值(如201)很接近。它必须独立的学习每个像素的输出值，这也就意味着即使对最简单的数据集来说，训练都是很慢的。因此，在我们的视线中，我们简化输入，使得每个像素只能取到四个值中间的一个。通过这种方式，我们可以使用一个4滤波器 Conv2D输出，而非256。

# 样例5-14. PixelCNN 架构
# 模型的输入是灰度图像 16x16x1，输入放缩到 0 到 1之间。
inputs = layers.Input(shape(16,16,1))
# 第一个类型A的MaskedConv2D层，kernel 尺寸为7， 使用了24个像素的信息，焦点像素之上3行以及其左边3个
x = MaskedConv2D(mask_type = "A",
				filters = 128,
				kernel_size = 7,
				activation = "relu",
				padding = "same")(inputs)
				
# 五个ResidualBlock 层序列堆叠
for _ in range(5):
	x = ResidualBlock(filters=128)(x)

# 两个类型B，kernel_size=1的MaskedConv2D层作为Dense层，跨越每个像素所有通道
for _ in range(2):
	x = MaskedConv2D(mask_type = "B",
				filters = 128,
				kernel_size = 1,
				strides = 1
				activation = "relu",
				padding = "valid",)(x)

# 最后的Conv2D层降低通道数到4 --- 本例中像素层级数
out = layers.Conv2D(filters=4, kernel_size = 1, strides = 1, activation = "softmax", padding = "valid")(x)

# 构建模型来接受一个图像，并输出一幅同样尺寸的图像
pixel_cnn = models.Model(inputs, out)

adam = optimizers.Adam(learning_rate=0.0005)
pixel_cnn.compile(optimizer=adam, loss = "sparse_categorical_crossentropy")

# 拟合模型 --- input_data 放到到 [0,1]， output_data 放缩到 [0,3] (整数)
pixel_cnn.fit(input_data,output_data,batch_size=128,epochs=150)

PixelCNN分析

我们可以在Fashion-MNIST数据集(第三章曾介绍过)上训练 PixelCNN。为了生成新图像，我们需要在给定前序像素基础上，让模型来预测下一个像素，每次预测一个像素。这一过程相比变分自编码器来说非常缓慢！对于一个32x32的灰度图像而言，我们需要使用模型序列推理1024次，而在VAE中，我们仅需要做一次推理。这是如PixelCNN这类自回归模型最大的缺点 — 因为采样过程的序列特性，它们采样起来太慢。

基于这种原因，我们使用16x16的图像，而非32x32，以加速新图像的生成。生成callback类如下例5-15所示。

# 使用PixelCNN生成新的图像
class ImageGenerator(callbacks.Callback):
	def __init__(self, num_img):
		self.num_img = num_img

	def sample_from(self, probs, temperature):
		probs = probs ** (1 / temperature)
		probs = probs / np.sum(probs)
		return np.random.choice(len(probs),p=probs)

	def generate(self, temperature):
		# 从一批空图像开始
		generated_images = np.zeros(shape(self.num_img,)+(pixel_cnn.inputshape)[1:])
		batch, rows, cols, channels = generated_image.shape

		for row in range(rows):
			for col in range(cols):
				for channel in range(channels):
					# 当前图像rows，cols，channels循环，预测下一个像素值
					probs = self.model.predict(generated_images)[:, row, col, :]
					# 从预测的分布中采样一个像素值 (在我们的例子中，[0,3]中的一阶)
					generated_images[:, row, col, channel] = [self.sample_from(x, temperature) for x in probs]
					# 将像素阶转换到 [0,1]范围，并覆盖当前图像像素值，下一次循环准备
					generated_images[:, row, col, channel] / = 4
		return generated_images
	
	def on_epoch_end(self, epoch, logs = None):
		generated_images = self.generate(temperature = 1.0)
		display(generated_images, save_to = "./output/generated_img_%03d.png" % (epoch) s)

img_generator_callback = ImageGenerator(num_img=10)

在图5-15中，我们可以看到多个原始训练集中的图像，以及PixelCNN生成的图像。

该模型在重新创造原始图像的整体形状和风格时表现很好。令人相当惊喜的一个点在于，我们可以把图像看做一系列的tokens (像素值)，并使用自回归模型(如PixelCNN)来生成真实感样例。

如之前提到，自回归模型的一大缺陷是采样巨慢，这也是为什么在本书中我们只给了一个简单展示的原因。然而，我们将在第十章中看到更复杂的自回归模型也可以应用于图像以生成SOTA结果。在这些例子中，慢的生成速度是获取优质输出的必要代价。

自从原始论文发表以后，PixelCNN的架构和训练过程上提出了各种各样的改进。下一章节介绍了其中的一个改变 — 使用混合分布 — 并展示了如何使用TensorFlow内置函数利用这一改进来训练 PixelCNN。

混合分布

对于我们之前的样例，我们把PixelCNN的输出降低到4个像素层级，以此确保网络无需学习一个256独立像素值的分布，这将减慢训练过程。然而，距离理想情况还远着 — 对于彩色图像，我们不希望画布局限于有限的颜色。

为客服这一问题，我们可以让网络的输出是一个混合分布，而非256个像素值上softmax，这一思想最早由 Salimans 等提出来。混合分布是由两个或更多其他密度分布的简单混合。例如，我们可以有一个由5个logistic分布组成的混合分布，每个logistic分布都有独立参数。混合分布要求离散类别分布以表示选取混何种每个分布的概率。一个例子如图5-16所示。

要从混合分布中采样，我们首先从类别分布中采样，以选取特定的子分布，然后从该子分布中按照惯常的方式采样。通过这种方式，我们可以使用相对较少的参数创造复杂的分布。例如，图5-16的混合分布只需要8个参数 — 两个作为类目分布，以及三个正态分布对应的均值和方差参数。这是与255个参数对比的，它定义了整个像素范围的类目分布。

为方便起见，TensorFlow概率库提供了一个函数使得我们可以用一行代码来构建带混合分布输出的PixelCNN。样例5-16展示了如何使用这个函数来构建PixelCNN。

运行本示例代码
本示例代码可以通过Jupyter Notebook在本书附带代码库的下列路径打开: “notebooks/05_autoregressive/03_pixelcnn_md/pixelcnn_md.ipynb”

#样例 5-16 使用TensorFlow函数构建PixelCNN

import tensorflow_probability as tfp

# 将PixelCNN定义为一个分布 --- 也即，输出层是一个由5个logistic分布组成的混合分布
dist = tfp.distributions.PixelCNN(
	image_shape = (32, 32, 1),
	num_resnet = 1,
	num_hierachies = 2,
	num_filters = 32,
	num_logistic_mix = 5,
	dropout_p = .3,
)
# 输入是 32x32x1 的灰度图像
image_input = layers.Input(shape=(32,32,1))
log_prob = dist.log_prob(image_input)

# Model接收 灰度图像作为输入，基于PixelCNN计算的混合分布输出图像的log-likelyhood
model = models.Model(inputs = image_input, outputs = log_prob)
# 损失函数是一个batch的输入图像内计算的 负的平均log-Likelihood
model.add_loss(-tf.reduce_mean(log_prob))

模型的训练方式如过往类似，但这次接受[0,255]范围内的像素值作为输入。输出可以使用Sample 函数从分布中生成，如下样例5-17所示。

dist.sample(10).numpy()

生成的样例图像如下图5-17所示。和我们之前例子的差别在于，所有的像素值范围都利用了。

本章小结

在本章中，我们已经看到自回归模型，如RNN，可以被用于模拟特定写作风格生成文本序列。另外，我们也看到了PixelCNN如何按照逐个像素序列的方式生成图像。

我们探索了两个不同循环层 — LSTM 以及 GRU — 并且看到这些cells是如何堆叠或者双向来构成复杂的网络结构。我们利用Keras构建了一个LSTM来生成真实感菜单，并且看到了如何操纵采样过程中的温度参数来增加或减少输出的随机性。

我们也看到了使用PixelCNN时，图像是如何以自回归的方式生成。我们利用Keras从零开始构建了一个PixelCNN，涉及了掩码卷积层和残差blocks 来允许信息在网络中流通使得只有前序像素可以用于当前像素的生成。最后，我们讨论了TensorFlow概率库如何提供了独立的，实现了混合分布作为输出层的PixelCNN函数，这允许我们进一步改进学习过程。

在下一章中，我们将探索另一种生成式建模家族，它显式建模了数据生成分布 — normalizing flow models.

你可能感兴趣的:(深度学习,回归,人工智能,AIGC)

笔记本电脑外接固态移动硬盘可以用于深度学习吗 Vertira pytorch 电脑深度学习智能电视
笔记本电脑外接固态移动硬盘可以用于深度学习‌。虽然外接固态移动硬盘的传输速度和内置固态硬盘相比有一定差距，但在现代技术下，外接固态移动硬盘的传输速度已经非常快，能够满足深度学习的需求。例如，USB3.2Gen2×2PSSD的传输速度可以达到2000MB/s，这对于深度学习来说已经足够‌12。具体应用场景和性能表现‌传输速度‌：现代外接固态移动硬盘，如USB3.2Gen2×2PSSD，传输速度可以达
使用OpenAI API实现自然语言处理应用 shuoac 自然语言处理人工智能 python
使用OpenAIAPI实现自然语言处理应用技术背景介绍随着人工智能技术的不断发展，自然语言处理（NLP）在各种应用中的地位越来越重要。从自动文本生成、聊天机器人到智能搜索引擎，NLP技术的应用场景非常广泛。而OpenAI提供的API使得开发者可以轻松地将先进的NLP模型集成到他们的应用中。核心原理解析OpenAI的API基于强大的GPT（GenerativePre-trainedTransform
长文本生成的“中间迷途”：当AI在信息洪流中迷失与觉醒步子哥 AGI通用人工智能人工智能
长文本生成的困境：当AI在信息洪流中迷失在人工智能领域，大型语言模型（LLM）如同拥有无限记忆的超级读者，能轻松消化整座图书馆的藏书。但当被要求撰写万字论文时，这些"博学者"往往只能产出不足两千字的短文——这就像让美食家品尝满汉全席后，只能复述前菜和甜点的味道。更令人困扰的是，当输入文本超过8000词时，模型会像在图书馆迷路的读者，对"中间书架"的内容视而不见，这种现象被形象地称为"中间丢失"（L
人工智能学习星月IWJ 人工智能机器学习深度学习神经网络目标检测人工智能
//-----初探-----//人工智能三大核心要素数据/算法/算力人工智能是通过机器来模拟人类认知能力的技术机器学习/神经网络/深度学习(多层隐藏层神经网络)tf1.14python3.5keras2.1.5//-----数学基础&&数字图像-----//向量大小/方向矢量(有大小和方向)标量(只有大小没有方向(长度))单位向量线性变换(矩阵运算)T(v+w)=T(v)+T(w)T(cv)=cT
深度学习复习笔记（6）线性回归——新冠预测项目 Kriol 深度学习初学深度学习笔记线性回归
importmatplotlib.pyplotaspltimporttorch#框架importnumpyasnp#矩阵处理importcsv#读excel文件fromtorch.utils.dataimportDataLoader,Dataset#两个与数据处理相关的包，类Datasetimporttorch.nnasnn#类nn.Module需要用，损失函数需要用fromtorchimport
向量空间与范数 Shockang 机器学习数学通关指南人工智能机器学习数学线性代数
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》ima知识库知识库广场搜索：知识库创建人机器学习@Shockang机器学习数学基础@Shockang深度学习@Shockang正文一、向量空间：机器学习的舞台1.1定义与核心要素️向量空间是机器学习的数学基础，它提供了描述和处理高
互信息详解 Shockang 机器学习数学通关指南机器学习人工智能数学信息论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》ima知识库知识库广场搜索：知识库创建人机器学习@Shockang机器学习数学基础@Shockang深度学习@Shockang正文互信息：变量间关联性的量化利器互信息(MutualInformation)是信息论中的核心概念，也是
《自然语言处理实战入门》深度学习 ---- 预训练模型初探 shiter AI重制版】预训练 NLP 自然语言处理
文章大纲前言预训练模型简介语言表示学习神经上下文编码器为何需要预训练模型发展历史主流预训练模型预训练模型与分类将PTMs应用至下游任务微调策略未来研究方向参考文献前言随着深度学习的发展，各种神经网络被广泛用于解决自然语言处理(NLP)任务，如卷积神经网络(convolutionalneuralnetworks,CNNs)、递归神经网络(neuralnetworks,RNNs)、基于图的神经网络(g
【AI深度学习网络】Transformer时代，RNN（循环神经网络）为何仍是时序建模的“秘密武器”？ arbboter 人工智能 rnn 人工智能深度学习循环神经网络记忆序列数据循环连接
引言：什么是循环神经网络（RNN）？循环神经网络（RecurrentNeuralNetwork,RNN）是一种专门处理序列数据（如文本、语音、时间序列）的深度学习模型。与传统神经网络不同，RNN具有“记忆”能力，能够通过内部状态（隐藏状态）保留历史信息，从而捕捉序列中的时间依赖关系。在自然语言处理、语音识别、时间序列预测等领域，数据本质上是序列化的——即当前数据点与前后数据点存在依赖关系。传统的前
DeepSeek发展背景和前景爱吃苹果的日记本人工智能
1.成立背景：它的背景是由杭州深度求索人工智能基础技术研究有限公司开发，该公司成立于2023年7月17日，由量化资管巨头幻方量化创立。幻方量化在AI量化对冲基金领域具有深厚的技术积累和资金支持，这为DeepSeek的研发奠定了坚实的基础。2.技术演进：2024年1月：发布首个大模型DeepSeekLLM，包含670亿参数，在2万亿token的数据集上训练，性能超越Llama270BBase。202
《高效迁移学习：Keras与EfficientNet花卉分类项目全解析》机器学习司猫白深度学习迁移学习 keras 分类 tensorflow efficientnet 性能优化
从零到精通的迁移学习实战指南：以Keras和EfficientNet为例一、为什么我们需要迁移学习？1.1人类的学习智慧想象一下：如果一个已经会弹钢琴的人学习吉他，会比完全不懂音乐的人快得多。因为TA已经掌握了乐理知识、节奏感和手指灵活性，这些都可以迁移到新乐器的学习中。这正是迁移学习（TransferLearning）的核心思想——将已掌握的知识迁移到新任务中。1.2深度学习的困境与破局传统深度
多模态大模型：技术原理与实战模型压缩实战 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战模型压缩实战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：多模态大模型，技术原理，模型压缩，实战，TensorFlow，PyTorch，模型压缩方法，应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型在图像识别、语音识别、自然语言处理等领域的应用越来越广泛。然而，多模态大模型通常具有庞大
无人机动态追踪技术难点与距离分析！云卓SKYDROID 无人机人工智能云卓科技智能跟踪吊舱
一、技术难点概述目标识别与跟踪算法的鲁棒性复杂场景适应性**：在动态背景（如人群、森林）或光照变化（逆光、夜间）下，算法需精准区分目标与干扰物。传统计算机视觉方法（如光流法、卡尔曼滤波）易受干扰，需结合深度学习（如YOLO、SiamRPN++）提升抗干扰能力。多目标跟踪与遮挡处理**：目标被遮挡或短暂消失时，需通过轨迹预测或特征匹配恢复跟踪，对算法的记忆能力和实时性要求极高。实时性要求**：算法需
第20周：Pytorch文本分类入门 weixin_46620278 pytorch 分类人工智能
目录前言一、前期准备1.1环境安装导入包1.2加载数据1.3构建词典1.4生成数据批次和迭代器二、准备模型2.1定义模型2.2定义示例2.3定义训练函数与评估函数三、训练模型3.1拆分数据集并运行模型3.2使用测试数据集评估模型总结前言本文为[365天深度学习训练营]中的学习记录博客原作者：[K同学啊]说在前面本周任务：了解文本分类的基本流程、学习常用数据清洗方法、学习如何使用jieba实现英文分
第N2周：构建词典 OreoCC NLP
本人往期文章可查阅：深度学习总结我的环境：语言环境：Python3.11编译器：PyCharm深度学习环境：Pytorchtorch==2.0.0+cu118torchvision==0.18.1+cu118显卡：NVIDIAGeForceGTX1660本周任务：使用N1周的.txt文件构建词典，停用词请自定义1.导入数据fromtorchtext.vocabimportbuild_vocab_f
第N3周：NLP中的数据集构建 OreoCC 自然语言处理深度学习 pytorch
本人往期文章可查阅：深度学习总结对于初学者，NLP中最烦人的问题之一就是数据集的构建问题，处理不好就会引起shape问题（各种由于shape错乱导致的问题）。这里我给出一个模板，大家可根据这个模板来构建。torch.utils.data是PyTorch中用于数据加载和预处理的模块。其中包括Dataset和DataLoader两个类，它们通常结合使用来加载和处理数据。1.Datasettorch.u
Pytorch 张量的scatter_add_方法介绍 qq_27390023 pytorch 人工智能 python
torch.Tensor.scatter_add_是PyTorch中的一个原地操作（in-placeoperation），用于将一个源张量（src）中的值根据指定的索引（index）累加到目标张量（self）中。它常用于分布式计算、加权聚合以及自定义深度学习层等场景。函数签名Tensor.scatter_add_(dim,index,src)→Tensor参数说明dim(int)：指定沿着哪个维度
NLP新手入门-第N1周：Pytorch文本分类入门 Oaix Nay 365天深度学习训练记录 pytorch 自然语言处理分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊|接辅导、项目定制目录一、课题背景和开发环境二、环境安装三、文本分类1.加载数据2.构建词典3.生成数据批次和迭代器4.定义模型5.定义实例6.定义训练函数与评估函数7.拆分数据集并运行模型8.使用测试数据集评估模型一、课题背景和开发环境第N1周：Pytorch文本分类入门Python3.8.12pytorch==1.8.1+cu111t
基于PyTorch的深度学习5—神经网络工具箱 Wis4e 深度学习 pytorch 神经网络
nn.Module是nn的一个核心数据结构，它可以是神经网络的某个层(Layer)，也可以是包含多层的神经网络。在实际使用中，最常见的做法是继承nn.Module，生成自己的网络/层。nn中已实现了绝大多数层，包括全连接层、损失层、激活层、卷积层、循环层等，这些层都是nn.Module的子类，能够自动检测到自己的Parameter，并将其作为学习参数，且针对GPU运行进行了cuDNN优化。nn中的
基于Pytorch深度学习——Softmax回归 EchoToMe 深度学习 pytorch 回归 python
本文章来源于对李沐动手深度学习代码以及原理的理解，并且由于李沐老师的代码能力很强，以及视频中讲解代码的部分较少，所以这里将代码进行尽量逐行详细解释并且由于pytorch的语法有些小伙伴可能并不熟悉，所以我们会采用逐行解释+小实验的方式来给大家解释代码大家都知道二分类问题我们在机器学习里面使用到的是逻辑回归这个算法，但是针对于多分类问题，我们常用的是Softmax技术，大家不要被这个名字给迷惑了，s
Python 在深度学习中的应用 2501_90435375 人工智能 python 深度学习开发语言
深度学习是机器学习的一个分支，它通过构建和训练深层神经网络来实现对数据的学习和理解。Python作为一种简洁、易读、功能强大的编程语言，在深度学习领域得到了广泛的应用。本文将详细介绍Python在深度学习中的应用，包括深度学习的基础概念、Python深度学习库和框架、实际案例。二、深度学习的基础概念1.神经网络神经网络是深度学习的基础，它由多个神经元组成，每个神经元接收输入信号，进行加权求和，并通
[Pytorch报错问题解决]AttributeError: ‘nn.Sequential‘ object has no attribute ‘append‘ Bartender_Jill 编程报错解决 pytorch 人工智能 python
问题运行深度学习代码的时候遇到了以下报错问题：Traceback(mostrecentcalllast):File"/home/anaconda3/envs/Text2HOI/lib/python3.9/site-packages/torch/autograd/grad_mode.py",line28,indecorate_contextreturnfunc(*args,**kwargs)File
Python 快速入门指南 2501_90435375 Python python 开发语言
Python入门指南1.Python是什么Python是一种高级编程语言，具有简单易学、代码可读性强、功能强大、语法优雅等特点。它被广泛应用于Web开发、数据分析、人工智能、自动化脚本、游戏开发等领域。2.Python的特点简单易学Python的语法设计简洁明了，代码可读性强，易于学习和理解。例如，print("Hello,World!")就能输出“Hello,World!”，无需复杂的环境配置或
基于PyTorch的深度学习——机器学习1 Wis4e 深度学习机器学习 pytorch
监督学习是最常见的一种机器学习类型，其任务的特点就是给定学习目标，这个学习目标又称标签、标注或实际值等，整个学习过程就是围绕如何使预测与目标更接近而来的。近些年，随着深度学习的发展，分类除传统的二分类、多分类、多标签分类之外，也出现了一些新内容，如目标检测、目标识别、图像分割等监督学习的重要内容半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，同时由部分使用标记
考研复习之记忆方法 herosunly 考名校研究生经验分享考研
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
探索未来：FacebookResearch的JEPa项目详解瞿旺晟
探索未来：FacebookResearch的JEPa项目详解去发现同类优质开源项目:https://gitcode.com/项目简介是FacebookResearch推出的一个开源项目，全称为"JointEmbeddingofProgramsandAttributes"。它是一个用于程序理解和属性预测的深度学习框架，旨在提升代码的理解和自动化程度，为开发者提供更智能的编程辅助工具。技术分析**1.
人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理 FriendshipT 人工智能混合编程实践人工智能 c++python YOLO ONNX 目标检测
人工智能混合编程实践：C++调用PythonONNX进行YOLOv8推理前言相关介绍Python简介C++简介ONNX简介YOLOv8简介前提条件实验环境项目结构C++调用PythonONNX进行YOLOv8推理C++调用Python的相关dll代码framework.hpch.hcxx_pythonModule.hdllmain.cpppch.cppcxx_pythonModule.cppC++
H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><