Sonhhxg_柒

【Pytorch with fastai】第 10 章：NLP 深入探讨 RNN

大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流

个人主页－Sonhhxg_柒的博客_CSDN博客

欢迎各位→点赞 + 收藏⭐️ + 留言

系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟

文章目录

文本预处理

Tokenization

使用 fastai 进行词标记化

子词分词

用 fasti 进行数值化

将我们的文本放入语言模型的批次中

训练文本分类器

使用 DataBlock 的语言模型

微调语言模型

保存和加载模型

文本生成

创建分类器数据加载器

微调分类器

虚假信息和语言模型

结论

在第 1 章中，我们看到深度学习可用于在自然语言数据集上获得很好的结果。我们的示例依赖于使用预训练语言模型并对其进行微调以对评论进行分类。该示例突出了 NLP 中的迁移学习与计算机视觉之间的区别：通常，在 NLP 中，预训练模型是针对不同的任务进行训练的。

我们所说的语言模型是一种经过训练可以猜测的模型文本中的下一个单词（已经阅读过之前的单词）。这种任务被称为自监督学习：我们不需要给我们的模型贴上标签，只需要给它提供很多很多的文本。它有一个自动从数据中获取标签的过程，这个任务并不简单：要正确猜测句子中的下一个单词，模型必须理解英语（或其他）语言。自我监督学习也可以用于其他领域；例如，见 “自我监督学习和计算机视觉”，介绍视觉应用。自监督学习通常不用于以下模型直接训练，而是用于预训练用于迁移学习的模型。

自监督学习

使用嵌入在独立模型中的标签训练模型变量，而不是需要外部标签。例如，训练一个模型来预测文本中的下一个单词。

我们在第 1 章中用于对 IMDb 进行分类的语言模型评论是在维基百科上预训练的。通过直接将这种语言模型微调到电影评论分类器，我们获得了很好的结果，但通过一个额外的步骤，我们可以做得更好。维基百科英语与 IMDb 英语略有不同，因此我们可以将预训练语言模型微调到 IMDb 语料库，然后将其用作分类器的基础，而不是直接跳转到分类器。

即使我们的语言模型知道我们在任务中使用的语言的基础知识（例如，我们的预训练模型是英语），它也有助于适应我们所针对的语料库的风格。可能更多非正式语言，或更专业的语言，需要学习新单词或不同的造句方式。在 IMDb 数据集的情况下，会有很多电影导演和演员的名字，并且通常没有维基百科中看到的那么正式的语言风格。

我们已经看到，使用 fastai，我们可以下载一个预训练的英语语言模型，并用它来获得 NLP 的最先进结果分类。（我们希望更多语言的预训练模型很快可用；事实上，在您阅读本书时它们很可能已经可用。）那么，我们为什么要详细学习如何训练语言模型？

当然，原因之一是了解您正在使用的模型的基础很有帮助。但是还有另一个非常实际的原因，那就是如果在微调分类模型之前微调（基于序列的）语言模型，您会得到更好的结果。例如，对于 IMDb 情绪分析任务，数据集包括 50,000 条额外的电影评论，这些评论没有附加任何正面或负面标签。由于训练集中有 25,000 条带标签的评论，验证集中有 25,000 条，因此总共有 100,000 条电影评论。我们可以使用所有这些评论来微调仅在维基百科文章上训练的预训练语言模型；这将产生一个特别擅长预测电影评论的下一个词的语言模型。

这被称为通用语言模型微调 (ULMFiT) 方法。介绍它的论文表明，这在将学习迁移到分类任务之前，对语言模型进行微调的额外阶段会产生更好的预测。使用这种方法，我们将 NLP 中的迁移学习分为三个阶段，如图 10-1 所示。

图 10-1。ULMFiT 过程

现在，我们将使用前两章中介绍的概念，探索如何将神经网络应用于此语言建模问题。但在进一步阅读之前，停下来想想你将如何处理这个问题。

文本预处理

我们将如何使用它一点也不明显到目前为止我们所学到的建立语言模型的知识。句子可以有不同的长度，文档可以很长。那么我们如何使用神经网络预测句子的下一个单词呢？让我们找出答案！

我们已经了解了如何将分类变量用作神经网络的自变量。这是我们对单个分类变量采用的方法：

列出该分类变量的所有可能级别（我们将此列表称为vocab）。
用词汇表中的索引替换每个级别。
为此创建一个嵌入矩阵，每个级别包含一行（即，词汇表的每个项目）。
使用此嵌入矩阵作为神经网络的第一层。（专用嵌入矩阵可以将步骤 2 中创建的原始词汇索引作为输入；这等同于将表示索引的单热编码向量作为输入的矩阵，但速度更快，效率更高。）

我们可以对文本做几乎相同的事情！新的是序列的概念。首先，我们将数据集中的所有文档连接成一个很大的长字符串，并将其拆分为单词（或标记），从而得到一个非常长的单词列表。我们的自变量将是从我们非常长的列表中的第一个单词开始到倒数第二个单词结束的单词序列，而我们的因变量将是从第二个单词开始到最后一个单词结束的单词序列。

我们的词汇表将由预训练模型词汇表中已有的常用词和语料库特有的新词（例如电影术语或演员姓名）组成。我们的嵌入矩阵将相应地构建：对于我们预训练模型的词汇表中的单词，我们将在预训练模型的嵌入矩阵中取相应的行；但是对于新词，我们什么都没有，所以我们只用一个随机向量初始化相应的行。

创建语言模型所需的每个步骤都有来自自然语言处理领域的行话，以及可提供帮助的 fastai 和 PyTorch 类。步骤如下：

Tokenization

将文本转换为单词列表（或字符或子字符串，具体取决于模型的粒度）。

数值化

列出所有出现的唯一单词（词汇表），并通过在词汇表中查找其索引将每个单词转换为数字。

语言模型数据加载器创建

fastai 提供了一个LMDataLoader类，它自动处理创建一个从自变量偏移一个标记的因变量。它还处理一些重要的细节，例如如何以因变量和自变量按要求保持其结构的方式对训练数据进行洗牌。

语言模型创建

我们需要一种特殊的模型来完成我们以前从未见过的事情：处理可以任意大或小的输入列表。有很多方法可以做到这一点；在本章中，我们将使用递归神经网络(RNN)。我们将在第 12 章详细介绍 RNN ，但现在，您可以将其视为另一个深度神经网络。

让我们详细了解每个步骤的工作原理。

Tokenization

当我们说“将文本转换为单词列表”时，我们遗漏了很多细节。例如，我们如何处理标点符号？我们如何处理用“不要”这样的词？是一两个字吗？长的医学或化学词呢？是否应该将它们拆分成各自独立的意义片段？带连字符的单词怎么样？像德语和波兰语这样的语言呢，它们可以从很多很多的片段中创造出非常长的单词？像日语和汉语这样根本不使用词基，也没有真正明确定义单词概念的语言呢？

因为这些问题没有一个正确答案，所以没有一种方法可以进行标记化。主要有以下三种方法：

基于单词

在空格上拆分句子，以及应用特定语言的规则来尝试分隔含义的各个部分，即使没有空格（例如将“不要”变成“不要”）。通常，标点符号也被拆分成单独的标记。

基于子词

根据最常出现的子字符串将单词拆分成更小的部分。例如，“场合”可能被标记为“场合”。

基于字符

将一个句子拆分成各个字符。

我们将在这里查看单词和子词标记化，我们将把基于字符的标记化留给您在本章末尾的调查问卷中实施。

Token

标记化过程创建的列表的一个元素。它可以是一个词、一个词的一部分（子词）或单个字符。

使用 fastai 进行词标记化

fastai 没有提供自己的分词器，而是提供了一个与外部库中一系列分词器的一致接口。标记化是一个活跃的研究领域，新的和改进的标记器一直在出现，所以 fastai 使用的默认值也在变化。但是，API 和选项不应更改太多，因为即使底层技术发生变化，fastai 也会尝试保持一致的 API。

让我们用我们在第 1 章中使用的 IMDb 数据集来尝试一下：

from fastai.text.all import *
path = untar_data(URLs.IMDB)

我们需要获取文本文件以试用分词器。就像get_image_files（我们已经用过很多次）一样，获取一个路径中的所有图像文件，get_text_files 获取一个路径中的所有文本文件。我们还可以选择传递 folders 以将搜索限制在特定的子文件夹列表中：

files = get_text_files(path, folders = ['train', 'test', 'unsup'])

这是我们将标记化的评论（我们将在此处打印它的开头以节省空间）：

txt = files[0].open().read(); txt[:75]

'This movie, which I just discovered at the video store, has apparently sit '

在我们撰写本书时，fastai 的默认英文单词分词器使用了一个名为spaCy的库。它有一个复杂的规则引擎，具有针对 URL、个别特殊英语单词等的特殊规则。SpacyTokenizer然而，我们不会直接使用，而是使用WordTokenizer，因为这将始终指向 fastai 当前的默认单词分词器（可能不一定是 spaCy，具体取决于您阅读本文的时间）。

让我们试试看。我们将使用 fastai 的coll_repr(collection,n) 功能来显示结果。这将显示collection 的第一个项目以及完整尺寸——这是默认使用的L。请注意，fastai 的分词器采用一组文档进行分词，因此我们必须将其包装txt在一个列表中：

spacy = WordTokenizer()
toks = first(spacy([txt]))
print(coll_repr(toks, 30))

(#201) ['This','movie',',','which','I','just','discovered','at','the','video','s
 > tore',',','has','apparently','sit','around','for','a','couple','of','years','
 > without','a','distributor','.','It',"'s",'easy','to','see'...]

如您所见，spaCy 主要只是分离出了单词和标点符号。但它在这里也做了其他事情：它将“it's”拆分为“it”和“'s”。这是直觉上的道理；这些是单独的词，真的。当您考虑必须处理的所有小细节时，令牌化是一项非常微妙的任务。幸运的是，spaCy 为我们很好地处理了这些——例如，在这里我们看到了“.”。当它终止一个句子时被分开，但不是首字母缩写词或数字：

first(spacy(['The U.S. dollar $1 is $1.00.']))

(#9) ['The','US','dollar','$','1','is','$','1.00','.']

fastai 然后使用Tokenizer类向标记化过程添加一些额外的功能：

tkn = Tokenizer(spacy)
print(coll_repr(tkn(txt), 31))

(#228) ['xxbos','xxmaj','this','movie',',','which','i','just','discovered','at',
 > 'the','video','store',',','has','apparently','sit','around','for','a','couple
 > ','of','years','without','a','distributor','.','xxmaj','it',"'s",'easy'...]

请注意，现在有一些以字符“xx”开头的标记，这在英语中不是常见的单词前缀。这些是特殊标记。

例如，列表中的第一项xxbos是一个特殊标记，表示新文本的开始（“BOS”是标准的 NLP 首字母缩写词，意思是“流的开始”）。通过识别这个开始标记，模型将能够学习它需要“忘记”之前说过的话，并专注于即将到来的单词。

这些特殊标记并非直接来自 spaCy。它们在那里是因为 fastai 默认添加它们，通过在处理文本时应用许多规则。这些规则旨在使模型更容易识别句子的重要部分。从某种意义上说，我们正在将原始英语语言序列翻译成一种简化的标记化语言——一种旨在让模型易于学习的语言。

例如，规则将用一个特殊的重复字符标记替换一系列的四个感叹号，然后是数字四，然后是一个感叹号。通过这种方式，模型的嵌入矩阵可以编码有关一般概念的信息，例如重复的标点符号，而不是为每个标点符号的每个重复次数都需要一个单独的标记。类似地，大写单词将被替换为特殊的大写标记，然后是该单词的小写版本。这样，嵌入矩阵只需要单词的小写版本，节省了计算和内存资源，但仍然可以学习大写的概念。

以下是您将看到的一些主要特殊标记：

xxbos

指示文本的开头（此处为评论）

xxmaj

指示下一个单词以大写字母开头（因为我们将所有内容都小写了）

xxunk

表示这个词是未知的

要查看使用的规则，您可以检查默认规则：

defaults.text_proc_rules

[,
 ,
 ,
 ,
 ,
 ,
 ,
 ]

与往常一样，您可以通过键入以下内容在笔记本中查看它们每个的源代码：

??replace_rep

以下是每个功能的简要总结：

fix_html

用可读版本替换特殊的 HTML 字符（IMDb 评论中有很多）

replace_rep

将任何重复三次或更多次的字符替换为用于重复的特殊标记 ( xxrep)、重复次数，然后是字符

replace_wrep

将任何重复三次或更多次的单词替换为单词重复的特殊标记 ( xxwrep)、重复次数，然后是单词

spec_add_spaces

在 / 和 # 周围添加空格

rm_useless_spaces

删除所有重复的空格字符

replace_all_caps

将全部大写的单词小写，并xxup在其前面为所有大写添加一个特殊标记 ( )

replace_maj

xxmaj将大写单词小写并在其前面添加大写 ( ) 的特殊标记

lowercase

将所有文本小写并在开头 ( xxbos) 和/或结尾 ( xxeos)添加特殊标记

让我们看一下其中的几个：

coll_repr(tkn('©   Fast.ai www.fast.ai/INDEX'), 31)

"(#11) ['xxbos','©','xxmaj','fast.ai','xxrep','3','w','.fast.ai','/','xxup','ind
 > ex'...]"

现在让我们来看看子词标记化是如何工作的。

子词分词

除了上一节中看到的单词标记化方法之外，另一种流行的标记化方法是子词标记化。单词标记化依赖于空格提供有用的假设句子中意义成分的分离。然而，这个假设并不总是合适的。例如，考虑这句话：我的名字是霍杰瑞（“我的名字是 Jeremy Howard”的中文）。这对单词分词器来说效果不是很好，因为里面没有空格！像汉语和日语这样的语言不使用空格，事实上它们甚至没有一个明确定义的“词”概念。其他语言，如土耳其语和匈牙利语，可以在没有空格的情况下将许多子词加在一起，形成包含许多独立信息的非常长的词。

要处理这些情况，通常最好使用子词标记化。这分两步进行：

分析文档语料库以找到最常出现的字母组。这些成为词汇。
使用这个子词单元的词汇对语料库进行标记。

让我们看一个例子。对于我们的语料库，我们将使用前 2,000 条电影评论：

txts = L(o.open().read() for o in files[:2000])

我们实例化我们的分词器，传入我们想要创建的词汇的大小，然后我们需要“训练”它。也就是说，我们需要让它阅读我们的文档并找到常见的字符序列来创建词汇表。这是用setup. 正如我们很快就会看到的，setup是一种特殊的 fastai 方法，它会在我们通常的数据处理管道中自动调用。但是，由于我们目前是手动完成所有操作，因此我们必须自己调用它。下面是一个针对给定词汇量执行这些步骤并显示示例输出的函数：

def subword(sz):
    sp = SubwordTokenizer(vocab_sz=sz)
    sp.setup(txts)
    return ' '.join(first(sp([txt]))[:40])

让我们试试看：

subword(1000)

'▁This ▁movie , ▁which ▁I ▁just ▁dis c over ed ▁at ▁the ▁video ▁st or e , ▁has
 > ▁a p par ent ly ▁s it ▁around ▁for ▁a ▁couple ▁of ▁years ▁without ▁a ▁dis t
 > ri but or . ▁It'

使用 fastai 的子词分词器时，特殊字符 ▁表示原始文本中的空格字符。

如果我们使用更小的词汇表，每个标记将代表更少的字符，并且将需要更多的标记来表示一个句子：

subword(200)

'▁ T h i s ▁movie , ▁w h i ch ▁I ▁ j us t ▁ d i s c o ver ed ▁a t ▁the ▁ v id e
 > o ▁ st or e , ▁h a s'

另一方面，如果我们使用更大的词汇表，最常见的英语单词将最终出现在词汇表中，我们就不需要那么多来表示一个句子：

subword(10000)

"▁This ▁movie , ▁which ▁I ▁just ▁discover ed ▁at ▁the ▁video ▁store , ▁has
 > ▁apparently ▁sit ▁around ▁for ▁a ▁couple ▁of ▁years ▁without ▁a ▁distributor
 > . ▁It ' s ▁easy ▁to ▁see ▁why . ▁The ▁story ▁of ▁two ▁friends ▁living"

选择子词词汇量大小代表了一种妥协：更大的词汇量意味着每个句子更少的标记，这意味着更快的训练、更少的内存和更少的模型要记住的状态；但不利的一面是，这意味着更大的嵌入矩阵，需要更多的数据来学习。

总的来说，子词标记化提供了一种在字符标记化（即使用小的子词词汇）和单词标记化（即使用大的子词词汇）之间轻松缩放的方法，并且无需开发特定于语言的算法即可处理每种人类语言。它甚至可以处理其他“语言”，例如基因组序列或 MIDI 音乐符号！出于这个原因，在去年它的受欢迎程度飙升，它似乎有可能成为最常见的标记化方法（当你读到这篇文章时，它很可能已经是！）。

一旦我们的文本被分割成标记，我们需要将它们转换为数字。我们接下来看看。

用 fasti 进行数值化

数值化是将标记映射到整数的过程。这些步骤与创建变量所需的步骤基本相同 Category，例如 MNIST 中数字的因变量：

列出该分类变量（词汇）的所有可能级别。
用词汇表中的索引替换每个级别。

让我们看一下我们之前看到的单词标记化文本的实际效果：

toks = tkn(txt)
print(coll_repr(tkn(txt), 31))

(#228) ['xxbos','xxmaj','this','movie',',','which','i','just','discovered','at',
 > 'the','video','store',',','has','apparently','sit','around','for','a','couple
 > ','of','years','without','a','distributor','.','xxmaj','it',"'s",'easy'...]

与一样SubwordTokenizer，我们需要setup呼吁Numericalize; 这就是我们创建词汇的方式。这意味着我们首先需要我们的标记化语料库。由于标记化需要一段时间，因此由 fastai 并行完成；但对于本手动演练，我们将使用一小部分：

toks200 = txts[:200].map(tkn)
toks200[0]

(#228)
 > ['xxbos','xxmaj','this','movie',',','which','i','just','discovered','at'...]

我们可以将其传递给setup来创建我们的词汇表：

num = Numericalize()
num.setup(toks200)
coll_repr(num.vocab,20)

"(#2000) ['xxunk','xxpad','xxbos','xxeos','xxfld','xxrep','xxwrep','xxup','xxmaj
 > ','the','.',',','a','and','of','to','is','in','i','it'...] “

我们的特殊规则标记首先出现，然后每个单词按频率顺序出现一次。默认Numericalize为 min_freq=3和max_vocab=60000。max_vocab=60000导致 fastai 将除最常见的 60,000 之外的所有单词替换为特殊的 未知单词标记，xxunk。这对于避免拥有过大的嵌入矩阵很有用，因为这会减慢训练速度并占用过多内存，并且还可能意味着没有足够的数据来为稀有词训练有用的表示。但是，最后一个问题最好通过设置min_freq;来处理。默认值min_freq=3意味着任何出现次数少于 3 次的单词都将替换为xxunk.

fastai 还可以通过将单词列表作为vocab参数传递，使用您提供的词汇对您的数据集进行数值化。

一旦我们创建了我们的Numericalize对象，我们就可以像使用函数一样使用它：

nums = num(toks)[:20]; nums

tensor([  2,   8,  21,  28,  11,  90,  18,  59,   0,  45,   9, 351, 499,  11,
 > 72, 533, 584, 146,  29,  12])

这一次，我们的令牌已经转换为我们的模型可以接收的整数张量。我们可以检查它们是否映射回原始文本：

' '.join(num.vocab[o] for o in nums)

'xxbos xxmaj this movie , which i just xxunk at the video store , has apparently
 > sit around for a'

现在我们有了数字，我们需要将它们分批放入我们的模型中。

将我们的文本放入语言模型的批次中

在处理图像时，我们需要将它们全部调整为相同的大小高度和宽度，然后将它们组合成一个小批量，这样它们就可以在一个张量中有效地堆叠在一起。这里会有点不同，因为不能简单地将文本调整到所需的长度。此外，我们希望我们的语言模型按顺序阅读文本，以便它可以有效地预测下一个单词是什么。这意味着每个新批次都应该准确地从前一个批次停止的地方开始。

假设我们有以下文本：

在本章中，我们将回顾我们在第 1 章中研究过的电影评论分类示例，并深入挖掘。首先，我们将了解将文本转换为数字所需的处理步骤以及如何对其进行自定义。通过这样做，我们将有另一个在数据块 API 中使用的预处理器示例。

然后我们将研究如何构建语言模型并对其进行一段时间的训练。

标记化过程将添加特殊标记并处理标点符号以返回此文本：

xxbos xxmaj 在本章中，我们将回顾我们在第 1 章中研究过的电影评论分类示例，并深入挖掘。xxmaj 首先我们将了解将文本转换为数字所需的处理步骤以及如何对其进行自定义。xxmaj 通过这样做，我们将得到数据块 xxup api 中使用的预处理器的另一个示例。\n xxmaj 然后我们会研究我们如何构建语言模型并训练一段时间。

我们现在有 90 个标记，用空格分隔。假设我们想要一个 6 的批量大小。我们需要将此文本分成 6 个长度为 15 的连续部分：

【Pytorch with fastai】第 10 章：NLP 深入探讨 RNN_第2张图片

xxbos

xxmaj

this

chapter

will

back

over

the

example

classifying

movie

reviews

studied

chapter

and

dig

deeper

under

the

surface

xxmaj

first

will

look

the

processing

steps

necessary

convert

text

into

numbers

and

how

customize

xxmaj

doing

this

‘ll

have

another

example

the

preprocessor

used

the

data

block

xxup

api

xxmaj

then

will

study

how

build

language

model

and

train

for

while

在一个完美的世界中，我们可以将这一批提供给我们的模型。但这种方法无法扩展，因为在这个玩具示例之外，包含所有标记的单个批次不太可能适合我们的 GPU 内存（这里我们有 90 个标记，但所有 IMDb 评论加起来有几百万）。

因此，我们需要将这个数组更细地划分为固定序列长度的子数组。保持这些子阵列内部和跨这些子阵列的顺序很重要，因为我们将使用一个保持状态的模型，以便它在预测接下来发生的事情时记住之前读取的内容。

回到我们之前的例子，有 6 个批次，长度为 15，如果我们选择一个长度为 5 的序列，这意味着我们首先提供以下数组：

xxbos	xxmaj	in	this	chapter
movie	reviews	we	studied	in
first	we	will	look	at
how	to	customize	it	.
of	the	preprocessor	used	in
will	study	how	we	build

然后，这个：

,	we	will	go	back
chapter	1	and	dig	deeper
the	processing	steps	necessary	to
xxmaj	by	doing	this	,
the	data	block	xxup	api
a	language	model	and	train

最后：

over	the	example	of	classifying
under	the	surface	.	xxmaj
convert	text	into	numbers	and
we	‘ll	have	another	example
.	\n	xxmaj	then	we
it	for	a	while	.

回到我们的电影评论数据集，第一步是通过将单个文本连接在一起将它们转换为流。与图像一样，最好随机化输入的顺序，因此在每个纪元开始时，我们将打乱条目以创建一个新流（我们打乱文档的顺序，而不是其中单词的顺序，或者文本将不再有意义！）。

然后我们将这个流切割成一定数量的连续文本块（这是我们的批量大小）。例如，如果流有 50,000 个标记，我们将批量大小设置为 10，这将为我们提供 10 个 5,000 个标记的迷你流。重要的是我们保留标记的顺序（因此第一个迷你流从 1 到 5,000，然后从 5,001 到 10,000……），因为我们希望模型读取连续的文本行（如前例所示） ). 在预处理期间，在每个文本的开头添加一个xxbos标记，以便模型知道它何时在新条目开始时读取流。

因此，回顾一下，在每个时期，我们都会洗牌我们的文档集合并将它们连接成一个标记流。然后我们将该流切割成一批固定大小的连续迷你流。然后，我们的模型将按顺序读取迷你流，并且由于内部状态，无论我们选择的序列长度如何，它都会产生相同的激活。

当我们创建一个 LMDataLoader. 我们通过首先将我们的Numericalize 对象应用于标记化文本来做到这一点

nums200 = toks200.map(num)

然后将其传递给LMDataLoader：

dl = LMDataLoader(nums200)

让我们通过抓取第一批来确认这给出了预期的结果

x,y = first(dl)
x.shape,y.shape

(torch.Size([64, 72]), torch.Size([64, 72]))

然后查看自变量的第一行，它应该是第一个文本的开头：

' '.join(num.vocab[o] for o in x[0][:20])

'xxbos xxmaj this movie , which i just xxunk at the video store , has apparently
 > sit around for a'

因变量是相同的东西，但偏移了一个标记：

' '.join(num.vocab[o] for o in y[0][:20])

'xxmaj this movie , which i just xxunk at the video store , has apparently sit
 > around for a couple'

这结束了我们需要应用于我们的数据的所有预处理步骤。我们现在准备好训练我们的文本分类器。

训练文本分类器

正如我们在本章开头所见，训练一个使用迁移学习的最先进文本分类器：首先，我们需要将在维基百科上预训练的语言模型微调到 IMDb 评论语料库，然后我们可以使用该模型来训练分类器。

像往常一样，让我们从组装数据开始。

使用 DataBlock 的语言模型

fastai 在 TextBlock传递给时自动处理标记化和数字化DataBlock。所有的论点都可以传递给Tokenizer也 Numericalize可以传递给 TextBlock. 在下一章中，我们将讨论分别运行这些步骤的最简单方法，以简化调试，但您始终可以通过在数据子集上手动运行它们来进行调试，如前几节所示。并且不要忘记 DataBlock的 handysummary方法，它非常有用用于调试数据问题。

以下是我们如何TextBlock使用 fastai 的默认设置来创建语言模型：

get_imdb = partial(get_text_files, folders=['train', 'test', 'unsup'])

dls_lm = DataBlock(
    blocks=TextBlock.from_folder(path, is_lm=True),
    get_items=get_imdb, splitter=RandomSplitter(0.1)
).dataloaders(path, path=path, bs=128, seq_len=80)

与我们之前使用的类型不同的一件事 DataBlock是，我们不只是直接使用类（即，TextBlock(...)而是调用类方法。A 类方法是一种Python方法，顾名思义，属于类而不是对象。（如果您不熟悉类方法，请务必在线搜索有关类方法的更多信息，因为它们在许多 Python 库和应用程序中很常用；我们之前在本书中使用过几次，但现在还没有没有提醒他们注意。）TextBlock特别的原因是设置数值器的词汇表可能需要很长时间（我们必须阅读并标记每个文档以获得词汇表）。

为了尽可能高效，fastai 进行了一些优化：

它将标记化的文档保存在一个临时文件夹中，因此不必对它们进行多次标记化。
它并行运行多个标记化进程，以利用您计算机的 CPU。

我们需要告诉TextBlock如何访问文本，以便它可以进行初始预处理——这就是 from_folder它所做的。

show_batch然后以通常的方式工作：

dls_lm.show_batch(max_n=2)

	text	text_
0	xxbos xxmaj it ’s awesome ! xxmaj in xxmaj story xxmaj mode , your going from punk to pro . xxmaj you have to complete goals that involve skating , driving , and walking . xxmaj you create your own skater and give it a name , and you can make it look stupid or realistic . xxmaj you are with your friend xxmaj eric throughout the game until he betrays you and gets you kicked off of the skateboard	xxmaj it ’s awesome ! xxmaj in xxmaj story xxmaj mode , your going from punk to pro . xxmaj you have to complete goals that involve skating , driving , and walking . xxmaj you create your own skater and give it a name , and you can make it look stupid or realistic . xxmaj you are with your friend xxmaj eric throughout the game until he betrays you and gets you kicked off of the skateboard xxunk
1	what xxmaj i ‘ve read , xxmaj death xxmaj bed is based on an actual dream , xxmaj george xxmaj barry , the director , successfully transferred dream to film , only a genius could accomplish such a task . \n\n xxmaj old mansions make for good quality horror , as do portraits , not sure what to make of the killer bed with its killer yellow liquid , quite a bizarre dream , indeed . xxmaj also , this	xxmaj i ‘ve read , xxmaj death xxmaj bed is based on an actual dream , xxmaj george xxmaj barry , the director , successfully transferred dream to film , only a genius could accomplish such a task . \n\n xxmaj old mansions make for good quality horror , as do portraits , not sure what to make of the killer bed with its killer yellow liquid , quite a bizarre dream , indeed . xxmaj also , this is

现在我们的数据已准备就绪，我们可以微调预训练的语言模型。

微调语言模型

为了将整数词索引转换为可用于我们的神经网络的激活，我们将使用嵌入，就像我们对协同过滤和表格建模。然后我们将使用一种名为 AWD-LSTM （我们将在第 12 章向您展示如何从头开始编写这样的模型）。正如我们之前讨论的，预训练模型中的嵌入与为不在预训练词汇表中的单词添加的随机嵌入合并。这是在内部自动处理的 language_model_learner：

learn = language_model_learner(
    dls_lm, AWD_LSTM, drop_mult=0.3,
    metrics=[accuracy, Perplexity()]).to_fp16()

默认使用的损失函数是交叉熵损失，因为我们本质上有一个分类问题（不同的类别是我们词汇中的单词）。这里使用的困惑度度量在 NLP 中经常用于语言模型：它是损失的指数（即 torch.exp(cross_entropy)）。我们还包括准确性指标，以查看我们的模型在尝试预测下一个单词时正确的次数，因为交叉熵（正如我们所见）既难以解释又告诉我们更多关于模型的信心而不是其准确性。

让我们回到本章开头的流程图。第一个箭头已经为我们完成并在 fastai 中作为预训练模型提供，我们刚刚为第二阶段构建了DataLoaders和。Learner现在我们准备好微调我们的语言模型了！

【Pytorch with fastai】第 10 章：NLP 深入探讨 RNN_第3张图片

训练每个 epoch 需要相当长的时间，因此我们将在训练过程中保存中间模型结果。由于 fine_tune不为我们这样做，我们将使用fit_one_cycle. 就像cnn_learner,在使用预训练模型（这是默认设置）时language_model_learner 自动调用一样freeze，所以这将只训练嵌入（模型中唯一包含随机初始化权重的部分——即，嵌入我们 IMDb 词汇表中的单词，但不在预训练模型词汇中）：

learn.fit_one_cycle(1, 2e-2)

epoch	train_loss	vaild_loss	accuracy	perplexity	time
0	4.120048	3.912788	0.299565	50.038246	11:39

这个模型需要一段时间来训练，所以这是一个谈论保存中间结果的好机会。

保存和加载模型

您可以像这样轻松保存模型的状态：

learn.save('1epoch')

这将在learn.path/models/中创建一个名为1epoch.pth的文件。如果你想在创建你的模型后将你的模型加载到另一台机器上 Learner同样的方法，或者稍后恢复训练，你可以加载这个文件的内容，如下：

learn = learn.load('1epoch')

初始训练完成后，我们可以在解冻后继续微调模型：

learn.unfreeze()learn.fit_one_cycle(10, 2e-3)

epoch	train_loss	vaild_loss	accuracy	perplexity	time
0	3.893486	3.772820	0.317104	43.502548	12:37
1	3.820479	3.717197	0.323790	41.148880	12:30
2	3.735622	3.659760	0.330321	38.851997	12:09
3	3.677086	3.624794	0.333960	37.516987	12:12
4	3.636646	3.601300	0.337017	36.645859	12:05
5	3.553636	3.584241	0.339355	36.026001	12:04
6	3.507634	3.571892	0.341353	35.583862	12:08
7	3.444101	3.565988	0.342194	35.374371	12:08
8	3.398597	3.566283	0.342647	35.384815	12:11
9	3.375563	3.568166	0.342528	35.451500	12:05

完成此操作后，我们保存所有模型，除了最后一层将激活转换为选择词汇表中每个标记的概率。不包括最后一层的模型称为 编码器。我们可以保存它save_encoder：

learn.save_encoder('finetuned')

编码器

该模型不包括特定于任务的最后一层。当应用于视觉 CNN 时，这个术语与“身体”的含义大致相同，但“编码器”往往更多地用于 NLP 和生成模型。

这就完成了文本分类过程的第二阶段：微调语言模型。我们现在可以用它来微调分类器使用 IMDb 情感标签。然而，在我们继续微调分类器之前，让我们快速尝试一些不同的东西：使用我们的模型生成随机评论。

文本生成

因为我们的模型被训练来猜测句子的下一个词，所以我们可以用它来写新评论：

TEXT = "I liked this movie because"
N_WORDS = 40
N_SENTENCES = 2
preds = [learn.predict(TEXT, N_WORDS, temperature=0.75)
         for _ in range(N_SENTENCES)]

print("\n".join(preds))

i liked this movie because of its story and characters . The story line was very
 > strong , very good for a sci - fi film . The main character , Alucard , was
 > very well developed and brought the whole story
i liked this movie because i like the idea of the premise of the movie , the (
 > very ) convenient virus ( which , when you have to kill a few people , the "
 > evil " machine has to be used to protect

如您所见，我们添加了一些随机性（我们根据模型返回的概率随机选择一个词），因此我们不会两次获得完全相同的评论。我们的模型没有任何关于句子结构或语法规则的编程知识，但它显然已经学到了很多关于英语句子的知识：我们可以看到它正确地将大写字母 ( I转换为i因为我们的规则需要两个或更多字符认为一个词是大写的，所以看到它小写是正常的）并且使用一致的时态。总体评价乍一看有道理，只有仔细阅读才能发现有些地方不对劲。对于几个小时内训练好的模型来说还不错！

但我们的最终目标不是训练一个模型来生成评论，而是对它们进行分类……所以让我们使用这个模型来做到这一点。

创建分类器数据加载器

我们现在正在从语言模型微调转向分类器微调。回顾一下，语言模型预测文档的下一个单词，因此它不需要任何外部标签。然而，分类器预测外部标签——在 IMDb 的情况下，它是文档的情感。

这意味着我们DataBlock的 NLP 分类结构看起来非常熟悉。它与我们在处理过的许多图像分类数据集上看到的几乎相同：

dls_clas = DataBlock(
    blocks=(TextBlock.from_folder(path, vocab=dls_lm.vocab),CategoryBlock),
    get_y = parent_label,
    get_items=partial(get_text_files, folders=['train', 'test']),
    splitter=GrandparentSplitter(valid_name='test')
).dataloaders(path, path=path, bs=128, seq_len=72)

与图像分类一样，show_batch显示因变量（在本例中为情感）和每个自变量（电影评论文本）：

dls_clas.show_batch(max_n=3)

	text	category
0	xxbos i rate this movie with 3 skulls , only coz the girls knew how to scream , this could ‘ve been a better movie , if actors were better , the twins were xxup ok , i believed they were evil , but the eldest and youngest brother , they sucked really bad , it seemed like they were reading the scripts instead of acting them … . spoiler : if they ‘re vampire ’s why do they freeze the blood ? vampires ca n’t drink frozen blood , the sister in the movie says let ’s drink her while she is alive … .but then when they ‘re moving to another house , they take on a cooler they ‘re frozen blood . end of spoiler \n\n it was a huge waste of time , and that made me mad coz i read all the reviews of how	neg
1	xxbos i have read all of the xxmaj love xxmaj come xxmaj softly books . xxmaj knowing full well that movies can not use all aspects of the book , but generally they at least have the main point of the book . i was highly disappointed in this movie . xxmaj the only thing that they have in this movie that is in the book is that xxmaj missy ’s father comes to xxunk in the book both parents come ) . xxmaj that is all . xxmaj the story line was so twisted and far fetch and yes , sad , from the book , that i just could n’t enjoy it . xxmaj even if i did n’t read the book it was too sad . i do know that xxmaj pioneer life was rough , but the whole movie was a downer . xxmaj the rating	neg
2	xxbos xxmaj this , for lack of a better term , movie is lousy . xxmaj where do i start … … \n\n xxmaj cinemaphotography - xxmaj this was , perhaps , the worst xxmaj i ‘ve seen this year . xxmaj it looked like the camera was being tossed from camera man to camera man . xxmaj maybe they only had one camera . xxmaj it gives you the sensation of being a volleyball . \n\n xxmaj there are a bunch of scenes , haphazardly , thrown in with no continuity at all . xxmaj when they did the ' split screen ' , it was absurd . xxmaj everything was squished flat , it looked ridiculous . \n\n xxmaj the color tones were way off . xxmaj these people need to learn how to balance a camera . xxmaj this ' movie ' is poorly made , and	neg

查看DataBlock定义，每个部分都与我们之前构建的数据块相似，但有两个重要的例外：

TextBlock.from_folder不再有is_lm=True参数。
我们通过vocab我们为语言模型创建的微调。

我们通过vocab语言模型的原因是为了确保我们使用相同的令牌对应关系来索引。否则，我们在微调语言模型中学到的嵌入对这个模型没有任何意义，微调步骤也没有任何用处。

通过传递is_lm=False（或根本不传递is_lm，因为它默认为False），我们告诉TextBlock我们有常规标记数据，而不是使用下一个标记作为标签。然而，我们必须应对一个挑战，这与将多个文档整理成一个小批量有关。让我们看一个例子，尝试创建一个包含前 10 个文档的小批量。首先我们将它们数值化：

nums_samp = toks200[:10].map(num)

现在让我们看看这 10 条影评每条有多少个标记：

nums_samp.map(len)

(#10) [228,238,121,290,196,194,533,124,581,155]

请记住，PyTorchDataLoader需要将一批中的所有项目整理成单个张量，并且单个张量具有固定的形状（即，它在每个轴上都有特定的长度，并且所有项目必须一致）。这听起来应该很熟悉：我们在图像方面遇到了同样的问题。在那种情况下，我们使用裁剪、填充和/或压缩来使所有输入的大小相同。对文档进行裁剪可能不是一个好主意，因为我们似乎会删除一些关键信息（话虽如此，图像也存在同样的问题，我们在那里使用裁剪；NLP 的数据增强尚未得到很好的探索然而，所以也许实际上也有机会在 NLP 中使用裁剪！）。您不能真正“压缩”文档。这样就留下了填充！

我们将扩展最短的文本，使它们都具有相同的大小。为此，我们使用一个特殊的填充令牌，我们的模型将忽略该令牌。此外，为了避免内存问题和提高性能，我们将把大致相同长度的文本批处理在一起（对训练集进行一些混洗）。我们通过（近似地，对于训练集）在每个纪元之前按长度对文档进行排序来做到这一点。结果是整理成单个批次的文档往往具有相似的长度。我们不会将每批填充到相同的大小，而是使用每批中最大文档的大小作为目标大小。

调整图像大小

可以对图像做类似的事情，这对不规则大小的矩形图像特别有用，但在撰写本文时，还没有库对此提供良好的支持，也没有任何论文涵盖它。然而，我们计划很快将其添加到 fastai 中，因此请密切关注本书的网站；我们会在它运行良好后立即添加相关信息。

TextBlock使用with时，数据块 API 会自动为我们完成排序和填充is_lm=False。（对于语言模型数据，我们没有同样的问题，因为我们首先将所有文档连接在一起，然后将它们分成大小相等的部分。）

我们现在可以创建一个模型来对我们的文本进行分类：

learn = text_classifier_learner(dls_clas, AWD_LSTM, drop_mult=0.5,
                                metrics=accuracy).to_fp16()

训练分类器之前的最后一步是从我们微调的语言模型中加载编码器。我们使用load_encoder而不是 load因为我们只有可用于编码器的预训练权重；load如果加载了不完整的模型，默认情况下会引发异常：

learn = learn.load_encoder('finetuned')

微调分类器

最后一步是训练有区别的学习率和 逐渐解冻。在计算机视觉中，我们经常一次解冻所有模型，但对于 NLP 分类器，我们发现一次解冻几个层会产生真正的不同：

learn.fit_one_cycle(1, 2e-2)

epoch	train_loss	vaild_loss	accuracy	time
0	0.347427	0.184480	0.929320	00:33

在一个 epoch 中，我们得到了与第 1 章中训练相同的结果 ——还不错！我们可以传递-2给freeze_to 冻结除最后两个参数组之外的所有参数：

learn.freeze_to(-2)
learn.fit_one_cycle(1, slice(1e-2/(2.6**4),1e-2))

epoch	train_loss	vaild_loss	accuracy	time
0	0.247763	0.171683	0.934640	00:37

然后我们可以解冻更多并继续训练：

learn.freeze_to(-3)
learn.fit_one_cycle(1, slice(5e-3/(2.6**4),5e-3))

epoch	train_loss	vaild_loss	accuracy	time
0	0.193377	0.156696	0.941200	00:45

最后，整个模型！

learn.unfreeze()
learn.fit_one_cycle(2, slice(1e-3/(2.6**4),1e-3))

epoch	train_loss	vaild_loss	accuracy	time
0	0.172888	0.153770	0.943120	01:01
1	0.161492	0.155567	0.942640	00:57

我们达到了 94.3% 的准确率，这在短短三年内达到了最先进的表现前。通过对所有向后阅读的文本训练另一个模型并对这两个模型的预测进行平均，我们甚至可以达到 95.1% 的准确率，这是 ULMFiT 论文介绍的最新技术水平。仅在几个月前，通过微调一个更大的模型并使用昂贵的数据增强技术（将句子翻译成另一种语言并返回，使用另一种模型进行翻译），它才被打败。

使用预训练模型让我们构建一个非常强大的微调语言模型，可以生成虚假评论或帮助对它们进行分类。这是令人兴奋的事情，但最好记住这项技术也可以用于恶意目的。

虚假信息和语言模型

在广泛使用的深度学习语言模型出现之前，即使是基于规则的简单算法也可用于创建欺诈性账户并试图影响政策制定者。Jeff Kao，现在是 ProPublica 的计算记者分析了发送给美国联邦通信委员会 (FCC) 的关于 2017 年废除网络中立性提案的评论。在他的文章 “超过一百万支持废除网络中立的评论可能是伪造的”中，他报告了他如何发现一大群反对网络中立的评论，这些评论似乎是由某种疯狂的 Libs 风格的邮件合并产生的。在图 10-2中，Kao 对虚假评论进行了有用的颜色编码，以突出其公式化的性质。

图 10-2。FCC 在网络中立辩论期间收到的评论

Kao 估计“超过 2200 万条评论中只有不到 800,000 条……可以被认为是真正独特的”，并且“超过 99% 的真正独特的评论支持保持网络中立。”

鉴于自 2017 年以来语言建模取得的进步，现在几乎不可能捕捉到此类欺诈活动。您现在拥有了所有必要的工具来创建引人注目的语言模型——可以生成适合上下文的、可信的文本的东西。它不一定是完全准确或正确的，但它是合理的。想一想这项技术与我们近年来了解到的各种虚假宣传活动结合起来意味着什么。看一下图 10-3中显示的 Reddit 对话，其中一个语言模型基于 OpenAI 的 GPT-2 算法正在与自己对话，讨论美国政府是否应该削减国防开支。

【Pytorch with fastai】第 10 章：NLP 深入探讨 RNN_第5张图片

图 10-3。Reddit 上自言自语的算法

在这种情况下，解释说正在使用一种算法来生成对话。但想象一下，如果坏人决定在社交网络上发布这样的算法会发生什么——他们可以缓慢而谨慎地进行，让算法随着时间的推移逐渐培养追随者和信任度。让数以百万计的账户这样做并不需要太多资源。在这种情况下，我们可以很容易地想象到绝大多数在线讨论都来自机器人，而且没有人知道它正在发生。

我们已经开始看到使用机器学习的例子生成身份。例如，图 10-4显示了 Katie Jones 的 LinkedIn 个人资料。

图 10-4。凯蒂·琼斯的 LinkedIn 个人资料

凯蒂·琼斯在 LinkedIn 上与华盛顿主流智囊团的几名成员有联系。但她不存在。你看到的那张图片是由一个生成对抗网络自动生成的，而一个名叫凯蒂琼斯的人实际上并没有从战略与国际研究中心毕业。

许多人假设或希望算法会在这里为我们辩护——我们将开发可以自动识别自动生成内容的分类算法。然而，问题在于这将永远是一场军备竞赛，其中可以使用更好的分类（或鉴别器）算法来创建更好的生成算法。

结论

在本章中，我们探索了 fastai 库涵盖的最后一个开箱即用的应用程序：文本。我们看到了两种类型的模型：可以生成文本的语言模型，以及确定评论是正面还是负面的分类器。为了构建最先进的分类器，我们使用了预训练语言模型，将其微调到我们任务的语料库中，然后使用其主体（编码器）和新头部进行分类。

你可能感兴趣的:(使用,fastai,和,PyTorch的,DL,自然语言处理,pytorch,rnn)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

【Pytorch with fastai】第 10 章 ：NLP 深入探讨 RNN

foreword

文本预处理

Tokenization

使用 fastai 进行词标记化

子词分词

用 fasti 进行数值化

将我们的文本放入语言模型的批次中

训练文本分类器

使用 DataBlock 的语言模型

微调语言模型

保存和加载模型

文本生成

创建分类器数据加载器

微调分类器

虚假信息和语言模型

结论

你可能感兴趣的:(使用,fastai,和,PyTorch的,DL,自然语言处理,pytorch,rnn)

【Pytorch with fastai】第 10 章：NLP 深入探讨 RNN