from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
pt_model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
transformer 中tokenizer负责预处理文本, 首先会将文本分词(或比词更细的粒度subwords,标点符号…),将分词后的每个个体叫做tokens。然后会转化成一个一个id通过一个查询表(look-up table)
transformer中有三种主要的tokenizers :Byte-Pair Encoding (BPE), WordPiece, and SentencePiece
比如BertTokenizer
就是用的WordPiece
如果按照空格分词,会得到
可以看到标点符号黏在词的后面 “Transformers?” 还有“do.”
所以要将标点符号考虑进来,进行分词。
但是对于“Don’t” 这个词又没切好,最好将其切成["Do","n't"]
可以看到切词并不简单,要清楚的是每个模型都有其专属的tokenizer,分词规则。
与训练模型只有在使用相同分词规则的tokenizer时才会表现的好。
spaCy和Moses是两个主流的基于规则的分词器,使用这两个分词器进行分词的结果如下
可以看出,这里使用了空间和标点分词以及基于规则的分词。 空间和标点分词和基于规则的分词都是单词分词的示例,它们被宽松地定义为将句子拆分为单词。 虽然这是将文本分成较小块的最直观的方法,但是这种分词方法可能会导致应用在大量文本语料库时出现问题。 在这种情况下,空格和标点符号化通常会产生很大的词汇量。 例如,Transformer XL使用空间和标点符号化,因此词汇量为267,735!
如此大的词汇量迫使模型要有巨大的嵌入矩阵embedding matrix作为输入和输出层,这会增加内存和时间复杂度。 通常,转换器模型的词汇量很少会超过50,000,特别是如果仅使用一种语言进行预训练的话。
因此,如果简单的空格和标点符号的分词不能令人满意,为什么不简单地对英文字母进行分词? 尽管字母分词非常简单,并且将大大减少内存和时间的复杂性,但是它使模型学习有意义的输入表示变得更加困难。 例如。 学习字母“ t”的基于上下文的表示要比学习单词“ today”的基于上下文的表示要困难得多。 因此,字母分词通常会伴随性能下降。 因此,为了获得两全其美的效果,转换器模型在单词级和字母级分词之间使用了一种混合方式,称为subword tokenization
Subword tokenization算法基于以下原则:不应将常用词分解为较小的子词,而应将稀有词分解为有意义的子词。
例如“annoyingly”被认为是罕见词,应该将其分解为“annoying” 和“ly”,分开后的两个词,会比“annoyingly”更常见
Subword tokenization可以使模型有一个合理的词汇大小(reasonable vocabulary size )同时可以学到有意义的基于上下文的对词汇的表达(meaningful context-independent representations.)
另外,Subword tokenization 可以使得模型处理它之前没见过的词,通过将陌生词切分成已知的Subword
例如
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
tokenizer.tokenize("I have a new GPU!")
注意:会将GPU这个词切分成
["i", "have", "a", "new", "gp", "##u", "!"]
因为使用的是uncased model,uncased model的意思是,单词首字母都小写的模型,可以看到,前面的词都正常分词出来
但gpu
这个词并没有正常分词出来,而是分成了
##
的意思是后一个词应该跟前一个词黏在一起,且没有空格(用于解码和分词的逆转)
举另一个例子,用到XLNetTokenizer
from transformers import XLNetTokenizer
tokenizer = XLNetTokenizer.from_pretrained("xlnet-base-cased")
tokenizer.tokenize("Don't you love Transformers? We sure do.")
先不管下划线__的含义,之后会讲,先看Transformer这个罕见词,被分解成了
接下来看看不同的subword算法是如何操作的
Byte-Pair Encoding 先对训练数据集进行预切词,pre-tokenize,预切词可以是简单的根据空格切词,也可以是根据规则切词
在预切词后,一系列unique词就被切出来,以及这些词在训练数据集中的词频也能统计出来,接下来,BPE创建一个基础词汇表,该词汇表由一组出现在unique词中的所有符号组成,并学习合并规则merge rules以从基础词汇表的两个符号中形成一个新符号。这样做直到词汇表达到所需的词汇量(desired vocabulary size)为止。 请注意,所需词汇量是在训练标记器之前要定义的超参数。
举例:在预分词之后,得到如下词频
其中,基础字母有:
接着将单词拆分为基础字符
然后,BPE 计算每个可能的符号pair的频率,并选取最常发生的符号pair,例如,上面的例子中
字符h后面紧跟着u,出现了10+5=15次;然而最频繁的字符pair是 u后面紧跟着g,出现了10+5+5=20次
因此tokenizer学习到了融合规则merge rule:u后面紧跟着g。然后将“ug”作为词加入到字典中,变成如下
接着BPE计算频率第二高的字符pair,得出u后面紧跟着n的次数第二多,12+4=16,就将u和n融合得到“un”加入到字典中
接下来又学到h后面跟着ug的次数第三多,hug的次数是10+5=15,将其加入到字典中,
分词后结果如下:
假设BPE的训练就此停止,学习到的融合规则应用到新词,举例,对bug这个词,BPE会将其分词成"b"和"ug"
而对于mug这个词,BPE会对其分词为["
,因为字符m并没有出现在词典中,通常来说有很大训练集的情况下,m是肯定会存在在字典里的。BPE会对未曾见过的字符分配一个
,比如说emoji表情
就像之前所说的,字典的大小,是一个超参数,举例GPT算法中,字典大小是40478,因为它有着468个基础字符,并在有40000个融合字符后停止了训练。
包含所有可能的基本字符的基本词汇表可能非常大,例如 所有unicode字符都被视为基本字符,这会使得词汇表过于庞大。
为了让字典的大小变得合适,算法GPT-2,使用bytes字节作为基本字符,具体不细说了,GPT-2的字典大小在50257,有256个bytes字节作为token,5万merge字符
WordPiece是一种subword tokenization 算法,用于 BERT, DistilBERT, and Electra.跟BPE算法很像,
WordPiece首先将词汇表初始化为:在训练数据中出现的每个字符,然后逐步学习给定数量的合并规则。
与BPE相比,WordPiece不会选择最频繁的符号对,而是会选择一种将训练数据添加到词汇表中的可能性最大化的符号对。
具体来说,参考前面的示例,最大化训练数据的可能性的意思是找到符号对,在所有符号对中,符号对的概率除以其第一个符号的概率,然后乘以第二个符号的概率最大
举例,字符u跟着字符g,这两个字符会融合在一起的前提是P(ug)的概率,除以P(u),P(g)的概率,会比其他字符对的概率大。
直观地说,WordPiece 与 BPE 略有不同,因为它通过合并两个符号来评估其损失,以确保其价值。
与BPE或WordPiece相比,Unigram将其基本词汇表初始化为大量符号,并逐步修整每个符号以获得较小的词汇表。 基本词汇可以是所有预先分词后的单词和最常见的子字符串。 Unigram不能直接用于Transformer中的任何模型,但可以与SentencePiece结合使用。
在每个训练步骤中,Unigram算法在给定当前词汇表和unigram语言模型的情况下,在训练数据上定义了一个损失(通常定义为对数似然)。 然后,对于词汇表中的每个符号,该算法计算出如果要从词汇表中删除符号,则总体损失将增加多少。 然后,Unigram会删除损失增加最低的符号(即那些对训练数据影响最小的符号)的p%(p通常为10%或20%)。 重复此过程,直到词汇表达到所需大小为止。 Unigram算法始终保留基本字符,以便可以对任何单词进行标记。
由于Unigram不基于合并规则(与BPE和WordPiece相比),该算法具有几种在训练后标记新文本的方式。
到目前为止描述的所有分词算法都具有相同的问题:假定输入文本使用空格分隔单词。 但是,并非所有语言都使用空格来分隔单词。 一种可能的解决方案是使用针对特定语言的预分词器 pre-tokenizers,例如 XLM使用针对中文,日文和泰文的分词器。 为了更广泛地解决此问题,SentencePiece将输入视为原始输入流,因此在要使用的字符集中包含空格 。 然后,它使用BPE或unigram算法构造适当的词汇表。
XLNetTokenizer使用SentencePiece,就用下划线__代替空格
库中所有使用SentencePiece的transformer模型都将它与unigram结合使用。 使用SentencePiece的模型示例包括ALBERT,XLNet,Marian和T5。