LLM背景知识总结

vocab 和 merge table

在自然语言处理中,Token 是指一段文本中的基本单位,通常是一个词、一个词组或者一个字符。Tokenization 是将一段文本分解为一系列的 Token 的过程。

vocab 文件和 merge table 可以用来将原始文本分割成一系列的 token

1,Vocab 文件,全称为 vocabulary file,是指包含了所有可能出现在文本中的 token 列表。在 LLM 中,每个 token 对应着一个编号(或者叫做词汇表中的索引),以便在模型中表示为对应的向量。Vocab 文件中的每个token 一般都是由一个或多个字符组成的,通常会包括汉字、英文单词、标点符号等。以下是一个示例vocab文件的部分内容:

csharpCopy code
[PAD]
[UNK]
[CLS]
[SEP]
[MASK

你可能感兴趣的:(transformer模型,算法,自然语言处理,embedding层,Token,ID,序列)