[AI] 在 huggingface transformers新增自定义token

为什么要向词汇表添加token?

在大多数情况下,您不会从头开始训练一个大型语言模型,而是在新数据上微调现有模型。通常,新数据集和自然语言任务使用新的或不同的领域特定词汇。例如,法律或医疗文件。虽然目前模型一起使用的子词tokenizers能够处理基本上任意的token,但这并不是最优的。这些tokenizers一般是透过切分更小的sub token来处理未知的新词。这样可以处理文本,但以这种方式一些特殊涵义的词汇可能不够精准,而且整体token长度会变长,从而降低模型的效率。因此将新的领域特定令牌添加到tokenizers和模型中,可以更快地进行微调,并更好地捕获数据中的信息。

from transformers import AutoTokenizer, AutoModel

# 选择模型类型
model_type = "roberta-base"
tokenizer = AutoTokenizer.from_pretrained(model_type)
model = AutoModel.from_pretrained(model_type)

# 新令牌
new_tokens = ["new_token"]

# 检查令牌是否已在词汇表中
new_tokens = set(new_tokens) - set(tokenizer.vocab.keys())

# 将令牌添加到令牌器词汇表中
tokenizer.add_tokens(list(new_tokens))

# 为新令牌添加新的随机嵌入
model.resize_token_embeddings(len(tokenizer))

扩展词汇表的详细步骤

首先,我们需要从huggingface中定义和加载模型。

from transformers import AutoTokenizer, AutoModel

model_type = "roberta-base"
tokenizer = AutoTokenizer.from_pretrained(model_type)
model = AutoModel.from_pretrained(model_type)

在下一步中,我们需要准备一组新token并检查它们是否已在tokenizers的词汇表中。我们可以使用tokenizer.vocab获取令牌器的词汇映射。这是一个字典,以token为键,以索引为值。所以我们这样做:

new_tokens = ["new_token"]
new_tokens = set(new_tokens) - set(tokenizer.vocab.keys())

现在,我们可以使用令牌器的add_tokens方法来扩展词汇表

tokenizer.add_tokens(list(new_tokens))

作为最后一步,我们需要向模型的embedding matrix中添加新的embedding。我们可以通过使用词汇表中的令牌数量(包括新添加的令牌)调用模型的resize_token_embeddings方法来完成。

model.resize_token_embeddings(len(tokenizer))

embedding matrix将在末尾添加新初始化的向量。使用这些新的未训练的embedding可能已经有用,但通常需要进行至少一些微调步骤。

你可能感兴趣的:(人工智能,深度学习,python,AIGC,语言模型)