大模型增量预训练参数说明

在增量预训练过程中通常需要设置三类或四类参数,模型参数,数据参数,训练参数,额外参数。

下面分别针对这四种参数进行说明。

欢迎关注公众号

大模型增量预训练参数说明_第1张图片

模型参数

  1. model_type

模型类型,例如bloom,llama,baichuan,qwen等。

  1. model_name_or_path

模型名称或者路径。

  1. tokenizer_name_or_path

分词器名称或者路径。如果进行了词表扩充或裁剪,则tokenizer_name_or_pathmodel_name_or_path不同。

  1. load_in_8bit

是否以8bit加载模型。

  1. load_in_4bit

是否以4bit加载模型。

  1. use_fast_tokenizer

是否使用快速分词器。

  1. torch_dtype

张量数值类型

  1. device_map

设置指定设备(也就是在哪张显卡上)

数据参数

  1. dataset_name

数据集的名称&#

你可能感兴趣的:(领域模型三阶段训练,深度学习,人工智能)