python-transformers基础总结【一】

2023年8月17日9:00:14

  1. transformers模型只接受tensor作为输入,因此需要在在tokenizer的时候需要加参数return_tensors=“pt”,列表嵌套列表是不允许的。
  2. input_ids:将输入到的词映射到模型当中的字典ID
  3. attention_mask:是具有与input_ids张:量完全相同形状的张量,填充0和1。1表示应注意的相应位置的标记,0表示不应注意的相应位置的标记(模型的attention layers 应忽略它们),换句话说告诉机器返回的数字编码中哪些是需要注意的实际数据,哪些是不需要关心的填充数据
  4. 模型没有attention_mask时,会默认用1填充,即需要注意
  5. token_type_ids:数字编码中哪些属于第一个句子,哪些属于第二个句子
  6. 不同模型架构输出是不一样的如下
    AutoModel
model = AutoModel.from_pretrained("bert-base-chinese")
输出
BaseModelOutputWithPoolingAndCrossAttentions,包含’last_hidden_state’和’pooler_output’两个元素。其中’last_hidden_state’的形状是(batch size,sequence length,768),'pooler_output’的形状是(batch size,768)。pooler output是取[CLS]标记处对应的向量后面接个全连接再接tanh激活后的输出。

AutoModelForMaskedLM

model = AutoModelForMaskedLM.from_pr

你可能感兴趣的:(tranformers,python,python,transformers)