tokenizer.encode_plus方法

tokenizer = AutoTokenizer.from_pretrained(DOWNLOADED_MODEL_PATH)

tokens = tokenizer.encode_plus(txt, max_length=MAX_LEN, padding=‘max_length’,
truncation=True, return_offsets_mapping=True)

encode_plus返回所有的编码信息,具体如下:
’input_ids:是单词在词典中的编码
‘token_type_ids’:区分两个句子的编码(上句全为0,下句全为1)
‘attention_mask’:指定对哪些词进行self-Attention操作
offset_mapping:记录了 每个拆分出来 的内容(token)都 对应着原来的句子的位置

你可能感兴趣的:(深度学习,自然语言处理,tensorflow)