tokenizer()和tokenizer.encode_plus()的区别

encoding = self.tokenizer(
            text,
            add_special_tokens=True,  # 句子开头和分隔加cls sep  [cls] + text + [sep]
            max_length=self.max_len,
            return_token_type_ids=True,  # 分句ids  0000000
            return_attention_mask=True,  # 注意力编码  1111111000
            return_tensors='pt',  # pytorch类型
            # padding="max_length"
            # truncation=True  # 超过max_length就截断
        )
encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,  # 句子开头和分隔加cls sep  [cls] + text + [sep]
            max_length=self.max_len,
            return_token_type_ids=True,  # 分句ids  0000000
            return_attention_mask=True,  # 注意力编码  1111111000
            return_tensors='pt',  # pytorch类型
            # padding="max_length"
            # truncation=True  # 超过max_length就截断
        )

4.0.0版本之前用encode_plus(),之后用tokenizer。tokenizer()增加了一些安全性判断,底层还是调用encode_plus()tokenizer()和tokenizer.encode_plus()的区别_第1张图片

你可能感兴趣的:(深度学习,pytorch,人工智能)