pytorch torchtext.data.Field

API

CLASS torchtext.data.Field(sequential=True, use_vocab=True, init_token=None, eos_token=None, fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None, lower=False, tokenize=None, tokenizer_language='en', include_lengths=False, batch_first=False, pad_token='', unk_token='', pad_first=False, truncate_first=False, stop_words=None, is_target=False)

将文本转化为tensor

参数 描述
sequential 是否把数据表示成序列,如果是False, 不能使用分词 默认值: True.
use_vocab 是否使用 Vocab 对象,如果取 False,则该字段必须是数值类型;默认值是True
tokenize 分词函数. (如 string.cut 、jieba.cut 等)默认值: str.split.
batch_first Whether to produce tensors with the batch dimension first. 默认值: False.

fix_length:该字段是否是定长,如果取 None 则按同 batch 该字段的最大长度进行pad;默认值: None.
init_token|每一条数据的起始字符 默认值: None.
eos_token|每条数据的结尾字符 默认值: None.
tensor_type|把数据转换成的tensor类型 默认值: torch.LongTensor.
preprocessing:在分词之后和数值化之前使用的管道 默认值: None.
postprocessing|数值化之后和转化成tensor之前使用的管道默认值: None.
lower|是否把数据转化为小写 默认值: False.
include_lengths|是否返回一个已经补全的最小batch的元组和和一个包含每条数据长度的列表 . 默认值: False.
pad_token|用于补全的字符. 默认值: “”.
unk_token|不存在词典里的字符. 默认值: “”.
pad_first|是否补全第一个字符. 默认值: False.

参考:
https://zhuanlan.zhihu.com/p/31139113
https://pytorch.org/text/data.html#field
https://cloud.tencent.com/developer/article/1513479

你可能感兴趣的:(Python,python)