PyTorch笔记 - 开发技巧与爱因斯坦标示法(einops)

欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128222398

PyTorch笔记 - 开发技巧与爱因斯坦标示法(einops)_第1张图片

NLP seq2seq代码编写技巧

数据

  1. tokenization,离散符号,翻译,划分token
  2. token2idx,将token变成idx
  3. add SoS&EoS,开头和结尾添加标识符,start of sentence,end of sentence
  4. collate_fnpad_sequencelabel=target[:,1:]decoder_input=target[:, :-1]
    1. 每一句话的长度都不一样,对于batch进行后处理,填充到最长句子的长度
    2. torch.nn.utils.rnn.pad_sequence
    3. collate_fn输入是多个训练对,batch_size
    4. label获取从第1个位置

你可能感兴趣的:(深度学习,pytorch,深度学习,自然语言处理)