Transformer貌似也是可以使用state递归解码和训练的

import paddle
import numpy as np


class HeadLoss(paddle.nn.Layer):
    def __init__(self):
        super(HeadLoss, self).__init__()

你可能感兴趣的:(NLP,AIGC,transformer,深度学习,人工智能)