预训练+微调任务

1.ELMO微调
    2.微调阶段
        下游任务:用训练好的模型继续之后的任务
        E=r(S1*E1(词特征)+S2*E2(句特征)+S3*E3(语义特征))
    注意:ELMO并不是把文本编码成向量之后,直接作为下游任务模型输入,
        而是将ELMO编码的向量作为新的单词特征补充到下游任务。
        ELMO是基于特征的微调。

2.Bert微调:
    bert通过bert模型,可以编码得到一个句子的句子向量,那么我们不会像ELMO
    一样把这个向量作为新特征补充到下游任务,而是直接将该向量作为下游任务的
    输入。当最终代价产生的时候,反向传播,就会将梯度传到句子向量cls上,那么
    就会更新到bert里边的参数。因此叫做基于微调的模型。
3.GPT微调:
    GPT通过GPT模型,可以编码得到一个句子的句子向量,那么我们不会像ELMO
    一样把这个向量作为新特征补充到下游任务,而是直接将该向量作为下游任务的
    输入。当最终代价产生的时候,反向传播,就会将梯度传到句子向量cls上,那么
    就会更新到GPT里边的参数。因此叫做基于微调的模型。

你可能感兴趣的:(深度学习,人工智能)