[NLG]Few-Shot Dialogue Generation Without Annotated Data: A Transfer Learning Approach

总述:

  我觉得这篇论文的主要亮点就是不要标注数据。之前赵天成的zero-shot虽然很惊艳,但是迫于每一句话都需要标注dialogu action,所以应用性不强。这篇论文就是结合了赵天成之前的两篇工作,第一个zero-shot,第二个laed(用于在大规模数据中学习找到对话潜在的latent action)。然后作者就认为,在大规模无标签对话中用laed学习可以学到隐式的dialog action。

主要模型:

[NLG]Few-Shot Dialogue Generation Without Annotated Data: A Transfer Learning Approach_第1张图片

右图是他的主要模型,上面部分就是说其实就是训练了LAED和部分的ZSDG(只含有dialogue context部分),然后把它们的hidden连接起来,去生成。主要公式如下。k是表示融合了一些外部知识,c是对话上文的历史,d是domain,模型的外部知识片段就直接连在对话历史后面了(又是玄学操作)。

[NLG]Few-Shot Dialogue Generation Without Annotated Data: A Transfer Learning Approach_第2张图片

然后他的loss就只有ZSDGloss的一部分,也就是:

[NLG]Few-Shot Dialogue Generation Without Annotated Data: A Transfer Learning Approach_第3张图片

主要的训练过程:先用大规模无标注数据训练LAED,然后再target domain里面随机选取一些(1%--10%)对话作为seed data,然后这些seed对话经过LAED之后的hidden就相当于ZSDG里面的dialog action了。(话说,感觉这个过程不太靠谱,这不直接把测试集的答案告诉LAED了吗?还要训练吗QAQ)

一句话总结:

   在ZHAO的两篇工作的基础上,融合了外部知识,通过LAED预训练大规模数据用来代替数据的标注,在不需要数据标注的情况下实现了few-shot dialogue生成的最好效果。

你可能感兴趣的:(NLP,对话系统)