Effective Sequence-to-Sequence Dialogue State Tracking论文笔记

粗读了一下,大概是说seq2seq很好,但是怎么在DST上使用它们还没有被系统地研究过,从两个角度来研究怎么更好使用seq2seq来匹配dst任务:一个是从预训练的任务(用T5的大量不同预训练setups);另一个是从context的形式上(full history和先前预测出的states循环作为history的summary)

觉得对我的开题有参考 想精读一下

2 methods:

2.1 模型

encoder 和decoder都是transformers

encoder的输入:dialogue contexts(不是history) ;decoder输出:slot1=value1, slot2=value2等等 很常规的dst输入输出

两种不同的dialogue contexts输入:1.full- history ;2.recurrent- state model:只包含最近N轮的对话,1~T-N被预测的states取代,这样不仅减少了输入长度,并且摒弃了与ds无关的信息(我记得这个方法是以前的论文提出的 只不过N=1)

2.2 预训练

按照预训练任务分成两类,masked span prediction 预训练的bert和 autoregressive prediction 的gpt为了研究出谁更有效率,作者团队使用T5中的denoting and prefix LM任务同时预训练encoder和decoder,三个对比

a.只用完形填空 b.继续在a的基础上预训练prefix LM c.只使用prefix LM预训练

T-5预训练在nlu的好表现使得作者好奇哪一步对dst有好处,由于dst很难定义,找了一个替代品summarization任务来做实验

选取了Pegasus,一个基于seq2seq的预训练模型作为对照组。简单总结下Pegasu,定义了一个自监督的objective GSG:通过一些启发(有可能是高rouge分)来识别出潜在的重要句子,然后把这些句子mask掉,让decoder去预测这些句子,别的模型则是randomly抹去句子,这使得这个模型处理summarization任务很卓越

3 experiments

optimizer: memory-efficient Adafactor lr=0.01 model:default sentencepiece decoder:beam search uncertainty=0.1

实验结果:

完形填空+autoregressive model的预训练模型比只有arlm的性能好 即使是arlm+span也是比只有arlm性能好;span prediction的预训练对dst性能很好

2.1中提到的recurrent state性能始终没有full history好,不管取代之前history的state有多准确,另外,留下的recent turn数也会对实验有很大影响

可能的原因是:早先的prediction mistake很难被修复,而且毕竟at就是这样的,会把错的output带到下一轮的输入中,所以还是最好给full history 这样模型还能学习纠正以前的错误

你可能感兴趣的:(论文笔记,深度学习,tensorflow,神经网络)