今天从ACL2020抓下来一堆跟Generation相关的论文,读了一天只读完了3篇,而且读得还不是很透彻,看来读论文的功力需要提升啊。
第一篇:One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases
主框架:seq2seq做生成,加入了attention和copy机制。
数据集构建:把关键词用
创新点:加入了重构的损失函数,让生成的关键词尽量还原文本语义,保证生成关键词的多样性;构建了一个新的评价指标,适用于不同样本关键词数量不同的情景。
TODO:研究代码,学习实现方法。
疑惑:关键词拼接的顺序如何确定?
第二篇:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
主要想法:不同于BERT直接预测mask以后的token,BART是用的seq2seq做的重构。其实两者的encoder是一样的,只不过BERT的decoder是一个MLP,而BART的decoder是一个auto-regression的decoder。
数据集构建:尝试了很多种任务,包括token mask、span mask、fooling mask等等。
TODO:试着用transformers加载一下,试试效果怎么样。
参考资料:https://www.youtube.com/watch?v=Bywo7m6ySlk&t=2999s
第三篇:Distilling Knowledge Learned in BERT for Text Generation
主要想法:用BERT当teacher模型,辅助seq2seq做文本生成。感觉确实很有道理,BERT虽然做auto-regression的生成不行,但是当老师还是不错的。
TODO:研究一下知识蒸馏的实现方法和损失函数之类的。
疑惑:既然BERT都能当老师了,为什么不能自己生成呢?或者说这样的训练方式跟直接告诉seq2seq答案有什么区别呢?