(2020.6.13)文本生成初探

今天从ACL2020抓下来一堆跟Generation相关的论文,读了一天只读完了3篇,而且读得还不是很透彻,看来读论文的功力需要提升啊。

 

第一篇:One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases

主框架:seq2seq做生成,加入了attention和copy机制。

数据集构建:把关键词用拼接作为训练文本。

创新点:加入了重构的损失函数,让生成的关键词尽量还原文本语义,保证生成关键词的多样性;构建了一个新的评价指标,适用于不同样本关键词数量不同的情景。

TODO:研究代码,学习实现方法。

疑惑:关键词拼接的顺序如何确定?

 

第二篇:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

主要想法:不同于BERT直接预测mask以后的token,BART是用的seq2seq做的重构。其实两者的encoder是一样的,只不过BERT的decoder是一个MLP,而BART的decoder是一个auto-regression的decoder。

数据集构建:尝试了很多种任务,包括token mask、span mask、fooling mask等等。

TODO:试着用transformers加载一下,试试效果怎么样。

参考资料:https://www.youtube.com/watch?v=Bywo7m6ySlk&t=2999s

 

第三篇:Distilling Knowledge Learned in BERT for Text Generation

主要想法:用BERT当teacher模型,辅助seq2seq做文本生成。感觉确实很有道理,BERT虽然做auto-regression的生成不行,但是当老师还是不错的。

TODO:研究一下知识蒸馏的实现方法和损失函数之类的。

疑惑:既然BERT都能当老师了,为什么不能自己生成呢?或者说这样的训练方式跟直接告诉seq2seq答案有什么区别呢?

你可能感兴趣的:((2020.6.13)文本生成初探)