20200217-20200223阅读论文笔记

On the Discrepancy between Density Estimation and Sequence Generation

问题:探究训练目标(log-likelihood)和实际文本生成评价指标(Bleu)之间的相关性关系。

背景知识总结:

Autoregressive Model:逐词翻译—>exposure bias
Non-autoregressive Model:一次翻译整个句子---->引入隐变量

论文方法:
基于多个数据集实现以下模型:
(1)自回归:Transformer(S,B,L)
(2)非自回归:隐变量先验为diagonal gaussian和Normalizing Flow

实验结果及结论与思考:
20200217-20200223阅读论文笔记_第1张图片
(1)同一类型的模型进行比较时, ll的训练目标和bleu的评价指标相关性很强。(显然的?)
(2)不同类型的模型之间进行比较时,没有什么相关性。(在非自回归效果一般差于自回归的情况下,关于这点结论不太清楚想要说明什么,邹博的看法是要看ll是不是因地制宜?但这个结论可以看出来非自回归模型在受除训练目标的其他因素影响而效果比自回归模型差?)

Revisiting self-training for neural sequence generation

问题:首先由实验观察到self-training给文本生成任务带来提升,那是什么让self-training在文本生成任务上带来提升?
方法:
baseline---->由伪平行语料训练(得到提升)----->进一步fine-tune(得到提升)

20200217-20200223阅读论文笔记_第2张图片

同时观察到self-training在baseline上的提升—>探究提升原因?
(1)decoding strategy,对提升有影响,但不是st的原因。
(2)noise:dropout能有效提升—>通过dropout探究noise的影响
采用一个两数求和实验探究noise产生的影响:smoothness
20200217-20200223阅读论文笔记_第3张图片

还对noisy ST在机器翻译上的效果进行进一步实验,并且与back-translation进行比较,实验结果表明noisy-ST有比较好的提升效果。还深入探究了不同因素对noisy ST提升的影响。
20200217-20200223阅读论文笔记_第4张图片

总结与思考:
这篇论文探究一个经典训练方法对文本生成的影响,一步一步由实验观察现象,继而探究设计更细的实验(简单但有效的类比实验(两数求和))探究现象的原因和可能影响的相关因素。

The curious case of neural text degeneration

neural text generation with unlikelihood training

粗读

likelihood作为训练目标,现有的decoding strategy容易造成生成的文本重复多,不连贯等问题(尤其是在open-ended generation)----->Nucleus Sampling(截断概率分布不可靠即概率低的部分,采样时只考虑概率比较大的核心部分)
20200217-20200223阅读论文笔记_第5张图片
实验表明这种采样方式结果不错,这篇论文提出来用likelihood做训练目标不好,但没有更改这一点,而是提出一种新的decoding strategy,另一篇论文《neural text generation with unlikelihood training》则是从根本上进行改进,提出unlikelihood training,思想是减少模型对negative candidates 的概率。
20200217-20200223阅读论文笔记_第6张图片

你可能感兴趣的:(论文笔记)