科研论文知识研讨分享

(Su et al., EMNLP 2018)Discriminative Deep Dyna-Q:Robust Planning for Dialogue Policy Learning

目的

区分判断出这两者:世界模型生成的模拟经验,用户生成的真实经验。

前人存在的问题

因为 DDQ 在planning learning训练过程的后期质量不高的模拟经验反而会损伤agent,所以DDQ解决办法是,固定训练后期会减少planning的次数。而本文就是想不固定次数,想直接自动过滤掉低质量的模拟经验。

Discriminator的核心

见论文的Figure 3右侧,LSTM结构图。即下图:

科研论文知识研讨分享_第1张图片

简单来说:LSTM编码整段对话,即对话状态的顺序变化过程。后接一个MLP,输出一个分数,作为判定该数据为高低质量。

数据分析的总结

科研论文知识研讨分享_第2张图片

通过分析DDQ的结果图(即上图),作者说:DDQ的表现是很不稳定的,特别是planning学习次数调得很大的时候。这意味着,随着planning学习次数的增加,模拟数据的质量会更加重要。

【这个我觉得作者分析得挺好。】

然后作者说本文的优点:D3Q即使在planning学习次数调得很大,也会很稳定。

本人的一些思考或疑问【拓展用途】

(1)作者论文自己说生成K个高质量数据,有可能会一直生成不够,导致死循环。“forever to generate K high-quality samples”
不过论文解释说:他们实验没出现这种情况,然后说agent后于世界模型更新。
这个理由我觉得有点难接受。为什么一定要生成K个高质量数据?如果换个办法,固定生产次数,生产不够K个高质量时也会停下来,就避免死循环了。

(2)论文里面说受GAN的启发。但是生成器(世界模型)并不会接受判别器(discriminator)的损失,世界模型依旧是DDQ里面的监督学习。
我觉得论文可以不提GAN,或者未来工作可以接受判别器传来的损失。

(3)经验是整段对话为一个经验,还是一个句子?我偏向认可整段话。
如果整段话被判为低质,就会舍弃吧?【后面查一下代码才能知道。】

你可能感兴趣的:(机器学习理论)