关于DQN一些小想法

基于目前对RL这方面的了解,主要分为基于三个方面: value function, policy 以及 model

其中目前最广泛的为value function的思路,也就是所谓的q-learning,Deep Q Network 与深度神经网络的结合。


目前主要看了两篇DQN 在NLP 和Object Detection方面的两篇应用的文章深有感触

1. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning

2. Active Object Localization with Deep Reinforcement Learning


我的思考是,DNQ中每一条记录(s,a,r,s') 其实包含三个方面:

1. 如何定义state

2. 如何确定actions的范围

3. 如何定义reward的规则


例如在论文1中,例如rl去学习如何更好地从文章中的精确地提取entity的信息,其中最重要地是学习去提取和当前事件相同的其他表达方式。

1. state的定义: 也就是DQN的输入,在论文中论文的state由几个方面组成,包括当前entity的置信度,和扩充选择的entity的置信度,他们的matches以及content word的tf-idf。

2. action的定义:论文中有两种actions 也就有两个networks。 每个actions的选择范围是固定的。文中的两个actions:reconcile和 new entity selection(query),其中reconcile定义为只有四种,接受某个,接受所有,拒绝全部以及停止。 query则是利用其他方式定义好的k(常数)个模板。

3. reward的定义:计算一个文章中所有entity的acc(当前)-acc(之前),没有采用绝对值,所有这里存在着惩罚机制。

同样地,论文2也是巧妙地定义了这个方面。


目前,我还没有看过rl在语音识别方面应用的paper,如果您看过比较好的,可以给我推荐一下嘛。

之前尝试过让rl自动去学习语音识别的对齐问题,感觉如何定义action和reward,尤其是reward function存在着困难。目前对CTC这个概率思想理解地不是很深入,有待努力。

你可能感兴趣的:(Reinforcement,Learning,增强学习)