《Learning from Dialogue after Deployment:Feed Yourself, Chatbot!》阅读笔记——持续学习的对话系统
动机•语料搜集困难,当前对话系统就是用人与人的语料来训练机器人,没有在人机对话时训练机器人•人就是在对话中不断通过反馈来学习说话的•直接利用人机的对话来学习可能导致错误传播,强化学习的思想是通过指标进行反馈,但是人在实际情况下是通过自然语言来进行反馈的主要工作•本文提出一个可以在机器人参与的对话中选取训练样本,他可以评估用户对它的回答的满意度,当对话顺利进行就可以将其作为新的对话样本,当它意识到自