近两年NLP结合上下文的回复生成论文整理(含原文地址及数据集地址)

论文调研

author:Zhang Yu
date:2019/11/06
问题定义:每次判断是否需要对moli当前的话术进行改写(重写),若需要,则结合上下文信息进行生成,若不需要则不做处理。类似于(基于检索的对话生成)
论文检索范围:2018-2019的ACL/NAACL/AAAI/EMNLP
关键字:context/generation/response

1. A Working Memory Model for Task-oriented Dialog Response Generation ※

来源:ACL 2019
主题:生成式的任务型多轮对话
作者:Xiuyi Chen, Jiaming Xu, Bo Xu:
论文链接:https://pdfs.semanticscholar.org/ce6e/1a9fd351e9abcdc39dc11629892435e27c83.pdf
源码:https://github.com/HLTCHKUST/Mem2Seq
贡献: 1. 融入外部知识
 2. 引入了上下文敏感的对话历史编码过程
 3. 在bAbI/DSTC2 达到良好性能

2. Boosting Dialog Response Generation

来源:ACL 2019
作者:WenChao Du,Alan W Black
论文链接:https://www.aclweb.org/anthology/P19-1005
主要解决问题:开放域对话中Bot Response倾向于生成最常见、通用的回复。优化模型来提升生成对话文本的相关性和多样性。
数据集:Persona Dataset(此论文说是单轮数据集,原数据集是多轮,需澄清)

3. Context-Sensitive Generation of Open-Domain Conversational Responses ※

来源:COLING 2018
作者:Wei-Nan Zhang, Yiming Cuiy
论文链接:https://www.aclweb.org/anthology/C18-1206/
主要解决问题:人类的回复过程实际是一个上下文敏感的过程,提出应用于上下文敏感回复生成的动态和静态注意力机制网络。在两份开放域公开数据集的实验结果表明,提出的方法在客观指标和主观指标均优于现有方法。
数据集:Ubuntu/OpenSubtitles

4. Generating More Interesting Responses in Neural Conversation Models with Distributional Constraints ※

来源:EMNLP 2018
作者:Ashutosh Baheti, Alan Ritter
论文链接:https://www.aclweb.org/anthology/D18-1431/
代码链接:https://github.com/abaheti95/DC-NeuralConversation.
主要解决问题:解决回复通常是安全通用的,通过引入内容丰富度和信息相关性来评判生成语句的性能。
数据集:OpenSubtitles http://nlp.stanford.edu/data/OpenSubData.tar

5. Generating Responses with a Specific Emotion in Dialog ※

来源:ACL 2019
作者:Zhenqiao Song, Xiaoqing Zheng
论文链接:https://www.aclweb.org/anthology/P19-1359/
主要解决问题:在对话的生成中融合情感,可分为两种方式。1 使用强烈的情感词 2 比较隐晦的表达情感。
评估标准:BLEU, diversity and the quality of emotional expression.
数据集:1.Short Text Conversation http://ntcir12.noahlab.com.hk/stc.html
2.NLPCC Dataset http://tcci.ccf.org.cn/nlpcc.php

6. Hierarchical Recurrent Attention Network for Response Generation ※

来源:AAAI 2018
作者:Chen Xing, Yu Wu
论文链接:https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/16510
主要解决问题:基于上下文的回复生成,将注意力放在对context的word和utterance的建模上,取得了state-of-the-art结果。
数据集:Douban Group https://www.douban.com/group/explore

7. Jointly Optimizing Diversity and Relevance in Neural Response Generation

来源:NAACL 2019
作者:Xiang Gao, Sungjin Lee
论文链接:https://www.aclweb.org/anthology/N19-1125/
主要解决问题:提高对话回应的多样性和相关性。
数据集:1 Switchboard 来源于Learning discourse-level diversity for neural
dialog models using conditional variational autoencoders

2 Reddit http://files.pushshift.io/reddit/comments/

8. Learning to Control the Specificity in Neural Response Generation ※

来源:ACL 2018
作者:Ruqing Zhang, Jiafeng Guo
论文链接:https://www.aclweb.org/anthology/P18-1102/
主要解决问题:控制对话生成的specificity。通过引入specificity编码变量达到控制的目的。
数据集:Short Text Conversation STC2 http://ntcirstc.noahlab.com.hk/STC2/stc-cn.htm

9. MOJITALK: Generating Emotional Responses at Scale

来源:ACL 2018
作者:Xianda Zhou
论文链接:https://www.aclweb.org/anthology/P18-1104/
主要解决问题:普通的对话文本控制情感十分苦难,因此利用对话中的emoji表情来提高对话生成的性能。
数据集:https://drive.google.com/file/d/1l0fAfxvoNZRviAMVLecPZvFZ0Qexr7yU/view?usp=sharing
代码:https://github.com/claude-zhou/MojiTalk

10. Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network

来源 ACL 2018
作者:Xiangyang Zhou, Lu Li
论文链接:https://www.aclweb.org/anthology/P18-1103/
主要解决问题:开放域多轮文本匹配。
数据集:Ubuntu Corpus V1/Douban Conversation Corpus

11.Response Generation by Context-Aware Prototype Editing ※

来源:AAAI 2019
作者: Yu Wu, Furu Wei
论文链接:https://wvvw.aaai.org/ojs/index.php/AAAI/article/view/4714
主要解决问题:开放域响应的生成取得了显著的进展,但有时会产生简短的、不提供信息的响应。提出了基于检索的生成模型。因为检索到的原型为生成提供了一个良好的起点,它是语法和信息丰富的,而后期编辑过程进一步提高了原型的相关性和连贯性。
数据集:Douban Group(单轮对话,只包含一轮上下文) https://www.douban.com/group
源码:https://github.com/MarkWuNLP/ResponseEdit.

12. Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention

来源:ACL 2019
作者:Wenhu Chen, Jianshu Chen
论文链接:https://www.aclweb.org/anthology/P19-1360/
主要解决问题:语义控制的对话生成在单个域中表现良好,但在多领域中,语义信息呈指数增长。通过引入层级结构,来控制多个对话行为的语义,进而提高生成的性能。
数据集:MultiWOZ Multiwoz - A largescale
multi-domain wizard-of-oz dataset for taskoriented
dialogue modelling.

源码:https://github.com/wenhuchen/HDSA-Dialog

13.Skeleton-to-Response: Dialogue Generation Guided by Retrieval Memory

来源:NAACL 2019
作者:Deng Cai, Yan Wang
论文链接:https://www.aclweb.org/anthology/N19-1124/
主要解决问题:在生成任务中,对于给定的查询,从整个训练数据中检索类似的对话,并将其作为额外的知识来源。但由于融入了额外噪音,生成模型性能不佳。本文提出一个新的模型,先从检索到的对话中提取信息,提取后的信息和原上下文进行生成。此方法提高了生成语句的信息量。
数据集:Douban Conversation Corpus

涉及数据集介绍

一个对话数据集的survey

A Survey of Available Corpora for Building Data-Driven Dialogue Systems
https://arxiv.org/pdf/1512.05742.pdf

Persona Dataset

下载链接:https://github.com/huggingface/personas\

  • Cornell Movie Dialogs corpus
  • Supreme Court Conversation Data.
  • Ubuntu Dialogue Corpus for tech-support type discussion.
  • Stack Exchange Data Dump
OpenSubtitles

电影字幕数据集
下载链接:http://opus.nlpl.eu/OpenSubtitles-v2018.php\

Ubuntu Dialogue corpus

介绍:数据规模在100万左右,平均每组数据有8轮对话,最少包括3轮对话。
论文链接:https://arxiv.org/pdf/1506.08909v3.pdf
下载链接:https://github.com/rkadlec/ubuntu-ranking-dataset-creator\

STC(short-text Conversation)

介绍:大型短文本单轮对话语料,来源于新浪微博
论文地址:http://staff.ustc.edu.cn/~cheneh/paper_pdf/2013/HaoWang.pdf\

Douban Conversation Corpus

豆瓣对话数据
下载链接:https://archive.org/details/DoubanConversaionCorpus

MultiWOZ Multiwoz

A largescale multi-domain wizard-of-oz dataset for taskoriented dialogue modelling
下载链接 http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

你可能感兴趣的:(多轮对话,自然语言生成,多轮对话,综述,数据集)