共情对话综述泛读

共情对话综述泛读

Empathetic Conversational Systems: A Review of Current Advances, Gaps, and Opportunities知云翻译记录

移情的概念在人-主体系统中至关重要,因为它有助于相互理解、解决问题和维持关系。尽管越来越多地采用对话系统是近十年来最重要的事件之一,但情感方面需要相当大的改进,特别是在有效地表达同理心方面。本文对这一快速发展的领域进行了批判性的回顾,考察了四个维度的当前进展:(i)概念共情模型和框架,(ii)采用的共情相关概念,(iii)开发的数据集和算法技术,以及(iv)评估策略。综述结果表明,大多数研究集中在使用共情对话数据集,基于文本的模态主导了该领域的研究。此外,研究主要集中于从用户和会话系统的消息中提取特征,很少强调用户建模和分析。为了在多样化的现实世界领域设置中实现,我们建议未来的研究解决在实体级别检测和验证情绪、处理多模式输入、显示更微妙的同理心行为和包含额外的对话系统功能方面的差距。

情感计算,共情会话代理,共情聊天机器人,共情对话系统,共情,共情人工智能
对话式人工智能(CAI)已经成为个性化数字助理、虚拟助理、合作机器人和聊天机器人的研究和商业应用的一个有利可图的领域。CAI系统已经扩展到从日常生活、商业、业务支持、教育到医疗保健[2]、[3]等多个领域。研究涵盖多个主题,包括对话聊天机器人和对话系统[4],[5],对话推荐系统[6],对话搜索系统[7]和对话提问和回答(Q&A)系统[8]。尽管每个主题都有特定的重点,全面的CAI实现将受益于整合这些主题的研究思想和产出。由于人类是CAI研究循环的重要组成部分,人类与聊天机器人交互[3]、[9]和信息寻求策略[10]的行为研究也同样进行了。CAI研究的一个关键目标是使系统人性化,以促进与人类更好、更有意义的接触[11]。研究人员已经开发了情绪感知系统,从人类的表情中检测情绪和情绪,并产生情绪反应[12]。该实现依靠情感分析[13]和情感识别[14]算法来识别用户消息的主流情绪和情绪。

虽然识别情绪和情绪是通向有效对话的建设性步骤,但事实证明,在CAI研究中,以同理心的反应吸引人类更成功[13],[14]。科学界对共情有很多定义文学。基于对约43个定义的综合分析,Cuff等人[15]将共情概括为“一种情绪反应(情感),依赖于特质能力和状态影响之间的相互作用。”共情过程是自动引发的,但也由自上而下的控制过程塑造。产生的情绪类似于一个人对刺激情绪的感知(直接体验或想象)和理解(认知共情),认识到情绪的来源不是自己的。”共情被认为是一种必要的行为,已经进行了研究,以提高人类在不同环境下的共情[16],[17]。共情有不同类型,即情感性共情、认知共情和同情共情。情感性同理心和认知同理心分别是关于镜像和理解他人的感受,而同情心同理心则是关于对他人的感受提供符合社会要求的回应。同理心的计算模型有助于更好地理解人际关系[19]。共情模型的计算和理论研究在三个主要组成部分——情绪沟通能力、情绪调节和认知机制[20]上进行了变化。同理心行为的不同取决于与这三个组成部分相关的机制。被分类的行为包括镜像、情感匹配、共情关心、安慰、利他帮助和换位思考[20]。一个理想的共情CAI系统应该根据对话场景表现出这些行为。近年来,深度学习和自然语言处理(NLP)的发展加速了计算机辅助教学的研究,在多模态、多任务和长期目标处理系统方面出现了新趋势[21]。相应地,人们对同理心反应的兴趣也在增加
生成方法,以及相应的响应生成模型[15]。CAI系统可以在基于文本的对话中表现出对人类情感的同理心。随后,移情反应生成CAI系统的研究拓展了新的数据集[14],[22]-[24]和增强的反应生成模型[25],[26]。对话系统可以分为三种类型(i)任务导向型,(ii)对话式和(iii)交互式问题和回答[27]。基于本文所涵盖的现有共情反应生成CAI系统的研究,本研究主题可以被描述为会话对话系统,因为对话结构是非结构化的,回合数是多个的,对话的长度很长,也因为CAI系统没有具体的任务被完成。在本文中,我们将这一共情CAI系统的研究主题称为共情会话系统(ECS),以区别于先前的研究[28]中使用的术语具体化会话代理(ECA)。1. 以前的ECS研究在概念化框架、准备数据集、训练模型和设计嵌入移情在CAI系统中的算法方面显示出了很大的希望。在Paiva等人发表于2017年[29]的该领域最早的调查之一中,研究了虚拟代理和机器人的计算共情模拟和触发机制。在本调查的出版期间,系统主要采用基于规则和基于启发式的方法,而不是当前基于深度学习的自然语言生成(NLG)方法。在Spring等人[30]中,对ECS研究进行了回顾,该框架包括四个阶段,即情绪表达、情绪检测分类、反应生成和反应表达。Ma等人[31]从功能的角度考察了ECS研究,并在共情对话系统的范围内考察了三种类型的对话系统。

这些对话系统类型是情感对话系统、个性化对话系统和基于知识的对话系统。Wardhana等[32]对共情对话的特征、对话系统模型和统计推断技术进行了综述。尽管有这些有价值的综述,但明显缺乏深入研究共情融入ECS模型的系统见解。特别是,现有的综述还没有包含概念性共情模型和已在经验性ECS研究中操作化的共情相关概念的信息。此外,研究中使用的重要数据集也没有被涵盖。共情是一个多维度的概念,在人与智能体的互动中有多个外围子概念在起作用。

从这一参考框架中,有必要对ECS研究进行批判性审查。

  1. 我们的目标是批判性地回顾现有的ECS研究及其用于理解的概念框架
  2. 不同的研究试图在系统中唤起同理心。这将有助于描述研究主题的进展,以便发现差距和机会领域。下面是一些问题。

1)指导ECS实现设计和开发的现有概念性共情模型是什么?当前的ECS研究对共情相关的不同概念进行了哪些操作?2)在ECS研究中开发和使用了哪些数据集,这些数据集是如何生成的?3) ECS如何研究请求处理和响应生成活动的方法算法技术?4) ECS研究中使用的评价方法和指标是什么?这篇论文的重点是对系统进行训练,以特别表现出共情的研究。专注于对用户信息提供情感响应的研究(如[33])已经在[12],[30]之前进行了综述,因此,这类研究不在本文中涉及。2方法2。通过Scopus、谷歌Scholar和IEEE Xplore数字图书馆进行多个数字文献搜索。

主要的搜索策略是使用以下查询短语发现与主题相关的论文,而不应用任何出版年份过滤器:“移情对话”,“移情聊天机器人”,“移情对话”,“移情对话”,“移情对话”,“移情聊天机器人”,“移情对话”,“移情对话”,“移情聊天机器人”,“移情对话”,“情感对话”,“情感聊天机器人”,“情感对话”,“移情* AI”,“移情代理”,“移情人工智能”。以论文的引文和参考文献为切入点,对初步鉴定的论文进行引文和参考文献追踪,共鉴定出112篇论文。接下来,通过分析文章标题和摘要字段来评估这些论文的相关性。因此,有66篇论文被认为与审查无关。剩下的论文全文已扫描。总的来说,我们首先考虑了46篇论文进行深入研究。值得注意的是,我们随后发现了一些作为Alexa SocialBot挑战[34]的一部分发表的论文。尽管这些论文[35]、[36]提出了在ECS数据集(如empatheticdialog数据集[13]和其他数据集)上进行训练的模型,但这些算法并没有专门用于同理心反应生成的概念。因此,这两篇论文被删除了。图1描述了文章选择过程流。
2.2数据抽象对选定论文的最终列表进行数据抽象练习。数据抽象中使用的特征包括数据集名称、数据集源算法(用于情感/情绪识别和同理心反应生成)、研究目标、相关同理心概念、评价标志、离线评价指标、用户评价指标、消融研究标志,以及主要的论文元数据字段(如发表地点、文章类型和发表年份)。ECS的实证研究清单以及提取的特征已列入附录A。

同理心是一种与他人建立联系的能力,根据多个学科的研究,包括工业和组织心理学、领导力发展、社会心理学、谈判、神经科学和心理健康[37]-[39],它被认为是改善关系和结果的一个重要因素。它是一种复杂的、多维的、高阶的社会智力技能。根据戈尔曼[40]、[41]的说法,共情至少包括三个方面:认知共情、情感共情和共情关怀。认知同理心是一种理解他人观点或观点的能力。认知共情与换位思考密切相关,并可互换使用。它是关于“换位思考”。情感同理心,或情感同理心,是一种能感受到他人感受的能力。情感或情感同理心是关于“你在我心中的痛苦”。在复杂的情况下,快速感觉而不深入思考是必不可少的
与人类进化相关的技能。

富有同情心的同理心,或共情关怀,是一种能够感知他人对你的需求,甚至做一些有益的事情的能力。这种共情超越了换位思考和分享他人感受,而是展示了有益的行为,将他人的信息纳入其中,从而更有效地解决问题。

将共情纳入的计算方法提出了各种共情概念化。

De Waal的三级俄罗斯娃娃共情模型[42]构成了计算共情模型和框架的基础。根据该模型,通过个体的表征来感知人类的行为是自动的,以感知-行动机制(PAM)为中心,它有助于情感和认知共情行为。在最低层,模型放置了情感匹配的组成部分通过模仿。中间层为安慰,表现为同情关怀;上层为定向帮助,表现为换位思考。

Yalcin等[28]在共情模型的基础上提出了一个为ECS配备实时多模态共情交互能力的框架。该模型包括沟通能力、情感调节和认知机制[43]三个层次。共情框架[28]包括感知模块、行为控制器模块和行为管理模块。感知模块通过音频和视频信号收集来自用户的输入。然后将这些信号发送到情感识别子模块,以确定用户输入中的情感。处理后的数据随后被传递给行为控制器,在那里用户意图被彻底分析。该模块中的共情机制子模块也在与共情模型[43]相似的三个层次上起作用——低级、中级和高级共情行为。在最低层次,模仿和情感匹配,而在中间层次,通过考虑用户的情绪、个性和喜欢/不喜欢的偏好,启用情绪调节。在考虑用户目标和环境时,认知过程处于同理心的最高水平。移情响应嵌入到事实响应中,并通过框架中的行为管理器模块发送回用户。Ab Aziz等人[44]提出了另一种将共情纳入CAI代理的概念设计模型。该模型包括五个主要模块,即(i)感知,(ii)情绪分析,性格和事件评估,(iii)共情分析和行为选择,(iv)压力分析和支持,(v)反馈。传感模块通过语音、视觉和触点(通过触摸屏界面方便)接收用户输入。输入传递给情绪分析模块进行人脸识别、特征提取和情绪识别。同时,人格评价和事件评价并行处理输入信息。这些模块的输出被发送到共情分析模块。本模块是基于
另一人提出了综合共情模型,该模型结合了信念欲望意图(BDI)模型[45]、三种共情类型(情感、认知和同情)和心智理论[46]。下一个模块是行为部分模块,包括相应的行为和动作的数据库。从压力分析和支持模块的线索增强了行为和行动。最后的输出通过语音和屏幕输出中的反馈模块转发给用户。

现有的大多数经验性ECS研究涉及监督深度学习技术;因此,训练数据集和体系结构是必不可少的方面。本部分基于以下特征对研究进行了总结:共情相关概念、体系结构中的算法/技术、数据集和评估策略。我们没有考虑使用商业现成工具开发CAI系统的研究,因为它们的底层技术不在公共领域。4. 在基本层面上,理解人类情绪并随后提供同理心反应是ECS的主要功能。研究可以通过这两个函数进行综合。这些功能需要更加详细,以便在ECS研究中更好地表示不同的共情成分。Yalcin等[19]提出了三个共情成分作为共情模型的一部分:沟通能力、情绪调节和研究共情行为的认知机制。
另一方面,Spring等人[30]提出了一个四阶段模型来研究共情聊天机器人。四个阶段分别是情绪表达、情绪检测、反应生成和反应表达。虽然Yalcin等人的[19]模型适合于研究共情行为,但Spring等人的[30]模型可以被认为是对早期ECS研究进行分类的实用模型,当时ECS研究仍处于初级阶段。在这篇综述论文中,我们使用了一个基于组件的模型来对现有的ECS研究进行分类。组件是两个参与者(用户、ECS)及其消息(包括请求和响应)。

这些组成部分涵盖了现有ECS研究中所有与共情相关的概念。我们在这个模型中添加了一个外围组件,即知识库,因为它已经在一些研究中使用过。在无花果。

2、我们阐明了研究中的概念,并根据它们之间的关系将它们映射到信息的参与者或组件。

用户和用户消息基于用户的活动,如用户建模和基于用户的过滤,目前还没有在ECS研究中使用。因此,很少有概念属于图2中的用户参与者。大多数概念都与用户消息组件有关(n=32)。从用户消息组件中,可以识别或提取以下概念。

(a)情绪:理解用户消息中的情绪比情绪更能提供洞见,因为情绪侧重于积极、消极和中立的分类,不像情绪那样具有描述性和可操作性[47]。

然而,很少有研究发现用户信息中的情绪会产生共鸣[48]-[50]。
(b)情感:在用户信息中检测情感类实际上是产生同理心反应的一步,主要是因为使用了同理心对话数据集[13]。在23项研究中发现了情绪类。根据[13],情绪类别识别有助于选择适当的共情反应。

©积极情绪和消极情绪聚类:在确定情绪类别后,很少有研究尝试将积极情绪和消极情绪分别聚类,以更有效地产生共情反应[51]。

(d)情绪原因:情绪原因是指用户信息中包含产生某种情绪原因的特定词语。已经确定情绪原因的研究从ECS中产生了更多相关和同理心的反应。由于[22],[52],[53]的改进,这一领域一直是一个活跃的研究领域。(e)对话行为(意图):尽管在大多数ECS研究中,意图分类不是一项常规活动,但很少有研究试图对对话行为(意图)进行分类,以更好地理解用户消息。在两项相关研究中,[23]、[24]从empathetic对话数据集[13]中确定了意图类别,而在另外两项研究[26]、[54]中,遗传意图(例如,通知、需要、反应)已用于对用户消息进行分类。(f)角色:CAI代理中基于角色的研究要求代理在与用户[55]交互时展示特定的个性。与此类似,很少有ECS研究遵循这种基于人物的方法来提高移情反应生成性能[14],[56]-[58]。基于人物的同理心对话(PEC)数据集[14]也已作为研究的一部分发表。

(g)语言和非语言行为:多模态情感识别或情感检测在情感计算中获得了相当多的关注,其中语言、面部表情和语音语调特征的组合被发现通常比单模态[59]-表现更好[61]。然而,在ECS研究中,多模态方法是罕见的。作为调查的一部分,我们能够确定一项处理多模式输入的研究[62]。识别语言(基于文本的)和非语言(基于视频的)行为,以理解用户的情绪,以生成响应。(h)沟通机制:沟通机制是指与共情表达相关的高层次抽象因素。它在研究中被引入,目的是检测文本格式中的共情[63]。

这一概念已被用于ECS研究[26]。(i)实体和关系:实体提取在现有的ECS研究中不是一项常见活动。有一些研究利用了[54],[64],[65]。在这三个研究中,实体和实体之间的关系是从存储在外部知识库(PolarisX[64]、ConceptNet[65]、[66]和ATOMIC[54])中的既存知识中提取出来的。

现有的ECS研究本身分析了四个概念(参见图2)。通常会产生响应
(使用自然语言生成模型)或检索(使用模板或响应数据库)。在一项研究[67]中,反应预测是通过对不同情感类别的多个听者的反应(反应生成模型)进行软组合来完成的。在另一项研究[68]中,采用了预设的响应类型。已经有一些研究试图预测或预测用户未来的情绪和情绪[69]-[72]。这种方法的基本原理是,如果模拟用户对响应的反应不理想,则修改最初生成的响应。这一过程一直持续到预测到积极的情绪或情绪。在ECS消息级别,已经分析了一些概念。范例是添加到ECS响应中的小文本片段,以便整体消息看起来更有同理心[25]。情感匹配机制已经在一些ECS研究中进行了实验,将用户消息和ECS消息结合起来分析。这一机制通过情感拟态[51]和情感共识进行了操作[73]。然而,仅仅依靠情感匹配机制是不建议的。为了动态地提高ECS的响应生成能力,一些研究也在寻求用户的反馈。这一特征是通过主动学习[56]、[57]和对抗性学习实现的[74]。

  1. 表1列出了至少两项ECS研究中使用的数据集。迄今为止,共情对话数据集[13]已被用于26项研究的直接或间接评价。这个移情对话数据集是通过众包方法准备的,参与者扮演演讲者或听众的角色。他们被要求至少六次以同理心回应。研究人员为演讲者提供了一节情感课(共使用了32节情感课),并建议他/她讲述与所分配的情感课相对应的现实场景。移情对话数据集进一步增加了意图类别[75],并被翻译成其他语言(如阿拉伯语[76],[77])。已经有一些其他的共情会话数据集专门为ECS研究准备。第二个最受欢迎的数据集是基于人物的共情对话(PEC)数据集[14],该数据集使用从Reddit提取的基础数据准备。众包工作人员用适当的共情标签注释基础数据。PEC数据集的独特之处在于,它可以用来训练ECS模型,以显示人物角色和共情。该数据集已被后来发表的ECS研究[26]所使用。从小爱在线日志中提取基础数据,生成小爱共情对话(X-EMAC)数据集[22]。用情感类对基础数据进行注释。心理学家研究了这个带注释的数据集,创建了回应模板。这些回答是基于积极倾听和有效提问的咨询策略制定的。两个相关的共情对话数据集,即共情open字幕对话数据集[23]和emotional
  2. open副标题(dos)数据集[24]中的对话,使用从公共open副标题数据集提取的基础数据编写[78]。另一个名为EMPATHETICPERSONAS[58]的数据集是通过众包创建的。

该数据集是通过调查回答构建的,受访者被要求执行两项任务——(1)对问题“你感觉如何?”(2)重写一组基本话语,使其具有同理心。

除了共情会话数据集,通用会话数据集也被用于ECS研究中的训练和评估响应生成模块。DailyDialog数据集[79]是这一类别中最受欢迎的数据集,其次是BookCorpus[68]、PersonaChat[80]和豆瓣对话语料库[81]。

这些通用数据集只是为了丰富对话质量,使对话更真实。
4. 请求处理和响应生成技术本节重点介绍ECS研究中用于请求处理和响应生成的技术或算法。在CAI系统体系结构中,有NLP预处理、自然语言理解(NLU)、对话管理和响应生成等多个模块[90]。然而,这些模块在ECS研究中没有一起使用,因为这些是重点
研究的目的是开发模型,在开放领域的设置中展示同理心。由于大多数这些研究都围绕empatheticdialog数据集[15]展开,因此情绪检测模块在响应生成阶段之前操作,以识别用户消息中的情绪类。在某些研究[69],[85]中,用情感分类器代替情感分类器来确定情感类别。虽然使用不同的深度学习架构对情绪/情绪进行分类,但分类器是通过预先训练的模型进行调整的。BERT[91]和RoBERTa[92]是用于此训练前目的的流行模型,在四项研究中使用。在一项研究中,Deepmoji[93]和VADER[94]算法分别用于情感和情绪识别。除了情感/情绪检测,其他特征提取或识别用户消息(请求)。这些特性已在4.1节中介绍。在这篇综述中,没有介绍用于提取这些特征的算法或技术,因为它们还没有作为ECS实现的标准过程出现。

计算机辅助教学系统中有三种响应生成方法;基于规则,检索和生成[4]。基于规则的方法是最快的初始化和部署方法,但需要持续的监视和编辑。基于检索的响应生成方法从预定义响应的数据库中检索最相关的响应[95]。然而,基于检索的方法并不是ECS研究中的主要响应生成方法,在少数研究中使用了该方法[13],[71],[96]。另一方面,基于生成的方法是ECS研究中流行的方法,反映了对话系统的最新趋势。生成式模型可以根据大量的会话训练数据[4]生成新的会话。在ECS研究中,响应生成模块中最常用的模型是标准变压器模型[97],其次是GPT[98]、Seq2Seq[99]和GPT2[100]。文本到文本传输转换器(T5)[101]是在多个NLP任务中提供最佳结果的最新先进模型之一,在ECS研究中日益突出,并在三项研究中得到了应用。BERT[91]模型及其不同变体,如CoBERT[14]和ALBERT[102]也被用于创建响应生成模型。在预训练的响应生成模型中,DialoGPT[103]模型被认为是最先进的,但在单个研究中部署ECS的研究中似乎并不常见[82]。可以看出,ECS研究在请求处理和响应生成模块中都采用了最新的深度学习体系结构。表2列出了在ECS研究中用于情绪/情绪检测和反应生成的技术或模型。
4. 37项ECS研究报告了评价结果。离线评估是ECS研究中使用最多的评估方法,其中34项研究使用了离线评估方法。在离线评估中,ECS技术通常根据其重现听者对说话者的反应的能力进行评估(在训练数据集中指定)。在带有情绪/情绪检测模块的ECS体系结构中,准确率是用于评估分类性能的主要指标。

对于评估反应生成能力的主要任务,在22项研究中,Perplexity是最常用的度量,其次是BLEU[104],在18项研究中。困惑度是一种依赖于模型的指标,用来衡量概率模型对给定样本的预测能力。另一方面,双语评价替角得分(BLEU)将生成的回答与金标准(实际回答)进行比较。除了ECS研究,BLEU是会话对话系统中最常用的评价指标[27],[105]。第三个最受欢迎的度量是Distinct-n (distn)度量,有11项研究。该指标枚举了响应中唯一n-g的百分比[106]。通常,报告的是ungram (dist1)、biggram (dist2)和trigram (dist3)。其他突出的离线评价指标是句子嵌入相似度,F1,平均倒数秩(MRR),多样性,损失和召回。消融研究似乎不受ECS离线评价实验的欢迎,只有9篇论文报道了消融评价结果。

26项ECS研究报告了用户评价结果。在这些研究中,针对特定的用户感知相关指标收集人类评分。三个最
常用的用户指标是移情、相关性和流畅性。在共情测试中,相关的问题是“回答是否表现出理解谈论他们经历的人的感受?”相关性测试的问题是“回答是否适合对话?”他们适合学生观众的主题类吗?而流利度测试的问题是“你能理解这些回答吗?”语言听起来准确吗?”这三个指标是在共情对话研究[13]中首次引入的。

在ECS研究中很少使用其他用户指标。净销售价值(NSV)是在[22]中提出的,通过使用好评(喜欢)和反对票(不喜欢)的数量来衡量对特定ECS实现的偏好。

公式是(#upvotes-#downvotes)*(#upvotes+#downvotes)。在[54]中,一致性和信息性与共情度量一起使用。这两个指标的问题是:哪个响应在内容上更连贯,更与上下文相关,哪个响应传递了更多关于上下文的信息。人类A/B测试在五个研究中进行[25],[51],[52],[73],[96]。在A/B测试中,要求人工注释人员为两个模型(A和B)的每个子抽样测试实例选择具有最佳响应的模型。5 gap和机会ECS研究中的当代方法极大地帮助改善了用户在与ECS交互期间的体验和感知,尽管是在一个开放的设置中。在本节中,我们将强调当前在开放领域和封闭领域背景下ECS研究的差距。

Aspect-level情感识别。这一差距已在以前的调查报告[31]中提及。许多ECS研究在共情反应生成模块之前都有情感检测模块。被检测情绪类别影响移情反应生成。为用户的每条短信标识情感类。在开放域设置中,这种方法似乎部分够用。然而,当ECS部署在特定的领域(例如,客户服务)时,系统需要识别文本中表达情感的实体(方面)。这一研究领域被称为目标依赖情绪分析或基于方面的情绪分析。虽然基于方面的情感分析(ABSA)领域已经得到了广泛的研究[107],[108],但ABEA的研究还没有得到太多的关注。

移情行为类别。由于数据集的性质,目前ECS方法生成的共情反应可能并不适用于所有场景。例如,现有ECS研究中的训练数据集是通过(a)众包、(b)注释社交媒体数据(例如,Reddit[14])和©注释公开可用的相关数据(例如,opentexts[23])准备的。在这些数据集中,人类的同理心反应要么被单独提供,要么被评级增强。关于同理心机制的文献表明,有多种类型的同理心行为,即
镜像、情感匹配、共情关怀、安慰、利他帮助和换位思考[20]。我们假设数据集应该用共情行为类型标签进行注释,这样模型就可以根据共情系统的级别生成更准确的共情反应。

移情结合的方法。在目前的ECS研究中,共情反应是由主反应生成模块(MRGM)直接生成的。尽管该模块中的响应生成模型在某些研究中使用了DailyDialog[79]和BookCorpus[89]等通用对话数据集进行了预先训练,但主要的对话训练数据集使用情感标签和/或共情级别进行了注释。因此,移情反应直接嵌入初级反应中。其他共情融合途径也可以实验。前rgm和后rgm就是这两种途径。在Pre-RGM路径中,一旦NLU模型处理了用户的消息,用户消息的情感类和组成实体以及整个用户消息将被传递到共情响应生成模型(ERGM)。ERGM以文本片段的形式生成移情反应,并将其传递给MRGM,后者将移情片段与主体/意图特定反应结合起来。在Post-RGM路径的情况下,则尝试反向操作。首先,MRGM生成一个响应,然后ERGM通过重写响应将移情部分添加到主要响应中。移情重写任务是最近提出的一项任务,旨在提高心理健康环境中咨询师的移情对话能力[109]。

概念性共情模型和框架的运作化。概念性共情模型和框架(在第3节中介绍)为有效的共情反应生成过程需要考虑的不同方面提供了蓝图。必须指出的是,现有的ECS研究并没有将这些模型和框架中提出的所有功能完全付诸实施。

多模态就是这样一个特性。现有研究提出的方法都是基于语篇情态的。

虽然多模态数据集的可用性是本研究主题的一个持续挑战,但未来的研究应该考虑音频和视频输入,因为ECS实现主要使用多模态输入[28]可以展示全面共情。目前的ECS研究没有考虑到的第二个特征是多层次共情方法。正如[28]中提出的,这种方法将有助于在低、中、高水平上实现共情。这些级别是根据模仿、影响匹配、用户情绪、用户个性、用户喜欢/不喜欢、用户目标和环境等特征进行区分的。

与传统CAI方法集成,用于特定于领域的用例。在现有的ECS研究中,主要任务是在openddomain设置(日常使用)中生成移情反应。然而,这种方法在特定于领域的设置中并不完全可行,因为用户意图检测在定义响应中起着至关重要的作用。很少有研究使用常识KBs从用户的文本信息中提取概念
演绎这些概念之间的关系,以产生更相关的共情反应[54],[64],[65]。理论上,这种方法应该适用于封闭域设置。另一种方法是将不同的任务类型混合到一个单一的模型中,从而增强模型对不同用户意图的响应能力[110],[111]。在特定于领域的CAI实现中,NLU模块被期望检测用户意图并执行槽位填充。在部署特定于领域的ECS时,需要合并这些功能。

本文对共情会话对话系统(ECS)这一主题做出了贡献。综述了目前最先进的概念共情模型、框架和实证研究。基于共情相关的社会科学理论,如心智理论、信念-愿望-意图(BDI)模型和感知-行动机制(PAM)模型,建立共情理论模型的尝试虽然比较全面,但却很少。在此基础上,提出了概念模型、功能模型和框架,重点研究了从用户多模态输入数据中提取和处理有意义特征的方法,以及情感识别和移情反应生成方法。值得注意的是,现有的实证ECS研究并没有完全操作所有的概念模型和框架的思想和特征。本文从操作化概念、数据集、请求处理和响应生成技术以及评估方法和度量等方面对实证研究进行了回顾。在操作化概念下,ECS研究利用外部知识库从用户信息中提取了情绪、情绪、情绪原因、角色和实体及其关系等多个特征。在ECS信息层面,研究嵌入了额外的特征,如范例和表情符号。为了改善用户和ECS代理之间的沟通,很少有研究通过主动和对抗学习加入反馈循环。

移情对话数据集是大多数ECS研究中使用的开创性数据集。活动数据集是通过众包或社交媒体数据(主要来自Reddit)的注释准备的。通用对话数据集DailyDialog和BookCorpus也在一些研究中用于预训练响应生成模型。变压器体系结构在ECS实现的请求处理和响应生成模块中都相当普遍。与对话系统研究领域的趋势相呼应,ECS研究已经加入了最新的体系结构,如T5,以提高模型中的响应生成精度。

离线评价是ECS研究中采用的主要评价方法。虽然在多个研究中尝试了用户评价,但许多评价指标都非常有限,仅限于共情、流畅性和相关性。还可以结合更深入的用户感知指标,满足对话的其他方面。
虽然目前的ECS方法是为一般目的的日常对话量身定制的,但它们并不直接适合特定于领域的上下文。我们认为,目标依赖的情绪识别应该被执行,以提供细粒度的反应。从现有的理论共情模型中引入概念,共情反应可以有更多的变化。由于目前的集成方法并不适用于所有领域特定的场景,因此在响应生成模块中将尝试不同的共情集成路径。

作为未来工作的一部分,我们将首先提出一个多领域共情框架,然后在两个领域实施该框架:客户服务和心理健康。在我们的框架中,我们将包括多级共情系统定义和相应的设计特征、共情整合路径、操作模块和增强的评估指标。这个框架适用于大多数域设置的实现。此外,我们计划设计和实现目标相关/方面级别的情感识别和情感认证算法,因为准确的情感理解是提供全面的、同理心的反应的关键一步。本研究得到英国科学、技术和研究局(A*STAR)在SERC战略基金(C210415006)下的支持。作者非常感谢与Raj Kumar Gupta和Ajay Vishwanath的有益讨论。

你可能感兴趣的:(泛读论文,人工智能)