#The AI Doctor Is In: A Survey of Task-Oriented Dialogue Systems for Healthcare Applications
##AI医生进来了:面向任务的对话系统在医疗保健应用中的调查
面向任务的对话系统在医疗保健环境中越来越普遍,其特点是体系结构和目标的多样性。尽管这些系统已经在医学界从非技术角度进行了调查,但从严格的计算角度进行的系统审查至今仍然明显缺乏。因此,面向卫生保健的对话系统的许多重要实施细节仍然有限或规定不足,减缓了这一领域的创新步伐。为了填补这一空白,我们调查了最初的4070篇来自知名计算机科学、自然语言处理和人工智能领域的论文,找出了70篇讨论面向任务的对话系统在医疗保健应用程序中的系统级实现的论文。我们对这些论文进行了全面的技术审查,并提出了我们的主要发现,包括发现的差距和相应的建议。
对话系统1每天都出现在许多人的生活中,充当虚拟助手(Hoy, 2018)、客户服务代理(Xu等人,2017),甚至伙伴(Zhou等人,2020)。虽然有些系统被设计成在开放领域进行非结构化对话(聊天机器人),但其他系统(面向任务的对话系统)则帮助用户在特定领域完成任务(Jurafsky和Martin, 2009;秦等人,2019)。面向任务的对话系统可能在健康和医疗保健中发挥重要作用(Laranjo等人,2018年),它们已被越来越多的患者、护理人员和临床医生采用(Kearns等人,2019年)。尽管如此,还是有平移的对话系统的前沿、基础工作与医疗保健环境中原型或部署的对话代理之间存在差距(Newman-Griffis等人,2021年)。这限制了科学进步向现实系统的扩散,限制了基础研究的潜在收益。
我们致力于通过对任务导向的医疗保健对话系统进行全面、科学严谨的分析来缩小这一差距。我们的基本目标是(a)探索这些系统到目前为止是如何被使用的,(b)列出它们的特点、缺点和后续工作的机会。重要的是,我们试图通过从计算的角度广泛调查所包含的系统来解决先前系统审查的局限性。我们的主要贡献如下:我们系统地搜索了来自知名技术场所的4070篇论文,并确定了70篇符合我们的纳入标准的论文。2 2。我们基于许多因素来分析这些系统,包括系统目标、语言、体系结构、模式、设备类型和评估范式等等。
3.我们确定了跨系统的常见限制,包括对体系结构的不完全探索、可复制性问题、伦理和隐私问题,以及对可用性或参与性的最小调查。我们为解决这些问题提供了切实可行的建议,作为未来工作的切入点。
从长远来看,我们希望本次调查中发现的差距和机遇能够促进任务导向的卫生保健对话系统的设计取得更快的进展。我们也希望这项调查能为自然语言处理的研究和实践提供一个有益的起点和综合开发者进入了这一关键但却未被充分研究的应用领域。
2医疗保健领域的相关工作对话系统一直是医学界和临床界最近开展的几项调查的重点(V aidyam等人,2019;拉兰乔等人,2018;卡恩斯等人,2019)。这些调查调查了部署系统的实际使用情况,而不是从技术角度检查它们的设计和实现。相比之下,通过人工智能和NLP的研究和实践来检查这些系统的研究是有限的。Zhang等人(2020)和Chen等人(2017)对通用领域任务导向对话系统的最新进展进行了调查。尽管它们提供了子领域的出色的整体画像,但它们没有深入研究医疗保健设置中特别感兴趣的方面(例如,系统目标兼作临床目标),这限制了它们对这些受众的有用性。
V aidyam等人(2019)、Laranjo等人(2018)和Kearns等人(2019)对部署在精神卫生(V aidyam等人,2019)或一般卫生保健(Laranjo等人,2018;卡恩斯等人,2019)设置。
V aidyam等人(2019)研究了10篇文章,Laranjo等人(2018)和Kearns等人(2019)分别研究了17篇和46篇文章。所有的调查都是为医疗受众编写的,关注医疗保健问题和影响,很少涉及AI、NLP或一般计算机科学场所的文章。
黑山等人(2019)和Tudor Car等人。
(2020)最近分别审查了40篇和47篇文章,涵盖了医疗保健领域的会话代理。这两项调查与我们的调查最接近,但在重要方面有所不同。首先,我们的重点是一类特定的会话代理:面向任务的对话系统。Montenegro等人(2019年)和Tudor Car等人(2020年)的调查使用了更广泛的搜索,结合他们的能力提供广泛的技术深度。我们还审查了更多的论文(70篇文章),然后使用更彻底的分类学进行筛选,作为分析的一部分。我们认为与之前的调查不同的一些方面包括总体对话系统体系结构、对话管理体系结构、系统评估方法以及开发和/或评估系统时使用的数据集。
我们根据我们的目标设计了搜索标准,以填补医疗保健领域基本对话系统研究和应用系统之间的翻译信息空白。为此,我们从备受尊敬的计算机科学、人工智能和NLP数据库中检索文章,并对它们进行筛选,以关注为医疗保健环境设计的面向任务的对话系统。我们的目标数据库是:(1)ACM,3 (2) IEEE,4 (3) ACL文集,5和(4)AAAI数字图书馆。6 ACM和IEEE是来自许多CS领域的著名会议和期刊的论文的大型数据库,包括但不限于机器人、人机交互、数据挖掘和多媒体系统。ACL选集是国家语言处理内部的主要出版物数据库,收录了来自主要会议和特定主题场所的论文(例如,由话语与对话特别兴趣小组组织的SIGDIAL)。AAAI数字图书馆不仅收藏了AAAI人工智能会议的论文,还收藏了其他人工智能会议、人工智能杂志和人工智能研究杂志的论文。在识别论文时,我们应用了以下入选标准:•主要焦点必须是任务导向对话系统的技术设计或实现。
•系统必须为健康相关应用设计。
文章不能专注于系统架构的某个特定模块(例如,健康相关对话系统的自然语言理解部分)。
虽然范围较窄。在对话系统社区发表时,这些论文往往更强调技术设计,而不考虑应用程序上下文,提供较少的系统级特征覆盖,这些系统级特征是本次调查的目标。我们在筛选过程中遵循了四个步骤。首先(初始搜索),我们对数据库应用预定义的搜索查询来填充我们的初始论文列表。为了生成查询,我们使用了关键字“面向任务”、“对话系统”、“会话代理”、“健康”和“医疗保健”,以及这些关键字的同义词和缩写。我们将这些关键词单独以及相互结合的论文列入了入围名单。
接下来(标题筛选),我们通过阅读标题对最初的论文列表进行初步筛选,保留那些满足纳入标准的论文。然后(摘要筛选),我们将标题筛选后剩下的论文列表进行筛选,并阅读摘要,保留满足纳入标准的论文。最后(Final Screening),我们对抽象筛选后剩下的论文进行正文阅读,并保留符合纳入标准的论文。
这些漏斗过滤过程是由一名计算机科学研究生(流利的第二语言英语使用者)使用预定义的搜索和筛选指南进行的。关于论文是否符合纳入标准的问题或不确定因素将被转给资深项目负责人(计算机科学教授,精通NLP,能说一口流利的母语英语),并通过双方的讨论达成最终共识。我们在表1中详细列出了每个筛选步骤后剩余的论文数量。总的来说,这个筛选过程结合我们后续的调查方法跨越了8个月,涵盖了2021年1月之前发表的论文。
共有70篇论文(21篇来自ACM, 31篇来自IEEE, 16篇来自ACL, 2篇来自AAAI7)满足纳入标准。我们根据广泛的参数调查了符合我们的纳入标准的论文,并在以下提出了我们的发现
分组为主题类别的子部分:本体(§4)、系统架构(§5)、系统设计(§6)、数据集(§7)和系统评估(§8)。
我们将每篇论文映射到其研究领域(§4.1)、系统目标(§4.2)、目标受众(§4.3)和语言(§4.4),并展示我们的发现。
4.1研究领域任务导向的对话系统可能对社会医疗保健的许多方面产生潜在影响(Bickmore和Giorgino, 2004)。我们将研究领域定义为系统运行的医疗保健领域。我们根据所调查的系统确定了广泛的领域和更具体的子类别,如图1所示。广泛的领域类别包括精神健康、身体健康、健康信息、患者协助、医生协助、认知或发育健康以及其他(包括不易划分为一个更广泛领域的子类别)。
精神健康领域的系统支持有精神或心理健康状况的个体,而认知或发展健康领域的系统与有影响记忆、执行或其他认知功能状况的个体非常相似。身体健康领域的系统针对有特定身体健康问题的个人,包括传染性(如Covid-19)、非传染性(如癌症)和暂时性(如怀孕)
南希)条件。提供健康信息的系统执行一般性操作,如提供建议或建议疾病诊断。
最后,执行病人协助或医生协助的系统支持特定的以病人或医生为重点的医疗保健任务。为心理健康、身体健康和健康信息设计的对话系统最为普遍,覆盖了纳入的70篇论文中的51篇。
4.2系统目标面向任务的对话系统定义了相对于目标任务的目标的价值。我们将系统目标定义为系统为之设计的医疗保健任务。一些系统目标可能与单个领域密切相关,而另一些目标可能发生在许多不同的领域(例如,监控精神、身体或认知状况)。因此,尽管研究领域和系统目标可能经常相关,但不一定有直接的联系。
被纳入的系统被分类为:诊断健康状况(例如,通过预测用户是否患有认知能力下降);监控用户状态(例如,通过跟踪他们的饮食或定期检查他们的情绪);通过解决用户的健康问题或改善他们的状态进行干预(例如,教儿童如何将面部表情映射到情绪);向用户提供建议,但不提供任何直接干预(例如,倾听用户的关切并与他们感同身受);或者通过提供信息或指导来帮助用户(例如,回答正在填写表格的用户的问题)。许多系统也被归类为多目标,这意味着它们被设计为不止一个目标。
表2显示了具有每个目标的系统的数量。许多系统(25/70)被取消
签署了多个目标目标。在多目标系统中,诊断和辅助设计的频率最高(7/25);我们在附录的表8中提供了关于这些系统的更多细节。
另外,我们还将参与的作用作为每个系统的目标。我们将其定义为让目标用户参与互动的目标,而不考虑潜在的健康目标。
参与在医疗保健环境中可能特别有意义,因为它在鼓励采用或遵守医疗保健结果方面至关重要(Montenegro等人,2019年)。令人惊讶的是,近60%的论文(70篇调查论文中的41篇)没有提到任何与用户参与更多交互有关的目标。
4.3目标受众医疗系统的最终消费者通常分为三类:患者、护理人员和临床医生。表3显示了关注每个类别的被调查系统的数量。我们发现,在70个任务导向对话系统中,有59个是专门为患者设计的。
4.4语言大多数通用域对话系统研究都是用英语和其他高资源语言进行的(Artetxe等人,2020年)。扩大语言多样性可使与卫生有关的对话系统在全球范围内受益。如图2所示,在我们审查的系统中,大多数(56%)是为说英语的人设计的。令人鼓舞的是,一些纳入的系统确实专注于较低资源的语言,包括泰卢固语(Duggenpudi等人,2019)、孟加拉语(Rahman等人,2019)和塞茨瓦纳(Grover等人,2009)。
我们研究了系统的一般架构(§5.1),如果适用的话,还研究了对话人
面向任务的对话系统通常使用管道或端到端体系结构进行设计。
管道体系结构通常由用于自然语言理解、对话状态跟踪、对话策略和自然语言生成的独立组件组成。对话状态跟踪器和对话策略的集合是对话管理器(Chen et al., 2017)。端到端体系结构训练单一模型为给定输入产生输出,通常与结构化的外部数据库交互,并需要大量的训练数据(Chen等人,2017)。如表4所示,只有2.85%的论文(70篇调查论文中的2篇)实现了端到端系统;考虑到大多数医疗保健领域可用的培训数据有限,这并不令人惊讶。我们还发现14%(10篇论文)没有直接指定他们开发的系统的体系结构。
5.2对话管理架构与影响用户体验和用户粘性但不影响基本决策的其他管道组件不同,对话管理器是整体功能的核心(赵等人,2019);因此,我们对此给予特别关注。在基于规则的方法中,系统根据预定义的一组规则与用户交互,成功的条件是覆盖所有相关案例(Siangchin和Samanchuen, 2019)。基于意图的方法试图从对话中提取用户的意图,然后执行相关的行动(Jurafsky和Martin, 2009)。在混合对话管理体系结构中,系统利用基于规则和基于意图的方法的组合,最后利用基于语料库的方法挖掘人与人对话的对话,并使用检索方法或生成方法生成响应(Jurafsky和Martin, 2009)。如表5所示,在报告对话管理体系结构的论文中,我们观察到基于规则、基于意图和混合体系结构的相当均匀的组合。
情态情态是计算机与人之间交换信息的通道(Karray et al., 2008),在对话质量和用户满意度方面发挥着重要作用(Bilici et al., 2000)。单模态系统使用单一模态进行信息交换,而多模态系统使用多种模态(Karray et al., 2008)。
本调查中审查的系统使用几种模式中的一种或多种进行操作。在基于文本的交互和语音交互中,用户分别通过打字和语音与系统进行交互。在图形用户界面交互中,用户通过使用视觉元素与系统进行交互。
一般来说,多模式对话系统可以是灵活和健壮的,但在医疗领域实现尤其具有挑战性(Sonntag等人,2009年)。我们发现49篇论文描述了单峰系统,21篇描述了多峰系统。Ta -Ble 6提供了关于它们在不同模式间分布的更多细节。
6.2设备对话系统可以促进使用各种设备的交互(Arora等人,2013),从电话(Garvey和Sankaranarayanan, 2012)到计算机(McTear, 2010)到任何其他允许交互的技术(例如,基于虚拟现实的化身(Brinkman等人,2012b;McTear, 2010))。我们将包含的系统分类为移动、电话、桌面/笔记本电脑、车内、PDA、机器人、虚拟环境或虚拟现实(包括虚拟代理和虚拟化身)系统,如果系统利用多个设备进行交互,则将系统视为多设备。如图3所示,我们发现多设备和基于手机的对话系统是最受欢迎的。附录中的表9提供了关于多设备系统的其他详细信息。
数据集数据集对于有效的系统开发是至关重要的(Serban等人,2015年),但许多用于训练对话系统的数据集比用于其他NLP任务的数据集要小(Lowe等人,2017年)。这在医疗保健领域更加明显,部分原因是数据被他人滥用的风险或缺乏数据共享激励(Lee和Y oon, 2017)。
我们回顾了每篇论文中关于系统开发过程中使用的数据的信息,重点关注数据集的大小、可用性和隐私保护措施。只有20篇论文提供了所用数据的详细信息(两篇论文提供了数据集的链接,其余18篇论文讨论了数据集的大小)。不幸的是,其余的论文没有为缺乏数据或其他可复制性信息提供理由。我们的假设是,数据通常包含敏感信息,防止作者公布具体细节,但70篇纳入的论文中只有19篇提供了与数据相关的隐私或伦理考虑的信息。只有10个提到了机构审查委员会(IRB)对他们的数据集和/或任务的批准,尽管IRB(或类似的)审查是确保研究在伦理上进行并以尽可能保护人类受试者的方式进行的关键一步(Amdur和Biddle, 1997)。
我们对系统进行定性和定量评估的方法进行了研究(Deriu等人,2019;Hastie, 2012)。我们定义了人类评价,通常通过问卷调查在之前的工作中实施(Grover et al., 2009;福尔摩斯等人,2019;Parde和Nielsen, 2019;Wang等人,2020年)或来自现实世界用户的直接反馈(Deriu等人,2019年),作为一种依赖主观、一手、人类用户体验的评估。相比之下,自动评估从数学角度对系统的一个或多个维度提供了客观、定量的度量(Finch和Choi, 2020)。
用于对评审系统进行自动评估的一些指标包括任务性能(Ali等人,2020年)和完成率(Holmes等人,2019年)、响应正确性(Rosruen和Samanchuen, 2018年)和响应时间(Grover等人,2009年)的度量。在表7中,我们观察到近一半的论文进行了人工评价;然而,很大比例(37%)的人也完全没有讨论评估。我们进一步分析了进行人体评估的论文,发现它们平均包括26个(模式= 12)参与者。附录的表10、11和12提供了关于人工和自动评估的更多细节。在对系统可用性(定义为用户能够安全、有效、高效和愉快地使用系统的程度)的后续分析中(Lee et al., 2019),我们观察到33篇论文明确地评估了他们系统的可用性。
我们在许多被调查的系统中发现了共同的局限性,并提出了在未来工作中解决这些问题的建议。
9.1系统设计的不完全探索我们观察到在被调查的系统中几乎没有系统级体系结构多样性,大多数(83%)具有管道体系结构。这种体系结构的同质性限制了我们对该领域内良好设计实践的理解。最近的研究表明,如果有足够的高质量数据,面向任务的对话系统的端到端架构可以与管道架构竞争(Hosseini-Asl等人,2020;哈姆等人,2020年;Bordes等,2017;温等人,2016)。然而,在许多医疗保健子领域中,端到端系统经常利用的外部知识来源是出了名的复杂(Campillos-Llanos等人,2020年)。此外,对于医疗保健应用程序来说,可解释性是非常需要的(Ham等人,2020年),但在端到端系统中,解释常常是模糊的(Ham等人,2020年;温等人,2016)。最后,这些系统的用户可能会在敏感话题上寻求指导,这可能加剧隐私问题(Xu等人,2021年)。任何在大型、弱策划数据集上训练的系统也可能学习不愉快的行为,并放大训练数据中的偏见,进而产生有害的后果(Dinan等人,2021年;Bender等人,2021年)。我们建议进一步进行架构设计实验,同时努力开发高质量的医疗保健对话数据集,迄今为止,这些数据集仍然稀缺(Farzana等人,2020年)。
我们注意到相当多的系统(33%)只允许基于文本的交互。然而,已经确定的是,来自特定人口统计群体的个体更习惯于通过语音对话系统交谈(Tudor Car et al., 2020)。基于文本的系统也可能更容易侵犯隐私(Tudor Car等人,2020年)。因此,我们建议研究人员在适用和适当的情况下,进一步探索多模式或口语对话系统。
许多被调查的系统也在手机上实现。尽管基于移动的系统的一个优势是使用大多数用户熟悉的技术可以随时获得这些系统,但Lee等人(2018)发现,当用户长期使用移动健康应用程序时,随着时间的推移,他们的使用量显著减少。Tudor Car等人(2020)提出,克服基于移动系统的这种限制的一种方法是将它们直接嵌入用户已经习惯使用的应用程序或平台中(例如,Facebook Messenger)。这种更环境的传播方法可能有助于更容易和更持久地集成个人日常生活中的系统使用。
最后,我们发现大多数系统(84%)只针对患者,针对临床医生和护理人员的系统研究仍然有限。我们建议进一步探索针对这些关键受众的系统。这可能为理解、诊断和治疗患者的健康问题提供广泛、高影响的支持(V alizadeh等人,2021年;Kaelin等人,2021年)。
9.2可复制性问题数据可访问性限制降低了公共卫生研究的能力(Strongman等,2019),这些限制可能是管道与端到端架构不平衡的部分原因(§9.1)。只有一小部分被调查的论文(29%)冒险讨论了系统开发过程中以任何方式使用的数据的数量或特征。缺乏数据透明度阻碍了科学进步,并严重阻碍了可复制性。我们呼吁研究人员在管理协议允许的情况下发布数据,在情况允许的范围内发布描述性统计数据。我们还将高质量、公开可用的数据集的开发视为翻译对话系统研究的一个重要前沿(§9.1)。
许多被调查的论文还缺乏重要的实施细节,如评估方法ods(34%)。这阻止了研究界复制已开发的系统和更广泛地推广研究结果(Walker等人,2018年)。已有完善的指导方针,并正在NLP社区中日益得到执行,以防止可重复性问题(Dodge等人,2019年)。在许多卫生保健对话系统中观察到的对可复制性最佳做法的忽视,部分原因可能是这项工作最常见的目标场所可能不太重视复制。这证实了发表这项调查的一个核心动机——如果没有在跨学科、翻译研究中充分包含目标领域和技术利益相关者,进展将仍然受到限制。我们强烈敦促该领域的研究人员在他们的出版物中提供实现细节。
9.3潜在的伦理和隐私问题现实世界的医疗数据有助于开发高质量的医疗保健应用程序(Bertino等人,2005年;Di Palo和Parde, 2019;Farzana等人,2020年),但保护数据贡献者的权利和隐私对于确保道德研究行为至关重要(美国医学研究所,2009年),正确处理版权保护也是如此。我们对所有纳入的论文进行了隐私和伦理问题的筛选,发现只有27%的被调查论文在系统设计时考虑了参与者或患者的隐私。此外,只有14%的调查论文记录了任何机构审查委员会(或irb)批准的证据。
涉及卫生保健对话系统的研究无疑是以人为本的,因此,在此类系统的设计中缺乏伦理监督是一个严重的问题。虽然进入这个领域的技术研究人员可能不熟悉人体受试者研究和协议,但我们敦促所有对话系统研究人员提交他们的实验设计和协议,以供适当的外部审查委员会审查。我们还要求研究人员考虑使用或滥用其系统的潜在危害,遵循ACM道德规范建立的指导方针。增加语言多样性的空间我们观察到大多数系统(56%)针对的是英语使用者。开发多语言对话系统或资源贫乏的使用者系统语言带来了各种各样的挑战(LópezCózar Delgado和Araki, 2005),但解决这个问题可能会给非英语社区的个人带来巨大的好处,这些社区的医疗保健服务很少或不可靠。Duggenpudi等人(2019)、Rahman等人(2019)和Grover等人(2009)开发的系统提供了如何实现此类系统的案例示例。我们还注意到,尽管令人不安,但56%针对英语使用者的系统份额与该领域的语言同质性总体上是一致的,实际上与许多其他NLP任务相比略低(Mielke, 2016;本德,2009)。医疗保健对话系统可能在某种程度上提供了一个案例示例,说明如何调整和重新设计最初为高资源(例如,英语)设置设计的应用程序,以更好地覆盖不同的、真实世界的潜在用户基础。
最后,超过50%(37/70)的纳入论文没有评估系统可用性或一般用户体验。可用性测试可以提高生产力并防止错误(Rogers等人,2005年),这两者在医疗保健任务中都是至关重要的。因此,我们敦促研究团体在为该领域设计时考虑并评估可用性。在已经做到这一点的被调查系统中(例如,由Wang等人(2020)、Lee等人(2020b)、Wei等人(2018)或Demasi等人(2020)开发的系统)为如何实现这一点提供了案例示例。
近60%的受访系统没有明确地设计来吸引用户,尽管这是一般领域的一个共同目标(Ghazarian等人,2019年)。医疗保健对话系统可能会特别受益于这些措施(Parde, 2018),因为患者参与可以预测采用和遵守医疗保健结果(Montenegro等人,2019)。为了提高用户满意度和系统性能,我们建议研究界在设计面向医疗保健的对话系统时,更有目的性地考虑用户参与。
在这项工作中,我们对用于健康相关目的的任务导向对话系统进行了系统的技术调查,提供了急需的信息从计算的角度分析和缩小基础和应用对话系统研究之间的翻译差距。我们全面搜索了计算机科学、NLP和AI数据库中的4070篇论文,找到了70篇满足我们的纳入标准的论文。我们分析了这些论文基于许多技术因素,包括研究领域、系统目标、目标受众、语言、系统架构、系统设计、训练数据集和评估方法。在此之后,我们确定并总结了现有工作中的空白,包括对系统设计的不完全探索、可复制性问题、潜在的伦理和隐私问题、增加语言多样性的空间,以及对可用性或用户参与度的最小调查。
最后,我们提出了基于我们的研究结果的基于证据的建议,作为未来工作的出发点。我们希望有兴趣的研究人员发现,本调查中提供的信息对开发面向任务的对话系统的医疗保健应用程序是一个独特的和有帮助的资源。
除了讨论中提出的具体变化之外,重要的是要考虑在医疗环境中以任务为导向的对话系统的更广泛的伦理影响。尽管这种系统的目标可能不是取代人类医疗保健提供者,但部署的系统可能会支持临床医生,为负担过重的个人减轻工作量。在此过程中,这些系统可能会对医疗决策产生重大影响。机器是不完美的,因此可能的危害是这些系统可能会误解用户输入或做出错误的预测——在高风险的医疗保健环境中,这种错误可能是有害的,甚至是危险的。研究人员和开发人员应认识到在医疗保健环境中使用和滥用面向任务的对话系统可能造成的危害,并应实施自动化(例如,诊断建议的严格阈值)和人工(例如,培训以确保员工意识到潜在的系统错误)保障措施。
此外,这些系统的一个潜在好处是,它们有可能有意义和有益地将医疗保健服务扩大到服务不足的人群。因此,确保自动化系统不受同样偏见的影响是很重要的经常在人类医疗保健提供者中观察到(菲茨杰拉德和赫斯特,2017年)。训练系统使用不代表目标人群的数据集执行医疗保健任务,如果用户已经经历边缘化或在其他方面处于弱势,则可能表现出较差的性能,从而阻碍甚至逆转受益。我们呼吁研究人员检查、消除偏见并整理他们的培训数据,使面向任务的对话系统为医疗保健应用程序提高而不是降低为历史上服务不足的用户提供的结果,这是他们最有可能受益的。
本材料基于美国国家科学基金会资助的2125411号基金和伊利诺斯大学芝加哥分校的启动基金的支持。任何意见、发现、结论或建议都是作者的观点,并不一定反映国家科学基金会的观点。我们感谢匿名审稿人的深刻建议,进一步加强了这项工作。