谷歌AI的临床沟通能力超越人类医生——并且提供了更准确的诊断

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。 

一项训练有素的人工智能(AI)系统进行医疗访谈的表现,与人类医生对话和根据病人的医疗历史列出可能的诊断方面,相匹配甚至超越了人类医生的表现。

这个基于谷歌开发的大型语言模型(LLM)的聊天机器人,在诊断呼吸系统和心血管疾病等条件方面,比获得认证的初级保健医生更准确。与人类医生相比,它在医疗访谈中获取了相似量的信息,并在同理心方面得分更高。

"我们是否已准备好迎接ChatGPT治疗师?"

谷歌健康部门的临床研究科学家、该研究共同作者Alan Karthikesalingam表示:“据我们所知,这是第一次设计一个对话AI系统,为诊断对话和获取临床病史进行了最佳化设计。”该研究于1月11日发表在arXiv预印本存储库上,尚未经过同行评审。

这个名为Articulate Medical Intelligence Explorer(AMIE)的聊天机器人仍然纯粹是实验性的。它还没有在真正有健康问题的人身上进行测试——只在接受训练以模拟医疗条件的演员身上进行了测试。Karthikesalingam说:“我们希望结果被谨慎且谦卑地解释。”

尽管这个聊天机器人还远未用于临床护理,作者们认为,它最终可能在民主化医疗保健中发挥作用。这个工具可能是有帮助的,但它不应该取代与医生的互动,哈佛医学院的内科医生Adam Rodman说。“医学不仅仅是收集信息——它还包括人际关系。”

学习微妙的任务 很少有努力利用LLMs进行医学研究,探索这些系统是否可以模仿医生获取病人病史并使用它来进行诊断的能力。Rodman说:“这是培养医生最重要和最难的技能之一。”

开发者面临的一个挑战是缺乏可用作训练数据的真实世界医疗对话,谷歌健康部门的AI研究科学家、研究共同作者Vivek Natarajan说。为了应对这一挑战,研究人员设计了一种让聊天机器人自己进行“对话”的方法。

研究人员进行了一轮基础LLM的微调,使用了现有的真实世界数据集,如电子健康记录和转录的医疗对话。为了进一步训练模型,研究人员引导LLM扮演特定条件的患者和旨在了解患者病史并制定潜在诊断的富有同理心的临床医生的角色。

团队还要求模型扮演另一个角色:评估医生与接受治疗的人的互动并提供改进互动的反馈的评论家。这种

批评用于进一步训练LLM并生成改进的对话。

为了测试系统,研究人员招募了20名接受过训练以模仿病人的人,并让他们进行在线文字咨询——既与AMIE进行交流,也与20名获得认证的临床医生进行交流。他们不知道自己是在与人类还是机器人聊天。

这些演员模拟了149种临床场景,然后被要求评估他们的体验。一组专家也评估了AMIE和医生的表现。

AMIE在测试中表现出色 AI系统在考虑的所有六个医学专业中达到或超越了医生的诊断准确性。在26个对话质量标准中,机器人在24个方面表现优于医生,包括礼貌、解释病情和治疗、表现得诚实以及表达关心和承诺。

Karthikesalingam说:“这绝不意味着语言模型在获取临床病史方面比医生做得更好。”他指出,研究中的初级保健医生可能不习惯通过文字聊天与病人互动,这可能影响了他们的表现。

相比之下,LLM有能够快速构建长篇且结构完美的答案的不公平优势,Karthikesalingam说,这使得它能够始终保持考虑周到而不感到疲倦。

急需:无偏见的聊天机器人 他说,研究的重要下一步是进行更详细的研究,评估潜在的偏见,并确保系统在不同人群中公平。谷歌团队也开始研究用真实的医疗问题测试系统的伦理要求。

新加坡国立大学医学院的临床AI科学家Daniel Ting同意,探索系统偏见至关重要,以确保算法不会对训练数据集中代表性不足的种族群体造成歧视。

Ting说,聊天机器人用户的隐私也是一个重要方面。他说:“对于目前很多这样的商业大型语言模型平台,我们仍然不确定数据存储在哪里以及如何被分析。”

doi: https://doi.org/10.1038/d41586-024-00099-4

你可能感兴趣的:(人工智能,自然语言处理,机器学习,大数据)