医生与患者之间的对话是确诊病情、建立有效治疗方案的关键所在。然而,现实中并不是所有人都能享受丰厚的医疗资源与医生进行深度咨询。
为了解决这一困境,谷歌的研究人员推出了专门用于医疗咨询的大语言模型AMIE(Articulate Medical Intelligence Explorer)。
AMIE利用一种新颖的自我对话模拟环境,并结合自动反馈机制,以跨不同疾病状况、专业领域和情境进行学习。
研究人员将AMIE与20名初级保健医生在149个临床案例中进行了评估,结果显示,AMIE在诊断准确率和交流水平等多个方面优于医生。
论文地址:https://arxiv.org/abs/2401.05654
模拟对话环境
AMIE是基于谷歌的PaLM 2模型开发而成。为了使AMIE适应不同专科的医生和病例,研究人员采用独创的“模拟病人对话环境”进行训练、微调。
可以根据网络搜索结果自动生成各类病例数据,并由AMIE在里面通过轮流学习与模拟病人对话,不断改进自身能力。
研发团队从三个医学数据库中随机选择疾病情况,通过网络搜索结果生成各类病例描述。随后由AMIE分别扮演患者和医生,在第三方评价机制监督下开展对话。
环境中设有患者模板代理、医生模板代理以及评价模板代理三个角色。患者代理根据提供的病例描述进行回答;医生代理提出问题分析病情;评价代理会根据对话质量给予反馈,帮助医生代理逐步改进交流表现。
这套模拟环境可以自动生成大量规模医疗对话,弥补真实医患交流数据匮乏的缺点,有效扩大了AMIE的学习范围。
自我学习循环
研究人员设计了内外两层循环机制,帮助AMIE实现自我学习。内循环中,AMIE会根据评价反馈不断改进模拟对话效果;外循环中,收集模拟对话增强AMIE的后续训练,建立自我细化循环。
随着训练不断进行,AMIE的交互能力将日益提升;同时通过外循环学习,其医疗知识面也将不断扩充,适应更多医疗情景。
链式推理策略
在真实的医疗对话过程中,AMIE采用了三步链式推理策略。第一步,根据对话历史总结患者症状并提出初步诊断假设;第二步,在此基础上定制回复方案和下一步问诊目标,旨在进一步确定诊断;
第三步,检查回复是否流畅准确,避免重重复问和错误信息,进行必要修订、纠错。研究人员认为,AMIE通过链式思考方式连续优化,相对于单次回复能实现更高的诊断准确率。
测试数据
为了评估AMIE的性能,研究人员设计并进行了一项带有验证的远程客观结构化临床考试。通过文本界面,AMIE与经过验证的模拟患者或初级保健医生进行互动交流。
一共涉及149个临床案例,20名初级保健医生与AMIE进行比较,并由专业医生和患者进行评估。
结果显示,根据专科医生的评估,AMIE在诊断准确性和32个评估维度中有28个优于初级保健医生;而根据患者的评估,AMIE在26个评估维度中有24个维度表现出更好的诊断结果。
本文素材来源AMIE论文,如有侵权请联系删除