基于Gemini 1.5长上下文能力，谷歌对话式医疗系统AMIE在100例多次就诊场景中达到全科医师的推理水平

原创于 2026-06-22 18:24:22 发布 · 113 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #Google #医疗大模型 #前沿科技 #数字健康

ScienceAI 专栏收录该内容

335 篇文章

订阅专栏

大语言模型正加速进入医疗健康领域，其应用已从文献检索、病历生成延伸至临床决策支持。其中，辅助诊断是当前较为成熟的方向之一：经医学微调的模型能够基于病史、体征和检查结果给出较高质量的鉴别诊断；具备多轮对话能力的系统，也可通过问诊式交互补充病史信息。

但诊断只是临床决策的起点。真正影响治疗质量的，往往是诊断之后的管理决策——是否需要检查、如何选择治疗方案、何时调整用药、怎样安排随访，以及如何根据病情变化持续修正计划。这类「管理推理」更接近真实临床工作的核心，也更考验模型对循证指南、临床路径、药物知识和患者个体差异的综合理解。

相较于诊断推理，管理推理的评估难度更大。诊断问题通常存在相对明确的标准答案，而管理决策往往没有唯一解，还受制于医疗资源、指南体系、用药可及性和医生经验。目前医学教育中，评价这类综合能力的主要方式仍是客观结构化临床考试（OSCE），但其依赖真人互动和专家评分，难以直接用于大语言模型的自动化评测。

针对这一空白，Google Deepmind 与 Google Research 近期一项研究以其对话式医疗系统 AMIE 为基础，进一步开发了一套全新的基于 LLM 的智能 Agent 系统，使其能够针对多次随访场景进行临床管理和医患对话优化。AMIE 利用了 Gemini 模型的长上下文能力，通过结合上下文检索（in-context retrieval）与结构化推理（structured reasoning），使其输出能够与最新的临床实践指南和药物处方目录保持一致。

在一项随机、双盲的虚拟客观结构化临床考试（OSCE）研究中，研究人员将 AMIE 与 21 名初级保健医生（PCP）进行了比较。测试涵盖 100 个多次就诊案例场景，案例设计参考了英国 NICE 指南和 BMJ Best Practice 临床规范。结果显示，在由专科医生评估的疾病管理推理能力方面，AMIE 的表现不逊于（non-inferior）人类医生；同时，在治疗方案和检查建议的准确性，以及对临床指南的遵循程度和知识依据的可靠性方面，AMIE 的得分均优于医生群体。

相关研究成果以「Towards Conversational AI for Disease Managemen」为题，已发表于 Nature。

研究亮点：

* 该研究将对话式医疗系统 AMIE 的能力从单轮诊断推进到覆盖疾病纵向演变、多次就诊决策、治疗应答反馈和药物处方的全流程临床管理推理

* 系统利用 Gemini 的长上下文能力，将上下文内检索与结构化推理相结合，使管理方案的输出能够与NICE指南、BMJ 最佳实践等权威临床知识保持高度一致

* 在方案整体适当性、治疗推荐质量和检查推荐精确性等多项指标上，系统表现均达到或超过全科医师水平

查看论文：
https://www.nature.com/articles/s41586-026-10764-5

数据集：从单次问答走向纵向临床场景

为了评估对话式医疗人工智能在长期管理推理中的真实能力，研究团队构建了一套多层级数据体系，既覆盖多次就诊的临床场景，也纳入循证指南和药物知识，用于模型训练、方案生成和标准化评测。

核心评测载体是一套「多就诊虚拟 OSCE 场景数据集」。研究共编制 100 套独立病例，均匀分布在心脏病学、肺病学、妇产科/泌尿学、胃肠病学、神经学/肌肉骨骼学五个专科，每个专科 20 套。所有病例由加拿大和印度的临床医师联合设计，并参照 NICE 临床指南和 BMJ 最佳实践指南中的诊疗路径构建。

与常见的单轮医学问答不同，这些病例都被设计为连续三次就诊。每套场景不仅包含患者的初始主诉，还包括症状演变、治疗反应、辅助检查结果回报等纵向信息，尽量还原慢病管理和复杂病例随访中的真实决策节奏。为了增加临床难度，部分病例还加入了信息不一致、多系统共病等要素，用以检验系统在非标准情况下的判断能力。除 100 套正式评测病例外，研究还设置了 20 套验证场景，用于预实验和评分校准。

循证依据则来自一个临床指南知识库。该知识库共收录 627 份文档，包括 527 份 NICE 指南和 100 份 BMJ 最佳实践文档，总规模约 1,050 万 token，内容涵盖诊断标准、检查路径、治疗方案和随访规范。评测过程中，这一知识库同时向 AI 系统和参评全科医师开放，以模拟真实临床中查阅指南资料的情境，也尽量保证人机对照的公平性。

药物决策是管理推理中不可或缺的一环。为此，研究团队还构建了 RxQA 专项基准，用于评估模型对药品说明书、适应证、禁忌证、剂量和用药风险的理解能力。该基准包含 600 道选择题，题目来源于美国 OpenFDA 和英国国家处方集中的药品说明书，分为基础简短问题和长场景综合题两类。题目初稿由 Gemini 模型根据说明书生成，再由来自两国的 8 名执业药师逐题审核、修订并标注难度。受许可限制，目前公开的是其中源自 OpenFDA 的 300 道题，为药物推理能力比较提供了一个标准化参照。

AMIE 模型：让系统同时具备「对话能力」和「深度管理能力」

该研究以谷歌此前提出的对话式医疗系统 AMIE 为基础，针对管理推理需求进行了专项升级。新系统采用双智能体协同架构，设计思路借鉴了认知科学中的「双过程理论」：一个智能体负责快速、连续的医患对话，另一个智能体负责较慢但更深入的管理推理。底层模型统一使用 Gemini 1.5 Flash，以兼顾实时响应速度和长上下文推理能力。

具体来看，系统由对话智能体（Dialogue Agent）和 Mx 管理推理智能体（Mx Agent）组成。对话智能体更接近「系统1」：它负责与患者进行实时交流、追问病史、解释方案，并在对话过程中维护患者状态。Mx 智能体则更接近「系统2」：它主要负责基于完整病程信息和临床指南，生成结构化、可追溯的管理计划。两者通过共享状态模块同步信息，对话智能体可以随时调用 Mx 的推理结果，从而在保持自然交流的同时，确保医学建议具有较强的指南依据。

AMIE 模型的系统架构

作为交互枢纽，对话智能体相比原有诊断模型做了三方面升级。第一，基础模型更换为具备长上下文能力的Gemini 1.5 Flash，使其能够处理更长的病程记录和多轮对话信息。第二，训练数据中新增了多次就诊模拟对话，用于强化系统对病情演变和长期管理的理解。第三，在监督微调之后，研究进一步加入基于人类反馈和AI反馈的强化学习，以优化对话质量和决策表现。

在实时推理过程中，对话智能体采用「规划-生成-完善」的三步流程：先根据当前状态规划下一步问诊或回应重点，再生成面向患者的自然语言回答，最后进行自我检查和修正。为了支撑跨就诊的连续管理，它还维护一套模块化状态结构，包括患者摘要、鉴别诊断、当前管理计划等信息，并在后台持续更新，避免每次对话都从零开始。

Mx 智能体则是整个系统中承担深度管理推理的核心模块。它充分利用 Gemini 1.5 Flash 的长上下文能力，采用「粗检索+全上下文推理」的策略，尽量减少传统分块检索可能带来的信息割裂。系统首先通过 Gecko 1B 嵌入模型为全部指南文档建立索引，再根据当前患者病例生成自然语言查询，从指南库中筛选出约6份高度相关的完整文档，总规模约 25.6 万 token。随后，系统将这些指南全文与患者完整病程信息一并输入模型，让模型在单次调用中完成跨文档、跨阶段的整体推理。

为了提高输出的可用性和可审计性，Mx 智能体采用 JSON 模式约束生成结果，并按照「分析临床情况—定义管理目标—制定管理步骤并标注指南出处」的框架输出。每条建议都需要附带对应的指南引用。与此同时，系统会先独立生成 4 份管理草案，再基于指南原文进行整合和完善，以提高最终方案的完整性和适配性。

在 15 项指标上均不劣于全科医师

为了验证升级后系统的临床管理推理能力，该研究采用随机、盲法的虚拟 OSCE 框架，并结合 RxQA 药物基准测试，将 AMIE 系统与 21 名全科医师进行对照。整体评估围绕三个维度展开：诊疗方案整体质量（the overall quality of the management plan）、检查项目推荐质量（the quality of investigation recommendations）、治疗方案推荐质量（the quality of treatment recommendations）。

在临床评测中，系统和全科医师均需要完成 100 套多就诊病例。30 名专科医师和标准化患者分别从专业质量和就医体验两个角度进行盲法评分。也就是说，评分者并不知道方案来自 AI 系统还是人类医生，从而尽量减少身份偏见对结果的影响。药物测试则设置闭卷和开卷两种环境，用于观察外部资料是否会改变系统和医生的表现。

结果显示，在诊疗方案整体质量方面，系统在全部 15 项评估维度上均不劣于全科医师，并在多项指标上表现出统计学优势。以方案整体适当性为例，系统在三次就诊中的得分分别为95%、96% 和 98%，高于全科医师的 72%、80% 和 81%。治疗推荐适当率方面，系统分别为 87%、90% 和 94%，同样高于全科医师的 66%、62%和71%。

在检查和治疗推荐的精确性上，系统也表现出持续优势。其治疗推荐精确率稳定在 95% 以上，而全科医师为 62% 至 67%。指南依从性方面，由于系统每条建议都要求提供明确引文，其可追溯性明显优于人类医生。这一结果提示，长上下文推理与指南原文整合机制，可能有助于提升模型在复杂管理任务中的稳定性和可解释性。

管理计划质量

在双视角偏好评估中，研究覆盖了 10 项管理推理核心维度，共形成 51 组比较。近半数案例中，专科医师和患者认为双方表现相当；在出现明确偏好的案例中，系统胜率为 47%，明显高于全科医师的 7%。更值得注意的是，专科医师与患者的评价趋势较为一致，说明系统的优势不仅体现在专业判断上，也体现在患者体验相关维度上。

随着就诊次数增加，系统在动态监测、接诊流程和医患关系等时间相关维度上的优势更加明显。这一点与研究初衷相吻合：管理推理的难点，恰恰不在某一次回答是否正确，而在于能否把病情变化、治疗反馈和下一步计划连续地串联起来。

可视化展示 51 组独立维度的偏好占比

药物推理方面，RxQA 基准显示，系统在药师评定的高难度试题上优于全科医师。闭卷环境下，系统准确率为 50.6%，全科医师为 41.5%；开卷环境下，系统为 57.9%，全科医师为 47.8%。在低难度试题上，双方差异不显著。开卷资料对系统和医生都有帮助，尤其在低难度题目中提升超过 20 个百分点；在高难度题目中，提升幅度较小，但仍具有统计学意义。这说明，在复杂药物信息整合任务中，模型具备一定相对优势，但外部资料本身并不能完全解决高难度药物推理问题。

RxQA 药物推理准确性

写在最后

这项研究的价值，不在于证明医疗大模型已经可以替代医生，而在于把评估重点从「能否诊断」推进到了「能否持续管理」。相比单轮问答，管理推理更接近真实临床：医生需要在病程变化、治疗反馈、指南证据和患者个体差异之间不断调整判断。研究提出的多就诊虚拟OSCE、指南知识库、药物专项基准和双智能体系统，为医疗AI评测提供了更贴近临床的框架。但虚拟环境仍无法完全还原真实医疗中的身体检查、资源限制、患者依从性和责任边界。

因此，更稳妥的判断是：医疗大模型正在从「辅助诊断」走向「辅助管理」，其短期价值不是替代医生做最终决定，而是在病程梳理、指南匹配、用药核查、随访计划和患者沟通中，成为一个可追溯、可审查、可持续更新的临床决策支持工具。