MedOpenClaw:给GPT-5.4更多工具反而变差,TUM+牛津+帝国理工揭开工具使用悖论

张开发
2026/4/9 1:59:59 15 分钟阅读

分享文章

MedOpenClaw:给GPT-5.4更多工具反而变差,TUM+牛津+帝国理工揭开工具使用悖论
导读———————————————————————————————————————————当AI模型能力越来越强给它更多专业工具诊断准确率就一定更高吗TUM、牛津大学、帝国理工学院等八所机构的联合团队给出了一个反直觉的答案GPT-5.4在接入专业分割工具后Brain MRI诊断准确率从0.61降至0.57Lung CT/PET从0.32降至0.27。这一工具使用悖论的根源在于当前VLM缺乏毫米级空间定位精度工具生成的错位mask反而误导了后续诊断推理。为验证这一发现团队构建了MedOpenClaw可审计的医学影像Agent运行时和MedFlowBench唯一同时满足多模态影像、跨模态推理、主动探索、鉴别诊断、Agent式执行五个维度的医学影像基准让VLM首次像放射科医生一样在3D Slicer中操作完整的影像检查。本文将拆解这套评估体系的设计逻辑以及工具越多、效果越差背后的技术原因。论文信息标题MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies作者Weixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan机构Technical University of Munich (TUM), TUM University Hospital, LMU Munich, Imperial College London, University of Oxford, Carnegie Mellon University, National University of Singapore, Munich Center for Machine Learning一、为什么现有医学AI评估太简单了现有医学影像VLM的评估方式存在一个根本性问题它们测试的并不是放射科医生真正在做的事。目前主流的医学影像基准如VQA-RAD、SLAKE、OmniMedVQA等采用的是静态图像问答范式——预先挑选好2D图像喂给模型让模型回答问题。这种方式有两个致命缺陷第一预选图像跳过了临床诊断中最关键的步骤。真实的放射科工作流中医生需要面对完整的3D体积数据自主选择序列、在切片之间来回滚动、调整窗宽窗位、融合多个模态最终才能做出判断。预选好的2D图像直接绕过了这些操作相当于把开卷考试变成了填空题。第二决策过程完全不透明。模型接收图像、返回答案但中间看了什么、关注了哪个区域、如何得出结论全部是黑盒。这在临床场景中不可接受——没有可追溯的证据链就没有临床信任的基础。论文用一张对比表将MedFlowBench与15个以上的已有基准逐维度比较对比维度包括多模态影像Multi-imaging modality、跨模态推理Cross-modality in case、主动探索Active exploration/request、鉴别诊断Differential diagnosis、Agent式执行Agentic execution required。结果显示MedFlowBench是唯一同时满足全部五个维度的基准而其他基准最多只覆盖其中两到三个。二、MedOpenClaw让VLM像放射科医生一样操作3D SlicerMedOpenClaw不是一个模型而是一个运行时和API层runtime and API layer位于VLM Agent与医学影像查看器如3D Slicer之间。它不修改查看器的源代码而是通过外部接口让Agent执行与人类放射科医生相同的核心操作选择序列selecting series、滚动切片scrolling through slices、调整窗宽窗位adjusting window/level、书签视图bookmarking views、进行测量taking measurements、导出证据exporting evidence。三层操作空间架构MedOpenClaw的操作空间被划分为三个递进的层级层级名称功能第一层原始查看器操作Primitive viewer actions基本导航和显示控制选择序列、滚动切片、调整窗宽窗位第二层证据操作Evidence operations捕获和导出可审查的工件书签视图、绘制标注mask、测量日志第三层可选专家工具Optional expert tools高级分割或定量分析如基于MONAI的参考工具包这种分层设计直接对应后续评估中的不同Track——第一层对应Viewer-Only Track纯视觉感知测试第一至三层全开放则对应Tool-Use Track工具使用测试。安全与可审计性设计在安全性方面MedOpenClaw做了一个值得注意的取舍刻意限制Agent的自由度。虽然3D Slicer内置了Python控制台理论上Agent可以执行任意脚本但MedOpenClaw明确禁止了这一能力。Agent只能调用预定义的操作接口不能执行原始Python代码。这样做的目的是防止扩大攻击面、保持可审计性、简化部署。具体交互方式上运行时通过3D Slicer的WebServer REST端点封装已有功能REST接口未覆盖的操作如DICOM导入、定量测量、DICOM SEG导出则通过命名的bridge handler暴露。运行时记录每次工具调用及其参数、查看器状态快照、生成的工件诊断轨迹在事后完全可重建。三、MedFlowBench从看图答题到全研究交互式诊断两个临床模块MedFlowBench当前版本包含两个代表性临床模块模块一Brain MRI基于UCSF-PDGM数据集University of California San Francisco Preoperative Diffuse Glioma MRI包含多序列T1c、FLAIR、T2、T1术前弥漫性胶质瘤MRI。任务是case-level诊断如判断组织学亚型使用固定标签集评估指标为case-level accuracy。模块二Lung CT/PET基于NSCLC radiogenomics数据集非小细胞肺癌放射基因组学队列包含配对的CT/PET数据和病理标注。设有5个结构化预测任务肿瘤位置Tumor Location、病理T分期T Stage、病理N分期Pathological N Stage、组织学类型Histology、组织病理学分级Histopathological Grade。评估指标为case-exact accuracy主指标和question-level accuracy辅助指标。三轨道设计所有Track使用相同的病例、任务和指标区别仅在于允许的方法空间Track名称描述Track AViewer-Only只使用第一层原始查看器工具测试纯视觉感知能力Track BTool-Use开放全部三层测试模型能否正确调用专家工具并整合结果Track COpen-Method可绕过MedOpenClaw使用任何替代pipeline为未来范式保留空间这一设计的核心价值在于将变量分离Track A的结果反映模型的视觉感知和推理能力Track B与Track A的差值则直接量化工具使用带来的增益或损失。四、工具使用悖论GPT-5.4加工具后性能下降的原因———————————————————————————————————————————Viewer-Only Track前沿模型已能初步导航论文在Track A上测试了四个模型结果如下模型Brain MRI Accuracy平均工具调用次数Lung CT/PET Overall Accuracy平均工具调用次数GPT-5.40.615.9次0.3211.5次GPT-5-mini0.432.24次0.201.85次Gemini-3.1-flash0.569.6次0.5219.6次Gemini-3.1-pro0.637.2次0.3111.7次几个值得关注的发现Brain MRI上Gemini-3.1-pro以0.63的准确率居首GPT-5.4以0.61紧随其后两者差距仅0.02。Lung CT/PET上Gemini-3.1-flash以0.52的总体准确率领先且在Pathological N Stage0.83和Histology0.72两个子指标上大幅超越其他模型。细粒度任务依然极具挑战Histopathological Grade预测中所有模型表现都很低最高的Gemini-3.1-flash也仅为0.44GPT-5.4仅0.07。工具调用次数反映了模型的探索策略差异Gemini-3.1-flash在Lung CT/PET上平均调用19.6次工具远高于GPT-5-mini的1.85次。Tool-Use Track加了工具反而更差这是论文最核心的发现。在Track B的消融实验中论文逐步为模型添加分割工具包Segmentation Toolpack观察性能变化模型配置Brain MRILung CT/PETGPT-5-mini原始工具primitive0.430.20GPT-5-mini分割工具包0.450.14GPT-5.4原始工具primitive0.610.32GPT-5.4分割工具包0.570.27GPT-5.4在加入分割工具后Brain MRI准确率从0.61降至0.57-0.04Lung CT/PET从0.32降至0.27-0.05。GPT-5-mini的情况更加混合Brain MRI微升0.02从0.43到0.45但Lung CT/PET下降0.06从0.20到0.14。原因分析空间定位精度不足论文指出问题出在当前VLM尚不具备操作专业工具所需的精确空间定位spatial grounding能力。具体机制是当Agent调用Local Threshold Segmentation Tool等分割工具时必须提供精确的空间坐标来引导算法。但当前模型难以输出毫米级精度的空间坐标导致工具频繁生成错位或解剖学上错误的mask。Agent随后依赖这些有缺陷的、自生成的视觉证据进行推理反而被误导使诊断结果比不用工具时更差。换言之瓶颈不在工具本身的质量而在Agent操控工具的基础能力——提供可靠的专家工具是不够的Agent的空间定位和控制能力还不成熟。五、总结与思考MedOpenClaw和MedFlowBench共同构成了一个从静态图像问答迈向全研究交互式诊断的评估体系。核心贡献可以概括为三点MedOpenClaw提供了一个可审计的运行时让VLM Agent能在3D Slicer中操作完整的医学影像检查每一步操作都被记录、可回溯。MedFlowBench是目前唯一同时满足多模态影像、跨模态推理、主动探索、鉴别诊断、Agent式执行五个维度的医学影像基准。实验揭示了工具使用悖论GPT-5.4加入分割工具后性能下降Brain MRI -0.04Lung CT/PET -0.05根源在于VLM缺乏毫米级空间定位精度。在此基础上有几点值得进一步思考空间定位是医学Agent的下一个关键瓶颈。论文的实验表明AI社区在逻辑推理和语言理解方面的进步尚未传导到细粒度空间定位能力上。对于医学影像这类对空间精度要求极高的场景解决坐标级别的定位问题可能比提升模型的语言推理能力更为紧迫。可审计性设计对临床部署具有实际意义。MedOpenClaw刻意限制Agent自由度、记录完整执行轨迹的做法虽然牺牲了灵活性但正是临床和监管框架所要求的透明证据链。这种受限但可控的设计思路对后续医学AI系统的工程实践有参考价值。当前覆盖范围有限后续扩展值得关注。论文明确声明这是基础性的首次发布目前仅覆盖Brain MRI和Lung CT/PET两个模块。团队计划扩展至超声、乳腺摄影、纵向研究等更多模态并引入多轮对话式评估和电子健康记录EHR整合任务。随着模态和任务的丰富这套评估体系能否持续暴露出模型的能力短板是后续值得跟踪的方向。

更多文章