这项研究推出了 MedHELM,这是一个专门为评估人工智能在医疗领域表现而设计的多维度基准测试框架。研究者通过与临床医生合作,构建了一个包含 121 项具体任务的分类体系,涵盖了临床决策、病历生成、患者沟通、医学研究及行政流转等五大核心领域。该框架整合了 37 个公共与私人数据集,旨在解决现有评估中缺乏真实世界数据及任务单一的问题。评估过程中引入了由三个大型语言模型组成的 “模型评审团” (LLM-jury),经证实其评分与医学专家的判断高度一致。实验结果显示,推理模型(如 DeepSeek R1 和 o3-mini)在医学任务中表现最强,但也揭示了许多通用模型在处理专业医疗逻辑时会出现明显的性能下滑。此外,研究还详细分析了各模型的成本效益比,为医疗机构在实际部署 AI 助手时提供了性能与支出平衡的参考依据。
References:
- Bedi S, Cui H, Fuentes M, et al. Holistic evaluation of large language models for medical tasks with MedHELM[J]. Nature Medicine, 2026: 1-9.
Fler avsnitt av 聊聊Sci
Visa alla avsnitt av 聊聊Sci聊聊Sci med 淼淼Elva finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
