PrIME-LLM综合评价指标

生成式AI在医疗推理中仍显不足,临床落地尚需辅助

麻省总医院MESH孵化器团队的研究显示,尽管生成式AI在医疗领域应用日益广泛,但在模拟真实诊疗的逻辑推理中存在显著短板。研究测试了21种大语言模型(如ChatGPT等)在29个临床病例中的表现,发现它们在完整信息下诊断准确率超90%,但在关键环节“鉴别诊断”中表现欠佳,多数模型无法进行系统性分析。研究引入PrIME-LLM综合评价指标,结果显示