考试成绩超过人类 AI能取代医生吗？

本版

第8版：综合新闻/国际新闻

考试成绩超过人类 AI能取代医生吗？反复无常的关税战没有赢家普京称支持与乌停火但许多问题需要解决 AI浪潮袭来，数学教育路在何方？
目录

第1版:一版要闻

第2版:要闻

第3版:上海新闻/广告

第4版:上海新闻/专题

第5版:上海新闻

第6版:帮侬忙

第7版:专题

第8版:综合新闻/国际新闻

第9版:专题

第10版:文体新闻

第11版:文体新闻/体育/专题

第12版:家装专版

第13版:夜光杯

第14版:夜光杯

第15版:新民法谭

第16版:新民法谭

第8版：综合新闻/国际新闻 2025-03-14

考试成绩超过人类 AI能取代医生吗？

全球首个糖尿病培训大型语言模型检测成果问世

人工智能（AI）能取代医生吗？上海体育大学、上海交通大学与清华大学合作，联合多个国家和学科的学者，近日发表了全球首个针对糖尿病培训的大型语言模型检测与前瞻性验证的研究成果。

研究团队对ChatGPT-3.5、ChatGPT-4.0以及通义等10个国内外模型进行基于中英双语专业考试的评估。结果表明，多数模型成绩优异超过医生，展现强大能力，有望重塑糖尿病护理培训格局。

研究团队精心挑选了10个大型语言模型进行深入研究，基于中国国家初级糖尿病护理证书考试（NCE-CPDC）和英国皇家内科医学院会员内分泌及糖尿病英语专科证书考试（MRCP UK），对这些模型在糖尿病相关查询方面的性能进行了全面的评估。

在NCE-CPDC考试中，ChatGPT-4.0、阿里通义千问、百度ERNIE Bot、Google Bard、MedGPT和ChatGPT-3.5成功通过了测试，而LlaMA2-7B、HuatuoGPT、Chinese LlaMA2-7B和LlaMA-7B未能晋级。ChatGPT-4.0在考试中取得了90.98的高分，大大超越了初级保健医生的平均水平。在ChatGPT-4.0和初级保健医生一同参加的另一场考试中，初级保健医生的准确率介于68.57%至81.16%之间，低于ChatGPT-4.0的84.82%。今年初，研究团队还对DeepSeek回答NCE-CPDC试题的准确度进行了测试，DeepSeek回答的准确度高达91.73%。

专家认为，当前的大型语言模型在处理医学信息并提供解答方面虽然表现出色，但针对诊疗意见的准确性和安全性上仍有瑕疵，仍无法完全取代医生所具备的批判性思维、创新精神和创造力。本报记者张炯强

放大

上一版

下一版