2025年12月14日 星期日
广告 一年一度双子座流星雨 明天下午迎来极大 “一个新解法在学生中没见过” 破解生育难题,这对夫妻“幸孕”
第7版:科教卫新闻/广告 2025-12-13
上海“书生”大模型在奥赛中表现惊艳

“一个新解法在学生中没见过”

不久前,在全国中学生数学奥林匹克竞赛(CMO)决赛中,由上海人工智能实验室研发的“书生”科学多模态大模型(Intern-S1)获得了102分(满分126分)的高分,不仅远超78分的金牌分数线,更“一脚迈过”国家集训队入选线87分。

有阅卷专家评价:“答案表达方式非常接近人类”,其中对第四题的解答是“一个新的解法,巧妙的调整法,在学生的解法中没有见过”。

上海AI实验室青年领军科学家陈恺认为,数学奥赛迎来了“AlphaGo时刻”,显示出AI在高难度代数、几何、数论、组合数学证明题领域的巨大潜力。

与人类选手同场比拼

全国中学生数学奥林匹克竞赛是我国最高规格的高中生数学奥林匹克竞赛,其题目难度往往不亚于国际数学奥林匹克竞赛。

今年,主办方首次设置了赛题AI测试,邀请三家大模型参与,与人类选手在相同时长内完成答题,并由官方组织以相同标准进行阅卷评分。

据悉,全国中学生数学奥林匹克竞赛试题设代数、几何、数论、组合四个板块,试题具有条件隐蔽、逻辑链条长、需跨知识点整合等特点,需要答题者对数学概念有深刻理解,并能创造性应用。有奥赛金牌教练直言不讳:“想获得好名次,四个板块不能有短板,而且要有板块比较突出。”

在全部六道题目中,“书生”在其中4道“全对”,各得21分;另2题中,一题“未证明最优性”,一题“证明不够严格”,各得9分。

最令人称赞的,是“书生”在第四题上的表现。这道题涉及30种颜色、共2100张纸牌,题目要求的操作极其复杂。“书生”在规定时长内不仅得出了正确的结论,还展示了清晰的回答思路。

阅卷专家点评说,“一个新的解法,巧妙的调整法,在学生的解法中没有见过”。在陈恺看来,这说明“书生”已能突破人类解题思路局限,通过自主探索和分析找到新的解题方法,为进一步赋能科学发现夯实了技术基础。

作为本次AI大模型数学顾问的第50届国际数学奥林匹克竞赛金牌选手郑凡感慨:“未来,希望大模型能成为一名真正的‘研究伙伴’,携手探索数学,乃至更广阔科学边疆。”

迈向“长时间独立科研”

“书生”的惊艳表现,让不少参赛者震惊:“就像10年前的围棋一样,突破可能就是一刹那。”

记者获悉,Intern-S1的表达逻辑与推理能力大幅提升,得益于AI与数学研究者的共同努力。“基于实验室提出的通专融合技术架构SAGE,Intern-S1模型重点突破了技术框架中融合协同层的技术,成功实现超长程严谨推理。”陈恺介绍。

要知道,高难度数学问题所需的推理复杂度,远远超过大模型在单次推理过程中所能探索的范围。上海AI实验室的科研人员提出了多轮分层推理机制,基于通用推理模型和专业校验模型构建了具备推理、总结和验证能力的多智能体系统,通过多模型分工协作实现了分阶段推理和探索。同时,科研人员提出了以数学引理为核心的紧凑记忆形式,将复杂推理过程拆解为可复用、可积累的引理模块,让模型的思考推理过程不再受限于单次上下文长度,从而能够探索和发现更多的数学性质,并基于观察提出一些人类没发现的解决思路。

此外,科研人员创新性地提出了基于结果的过程校验模型,显著提升了模型在超长程思考和证明方面的严谨性——这使得通专融合模型在“奥赛”级别的难题中,能产生“表达方式非常接近人类”的解答,最终通过阅卷专家严苛的标准。

值得一提的是,此前,上海AI实验室的P1物理推理模型,在2025年国际物理奥林匹克大赛上拿下金牌,成为首个也是唯一获得金牌的开源模型。

接连在两大“奥赛”上摘金,后续研究方向是什么?上海AI实验室透露,计划将Intern-S1的长程推理能力拓展应用于物理、化学、生命科学等基础科研领域,通过与专业工具的打通与融合,实现从“长时间独立思考”向“长时间独立科研”转变,进而加速各领域科研范式的根本性变革,为重大科学突破提供关键支撑,赋能未来的科学发现进程。

本报记者 郜阳

放大

缩小

上一版

下一版

下载

读报纸首页