2025年11月11日 星期二
沪AI模型获国际物理奥赛金牌 新职业成大学生就业新增长点 广告
第8版:科教卫新闻 2025-11-06

沪AI模型获国际物理奥赛金牌

这是参赛队伍中首个也是唯一获金牌的开源模型

本报讯(记者 郜阳)记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强化学习重点升级了物理专业能力。其中,P1-235B-A22B在2025年国际物理奥林匹克竞赛(IPhO)拿下金牌,成为首个也是唯一获得金牌的开源模型;在覆盖2024—2025年全球13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并列奖牌榜第一。

物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克竞赛(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。在国际物理奥林匹克竞赛中,P1-235B-A22B获21.2分(满分为30分),是首个也是唯一获金牌的开源模型。在面对一道大气压相关的物理题时,P1给出的4个小问题答案均正确,且过程完全符合评分标准。

为准确评估物理奥赛表现,研究团队构建HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。HiPhO涵盖了2024—2025年最新的13场奥林匹克级别的物理竞赛,评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确——由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

上海AI实验室透露,P1-235B-A22B取得12金1银的佳绩,与Gemini-2.5-Pro并列奖牌榜第一,金牌数超越了GPT-5、Grok-4等主流闭源模型。P1的惊艳表现,说明模型初步具备应对现实世界中复杂物理问题的潜力,这一突破为大模型进一步处理复杂推理任务,进而解决科学发现等难题奠定了基础。

据介绍,P1在物理推理方面的卓越表现,离不开高质量数据和多阶段强化学习策略。研究团队通过高效的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。此外,为了突破单一模型的性能极限,研究团队开发了一套专为物理推理设计的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升。

放大

缩小

上一版

下一版

下载

读报纸首页