人工智能(AI)大模型“考生”数量越来越多、能力越来越强,也呼唤有更专业、公正、开放的“统一考试”,这不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。记者今天从上海AI实验室获悉,其打造的创新开放评测体系——司南全面升级,构建起“五位一体”的全景评估范式,覆盖从底层算力到上层智能的全链路关键能力。
人们发现,现今AI模型参数规模不断增长,能力边界不断拓展,从算法突破到场景落地,AI正加速走向与真实世界深度融合。面对不断提升的复杂性与不确定性,单一维度、孤立指标的评估方式,已难以支撑技术走向大规模部署与可信应用。构建系统化、标准化、开放性的评测体系,不仅是衡量模型技术水位的“试金石”,更是打通研发、应用与监管的重要“基础设施”。
上海AI实验室全面升级司南评测体系,在原有通用大模型能力评测基础上,进一步拓展到安全可信评测、具身智能评测、AI计算系统评测、垂类行业评测等领域。至此,司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信、垂类行业应用五大核心板块的能力评估矩阵,构建起从底层算力到上层智能的全链路闭环评测范式。
记者获悉,此次推出的“垂类应用评测模块”,已“上新”了“AI+金融”评测和“AI+医疗”评测。像“AI+金融”评测就构建了融合多模态、主观题与大模型评审的新型评测范式。其中,金融多模态评测集在纯文本基础上,融合财报、研报、IPO、K线图、公章等典型图文材料,更贴近金融实务的多模态场景。
据透露,司南作为主要成员参与制定国家标准《人工智能大模型第2部分:评测指标与方法》,并联合20余家主流企业共建评测榜单,工具链已集成至百度云在线评测服务等产品,持续赋能大模型产业生态。司南已建立起含大语言模型、多模态模型等核心方向的评测榜单体系。未来,司南将通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。
本报记者 郜阳