“司南”覆盖五大板块当好AI“试金石”

本版

第4版：科教卫新闻

冬病夏治正当时 “晒背”防暑有妙招葡萄节开幕娃娃饱口福 “司南”覆盖五大板块当好AI“试金石” 牙齿矫治分年龄适龄干预效果佳
目录

第1版:一版要闻

第2版:要闻

第3版:要闻

第4版:科教卫新闻

第5版:社会新闻

第6版:综合新闻

第7版:第33届夏令热线特别报道/帮侬忙

第8版:上海新闻

第9版:国际新闻

第10版:文体新闻

第11版:文体新闻/体育

第12版:夜光杯

第13版:夜光杯

第14版:康健园

第15版:金色池塘

第16版:金色池塘/晚晴风景

第4版：科教卫新闻 2025-07-21

上海为人工智能大模型营造更专业、更全面的“考场”

“司南”覆盖五大板块当好AI“试金石”

人工智能（AI）大模型“考生”数量越来越多、能力越来越强，也呼唤有更专业、公正、开放的“统一考试”，这不仅是技术发展的“试金石”，也是连接技术与应用、促进跨领域合作的重要桥梁。记者今天从上海AI实验室获悉，其打造的创新开放评测体系——司南全面升级，构建起“五位一体”的全景评估范式，覆盖从底层算力到上层智能的全链路关键能力。

人们发现，现今AI模型参数规模不断增长，能力边界不断拓展，从算法突破到场景落地，AI正加速走向与真实世界深度融合。面对不断提升的复杂性与不确定性，单一维度、孤立指标的评估方式，已难以支撑技术走向大规模部署与可信应用。构建系统化、标准化、开放性的评测体系，不仅是衡量模型技术水位的“试金石”，更是打通研发、应用与监管的重要“基础设施”。

上海AI实验室全面升级司南评测体系，在原有通用大模型能力评测基础上，进一步拓展到安全可信评测、具身智能评测、AI计算系统评测、垂类行业评测等领域。至此，司南形成覆盖AI计算系统、通用大模型、具身智能、安全可信、垂类行业应用五大核心板块的能力评估矩阵，构建起从底层算力到上层智能的全链路闭环评测范式。

记者获悉，此次推出的“垂类应用评测模块”，已“上新”了“AI+金融”评测和“AI+医疗”评测。像“AI+金融”评测就构建了融合多模态、主观题与大模型评审的新型评测范式。其中，金融多模态评测集在纯文本基础上，融合财报、研报、IPO、K线图、公章等典型图文材料，更贴近金融实务的多模态场景。

据透露，司南作为主要成员参与制定国家标准《人工智能大模型第2部分：评测指标与方法》，并联合20余家主流企业共建评测榜单，工具链已集成至百度云在线评测服务等产品，持续赋能大模型产业生态。司南已建立起含大语言模型、多模态模型等核心方向的评测榜单体系。未来，司南将通过科学、公正、全面的评测，对模型与应用的性能、效率、安全性及可靠性作出评估，助力新技术在实际应用中达到预期标准；同时，通过评测识别出当前技术的不足，提供优化方向，激励研究者探索创新，进而构建安全、可信、公平的人工智能生态体系。

本报记者郜阳

第4版：科教卫新闻

“司南”覆盖五大板块 当好AI“试金石”

“司南”覆盖五大板块当好AI“试金石”