本报讯(记者 郜阳)昨晚,上海人工智能实验室宣布,开源全球首个基于“通专融合”架构的万亿参数科学多模态大模型——Intern(书生)-S1-Pro。这是全球开源社区中参数规模最大的科学模型,其性能表现稳居全球第一梯队,为AI for Science从“工具革命”的1.0阶段迈向以“革命的工具”驱动科学发现的2.0时代,提供创新的系统性开源基座。
值得一提的是,书生万亿科学大模型验证了从原创模型架构到国产算力基座自主技术的完整链路。通过开源开放,书生万亿科学大模型旨在降低全球科研门槛,与学术界和产业界共同推动以通用人工智能驱动科学发现的范式革命。
上海人工智能实验室主任、首席科学家周伯文提出:可深度专业化通用模型是实现AGI的可行路径,其关键挑战在于:专家化模型在训练过程中需要低成本、能规模化的密集反馈;能够持续不断地学习与主动探索,并具备为同一个问题提供多视角、多种解决方案的能力;并能引入对物理世界规律的考量,兼顾多项差异化能力的学习效率与性能。
记者了解到,此次发布的书生万亿科学大模型通过多项SAGE基础模型层的技术创新,拓宽了模型应用边界,提升了超大规模训练可行性,推进了对可深度专业化通用模型的探索。
为构建能更深层次理解物理世界规律的科学大模型,研究团队引入了傅里叶位置编码(FoPE)并重构时序编码器,还革新了内部的“路由机制”。传统方法存在训练低效和算力浪费两大痛点,新技术通过“路由稠密估计”,让模型在高效运行的同时能进行更充分的学习,提升了稳定性;进而通过“分组路由”策略,像智能交通系统一样使海量计算芯片实现负载均衡,避免了资源闲置。