技术人员在商汤临港智算中心机房工作 本报记者 陶磊 摄
大模型,是当下的宠儿;大装置,则是人工智能发展不可或缺的基础设施。在东海之滨的临港两港大道旁,矗立着一座宛若芯片的大楼。这里是上海新一代人工智能计算与赋能平台——商汤科技人工智能计算中心,算力已达到每秒810亿亿次浮点运算,强大算力可支撑超过20个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成。
经过多年建设,如今,这座大装置的重要载体已成为国内人工智能计算中心的“样板间”。
超前布局 亚洲领先
“大装置+大模型”,这样的布局放在今天看很平常。但放在五六年前,绝对称得上超前了。竞逐人工智能,技术是最大的底气。2018年4月,商汤在没有可供参照的案例经验和实验场地条件下,开始布局人工智能计算原型机研制项目,甚至在总部办公大楼内牺牲办公空间搭建原型机的核心机房,开展项目预研。
“最初申报智算中心项目时,不少资历丰富的评审专家都表示没有经历过这么大算力规模的科研项目。”商汤科技大装置事业群智算中心总经理林海回忆说。
2020年7月,商汤人工智能计算中心启动建设。值得一提的是,项目建设跑出了“临港速度”——开工建设到主体结构封顶仅耗时168天,一度刷新临港建设的纪录。
“去年AI2.0时代,生成式人工智能爆发,大家都在寻求大装置能力的时候,商汤已储备好了。”商汤科技董秘办董事总经理盛世伟介绍,如今商汤大装置已最大实现了万卡的超大集群互联,并保持90%的加速效率。在训练稳定性上,商汤实现了超30天稳定训练不间断的能力,而出现训练间断时的诊断恢复时长也优化到了半小时。
盛世伟感慨,这个在亚洲规模领先的人工智能计算中心,提供了强大的算力支持,更为大模型的研发和迭代提供了有力保障。
服务模式 创新配置
“大装置+大模型”协同,让商汤科技在过去一年多的“百模大战”中,成为国内少有的能保持大模型高速迭代的人工智能企业。
据了解,“日日新”大模型可在万卡算力的保障下,遵循尺度定律不断提升性能,能力每隔三个月就显著提升。就在本月,“日日新5.0”版本将面世,性能全面对标GPT4-Turbo;文生视频模型有望在今年推出。
商汤科技大装置事业群智算中心技术总监宋祎寓介绍,大装置通过重构算力、算法的供给或服务模式,实现了人工智能生产要素的创新性配置,大幅提高了AI技术的生产效率和质量,为AI发展打造“新质生产力”。
盛世伟认为,商汤大装置非常关键的一点,是适配了大量国产芯片,无论是做训练还是推理,人工智能计算中心都可提供国产化解决方案。此外,商汤也较早推出了“模型即服务”模式,重点关注软件调用能力,使客户能轻松进行大装置微调和调用各类生成式AI能力,而无需管理底层基础设施。
团队融合 务实多元
在临港,商汤大装置团队由100多名各领域人才所组成。领军科学家们有着对前沿技术的敏锐洞察,带领团队在不断发展中形成了务实且多样性的氛围。
“今年初,团队中有一名对音乐创作一窍不通的小伙伴,利用海外生成式音乐创作平台,以商汤大装置为主题,创作了一首流行风格的音乐。”宋祎寓笑着说,“最后挑选出的版本很酷。大装置业务团队关注到这个成果,开始拓展音乐方向的生成式人工智能发展机会。”在他看来,人工智能不少发展机遇来自生活中的爱好和灵感,生成式人工智能影响的行业也非常广泛。
据了解,大装置团队中不乏身怀艺术细胞,但又对学术十分执着的科学家,他们以独特的视角和无尽的激情,为大装置的发展注入源源不断的创新活力。团队表示,未来将建设面向开发者友好的人工智能基础设施,打造零门槛、一站式的开发体验,缩短大模型的开发周期。
本报记者 郜阳