昨天,上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,并已完成多个项目落地,支持千公里多智算中心跨域长稳混训千亿参数大模型。
今年2月,上海AI实验室联合十余家合作伙伴,在上海建成了超大规模跨域混训集群原型,并实现千亿参数大模型20天不间断训练。在此基础上,上海AI实验室融合中国联通AINET技术,跨越1500公里连接了上海和济南之间的智算中心,完成千亿参数大模型混训,等效算力达单芯片单集群算力的95%以上;与中国电信息壤算网合作,实现了北京、上海与贵州等多地智算中心的互联和大模型混训。据悉,这些项目的成功落地,标志着超大规模智算跨省互联实现新突破,为全国智能算力互联互通、高效盘活分散算力资源探索出新路径。
随着国内AI研究及产业应用日益深化,算力需求持续增长,全国智算中心大规模兴建,但存在建设分散、采购芯片代次差异大、算力资源碎片化等问题。上海AI实验室攻克了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,有效应对硬件算力参差不齐、通信同步不稳定、故障容错难等挑战,推出DeepLink超大规模跨域混训技术方案,以保障跨域智算集群的大模型长稳训练。
针对不同芯片的软件栈及性能存在差异,异构互联通信效率低下,导致适配纳管难度大、混训效率不高;且大规模远距离跨域混训需要解决网络带宽、通信延迟、训练稳定性等问题,上海AI实验室创新性地采用“3D并行+PS”架构,将超大规模任务分发到各个智算中心,通过算法换通信的方式减少全局同步复杂度和通信开销,有效减轻了网络负担,为数据传输提供了更宽松的时间窗口;还确保在异地训练中即使某个智算中心的节点发生故障也不影响整体训练,提升训练稳定性。此外,科研团队还基于现有通信协议构建适配层,成功突破了异构芯片互联效率低下的瓶颈。
DeepLink方案不仅验证了跨域混训的实用价值,也为行业提供了全新启示。在计算资源有限的场景下,行业依旧可以实现不同性能芯片的灵活组合,无需依赖高算力芯片“扎堆”式部署,有效降低对特定硬件的路径依赖;不同算力集群可通过互联组合形成“合力”,突破单集群性能上限;跨厂商资源更好地兼容与协作,为算力生态的多元繁荣奠定基础。
目前,上海AI实验室DeepLink开放计算体系已深度集成至联通、电信、商汤、仪电等智算平台,实现“1个平台+N种芯片+X个地域”稳定运行。
本报记者 郜阳