2025年02月24日 星期一
算力竞赛加剧?
第21版:封面报道 2025-02-24

算力竞赛加剧?

姜浩峰

2025年1月6日,黄仁勋身着标志性皮夹克,亮相美国拉斯维加斯国际消费类电子产品展览会(CES 2025),展示英伟达最新产品。

2月18日,马斯克旗下xAI推出最新大模型Grok 3,并在直播中进行了现场演示。马斯克称之为“地球上最聪明的人工智能”。

在原有AI竞争格局遭遇打破之际,10万卡GPU集群之战其实已经打响,算力依然是核心驱动力。

主笔|姜浩峰

“深度求索”(DeepSeek)横空出世,使得美国科技股在中国农历新年之际来了个深度探底。及至2月中旬,摩根士丹利、摩根大通和瑞银集团的分析师们仍对当地时间1月27日发生的美国科技股集体崩塌心有余悸。美国此前依赖“技术垄断+资本壁垒”的寡头模式遭到质疑,开源模型和低成本路径刺破了美国AI行业估值逻辑。在他们眼中,全球投资者要重新评估中国的可投资性。

与此同时,据估算,微软、亚马逊、谷歌和Meta等几家美国科技公司2025年的总支出相加将超过3200亿美元。这一数额大大超过了2024年的2460亿美元。而其中,GPU的采买将占据很大部分。特别是10万卡级别的集群正逐渐成为AI计算的标准配置。由此可见,虽然DeepSeek掀起AI界效率革命,但GPU需求仍然旺盛。硅谷顶级风投a16z合伙人、法国开源AI公司Mistral董事会成员安杰尼·米达(Anjney Midha)就认为,DeepSeek的效率革命不会减缓AI行业对GPU的“饥饿游戏”,相反,算力需求将因模型效率提升而激增。“当算力产出提高10倍,企业不会停止购买芯片,而是用同等资源做更多事。”

深度影响资本市场

GPU万卡集群是指由1万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统。它主要用于训练和推理千亿至万亿级参数大规模的人工智能模型,特别是在AI大模型训练方面发挥着重要作用。

原本,诸如ChatGPT等倚靠所掌握的GPU万卡集群数量优势带来的算力超群,似乎在全球范围内掌握者AI发展的话语权。然而,DeepSeek的问世彻底打破了这一神话。

DeepSeek一夜之间抛出的R1大模型,在技术上实现了重要突破——用纯深度学习方法让AI自发涌现出推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI的o1模型正式版,但是其成本却远远低于美国科技巨头动辄数十亿美元投入。

去年12月,DeepSeek发布的开源大模型DeepSeek-v3,能力与闭源的GPT-4o相近,训练使用的是算力受限的英伟达H800 GPU集群,训练成本仅为557.6万美元。及至1月底发布的DeepSeek-R1,训练成本约为600万美元,耗时2个月;而OpenAI的GPT-4o模型的训练成本为1亿美元,且使用的是性能更加优异的英伟达H100 GPU集群。哪怕是与DeepSeek类似的开源模型Meta旗下Llama-3.1模型,其训练也使用了1.6万张GPU的集群,花费了3080万GPU小时,成本超过6000万美元。“不是GPT用不起,而是DeepSeek更具性价比”,成为网上流传甚广的一句话。

这种“四两拨千斤”的突破,直接动摇了英伟达GPU的不可替代性——当算力需求下降一个数量级,那么科技巨头囤积的芯片可能瞬间沦为沉没成本。过去十年,投资者坚信AI性能与算力投入线性相关;而中国公司证明,创新可以击碎这条增长曲线。显然,资本市场的反应验证了这场效率革命的破坏力。

美国当地时间1月27日,美股龙头英伟达股票暴跌近17%,市值蒸发5927亿美元(约合4.3万亿元人民币),创下美股史上最大单日市值下跌纪录。同日,欧美股市人工智能主题股票普遍遭遇抛售,超威半导体公司(AMD)股价跌超6%,微软股价下跌2%,电力供应商的股价也受到波及。

与之相对应的是,在过去的一个月里,中国股市显著上涨,AI应用、算力国产化、人形机器人等细分领域相关概念股集体爆发,港股中的中芯国际、小米、万国数据、阿里、腾讯等科技核心资产不断狂飙。全球资本开始重新评估中国资产的投资价值。

算力竞赛更疯狂了?

中国工程院院士、中国科学院计算技术研究所前所长、时任中科曙光董事长李国杰认为,DeepSeek横空出世“是世界第三波人工智能浪潮中新的标志性事件,可以和2023年初OpenAI发布ChatGPT3.5相媲美”,其V3和R1模型不仅仅是技术上的突破,更是在发展模式上有颠覆性的创新——由此,中国闯出了一条发展人工智能的新路,从“追赶者”变成“规则修改者”,也是近代以来第一次在核心技术领域以颠覆性创新而非规模优势挑战西方霸权。其对华尔街、硅谷的基本信念之动摇,对美国AI巨头的冲击将是中长期的。

中国国际经济交流中心上海分中心研究部主任郭进则向记者分析,DeepSeek的崛起说明AI不再是简单堆砌算力的游戏。“DeepSeek的横空出世,直接把AI竞争的赛道由算力竞赛引向算据精炼、算法竞争的赛道。”郭进说,“占得先机者在竞争格局上就是妥妥的降维打击。DeepSeek这种划时代的创新,在改变竞赛规则的同时,打破了美国试图阻止他国创新,垄断AI赛道的野心,因此美国方面才会如此重视,政府、媒体、企业界铺天盖地地报道和研究,甚至想要通过封杀,让DeepSeek遭遇瓶颈。”

DeepSeek的成功,也让市场对AI未来发展路径产生分歧。有分析认为,算法优化可能导致芯片需求减小,从而导致对为模型提供动力的大规模电力生产的需求减少,对大型数据中心的需求也会减少。总之,会颠覆过去两年推动市场发展的AI叙事,“暴力堆算力”似乎将要终结了。

然而,到了2月中旬,人们却发现情况未必顺着这个逻辑前进。比如英伟达在探底以后,股价一直在震荡上行,目前已经反超到1月27日之前的水平。其主要原因在于,哪怕DeepSeek也不是无米之炊、无本之末。其再强的算法,依旧需要算力支撑。从硅谷科技巨头们的行动来看,这项效率革命正在将人们卷入更疯狂的算力竞赛之中。

1月底以来,谷歌、微软、Meta和亚马逊这四大科技巨头相继发布了最新财报。令人瞩目的是,他们不约而同地在财报中强调:2025年将加大在算力方面的投入。

谷歌母公司Alphabet在2025年的资本开支目标为750亿美元,较上年激增42%。微软同样表示,2025财年将在人工智能数据中心上投资800亿美元。Meta和亚马逊也分别在财报中披露了大幅增加算力投入的计划。Meta将其资本开支预算增加了66%,而亚马逊则计划在2025年投入1000亿—1050亿美元,主要用于AI和云服务领域。

由此可见,算力依然是支撑AI技术发展的核心资源。正如经济学家杰文斯所言:技术进步虽然提高了资源的使用效率,但需求的增加常常会导致总消耗量反而增加。这一“杰文斯悖论”在过去的数百年间反复上演——英国蒸汽机的热效率提升了三倍,煤炭消耗量却暴涨了十倍;发动机热效率的提高使得车辆燃油消耗降低,但因使用成本降低,反而增加了汽车销量,从而导致石油的消耗量进一步增加;R1模型将推理成本压缩了97%,全球的算力需求却因其高性价比反而呈现指数级膨胀。

2月13日,一位英伟达代理商透露,春节后第一周,两家中国科技企业为了支撑开源大模型迪普斯克的推理服务,紧急采购了L20 GPU算力设备。与去年客户下单时反复考虑和比价的情况不同,现在连库存的禁售型号都被抢购一空。

DeepSeek的出现一度改变了市场对高性能GPU作为AI赛道核心的传统看法,导致英伟达作为高性能GPU的主要供应商被市场看空。但近期情况显示,无论是高性能的H系列GPU还是RTX40系列高端显卡,英伟达的产品再次变得供不应求。尽管国内也有GPU产品,但在性能、稳定性和生态方面仍然与英伟达存在差距,英伟达眼下仍然是科技巨头们的首选。

目前,国内接入DeepSeek的企业已达数百家,涉及国内云服务、互联网、手机芯片、金融、医疗、汽车等行业,迅速增长的用户量让算力无法维持,不得不增加英伟达GPU的需求。效率提升的B面就是企业和开发者不得不投入更多的资源以获得或者提供服务,从而加剧算力资源的压力。

谁将是最终赢家?

目前,华为昇腾AI芯片已支持DeepSeek系列模型的推理服务,包括龙芯中科、壁仞科技、天数智芯、摩尔线程、沐曦、燧原科技等在内的多家国产AI芯片厂商也已适配DeepSeek模型。DeepSeek与国产芯片的融合,为国产AI芯片行业注入了活力,推动了“国产算力+国产大模型”闭环生态的形成,提升了国产算力的竞争力。

业内人士指出,国产芯片和英伟达的差距在于:通用性差异。英伟达芯片通用性强,能在多种AI场景稳定高效运行。国产芯片在通用性上面临一定挑战,不过随着DeepSeek对芯片行业发展的影响,国产芯片将迎来发展机遇,在模型训练和推理场景中广泛应用。

在郭进看来,DeepSeek目前已经能在国产GPU芯片上飞速运行,实现了性能比肩OpenAI等美国大模型,这不仅仅是算法模型的成功,也宣告国产芯片和算力中心的成功。换言之,中国算力中心的崛起,前景光明。

与此同时,微软、亚马逊、谷歌和Meta等公司将不少资金投入到英伟达10万卡级别的集群购置之中。2月18日,马斯克的人工智能初创公司xAI发布了更新版Grok 3大模型,马斯克称之为“地球上最聪明的人工智能”。xAI在当天的直播中,马斯克与该公司的三位工程师一起进行了现场演示,在数学、科学和编程基准测试中,Grok 3击败了谷歌Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o。

马斯克的团队表示:“早在去年4月,马斯克就决定创建我们自己的数据中心。我们在大约四个月内建立了数据中心,并花了122天时间,让10万个GPU启动并运行,这是一项艰巨的工作。我们相信这是同类中最大的全连接的H100集群。但我们并没有止步于此。我们已经开始研究下一个AI集群,它将较目前的集群强大约5倍。”很显然,DeepSeek并不能终结算力竞赛。在原有AI竞争格局遭遇打破之际,10万卡GPU集群之战其实已经打响,算力依然是核心驱动力。但这场竞赛将不再是单纯的“堆料”,而是算法与算力的双重博弈。谁能更好地平衡效率与投入,谁就能在这场竞赛中占据优势。

读报纸首页