DeepSeek爆火30天上海的同行都在忙啥

本版

第4版：焦点

DeepSeek爆火30天上海的同行都在忙啥
目录

第1版:一版要闻

第2版:要闻

第3版:要闻

第4版:焦点

第5版:民生调查

第6版:上海新闻

第7版:帮侬忙

第8版:社会新闻

第9版:科技前沿

第10版:健康新知

第11版:国际新闻/广告

第12版:文体新闻

第13版:文体新闻/体育

第14版:夜光杯

第15版:夜光杯

第16版:新民健康专版/医技

第4版：焦点 2025-02-19

国内外大模型企业“你方唱罢我登场”

DeepSeek爆火30天上海的同行都在忙啥

徐汇滨江汇集了众多AI企业本报记者陈梦泽摄

本报记者郜阳

算算，深度求索公司DeepSeek发布大招，已经过去30天了。

“DeepSeek-R1性能对标OpenAI o1正式版+开源模型权重+网页版和App免费可用+API每百万tokens输入只要1块钱+论文训练技术全部公开”，1月20日的这套“组合拳”下来，全球大模型产业巨震。

上海稀宇科技有限公司，更为人熟知的名字是MiniMax，副总裁刘华有个判断：大模型仍处于快速发展阶段，“保持着每隔几个月就会取得重要突破的迭代频率”。

仔细想想，甚至还有点“保守”。北京时间2月18日，大洋彼岸埃隆·马斯克旗下的人工智能公司xAI发布新一代AI模型Grok3，号称“地球上最聪明的AI”。

这30天，你可以说是“你方唱罢我登场”，你也可以说是“大风起兮云飞扬”。但有一点谁都承认，大模型人的腰杆硬了。前几年，中国企业每每推出模型，都要和GPT3.5、GPT4比比；到昨天，Grok3的“超越对象”成了DeepSeek——这本身就是一种成功。

再过两天，以“模塑全球，无限可能”为核心主题的2025全球开发者先锋大会，就要在世界人工智能大会的发源地——徐汇西岸举行了。本报记者试图用尽可能通俗的语言，梳理这一个月内，国内外，特别是上海的大模型同行们，都在做什么。

阶跃星辰、MiniMax

各自“上新”DeepSeek

作为大模型独角兽的两家申城AI企业阶跃星辰和MiniMax，都在各自产品中“上新”了DeepSeek。当然，将这两家“单拎”出来讲，也是考虑到它俩的主攻方向是多模态，并未和DeepSeek构成强竞争关系。

若是没有Grok3“搅局”，18日“大模型日报”的“头版头条”，本来是属于阶跃星辰的——一家被权威科技商业化智库《麻省理工科技评论》“点名”值得关注的中国AI企业。当天，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型：全球范围内参数量最大的开源视频生成模型Step-Video-T2V，还有行业内首款产品级开源语音交互大模型Step-Audio。

和引爆科技界的DeepSeek R1一样，阶跃星辰的Step-Video-T2V视频生成模型，采用最为宽松的MIT许可协议，支持免费商用、任意修改和衍生开发。阶跃星辰创始人、CEO姜大昕博士告诉记者，这次发布也意味着阶跃星辰成为大模型开源世界的又一股中国力量。

这两款大模型也在AI社区引发了关注，“抱抱脸”（hugging face）官方转发了中国区负责人给予的高度评价：“简直就是下一个DeepSeek。”

此外，阶跃星辰在春节前也没闲着——1月21日宣布多模态理解大模型Step-1o Vision上线，语音模型Step-1o Audio能力升级；22日又发布视频生成模型Step-Video V2版本；24日，推出“跃问AI创意板”，在跃问最新版本上线，支持0代码基础、3步开发应用。

相比之下，连续2个月保持全球AI视频产品榜首位的MiniMax，“官宣动作”少了些——仅在1月20日宣布全新升级T2A-01系列语音模型，全球同步上线海螺语音产品。不过，2025年以来，MiniMax是十分“活跃”的，曾在十天内连发四个AI模型，包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01，以及视频模型S2V-01、语音模型T2A-01。而两个MiniMax-01系列模型，更是公司创建以来首度开源。

商汤科技

发布新应用开发框架

在拥有自研大模型的上市公司里，总部位于上海徐汇的商汤科技主要通过MaaS（模型即服务）模式来提供DeepSeek模型服务。

记者梳理发现，近30天里，商汤的“官宣”吸睛有限：1月20日，日日新融合大模型交互版（SenseNova-5o）正式对外提供实时音视频对话服务，限时免费使用；26日，宣布商汤日日新融合大模型交互版（SenseNova-5o）在实时音视频中文测评基准SuperCLUE-Live首测榜单中以总分68.59排名国内第一。2月8日，商汤大装置上架DeepSeek系列模型，企业客户和开发者可享受3个月内1000万tokens免费使用权益。

2025年，AI Agent有望成为新一年最重要的产品形态，引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。在本周的走访中，记者获悉，商汤科技将在2025全球开发者先锋大会上发布面向开发者的一站式开源Agent应用开发框架——LazyLLM。

“LazyLLM利用轻量网关实现分布式应用一键部署，当智能体开发完成后，应用者能够一键将其部署到网页、企业微信、钉钉等平台。”商汤大装置产品总监刘叶枫介绍。举例来说，假设要开发一款多模态客服问答机器人，传统方法可能需要开发者花费一周时间进行模型微调、串联各个功能，最终才能形成一个完整的Agent应用。而通过LazyLLM，就可以通过低代码拖拉拽快速实现各种功能，无论是查询快递、智能客服，还是转接人工服务，通过大模型的意图识别和分割，都能够将客户指向不同的意图识别流程，让开发更加高效。

另据透露，商汤科技还将在本次大会上发布“代码小浣熊”2.0版本，为开发者和企业用户带来更加全面和强大的AI支持。

“前两年，一些新的AI技术让大家感觉需要花很多的教育成本。然而，随着DeepSeek爆火，更多人尝试使用，对于整个AI生态和产业发展来说，无疑是个利好消息。”商汤科技产品经理贾安亚表示，“我们看到了一些开源模型在能力上的亮点，也希望保持产品的开放性、博众家之长，去接入更多更好的模型，更好服务B端和C端用户。”

业内说法

AI会越来越“渗透”进生活

DeepSeek的横空出世，让更多普通人关注起大模型产业。行业创新的重点是否要转移到应用？“价格战”打不打、怎么打？对于AGI来说，多模态究竟有多重要？这些问号，都等待着被拉直。

毫无疑问的是，在大模型“撞墙论”（发展遇到瓶颈）不绝于耳的当下，行业比任何时候都更为迫切地渴求创新。

不过，MiniMax副总裁刘华显然是对“撞墙论”嗤之以鼻的一派，“未来两到三年，除增加训练和推理算力的ScalingLaw（尺度定律）以外，Transformer架构变化的算法创新、合成数据、强化学习、多模态融合等，都将为模型能力带来几倍量级提升的技术空间。”

他是有绝对底气说这话的。今年1月的那次开源，MiniMax首次在一个4560亿参数的超大规模商用模型上，引入了有别于传统Transformer架构的“线性注意力”机制，以极低的算力成本，试图为困扰着整个大模型行业的难题提供一个新的解题思路。

近年来，大模型研发框架敏捷迭代，这就要求研发人员对技术变革抱有极致的热情，而不能习惯于从过去的经验中寻找答案。刘华一针见血地指出，大量聘用年轻研究员并充分授权，打造科学的研发组织体系，是组建高效大模型研发团队的唯一路径。

最“新鲜”的佐证是，DeepSeek团队昨天发布一篇新论文，内容先放一边，在合著名单里，论文的第一位作者是在实习期间完成的这项研究。而就MiniMax来说，研发团队也非常年轻，是“‘90后’的天地”，大部分人都在35岁以下，好多研究生在博士阶段就来实习，一毕业就签约了。

对普通大众而言，在DeepSeek的推动下，大模型正朝着越来越智能且免费的方向发展，这也加快了大模型“飞入寻常百姓家”的脚步。“高水平模型的持续开源，能让大众免费体验优秀大模型的技术能力，这将推动AI的渗透率，还能吸收更多开发者的力量。”刘华告诉记者。

“一款模型做得好，不代表其他模型就没有了机会。很多友商觉得DeepSeek很好，自己也主动接入、也愿意用，这是一个非常开放的心态，我觉得这挺好。”刘华说。

他山之石

马斯克的Grok3

“最聪明”也要靠“有钱”

Grok3，在“诞生”前就被描述为“地球上最聪明的AI模型”。在北京时间昨天的发布会上，Grok3的表现可以说“名副其实”，在数学推理、科学逻辑推理和代码写作等方面的能力，在多项基准测试中均取得了比DeepSeek-V3、GPT-4o和Gemini-2 pro更优的成绩。

在被誉为大模型竞技场的全球知名AI模型评测平台Chatbot Arena中，Grok3版本的得分达到1402分，超过了包括GPT-4o、DeepSeek-R1等在内的所有其他模型。

在发布会的演示过程中，马斯克及其团队成员让Grok3寻找去火星的时间窗口，演示了其信息收集和推理能力，同时还创作一款融合《宝石迷阵》和《俄罗斯方块》的游戏，展示了Grok3的创意能力。

“算力军备竞赛”中，DeepSeek走出了一条“四两拨千斤”的突破之路。而Grok3还是信奉“大力出奇迹”，由10万个以上的英伟达H100 GPU驱动，提供了超过2亿GPU小时的计算资源。当然，它不是开源模型，而且还要付费，典型的“好且贵”。

马斯克的xAI，毫无疑问成为国际AI大模型的强有力竞争者。意欲逐鹿中原的，除了渐露锋芒的国内大模型企业外，OpenAI、谷歌、Anthropic等亦是支支劲旅。事实上，2025年前两个月，全球大模型玩家仿佛集体“冲业绩”——

OpenAI于近日宣布，公司将在未来几个月内推出新一代人工智能模型GPT-5和GPT-4.5。而在本月初，谷歌高调更新了Gemini2.0“全家桶”，包括通用模型Gemini 2.0 Flash、谷歌最强的模型Gemini 2.0 Pro，以及“性价比最高”的模型Gemini 2.0 Flash-Lite。

相关链接

2025全球开发者先锋大会

2月21日至23日，大会将在徐汇的多个场地举行，包括西岸大剧院、穹顶艺术中心及西岸艺术中心的A馆和B馆，还有漕河泾会议中心。大会以“模塑全球，无限可能”为核心主题，致力于推动AI产业的实际应用和加速其商业化步伐；聚焦于大模型、算力、语料、工具和软件平台等关键技术，涵盖硬件开发、云计算、大数据、物联网、AI、机器人、区块链及元宇宙等多个领域的开发者群体；定位为“社区的社区”，广泛吸引国际开发者社区的参与。

第4版：焦点

DeepSeek爆火30天 上海的同行都在忙啥

DeepSeek爆火30天上海的同行都在忙啥