海螺AI连续3月全球“霸榜”

本版

第4版：上海新闻

青春力量推进青春经济全程网办不用跑电子许可同效力海螺AI连续3月全球“霸榜”
目录

第1版:一版要闻

第2版:全国两会/要闻

第3版:要闻

第4版:上海新闻

第5版:上海新闻

第6版:上海新闻

第7版:综合新闻/广告

第8/9版:新民印象/目击

第10版:健康新知

第11版:教育星球

第12版:国际新闻

第13版:文体新闻

第14版:文体新闻/体育

第15版:夜光杯

第16版:夜光杯

第4版：上海新闻 2025-03-12

人物角色完全一致照片即可生成电影

海螺AI连续3月全球“霸榜”

本报记者郜阳

说起视频生成模型，如果还只知道Sora，那你显然已经落伍了。申城大模型创业公司MiniMax（稀宇科技）旗下的“海螺AI”一经推出便成为业界焦点。不知不觉间，“霸榜”2024年12月和2025年1月的全球AI产品榜“出海总榜”和“视频生成”类。近日揭晓的2月榜单，“海螺AI”不出意外地蝉联这两项榜首。

这家创立于2021年的科技公司，正不断“挖深”自己的“护城河”，在激烈竞争中杀出重围。现在，“海螺AI”已成为海外逾200个国家和地区AI爱好者口中的热词，也被视为中国先进AI水平的代名词。

一张照片就能“拍”电影

Sora的横空出世，点亮了视频生成的赛道。但是视频生成在实际应用中出现的最大问题就是人物不一致。比如：上一段视频生成的是小A，下一段视频就变成了另一张脸。无论怎么调整，两段视频的主角都无法统一为一个人。

直到今年1月，MiniMax发布最新模型，把这一难题彻底化解。用户只需提供一张人物的正面照片，不论生成多少段风格迥异的视频，主角都是这个人，实现了“给一张照片，还一部大片”。

在发展过程中，MiniMax始终坚持技术驱动。如何在动态视频中保持人物面部多角度的真实度和稳定性；如何在使用连续片段拼接创作时，使人物角色保持高度一致……这些困扰业界的难题，便成为MiniMax“啃硬骨头”的选择。

研发团队进行了大量技术探索，比选不同的技术路径，最后开发出S2V-01视频模型——只需不到传统方案1%的计算成本和很短的等待时间，就带来了足够好的体验。

可以说，有了MiniMax的突破，跨视频片段的主体一致性创作痛点成为历史。用户在进行更完整内容表达的视频创作时，也能将更多精力放在内容表达上。

开源“首秀”就是“王炸”

曾经，在AGI（通用人工智能）上，OpenAI一度是风向标。当全球都在希冀OpenAI尽快给出答案时，MiniMax已然暗下决心——在算力和数据资源都不占优的条件下，走出一条自己的优化大模型之路。

从2023年夏天开始，公司将80%的算力与研发资源投入底层架构研发，这在外人看来无异于一场豪赌。幸运的是，MiniMax赢了！在成功推出国内首个基于MoE架构的模型后，研发团队又把目光投向了能够几倍提升模型速度的技术难关——线性注意力。

今年1月，MiniMax开源“首秀”，出手就是两“王炸”：基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。在与海外顶尖模型的基准性能测试对比中，这两款模型在多个核心任务中表现毫不逊色。在综合性能比肩海外顶尖模型的基础上，MiniMax-Text-01更是在长文本上带来惊喜：支持最多400万个token的上下文输入。这是什么概念呢？400万token上下文窗口可以一次性处理约700万个汉字。通行的一百二十回本《红楼梦》总字数约为96万字，700万个汉字相当于7部多《红楼梦》。

更值得关注的是，MiniMax在架构上作出了大胆创新，以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈。这也是中国公司首次突破传统Transformer架构。

研发人员要有“极致热情”

“在AI行业蓬勃发展的当下，开源与开放精神正在成为业界共识。”MiniMax副总裁刘华告诉记者。他说，高水平模型的开源能够让大众免费体验大模型的技术能力，从而推动AI技术的普及和渗透率的提升；同时，开源还能吸引更多开发者参与，共同推进AI技术的普及和大模型行业的快速发展。

刘华还认为，创业公司在中国大模型领域将继续发挥重要作用。大模型研发框架的敏捷迭代要求研发人员对技术变革抱有极致热情，而不能仅仅依赖过去经验。MiniMax就拥有这样一支年轻的研发团队，大部分成员在35岁以下，许多博士还在读书阶段就加入公司作为实习生。“AI行业充满了活力和发展潜力，但想站上世界舞台，绝不能靠走捷径。作为创业公司，MiniMax会保持专注，让技术回归技术本身。”