清晨,叫醒你的不是闹钟,而是它为你现冲的香浓咖啡;平日琐碎的家务如洗衣、叠衣、挂衣等,它也会像家人一般替你收拾妥帖……昨天,上海智元新创技术有限公司(以下简称“智元机器人”)官宣发布全球首个基于百万真机数据训练的人形机器人具身基座大模型——Genie Operator-1(以下简称“GO-1”)。
作为一家致力于机器人技术创新的民营企业,张江科学城的智元机器人成立仅2年多,就凭借前沿技术创新,赋予了机器人强大的场景感知、语言理解和动作执行能力。公司合伙人、具身业务部总裁姚卯青透露,家庭机器人等具身机器人5年左右有望上市,预计定价30万元以上。
“拥有身体”
今年全国两会上,“具身智能”首次被写入政府工作报告,吸引各方关注。何为“具身智能”?通俗地说,就是让人工智能“拥有身体”。
致力于打造世界级通用人形机器人的智元机器人,此次推出的大模型不仅让机器人“拥有身体”,更掀起了一场具身机器人领域的颠覆性革命。“智元的GO-1模型,不仅具备强大的泛化能力,还能在极少的数据支持下快速适应新任务。这一突破性进展,使机器人能在家庭、办公、商业、工业等多种场景中应用。从家庭中的餐食准备、桌面整理,到工业环境中的复杂操作任务,GO-1都能轻松应对。”姚卯青介绍。
谈到智元机器人大模型和传统技术的差异,智元具身研究中心常务主任广辉打了个比方,“以打乒乓球为例,一般我们要先了解基础或理论,再去训练场通过发球机或和别人对打作简单模拟,如果有更高要求,还要找教练一对一手把手教学”。机器人数据也呈“金字塔”结构,数量和成本越往上就越稀缺也越贵,需要构建大规模通用场景,让机器人实现场景理解、指令理解、动作理解,完成精细动作、操作能力的学习。
超级工厂
具身机器人的超强学习能力从哪里来?去年9月,智元机器人在张江机器人谷建起全球首个数据采集超级工厂,之后发布了首个机器人的4D世界模型。近4000平方米的数采工厂,被分成不同主题的场景空间,还原各种生活功能布局,比如餐厅、客厅、卧室、衣帽间等,机器人可以各就各位、学习执行不同的任务。
每一个成功的机器人背后都有一个“真人”——数据采集员,看似一个简单的“倒水”动作,他们需要让机器人重复数百次、上千次甚至更多,才能采集到高质量的数据开展模型训练。在一台咖啡机前,记者看着机器人缓缓伸手,拿杯子,放杯子,按动按钮出咖啡,再端起咖啡杯,完成了一系列动作,只是在最后一步将咖啡杯放到杯碟上时略有倾斜,洒出了些许咖啡。
“这种情况在数据采集中经常发生,测试人员发现后会及时上报,让这条数据回流。然后通过人工审核确保这些数据加入后续的大模型训练,让模型进化出更强的能力。”
据了解,GO-1的核心在于创新的ViLLA(视觉—语言—隐动作规划—动作)框架。这个框架的独特之处在于,它不仅依赖于大规模的真机数据,还能从互联网海量视频和图文数据中学习,增强机器人的泛化能力和适应性。比如,家庭机器人不但能够操作洗衣机,洗好后还能挂衣服、叠衣服。当用户提示它“挂衣服”时,GO-1能够根据视觉输入理解任务要求,并通过学习过的视频数据,自动规划并执行挂衣服的步骤。
“ViLLA框架的成功应用,标志着机器人在复杂环境中的自主决策能力迈出了重要一步。将来甚至可能会根据衣服深浅分开清洗,越来越智能化。”公司技术团队负责人表示。
何时入市
2025年将是人形机器人量产元年。在浦东,智元机器人等领军企业相继宣布完成量产或进入量产准备,多家“造脑”“造身”头部企业、科研机构都加大了在浦东的布局力度,人形机器人正在加速“进化”,量产趋势逐步显现。
2023年2月,彭志辉等多位业内资深人士联合成立智元机器人。“上海浦东有顶尖的人工智能人才,融资渠道也很畅通,如今团队平均年龄在30岁以下。2025年1月6日,智元通用具身机器人已累计下线1000台。”姚卯青表示,“但家庭服务具身智能机器人从技术突破到普及,还有很长一段路要走,场景适配、产能提升是关键。”
他透露,未来的机器人不再是单一任务的工具,而是具备通用智能的自主体。它们将在工业、服务、医疗、物流、家庭等多个领域发挥重要作用,真正成为人类生活的智能伙伴。目前有些单个场景应用,只要千元或万元级就能达到很好的效果,比如早餐机器人万元以内就可以做。“但对精度、成功率、速度有更高要求的机器人,还需要更多的数据,结合基座模型底座能力深入研发。”预计这样的家庭机器人将在5年左右完成研发并投入市场,价格在30万元以上。
“我们正积极探索与其他行业合作,推动机器人技术尽快商业化落地。期待随着具身机器人上下游产业链的不断完善,上海能成为中国乃至全球的具身机器人创新高地。”
本报记者 宋宁华