2025年05月05日 星期一
广告 多模态多任务通用大模型“书生2.5”发布 GPT-4:能读图解题讲冷笑话
第4版:要闻 2023-03-16

多模态多任务通用大模型“书生2.5”发布

具备通用场景下高级感知和复杂问题处理能力

“书生2.5”在自动驾驶场景中可以大幅提升场景感知理解能力

本报讯(记者 郜阳)昨天,多模态多任务通用大模型“书生(INTERN)2.5”发布,其图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。目前,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源。

以文生图

“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。“书生2.5”实现了通过文本来定义任务从而可以灵活定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,如图像描述、视觉问答、视觉推理和文字识别等。

研发人员介绍,在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如,在自动驾驶场景中可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。

此外,“书生2.5”具备AIGC(人工智能生成内容)“以文生图”能力。可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,进而训练自动驾驶系统对场景的感知能力上限。

准确率高

记者了解到,“书生2.5”拥有30亿参数,是目前全球开源模型中ImageNet准确度最高、规模最大,同时也是物体检测标杆数据集COCO中唯一超过65.0mAP的模型。

“书生2.5”在图文跨模态领域卓越的性能表现,来自于视觉、语音及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型和用于多任务的兼容解码建模大模型。

值得一提的是,在视觉主流图像分类数据集ImageNet上,“书生2.5”仅基于公开数据便达到90.1%的准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型——而谷歌与微软均未公开模型及额外数据集。该模型也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20多个不同场景、不同任务的单模态和跨模态公开数据集里取得了最佳成绩。

当前,“书生”还在持续学习、不断进步,致力于推动多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态。

放大

缩小

上一版

下一版

下载

读报纸首页