长文本中“大海捞针” 一次可读30万汉字

本版

第3版：要闻

上海交大：寒假里“造梦空间”24小时开放引导支持企业投入基础研究文旅深度融合，为上海年味增“鲜味” 长文本中“大海捞针” 一次可读30万汉字
目录

第1版:一版要闻

第2版:要闻

第3版:要闻

第4版:上海新闻

第5版:上海新闻

第6版:专版

第7版:帮侬忙

第8版:综合新闻/专版

第9版:专版

第10版:国际新闻

第11版:文体新闻

第12版:文体新闻/体育

第13版:夜光杯

第14版:夜光杯

第15版:新民环球

第16版:新民环球/论坛

第3版：要闻 2024-01-18

大语言模型书生·浦语2.0发布

长文本中“大海捞针” 一次可读30万汉字

达沃斯论坛上，在上海举办的世界人工智能大会被向世界力荐。在2023年大会上大放异彩的“书生通用大模型体系”在新年伊始又迎来了一个重要时刻。

1月17日，上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0。其核心理念在于回归语言建模的本质，致力于通过提高语料质量及信息密度，实现模型基座语言建模能力质的提升，进而在数理、代码、对话、创作等各方面都取得长足进步，综合性能达到同量级开源模型的领先水平。

筑牢大模型能力基础

据悉，书生·浦语2.0是在2.6万亿token的高质量语料上训练得到的。沿袭“前辈”的设定，浦语2.0包含7B及20B两种参数规格及基座、对话等版本，满足不同复杂应用场景需求。秉持“以高质量开源赋能创新”理念，上海人工智能实验室继续提供其免费商用授权。

过去一段时间，国内外机构开源了多个优秀的大语言模型，并带来丰富的下游应用，有力推动了全球大模型开源生态的繁荣。上海人工智能实验室联合团队研究认为，大模型各项性能提升的基础在于语言建模能力的增强，对于大模型的研究应回归语言建模本质，通过更高质量的语料以及更高的信息密度，筑牢大模型能力基础。

为此，联合团队提出了新一代的数据清洗过滤技术，包括基于语言质量、信息密度等维度，对数据价值进行综合评估与提升；利用高质量语料的特征，从物理世界、互联网以及语料库中进一步富集类似语料；同时针对性补充语料，重点加强现实世界知识、数理、代码等核心能力。

“大海捞针”近乎完美

长语境输入及理解能力，能够显著拓展大模型的应用场景，比如支持大型文档的处理、复杂的推理演算和实际场景的工具调用等。然而，大模型有限的上下文长度，仍是当前学界及业界面临的重要难题。通过拓展训练窗口大小和改进位置编码，书生·浦语2.0能够一次性接受并处理约30万汉字（约五六百页的文档）的输入内容，准确提取关键信息，实现长文本中“大海捞针”。

为测试浦语2.0在真实长文本处理任务中的能力，研究人员将一份时长3小时的公开会议录音转录稿输入模型中，并要求浦语2.0从中提取出关键信息。测试结果表明，尽管在未校对的文本中存在较多错别字，但浦语2.0仍从中准确提炼出了关键信息，并总结了发言人的主要观点。

记者了解到，书生·浦语2.0各项能力获得全面进步。根据大语言模型的应用方式和用户关注的重点领域，研究人员定义了语言、知识、推理、数学、代码、考试等六个能力维度，在55个主流评测集上对多个同量级模型的表现进行了综合评测。结果显示：书生·浦语2.0的轻量级（7B）及中量级（20B）版本性能，在同量级模型中表现优异。

大模型挑战赛启动

据悉，综合性能的增强，带来了下游任务的全方位能力提升。新发布的书生·浦语2.0提供优秀的对话及创作体验，支持多轮任务规划及工具调用，并提供实用的数据分析能力。

为促进AI生态发展，推动大模型在各行业的应用落地，书生·浦语大模型挑战赛同日启动。赛事由上海市经济和信息化委员会、上海市科学技术委员会、徐汇区人民政府共同指导，上海人工智能实验室主办，上海市人工智能行业协会承办。赛事面向学术界研究人员、全体开发者和企业、创业团队，包括开源探索赛、技术精英赛、行业应用赛和创新路演赛。首期春季赛包含行业应用和创新创意两个赛道，即日起面向全球进行场景和赛队征集。

本报记者郜阳