“万卷·丝路”多语言语料库发布

本版

第9版：综合新闻/广告

“万卷·丝路”多语言语料库发布加强顶层设计促进“生育友好” 推进公共空间“适儿化”改造 “淮海战役精品文物展”上午开幕广告
目录

第1版:一版要闻

第2版:要闻

第3版:上海新闻

第4版:申观察

第5版:上海新闻

第6版:综合新闻

第7版:中国新闻

第8版:帮侬忙

第9版:综合新闻/广告

第10版:国际新闻

第11版:文体新闻

第12版:文体新闻/体育

第13版:夜光杯

第14版:夜光杯

第15版:新民法谭

第16版:新民法谭

第9版：综合新闻/广告 2025-01-10

“万卷·丝路”多语言语料库发布

本报讯（记者郜阳）记者昨天从上海人工智能实验室获悉，其联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库，为多语言大模型训练提供高质量数据支撑。“万卷·丝路”首期开源了包含泰、俄、阿、韩、越等五个语种的语料，总规模超1.2TB（单语种均超过150GB），涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。

据介绍，“万卷·丝路”采集了多个国家地区的网络公开信息、文献、专利等资料，Token总数超过300B，处于国际领先水平。基于“书生·浦语”智能标签分类体系，上海AI实验室研究团队将每个语料子集细分为7个大类和32个小类，覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多类具有语言所在地特征内容，便于研究者根据具体需求检索数据，并可适应不同研究领域多样化需求。据悉，上海报业集团也是大模型语料数据联盟成员之一。该联盟成立于2023世界人工智能大会，成员包括中国科学技术信息研究所、上海文广集团等10家单位，旨在联合打造多知识、多模态、标准化的高质量语料数据。