2024年09月06日 星期五
上海科研团队联合研发AI音频生成平台安菲翁 “阿拉丁神灯”?“潘多拉魔盒”?
第3版:焦点 2024-02-18

上海科研团队联合研发AI音频生成平台安菲翁

本报讯(记者 郜阳)日前,上海人工智能实验室与香港中文大学(深圳)联合团队推出AI音频生成平台安菲翁(Amphion)。

安菲翁现已开源并提供免费商用,其不仅具备语音及歌声合成转换、音效及音乐生成等多种能力,更可实现转换过程可视化,有效地降低了应用门槛,助力更广泛的开发者研发AI音频。

当前,文本驱动的生成模型在图像和视频领域均已取得显著成果。然而,由于音频领域知识体系相对独立,长期以来“文生音”的研究仍面临重重壁垒。针对这一现状,安菲翁创新性集成了经典模型架构,并提供歌声转换过程可视化能力。

记者了解到,在安菲翁的“文生语音”模块主要采用了深度学习技术,将文本转换成自然流畅的高拟真度语音;而“文生音频”集成了当下主流的文本驱动音频生成模型架构,即基于VAE Encoder、 Decoder 和Latent Diffusion的文本驱动的音频生成算法。与传统的音频开源工具不同,安菲翁提供了生成过程可视化及音频可视化功能。联合团队旨在通过可视化,使初级开发者更好地理解模型的原理和细节。

据悉,安菲翁为古希腊神话中的传奇音乐家,传说其弹奏的优美琴声可让顽石感灵。上海人工智能实验室团队借此为AI音频生成平台命名,希望通过AI技术的创新为音频领域注入全新的研究思路,开源开放,“声”生不息。

放大

缩小

上一版

下一版

下载

读报纸首页