上海科研团队联合研发AI音频生成平台安菲翁

本版

第3版：焦点

上海科研团队联合研发AI音频生成平台安菲翁 “阿拉丁神灯”？“潘多拉魔盒”？
目录

第1版:一版要闻

第2版:要闻

第3版:焦点

第4版:上海新闻

第5版:上海新闻

第6版:上海新闻/国际新闻

第7版:文体汇

第8版:文体汇/动态

第9版:星期天夜光杯

第10版:星期天夜光杯/夜光杯

第11版:星期天夜光杯/夜光杯

第12/13版:星期天夜光杯/文艺评论

第14版:星期天夜光杯/心理

第15版:星期天夜光杯/纪实

第16版:星期天夜光杯/记忆

第3版：焦点 2024-02-18

上海科研团队联合研发AI音频生成平台安菲翁

本报讯（记者郜阳）日前，上海人工智能实验室与香港中文大学（深圳）联合团队推出AI音频生成平台安菲翁（Amphion）。

安菲翁现已开源并提供免费商用，其不仅具备语音及歌声合成转换、音效及音乐生成等多种能力，更可实现转换过程可视化，有效地降低了应用门槛，助力更广泛的开发者研发AI音频。

当前，文本驱动的生成模型在图像和视频领域均已取得显著成果。然而，由于音频领域知识体系相对独立，长期以来“文生音”的研究仍面临重重壁垒。针对这一现状，安菲翁创新性集成了经典模型架构，并提供歌声转换过程可视化能力。

记者了解到，在安菲翁的“文生语音”模块主要采用了深度学习技术，将文本转换成自然流畅的高拟真度语音；而“文生音频”集成了当下主流的文本驱动音频生成模型架构，即基于VAE Encoder、 Decoder 和Latent Diffusion的文本驱动的音频生成算法。与传统的音频开源工具不同，安菲翁提供了生成过程可视化及音频可视化功能。联合团队旨在通过可视化，使初级开发者更好地理解模型的原理和细节。

据悉，安菲翁为古希腊神话中的传奇音乐家，传说其弹奏的优美琴声可让顽石感灵。上海人工智能实验室团队借此为AI音频生成平台命名，希望通过AI技术的创新为音频领域注入全新的研究思路，开源开放，“声”生不息。