随着生成式AI在音乐产业的渗透率持续提升,各类创新应用不断涌现、重塑听觉体验,但歌唱语音合成(SVS,SingingVoiceSynthesis)这一关键细分领域,却始终处于发展滞缓状态。为打破这一僵局,Soul创始人团队选择联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU)正式开源高质量零样本歌声合成模型SoulX-Singer。

大规模SVS训练数据,夯实零样本能力基础
零样本歌声合成技术,对训练数据的规模、多样性与覆盖广度上均有着严苛标准。SoulX-Singer利用超过42000小时的高质量歌声数据进行训练,这些数据覆盖多语言、多音色及多种演唱风格。
得益于如此庞大的数据支撑,该模型即便面对从未接触过的歌手以及复杂的音乐状况,仍能输出稳定、自然且高品质的合成歌声。在实际测试中,SoulX-Singer展现出了良好的鲁棒性和一致性,为零样本歌声合成技术从“可演示”走向“可使用”提供了坚实基础。
MusicScore与Melody多种控制方式
与此同时,SoulX-Singer在生成控制能力方面也不错,同时支持基于MusicScore(MIDI) 和基于Melody 的两种歌声合成控制方式。其中Melody驱动生成支持从已有歌曲旋律出发进行歌声合成,可复刻参考音频中的演唱技巧与表达方式,适用于翻唱、风格迁移等应用场景。MusicScore(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力。这种双控制范式为实际音乐制作流程提供了更高的灵活性,让SoulX-Singer能够覆盖从“从零创作”到“基于已有歌曲再创作”的多种使用需求。
多语言支持,面向真实应用场景
此外,SoulX-Singer目前支持普通话、英语和粤语三种语言的歌声合成,并在不同语言和音乐风格下均展现出稳定一致的合成质量。这种强大的多语言特性,为其在内容创作、虚拟歌手打造、互动娱乐等多个应用场景的落地应用,开辟了更为广阔的天地。

在评测方面,SoulX-Singer在 GMO-SVS 和 SoulX-Singer-Eval 两个数据集上,对零样本歌声合成、跨语言歌声合成以及歌词编辑后的歌声合成等多项任务进行了系统评测。
其中,GMO-SVS综合了 GTSinger、M4Singer和Opencpop 等主流开源SVS数据集;而SoulX-Singer-Eval则专门面向严格的零样本场景构建,通过独立音乐人等渠道采集数据,严格确保参与测试的歌手均未出现在训练集中,从而保证了评测结果的公正性和有效性。
实验数据有力地证明,SoulX-Singer在语义清晰度、歌手相似度、基频一致性以及整体合成质量等多个维度上,均大幅超越了此前相关研究的成果。而且在主观听感评测中,它同样展现出显著优势,获得了评测人员的高度认可。

作为Soul创始人AI团队开源布局的重要组成部分,SoulX-Singer拥有超42000小时训练数据,覆盖多语言、多音色及多种演唱风格,在稳定性、可控性与泛化能力方面,均达到了当前开源SVS模型中的领先水平。不仅精准弥补了行业内稳定可控、适配零样本场景的开源SVS模型缺口,也为平台在UGC音乐创作等场景的SVS技术应用提供了有力支撑。











































































