首个开源MoE语音合成模型ZONOS2发布,支持超逼真零样本声音克隆
首个开源MoE语音合成模型ZONOS2发布,支持超逼真零样本声音克隆
Zyphra 开源语音合成模型 ZONOS2。ZONOS2 是首个采用稀疏混合专家(MoE)架构的开源语音合成系统,拥有 80 亿总参数,推理时仅需激活 9 亿参数。ZONOS2 主打高保真度与零样本声音克隆,无需微调即可快速提取说话人的声音特征并生成逼真的音频。
为了输出录音室级别的 44.1 kHz 音频,ZONOS2 直接预测 Descript 音频编解码器(DAC)离散标记。预测离散标记能还原更细腻的声音质感,但建模难度较大,Zyphra 通过扩大模型与训练数据规模解决了稳定性问题。在文本处理上,ZONOS2 放弃了传统的音素生成器,选择直接读取原始 UTF-8 字节,大幅提升了中文、日文和韩文的合成效果,并支持句中中英文混合输入与无缝切换。
ZONOS2 的训练数据集从初代模型的 20 万小时扩展至 600 多万小时,约合 707 年的音频长度。Zyphra 采用多阶段数据清洗方案,在预训练、中训练和退火阶段逐步提高文本音频一致性过滤门槛,减少了幻觉、误读和重复现象。
随同发布的还有全新评估基准 ZTTS1-Eval,包含 9 种语言的干净音频集合,以及覆盖 17 种语言的真实场景(in-the-wild)音频集合,并引入 Qwen3-ASR、ReDimNet 和 MSR-UTMOS 等模型作为裁判。ZONOS2 基于 Apache 2.0 协议开放权重,并提供 GitHub 推理代码,同时在搭载 AMD 硬件的 Zyphra 云平台提供限时免费在线试用。
信源:https://www.zyphra.com/our-work/zonos2
ZyphraThe future of intelligence is open.
