首个开源MoE语音合成模型ZONOS2发布，支持超逼真零样本声音克隆

首个开源MoE语音合成模型ZONOS2发布，支持超逼真零样本声音克隆

Zyphra 开源语音合成模型 ZONOS2。ZONOS2 是首个采用稀疏混合专家（MoE）架构的开源语音合成系统，拥有 80 亿总参数，推理时仅需激活 9 亿参数。ZONOS2 主打高保真度与零样本声音克隆，无需微调即可快速提取说话人的声音特征并生成逼真的音频。

为了输出录音室级别的 44.1 kHz 音频，ZONOS2 直接预测 Descript 音频编解码器（DAC）离散标记。预测离散标记能还原更细腻的声音质感，但建模难度较大，Zyphra 通过扩大模型与训练数据规模解决了稳定性问题。在文本处理上，ZONOS2 放弃了传统的音素生成器，选择直接读取原始 UTF-8 字节，大幅提升了中文、日文和韩文的合成效果，并支持句中中英文混合输入与无缝切换。

ZONOS2 的训练数据集从初代模型的 20 万小时扩展至 600 多万小时，约合 707 年的音频长度。Zyphra 采用多阶段数据清洗方案，在预训练、中训练和退火阶段逐步提高文本音频一致性过滤门槛，减少了幻觉、误读和重复现象。

随同发布的还有全新评估基准 ZTTS1-Eval，包含 9 种语言的干净音频集合，以及覆盖 17 种语言的真实场景（in-the-wild）音频集合，并引入 Qwen3-ASR、ReDimNet 和 MSR-UTMOS 等模型作为裁判。ZONOS2 基于 Apache 2.0 协议开放权重，并提供 GitHub 推理代码，同时在搭载 AMD 硬件的 Zyphra 云平台提供限时免费在线试用。

信源：https://www.zyphra.com/our-work/zonos2

Zyphra
The future of intelligence is open.