仅仅使用一小段音频样本,就能克隆你的声音? MiniMax推出高质量文本转语音模

量子位来谈科技 2025-05-15 18:13:47

仅仅使用一小段音频样本,就能克隆你的声音? MiniMax推出高质量文本转语音模型MiniMax-Speech,无需参考音频的文本转录即可提取音色特征,迅速成为Artificial Analysis榜单第一名! MiniMax是怎么做到的呢?背后有两大技术创新: 可学习的说话人编码器: 它能从一段参考音频中提取出这个说话人的独特的音色特征,而不需要这段音频对应的文本。 这使得模型能够在零样本的情况下进行人声克隆,并且支持跨语言和多语言合成,避免了文本与语音之间的语义不匹配问题。 Flow-VAE架构: 为了提高合成语音的质量和说话人相似度,MiniMax-Speech提出了一种结合变分自编码器(VAE)和流模型(flow model)的Flow-VAE架构。 VAE擅长学习数据的潜在表示,而流模型可以更精确地建模数据的分布。 Flow-VAE的结合使得模型能够更有效地捕捉语音中的复杂信息,从而生成更清晰、更自然、更像目标说话人的声音。 从测试的结果来看,MiniMax-Speech在语音克隆保真度及多语言和跨语言合成能力方面表现出色。 语音克隆保真度:Seed-TTS测试集上,MiniMax-Speech的零样本和单样本中都实现了更低的词错误率(WER),说话人相似度(SIM)方面则是单样本最高。 多语言评估:在词错误率方面,中文、英语、粤语、日语、韩语等表现要优于ElevenLabs Multilingual v2;在说话人相似度方面则是全面优于。 跨语言方面:零样本在词错误率表现更优,但单样本在说话人相似度上表现更佳,表明使用提示样本可以进一步提高说话人相似度。 想要自己亲自上手试试?欢迎点击下方链接~ 项目主页:-ai.github.io/tts_tech_report/ 论文链接:

0 阅读:0
量子位来谈科技

量子位来谈科技

感谢大家的关注