仅仅使用一小段音频样本，就能克隆你的声音？ MiniMax推出高质量文本转语音模

量子位来谈科技 2025-05-15 18:13:47

仅仅使用一小段音频样本，就能克隆你的声音？ MiniMax推出高质量文本转语音模型MiniMax-Speech，无需参考音频的文本转录即可提取音色特征，迅速成为Artificial Analysis榜单第一名！ MiniMax是怎么做到的呢？背后有两大技术创新：可学习的说话人编码器：它能从一段参考音频中提取出这个说话人的独特的音色特征，而不需要这段音频对应的文本。这使得模型能够在零样本的情况下进行人声克隆，并且支持跨语言和多语言合成，避免了文本与语音之间的语义不匹配问题。 Flow-VAE架构：为了提高合成语音的质量和说话人相似度，MiniMax-Speech提出了一种结合变分自编码器（VAE）和流模型（flow model）的Flow-VAE架构。 VAE擅长学习数据的潜在表示，而流模型可以更精确地建模数据的分布。 Flow-VAE的结合使得模型能够更有效地捕捉语音中的复杂信息，从而生成更清晰、更自然、更像目标说话人的声音。从测试的结果来看，MiniMax-Speech在语音克隆保真度及多语言和跨语言合成能力方面表现出色。语音克隆保真度：Seed-TTS测试集上，MiniMax-Speech的零样本和单样本中都实现了更低的词错误率（WER），说话人相似度（SIM）方面则是单样本最高。多语言评估：在词错误率方面，中文、英语、粤语、日语、韩语等表现要优于ElevenLabs Multilingual v2；在说话人相似度方面则是全面优于。跨语言方面：零样本在词错误率表现更优，但单样本在说话人相似度上表现更佳，表明使用提示样本可以进一步提高说话人相似度。想要自己亲自上手试试？欢迎点击下方链接～项目主页：-ai.github.io/tts_tech_report/ 论文链接：

0 阅读：0

量子位来谈科技

感谢大家的关注

作者最新文章

1

谷歌推出AI照片打光神器LightLab，指哪亮哪，自然到不像AI生成的。单张

2

吴恩达新课，这次和Anthropic合作，教你使用MCP调用外部工具。 MCP（

3

Rust学习指南来了！ Rust咨询团队Corrode，长文总结了新手学习Rus

4

Manus推出了图像生成功能，但这事远不止“AI生图”这么简单。除了能生成图像

5

京东发布了2025年第一季度财报，整体表现亮眼，不仅超出市场预期，还创下近三年来

6

网易公布了2025年第一季度财报，财报发布后，其美股股价应声大涨近15%，创下年

7

Vibe Coding（氛围编程），说的是你用自然语言提需求，AI写代码，哪里不

8

阿里巴巴集团发布2025财年第四财季及2025财年全年业绩，全年总营收为9963

9

先把写代码放一边，AI现在想要帮你完成软件工程的整个流程！前不久刚刚被Open

10

全球首个接受个性化基因编辑治疗的宝宝，病情好多了！这名才十个月大的男婴KJ M

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

目前接近完美的6部手机，有你在用的嘛？

2

华为自研鸿蒙电脑，没有键盘！是一整块可折叠的超大屏幕，然后内置大面积线性马达，通

3

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

4

国外拆解Mate30，零部件国产率仅为30%，国外拆解Mate30 5G，零部

5

字节的工资是真的高啊！

6

华为又整出了非凡大师鸿蒙电脑。这又开创了一种电脑新型态，折叠电脑，而且还是纯

7

格力电器董明珠董事长的“海归论”，遭到一些人的批评和质疑，个人觉得大可不必。

8

刚刚！#一加13T#首销10分钟破两亿！这手机我也用了几天，最大的感受是真爽，单

9

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

10

OPPO发布会现场放大招OPPOReno14系列来了，快速过一下产品力。外观主

科技最新文章

1

OPPOReno14Pro价格出来了，12+256，349912+512，3

2

OPPO发布会现场放大招OPPOReno14系列来了，快速过一下产品力。外观主

3

OPPO发布会现场放大招这次的Reno14系列我愿称为中端机影像天花板，全系标

4

我终于知道苹果16pro为啥急降价了！说到这个，突然想起来之前用手机最烦的就

5

华为自研鸿蒙电脑，没有键盘！是一整块可折叠的超大屏幕，然后内置大面积线性马达，通

6

华为又整出了非凡大师鸿蒙电脑。这又开创了一种电脑新型态，折叠电脑，而且还是纯

7

要求退订挖孔版小米ultra的准车主有人已经收到小米工作人员的回复，回复大概是这

8

马云又爆预言！信不信由你再过10年，咱们的生活，会有很大变化

9

我问我老公，苹果降价了，你会买吗？我老公的一翻话，让我茅塞顿开！苹果128g

10

美国制裁华为的时候，雷军没喊难。美国制裁中国芯片的时候，他也没说难。小米汽车出了