Muyan-TTS – 开源文本转语音模型,零样本语音合成
2025-05-16 11:34:26 小编:六六导航站
Muyan-TTS是什么
Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生成高质量语音。模型支持说话人适配,进行个性化语音定制。Muyan-TTS 合成速度快,0.33秒能生成1秒音频,适合实时应用。Muyan-TTS 能自然连贯地合成长篇内容,如播客、有声书等,支持本地部署和API使用,方便集成到各种应用中。

Muyan-TTS的主要功能
零样本语音合成:无需大量目标说话人数据,用少量参考语音和文本生成高质量语音。说话人适配:基于少量目标说话人语音数据微调,实现个性化语音定制。快速生成:0.33秒生成1秒音频,适合实时和批量生成长语音内容。长内容连贯合成:支持自然连贯地合成长篇内容,如播客、有声书等。离线部署友好:支持本地推理,确保数据隐私和低延迟。Muyan-TTS的技术原理
框架设计:基于 GPT-SoVITS 框架,用预训练的 Llama-3.2-3B 作为语言模型(LLM),结合 SoVITS 模型进行音频解码。LLM 负责将文本和音频 token 对齐,生成中间表示,SoVITS 模型将中间表示解码为音频波形。数据处理:数据集包含超过10万小时的播客音频数据,经过多阶段处理,包括数据收集、清洗和格式化,确保高质量和多样性。用自动语音识别(ASR)模型将音频转录为文本,将音频嵌入量化为离散 token,形成平行语料库。预训练与微调:LLM 在平行语料库上进行预训练,学习文本和音频 token 之间的关系。基于监督微调(SFT),用少量目标说话人的语音数据进一步优化模型,提高语音合成的自然度和相似度。解码器优化:基于 VITS 基础模型作为解码器,减少幻觉问题,提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调,进一步提升合成语音的保真度和表现力。推理加速:高效的内存管理和并行推理技术,提高推理速度,降低延迟。支持 API 模式,自动启用加速功能,适合实时应用。Muyan-TTS的项目地址
GitHub仓库:https://github.com/MYZY-AI/Muyan-TTSHuggingFace模型库:https://huggingface.co/MYZY-AI/Muyan-TTSarXiv技术论文:https://arxiv.org/pdf/2504.19146Muyan-TTS的应用场景
播客和有声书:生成长篇内容,自然连贯,节省录制时间。视频配音:快速合成英文脚本配音,适配不同角色。AI 角色和语音助手:生成特色角色语音,提供自然交互体验。新闻播报:高效将文本转语音,适合智能设备播报。教育和游戏:生成教学语音和游戏旁白,提升学习和娱乐体验。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Muyan-TTS – 开源文本转语音模型,零样本语音合成
- Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
- ViLAMP – 蚂蚁联合人民大学推出的视觉语言模型
- Seed1.5-VL – 字节跳动Seed推出的视觉语言多模态大模型
- Co-Sight – 中兴通讯开源的超级智能体项目
- MCPHub – 一站式MCP服务器聚合平台
- HealthBench – OpenAI推出的开源医疗测试基准
- Seedance 1.0 lite – 火山引擎推出的视频生成模型
- Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型
- StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令