FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型
2025-02-27 09:56:06 小编:六六导航站
FunAudioLLM是什么
FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言,特别在中文和粤语上表现优异。CosyVoice则专注于自然语音生成,能够控制音色和情感,支持中英日粤韩五种语言。FunAudioLLM适用于多语言翻译、情绪语音对话等场景。相关模型和代码已在Modelscope和Huggingface平台开源。

FunAudioLLM的主要功能
SenseVoice模型:专注于多语言的高精度语音识别。支持超过50种语言,特别是在中文和粤语上识别效果优于现有模型。具备情感识别功能,能够辨识多种人机交互事件。提供轻量级和大型两个版本,适应不同应用场景。CosyVoice模型:专注于自然语音生成,支持多语言、音色和情感控制。能够根据少量原始音频快速生成模拟音色,包括韵律和情感细节。支持跨语种语音生成和细粒度的情感控制。
FunAudioLLM的项目地址
项目官网:https://fun-audio-llm.github.io/CosyVoice 在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300MSenseVoice 在线体验:https://www.modelscope.cn/studios/iic/SenseVoiceGitHub仓库:https://github.com/FunAudioLLMarXiv技术论文:https://arxiv.org/abs/2407.04051FunAudioLLM的应用场景

- 猜你喜欢
-
Cosonify提示指令
-
Musico提示指令
-
Loudly提示指令
-
Beatopia提示指令
-
Trending sounds提示指令
-
Staccato提示指令
-
RIFFIT Reader提示指令
-
Brain.fm提示指令
-
A.V. Mapping提示指令
- 相关AI应用
-
Audioshake提示指令
-
Open Voice OS提示指令
-
Chat Jams提示指令
-
Endel提示指令
-
Lemonaid Music提示指令
-
Musicfy提示指令
-
Evoke Music提示指令
-
WavTool提示指令
-
- 推荐AI教程资讯
- FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型
- Chameleon – Meta推出的图文混合多模态开源模型
- Mem0 – 一款开源的大语言模型记忆增强工具
- STORM AI – 斯坦福大学推出的开源AI写作工具
- DCLM-7B – 苹果公司与合作团队推出的开源小模型
- LivePortrait – 快手推出的开源人像动画生成框架
- Llama3.1 – Meta最新发布的最强开源AI模型
- GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型
- MindSearch – 上海人工智能实验室推出的AI搜索框架
- Diffree – OpenGVLab推出的AI贴图框架
- 精选推荐
-
Drumloop AI2025-02-14提示指令
-
讯飞听见写作2025-02-03法律助手
-
Superpower ChatGPT2025-02-01提示指令
-
IMI Prompt2025-02-06提示指令
-
unbounce2025-02-02法律助手
-
Ghostwrite2025-02-05提示指令