Gummy – 通义推出的端到端语音翻译大模型,能实时流式生成结果
2025-02-12 10:02:53 小编:六六导航站
Gummy是什么
Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果,支持包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入,将其翻译成目标语言。Gummy模型通过端到端的方式,减少翻译延迟,提高翻译质量,在多个测试集上取得SOTA(State of the Art)的结果。Gummy支持多语言混翻、术语干预与领域提示等商业化落地的能力,能在跨国会议等场景中无需指定源语种,流畅地将各国语言翻译至目标语种。

Gummy的主要功能
多语言支持:Gummy能处理包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入,实时翻译成目标语言。端到端翻译:与传统的级联系统不同,Gummy采用端到端的设计,直接将语音翻译成目标语言,无需依赖中间的文本阶段。低延迟翻译:Gummy的翻译延迟被降低到0.5秒以内,比人类专家的同传延时还要快。高质量翻译:在多个业界公认的开源测试集上,Gummy取得SOTA(State of the Art)的翻译质量结果。流式翻译:Gummy支持随说随翻,即边听边翻译,适合实时交流的场景。Gummy的技术原理
端到端设计:Gummy模型通过端到端架构,将源语言的语音输入映射到目标语言的文本输出,简化开发流程并提高了系统性能。深度神经网络:基于深度学习技术,尤其是深度神经网络,学习语音到文本的复杂映射关系。实时流式处理:支持实时语音识别和翻译,实现边听边翻译。wait & predict机制:模型内部采用特殊机制,自动判断翻译时机,优化翻译质量和延迟。Gummy的项目地址
项目官网:tongyi.aliyun.com,目前语音翻译大模型Gummy部分功能已上线通义APP可下载体验。Gummy的应用场景
实时语音翻译:Gummy模型能实时翻译会议中的发言,为国际会议、多语言谈判等提供同声传译服务。教育和培训:在教育领域,Gummy辅助语言学习,提供多语言教学内容的实时翻译,帮助学生和教师跨越语言障碍。旅游和导航:为旅行者提供实时语音翻译,帮助他们与不同语言的当地人交流,或在导航时提供多语言指引。客户服务:在客户服务领域,Gummy作为多语言客服助手,提供快速准确的语言支持,提升客户满意度。医疗咨询:在医疗领域,Gummy提供多语言的医疗咨询翻译服务,帮助医生和患者之间的沟通。- 猜你喜欢
-
Entar.io提示指令
-
Browse GPT提示指令
-
HealthGPT提示指令
-
ChatGPT Writer提示指令
-
Water提示指令
-
-
ClipGPT提示指令
-
Ogen AI提示指令
-
ChatPPT提示指令
- 相关AI应用
-
Chad GPT提示指令
-
Valideo提示指令
-
GPT Stylist提示指令
-
-
-
FictionGPT提示指令
-
-
Embra提示指令
-
ChatGPT Super提示指令
- 推荐AI教程资讯
- Gummy – 通义推出的端到端语音翻译大模型,能实时流式生成结果
- cogvlm2-llama3-caption – 智普AI开源的视频标注模型,生成文本描述
- 书生·物华2.0(3DTopia 2.0)- 上海AI实验室联合南洋理工推出三维物体生成大模型
- StoryMaker – 小红书开源的文本到图像实现角色一致的生成模型
- CogVideoX-Fun – 基于CogVideoX的整合包,支持生成无限长度的视频
- ItiNera – 港大与MIT联合推出的AI城市行程规划(OUIP)系统
- 华知大模型5.0 – 知网联合华为云推出的多模态AI大模型
- LVCD – 腾讯联合香港城市大学推出为动漫视频线稿上色的AI框架
- LLaMA-Omni – 中科院推出的低延迟高质量的语音交互模型
- SCoRe – 谷歌DeepMind推出的多轮强化学习方法