Gummy – 通义推出的端到端语音翻译大模型，能实时流式生成结果-六六导航站

Gummy – 通义推出的端到端语音翻译大模型，能实时流式生成结果

2025-02-12 10:02:53 小编：六六导航站

Gummy是什么

Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果，支持包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入，将其翻译成目标语言。Gummy模型通过端到端的方式，减少翻译延迟，提高翻译质量，在多个测试集上取得SOTA（State of the Art）的结果。Gummy支持多语言混翻、术语干预与领域提示等商业化落地的能力，能在跨国会议等场景中无需指定源语种，流畅地将各国语言翻译至目标语种。

Gummy的主要功能

多语言支持：Gummy能处理包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入，实时翻译成目标语言。端到端翻译：与传统的级联系统不同，Gummy采用端到端的设计，直接将语音翻译成目标语言，无需依赖中间的文本阶段。低延迟翻译：Gummy的翻译延迟被降低到0.5秒以内，比人类专家的同传延时还要快。高质量翻译：在多个业界公认的开源测试集上，Gummy取得SOTA（State of the Art）的翻译质量结果。流式翻译：Gummy支持随说随翻，即边听边翻译，适合实时交流的场景。

Gummy的技术原理

端到端设计：Gummy模型通过端到端架构，将源语言的语音输入映射到目标语言的文本输出，简化开发流程并提高了系统性能。深度神经网络：基于深度学习技术，尤其是深度神经网络，学习语音到文本的复杂映射关系。实时流式处理：支持实时语音识别和翻译，实现边听边翻译。wait & predict机制：模型内部采用特殊机制，自动判断翻译时机，优化翻译质量和延迟。

Gummy的项目地址

项目官网：tongyi.aliyun.com，目前语音翻译大模型Gummy部分功能已上线通义APP可下载体验。

Gummy的应用场景

实时语音翻译：Gummy模型能实时翻译会议中的发言，为国际会议、多语言谈判等提供同声传译服务。教育和培训：在教育领域，Gummy辅助语言学习，提供多语言教学内容的实时翻译，帮助学生和教师跨越语言障碍。旅游和导航：为旅行者提供实时语音翻译，帮助他们与不同语言的当地人交流，或在导航时提供多语言指引。客户服务：在客户服务领域，Gummy作为多语言客服助手，提供快速准确的语言支持，提升客户满意度。医疗咨询：在医疗领域，Gummy提供多语言的医疗咨询翻译服务，帮助医生和患者之间的沟通。