星火语音同传大模型 – 科大讯飞推出的端到端语音同传大模型-六六导航站

星火语音同传大模型 – 科大讯飞推出的端到端语音同传大模型

2025-03-29 14:38:46 小编：六六导航站

星火语音同传大模型是什么

星火语音同传大模型是科大讯飞于2025年1月15日发布的国内首个具备端到端语音同传能力的大模型。模型在内容完整度、信息准确度以及语言质量上均处于行业领先水平，超过谷歌Gemini 2.0和OpenAI GPT-4o，最快实现5秒以内的同传时延，达到人类专家译员的水平。支持译文长度反向调控，语音到文本端到端翻译支持流式意群切分、语境理解、信息重组，流式语音合成则支持意群韵律衔接、自适应语速调节。讯飞星火翻译机可以记录回溯对话内容，能连接耳机、音箱等音频设备。

星火语音同传大模型的主要功能

高精度同传翻译：针对日常对话、商务交流、行业翻译等国际交流场景中的高难度同传翻译需求，模型在内容完整度、信息准确度以及语言质量上都处于行业领先水平，超过谷歌Gemini 2.0和OpenAI GPT-4o，最快实现5秒以内的同传时延，达到人类专家译员的水平。多语种支持：基于统一建模的星火多语种语音识别大模型，支持中文、英语、日语、韩语、俄语、法语、西班牙语、阿拉伯语、德语、葡萄牙语、越南语等37个语种，还能自动判断语种并进行识别。专有词汇精准翻译：即使是专有词汇，也能被准确、流畅地翻译出来，展示了模型在复杂语境下的高效处理能力。译文长度反向调控：支持译文长度反向调控，可根据实际需求调整译文的长度和详细程度。流式意群切分与重组：语音到文本端到端翻译支持流式意群切分、语境理解、信息重组，能更好地把握语义和语境，翻译更加准确和自然。语音合成优化：流式语音合成则支持意群韵律衔接、自适应语速调节，让合成语音更加流畅自然，更贴近真人发音。对话记录回溯：讯飞星火翻译机可以记录回溯对话内容，对于需要保留会议记录或谈判要点的用户来说非常便利。设备兼容性强：翻译机能轻松连接耳机、音箱等音频设备，满足用户在不同场合下的使用需求。

星火语音同传大模型的技术原理

语音识别模块：负责将输入的语音信号转换为文本信息，支持多种语言和方言的识别。翻译模块：将识别出的文本信息从一种语言翻译到另一种语言，支持译文长度反向调控。语音合成模块：将翻译后的文本信息转换为语音输出，支持流式意群切分、语境理解、信息重组。自监督学习：模型采用自监督学习方法，如Masked Language Model (MLM)，预测被掩码的单词或字符，从而从输入的文本中自动学习到语义信息和上下文关系。注意力机制：Transformer模型中的注意力机制使得模型能够聚焦于输入序列中的重要部分，提高输出序列的质量。多层神经网络结构：模型采用了多层的神经网络结构，包括输入层、隐藏层和输出层，使用递归神经网络（RNN）或长短时记忆网络（LSTM）等技术对特征进行转换和传递。大规模参数量：模型拥有庞大的参数量，能够处理大量的数据，进行更为复杂的计算和分析。深度学习算法：模型采用了深度学习算法，能自动从海量数据中学习知识，提高预测和分类的准确性。