Dolphin – 清华联合海天瑞声推出的语音识别大模型
2025-05-26 15:54:56 小编:六六导航站
Dolphin是什么
Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含普通话),能精准识别不同地区的语言特点。模型训练数据总时长21.2万小时,高质量专有数据13.8万小时,开源数据7.4万小时。在性能上,Dolphin的词错率(WER)显著低于Whisper同等尺寸模型,如base版本平均WER降低63.1%,small版本降低68.2%。采用CTC-Attention架构,结合E-Branchformer编码器和Transformer解码器,通过4倍下采样层加速计算,保留关键语音信息。

Dolphin的主要功能
多语言及方言识别:Dolphin 支持 40 种东方语言的语音识别,涵盖范围广泛,能满足不同语言环境下的语音识别需求。高精度语音转文字:Dolphin 能将语音信号高效准确地转换为文字内容。在多种语言和方言的语音识别任务中都能保持较高的准确率,有效减少了语音转文字过程中的错误和误解。自定义语言和地区设置:用户可以根据实际需求,灵活指定语音识别的语言和地区。Dolphin 采用两级语种标签系统,第一个标签指定语种(如Dolphin的技术原理
CTC-Attention 架构:Dolphin 采用 CTC-Attention 架构,结合了 CTC(Connectionist Temporal Classification)的序列建模能力和注意力机制的上下文捕捉能力。能在处理复杂的音频输入时,有效捕捉语音信息的细微变化,保持高效的处理速度,提升模型的识别准确性和效率。E-Branchformer 编码器:E-Branchformer 编码器采用并行分支结构,能更有效地捕捉输入语音信号的局部和全局依赖关系。为模型提供了更丰富的特征表示,使模型能更好地理解语音信号中的复杂模式,提高识别的准确性。Transformer 解码器:Dolphin 的解码器部分采用了 Transformer 架构。Transformer 在序列到序列任务中表现出色,能生成高质量的文本输出。通过自注意力机制,能有效地捕捉文本中的长距离依赖关系,确保最终输出的文本质量和连贯性。4 倍下采样层:为了进一步提高训练效率和性能,Dolphin 引入了 4 倍下采样层。可以减少输入特征的序列长度,加速计算过程,保留关键的语音信息,确保模型的识别效果不受影响。两级语种标签系统:Dolphin 引入了创新性的两级语种标签系统。第一个标签指定语种(例如Dolphin的项目地址
Github仓库:https://github.com/DataoceanAI/DolphinHuggingFace模型库:https://huggingface.co/DataoceanAIarXiv技术论文:https://arxiv.org/pdf/2503.20212Dolphin的应用场景
会议记录:自动将会议中的语音内容转换为文字记录,提高工作效率。语音输入法:在智能设备上,用户可以通过语音输入文字,减少手动输入的麻烦,提升输入速度和便捷性。智能语音助手:支持多种语言和方言,能更好地理解用户的语音指令,提供更准确的反馈,减少因方言或口音导致的误解。智能家居:用户可以通过语音控制智能家居设备,如灯光、空调等,提升家居的智能化和便捷性。新闻媒体:快速将新闻采访、播客等语音内容转换为文字,方便编辑和发布。语言学习:支持多种语言和方言的识别,可以帮助学生练习发音和语言表达。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Dolphin – 清华联合海天瑞声推出的语音识别大模型
- WorldScore – 斯坦福大学推出的世界生成模型统一评估基准
- PaperBench – OpenAI 开源的 AI 智能体评测基准
- DreamActor-M1 – 字节跳动推出的 AI 图像动画框架
- Mini DALL·E 3 – 北京理工联合上海 AI Lab等高校推出的交互式文生图框架
- MoCha – Meta 联合滑铁卢大学推出的端到端对话角色视频生成模型
- DeepSeek-GRM – DeepSeek 联合清华推出的通用奖励模型
- HiDream-I1 – 智象未来开源的AI图像生成模型
- Seed-Coder – 字节跳动开源的代码模型系列
- LegoGPT – 卡内基梅隆大学推出的乐高积木设计模型
- 精选推荐
-
Shakespeare AI Toolbar2025-02-01法律助手
-
2233.ai2025-02-02提示指令
-
通义千问2025-01-30提示指令
-
ChatGPT Sidebar2025-02-03提示指令
-
ChatGPT Free2025-02-13提示指令
-
Databass2025-02-18提示指令