ChildMandarin – 智源联合南开开源的低幼儿童中文语音数据集
2025-04-21 12:03:57 小编:六六导航站
ChildMandarin是什么
ChildMandarin 是智源研究院联合南开大学计算机学院人类语言技术实验室(HLT Lab)共同推出的,针对3-5岁儿童的普通话语音数据集。数据集包含41.25小时的语音数据,来自397名儿童,覆盖中国22个省级行政区,性别分布均衡。数据用智能手机录制,确保高质量音频。ChildMandarin核心特点是自然真实交互,用家长引导式对话采集方式,模拟自然交流场景。数据集填补了低幼儿童语音研究的空白,推动儿童语音识别、语言发展研究及智能语音交互系统的发展。

ChildMandarin的主要功能
语音识别:为自动语音识别(ASR)模型提供大量3-5岁儿童的自然语音数据,提升儿童语音识别的准确性和鲁棒性。说话人验证:支持说话人验证(SV)任务,帮助识别和区分不同儿童的声音,用在儿童身份认证等场景。语言研究:为儿童语言发展研究提供数据支持,助力开发儿童语言学习工具和互动教育系统。ChildMandarin的技术原理
数据采集:用家长引导式对话的方式,模拟自然交流场景,确保语音数据的真实性和自然性。数据采集覆盖中国22个省级行政区,确保不同地域口音的多样性。用智能手机(Android和iPhone)进行录音,确保音频质量高,采样率为16kHz,精度为16位。数据标注:由专业转录人员进行手动标注,包括儿童的发音、停顿、重复等自然语言现象。标注说话人的年龄、性别、出生地、录音设备、口音等级等信息。模型训练和评估:用多种ASR模型(如Transformer、Conformer、Paraformer)进行训练和评估,基于CTC、AED、RNN-T等技术。对预训练模型(如HuBERT、Whisper)进行微调,用在大规模数据上学习到的特征,提升儿童语音识别的性能。用说话人嵌入提取模型(如x-vector、ECAPA-TDNN、ResNet-TDNN)进行说话人验证任务,评估模型在儿童语音上的表现。数据集设计:数据集分为训练集、验证集和测试集,确保模型训练和评估的科学性和有效性。基于多样化的数据采集和标注,确保数据集能够覆盖不同年龄段、性别、地域和口音的儿童语音。ChildMandarin的项目地址
GitHub仓库:https://github.com/flageval-baai/ChildMandarinHuggingFace模型库:https://huggingface.co/datasets/BAAI/ChildMandarinarXiv技术论文:https://arxiv.org/pdf/2409.18584ChildMandarin的应用场景
儿童语言学习工具:开发智能语音辅助工具,帮助儿童学习语言发音、词汇和语法,提升语言能力。互动教育系统:为儿童教育软件和互动学习平台提供语音交互功能,让学习过程更加生动有趣。智能玩具开发:增强智能玩具的语音识别能力,更好地理解儿童的语音指令,提升互动体验。语音助手优化:改进语音助手(如智能音箱、手机助手)对儿童语音的识别和响应,更适合儿童使用。儿童健康管理:监测儿童的语言发展和健康状况,为早期干预提供支持。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- ChildMandarin – 智源联合南开开源的低幼儿童中文语音数据集
- MagicColor – 香港科技大学推出的多实例线稿图着色框架
- Step-R1-V-Mini – 阶跃星辰最新推出的多模态推理模型
- 大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
- SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集
- HiDream-I1 – 智象未来开源的文生图模型
- MEET2020 | 百度景鲲:AI交互正在吃掉旧产品边界,触达移动互联网盲区用户
- GitHub MCP Server – GitHub推出基于 MCP 的服务器工具
- Nova Sonic – 亚马逊推出的新型生成式 AI 语音模型
- 火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务