电话

+86
-10-62660053

邮箱

contact@speechocean.com

留资
TOP
小米联合海天瑞声开源发音评测数据集和相应基线系统
2021.02.09

计算机辅助语言学习(Computer-Aided Language Learning,CALL) 是重要的智能语音应用,发音评测(Pronunciation Evaluation)是其核心技术。随着在线教育的普及,尤其是新冠疫情对线上教学的推动,发音评测技术正在被越来越多的学者们关注和研究。


和语音识别等领域不同,发音评测领域长期缺乏一个公开数据集用于横向对比。研究人员通常只能选择各自私有数据集进行测试,某种程度上阻碍了该领域的交流和发展。


基于以上现状,小米语音联合海天瑞声开源了业界首个比较完善的英语发音评测公开数据集,并为Kaldi贡献了相应示例代码,以期促进领域内研究人员的交流分享,推动发音评测的研究。该数据集已在近日上传到OpenSLR网站,其示例代码也已合并到Kaldi主线。


image.png

图片来源于OpenSLR


下面是对该数据集的简要介绍:


数据集名称:speechocean762

数据集语言:中国人讲英语


样本均衡,内容完善


数据集包含5000个英文句子,内容涵盖日常生活多个方面;由250位英语非母语发音人录制,其母语均为普通话;发音人性别、年龄占比均衡,男女比例1:1,儿童及成年发音人比例1:1;发音人英语水平经过严格设计及筛选,好、中、差比例为2:1:1,可保证对不同程度英语发音学习者的反馈测试。


五位专家独立评分,粒度到音素级


数据集提供了多维度的人工评分,其粒度不仅包括句子级单词级,还包括音素级。其中,句子级评分包括准确性、完整性、流利度和韵律四个维度,单词级评分包含音素准确性和重音位置准确性两个维度,音素级评分包括准确性一个维度。


这个数据集的一个重要的特性是,该数据集所有维度的人工评分来源于五位专家,这五位专家使用相同的评分标准进行独立评分。这大大降低了人工评分的主观性。


量身定制的Kaldi recipe


小米语音团队为Kaldi贡献了为本数据集量身定制的recipe,演示了如何进行音素级评分。对Kaldi的C++代码和公共脚本,小米也增添了若干新功能以更好地支持该recipe。这个recipe在本数据集上作了音素级评分测试,其测试结果可以被学者们在论文中作为基线使用。


小米和海天瑞声还将联合发表一篇论文,介绍本数据集和相应的基线系统,以方便学者们引用。


数据集下载链接为:http://www.openslr.org/101/ ,其对应的Kaldi recipe入口为:egs/gop_speechocean762。关于数据集的更多详细介绍,可参考数据集中的文档。

欢迎产学研相关人士就各自领域在数据方面遇到的挑战与我们沟通交流,共同探索解决方案,让智能科技的便利早日普惠到社会的方方面面。

 

关于我们

 

海天瑞声作为人工智能数据资源及数据服务供应商,致力于为用户提供工程化数据资源,以及数据采集与数据处理等服务。业务覆盖语音识别、语音合成、计算机视觉、自然语言处理、发音词典等技术领域。

 

联系我们

 

电话咨询:010-62660053

邮件咨询:contact@speechocean.com

 


电话
留资
会员