微信
邮箱

contact@speechocean.com

留资
TOP
如何解决语码转换中的数据挑战?
2020.11.03

行业盛会INTERSPEECH2020 已圆满落下帷幕,相信各位都收获满满。海天瑞声作为数据支持方,协助微软语码转换研讨会完满举行。研讨会中,海天瑞声首席科学家郝玉峰博士就语码转换中的数据挑战及解决方案发表了主题演讲。

我们整理了郝玉峰博士演讲的主要内容与大家分享。


2-1.png

海天瑞声首席科学家郝玉峰博士


演讲内容:如何解决语码转换中的数据挑战

郝玉峰博士提出,语码转换中的数据挑战主要存在于方案设计数据采集数据处理,以及安全合规四个环节,其中方案设计环节中,语码转换文本的语言学特征复杂多样,其难点主要在于多语言混合下文本易读性音素覆盖的全面性;数据采集的难点,主要在于多语种发音人的相对稀缺性;数据处理环节中,语音转写标注的规范性和一致性是亟待解决的问题;数据安全问题,则是贯穿于数据采集、处理、传输和存储过程中的关键。


2-2.png

语码转换中的挑战及解决方案


作为国内较早一批从事AI数据服务的企业之一,海天瑞声深耕行业15年,针对语码转化中的数据难题自有一套成熟、规范的流程体系。

在方案设计方面,海天瑞声语言学家团队开发出了针对全球150+语言、方言计算机可读IPA和音素清单,并设计出针对70+语言的高准确度LTS规则;此外,海天瑞声还研发出了用于设计语码转换方案的文本创作、选择方法;

在发音人招募层面,15年的积累使海天瑞声具备全球70多个国家、地区的本地化服务能力,并拥有大批高质量、具备专业素养的发音人,能够快速进行同一发音人多语种发音的数据采集;

数据处理环节,海天瑞声的混合语种正则转写规范、具备丰富项目经验的专业团队和自研的质量检验平台可保证语码转换中数据处理的标准化、高质量及高效率;

此外,海天瑞声独立的SQA部门可保证数据从采集到交付全流程的安全合规。

研讨会中,郝玉峰博士还向嘉宾展示了海天瑞声现有的可直接用于语码转换模型训练的数据库,涉及到5种语言,4组语言对,共计6000+小时。

未来,海天瑞声将继续积极投身于人工智能相关学术及行业活动中,与产学研同仁一起为行业发展努力。


关于我们


海天瑞声作为人工智能数据资源及数据服务供应商,致力于为用户提供工程化数据资源,以及数据采集与数据处理等服务。业务覆盖语音识别、语音合成、计算机视 觉、自然语言处理、发音词典等技术领域。


联系我们


电话咨询:010-62660053

邮件咨询:contact@speechocean.com


电话
留资
会员