儿童语音转写:ASR性能与可靠正字法转写获取
研究人员在两组荷兰儿童语音数据集上评估了三种架构(Whisper、Parakeet、Wav2Vec2)的九种自动语音识别模型,发现微调后的Whisper-medium模型表现最佳。同时,他们开发了一种语句级选择方法,能够以超过98%的精度自动识别发音正确的录音——无需人工验证即可从嘈杂的儿童语音语料库中筛选出最干净的数据,尽管通过此过滤器保留的语句比例差异显著(在干净数据中为42%,在嘈杂数据中为18%)。
深度分析
儿童语音是自动语音识别研究中一个持续存在的难题,至今尚未完全解决,且原因充分。儿童的声道结构在生理上与成人不同——更短,仍在发育中——这意味着其共振峰频率、语速和韵律模式与主导训练语料库的成人语音存在显著差异。加之年幼说话者的发音天生不够稳定:他们犹豫、中途重启单词、产生非标准发音,整体表现如同仍在学习协调发音器官的人群。若将这些因素置于荷兰语这样的低资源语言中——即使是成人的自动语音识别模型,其可利用的数据也远少于英语模型——问题会进一步加剧。本文采取了一种务实且令人耳目一新的方法,并非从头构建更好的模型,而是提出一个更实际的问题:在现有条件下,模型实际表现如何?我们能否足够信任其输出,从而跳过部分人工审核?
第一个发现——微调后的Whisper-medium表现占优——对于关注过Whisper发展轨迹的人来说并不意外。OpenAI发布的该模型基于68万小时多语言网络爬取音频训练,尽管存在已知的幻觉问题和输出自信却无意义的倾向,但其声学模式识别的广度是更狭窄、特定架构的模型难以企及的。微调结果揭示了更深层的启示:Whisper的预训练赋予其足够的泛化能力,即使相对有限的领域特定数据也能显著提升其对儿童语音的处理效果。Parakeet和Wav2Vec2系列虽表现尚可,但缺乏这种广泛的基础训练。这强化了该领域的一个趋势——大规模预训练后进行针对性适配。
免责声明:以上内容由 AI 生成,仅供参考。