语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition
聲明:平時看些文章做些筆記分享出來,文章中難免存在錯誤的地方,還望大家海涵。平時搜集一些資料,方便查閱學習:http://yqli.tech/page/speech.html。如轉載,請標明出處。歡迎關注微信公眾號:低調奮進
SynthASR: Unlocking Synthetic Data for Speech Recognition
本文為Alexa Speech, Amazon.com在2021.06.14更新的文章,主要使用tts合成的語料來優化ASR,從而提高ASR的性能,具體的文章鏈接
https://arxiv.org/pdf/2106.07803.pdf
1?背景
e2e的asr比傳統的hybird asr在性能顯出突出的優勢,但訓練ASR模型需要大量的標注數據,這將需要很大的成本開銷。同時,tts系統合成的語音質量可以媲美人類的自然語音,而且可以合成不同風格和韻律的語音,因此使用TTS合成的語音來優化ASR成為本文研究的重點。
2?詳細設計
本文使用的tts為multi-speaker tts,其中包括對prosody和speaker建模的encoder,具體的結構如圖2所示。另外asr使用了rnn-t的結構,具體如圖1所示,tts合成的不同風格不同說話人的語料來給rnn-t來訓練。另外,本文使用multi-stage 訓練策略來適用不同domain的應用,避免了 catastrophic forgetting問題,為了避免使用合成數據造成參數更新范圍太大,提出了如公式2的elastic penalty。
3?實驗
本文使用LibriSpeech 960h數據來訓練rnn-t作為benchmark,然后使用480h數據訓練rnn-t作為baseline,然后使用480h+syn 1150h小時訓練rnn-t,結果如table1 所示,使用480h+syn 1150h比只使用480h的效果較好。?table 2使用multi-stage來訓練rnn-t的效果,結果顯示使用multi-stage可以提高性能。
4?總結
本文使用TTS合成的語音和multi-stage 訓練方法來優化ASR的性能,從而降低其wer。
總結
以上是生活随笔為你收集整理的语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VScode 无法保存,文件内容较新
- 下一篇: 《代码大全2》第3章 三思而后行,前期准