智能家居中语音识别算法研究_语音识别研究获进展
中國科學(xué)院自動(dòng)化研究所智能交互團(tuán)隊(duì)在環(huán)境魯棒性、輕量級(jí)建模、自適應(yīng)能力以及端到端處理等幾個(gè)方面進(jìn)行持續(xù)攻關(guān),在語音識(shí)別方面獲新進(jìn)展,相關(guān)成果將在全球語音學(xué)術(shù)會(huì)議INTERSPEECH2019發(fā)表。
現(xiàn)有端到端語音識(shí)別系統(tǒng)難以有效利用外部文本語料中的語言學(xué)知識(shí),針對這一問題,陶建華、易江燕、白燁等人提出采用知識(shí)遷移的方法,首先對大規(guī)模外部文本訓(xùn)練語言模型,然后將該語言模型中的知識(shí)遷移到端到端語音識(shí)別系統(tǒng)中。這種方法利用了外部語言模型提供詞的先驗(yàn)分布軟標(biāo)簽,并采用KL散度進(jìn)行優(yōu)化,使語音識(shí)別系統(tǒng)輸出的分布與外部語言模型輸出的分布接近,從而有效提高語音識(shí)別的準(zhǔn)確率。?
語音關(guān)鍵詞檢測在智能家居、智能車載等場景中有著重要作用。面向終端設(shè)備的語音關(guān)鍵詞檢測對算法的時(shí)間復(fù)雜度和空間復(fù)雜度有著很高的要求。當(dāng)前主流的基于殘差神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞檢測,需要20萬以上的參數(shù),難以在終端設(shè)備上應(yīng)用。為了解決這一問題,陶建華、易江燕、白燁等人提出基于共享權(quán)值自注意力機(jī)制和時(shí)延神經(jīng)網(wǎng)絡(luò)的輕量級(jí)語音關(guān)鍵詞檢測方法。該方法采用時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行降采樣,通過自注意力機(jī)制捕獲時(shí)序相關(guān)性;并采用共享權(quán)值的方法,將自注意力機(jī)制中的多個(gè)矩陣共享,使其映射到相同的特征空間,從而進(jìn)一步壓縮了模型的尺寸。與目前的性能最好的基于殘差神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞檢測模型相比,他們提出的方法在識(shí)別準(zhǔn)確率接近的前提下,模型大小僅為殘差網(wǎng)絡(luò)模型的1/20,有效降低了算法復(fù)雜度。?
針對RNN-Transducer模型存在收斂速度慢、難以有效進(jìn)行并行訓(xùn)練的問題,陶建華、易江燕、田正坤等人提出了一種Self-attention Transducer (SA-T)模型,主要在以下三個(gè)方面實(shí)現(xiàn)了改進(jìn):(1)通過自注意力機(jī)制替代RNN進(jìn)行建模,有效提高了模型訓(xùn)練的速度;(2)為了使SA-T能夠進(jìn)行流式的語音識(shí)別和解碼,進(jìn)一步引入了Chunk-Flow機(jī)制,通過限制自注意力機(jī)制范圍對局部依賴信息進(jìn)行建模,并通過堆疊多層網(wǎng)絡(luò)對長距離依賴信息進(jìn)行建模;(3)受CTC-CE聯(lián)合優(yōu)化啟發(fā),將交叉熵正則化引入到SA-T模型中,提出Path-Aware Regularization(PAR),通過先驗(yàn)知識(shí)引入一條可行的對齊路徑,在訓(xùn)練過程中重點(diǎn)優(yōu)化該路徑。經(jīng)驗(yàn)證,上述改進(jìn)有效提高了模型訓(xùn)練速度及識(shí)別效果。
語音分離又稱為雞尾酒會(huì)問題,其目標(biāo)是從同時(shí)含有多個(gè)說話人的混合語音信號(hào)中分離出不同說話人的信號(hào)。當(dāng)一段語音中同時(shí)含有多個(gè)說話人時(shí),會(huì)嚴(yán)重影響語音識(shí)別和說話人識(shí)別的性能。目前解決這一問題的兩種主流方法分別是:深度聚類(DC, deep clustering)算法和排列不變性訓(xùn)練(PIT, permutation invariant training)準(zhǔn)則算法。深度聚類算法在訓(xùn)練過程中不能以真實(shí)的干凈語音作為目標(biāo),性能受限于k-means聚類算法;而PIT算法其輸入特征區(qū)分性不足。針對DC和PIT算法的局限性,陶建華、劉斌、范存航等人提出了基于區(qū)分性學(xué)習(xí)和深度嵌入式特征的語音分離方法。首先,利用DC提取一個(gè)具有區(qū)分性的深度嵌入式特征,然后將該特征輸入到PIT算法中進(jìn)行語音分離。同時(shí),為了增大不同說話人之間的距離,減小相同說話人之間的距離,引入了區(qū)分性學(xué)習(xí)目標(biāo)準(zhǔn)則,進(jìn)一步提升算法的性能。所提方法在WSJ0-2mix語音分離公開數(shù)據(jù)庫上獲得較大的性能提升。
端到端系統(tǒng)在語音識(shí)別中取得突破。然而在復(fù)雜噪聲環(huán)境下,端到端系統(tǒng)的魯棒性依然面臨巨大挑戰(zhàn)。針對端到端系統(tǒng)不夠魯棒的問題,劉文舉、聶帥、劉斌等人提出了基于聯(lián)合對抗增強(qiáng)訓(xùn)練的魯棒性端到端語音識(shí)別方法。具體地說,使用一個(gè)基于mask的語音增強(qiáng)網(wǎng)絡(luò)、基于注意力機(jī)制的端到端語音識(shí)別網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的聯(lián)合優(yōu)化方案。判別網(wǎng)絡(luò)用于區(qū)分經(jīng)過語音增強(qiáng)網(wǎng)絡(luò)之后的頻譜和純凈語音的頻譜,可以引導(dǎo)語音增強(qiáng)網(wǎng)絡(luò)的輸出更加接近純凈語音分布。通過聯(lián)合優(yōu)化識(shí)別、增強(qiáng)和判別損失,神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)更為魯棒的特征表示。所提方法在aishell-1數(shù)據(jù)集上面取得了較大的性能提升。
說話人提取是提取音頻中目標(biāo)說話人的聲音。與語音分離不同,說話人提取不需要分離出音頻中所有說話人的聲音,而只關(guān)注某一特定說話人。目前主流的說話人提取方法是:說話人波束(SpeakerBeam)和聲音濾波器(Voice filter)。這兩種方法都只關(guān)注聲音的頻譜特征,而沒有利用多通道信號(hào)的空間特性。因?yàn)槁曉词怯蟹较蛐缘?#xff0c;并且在實(shí)際環(huán)境中是空間可分的。所以,如果正確利用多通道的空間區(qū)分性,說話人提取系統(tǒng)可以更好地估計(jì)目標(biāo)說話人。為了有效利用多通道的空間特性,劉文舉、梁山、李冠君等人提出了方向感知的多通道說話人提取方法。首先多通道的信號(hào)先經(jīng)過一組固定波束形成器,來產(chǎn)生不同方向的波束。進(jìn)而DNN采用attention機(jī)制來確定目標(biāo)信號(hào)所在的方向,來增強(qiáng)目標(biāo)方向的信號(hào)。最后增強(qiáng)后的信號(hào)經(jīng)過SpeakerBeam通過頻譜線索來提取目標(biāo)信號(hào)。提出的算法在低信噪比或同性別說話人混合的場景中性能提升明顯。
傳統(tǒng)的對話情感識(shí)別方法通常從孤立的句子中識(shí)別情感狀態(tài),未能充分考慮對話中的上下文信息對于當(dāng)前時(shí)刻情感狀態(tài)的影響。針對這一問題,陶建華、劉斌、連政等人提出了一種融合上下文信息的多模態(tài)情感識(shí)別方法。在輸入層,采用注意力機(jī)制對文本特征和聲學(xué)特征進(jìn)行融合;在識(shí)別層,采用基于自注意力機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對長時(shí)上下文信息進(jìn)行建模;為了能夠有效模擬真實(shí)場景下的交互模式,引入身份編碼向量作為額外的特征輸入到模型,用于區(qū)分交互過程中的身份信息。在IEMOCAP情感數(shù)據(jù)集上對算法進(jìn)行了評估,實(shí)驗(yàn)結(jié)果表明,該方法相比現(xiàn)有最優(yōu)基線方法,在情感識(shí)別性能上提升了2.42%。
由于情感數(shù)據(jù)標(biāo)注困難,語音情感識(shí)別面臨著數(shù)據(jù)資源匱乏的問題。雖然采用遷移學(xué)習(xí)方法,將其他領(lǐng)域知識(shí)遷移到語音情感識(shí)別,可以在一定程度上緩解低資源的問題,但是這類方法并沒有關(guān)注到長時(shí)信息對語音情感識(shí)別的重要作用。針對這一問題,陶建華、劉斌、連政等人提出了一種基于未來觀測預(yù)測(Future Observation Prediction, FOP)的無監(jiān)督特征學(xué)習(xí)方法。FOP采用自注意力機(jī)制,能夠有效捕獲長時(shí)信息;采用微調(diào)(Fine-tuning)和超列(Hypercolumns)兩種遷移學(xué)習(xí)方法,能夠?qū)OP學(xué)習(xí)到的知識(shí)用于語音情感識(shí)別。該方法在IEMOCAP情感數(shù)據(jù)集上的性能超過了基于無監(jiān)督學(xué)習(xí)策略的語音情感識(shí)別。
相關(guān)生理學(xué)研究表明,MFCC (Mel-frequency cepstral coefficient)對于抑郁檢測來說是一種有區(qū)分性聲學(xué)特征,這一研究成果使得不少工作通過MFCC來辨識(shí)個(gè)體的抑郁程度。但是,上述工作中很少使用神經(jīng)網(wǎng)絡(luò)來進(jìn)一步捕獲MFCC中反映抑郁程度的高表征特征;此外,針對抑郁檢測這一問題,合適的特征池化參數(shù)未能被有效優(yōu)化。針對上述問題,陶建華、劉斌、牛明月等人提出了一種混合網(wǎng)絡(luò)并結(jié)合LASSO (least absolute shrinkage and selection operator)的lp范數(shù)池化方法來提升抑郁檢測的性能。首先將整段音頻的MFCC切分成具有固定大小的長度;然后將這些切分的片段輸入到混合神經(jīng)網(wǎng)絡(luò)中以挖掘特征序列的空間結(jié)構(gòu)、時(shí)序變化以及區(qū)分性表示與抑郁線索相關(guān)的信息,并將所抽取的特征記為段級(jí)別的特征;最后結(jié)合LASSO的lp范數(shù)池化將這些段級(jí)別的特征進(jìn)一步聚合為表征原始語音句子級(jí)的特征。
基于知識(shí)遷移的端到端語音識(shí)別系統(tǒng)?
基于共享權(quán)值自注意力機(jī)制和時(shí)延神經(jīng)網(wǎng)絡(luò)的輕量級(jí)語音關(guān)鍵詞檢測?
基于自注意力機(jī)制的端到端語音轉(zhuǎn)寫模型
基于區(qū)分性學(xué)習(xí)和深度嵌入式特征的語音分離方法總體框圖
基于聯(lián)合對抗增強(qiáng)訓(xùn)練的魯棒性端到端語音識(shí)別總體框圖?
?
來源:中國科學(xué)院自動(dòng)化研究所
溫馨提示:近期,微信公眾號(hào)信息流改版。每個(gè)用戶可以設(shè)置 常讀訂閱號(hào),這些訂閱號(hào)將以大卡片的形式展示。因此,如果不想錯(cuò)過“中科院之聲”的文章,你一定要進(jìn)行以下操作:進(jìn)入“中科院之聲”公眾號(hào) → 點(diǎn)擊右上角的 ··· 菜單 → 選擇「設(shè)為星標(biāo)」
總結(jié)
以上是生活随笔為你收集整理的智能家居中语音识别算法研究_语音识别研究获进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Vue+Element+Springbo
- 下一篇: 基于java TCP实现网络通信聊天室《