多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿
在剛剛結(jié)束的 I/O 大會的主題演講中,Google CEO Sundar 提出了機器學(xué)習(xí)在無障礙(Accessibility)方面的用例:有聽覺障礙的人在觀看視頻時往往需要配合字幕來完成輔助理解,但是如果你遇到了多個人同時在說話,自動生成的字幕反倒會擾亂聽障人士的思維,使得他們更不知其所云。
有了我們稱之為?Looking to Listen?的機器學(xué)習(xí)技術(shù)之后,我們通過對視頻信號的處理和分析,將正在說話的人進行語音分離,借此提高音頻的質(zhì)量和準(zhǔn)確度。
我們將這篇今年 4 月份發(fā)布在 Google Research 博客上的分享于此,借以機會讓大家可以有更多針對這方面技術(shù)的了解。小編也為大家錄制了帶有 YouTube 自動生成字幕的處理后的視頻,便于大家理解。
博客發(fā)布人:Google Research 軟件工程師 Inbar Mosseri 和 Oran Lang
在嘈雜的環(huán)境中,人們非常善于把注意力集中在某個特定的人身上,在心理上"屏蔽"所有其他語音和聲音。這種能力被稱為雞尾酒會效應(yīng),它是我們?nèi)祟?strong style="max-width:100%;">與生俱來的本領(lǐng)。然而,盡管關(guān)于自動語音分離(將音頻信號分離為單獨的語音源)的研究已經(jīng)非常深入,這個課題仍是計算機領(lǐng)域的一項重大挑戰(zhàn)。
在"Looking to Listen at the Cocktail Party"論文中,我們提出了一種深度學(xué)習(xí)音頻—視覺模型,用于將單個語音信號與背景噪聲、其他人聲等混合聲音分離開來。我們通過計算生成視頻,增強其中特定人員的語音,同時減弱其他人的聲音。此方法用在具有單個音頻軌道的普通視頻上,用戶需要做的就是在視頻中選出他們想要聽到的說話者的面部,或者結(jié)合語境用算法選出這樣的人。我們認(rèn)為此方法用途廣泛,從視頻中的語音增強和識別、視頻會議,到改進助聽器,不一而足,尤其適用于有多個說話人的情景。
這項技術(shù)的獨特之處在于結(jié)合了輸入視頻的聽覺和視覺信號來分離語音。直觀地講,人嘴部的運動應(yīng)當(dāng)與這個人說話時產(chǎn)生的聲音相關(guān)聯(lián),這反過來又可以幫助識別音頻的哪些部分對應(yīng)于這個人。視覺信號不僅可以在混合語音的情況下顯著提高語音分離質(zhì)量(與僅僅使用音頻的語音分離相比,與我們的論文得出的結(jié)論相同),但是重要的是,它還能夠?qū)⒎蛛x的干凈語音軌道與視頻中的可見說話者相關(guān)聯(lián)。
在我們的方法中,輸入是具有一個或多個說話者的視頻,其中我們需要的語音受到其他說話者和(或)背景噪聲的干擾。輸出是輸入音頻軌道分解成的干凈語音軌道,其中每個語音軌道來自視頻中檢測到的每一個人。
音頻—視覺語音分離模型
為了生成訓(xùn)練樣本,我們首先從 YouTube 上采集了 10 萬個高質(zhì)量講座和演講視頻。然后從視頻中提取帶有清晰語音的片段(例如沒有混合音樂、觀眾聲音或其他說話者聲音的片段)和視頻幀中只有一個說話者的片段。這樣得到了大約 2000 小時的視頻剪輯,鏡頭中出現(xiàn)的是單個人,且說話的時候沒有背景干擾。之后,我們使用這些干凈數(shù)據(jù)生成"合成雞尾酒會",即,將人臉視頻、來自單獨視頻源的對應(yīng)語音及從 AudioSet 獲取的無語音背景噪聲混合在一起。
使用這些數(shù)據(jù),我們能夠訓(xùn)練基于多流卷積神經(jīng)網(wǎng)絡(luò)的模型,將合成雞尾酒會混合片段分割成視頻中每個說話者的單獨音頻流。網(wǎng)絡(luò)輸入是從每一幀檢測到的說話者臉部縮略圖中提取的視覺特征以及視頻聲道的聲譜圖表示。在訓(xùn)練過程中,網(wǎng)絡(luò)(分別)學(xué)習(xí)視覺和聽覺信號的編碼,然后將其融合在一起,形成一個聯(lián)合音頻—視覺表示。利用這種聯(lián)合表示,網(wǎng)絡(luò)可以學(xué)習(xí)為每個說話者輸出時頻掩碼。輸出掩碼乘以帶噪聲的輸入聲譜圖,然后轉(zhuǎn)換成時域波形,以獲取每位說話者單獨、干凈的語音信號。如需了解完整的詳細信息,請參閱我們的論文,論文鏈接:
https://arxiv.org/abs/1804.03619
基于多流神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)。
以下是使用我們的方法得到的語音分離和增強結(jié)果(先播放帶混合或嘈雜語音的輸入視頻,然后播放增強結(jié)果)。所選說話者之外的另一個人的聲音可以完全消去,或被抑制到所需的音量級別。
在語音識別中的應(yīng)用
我們的方法也可以作為預(yù)處理程序應(yīng)用于語音識別和自動視頻字幕添加。處理語音重疊的說話者對于自動字幕添加系統(tǒng)來說很有挑戰(zhàn)性,將音頻分離為不同的來源可以幫助生成更加準(zhǔn)確、易讀的字幕。
點擊播放上面視頻,小編已經(jīng)為你準(zhǔn)備好帶有 YouTube 自動字幕的視頻。
我們的項目網(wǎng)頁提供了更多結(jié)果,以及此技術(shù)與最先進的純音頻語音分離和近期其他視聽語音分離工作的對比情況。事實上,隨著深度學(xué)習(xí)領(lǐng)域近期不斷取得進展,學(xué)術(shù)界對視聽分析的關(guān)注顯著增加。在我們進行本研究的同時,其他機構(gòu)也紛紛進行了不同的研究,例如,加州大學(xué)伯克利分校的一項研究分析了如何使用自我監(jiān)督的方法來分離畫面內(nèi)/外說話者的語音,MIT 的一項研究則解決了如何分離屏幕上多個物體(例如樂器)的聲音,同時定位發(fā)出聲音的圖像區(qū)域這一問題。
我們認(rèn)為這項技術(shù)的應(yīng)用前景十分廣闊。我們目前正在探索如何將此技術(shù)整合到各種 Google 產(chǎn)品中。敬請期待!
Looking to Listen 項目網(wǎng)頁:
https://looking-to-listen.github.io/?
致謝
本文介紹的研究由 Ariel Ephrat(實習(xí)生)、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、Bill Freeman 和 Michael Rubinstein 共同完成。我們要感謝 Yossi Matias 和 Google Research Israel 對項目的支持,以及 John Hershey 提供的寶貴意見。我們還要感謝 Arkady Ziefman 在動畫和人物方面提供的幫助,感謝 Rachel Soh 幫助我們獲取文中所用視頻內(nèi)容的權(quán)限。
來源:?TensorFlow
總結(jié)
以上是生活随笔為你收集整理的多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习:怎样才能做到从入门到不放弃?
- 下一篇: 福利再度来袭,R语言数据分析书籍值得你拥