日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)

發(fā)布時間:2024/3/24 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Machine learning in acoustics: Theory and applications

  • 前言
  • 摘要
  • 1.引言
  • 2.機器學習原理
    • 2.1.輸入和輸出
    • 2.2.監(jiān)督和無監(jiān)督學習
    • 2.3.生成:訓練數(shù)據(jù)和測試數(shù)據(jù)
    • 2.4.交叉驗證
    • 2.5.維度之咒
    • 2.6.貝葉斯機器學習
  • 3.監(jiān)督學習
    • 3.1.線性回歸,分類
    • 3.2.支持向量機
    • 3.3.神經(jīng)網(wǎng)絡:多層感知器
  • 4.無監(jiān)督學習
    • 4.1.主成分分析
    • 4.2.最大期望和高斯混合模型
    • 4.3.K-means
    • 4.4.字典學習
    • 4.5.自動編碼網(wǎng)絡
  • 5.深度學習
    • 5.1.激活函數(shù)和整流器
    • 5.2.端到端訓練
    • 5.3.卷積神經(jīng)網(wǎng)絡
    • 5.4.遷移學習
    • 5.5.專業(yè)架構
    • 5.6.聲學應用
  • 6.混響環(huán)境中聲源定位
    • 6.1.基于最大期望過程的定位和跟蹤
    • 6.2.基于流形學習的聲源定位和跟蹤
  • 7.海洋聲學中聲源定位
  • 8.生物聲學
  • 9.日常場景中的混響和環(huán)境聲
  • 9.1.混響
  • 9.2.環(huán)境聲
  • 9.3.面向人類層面的環(huán)境聲和場景解讀.
  • 10.總結(jié)

前言

上一篇綜述總結(jié)了聲學傳感中的幾類問題,相關工作以及挑戰(zhàn).在未來展望中,作者提到對于使用深度學習來解決傳統(tǒng)聲學中的問題十分看好.今天我們來看一下關于機器學習在聲學中的綜述.
由于開題,暫時先翻譯與本人研究相關的部分,其他的部分有時間再補上

no-free lunch定理
1、一種算法(算法A)在特定數(shù)據(jù)集上的表現(xiàn)優(yōu)于另一種算法(算法B)的同時,一定伴隨著算法A在另外某一個特定的數(shù)據(jù)集上有著不如算法B的表現(xiàn);
2、具體問題(機器學習領域內(nèi)問題)具體分析(具體的機器學習算法選擇)。

摘要

聲學數(shù)據(jù)提供了從生物和通信到海洋和地球科學等領域的科學和工程見解.我們調(diào)查了聲學領域機器學習(ML)包括深度學習的最近進展和變革潛力.ML是一個廣泛的技術家族,通常基于統(tǒng)計學,用于自動檢測和利用數(shù)據(jù)中的模式.相對于傳統(tǒng)聲學和信號處理相關,ML是數(shù)據(jù)驅(qū)動的.給定充足的訓練數(shù)據(jù),ML可以探索特征和所需標簽或動作之間,或特征本身之間的復雜關系.有大量的訓練數(shù)據(jù),ML可以探索描述復雜聲學模型例如人類語音和混響的模型.我們首先介紹ML,然后強調(diào)ML在四種聲學研究領域的發(fā)展:語音處理中的聲源定位,海洋聲學中的聲源定位,生物升學和日常場景中的環(huán)境聲音.

1.引言

在包括人類語音和動物發(fā)聲,海洋資源定位和海洋地球物理結(jié)構成像的機器解釋等非常廣泛領域中,聲學數(shù)據(jù)提供了科學和工程見解.在所有領域中,數(shù)據(jù)分析因許多挑戰(zhàn)變得復雜,把數(shù)據(jù)損壞,缺失或稀疏矩陣,混響和大數(shù)據(jù)量.例如,單個事件或話語的多次聲音得到使得資源定位和語言解釋成為機器的一項困難的任務.在許多例子中可以收集大量的數(shù)據(jù)量,比如聲學層析成像(tomography)與生物聲學(bioacoustics).隨著數(shù)據(jù)集大小的增加,人工快速識別聲學特征和事件所學的工作量變得有限.進一步,數(shù)據(jù)中可能存在人類認知不易識別的模式.

機器學習(ML)技術使得自動化數(shù)據(jù)處理和模式識別能力在許多領域取得了廣泛的進步,包括計算機視覺,圖像處理,語音處理和(地理)物理科學.聲學ML是一個快速發(fā)展領域,有許多令人信服的解決上述聲學挑戰(zhàn)的解決方案.在聲學領域中基于ML技術的潛在影響以及它們最近受到的關注催生了這篇評論.

廣義上,ML是一系列用于自動檢測和利用數(shù)據(jù)模式的技術.在ML中,模式的用途之一是估計數(shù)據(jù)標簽基于測量的屬性,比如基于聲陣列記錄的動物物種或它們的位置.這些測量數(shù)據(jù)和它們的標簽通常不確定;因此,通常應用統(tǒng)計模型.通過這種方法,ML為機器提供了獲取知識,或者來"學習"的方法.

ML方法通常分為兩個主要分類:監(jiān)督學習和無監(jiān)督學習.還有第三類叫做強化學習,雖然這篇文章中沒有討論.在監(jiān)督學習中,目標是給定有標簽的輸入輸出對,學習一個從輸入到輸出的預測映射.標簽可以類別或?qū)嵵禈肆糠謩e對應分類和回歸.在無監(jiān)督學習中,不給定標簽,任務是在數(shù)據(jù)中發(fā)掘有趣或有用的結(jié)構.一個無監(jiān)督學習的例子是聚類分析(比如,K-means).監(jiān)督模型和無監(jiān)督模型可以結(jié)合.也就是說,半監(jiān)督和弱監(jiān)督學習方法可以在標簽只包含部分或情景信息時使用.


圖1.聲學理解(acoustic insight)可以通過利用物理模型和基于ML的數(shù)據(jù)驅(qū)動模型的優(yōu)勢來提高.分析物理模型(左下角)提供了關于物理系統(tǒng)的基礎理解.依賴于計算模型的更精細的模型(右下)可以建模更加復雜的現(xiàn)象.而物理模型依賴于規(guī)則,而規(guī)則是通過物理證據(jù)(數(shù)據(jù))來更新的,ML是純數(shù)據(jù)驅(qū)動的(左上).通過用物理模型擴充ML方法得到混合模型(右上),可以獲得物理直覺的力量和數(shù)據(jù)驅(qū)動理解的協(xié)同作用.

傳統(tǒng)聲學研究側(cè)重于開發(fā)高級物理模型,并使用這些模型推斷環(huán)境和環(huán)境中物體的特性.基于物理原理模型的復雜性由圖1的x軸表明.隨著數(shù)據(jù)量的增加,數(shù)據(jù)驅(qū)動方法取得了顯著成功.可獲得的數(shù)據(jù)量在圖1中如y軸所示.預計隨著物理科學中越來越多的數(shù)據(jù)可用,我們能夠更好地將高級聲學模型與ML相結(jié)合.

在ML中,最好直接從數(shù)據(jù)中學習數(shù)據(jù)的表示模型(這些模型為手頭的ML任務提供了有用的數(shù)據(jù)模式),而不是通過特定的領域知識來設計表示.ML可以建立在物理模型和領域知識的基礎上,通過尋找給定任務"最優(yōu)"表示(比如,特征的變換)來改進解釋.ML中的表示是模式,即輸入特性,是數(shù)據(jù)中的特定屬性.特征包括人類語音的頻譜特征,或物理環(huán)境的形態(tài)特征.ML管道的特征輸入可以是信號(數(shù)據(jù))的原始測量值或數(shù)據(jù)的轉(zhuǎn)換.例如,通過經(jīng)典的PCA(主成分分析,principal components analysis)方法.更多靈活地表示,包括GMMs(高斯混合模型,Gaussian mixture models)通過最大期望(EM)獲得.ML的基礎概念一點也不新鮮.例如,LDA(線性判別分析,linear discriminant analysis),一種基礎分類模型,早在1930年被提出.作為現(xiàn)代神經(jīng)網(wǎng)絡先祖的K-means聚類算法和感知器算法在1960年被提出.在感知器算法發(fā)表后不久,人們對神經(jīng)網(wǎng)絡的興趣逐漸減弱,直到20世紀80年代反向傳播算法被開發(fā)出回來.目前,我們正處于對ML和AL原則的"第三波"熱潮中.

近幾年,聲學ML已經(jīng)取得了顯著的進展.相比傳統(tǒng)信號處理方法,基于ML的方法可以提供更好的性能.然而,基于ML方法的一個明顯局限是它們是數(shù)據(jù)驅(qū)動的,因此需要大量數(shù)據(jù)集來訓練和測試.傳統(tǒng)方法比許多ML模型更具有可解釋性的優(yōu)點.尤其在深度學習中,ML模型被認為是"黑盒"-這意味著ML系統(tǒng)的輸入和輸出之間的中間操作不一定物理直觀.進一步,由于no free-lunch理論,為一項任務優(yōu)化的模型很可能在另一項任務中表現(xiàn)很差.這篇文章的意圖是說明,拋開這些挑戰(zhàn),ML在聲學中有相當大的潛力.

這篇文章側(cè)重于已經(jīng)應用于聲學領域的ML的重大進展.我們先介紹ML理論,包括DL(深度學習,deep learning).然后我們討論在五個聲學研究領域的理論應用與進展.在第二到四章中,介紹基礎的ML概念和一些開發(fā)的基礎算法.在第五章中介紹DL和聲學中的應用.然后我們討論一下領域的ML理論應用:混響環(huán)境中的揚聲器定位(第六章),海洋聲學中的資源定位(第七章),生物聲學(第八章)以及日常場景中的混響和環(huán)境聲(第九章).盡管我們所設計的領域列表和ML理論的處理并不詳盡,我們希望這篇文章可以給未來的聲學ML研究有所啟發(fā).為了進一步的引用,我們向讀者推薦基本優(yōu)秀的ML和信號處理教科書,它們是對本文所述材料的有用補充:參考文獻.2,13,14,16,21-25.

2.機器學習原理

2.1.輸入和輸出

2.2.監(jiān)督和無監(jiān)督學習

2.3.生成:訓練數(shù)據(jù)和測試數(shù)據(jù)

2.4.交叉驗證

2.5.維度之咒

2.6.貝葉斯機器學習

3.監(jiān)督學習

3.1.線性回歸,分類

3.2.支持向量機

3.3.神經(jīng)網(wǎng)絡:多層感知器

4.無監(jiān)督學習

4.1.主成分分析

4.2.最大期望和高斯混合模型

4.3.K-means

4.4.字典學習

4.5.自動編碼網(wǎng)絡

5.深度學習

DL(深度學習)是指基于學習過程中訓練的一系列非線性特征變換的ML技術.在多個科學領域中,幾十年的研究和工程允許優(yōu)雅的方法進行數(shù)據(jù)建模.盡管如此,DL社區(qū)認為這些模型通常沒有足夠的能力捕捉數(shù)據(jù)背后現(xiàn)象的微妙之處,而且可能過于定制化.通常使用高性能的ML模型直接從大量示例中學習表征是有意的.DL利用了許多成功的手工制作的特征共享的基本概念:所有的數(shù)據(jù)分析都采用不同尺度的濾波器組.這些多尺度的代表包括語音處理中的梅爾倒頻譜(Mel frequency cepstrum),多尺度小波(multi-scale wavelets)和圖像處理中的SIFT(尺度不變特征變換,scale invariant feature transform).DL通過學習一系列在不同抽象級別捕捉信息的特征模仿這些過程.這些特征之間的非線性允許DNN學習復雜流性.神經(jīng)科學的發(fā)現(xiàn)表明哺乳動物大腦也用同樣的方式處理信息.
簡言之,一個基于NN的ML管道是DL,如果它滿足:(i)特征不是手動提取而是學習得到的,(ii)特征以從低級到高級抽象的分層方式組織,(iii)存在至少兩層非線性特征變換.作為一個例子,在大型對話文本語料庫上采用DL必須覆蓋單詞,句子和段落(低級)背后的含義,來進一步提取概念,比如詞匯場,體裁與寫作風格(高級)
為了理解DL,看看什么不是DL很有用.有一層隱藏層的MLP(也就是,淺層神經(jīng)網(wǎng)絡)不是DL,因為它只能學習一個層次的特征提取.相似的,非線性SVMs和淺層神經(jīng)網(wǎng)絡形似.多尺度小波表示是特征(子帶)的層次,但特征之間的關系是線性的.當一個神經(jīng)網(wǎng)絡分類器基于(手工)轉(zhuǎn)換的數(shù)據(jù)訓練時,這個結(jié)構可能是深層的,但是它不是深度學習因為第一次遷移沒有被學習.
大多數(shù)DL結(jié)構都是基于DNNs,比如MLPs,它們的早期發(fā)展可以追溯到1970-1980s.早期發(fā)展30年后,只有小部分深度結(jié)構出現(xiàn)了.并且這些結(jié)構受限于處理不超過數(shù)百維度的數(shù)據(jù).在此期間開發(fā)的成功例子是兩個手寫數(shù)字分類器:Neocognitron和LeNet5.然而DL的成功始于2000年末期,也被稱為第三波人工神經(jīng)網(wǎng)絡浪潮.這個成功得益于可用數(shù)據(jù)和計算力,包括并行架構和GPUs的大幅增加.然而,一些開源的DL工具箱幫助社區(qū)引入了許多新策略.這些方法旨在克服反向傳播的局限:它的速度慢,容易陷入不好的靜止點(局部最優(yōu)點或鞍點).引用描述了其中的一些策略,詳細回顧見Ref.16

5.1.激活函數(shù)和整流器

最早的多層NN使用logistic sigmoids(Sec 3.3)或者非線性激活函數(shù)的雙曲正切g,


其中zl在l層的特征向量,al是potentials向量(上一層特征的仿射組合).對于圖10(a)中的sigmoid激活函數(shù),僅當a靠近0時,導數(shù)明顯非零.利用這種函數(shù),在隨機初始化的NN中,對于給定的訓練樣本,一半的隱藏單位被期望激活[f(a)>0],但只有少數(shù)幾個單元會影響梯度由于a>>0.
事實上,許多隱藏單元對于所有訓練樣本都有接近0的梯度,對應于這些單元的參數(shù)會緩慢更新.這個叫做梯度消失問題.一個直觀的解決方法是增加學習率.但是,對于小的a,參數(shù)更新將變得太大.由于這個,整體的訓練過程可能不穩(wěn)定:這就是梯度爆炸問題.圖10(b)表示了這兩個問題.淺層神經(jīng)網(wǎng)絡不一定輕易受到這些問題的影響,但是DNN中它們會變得有害.上述激活函數(shù)的反向傳播在DNN中是緩慢的,不穩(wěn)定的,并且會導致較差的解.

為了解決這些問題,已經(jīng)開發(fā)了替代的激活函數(shù).一個重要的類別是整流器單元.整流器時激活函數(shù),對于負值輸入為0,正值輸入為線性.目前,最受歡迎的是修正線性單元(ReLU),定義為(見圖10):


負電位a的導數(shù)為零,a>0的導數(shù)為1(雖然在0不可微,ReLU是連續(xù)的,然后反向傳播是一個次梯度下降.因此,在一個隨機初始化的NN中,一半隱藏單元觸發(fā)并影響梯度,另一半不觸發(fā)(并且不影響梯度).如果用零均值和方差初始化權重,保持所有NN層上所有電位的變化范圍,則大多數(shù)單元從至少一半的訓練樣本中得到顯著的梯度,并且NN中所有參數(shù)在每個epoch都會得到相同的更新.在實際應用中,蒸餾器的使用導致收斂的大幅提升.關于梯度爆炸,一種成為梯度裁剪的有效解決方案只需對梯度設置閾值.

圖10.梯度消失和梯度爆炸問題.(a)sigmoid和ReLU激活函數(shù).(b)當使用sigmoid激活函數(shù)時,作為網(wǎng)絡權重W的函數(shù)的損失L顯示為一個景觀.這樣的景觀是丘陵地帶,由懸崖隔開的大高原.基于梯度的更新(箭頭)在高原(綠點)消失,在懸崖爆炸(黃點).另一方面,通過使用ReLU,反向傳播不太受梯度爆炸問題的影響,因為在相關成本景觀中有很少的高原和懸崖.

5.2.端到端訓練

盡管對成功的DL模型很重要,但是僅僅解決梯度消失或梯度爆炸問題對反向傳播是不夠的.避免較差的駐點在DNNs中也很重要.避免這些駐點的開創(chuàng)性方法包括通過非監(jiān)督方法連續(xù)訓練淺層結(jié)構來訓練DNNs.由于這種情況下,各個層最初是按順序訓練的,使用前一層的輸出而不聯(lián)合優(yōu)化前一層的權重,這種方法被稱為 無監(jiān)督貪婪逐層預訓練.

然而,無監(jiān)督與訓練的好處并不總是很清楚.許多現(xiàn)代DL方法更傾向于端對端的訓練網(wǎng)絡,從初始化開始聯(lián)合訓練所有網(wǎng)絡層,而不是先訓練各層.它們依賴于梯度下降的變體來對抗糟糕的駐點.這些方法包括隨機梯度下降,自適應學習率和動量技術.在這些概念中,出現(xiàn)了倆個主要概念:(i)先隨機探索結(jié)構,然而利用它們進行退火,(ii)形成負梯度移動均值的動量成為速度.這有助于更快地學習,尤其是對于噪聲梯度或高曲率損失函數(shù).

Adam基于自適應學習率和距估計.它是目前最受歡迎的DNNs優(yōu)化方法.Adam在第t步升級每個權重wi,j如下:


其中η>0η>0η>0表示學習率,ε>0ε>0ε>0表示平滑鄉(xiāng),m^i,jt\hat{m}^t_{i,j}m^i,jt?v^i,jt\hat{v}^t_{i,j}v^i,jt?表示估計速度的一階矩和二階矩,對于0<β1<10<\beta_1<10<β1?<10<β2<10<\beta_2<10<β2?<1,如下

梯度下降方法在參數(shù)初始化附近會陷入局部極小,導致欠擬合.相反的,隨機梯度下降和變形期望找到低損失和更易過擬合的解.當訓練相比于訓練樣本數(shù)量具有多個自由度的模型時,會發(fā)生過擬合.維度之咒(章2.5)表明,在不假設數(shù)據(jù)的情況下,訓練數(shù)據(jù)的數(shù)量會隨著自由參數(shù)的數(shù)量增加指數(shù)級的增加.在經(jīng)典NN中,如果一個輸出特征被所有輸入特征影響,那個這一層是全連接的(FC).給定一個尺寸為N的輸入和尺寸為P的特征向量,則一個FC層由N*(P+1)個1權值組成(包括偏差項,見3.3).考慮到尺寸N可以很大,FC NN容易過擬合.因此,初始化權重時應該特別注意,必須采用特定的策略來進行一些規(guī)范化,比如dropout和批標準化.

通過dropout,在訓練的每次epoch中,對于一個樣本的不同單元按照概率1-p (0<p?10<p\leqslant10<p?1)被隨機剔除.這鼓勵NN單元專門檢測特定模式,隨后特征變得稀疏.在實踐中,這也使優(yōu)化更快.在測試中,使用所有單位,并將預測值乘以p(所有單位都表現(xiàn)得像是沒被剔除訓練的)

通過批規(guī)范化,單元的輸出對給定的小批進行了規(guī)范化.規(guī)范成標準特征(單元方差為零均值)后,特征被移動并重新縮放到一個通過反向傳播學習的變化范圍.這就避免了各個單元必須不斷適應它們的輸入帶來的巨大變化(一個叫做內(nèi)部協(xié)變量偏移的問題).批規(guī)范化由輕微的正則化效果,允許更高的學習速率和更快地優(yōu)化.

5.3.卷積神經(jīng)網(wǎng)絡

卷積NN(CNNs)是替代用于時間或空間相關信號的傳統(tǒng)全連接NNs的替代方案.他們通過以來兩個主要概念顯著地限制了模型參數(shù)的數(shù)量和內(nèi)存需求:局部感受野和權值共享.在全連接NNs中,對于每一層,每個輸出與每個輸入相互作用.這造成了對于大型輸入維度的權重過多[權重數(shù)量為O(NP)].在CNNs中,每個輸出單元只與對應于給定過濾器(filter)(和過濾器位置)的輸入子集相連接.這些自己構成了局部感受野.這顯著地將單個過濾器的卷積層前向傳遞的NN乘法操作的數(shù)量減少至O(NK),其中K通常比N和P小100倍.另外,對于一個給定的過濾器,相同的K個權重被所有感知野功用.因此,每一層的參數(shù)數(shù)量和權重從O(N*P)減少至O(K).

在CNNs中的權重共享提供了另一種重要屬性叫做平移不變性.因為對于一個給定的過濾器,權重對于所有感知野是相同的,過濾器必須很好的模擬在空間或時間上平移的信號內(nèi)容.當刺激發(fā)生在重疊的感受野內(nèi)時,對相同刺激的反應始終不變.神經(jīng)科學的實驗揭示了哺乳動物可視皮層的單細胞中這類行為(自相似感受野)的存在.這一原理使CNNs考慮在其輸入端放置具有線性濾波器組的卷積層.


圖11.傳統(tǒng)CNN的第一層.對于這個說明,我們選擇了第一個隱藏層來提取三個特征映射.過濾器的尺寸是K=3*3.

圖11提供了一個卷積層的說明.卷積層對信號x采用了3個過濾器來生成3個特征圖.定義在第l層的第q個輸入特征圖為zq(l?1)z_q^{(l-1)}zq(l?1)?,第l層的第q個輸出特征圖為zˇq(l?1)\check{z}_q^{(l-1)}zˇq(l?1)?,第l層卷積層從輸入特征圖CinC_{in}Cin?生成新特征圖CoutC_{out}Cout?如下:

其中*是離散卷積運算,wpq(l)w_{pq}^{(l)}wpq(l)?Cout?CinC_{out}*C_{in}Cout??Cin?學習的線性過濾器,bp(l)b_p^{(l)}bp(l)?CoutC_{out}Cout?學習的標量偏差,p是一個輸出通道索引,q是輸入通道索引.將所有特征圖zp(l)z_p^{(l)}zp(l)?堆疊在一起,隱藏特征集合表示為張量z(l)z^{(l)}z(l),其中每個通道對應一個給定的特征圖.

例如,一個光譜圖由一個N*C的張量表示,其中N是信號長度,信道數(shù)C是頻率子帶的數(shù)目.卷積層保證了輸入張量的空間或時間分辨率,但通常會增加通道數(shù)量:Cout?CinC_{out} \geqslant C_{in}Cout??Cin?這就產(chǎn)生了一個冗余表示,允許特征張量的稀疏性.只有小部分單元會被給定刺激激活:這個概念也受到視覺研究實驗的影響.使用張量是一種常用的做法,允許我們以一種簡潔的方法表示CNN結(jié)構,見圖12.


圖12.用于將圖像分類為10種可能的類別中的深層DNN結(jié)構.卷積層通過增加張良中的通道數(shù)創(chuàng)建冗余信息.ReLU用于捕捉數(shù)據(jù)的非線性.最大池化操作減少空間維度,以獲得相對于對象精確位置的抽象性和魯棒性.當張量變平坦(例如,空間維度減少為1*1).每個系數(shù)作為一個完全連接的NN分類器的輸入.特征維度,過濾器尺寸以及輸出類別的數(shù)量僅僅為了說明.

池化也立足于神經(jīng)科學關于哺乳動物視覺皮層的發(fā)現(xiàn).視覺皮層的神經(jīng)細胞將信息壓縮以獲得對抗相同刺激的微小扭曲的不變性和魯棒性.更深的張量會隨著更多的通道和更小的信號分辨率而變長.這里,CNN結(jié)構越深,CNNs相對于感受野中刺激的確切位置就越魯棒.最終張量變得平坦,意味著它簡化為一個向量.張良中的特征不再在時間或空間上相關,并且它們可以作為一個分類器的輸入特征向量.輸出張量并不總是完全平坦的,但是之后張量被映射成一個向量.一般來說,使用具有兩個隱藏FC層的MLP,并且通過反向傳播或變體對結(jié)構進行端對端的訓練,見圖12.

這種結(jié)構的類型是經(jīng)典的現(xiàn)代圖像分類NN例如AlexNet和ZFnet,但是已經(jīng)在Neocognitron和LeNet5中采用.主要的區(qū)別在于現(xiàn)代結(jié)構可以處理更高維的數(shù)據(jù),因為它們采用了之前提到的策略(比如整流器,Adam,dropout,批規(guī)范化).DL的一個意圖是通過采用特殊結(jié)構,比如初始模塊,深度可分類卷積,跳躍連接和密集體系結(jié)構,使這種CNNs盡可能深,同時參數(shù)最少.

自從2012年,這種架構已經(jīng)引領了計算機視覺領域的最好分類器,甚至在ImageNet挑戰(zhàn)中可以與人類的表現(xiàn)相媲美.關于聲音應用,這種結(jié)構已經(jīng)用于寬帶DOA估計,其中每個類對應于給定的時間幀.

5.4.遷移學習

從頭開始訓練深度分類器需要大量標記數(shù)據(jù)集.在許多應用中,這種數(shù)據(jù)集很難獲得.一種替代方案使使用遷移學習.遷移學習重用了網(wǎng)絡的一部分,這個網(wǎng)絡為給定ML任務,在一個大型的,潛在的不相關的數(shù)據(jù)集上訓練的.遷移學習的關鍵想法是深度網(wǎng)絡的早期階段學習的通用特性可能適用于其他特性.一旦一個網(wǎng)絡已經(jīng)學習了這樣一個任務,通常可以一處網(wǎng)絡末端專門針對訓練任務定制的前饋層.然后這些被新的分類器或回歸層替換,然后學習過程在新任務上發(fā)現(xiàn)這些最后層的適當權值.如果先前的表示捕獲了與新任務相關的信息,則可以用更小的數(shù)據(jù)集來學習他們.在這種情況下.深度自動編碼器(見章4.5)可以用來從大型未標記數(shù)據(jù)庫學習特征.學習后的編碼器可以接下來用作特征提取器,然后再一個小的標記數(shù)據(jù)集上訓練分類器(見圖13).最后,分類器訓練完后,所有層可以通過端對端的執(zhí)行幾個反向傳播步驟進行微調(diào)(fine tuning).許多現(xiàn)代DL技術都依賴于這一原理.


圖13.從(a)無監(jiān)督方法訓練的自動編碼器,遷移到(b)監(jiān)督分類問題.本圖說明了自動編碼器結(jié)構以及無監(jiān)督預訓練,一種初始化NN最優(yōu)化的早期方法.

5.5.專業(yè)架構

在分類之上,還存在無數(shù)的NN和CNN架構.增強型CNNs,全卷積和U-net架構被廣泛應用于回歸問題,比如信號增強,分割或目標定位.遞歸NN(RNNs)是經(jīng)典的前饋NN的替代,用于處理或生成可變長度的序列.特殊的,長短期記憶網(wǎng)絡(LSTMs)是RNN一種特殊類型,在一些數(shù)據(jù)中時間相關性顯著的多個應用中產(chǎn)生了優(yōu)秀的結(jié)果.這類應用包括語音處理和自然語言處理.近期,NNs在無監(jiān)督學習任務中已經(jīng)取得了很多關注.一個主要例子是使用可變的自動編碼器和生成對抗網(wǎng)絡(GANs)生成數(shù)據(jù).后者依賴于一個基于博弈論的原始想法.它在生成網(wǎng)絡和判別網(wǎng)絡之間執(zhí)行一個兩人博弈.生成器學習數(shù)據(jù)分布以根據(jù)隨機種子生成假的數(shù)據(jù).同時,判別器學習真實和虛假數(shù)據(jù)的邊界,以便能夠?qū)⒓贁?shù)據(jù)與訓練集的數(shù)據(jù)區(qū)分開來.兩個NN互相競爭.生成器試著欺騙判別器使假數(shù)據(jù)與訓練集的數(shù)據(jù)區(qū)分開來.

5.6.聲學應用

DL已經(jīng)在聲學領域取得了充滿希望的進展.相比于各自領域的傳統(tǒng)的或人工設計的信號處理方法,數(shù)據(jù)驅(qū)動的數(shù)字信號處理方法在各自領域提供了良好的結(jié)果.除了性能的提升,DL(一般也有ML)提供了解決聲學人物的通用框架.可是在各個子領域開發(fā)高度專業(yè)化算法的一種范式.然而,一種跨越所有領域的重要挑戰(zhàn)使獲取足夠的訓練數(shù)據(jù).為了在音頻處理任務中正確訓練DNNs,可能需要數(shù)小時的代表性音頻數(shù)據(jù).因為可能無法獲得大量的訓練數(shù)據(jù),DL并不總是可行的.雖然訓練數(shù)據(jù)的缺乏可以部分通過使用合成訓練數(shù)據(jù)或數(shù)據(jù)擴充來解決.隨后我們會強調(diào)在聲學領域DL應用的最新進展.

聲學和音頻信號處理中兩個從DL受益的任務是聲音事件捕捉和資源定位.這些方法用深度學習架構取代了基于物理的聲學傳播模型或手工制造檢測器.在Ref105中,卷積遞歸NNs在2017年聲學場景和事件預測與分類(DCASE)挑戰(zhàn)中的聲音時間檢測任務中去得到最好的結(jié)果.在Ref96中,CNN僅使用STFT相位分量來估計寬帶DOA.CNN采用定向相應功率相位變化(SRP-PHAT)波束形成技術獲得了具有競爭力的結(jié)果.CNN采用合成噪音訓練,對語音信號有良好的泛化能力.在Ref107中,事件檢測和DOA估計任務被組合到一個基于卷積RNNs的信號DNN架構中.該系統(tǒng)適用于合成的,真實的,混響和消聲數(shù)據(jù),其DOA性能與MUSIC(多信號分類)相當.在Ref104,DL用于使用單個水聽器定位淺海波導中的海洋資源,如圖14所示.

兩個深層殘余NNs(每個50層,ResNet50)使用數(shù)百萬個合成聲場訓練來定位聲源的范圍和深度.與常用的基于遺傳算法的反演方法相比,ResNet50 DL模型獲得了具有競爭力的震源范圍和深度預測誤差.這里定義的源(范圍或深度)預測誤差是最大誤差小于給定值的預測值百分比,給定的范圍和深度值在圖14中沿x軸定義.

DL還應用于語音建模,源分離和增強.在Ref110中提出了一個基于光譜聚類的深度聚類方法,它使用DNN來尋找譜圖中每個時頻區(qū)域的嵌入特征.這適用于分離兩個性別相同的說話人的問題,也適用于同一類別的多個活躍來源的問題.在Ref111中,DNNs被用于從一個簡單麥克風錄制的語音中去除回響.該系統(tǒng)利用語音信號的短時傅里葉變換進行工作.實現(xiàn)了兩種不同U-net架構,以及利用GAN及逆行對抗訓練.在大多數(shù)情況下,所提出的DL架構的去冗余性能優(yōu)于競爭方法.

與聲學一樣,地震勘探的研究傳統(tǒng)上集中在先進的信號處理算法上,只有偶爾應用模式識別技術.ML方法,特別是DL方法,最近在地震勘探應用中有了顯著的增長.利用DL模型解釋地質(zhì)構造要素是該領域的一個重要方面.地震圖像對這些構造(如鹽穹頂、通道、斷層和褶皺)的分類和解釋面臨著若干挑戰(zhàn),包括處理海量的三維地震數(shù)據(jù),以及地質(zhì)學家的稀疏和不確定性人工圖像注釋.通過自動化這些過程可以獲得許多好處。最近發(fā)展起來的幾種ML技術通過ML算法構造適應特定數(shù)據(jù)的屬性,而不是手工制造它們.

利用三維地震斷層圖和三維地震斷層圖(Ref122)對三維斷層進行了識別。在參考文獻124中,開發(fā)了一種基于帶有GANs的3D CNN的半監(jiān)督相分類器,以處理來自新勘探領域的大量數(shù)據(jù),這些數(shù)據(jù)可能很少有標簽。在地震數(shù)據(jù)后處理方面也取得了一些有趣的進展,包括自動化倍半巖相分類.

6.混響環(huán)境中聲源定位

語音增強是音頻信號處理中的核心問題,在手機,免提系統(tǒng),人車通信,智能家居雄助聽器等多種設備上都有商業(yè)應用.語音增強算法設計的核心成分是聲源定位.聲源定位也可直接應用于許多其他音頻相關任務.例如,自動攝像機控制,電話會議系統(tǒng)和機器人音頻.

由大量數(shù)量的應用驅(qū)動,定位問題已經(jīng)取得了顯著的研究關注,造成了過去20年內(nèi)提出了過多的定位方法.盡管如此,在不利條件下,即存在背景噪音和混響的情況下,魯棒定位仍然是一個主要挑戰(zhàn).

被IEEE音頻和聲學信號處理技術委員會認同,聲源定位和追蹤(LOCATA)的最近挑戰(zhàn)已經(jīng)創(chuàng)建了一個數(shù)據(jù)庫來支持研究團隊測試他們的算法.挑戰(zhàn)數(shù)據(jù)庫包括來自真實場景的聲音記錄.利用這些數(shù)據(jù),可以評估源定位算法在實際場景中的性能.

利用NN進行音頻源定位的監(jiān)督學習越來越受到人們的關注.在IEEE雜志上關于信號處理的選定主題"動態(tài)真實場景中的聲源定位與跟蹤"中的最近一期中,3篇論文使用NNs的變體進行源定位.我們希望這種趨勢繼續(xù)下去,重點放在不需要大量標記數(shù)據(jù)的方法上.這種標記數(shù)據(jù)在定位問題中很難取得.例如,在Ref129中,提出了一種弱標記ML范式.這種方法使用少量已知位置的標記樣本和大量未標記樣本集,只知道它們的相對物理順序.

在這個簡短的調(diào)查中,我們探討了兩種基于學習的方法.第一種是基于GMM分類的無監(jiān)督方法.第二種是基于流形學習的半監(jiān)督方法.

盡管近年來流形學習定位方法取得了一定的進展,但仍有一些主要的挑戰(zhàn)有待解決,如對陣列(array constellation)和聲環(huán)境變化的魯棒性,以及多個并發(fā)聲源的情況.

6.1.基于最大期望過程的定位和跟蹤

在本章中,我們將回顧一種無監(jiān)督學習方法,用于在噪聲和混響環(huán)境中利用空間分布麥克風陣列來定位和跟蹤未知數(shù)量的并發(fā)揚聲器.我們把定位問題歸結(jié)為一個分類問題,其中,度量(或提取的特征)可以與侯選位置的網(wǎng)格相關聯(lián).P={p1,...,pMp_1,...,p_Mp1?,...,pM?},其中M=|P|表示候選數(shù)量.揚聲器的實際數(shù)量總是顯著的比M低.

語音信號和附加噪音一起被一個麥克風陣列(N>1)捕獲.雙耳的例子(N=2)被Ref130提出.我們假設一個簡單的聲傳播模型,它有一個主要的直接路徑和一個潛在的空間擴散混響尾.STFT域中第n個麥克風信號為:

其中t=0,…,T-1是時間索引,k=0,…,K-1是頻率索引,gm,n(k)g_{m,n}(k)gm,n?(k)是從第m個位置的揚聲器到第n個麥克風的直接路徑傳遞函數(shù).


其中TsT_sTs?是樣本周期,τm,n=∣∣pm?pn∣∣/c\tau_{m,n}=||p_m-p_n||/cτm,n?=pm??pn?/c 表示侯選位置pmp_mpm?和麥克風位置pnp_npn?之間的TDOA,c是聲速.TDOA可以預先從預先定義的網(wǎng)格點和陣列幾何體(假定已知)計算.

sm(t,k)s_m(t,k)sm?(t,k)是揚聲器在網(wǎng)格點m發(fā)出的語音信號,vn(t,k)v_n(t,k)vn?(t,k)是環(huán)境噪音或空間擴散的混響尾波.指示信號dm(t,k)d_m(t,k)dm?(t,k)顯示了揚聲器m是否在第(t,k)個STFT bin處于活動狀態(tài).


注意,根據(jù)稀疏性假設,向量d(t,k)=d(t,k)=d(t,k)=vecm_mm?{dm(t,k)d_m(t,k)dm?(t,k)}∈\in{e1,...,eMe_1,...,e_Me1?,...,eM?},其中vecm{·}是沿著第m個索引的元素的連接,是一個"獨熱(one-hot)"向量(第m項為1,其他項為0).N個麥克風信號以向量形式連接.

其中z(t,k),gm(t,k)和v(t,k)z(t,k),g_m(t,k)和v(t,k)z(t,k),gm?(t,k)v(t,k)是對應的連接向量.

6.2.基于流形學習的聲源定位和跟蹤

7.海洋聲學中聲源定位

8.生物聲學

9.日常場景中的混響和環(huán)境聲

9.1.混響

9.2.環(huán)境聲

9.3.面向人類層面的環(huán)境聲和場景解讀.

10.總結(jié)

總結(jié)

以上是生活随笔為你收集整理的声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。