當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等

發布時間：2023/12/31 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

audio語音相關的基礎知識-VAD,ASR,AEC,AGC,BF等

語音詞識別過程

一. VAD

1. 什么是VAD

VAD，也就是語音端點檢測技術，是Voice Activity Detection的縮寫.

這個技術的主要任務是從帶有噪聲的語音中準確的定位出語音的開始和結束點，因為語音中含有很長的靜音，也就是把靜音和實際語音分離開來，因為是語音數據的原始處理，所以VAD是語音信號處理過程的關鍵技術之一。

語音識別系統在識別或者聲學模型訓練階段所遇到的第一個技術就是端點檢測，把靜音和噪聲作為干擾信號從原始數據中去除，并且端點檢測對于語音識別系統的性能至關重要。

靜音抑制，又稱語音活動偵測。靜音抑制的目的是從聲音信號流里識別和消除長時間的靜音期，以達到在不降低業務質量的情況下節省話路資源的作用，它是IP電話應用的重要組成部分。靜音抑制可以節省寶貴的帶寬資源，可以有利于減少用戶感覺到的端到端的時延。

2. VAD的作用

現在流行的語音識別系統大部分，或者是相當一部分都是基于統計和訓練的原理所構建的系統，因此對數據來源和訓練環境都是很敏感的。在識別的過程中，經常存在實際語音因背景噪聲的干擾而與訓練失配的情況，實際這也是造成語音識別系統魯棒性差的一個根本原因（另一個主要的是無法處理非預期的輸入），從而導致識別錯誤，性能下降。哪怕是兩段內容上是完全一致的語音信號，可能由于語速不一樣，所以語音信號的時間也不相同，音素之間的時間間隙也就不一樣，對于時變而非平穩的語音信號來說，其特征就完全不相同了。有音素之間的間隙，也有靜音和語音本身的間隙，為了對數據從時間上進行相對的校準，語音端點檢測技術就應運而生了，因此端點檢測技術可以決定這種校準的相對精度，使得同一內容的特征更趨于相同，當然，一般情況下是不可能完全相同的。大量研究表明，如果環境是安靜的環境，沒有太多背景噪聲，此時語音識別系統的主要錯誤來源于端點檢測技術不精確。

但在實際應用中，不可能沒有背景噪聲，另外由于麥克風的錄制和信號增益也會帶來噪聲，所以語音識別系統的錯誤是由多方面影響的，至少包括：端點檢測、特征提取、語音模型、聲學模型、解碼器等多個方面。

二. AEC,LEC,ASR

1. 什么是EC

回聲消除(Echo Cancellation)

2. AEC

聲學回聲消除（Acoustic Echo Cancellation，AEC）

3. LEC

線路回聲消除（Line Echo Cancellation, LEC）

#從通訊回音產生的原因看，可以分為聲學回音（Acoustic Echo）和線路回音（Line Echo），相應的回聲消除技術就叫聲學回聲消除（Acoustic Echo Cancellation，AEC）和線路回聲消除（Line Echo Cancellation, LEC）。聲學回音是由于在免提或者會議應用中，揚聲器的聲音多次反饋到麥克風引起的（比較好理解）；線路回音是由于物理電子線路的二四線匹配耦合引起的（比較難理解）。

4. ASR

自動語音識別技術（Automatic Speech Recognition）是一種將人的語音轉換為文本的技術。

三. AGC,ANS

1. AGC是自動增益補償功能（Automatic Gain Control），AGC可以自動調麥克風的收音量，使與會者收到一定的音量水平，不會因發言者與麥克風的距離改變時，聲音有忽大忽小聲的缺點。

2. ANS是背景噪音抑制功能（Automatic Noise Suppression），ANS可探測出背景固定頻率的雜音并消除背景噪音，例如：風扇、空調聲自動濾除。呈現出與會者清晰的聲音。

四. BSS, BF, DOA/SD, NS,DER,NLP, GF

1. BSS（Blind source separation）：盲源分離

盲源分離（BSS: Blind Source Separation），又稱為盲信號分離，是指在信號的理論模型和源信號無法精確獲知的情況下，如何從混迭信號（觀測信號）中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計，盲辨識的目的是求得傳輸通道的混合矩陣。盲源信號分離是一種功能強大的信號處理方法，在生物醫學信號處理，陣列信號處理，語音信號識別，圖像處理及移動通信等領域得到了廣泛的應用。

2. BF（Beamforming）：波束形成

波束成形是天線技術與數字信號處理技術的結合，目的用于定向信號傳輸或接收。波束成形，并非新名詞，其實它是一項經典的傳統天線技術。早在上世紀60年代就有采用天線分集接收的陣列信號處理技術，在電子對抗、相控陣雷達、聲納等通信設備中得到了高度重視。基于數字波束形成（DBF）的自適應陣列干擾置零技術，能夠提高雷達系統的抗干擾能力，是新一代軍用雷達必用的關鍵技術。定位通信系統通過傳聲器陣列獲取聲場信息，使用波束成形和功率譜估計原理，對信號進行處理，確定信號來波方向，從而可對信源進行精確定向。只不過，由于早年半導體技術還處在微米級，所以它沒有在民用通信中發揮到理想的狀態。

3. DOA（Direction of arrival）\SD（sound localization）：聲源定位

現在常見的麥克風聲源定位算法多見于TDOA算法，其基本原理是根據信號到達兩個不同位置的麥克風的時間差，估計出信號到達兩個不同位置麥克風的距離差，可以列出一個雙曲線方程，同時使用另外兩個不同的麥克風同時檢測信號可以得到另外一個雙曲線方程，兩個雙曲線方程的交點就是聲源的位置坐標。使用這種方法進行聲源定位時，至少要使用三個麥克風，使用兩次TDOA算法進行運算，才能完成一次定位操作。為了實現更精確的聲源定位，也常采用陣列技術，將多個麥克風組成線陣，或方陣采集信號進行聲源定位。但這種定位技術的算法更為復雜。

4. NS（Noise suppression）：降噪

這里面是講音頻的降噪算法

濾波等等……

5. DER(Dereverberation)：去混響

通常在聲音信號采集或錄制的情況下, 傳聲器除了接收到所需要的聲源發射聲波直接到達的部分外,還會接收聲源發出的、經過其它途徑傳遞而到達的聲波, 以及所在環境其它聲源產生的不需要的聲波(即背景噪聲)。在聲學上, 延遲時間達到約 50 ms 以上的反射波稱為回聲, 其余的反射波產生的效應稱為混響。混響現象將對期望聲信號的接收效果產生影響。一些建筑, 如音樂廳和教堂, 需要適度的混響作用而使音樂更加動聽。但在許多場合, 混響往往會帶來干擾, 導致聲學接收系統性能變差。例如, 混響會導致語音識別系統性能顯著下降; 在遠程會議、免提電話、助聽器和移動通信中, 混響作用主要帶來負面影響。當混響嚴重時,這些系統甚至無法正常發揮功能, 因此, 如何減少混響對聲音接收系統的影響, 即去混響(dereverberation),是一個非常重要的課題。

6. NLP（非線性濾波）

總結

以上是生活随笔為你收集整理的audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。