语音识别一、语音识别介绍
生活随笔
收集整理的這篇文章主要介紹了
语音识别一、语音识别介绍
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
語音識別就是將包含文字信息的語音通過計算機轉化成文字的過程,也叫語音轉寫,英文叫automatic speech recognition(ASR)或者 speech to text(STT),語音識別框架一般如圖所示:
從上圖中可以看出,語音識別技術是一個復雜的多學科交叉技術,涉及到信號處理、統計、機器學習、語言學、數據挖掘、生理學等知識。一個完整的語音識別系統聲學方面和語言學方面。聲學方面包括從最初的語音信號獲取(這其中包括將語音轉化成電信號)到語音信號處理(包括模數轉換,降噪、增強、端點檢測(VAD)等),再到特征提取(MFCC、FB、PLP、BN等),最后到聲學模型建模;語言學方面包括字典(詞典)構造,語言模型建模等。通過建立的聲學模型和語言模型就可以對輸入的測試語音進行解碼,得到相對應的文字。
解碼原理(基于最大后驗概率MAP)
假設我們有一段語音XX(通常是提取的特征),要得到對應的文本WW,就是求使得概率p(W|X)p(W|X)最大的WW的過程,即求
Wˉˉˉˉˉ=argmaxWp(W|X)Wˉ=argmaxWp(W|X)
利用條件概率公式和貝葉斯公式將上述公式轉化為
p(X)p(X)表示聲學觀測序列的概率,不管選擇解碼空間中的哪一條路徑,一段語音發出來后 p(X)p(X)就確定了,是一個未知的常數,雖然這個概率很難估計,但是并不會影響到 WˉˉˉˉˉWˉ的取值,因此,上式可以簡化為
Wˉˉˉˉˉ=argmaxWp(X|W)p(W)Wˉ=argmaxWp(X|W)p(W)
該公式就是解碼的核心公式了,下面對該公式做一個簡單解讀
其中第一項 p(X|W)p(X|W)就是我們的聲學模型,準確的說,這個概率可以通過聲學模型和詞典(Lexicon)計算得到,第二項就是我們的語言模型,該怎么理解呢?
從概率上看, p(X|W)p(X|W)表示在給定文本 WW的情況下,求“生成”語音XX的概率,就是說,我們之所以說某一句話而不會說其他話,是因為在說這句話之前,腦海里肯定有我們想表達的內容(這里內容就可以理解成文本 WW),然后,調動發聲器官發出語音XX,因此,語音識別的目標就是通過發出的語音 XX去猜測說這句話到底表達什么內容WW。
而 p(W)p(W)就是我們的先驗概率,為什么這么說,因為它不依賴于我們給定的語音 XX,而是由經驗得出的,具體的,可以理解為人類發展到現在所總結出來的語法知識,更通俗一點就是人類的表達習慣。舉個例子,我們通常會說“上床睡覺”而不會說“上床上班”。這個概率可以由語言模型得到。
要使得p(X|W)p(W)p(X|W)p(W)最大,一方面需要文字表達盡量符合語法習慣(即 p(W)p(W)盡量大),另一方面需要識別出來的文字盡量和發出的語音相符(即 p(X|W)p(X|W)盡量大),就是說,在解碼空間里(解碼空間后續會說,簡單理解為不同詞之間有多種組合方式,不同的組合方式構成不同的 WW),可能有很多種組合都符合語法習慣,但是有些就和發出的語音不太吻合,例如,我們說一句話“我下班坐地鐵回家”,其中有三個不同的識別結果:
1.我下班坐公交回家
2.我坐地鐵回家
3.我下班坐地鐵回家
顯然,上述三種識別結果都符合語法習慣,但是前兩種識別結果都存在誤識(替換錯誤,后續會講)或信息丟失(刪除錯誤,后續會講),即語音中所表達的信息沒有被完全識別出來,因此聲學模型的得分p(X|W)p(X|W)就沒有第3種識別結果得分高。
好了,語音識別的介紹就到這里,具體如何對聲學模型和語言模型進行建模,以及解碼等內容在后續進行介紹。
ps:哪位大神能教我怎樣用LaTexLaTex把WW寫到argmaxargmax下面去嗎,這樣看著好別扭
總結
以上是生活随笔為你收集整理的语音识别一、语音识别介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google Glass众叛亲离?
- 下一篇: 6款电脑必备的常用软件(办公/高效/小白