《现代语音信号处理》(胡航著)第1-6章简介
根據《現代語音信號處理》(胡航版)總大概列出前六章的內容,有些會有一些自己的理解和總結。
第一章 緒論
- 發展史和主要研究內容及發展。
第二章 語音信號處理的基礎知識:
語音信號處理的基礎知識
語音的產生過程
語音信號的特性:音質、音調、音強、音長
漢語的特點(21個聲母、39個韻母)
語音信號的統計特性
語音產生的線性模型
語音產生的非線性模型
FM-AM模型
Teager能量算子
能量分離算法
FM-AM模型應用
語音感知
聽覺系統(內耳、中耳、外耳;人可感知的頻率范圍:20-20KHZ,強度范圍:-5-130dB)
神經系統
語音感知(人類能夠感知語音的四要素:響度、音調、音色、聽覺掩蔽效應)
第三章 時域分析
簡介
語音信號非平穩、事變、離散性大,且其中蘊含著說話內容以及說話人特征等,處理難度大。
時域分析具有簡單、運算量小、物理意義明確等優點。
數字化和預處理
取樣率和量化字長選擇
預處理(數字化、放大及增益控制、反混疊濾波、預加重)
短時能量分析(En表示為語音信號一個短時間段內的能量,短時平均能量能反映語音能量隨時間變化的特性,用于區分清/濁音等)
短時過零分析(短時平均過零數能用于度量信號的頻率,粗略地描述了信號頻譜特性,可用于區別清/濁音 ;高頻率意味高平均過零數,低頻率意味著低平均過零數)
短時相關分析
分為互相關函數、自相關函數;主要是自相關,用于研究信號本省,如波形同步性和周期性
短時自相關函數
修正短時自相關函數(解決基音周期寬,是窗和預期的基音周期相適應)
短時平均復查函數(避免乘法,簡化運算,與自相關函數有類似的作用)
語音端點檢測(用于有/無聲或是濁/清/無聲判定)
雙門限前端檢測(存在較大時延)
多門限過零率前端檢測(解決方法1的缺陷)
基于FM-AM模型的端點檢測(利用算子輸出能量進行端點檢測,相比常規的基于短時能量的端點檢測方法有較好的效果)
基于高階累積量的語音端點檢測
噪聲環境下的端點檢測(目前提出的方法只適用于不同適用環境)
高階累積量和高階譜
基于高階累積量的端點檢測(廣泛應用于非高斯及非循環平穩信號中 ;核心:任何類型的高斯信號,其三階以上的高階累積量均為0 )
第四章 短時傅里葉變換
短時傅里葉變換(短時傅里葉變換是窗選語音信號的傅里葉變換,Xn(ejw) )
短時傅里葉變換的取樣率(針對避免混疊;三種取樣率:時間取樣率、頻域取樣率、綜合取樣率)
語音信號的短時綜合(用于由Xn(ejw)恢復x(n)的問題;兩種方法,濾波器組求和法與FFT求和法 存在對偶性)
- 濾波器組求和法(與頻率取樣有關;性能較好,因為其對噪聲敏感性較小)
- FFT求和法(與時間取樣有關)
語譜圖(顯示大量與語句特性相關的信息,綜合了頻譜圖與時域波形的優點,直觀顯示語音頻譜隨時間變化的情況,是一種動態的頻譜)
第五章 倒譜分析和同態濾波
同態信號處理(可實現將卷積關系變成求和關系的分離處理,以達到解卷的效果;用于非加性組合信號,其中有包括乘性和卷積性組合信號)
同態信號處理的基本原理,分三步
特征系統(將卷積信號轉化為加性信號;一分三步:Z變換,對數運算,逆Z變換)
線型系統
逆特征系統(將加性信號轉化為卷積信號;一分三步:Z變換,指數運算,逆Z變換 )
復倒譜和倒譜
復倒譜(輸入信號進行特征系統后得到的時域信號,成為輸入信號的復倒譜,對應倒譜域)
倒譜(相對于復倒譜來說,取對數階段,只取幅度的對數,除去相位的信息;倒譜運算相對簡單,由于不含相位信息,不能恢復原始性)
語音信號兩個卷積分量復倒譜的性質
聲門激勵信號(較重要的性質:可用高復倒譜窗在復倒譜域中提取濁音激勵信號的特性)
聲道沖激響應序列(較重要的性質:可用低復倒譜窗在復倒譜域中提取聲道沖激響應)
避免相位卷繞的算法
相位卷繞:復倒譜取對數是進行的是復對數運算,此時存在相位多只問題,稱其為相位卷繞。
避免的方法(微分法(不適用,會產生頻譜混疊),最小相位信號法,遞推法(x(0)不能過小))
語音信號復倒譜分析實例
Mel頻率倒譜系數(MFCC;應用于語音識別和說話人識別 )
Mel頻率濾波器組(基于人耳在1KHZ以下為頻率的線性尺度,1KHZ以上為對數尺度,是人二對低頻信號比高頻信號更敏感的特點)
MFCC(重要特點:對頻率軸不均勻的劃分;該參數常用于語音識別中,可進行端點檢測)
計算過程:
對信號分幀,預加重,hamming窗處理,STFT 得到頻譜
使信號的線性幅度譜通過L個通道的Mel濾波器組并對輸出累加
對濾波器輸出取對數,在進行DCT(離散余弦變換),得到MFCC
第六章 線性預測分析
LPC的基本思想:一個語音的取樣可用過去若干語音取樣的線性組合來逼近。通過使實際語音取樣與LPC取樣間差值的平方和,即進行LMS(最小均方誤差)逼近,可決定唯一的一組預測系數,而它們就是線性組合中的加權系數。
線性預測的基本原理(基于AR模型,用一個模型表示被分析信號)
線性預測方程的建立(因為信號模型的建立是有信號估計模型參數的過程,信號是客觀存在由一個有限數目參數的模型進行表示的,不可能完全準確,總會存在誤差,因而求解LPC系數是一個逼近的過程,采用逆濾波器法來逼近)
線性預測分析的解法(1)——經典解法
自相關法(這種解法在整個時間范圍內使誤差最小;加窗處理;高效求解、精度低、會引入誤差,能保證解的穩定性,適合硬件實現)
協方差法(這種解法可使信號N個樣本上的誤差最小;不加窗處理;精度高、不能保證解的穩定性 ,適用于平穩信號,存在對中間量比例運算的困難)
線性預測分析的解法(2)——格型法(解決自相關與協方差法的精度與穩定性存在矛盾的問題),求解方法:
正向格型法(逼近原則:正向均方差;不能保證解的穩定性)
反向格型法(逼近原則:正向均方差;不能保證解的穩定性 )
幾何平均法(非逼近法;通過正向格型法Ki與反向格型法Ki 的幾何平均求解;能保證解的穩定性 )
Burg法(非逼近法;通過正向和反向均方誤差紙盒的最小求解;能保證解的穩定性 )
協方差格型法(非逼近法; 針對原格型法減小其運算量,改寫B\C\E的表達式改進格型法求解;保持格型法的靈活性、解的穩定性和精度,運算量與自相關法相近)
線性預測應用——LPC譜估計和LPC倒譜
譜估計
LPC復倒譜
LPC估計與其他譜分析方法的比較
線譜對(LSP)分析(頻域參數;既有良好的量化和插值特性;以AR模型為基礎)
極零點模型(為了獲取更精確的解且節省運算量;存在解法困難,難以保證收斂于最佳值,且難以確定模型階數)
第七章 語音信號的非線性分析
- 小波變換
總結
以上是生活随笔為你收集整理的《现代语音信号处理》(胡航著)第1-6章简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信号分析中一些特征量
- 下一篇: DCASE2013挑战赛介绍