语音识别基础知识二
1、聲波的特性
聲波在空氣中是一種縱波,它的振動方向和傳播方向是一致的。聲音在空氣中的震動形成壓力波,產生壓強,經過傳感器接受轉化,變成時變的電壓信號。
聲波的特性主要包括頻率和聲強。某一瞬間介質中的壓強相對于無聲波時壓強的改變量稱為聲壓,記為p(t),單位時Pa。
聲壓級(sound pressure level, SPL),一般把很小的聲壓p0=2X10^(-5)Pa作為參考聲壓,把所要測量的聲壓p與參考聲壓的比值取對數后,乘以20得到的數值稱為聲壓級。
國家標準規定住宅區白天的噪音不能超過50dB,夜間應低于45分貝。
衡量聲壓的信噪比(signal to noise ratio, SNR)單位也用分貝,且數值越高,表示聲音越干凈,噪聲比例越少。
2、聲音的接受裝置:動圈式/電容式麥克風。
動圈式麥克風: 精度、靈敏度較低,體積大,其突出特點是輸出阻抗小,所以接較長的電纜也不降低其靈敏度,溫度和濕度的變化對其靈敏度也無大的影響, 用于語音廣播、擴聲系統 。
電容式麥克風: 音質好,靈敏度較高,但需要電源, 適用于舞臺、錄音室等。
3、麥克風的性能指標
- 指向性:麥克風對于不同方向的聲音靈敏度,稱為麥克風的指向性。指向性用麥克風正面 0°方向和背面 180 °方向上的靈敏度的差值來表示,差值大于 15dB 者稱為強方向性麥克風。
- 全指向性 麥克風從各個方向拾取聲音的性能一致。當說話的人要來回走動時采用此類麥克風較為合適。
- 心形指向:麥克風的靈敏度在水平方向呈心臟形,正面靈敏度最大側面稍小,背面最小。這種麥克風在多種擴音系統中都有優秀的表現。
- 單指向性:麥克風又稱為超心形指向性麥克風,它的指向性比心形麥克風更尖銳,正面敏度極高,其它方向靈敏度急劇衰減,特別適用于高噪音的環境。
- 頻率響應:表示麥克風拾音的頻率范圍,以及在此范圍內對聲音各頻率的靈敏度。一般說來, 頻率范圍越寬、頻響曲線愈平直越好。
- 靈敏度:一定強度的聲音作用下輸出電信號的大小,以分貝表示,并規定 1V/Pa 為 0dB ,因話筒輸出一般為毫伏級,所以,其靈敏度的分貝值始終為負值。
- 輸出阻抗
4、麥克風陣列的功能
麥克風陣列有線型、圓形等多種排列方式,主要實現一下功能:
①語音增強(Speech Enhancement)
②聲源定位(Source Localization)
③去混響(Dereverberation)
④生源信號提取(分離)
5、聲音的采樣——奈奎斯特定理
聲音的采樣需要滿足采樣定理:當采樣率大于信號中最高頻率的兩倍時,采樣之后的數字信號能夠完后曾保留原始信號中的信息。采樣定律又稱為奈奎斯特(Nyquist)定理。
6、聲音的量化
所謂量化,就是把經過采樣(抽樣)得到的瞬時值將其幅度離散,即用一組規定的電平,把瞬時抽樣值用最接近的電平值來表示;或指把輸入信號幅度連續變化的范圍分為有限個不重疊的子區間(量化級),每個子區間用該區間內一個確定數值表示,落入其內的輸入信號將以該值輸出,從而將連續輸入信號變為具有有限個離散值電平的近似信號。
按照量化級的劃分方式分,有均勻量化和非均勻量化。
均勻量化:ADC輸入動態范圍被均勻地劃分為2^n份。
非均勻量化:ADC輸入動態范圍的劃分不均勻,一般用類似指數的曲線進行量化。
非均勻量化是針對均勻量化提出的,因為一般的語音信號中,絕大部分是小幅度的信號,且人耳聽覺遵循指數規律。為了保證關心的信號能夠被更精確的還原,我們應該將更多的bit用于表示小信號。常見的非均勻量化有A律和μ率等,它們的區別在于量化曲線不同。
7、語音文件格式的重要參數
采樣率:8kHz(電話、嵌入式)、16kHz(PC)、44.1kHz(CD)
采樣精度(量化位數):即每次取樣信息量。
比特率:(bps: bits per second), 如8k16bit為kpbs
語音通道數:語音通道數的個數表明語音產生的波形數,一般分為單聲道和立體聲道。單聲道產生一個波形,立體聲道則產生兩個波形。
8、語音的編碼
8.1 PCM編碼
·??????? 脈沖編碼調制( pulse code modulation, PCM )是將模擬信號經采樣、量化、編碼的過程。它只將編碼后的數據保存,并不保存任何格式信息。最大優點是音質好,最大缺點是占用存儲空間。
·??????? PCM 是 PC 麥克風常用格式( 寬帶錄音 ,16k16bit 可保存為 PCM raw data (.raw 文件 , 無頭部)或 Microsoft PCM 格式(.wav 文件) 。
·??????? 還有一種編碼是自適應差分 PCM(ADPCM)、ADPCM編碼是有損編碼( 32kbps),保存為 Microsoft ADPCM 格式 (.wav 文件) 。
·??????? 存儲格式:
- PCM raw data(*.raw)
- Microsoft PCM(*.wav)
- Microsoft ADPCM(*.wav)
8.2 mp3編碼
MP3對音頻信號采用的是有損壓縮方式,壓縮率高達10:1~12:1 。為了降低聲音失真度, MP3 采取了 感官編碼技術并使壓縮后的文件回放時能夠達到比較接近原始音頻數據的聲音效果。
8.3 A-law(A律)編碼
1.ITU-T (國際電聯電信標準局)定義的關于脈沖編碼的一種壓縮解壓縮算法。
2.世界上大部分國家采用 A-law(A 律 壓縮算法。美國采用 𝜇-law(𝜇律)算法進行脈沖編碼。
3.固話錄音(300-3300Hz)常用的格式(窄帶錄音 , 8k8bit)。
8.4 Speex編碼
Speex 是一種音頻編解碼的開源庫,壓縮率變化范圍較廣,比特率 2kbps 到 44kpbs ,常用于網絡狀況復雜多變的移動終端應用。
8.5 其他常用格式
- AMR (Adaptive Multi Rate) :每秒鐘的 AMR 音頻大小可控制在 1K字節左右,常用于彩信、微信語音,但失真比較厲害。
- WMA (Windows Media Audio) :為抗衡 MP3 ,微軟公司推出的一種新的音頻格式,在壓縮比和音質方面都超過了 MP3 。
- AAC (Advanced Audio Coding) :相對于 MP3,AAC 格式的音質更佳,文件更小。
- M4A : MPEG 4 音頻標準的文件的擴展名,最常用的 .m4a 文件是使用 AAC 格式的。
- FLAC (Free Lossless Audio Codec) :自由音頻壓縮編碼 2012 年以來被很多軟硬件產品支持,其特點是無損壓縮,不會破壞` 任何音頻信息。
9 wav文件
WAV 文件是以 RIFF (resource interchange file format) 的檔案格式儲存,包含文件頭( Header )與數據 Data )。
WAV 文件頭由若干個 Chunk 組成的,按照在文件中的出現位置包括:WAVECHUNK, FMTCHUNK, FACTCHUNK( 可選 ), DATACHUNK ,具體包括如下結構體:
| Header | Data | ||||
| WAVECHUNK | FMTCHUNK | FACTCHUNK | DATACHUNK | ||
Wav文件頭部格式說明表
| 偏移地址 | 字節數 | 數據類型 | 內 容 | |
| 文件頭 | 00H | 4 | char | "RIFF"標志 |
| 04H | 4 | long | 文件長度 | |
| 08H | 4 | char | "WAVE"標志 | |
| 0CH | 4 | char | "fmt"標志 | |
| 10H | 4 | 過渡字節(不定) | ||
| 14H | 2 | short | 格式類別(10H為PCM形式的聲音數據) | |
| 16H | 2 | short | 通道數,單聲道為1,雙聲道為2 | |
| 18H | 4 | long | 采樣率(每秒樣本數),表示每個通道的播放速度, | |
| 1CH | 4 | long | 波形音頻數據傳送速率,其值為通道數×每秒數據位數×每樣本的數據位數/8。 播放軟件利用此值可以估計緩沖區的大小。 | |
| 20H | 2 | short | 數據塊的調整數(按字節算的),其值為通道數×每樣本的數據位值/8。 播放軟件需要一次處理多個該值大小的字節數據,以便將其值用于緩沖區的調整。 | |
| 22H | 2 | short | 每樣本的數據位數,表示每個聲道中各個樣本的數據位數。 如果有多個聲道,對每個聲道而言,樣本大小都一樣。 | |
| 24H | 4 | char | 數據標記符"data" | |
| 28H | 4 | long | 語音數據的長度 |
對wav文件進行處理之前,我們要先了解其格式是否符合規范,如電話錄音往往8kHz8bit的格式,對應的比特率為64kbps,PC麥克風露營一般是16kHz16bit的格式,對應的i特呂為256kpbs。在電腦上可以選中wav文件,然后點擊詳細信息,查看是否滿足條件。
本文的內容主要參考廈門大學洪青陽教授語音識別的課件。
總結
- 上一篇: vb.net服务器启动后cpu占用了70
- 下一篇: 初学大数据之如何选择机器学习算法