语音识别的流程
語(yǔ)音識(shí)別是完成語(yǔ)音到文字的轉(zhuǎn)換。自然語(yǔ)言理解是完成文字到語(yǔ)義的轉(zhuǎn)換。語(yǔ)音合成是用語(yǔ)音方式輸出用戶(hù)想要的信息,用語(yǔ)音實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互,主要包括語(yǔ)音識(shí)別、自然語(yǔ)言理解和語(yǔ)音合成。
相對(duì)于機(jī)器翻譯,語(yǔ)音識(shí)別是更加困難的問(wèn)題。機(jī)器翻譯系統(tǒng)的輸入通常是印刷文本,計(jì)算機(jī)能清楚地區(qū)分單詞和單詞串。而語(yǔ)音識(shí)別系統(tǒng)的輸入是語(yǔ)音,其復(fù)雜度要大得多,特別是口語(yǔ)有很多的不確定性。人與人交流時(shí),往往是根據(jù)上下文提供的信息猜測(cè)對(duì)方所說(shuō)的是哪一個(gè)單詞,還可以根據(jù)對(duì)方使用的音調(diào)、面部表情和手勢(shì)等來(lái)得到很多信息。特別是說(shuō)話(huà)者會(huì)經(jīng)常更正所說(shuō)過(guò)的話(huà),而且會(huì)使用不同的詞來(lái)重復(fù)某些信息。顯然,要使計(jì)算機(jī)像人一樣識(shí)別語(yǔ)音是很困難的。
語(yǔ)音識(shí)別過(guò)程包括從一段連續(xù)聲波中采樣,將每個(gè)采樣值量化,得到聲波的壓縮數(shù)字化表示。采樣值位于重疊的幀中,對(duì)于每一幀,抽取出一個(gè)描述頻譜內(nèi)容的特征向量。然后,根據(jù)語(yǔ)音信號(hào)的特征識(shí)別語(yǔ)音所代表的單詞,語(yǔ)音識(shí)別過(guò)程主要分為五步,如下:
1.語(yǔ)音信號(hào)采集
語(yǔ)音信號(hào)采集是語(yǔ)音信號(hào)處理的前提。語(yǔ)音通常通過(guò)話(huà)筒輸入計(jì)算機(jī)。話(huà)筒將聲波轉(zhuǎn)換為電壓信號(hào),然后通過(guò)A/D裝置(如聲卡)進(jìn)行采樣,從而將連續(xù)的電壓信號(hào)轉(zhuǎn)換為計(jì)算機(jī)能夠處理的數(shù)字信號(hào)。
目前多媒體計(jì)算機(jī)已經(jīng)非常普及,聲卡、音箱、話(huà)筒等已是個(gè)人計(jì)算機(jī)的基本設(shè)備。其中聲卡是計(jì)算機(jī)對(duì)語(yǔ)音信進(jìn)行加工的重要部件,它具有對(duì)信號(hào)濾波、放大、A/D和D/A轉(zhuǎn)換等功能。而且,現(xiàn)代操作系統(tǒng)都附帶錄音軟件,通過(guò)它可以驅(qū)動(dòng)聲卡采集語(yǔ)音信號(hào)并保存為語(yǔ)音文件。
對(duì)于現(xiàn)場(chǎng)環(huán)境不好,或者空間受到限制,特別是對(duì)于許多專(zhuān)用設(shè)備,目前廣泛采用基于單片機(jī)、DSP芯片的語(yǔ)音信號(hào)采集與處理系統(tǒng)。
2.語(yǔ)音信號(hào)預(yù)處理
語(yǔ)音信號(hào)號(hào)在采集后首先要進(jìn)行濾波、A/D變換,預(yù)加重(Preemphasis)和端點(diǎn)檢測(cè)等預(yù)處理,然后才能進(jìn)入識(shí)別、合成、增強(qiáng)等實(shí)際應(yīng)用。
濾波的目的有兩個(gè):一是抑制輸入信號(hào)中頻率超出//2的所有分量(/:為采樣頻率),以防止混疊干擾;二是抑制50Hz的電源工頻干擾。因此,濾波器應(yīng)該是一個(gè)帶通濾波器。
A/D變換是將語(yǔ)音模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。A/D變換中要對(duì)信號(hào)進(jìn)行量化,量化后的信號(hào)值與原信號(hào)值之間的差值為量化誤差,又稱(chēng)為量化噪聲。
預(yù)加重處理的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,便于頻譜分析。
端點(diǎn)檢測(cè)是從包含語(yǔ)音的一段信號(hào)中確定出語(yǔ)音的起點(diǎn)和終點(diǎn)。有效的端點(diǎn)檢測(cè)不僅能減少處理時(shí)間,而且能排除無(wú)聲段的噪聲干擾。目前主要有兩類(lèi)方法:時(shí)域特征方法和頻域特征方法。時(shí)域特征方法是利用語(yǔ)音音量和過(guò)零率進(jìn)行端點(diǎn)檢測(cè),計(jì)算量小,但對(duì)氣音會(huì)造成誤判,不同的音量計(jì)算也會(huì)造成檢測(cè)結(jié)果不同。頻域特征方法是用聲音的頻譜的變異和熵的檢測(cè)進(jìn)行語(yǔ)音檢測(cè),計(jì)算量較大。
3.語(yǔ)音信號(hào)的特征參數(shù)提取
人說(shuō)話(huà)的頻率在10kHz以下。根據(jù)香農(nóng)采樣定理,為了使語(yǔ)音信號(hào)的采樣數(shù)據(jù)中包含所需單詞的信息,計(jì)算機(jī)的采樣頻率應(yīng)是需要記錄的語(yǔ)音信號(hào)中包含的最高語(yǔ)音頻率的兩倍以上。一般將信號(hào)分割成若干塊,信號(hào)的每個(gè)塊稱(chēng)為幀,為了保證可能落在幀邊緣的重要信息不會(huì)丟失,應(yīng)該使幀有重疊。例如,當(dāng)使用20kH*的采樣麵率時(shí),標(biāo)準(zhǔn)的一幀為10ms,包含200個(gè)采樣值。
話(huà)筒等語(yǔ)音輸入設(shè)備可以采集到聲波波形,如囫10.4所示。雖然這些聲音的波形包含了所需單詞的信息,但用肉眼觀(guān)察這些波形卻得不到多少信息因此,需要從采樣數(shù)據(jù)中抽取那些能夠幫助辨別單詞的特征信息。在語(yǔ)音識(shí)別中,常用線(xiàn)性預(yù)測(cè)編碼技術(shù)抽取語(yǔ)音特征。
線(xiàn)性預(yù)測(cè)編碼的基本思想是:語(yǔ)音信號(hào)采樣點(diǎn)之間存在相關(guān)性,可用過(guò)去的若干采樣點(diǎn)的線(xiàn)性組合預(yù)測(cè)當(dāng)前和將來(lái)的采樣點(diǎn)值。線(xiàn)性預(yù)測(cè)系數(shù)埽以通過(guò)使預(yù)測(cè)信號(hào)和實(shí)際信號(hào)之間的均方誤差最小來(lái)唯一確定。
語(yǔ)音線(xiàn)性預(yù)測(cè)系數(shù)作為語(yǔ)音信號(hào)的一種特征參數(shù),已經(jīng)廣泛應(yīng)用于語(yǔ)音處理各個(gè)領(lǐng)域。
4.向置量化
向量量化(VectorQuantization,VQ)技術(shù)是20世紀(jì)W年代后期發(fā)展起來(lái)的一種數(shù)據(jù)壓縮和編碼技術(shù)。經(jīng)過(guò)向量量化的特征向量也可以作為后面隱馬爾可夫模型中的輸入觀(guān)察符號(hào)。
在標(biāo)量量化中整個(gè)動(dòng)態(tài)范圍被分成若干個(gè)小區(qū)間,每個(gè)小區(qū)間有一個(gè)代表值,對(duì)于一個(gè)輸入的標(biāo)量信號(hào),量化時(shí)落入小區(qū)間的值就用這個(gè)代表值>[戈替。因?yàn)檫@時(shí)的信號(hào)量是一維的標(biāo)量,所以稱(chēng)為標(biāo)量量化。
向量量化的概念是用線(xiàn)性空間的觀(guān)點(diǎn)[,把標(biāo)量改為一維的向量,對(duì)向量進(jìn)行量化。和標(biāo)量量化一樣,向量量化是把向量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表向量,量化時(shí)落入小區(qū)域的向量就用這個(gè)代表向量代替。
向量量化的基本原理是將若干個(gè)標(biāo)量數(shù)據(jù)組成一個(gè)向量(或者是從一幀語(yǔ)音數(shù)據(jù)中提取的特征向量)在多維空間給予整體量化,從而可以在信息量損失較小的情況下壓縮數(shù)據(jù)量。
語(yǔ)音識(shí)別
當(dāng)提取聲音特征集合以后,就可以識(shí)別這些特征所代表的單詞。本節(jié)重點(diǎn)關(guān)注單個(gè)單詞的識(shí)別。識(shí)別系統(tǒng)的輸入是從語(yǔ)音信號(hào)中提取出的特征參數(shù),如LPC預(yù)測(cè)編碼參數(shù),當(dāng)然,單詞對(duì)應(yīng)于字母序列。語(yǔ)音識(shí)別所采用的方法一般有模板匹配法、隨機(jī)模型法和概率語(yǔ)法分析法三種。這三種方法都是建立在最大似然決策貝葉斯(Bayes)判決的基礎(chǔ)上的。
(1)模板(template)匹配法
在訓(xùn)練階段,用戶(hù)將詞匯表中的每一個(gè)詞依次說(shuō)一遍,并且將其特征向量作為模板存入模板庫(kù)。在識(shí)別階段,將輸入語(yǔ)音的特征向量序列,依次與模板庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。
(2)隨機(jī)模型法
隨機(jī)模型法是目前語(yǔ)音識(shí)別研究的主流。其突出的代表是隱馬爾可夫模型。語(yǔ)音信號(hào)在足夠短的時(shí)間段上的信號(hào)特征近似于穩(wěn)定,而總的過(guò)程可看成是依次相對(duì)穩(wěn)定的某一特性過(guò)渡到另一特性。隱馬爾可夫模型則用概率統(tǒng)計(jì)的方法來(lái)描述這樣一種時(shí)變的過(guò)程。
(3)概率語(yǔ)法分析法
這種方法是用于大長(zhǎng)度范圍的連續(xù)語(yǔ)音識(shí)別。語(yǔ)音學(xué)家通過(guò)研究不同的語(yǔ)音語(yǔ)譜圖及其變化發(fā)現(xiàn),雖然不同的人說(shuō)同一些語(yǔ)音時(shí),相應(yīng)的語(yǔ)譜及其變化有種種差異,但是總有一些共同的特點(diǎn)足以使他們區(qū)別于其他語(yǔ)音,也即語(yǔ)音學(xué)家提出的“區(qū)別性特征”。另一方面,人類(lèi)的語(yǔ)言要受詞法、語(yǔ)法、語(yǔ)義等約束,人在識(shí)別語(yǔ)音的過(guò)程中充分應(yīng)用了這些約束以及對(duì)話(huà)環(huán)境的有關(guān)信息。于是,將語(yǔ)音識(shí)別專(zhuān)家提出的“區(qū)別性特征”與來(lái)自構(gòu)詞、句法、語(yǔ)義等語(yǔ)用約束相互結(jié)合,就可以構(gòu)成一個(gè)“自底向上”或“自頂向下”的交互作用的知識(shí)系統(tǒng),不同層次的知識(shí)可以用若干規(guī)則來(lái)描述。
除了上面的三種語(yǔ)音識(shí)別方法外,還有許多其他的語(yǔ)音識(shí)別方法。例如,基于人工神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法,是目前的一個(gè)研究熱點(diǎn)。目前用于語(yǔ)音識(shí)別研究的神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、Kohcmen特征映射神經(jīng)網(wǎng)絡(luò)等,特別是深度學(xué)習(xí)用于語(yǔ)音識(shí)別取得了長(zhǎng)足的進(jìn)步。
人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的未來(lái)發(fā)展值得重視,均為前沿產(chǎn)業(yè),多智時(shí)代專(zhuān)注于人工智能和大數(shù)據(jù)的入門(mén)和科譜,在此為你推薦幾篇優(yōu)質(zhì)好文:
1.一套完整的語(yǔ)音識(shí)別系統(tǒng),主要的工作流程是什么?
2.人工智能快速發(fā)展的今天,語(yǔ)音識(shí)別現(xiàn)在發(fā)展到什么階段了?
3.語(yǔ)音的識(shí)別過(guò)程主要分哪幾步,常用的識(shí)別方法是什么?
多智時(shí)代-人工智能和大數(shù)據(jù)學(xué)習(xí)入門(mén)網(wǎng)站|人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算的學(xué)習(xí)交流網(wǎng)站
總結(jié)
- 上一篇: Django项目功能执行逻辑流程图之用户
- 下一篇: 搜索百度网盘的小姐姐,云网盘之家