语音识别的概念和前世今生
最近在學習語音識別的一些知識,做了一些筆記,這篇文章講講語音識別的發展,以及相關的幾個容易混淆的概念。
?
語音識別的背景
從物理聲音被轉換為電信號,再通過模數轉換器轉換為數據。一旦被數字化,就可適用若干種模型。語音識別的技術,就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。
?
發展階段
50年代:貝爾實驗室開始語音識別的研究,主要研究基于簡單的孤立詞的語音識別系統。實現針對特定說話人的十個英文數字的孤立詞語音識別系統。
60年代:出現三個關鍵的技術,提出一種時間規整的機制,采用動態規劃算法實現動態時間規整DTW技術,利用音素動態跟蹤的方法進行連續語音識別的開創性工作。為語音識別的后來發展奠定了基礎。
70年代:語音識別技術快速發展的時期。實現大規模語音識別,大詞匯量,孤立詞識別。
80年代:基于隱馬爾科夫模型的聲學建模和基于n.gram的語言模型。嘗試大詞匯量、非特定人連續語音識別。
90年代:語音識別技術基本成熟的時期,基于GMM-HMM的語音識別框架得到廣泛使用和研究。
20年代初期:語音識別并沒有得到非常好的應用,因為系統的錯誤率還很高。2006年開始再度興起。
?
學科基礎
通信基礎知識和信號處理、聲學基本知識和特征、概率論和信息論、統計學、機器學習等等。
?
相關概念
語音識別
簡稱ASR(Automatic,Speech,Recognition),將聲學語音進行分析,并得到對應的文字或拼音信息。
自然語言處理
簡稱NLP(Neuro-linguistic programming),用于將用戶的語音轉換為結構化的、機器可以理解的語言。
語音喚醒
簡稱KWS(keyword spotting),技術通過在設備或軟件中預置喚醒詞,當用戶發出該語音指令時,設備便從休眠狀態中被喚醒,并響應指令。
語音合成
簡稱TTS(Text To Speech),即將文本轉換成語音,實現讓機器說話。
聲紋識別
簡稱VPR(Voice Print Recognition),根據說話人的聲波特性進行身份辨識的服務,是生物識別技術的一種。
?
區別與聯系
應用場景的區別
語音識別、聲紋識別、自然語言處理,以及語音合成四者的目的和應用場景是不同的。
| 類型 | 簡稱 | 目的 | 應用場景 |
| 語音識別 | ASR | 語音——》文字 | 生成字幕、智慧會場、語音喚醒、智能客服 |
| 聲紋識別 | VPR | 識別說話人的身份 | 身份認證、公安刑偵 |
| 語音喚醒 | KWS | 語音——》指令 | 小度音箱、小愛音箱 |
| 語音合成 | TTS | 文字——》語音 | 智能音箱 |
| 語言處理 | NLP | 語音——》語言 | 同聲翻譯、自動閱卷 |
以小米音箱為例(來自MTSC大會上小米工程師的分享)。
?
在四個階段里,輸入和輸出分別是下方的內容:
| 階段 | 喚醒KWS | 語音識別ASR | 語音處理NLP | 語音播報TTS |
| IN | 關鍵字語音 | 用戶指令語音 | 用戶指令文字 | 播報文字 |
| OUT | 是否喚醒 | 文字 | 應對處理+播報文字 | 播報語音 |
| 示例 | 小愛同學 回復我在 | 現在幾點了 | Domin:time Intention:current time To_speek:現在時間是九點 | 播放MP3音頻:現在時間是九點 |
出于保護用戶隱私和減少誤識別兩個因素的考慮,智能音箱一般在檢測到喚醒詞之后,才會開始進一步的復雜信號處理(聲源定位、波束形成)和后續的語音交互過程。
一般而言,喚醒模塊是一個小型語音識別引擎。由于語音喚醒的目標單一(檢測出指定的喚醒詞),喚醒只需要較小的聲學模型和語言模型來區分出有無喚醒詞出現),聲學評分和解碼可以很快,空間占用少,能夠在本地實時。
所以講到這里,亞馬遜的音響半夜突然啟動和開始說話,就不奇怪了~
?
語音識別與聲紋識別的區別
最多人容易將語音識別和聲紋識別混淆。
聲紋識別和語音識別在原理上一樣,都是通過對采集到的語音信號進行分析和處理,提取相應的特征或建立相應的模型,然后據此做出判斷。但語音識別是從不同人的詞語信號中尋找共同因素,聲紋識別是通過語音波形中反映說話人生理和行為特征的語音參數。
聲紋識別一般會連接到公安部的聲紋數據庫,鑒別人的身份。所承載的功能特點和人臉識別是一樣的,都是為了證明,“你是張三,還是李四”。所以聲紋識別不注重語音信號的語義,而是從語音信號中提取個人聲紋特征,挖掘出包含在語音信號中的個性因素。
?
語音識別的分類
按使用范圍分類
從語音識別的使用范圍分類,可分為封閉域識別和開放域識別,具體概念及優劣如下方表格:
| 范圍 | 概念 | 算法 | 應用場景 | 提供形式 |
| 封閉域識別 | 以預先指定的字/詞集合為識別范圍,對范圍之外的語音會拒識 | 聲學模型和語言模型進行裁剪,使得識別引擎的運算量變小 | 不涉及到多輪交互和多種語義說法的場景。 如電視盒子,智能音箱 | 一般將引擎封到嵌入式芯片或者本地化的SDK中,從而使識別過程完全脫離云端,擺脫對網絡的依賴,并且不會影響識別率 |
| 開放域識別 | 無需預先指定識別詞集合,在整個語言大集合范圍中進行識別 | 聲學模型和語音模型一般都比較大,引擎運算量也較大 | 實時性要求不高的客服語音質檢,錄制完的視頻轉字幕配置等。如會議字幕系統 | 基本上都只以云端形式提供(云端包括公有云形式和私有云形式),依賴于網絡 |
按識別對象分類
根據識別的對象不同,語音識別任務大體可分為三類,孤立詞識別、關鍵詞識別、連續語音識別。
| 范圍 | 概念 | 應用場景 |
| 孤立詞識別 | 識別事先已知的孤立的詞 | 如“開機”、“關機”等 |
| 關鍵詞識別 | 檢測針對的是連續語音,但它并不識別全部文字,而只是檢測已知的若干關鍵詞在何處出現 | 如在一段話中檢測“計算機”、“世界”這兩個詞 |
| 連續語音識別 | 識別任意的連續語音, | 如一個句子或一段話 |
按發音人分類
根據發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別。
特定人語音識別(SD),只能識別一個或幾個人的語音。
非特定人語音識別(SI),可以被任何人使用系統,更符合實際需要,但要比針對特定人的識別困難得多。
總結
以上是生活随笔為你收集整理的语音识别的概念和前世今生的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python堆栈反向输出列表_pytho
- 下一篇: h5 img js 点击图片放大_H5实