AI-语音处理理论和应用-语音识别、语音合成
學(xué)習(xí)目標(biāo)
???? 了解語音處理的基礎(chǔ)知識(shí)及應(yīng)用
???? 掌握語音處理的基本步驟
???? 掌握語音處理的主要技術(shù)
???? 了解語音處理的難點(diǎn)與展望
語音識(shí)別
???什么是語音識(shí)別技術(shù)
??????? 語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。
??????? 語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。
???語音識(shí)別發(fā)展史
??????? 1952年,貝爾研究所研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的試驗(yàn)系統(tǒng);
??????? 1970年以后,在小詞匯和孤立詞的識(shí)別方面取得了實(shí)質(zhì)性進(jìn)展;
??????? 1980年以后,孤立詞轉(zhuǎn)向連接詞(識(shí)別一句話)識(shí)別;
??????? 1987年12月,李開復(fù)開發(fā)出世界上第一個(gè)“非特定人連續(xù)語音識(shí)別系統(tǒng)”,用統(tǒng)計(jì)方法提升了語音識(shí)別率;
??????? 1990年以后,大詞匯量連續(xù)語音識(shí)別得到優(yōu)化;
??????? 1997年,IBM Viavoice首個(gè)語音聽寫產(chǎn)品問世;
??????? 2010年,Google Voive Action支持語音操作與搜索;
??????? 2011年初,微軟的DNN在語音搜索任務(wù)上取得成功,科大訊飛將DNN首次成功應(yīng)用到中文語音識(shí)別領(lǐng)域;
??????? 2011年10月,蘋果iPhone 4S自帶的語音助手Siri一炮走紅;
??????? 2013年,Google發(fā)布Google Glass,蘋果發(fā)布iWatch都嵌入語音交互功能;
??????? 趨勢(shì):
?????????? 語音識(shí)別任務(wù)越來越復(fù)雜
?????????? 用到的模型越來越復(fù)雜
?????????? 技術(shù)從實(shí)驗(yàn)室走入生活
???語音識(shí)別任務(wù)處理流程
??????1.得到語音文件(mp3、wav……)
??????2.將語音文件進(jìn)行還原
??????3.還原后進(jìn)行預(yù)處理,滿足一定數(shù)據(jù)要求
??????4.通過聲學(xué)模型、分幀、聲學(xué)特征提取得到語言模型、單詞、文本文件
??????5.對(duì)于現(xiàn)代的語音識(shí)別的任務(wù)來說,有些過程是合并在一起的,成為一個(gè)end-to-end的形式
???語音識(shí)別的應(yīng)用
??????? 語音打字機(jī):說一句話快速翻譯出來;搜狗聽寫
??????? 語音搜索:購物網(wǎng)站購物可以通過語音搜索
??????? 語音撥號(hào)
??????? 語音助手
語音合成
???什么是語音合成
??????? 語音合成,又稱文語轉(zhuǎn)換(Text-To-Speech TTS)技術(shù),能將任意文字信息轉(zhuǎn)化為相應(yīng)語音朗讀出來。
??????? 語音合成涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。
??????? 為了合成出高質(zhì)量的語言,除了依賴于各種規(guī)則,包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外,還必須對(duì)文字的內(nèi)容有很好的理解,這也涉及到自然語言理解的問題。
???語音合成應(yīng)用場景
??????大部分都和語音識(shí)別相結(jié)合,語音識(shí)別通過人向機(jī)器傳輸信息,語音合成通過機(jī)器向人傳輸信息;比如:
??????? 服務(wù)機(jī)器人
??????? 客服系統(tǒng)
??????? 智慧家具
??????? 出行導(dǎo)航
??????? 閱讀軟件
???語音合成系統(tǒng)
??????? 一個(gè)完整的語音合成系統(tǒng)過程是先將文字序列轉(zhuǎn)換成音韻序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形。其中:
??????? 第一步涉及語言學(xué)處理,例如分詞、字音轉(zhuǎn)換等,以及一整套有效的音律控制規(guī)則;
??????? 第二步需要先進(jìn)的語音合成技術(shù),能按要求實(shí)時(shí)合成出高質(zhì)量的語音流。
??????? 語音合成技術(shù)的研究已有兩百多年的歷史,但真正具有實(shí)用意義的近代語音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來的,主要是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。
???語音合成處理流程
??????1.拿到文本文件
??????2.對(duì)文本進(jìn)行分析
?????????文本歸一化:把縮寫的詞完整化
?????????語音分析:分詞
?????????韻律分析:這句話代表什么情緒、代表什么角色
??????3.語音內(nèi)部表示
??????4.波形合成
??????5.形成完整的波形文件
??????6.對(duì)波形文件進(jìn)行評(píng)估看是否滿足需求
???文本分析
??????? 語音識(shí)別中的文本分析主要的工作是把文本數(shù)據(jù)轉(zhuǎn)換成語音內(nèi)部表示(Phonemic Internal Representation)。具體內(nèi)容包括:
??????? 文本歸一化:對(duì)形形色色的自然文本數(shù)據(jù)進(jìn)行預(yù)處理或者歸一化,包括句子的詞例還原,非標(biāo)準(zhǔn)詞,同形異義詞排歧等;
??????? 語音分析:文本歸一化之后的下一步就是語音分析,具體方法包括通過大規(guī)模發(fā)音詞典,字位-音位轉(zhuǎn)換規(guī)則;
??????? 韻律分析:分析文本中的平仄格式和押韻規(guī)則,這里主要包含三方面的內(nèi)容,包括:韻律的機(jī)構(gòu),韻律的突顯度,音調(diào)。
???語音合成方法
??????? 在語音合成技術(shù)的發(fā)展過程中,早期的研究主要是采用參數(shù)合成方法,后來隨著計(jì)算機(jī)技術(shù)的發(fā)展又出現(xiàn)了波形拼接的合成方法。
??????? 參數(shù)合成
?????????? 在語音合成技術(shù)的發(fā)展中,早期的研究主要是采用參數(shù)合成方法。值得提及的是Holmes的并聯(lián)共振峰合成器(1973)和Klatt的串/并聯(lián)共振峰合成器(1980),只要精心調(diào)整參數(shù),這兩個(gè)合成器都能合成出非常自然的語音。但準(zhǔn)確提取共振峰參數(shù)比較困難,合成語音的音質(zhì)難以達(dá)到實(shí)用要求。
??????? 波形拼接
?????????? 自八十年代末期至今,語言合成技術(shù)又有了新的進(jìn)展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基于時(shí)域波形拼接方法合成的語音的音色和自然度大大提高,自然度比以前基于LPC方法或共振峰合成器的自然度要高,并且基于PSOLA方法的合成器結(jié)構(gòu)簡單,易于實(shí)時(shí)實(shí)現(xiàn),有很大的商用前景。
總結(jié)
以上是生活随笔為你收集整理的AI-语音处理理论和应用-语音识别、语音合成的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关闭windows defender教程
- 下一篇: QOS端口限速EMAIL流量限速