當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AI-语音处理理论和应用-语音识别、语音合成

發(fā)布時(shí)間：2023/12/18 ChatGpt 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 AI-语音处理理论和应用-语音识别、语音合成小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)習(xí)目標(biāo)
???? 了解語音處理的基礎(chǔ)知識(shí)及應(yīng)用
???? 掌握語音處理的基本步驟
???? 掌握語音處理的主要技術(shù)
???? 了解語音處理的難點(diǎn)與展望

語音識(shí)別
???什么是語音識(shí)別技術(shù)
??????? 語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。
??????? 語音識(shí)別技術(shù)所涉及的領(lǐng)域包括：信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

???語音識(shí)別發(fā)展史
??????? 1952年，貝爾研究所研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的試驗(yàn)系統(tǒng)；
??????? 1970年以后，在小詞匯和孤立詞的識(shí)別方面取得了實(shí)質(zhì)性進(jìn)展；
??????? 1980年以后，孤立詞轉(zhuǎn)向連接詞(識(shí)別一句話)識(shí)別；
??????? 1987年12月，李開復(fù)開發(fā)出世界上第一個(gè)“非特定人連續(xù)語音識(shí)別系統(tǒng)”，用統(tǒng)計(jì)方法提升了語音識(shí)別率；
??????? 1990年以后，大詞匯量連續(xù)語音識(shí)別得到優(yōu)化；
??????? 1997年，IBM Viavoice首個(gè)語音聽寫產(chǎn)品問世；
??????? 2010年，Google Voive Action支持語音操作與搜索；
??????? 2011年初，微軟的DNN在語音搜索任務(wù)上取得成功，科大訊飛將DNN首次成功應(yīng)用到中文語音識(shí)別領(lǐng)域；
??????? 2011年10月，蘋果iPhone 4S自帶的語音助手Siri一炮走紅；
??????? 2013年，Google發(fā)布Google Glass，蘋果發(fā)布iWatch都嵌入語音交互功能；
??????? 趨勢(shì):
?????????? 語音識(shí)別任務(wù)越來越復(fù)雜
?????????? 用到的模型越來越復(fù)雜
?????????? 技術(shù)從實(shí)驗(yàn)室走入生活
???語音識(shí)別任務(wù)處理流程

??????1.得到語音文件(mp3、wav……)
??????2.將語音文件進(jìn)行還原
??????3.還原后進(jìn)行預(yù)處理，滿足一定數(shù)據(jù)要求
??????4.通過聲學(xué)模型、分幀、聲學(xué)特征提取得到語言模型、單詞、文本文件
??????5.對(duì)于現(xiàn)代的語音識(shí)別的任務(wù)來說，有些過程是合并在一起的，成為一個(gè)end-to-end的形式
???語音識(shí)別的應(yīng)用
??????? 語音打字機(jī)：說一句話快速翻譯出來；搜狗聽寫
??????? 語音搜索：購物網(wǎng)站購物可以通過語音搜索
??????? 語音撥號(hào)
??????? 語音助手

語音合成
???什么是語音合成
??????? 語音合成，又稱文語轉(zhuǎn)換（Text-To-Speech TTS）技術(shù)，能將任意文字信息轉(zhuǎn)化為相應(yīng)語音朗讀出來。
??????? 語音合成涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)，是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。
??????? 為了合成出高質(zhì)量的語言，除了依賴于各種規(guī)則，包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外，還必須對(duì)文字的內(nèi)容有很好的理解，這也涉及到自然語言理解的問題。
???語音合成應(yīng)用場景
??????大部分都和語音識(shí)別相結(jié)合，語音識(shí)別通過人向機(jī)器傳輸信息，語音合成通過機(jī)器向人傳輸信息；比如：
??????? 服務(wù)機(jī)器人
??????? 客服系統(tǒng)
??????? 智慧家具
??????? 出行導(dǎo)航
??????? 閱讀軟件
???語音合成系統(tǒng)
??????? 一個(gè)完整的語音合成系統(tǒng)過程是先將文字序列轉(zhuǎn)換成音韻序列，再由系統(tǒng)根據(jù)音韻序列生成語音波形。其中：
??????? 第一步涉及語言學(xué)處理，例如分詞、字音轉(zhuǎn)換等，以及一整套有效的音律控制規(guī)則；
??????? 第二步需要先進(jìn)的語音合成技術(shù)，能按要求實(shí)時(shí)合成出高質(zhì)量的語音流。
??????? 語音合成技術(shù)的研究已有兩百多年的歷史，但真正具有實(shí)用意義的近代語音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來的，主要是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。
???語音合成處理流程

??????1.拿到文本文件
??????2.對(duì)文本進(jìn)行分析
?????????文本歸一化：把縮寫的詞完整化
?????????語音分析：分詞
?????????韻律分析：這句話代表什么情緒、代表什么角色
??????3.語音內(nèi)部表示
??????4.波形合成
??????5.形成完整的波形文件
??????6.對(duì)波形文件進(jìn)行評(píng)估看是否滿足需求
???文本分析
??????? 語音識(shí)別中的文本分析主要的工作是把文本數(shù)據(jù)轉(zhuǎn)換成語音內(nèi)部表示（Phonemic Internal Representation）。具體內(nèi)容包括：
??????? 文本歸一化：對(duì)形形色色的自然文本數(shù)據(jù)進(jìn)行預(yù)處理或者歸一化，包括句子的詞例還原，非標(biāo)準(zhǔn)詞，同形異義詞排歧等；
??????? 語音分析：文本歸一化之后的下一步就是語音分析，具體方法包括通過大規(guī)模發(fā)音詞典，字位-音位轉(zhuǎn)換規(guī)則；
??????? 韻律分析：分析文本中的平仄格式和押韻規(guī)則，這里主要包含三方面的內(nèi)容，包括：韻律的機(jī)構(gòu)，韻律的突顯度，音調(diào)。
???語音合成方法
??????? 在語音合成技術(shù)的發(fā)展過程中，早期的研究主要是采用參數(shù)合成方法，后來隨著計(jì)算機(jī)技術(shù)的發(fā)展又出現(xiàn)了波形拼接的合成方法。
??????? 參數(shù)合成
?????????? 在語音合成技術(shù)的發(fā)展中，早期的研究主要是采用參數(shù)合成方法。值得提及的是Holmes的并聯(lián)共振峰合成器（1973）和Klatt的串/并聯(lián)共振峰合成器（1980），只要精心調(diào)整參數(shù)，這兩個(gè)合成器都能合成出非常自然的語音。但準(zhǔn)確提取共振峰參數(shù)比較困難，合成語音的音質(zhì)難以達(dá)到實(shí)用要求。
??????? 波形拼接
?????????? 自八十年代末期至今，語言合成技術(shù)又有了新的進(jìn)展，特別是基音同步疊加（PSOLA）方法的提出（1990），使基于時(shí)域波形拼接方法合成的語音的音色和自然度大大提高，自然度比以前基于LPC方法或共振峰合成器的自然度要高，并且基于PSOLA方法的合成器結(jié)構(gòu)簡單，易于實(shí)時(shí)實(shí)現(xiàn)，有很大的商用前景。

總結(jié)

以上是生活随笔為你收集整理的AI-语音处理理论和应用-语音识别、语音合成的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：关闭windows defender教程
下一篇： QOS端口限速EMAIL流量限速