當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

语音识别common1（音素，三音素）

發(fā)布時(shí)間：2024/1/18 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别common1（音素，三音素）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

語(yǔ)音是一個(gè)連續(xù)的音頻流，它是由大部分的穩(wěn)定態(tài)和部分動(dòng)態(tài)改變的狀態(tài)混合構(gòu)成。

一個(gè)單詞的發(fā)聲（波形）實(shí)際上取決于很多因素，而不僅僅是音素，例如音素上下文、說話者、語(yǔ)音風(fēng)格等；

協(xié)同發(fā)音（指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化，從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變，從而使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異。）的存在使得音素的感知與標(biāo)準(zhǔn)不一樣，所以我們需要根據(jù)上下文來辨別音素。將一個(gè)音素劃分為幾個(gè)亞音素單元。如：數(shù)字“three”，音素的第一部分與在它之前的音素存在關(guān)聯(lián)，中間部分是穩(wěn)定的部分，而最后一部分則與下一個(gè)音素存在關(guān)聯(lián)，這就是為什么在用HMM模型做語(yǔ)音識(shí)別時(shí)，選擇音素的三狀態(tài)HMM模型。（上下文相關(guān)建模方法在建模時(shí)考慮了這一影響，從而使模型能更準(zhǔn)確地描述語(yǔ)音，只考慮前一音的影響的稱為Bi-Phone，考慮前一音和后一音的影響的稱為 Tri-Phone。）

有時(shí)候，音素會(huì)被放在上下文中考慮，這樣就形成了三元音素或者多元音素。但它與亞音素不同，他們?cè)诓ㄐ沃衅ヅ鋾r(shí)長(zhǎng)度還是和單一音素一樣。只是名字上的不同而已，所以我們更傾向于將這樣的多元音素稱為senone。一個(gè)senone的上下文依賴比單純的左右上下文復(fù)雜得多，它是一個(gè)可以被決策樹或者其他方式來定義的復(fù)雜函數(shù)。（英語(yǔ)的上下文相關(guān)建模通常以音素為基元，由于有些音素對(duì)其后音素的影響是相似的，因而可以通過音素解碼狀態(tài)的聚類進(jìn)行模型參數(shù)的共享。聚類的結(jié)果稱為senone。決策樹用來實(shí)現(xiàn)高效的triphone對(duì)senone的對(duì)應(yīng)，通過回答一系列前后音所屬類別（元/輔音、清/濁音等等）的問題，最終確定其HMM狀態(tài)應(yīng)使用哪個(gè)senone。分類回歸樹CART模型用以進(jìn)行詞到音素的發(fā)音標(biāo)注。）

特征：

我們用幀frames去分割語(yǔ)音波形，每幀大概25(原文10ms,大部分資料都是以25ms為基準(zhǔn))ms，然后每幀提取可以代表該幀語(yǔ)音的39個(gè)數(shù)字，這39個(gè)數(shù)字也就是該幀語(yǔ)音的特征，用特征向量來表示。而如何提取特征向量是當(dāng)下熱門的研究課題，但這些提取方法都是由頻譜衍生出來的。

聲學(xué)模型acoustic model：

一個(gè)聲學(xué)模型包含每個(gè)senone的聲學(xué)屬性，其包括不依賴于上下文的屬性（每個(gè)音素phone最大可能的特征向量？？？暫時(shí)不明白，后邊再回來補(bǔ)充）和依賴于上下文的屬性（根據(jù)上下文構(gòu)建的senone）。

語(yǔ)音學(xué)字典phonetic dictionary：

字典包含了從單詞words到音素phones之間的映射。

字典并不是描述單詞words到音素phones之間的映射的唯一方法。可以通過運(yùn)用機(jī)器學(xué)習(xí)算法去學(xué)習(xí)得到一些復(fù)雜的函數(shù)去完成映射功能。

網(wǎng)格Lattice是一個(gè)代表識(shí)別的不同結(jié)果的有向圖。一般來說，很難去獲得一個(gè)最好的語(yǔ)音匹配結(jié)果。所以Lattices就是一個(gè)比較好的格式去存放語(yǔ)音識(shí)別的中間結(jié)果。

本文主要對(duì) http://blog.csdn.net/zouxy09/article/details/7941055 進(jìn)行了簡(jiǎn)單的信息壓縮處理，如果感覺不夠連貫可以參考原文。

總結(jié)

以上是生活随笔為你收集整理的语音识别common1（音素，三音素）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：根据年月日查询某年某月的最后一天
下一篇：欧洲知名创业公司CEO的创业失败教训