日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

语音识别common1(音素,三音素)

發(fā)布時(shí)間:2024/1/18 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 语音识别common1(音素,三音素) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

語(yǔ)音是一個(gè)連續(xù)的音頻流,它是由大部分的穩(wěn)定態(tài)和部分動(dòng)態(tài)改變的狀態(tài)混合構(gòu)成。

一個(gè)單詞的發(fā)聲(波形)實(shí)際上取決于很多因素,而不僅僅是音素,例如音素上下文、說話者、語(yǔ)音風(fēng)格等;

協(xié)同發(fā)音(指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變,從而使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異。)的存在使得音素的感知與標(biāo)準(zhǔn)不一樣,所以我們需要根據(jù)上下文來辨別音素。將一個(gè)音素劃分為幾個(gè)亞音素單元。如:數(shù)字“three”,音素的第一部分與在它之前的音素存在關(guān)聯(lián),中間部分是穩(wěn)定的部分,而最后一部分則與下一個(gè)音素存在關(guān)聯(lián),這就是為什么在用HMM模型做語(yǔ)音識(shí)別時(shí),選擇音素的三狀態(tài)HMM模型。(上下文相關(guān)建模方法在建模時(shí)考慮了這一影響,從而使模型能更準(zhǔn)確地描述語(yǔ)音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的稱為 Tri-Phone。)


有時(shí)候,音素會(huì)被放在上下文中考慮,這樣就形成了三元音素或者多元音素。但它與亞音素不同,他們?cè)诓ㄐ沃衅ヅ鋾r(shí)長(zhǎng)度還是和單一音素一樣。只是名字上的不同而已,所以我們更傾向于將這樣的多元音素稱為senone一個(gè)senone的上下文依賴比單純的左右上下文復(fù)雜得多,它是一個(gè)可以被決策樹或者其他方式來定義的復(fù)雜函數(shù)。(英語(yǔ)的上下文相關(guān)建模通常以音素為基元,由于有些音素對(duì)其后音素的影響是相似的,因而可以通過音素解碼狀態(tài)的聚類進(jìn)行模型參數(shù)的共享。聚類的結(jié)果稱為senone。決策樹用來實(shí)現(xiàn)高效的triphone對(duì)senone的對(duì)應(yīng),通過回答一系列前后音所屬類別(元/輔音、清/濁音等等)的問題,最終確定其HMM狀態(tài)應(yīng)使用哪個(gè)senone。分類回歸樹CART模型用以進(jìn)行詞到音素的發(fā)音標(biāo)注。)


特征:

我們用幀frames去分割語(yǔ)音波形,每幀大概25(原文10ms,大部分資料都是以25ms為基準(zhǔn))ms,然后每幀提取可以代表該幀語(yǔ)音的39個(gè)數(shù)字,這39個(gè)數(shù)字也就是該幀語(yǔ)音的特征,用特征向量來表示。而如何提取特征向量是當(dāng)下熱門的研究課題,但這些提取方法都是由頻譜衍生出來的。

聲學(xué)模型acoustic model

一個(gè)聲學(xué)模型包含每個(gè)senone的聲學(xué)屬性,其包括不依賴于上下文的屬性(每個(gè)音素phone最大可能的特征向量???暫時(shí)不明白,后邊再回來補(bǔ)充)和依賴于上下文的屬性(根據(jù)上下文構(gòu)建的senone)。


語(yǔ)音學(xué)字典phonetic dictionary

字典包含了從單詞words到音素phones之間的映射。

字典并不是描述單詞words到音素phones之間的映射的唯一方法。可以通過運(yùn)用機(jī)器學(xué)習(xí)算法去學(xué)習(xí)得到一些復(fù)雜的函數(shù)去完成映射功能。


網(wǎng)格Lattice是一個(gè)代表識(shí)別的不同結(jié)果的有向圖。一般來說,很難去獲得一個(gè)最好的語(yǔ)音匹配結(jié)果。所以Lattices就是一個(gè)比較好的格式去存放語(yǔ)音識(shí)別的中間結(jié)果。


本文主要對(duì) http://blog.csdn.net/zouxy09/article/details/7941055 進(jìn)行了簡(jiǎn)單的信息壓縮處理,如果感覺不夠連貫可以參考原文。


總結(jié)

以上是生活随笔為你收集整理的语音识别common1(音素,三音素)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。