日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ASR声学特征

發布時間:2024/3/24 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ASR声学特征 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲學特征類型

聲學特征類型包括:Fbank (FilterBank) 特征、梅爾頻率倒譜系數MFCCs (Mel-Frequency Cepstral Coefficeitns) 特征、PLP特征。目前更為常見的是使用Fbank和MFCCs特征,下表是兩種特征的對比。

特征類型提取流程應用場景常見特征維度
Fbank分幀->傅立葉變換FFT->梅爾濾波組NN模型(NN-HMM/CTC/RNNT/LAS等)40/80
MFCCsFbank->離散余弦變換DCTGMM-HMM模型13

MFCCs是在Fbank的基礎上做了離散余弦變化DCT (Discrete Cosine Transform),DCT的作用是去掉特征維間的相關性,由于NN模型能夠對特征維間的相關性建模,所以在使用NN建模時,一般采用Fbank特征,使用傳統GMM-HMM建模時常采用MFCCs特征。

Fbank特征提取

通過命令compute-fbank-feats提取Fbank特征,compute-mfcc-feats提取MFCCs特征,通過–config傳入配置參數文件

compute-fbank-feats/compute-mfcc-feats --config featrue.conf

其中配置文件featrue.conf文件如下,dither默認值為1,作用是在計算濾波器系數能量時加入隨機擾動,防止能量為0的情況出現,會導致同一條音頻的輸出特征前后不一致。如果需要保持一致,要在配置文件中設置–dither=0。

--use-energy=false --num-mel-bins=40 --num-ceps=40 --low-freq=20 --high-freq=-400 --dither=1

總結

以上是生活随笔為你收集整理的ASR声学特征的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。