日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Chapter 7:Statistical-Model-Based Methods

發(fā)布時(shí)間:2023/12/15 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Chapter 7:Statistical-Model-Based Methods 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:桂。

時(shí)間:2017-05-25 ?10:14:21

主要是《Speech enhancement: theory and practice》的讀書筆記,全部?jī)?nèi)容可以點(diǎn)擊這里。

書中代碼:http://pan.baidu.com/s/1hsj4Wlu,提取密碼:9dmi


前言

  最近學(xué)習(xí)有一點(diǎn)體會(huì),每一個(gè)學(xué)科的理論模型都提供了解決問題的思路,一個(gè)沒有受過教育又迷信權(quán)威的頭腦,難以從抽象的角度去認(rèn)識(shí)、理解問題,自然科學(xué)傳遞了這樣一套思維。例如之前的譜減法,就是具體問題具體分析;維納濾波,表達(dá)了復(fù)盤、以及反饋總結(jié)的重要性;這一章的統(tǒng)計(jì)模型,表達(dá)了對(duì)于不善于長(zhǎng)期記憶的人類,借助歷史信息可以獲得更多的益處。總結(jié)一下,這些模型都表明:認(rèn)識(shí)問題要經(jīng)過感性-理性-感性的往復(fù)過程,很難有一勞永逸的方法,這也提醒思考的時(shí)候要小心、并保持客觀(因?yàn)榭傆行聠栴}),避免陷入剛愎自用的誤區(qū),同時(shí)也不必灰心喪氣,從Ada-boost的角度來看,任何弱分類器都可以組合成強(qiáng)分類器,自己/他人的經(jīng)歷、經(jīng)驗(yàn)增加(無論真假,只要努力推理出真與假的傾向),一個(gè)基本事實(shí)是:合理利用這些信息,總會(huì)讓人更接近事實(shí)真相。具體來說,對(duì)于語音降噪,都有:意識(shí)到問題——拆解并解決問題 的步驟,這也說明了一個(gè)現(xiàn)象:學(xué)習(xí)、記憶、認(rèn)知,這些 靠眼耳鼻舌身意 直觀接受的過程,如果二次加工,那么效果將會(huì)進(jìn)一步提升。

  這一章主要是利用統(tǒng)計(jì)模型,細(xì)節(jié)處打算跳過,主要是三種模型:最大似然估計(jì)ML、最小均方誤差估計(jì)MMSE、最大后驗(yàn)估計(jì)MAP。

一、最大似然估計(jì):MAXIMUM-LIKELIHOOD ESTIMATORS

  A-最大似然估計(jì)

加性噪聲模型

寫成幅頻形式

為了求解,給出兩點(diǎn)假設(shè):1)雖然未知,但是確定信號(hào),而不是隨機(jī)信號(hào);2)噪聲是復(fù)高斯分布,且實(shí)部、虛部的方差相同;

這個(gè)求解比較復(fù)雜,且仍然可以用帶噪聲的相位近似,這樣一來就是無關(guān)緊要的了,可以對(duì)上面的式子進(jìn)一步處理:

這里是未知的,這里強(qiáng)行用了另一個(gè)約束:在沒有先驗(yàn)的情況下,均勻分布信息量最大,也就是不確定性最大,這也符合沒有先驗(yàn)之一預(yù)期,從而

上式簡(jiǎn)化為

這里積分部分滿足Bessel的定義

零階Bessel可近似:

?近似的結(jié)果

利用Bessel近似表達(dá)似然函數(shù)

導(dǎo)數(shù)為零求解出幅度譜估計(jì)

恢復(fù)降噪的信號(hào)

從這一結(jié)果也可以看出X = 1/2Y + 1/2HY,總是有部分保留,ML衰減是較小的,也正因?yàn)槿绱?#xff0c;ML估計(jì)器基本不單獨(dú)使用,需要配合其他模型使用:如利用語音不存在概率

  B-功率譜減

與ML估計(jì)器不同,這里不再假定是確定信號(hào),而是隨機(jī)信號(hào)。?

既然是隨機(jī)信號(hào),就有統(tǒng)計(jì)信息。因此給出假設(shè):噪聲、語音信號(hào)的DFT不相關(guān),且都服從零均值的高斯分布。從而得出Y概率密度

容易估計(jì)幅度譜

得到恢復(fù)的音頻

這就是功率譜減,即(γ為后驗(yàn)信噪比)

  C-維納濾波

對(duì)于維納濾波器

變換一下形式

濾波器是功率譜減的級(jí)聯(lián),因此衰減最大。

總計(jì)一下:按衰減程度由大到小,關(guān)系依次是:維納濾波>功率譜減>最大似然估計(jì)

二、貝葉斯估計(jì)?BAYESIAN ESTIMATORS

?  A-MMSE幅值估計(jì)器

基于短時(shí)頻譜幅值的方法有個(gè)專業(yè)術(shù)語:,最優(yōu)幅度譜估計(jì):

根據(jù)聯(lián)合密度

得到最優(yōu)估計(jì)器

看著感覺跟Wiener濾波器一回事,其實(shí)是有區(qū)別的:1)Wiener中,X = HY,假設(shè)有線性關(guān)系,這里沒有線性這一約束,也就是說這里的估計(jì)器可以是非線性的; 2)維納的MMSE是復(fù)頻譜最優(yōu),而此處的MMSE是幅度譜最優(yōu)

同樣是為了簡(jiǎn)化,引入約束1:各個(gè)頻點(diǎn)的DFT系數(shù)相互獨(dú)立:

這樣一來求解問題簡(jiǎn)化為:

由于復(fù)信號(hào)Y是關(guān)于Xk和theta的函數(shù),難以直接求取,只要利用聯(lián)合分布積分處理即可,也就是

?這樣一來求解紅框里的兩個(gè)方程就可以得出理論解。這里引入約束2:Y是兩個(gè)零均值的復(fù)高斯隨機(jī)變量之和

?則

這里用到復(fù)高斯概率密度的性質(zhì):

如果:且則

?且兩高斯分布:其模值為瑞利分布,相位為均勻分布,且二者獨(dú)立,證明可以參考這里。從而

事實(shí)上,至此完成了問題的求解,得到Xk的估計(jì)。但牛人們非要給一個(gè)更簡(jiǎn)潔的表達(dá)式,這里直接給出結(jié)果:?

具體參數(shù)的定義,直接引用原文:

理論模型搭建完成,甚至得出了更簡(jiǎn)潔的形式,距離應(yīng)用只差一步——參數(shù)的近似估計(jì)。文中的基本方法有兩個(gè):

1-Maximum-Likelihood Method

利用多幀信號(hào):,求解似然方程

容易得出估計(jì)(因?yàn)槭欠橇?#xff0c;所以max(估值,0)修正一下)

從而有

2-Decision-Directed Approach

根據(jù)定義

進(jìn)一步寫成

一個(gè)常規(guī)的思路是分兩邊看,借助遞歸思想,因?yàn)?#xff1a;

得出遞歸的更新公式

至此,完成了MMSE從理論到應(yīng)用的整個(gè)過程。

  B-MMSE復(fù)數(shù)估計(jì)器

上面是幅值估計(jì),相位用的是帶噪信號(hào)的相位,可不可以直接對(duì)復(fù)信號(hào)利用MMSE進(jìn)行估計(jì)呢?

求解問題轉(zhuǎn)化為:分別利用MMSE求解幅值、相位的最優(yōu)解,幅值已解決,直接分析相位

可以得出,所以帶噪信號(hào)的相位是干凈信號(hào)相位在MMSE下的最優(yōu)解。

  C-對(duì)數(shù)MMSE估計(jì)器

求解思路與幅值的MMSE完全相同,不同的是利用對(duì)數(shù)的差異性

首先帶來一個(gè)問題:為什么要用Log-MMSE?個(gè)人理解是logx - logy = logx/y,min|x/y|等價(jià)于min(x-y)2 s.t. y2 = c,c為常數(shù)。log相比于直接MMSE,保證干凈信號(hào)幅值不變(不失真)的前提下,誤差最小化,有點(diǎn)類似維納濾波與LCMV之間的關(guān)系。理論上直接求解估值

無法直接求解,利用矩量簡(jiǎn)化求解

其中

跟MMSE求解一個(gè)思路,至此完成求解。但牛人們也希望簡(jiǎn)化

從而實(shí)現(xiàn)簡(jiǎn)化求解

vk, λk跟上面的定義一樣,進(jìn)一步簡(jiǎn)化

參數(shù)估計(jì)與MMSE中的思路完全一致,至此完成了求解以及實(shí)際應(yīng)用的實(shí)現(xiàn),其中積分部分也可以利用級(jí)數(shù)展開來簡(jiǎn)化

Log-MMSE比MMSE抑制性更好

  D-pTH-POWER SPECTRUM-P階求解

先說結(jié)論:p階是更廣義的形式,Linear MMSE是它的特例,Log-MMSE也可以用p階來實(shí)現(xiàn)逼近

下面理論分析一下,給出準(zhǔn)則函數(shù)

得出最優(yōu)估計(jì)

都是一樣的套路:不能直接求解,轉(zhuǎn)化問題

大牛們求解的結(jié)果

具體參數(shù)求解同MMSE中的方法。

  E-非高斯分布MMSE估計(jì)器

上面的DFT系數(shù)分布,都假設(shè)為高斯分布,實(shí)際情況是分布可能更接近其他分布(按頻點(diǎn)統(tǒng)計(jì)):如拉普拉斯、伽馬分布等等,這就需要考慮其他概率模型

一個(gè)合理的約束:DFT系數(shù)實(shí)部、虛部統(tǒng)計(jì)獨(dú)立。這樣互不相干,可以分別得出MMSE估計(jì)器,再進(jìn)行拼接:

其他思路都是一樣的,就是最后解方程一般人解不動(dòng)...說一下思路:

根據(jù)貝葉斯定理

同樣只要估計(jì)出P(Y|X)和P(Y)就完成求解

從而得出估計(jì)器,完成求解

大牛總是可以簡(jiǎn)化問題的,雖然這次的簡(jiǎn)化好像也不漂亮:

其中

以上是基于Gamma分布的推導(dǎo),這里只是提供了一個(gè)籠統(tǒng)的思維框架。放在具體問題,需要:統(tǒng)計(jì)實(shí)驗(yàn)數(shù)據(jù),并估計(jì)概率模型→基于合理的概率模型,得到用來增強(qiáng)的估計(jì)器

?

三、最大后驗(yàn)估計(jì) MAXIMUM a POStErIOrI (MAP) ESTIMATORS?

  A-幅值、相位估計(jì)器

準(zhǔn)則函數(shù)

利用貝葉斯準(zhǔn)則

分母不影響參數(shù)的估計(jì),忽略

約束來了:1)DFT系數(shù)實(shí)部、虛部都是高斯分布;2)二者統(tǒng)計(jì)獨(dú)立,從而有

這樣一來,求解就容易了

偏導(dǎo)為零,得出估計(jì)器

實(shí)際應(yīng)用中具體參數(shù)的估計(jì),與上面的思路都是一致的。

  B-幅值估計(jì)器

只估計(jì)幅值:

貝葉斯準(zhǔn)則

忽略分母

利用

并借助A中的兩個(gè)表達(dá)式,得出估計(jì)

其中

與ML準(zhǔn)則估計(jì)器中的思路一樣,對(duì)Bessel近似處理

得出

?

從而得出估計(jì)器

  C-調(diào)參的建議

這一節(jié)是看到這里想到的,注意觀察A、B兩個(gè)估計(jì)器

自己突發(fā)奇想,估計(jì)最多就水個(gè)水論文用得上,放在這里-感興趣拿走。所以一個(gè)自然的思路是將他們推而廣之:

α是可以調(diào)節(jié)的參數(shù)。

ML、MMSE、MAP三種估計(jì)器

1)其實(shí)ML可以理解成均勻分布的貝葉斯,這個(gè)時(shí)候的先驗(yàn)知識(shí)為零,通常貝葉斯假設(shè)高斯、拉普拉斯等分布(如幅值),這就引入了先驗(yàn)知識(shí),如果這個(gè)先驗(yàn)知識(shí)有效,理論上效果應(yīng)該比ML更好;這就像回歸中的應(yīng)用:無約束=均勻分布→最小二乘,高斯分布→Ridge回歸,拉普拉斯分布→Lasso回歸。

2)MMSE是基于統(tǒng)計(jì)平均的貝葉斯估計(jì),注意它與Wiener是有區(qū)別的,雖然都基于均方誤差最小準(zhǔn)則;

3)MMSE找的是的均值,即,而MAP準(zhǔn)則找的是的最大值。

?

四、利用不存在概率 ?INCORPORATING SPEECH ABSENCE PROBABILITY IN SPEECH ENHANCEMENT

其實(shí)就是信息融合,也就是Boosting的思想:兩個(gè)弱分類器,組合一個(gè)強(qiáng)分類器,兩個(gè)弱增強(qiáng)器,組合一個(gè)強(qiáng)增強(qiáng)器。不多說了,不過書中將這點(diǎn)應(yīng)用的還不夠深入

組合

關(guān)于此部分的更多內(nèi)容參考這里。

總結(jié)

以上是生活随笔為你收集整理的Chapter 7:Statistical-Model-Based Methods的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。