kl散度度量分布_概率图简要模型笔记(二)马尔可夫随机场与KL散度、最大熵、指数族分布、高斯分布、极大似然分布...
這一篇文章主要是想捋一捋KL散度、最大熵、指數(shù)族分布這些東西之間的關(guān)系,這是一些非常基本的知識(shí)點(diǎn),剛?cè)腴T機(jī)器學(xué)習(xí)的時(shí)候,傻傻分不清楚,現(xiàn)在回過頭來看,其實(shí)很多東西都可以串起來,不得不感嘆數(shù)學(xué)真是一個(gè)很奇妙的東西。參考資料還是昨天發(fā)的視頻鏈接以及結(jié)合我研一上的姜峰老師的計(jì)算機(jī)視覺這門課。
馬爾可夫隨機(jī)場(chǎng)
馬爾隨機(jī)場(chǎng)就是無向圖模型,對(duì)于無向圖而言,它比有向圖簡(jiǎn)單。直觀上來說它應(yīng)該比有向圖更簡(jiǎn)單,而且它應(yīng)該也和有向圖具有相似的性質(zhì),尤其是條件獨(dú)立性和因子分解應(yīng)該是相互等價(jià)的。馬爾可夫隨機(jī)場(chǎng)的獨(dú)立性一共有三個(gè),分別是:全局獨(dú)立性、局部獨(dú)立性以及成對(duì)馬爾科夫性,三個(gè)性質(zhì)是可以相互推導(dǎo)的。
1.條件獨(dú)立性:
1).全局馬爾可夫性(對(duì)應(yīng)D劃分)
集合ABC互不相交,若集合A到集合C的所有路徑中至少有一個(gè)節(jié)點(diǎn)位于B集合中(也就是A集合要想到達(dá)C集合必須經(jīng)過B集合),當(dāng)B集合被觀測(cè)到,則集合A和集合C獨(dú)立,這個(gè)性質(zhì)對(duì)應(yīng)著有向圖中的D劃分。
2)局部馬爾科夫性(對(duì)應(yīng)馬爾可夫毯)
在給定相鄰節(jié)點(diǎn)(b,c,d)的前提下,a節(jié)點(diǎn)與其他節(jié)點(diǎn)(e, f)相互獨(dú)立。
3)成對(duì)馬爾科夫性(與最大團(tuán)的性質(zhì)有關(guān))
節(jié)點(diǎn)a與節(jié)點(diǎn)b是兩個(gè)不相鄰的節(jié)點(diǎn),在除了a節(jié)點(diǎn)與b節(jié)點(diǎn)以外的節(jié)點(diǎn)都被觀測(cè)到的情況下,a節(jié)點(diǎn)與b節(jié)點(diǎn)相互獨(dú)立。
2.因子分解
團(tuán):一個(gè)關(guān)于節(jié)點(diǎn)的集合,集合中的節(jié)點(diǎn)都是相互連接的。
最大團(tuán):在一個(gè)團(tuán)中添加任何一個(gè)節(jié)點(diǎn)都會(huì)破壞團(tuán)的性質(zhì),這樣的集合稱為最大團(tuán)。
將馬爾可夫隨機(jī)場(chǎng)分解為多個(gè)團(tuán)之后,就可以寫出整個(gè)隨機(jī)變量的概率:
表示第i個(gè)最大團(tuán), 表示團(tuán) 中的變量集合。其中Z是歸一化函數(shù)。 因?yàn)槭歉怕?#xff0c;所以要求為非負(fù),對(duì)于非負(fù)的一般就取指數(shù)函數(shù),這個(gè)也被稱為吉布斯分布(也叫玻爾茲曼分布)。吉布斯分布是指數(shù)型函數(shù),可以寫作:Hammersley-Clifford定理將馬爾可夫隨機(jī)場(chǎng)的條件獨(dú)立性與因子分解兩者聯(lián)合起來了,并證明了兩者是等價(jià)的。
從吉布斯自由能到馬爾可夫隨機(jī)場(chǎng):
馬爾可夫隨機(jī)場(chǎng)的定義(局部馬爾可夫性):
能否利用因子分解得到馬爾可夫隨機(jī)場(chǎng)的證明,如果可以,那么就證明可以從因子分解得到馬爾科夫隨機(jī)場(chǎng)。
在觀測(cè)到
節(jié)點(diǎn)的相鄰節(jié)點(diǎn)的條件下,它與其他節(jié)點(diǎn)是否相互獨(dú)立,我們這里設(shè)定 節(jié)點(diǎn)與其相鄰節(jié)點(diǎn)的集合為 ,其他節(jié)點(diǎn)的集合為這里最后一步將其轉(zhuǎn)換為在整個(gè)變量上的積分,將
集合中的變量全部邊緣化掉就剩下 的概率。這是參考資料[1]給出的,其實(shí)觀察會(huì)發(fā)現(xiàn),引入R這一步的主要作用好像是在最后變?yōu)槿肿兞康臅r(shí)候有用,因此可以寫的更簡(jiǎn)潔一點(diǎn):
后面從吉布斯分布到馬爾可夫隨機(jī)場(chǎng)的屬性推導(dǎo)就確實(shí)太難了,可以查看一下參考資料[1]。
KL散度、最大熵、指數(shù)族函數(shù)、高斯分布、吉布斯分布之間的關(guān)系
這里還有一個(gè)彩蛋,直覺告訴我們:吉布斯既然表示的是一種能量,能量和熵之間很明顯應(yīng)該是存在某種聯(lián)系的,數(shù)學(xué)的美妙就美妙在這里,如果有系統(tǒng)的學(xué)習(xí)過概率統(tǒng)計(jì)的同學(xué)應(yīng)該知道,最大熵可以推出指數(shù)族分布,在滿足熵最大的條件下,我們推導(dǎo)出的變量分布都是滿足指數(shù)族分布的,也包括高斯分布,高斯分布就是滿足一階和二階充分統(tǒng)計(jì)量的指數(shù)族分布。
變量的吉布斯分布:
這個(gè)形式就是指數(shù)族分布的形式。接下來推導(dǎo)一下基于熵最大如何得到指數(shù)族分布。說到最大熵原理就得提一下計(jì)算機(jī)視覺得四種先驗(yàn),對(duì)于計(jì)算機(jī)視覺建模而言,目前主要是存在四種先驗(yàn)規(guī)則:1.光滑先驗(yàn),2.統(tǒng)計(jì)規(guī)律先驗(yàn),3.編碼稀疏性先驗(yàn),4.非局部自相似先驗(yàn)。最大熵其實(shí)就是統(tǒng)計(jì)規(guī)律先驗(yàn)。KL散度與最大熵之間是否有聯(lián)系?其實(shí)是有聯(lián)系的。就把很多思路串聯(lián)起來了。首先KL散度與熵最大有關(guān),最大熵可以得到指數(shù)族分布,吉布斯分布是指數(shù)族分布的一種,吉布斯分布用來描述馬爾科夫隨機(jī)場(chǎng)。
從KL散度與熵最大:
寫出KL散度:
最小化KL散度:
給定一個(gè)模型的熵:
在給定約束條件(給統(tǒng)計(jì)量)下:
根據(jù)拉格朗日乘子法就等價(jià)于:
如果把最后的約束看作是KL散度中的
兩者就是等價(jià)的,那么能不能這樣認(rèn)為:我個(gè)人覺得是可以的,因?yàn)榍懊孢@一部分代表用q去近似p,也就是說根據(jù)已知統(tǒng)計(jì)量去近似未知統(tǒng)計(jì)量,那么對(duì)于在熵的模型中,它就是等價(jià)于給定在給定統(tǒng)計(jì)量的前提下,使得熵最大的模型。從熵最大模型推導(dǎo)出指數(shù)族函數(shù):
直接對(duì)
求導(dǎo):令倒數(shù)為0,得到:
這樣就可以得到指數(shù)族分布:
由于
表示概率,因此需要?dú)w一化處理,最終得到:這就是指數(shù)族函數(shù),指數(shù)族分布是機(jī)器學(xué)習(xí)當(dāng)中一類非常重要的函數(shù),它與很多內(nèi)容都息息相關(guān),也是自然界中廣泛存在的一類概率分布。這樣整個(gè)東西都串起來了,這是不是就與吉布斯分布類似。
從KL散度到極大似然估計(jì):
這個(gè)表達(dá)式有兩項(xiàng),第一項(xiàng)是常量,因?yàn)樗磉_(dá)的是真實(shí)分布,所以式子可以等價(jià)為:
將積分換為累加:
這里令
這就得到了極大似然估計(jì):
參考資料:
[1]Hammersley-Clifford定理 https://blog.csdn.net/csuyzt/article/details/81709439
總結(jié)
以上是生活随笔為你收集整理的kl散度度量分布_概率图简要模型笔记(二)马尔可夫随机场与KL散度、最大熵、指数族分布、高斯分布、极大似然分布...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.1线性表的类型定义
- 下一篇: golang python扩展_Pyth