日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

林华达视角-概率图模型与计算机视觉

發(fā)布時(shí)間:2025/3/15 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 林华达视角-概率图模型与计算机视觉 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.?概率模型與計(jì)算機(jī)視覺

上世紀(jì)60年代,?Marvin Minsky?在MIT讓他的本科學(xué)生?Gerald Jay Sussman用一個(gè)暑假的時(shí)間完成一個(gè)有趣的Project: “l(fā)ink a camera to a computer and get the computer to describe what it saw”。從那時(shí)開始,特別是David Marr教授于1977年正式提出視覺計(jì)算理論,計(jì)算機(jī)視覺已經(jīng)走過了四十多年的歷史。今天看來,這個(gè)已入不惑之年的學(xué)科,依然顯得如此年輕而朝氣蓬勃。

在它幾十年的發(fā)展歷程中,多種流派的方法都曾各領(lǐng)風(fēng)騷于一時(shí)。最近二十年中,計(jì)算機(jī)視覺發(fā)展最鮮明的特征就是機(jī)器學(xué)習(xí)與概率模型的廣泛應(yīng)用。在這里,我簡(jiǎn)單回顧一下對(duì)這個(gè)領(lǐng)域產(chǎn)生重要影響的幾個(gè)里程碑:

  • 1984年:Stuart Geman和Donald Geman發(fā)表了一篇先驅(qū)性的論文:Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images. 在這篇文章里,兩位Geman先生引入了一系列對(duì)計(jì)算機(jī)視覺以后的發(fā)展具有深遠(yuǎn)影響的概念和方法:Markov Random Field (MRF),??Gibbs Sampling,以及Maximum a Posteriori estimate (MAP estimate)。這篇論文的意義是超前于時(shí)代的,它所建立的這一系列方法直到90年代中后期才開始被廣泛關(guān)注。
  • 1991年:Matthew Turk和Alex Pentland使用Eigenface進(jìn)行人臉分類。從此,以矩陣的代數(shù)分解為基礎(chǔ)的方法在視覺分析中被大量運(yùn)用。其中有代表性的方法包括PCA, LDA,以及ICA。
  • 1995年:Corinna Cortes和Vladimir Vapnik提出帶有soft margin的Support Vector Machine (SVM)以及它的Kernel版本,并用它對(duì)手寫數(shù)字進(jìn)行分類。從此,SVM大受歡迎,并成為各種應(yīng)用中的基準(zhǔn)分類器
  • 1996年:Bruno Olshausen?和David Field?提出使用Overcomplete basis對(duì)圖像進(jìn)行稀疏編碼(Sparse coding)。這個(gè)方向在初期的反響并不熱烈。直到近些年,Compressed Sensing在信號(hào)處理領(lǐng)域成為炙手可熱的方向。Sparse coding 在這一熱潮的帶動(dòng)下,成為視覺領(lǐng)域一個(gè)活躍的研究方向。
  • 90年代末:Graphical Model和Variational Inference逐步發(fā)展成熟。1998年,MIT出版社出版了由Michale Jordan主編的文集:Learning in Graphical Models。 這部書總結(jié)了那一時(shí)期關(guān)于Graphical Model的建模,分析和推斷的主要成果——這些成果為Graphical Model在人工智能的各個(gè)領(lǐng)域的應(yīng)用提供了方法論基礎(chǔ)。進(jìn)入21世紀(jì),Graphical Model和Bayesian方法在視覺研究中的運(yùn)用出現(xiàn)了井噴式的增長(zhǎng)。
  • 2001年:John Lafferty和Andrew McCallum等提出Conditional Random Field (CRF)。CRF為結(jié)構(gòu)化的分類和預(yù)測(cè)提供了一種通用的工具。此后,語義結(jié)構(gòu)開始被運(yùn)用于視覺場(chǎng)景分析。
  • 2003年:David Blei等提出Latent Dirichlet Allocation。2004年:Yee Whye Teh?等提出Hierarchical Dirichlet Process。各種參數(shù)化或者非參數(shù)化的Topic Model在此后不久被廣泛用于語義層面的場(chǎng)景分析。
  • 雖然Yahn Lecun等人在1993年已提出Convolutional Neural Network,但在vision中的應(yīng)用效果一直欠佳。時(shí)至2006年,Geoffrey Hinton等人提出Deep Belief Network進(jìn)行l(wèi)ayer-wise的pretraining,應(yīng)用效果取得突破性進(jìn)展,其與之后Ruslan Salakhutdinov提出的Deep Boltzmann Machine重新點(diǎn)燃了視覺領(lǐng)域?qū)τ贜eural Network和Boltzmann Machine的熱情。

時(shí)間進(jìn)入2013年,Probabilistic Graphical Model早已成為視覺領(lǐng)域中一種基本的建模工具。Probabilistic?Graphical Model的研究涉及非常多的方面。 限于篇幅,在本文中,我只能簡(jiǎn)要介紹其中幾個(gè)重要的方面,希望能為大家提供一些有用的參考。

2.1?Graphical Model的基本類型

基本的Graphical Model 可以大致分為兩個(gè)類別:貝葉斯網(wǎng)絡(luò)(Bayesian Network)和馬爾可夫隨機(jī)場(chǎng)(Markov Random Field)。它們的主要區(qū)別在于采用不同類型的圖來表達(dá)變量之間的關(guān)系:貝葉斯網(wǎng)絡(luò)采用有向無環(huán)圖(Directed Acyclic Graph)來表達(dá)因果關(guān)系,馬爾可夫隨機(jī)場(chǎng)則采用無向圖(Undirected Graph)來表達(dá)變量間的相互作用。這種結(jié)構(gòu)上的區(qū)別導(dǎo)致了它們?cè)诮:屯茢喾矫娴囊幌盗形⒚畹牟町悺R话銇碚f,貝葉斯網(wǎng)絡(luò)中每一個(gè)節(jié)點(diǎn)都對(duì)應(yīng)于一個(gè)先驗(yàn)概率分布或者條件概率分布,因此整體的聯(lián)合分布可以直接分解為所有單個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的分布的乘積。而對(duì)于馬爾可夫場(chǎng),由于變量之間沒有明確的因果關(guān)系,它的聯(lián)合概率分布通常會(huì)表達(dá)為一系列勢(shì)函數(shù)(potential function)的乘積。通常情況下,這些乘積的積分并不等于1,因此,還要對(duì)其進(jìn)行歸一化才能形成一個(gè)有效的概率分布——這一點(diǎn)往往在實(shí)際應(yīng)用中給參數(shù)估計(jì)造成非常大的困難。

值得一提的是,貝葉斯網(wǎng)絡(luò)和馬爾可夫隨機(jī)場(chǎng)的分類主要是為了研究和學(xué)習(xí)的便利。在實(shí)際應(yīng)用中所使用的模型在很多時(shí)候是它們的某種形式的結(jié)合。比如,一個(gè)馬爾可夫隨機(jī)場(chǎng)可以作為整體成為一個(gè)更大的貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn),或者,多個(gè)貝葉斯網(wǎng)絡(luò)可以通過馬爾可夫隨機(jī)場(chǎng)聯(lián)系起來。這種混合型的模型提供了更豐富的表達(dá)結(jié)構(gòu),同時(shí)也給模型的推斷和估計(jì)帶來新挑戰(zhàn)。

2.2?Graphical Model的新發(fā)展方向

在傳統(tǒng)的Graphical Model的應(yīng)用中,模型的設(shè)計(jì)者需要在設(shè)計(jì)階段就固定整個(gè)模型的結(jié)構(gòu),比如它要使用哪些節(jié)點(diǎn),它們相互之間如何關(guān)聯(lián)等等。但是,在實(shí)際問題中,選擇合適的模型結(jié)構(gòu)往往是非常困難的——因?yàn)?#xff0c;我們?cè)诤芏鄷r(shí)候其實(shí)并不清楚數(shù)據(jù)的實(shí)際結(jié)構(gòu)。為了解決這個(gè)問題,人們開始探索一種新的建立概率模型的方式——結(jié)構(gòu)學(xué)習(xí)。在這種方法中,模型的結(jié)構(gòu)在設(shè)計(jì)的階段并不完全固定。設(shè)計(jì)者通常只需要設(shè)定模型結(jié)構(gòu)所需要遵循的約束,然后再從模型學(xué)習(xí)的過程中同時(shí)推斷出模型的實(shí)際結(jié)構(gòu)。

結(jié)構(gòu)學(xué)習(xí)直到今天仍然是機(jī)器學(xué)習(xí)中一個(gè)極具挑戰(zhàn)性的方向。結(jié)構(gòu)學(xué)習(xí)并沒有固定的形式,不同的研究者往往會(huì)采取不同的途徑。比如,結(jié)構(gòu)學(xué)習(xí)中一個(gè)非常重要的問題,就是如何去發(fā)現(xiàn)變量之間的內(nèi)部關(guān)聯(lián)。對(duì)于這個(gè)問題,人們提出了多種截然不同的方法:比如,你可以先建立一個(gè)完全圖連接所有的變量,然后選擇一個(gè)子圖來描述它們的實(shí)際結(jié)構(gòu),又或者,你可以引入潛在節(jié)點(diǎn)(latent node)來建立變量之間的關(guān)聯(lián)。

Probabilistic Graphical Model的另外一個(gè)重要的發(fā)展方向是非參數(shù)化。與傳統(tǒng)的參數(shù)化方法不同,非參數(shù)化方法是一種更為靈活的建模方式——非參數(shù)化模型的大小(比如節(jié)點(diǎn)的數(shù)量)可以隨著數(shù)據(jù)的變化而變化。一個(gè)典型的非參數(shù)化模型就是基于狄利克萊過程(Dirichlet Process)的混合模型。這種模型引入狄利克萊過程作為部件(component)參數(shù)的先驗(yàn)分布,從而允許混合體中可以有任意多個(gè)部件。這從根本上克服了傳統(tǒng)的有限混合模型中的一個(gè)難題,就是確定部件的數(shù)量。在近幾年的文章中,非參數(shù)化模型開始被用于特征學(xué)習(xí)。在這方面,比較有代表性的工作就是基于Hierarchical Beta Process來學(xué)習(xí)不定數(shù)量的特征。

2.3?基于Graphical Model 的統(tǒng)計(jì)推斷 (Inference)

完成模型的設(shè)計(jì)之后,下一步就是通過一定的算法從數(shù)據(jù)中去估計(jì)模型的參數(shù),或推斷我們感興趣的其它未知變量的值。在貝葉斯方法中,模型的參數(shù)也通常被視為變量,它們和普通的變量并沒有根本的區(qū)別。因此,參數(shù)估計(jì)也可以被視為是統(tǒng)計(jì)推斷的一種特例。

除了最簡(jiǎn)單的一些模型,統(tǒng)計(jì)推斷在計(jì)算上是非常困難的。一般而言,確切推斷(exact inference)的復(fù)雜度取決于模型的tree width。對(duì)于很多實(shí)際模型,這個(gè)復(fù)雜度可能隨著問題規(guī)模增長(zhǎng)而指數(shù)增長(zhǎng)。于是,人們退而求其次,轉(zhuǎn)而探索具有多項(xiàng)式復(fù)雜度的近似推斷(approximate inference)方法。

主流的近似推斷方法有三種:

  • 基于平均場(chǎng)逼近(mean field approximation)的variational inference。這種方法通常用于由Exponential family distribution所組成的貝葉斯網(wǎng)絡(luò)。其基本思想就是引入一個(gè)computationally tractable的upper bound逼近原模型的log partition function,從而有效地降低了優(yōu)化的復(fù)雜度。大家所熟悉的EM算法就屬于這類型算法的一種特例。
  • Belief propagation。這種方法最初由Judea Pearl提出用于樹狀結(jié)構(gòu)的統(tǒng)計(jì)推斷。后來人們直接把這種算法用于帶環(huán)的模型(忽略掉它本來對(duì)樹狀結(jié)構(gòu)的要求)——在很多情況下仍然取得不錯(cuò)的實(shí)際效果,這就是loop belief propagation。在進(jìn)一步的探索的過程中,人們發(fā)現(xiàn)了它與Bethe approximation的關(guān)系,并由此逐步建立起了對(duì)loopy belief propagation的理論解釋,以及刻畫出它在各種設(shè)定下的收斂條件。值得一提的是,由于Judea Pearl對(duì)人工智能和因果關(guān)系推斷方法上的根本性貢獻(xiàn),他在2011年獲得了計(jì)算機(jī)科學(xué)領(lǐng)域的最高獎(jiǎng)——圖靈獎(jiǎng)。? ?基于message passing的方法在最近十年有很多新的發(fā)展。Martin Wainwright在2003年提出Tree-reweighted message passing,這種方法采用mixture of trees來逼近任意的graphical model,并利用mixture coefficient和edge probability之間的對(duì)偶關(guān)系建立了一種新的message passing的方法。這種方法是對(duì)belief propagation的推廣。? ??Jason Johnson等人在2005年建立的walk sum analysis為高斯馬爾可夫隨機(jī)場(chǎng)上的belief propagation提供了系統(tǒng)的分析方法。這種方法成功刻畫了belief propagation在高斯場(chǎng)上的收斂條件,也是后來提出的多種改進(jìn)型的belief propagation的理論依據(jù)。Thomas Minka在他PhD期間所建立的expectation propagation也是belief propagation的在一般Graphical Model上的重要推廣。
  • 蒙特卡羅采樣(Monte Carlo sampling)。與基于優(yōu)化的方法不同,蒙特卡羅方法通過對(duì)概率模型的隨機(jī)模擬運(yùn)行來收集樣本,然后通過收集到的樣本來估計(jì)變量的統(tǒng)計(jì)特性(比如,均值)。采樣方法有三個(gè)方面的重要優(yōu)點(diǎn)。第一,它提供了一種有嚴(yán)謹(jǐn)數(shù)學(xué)基礎(chǔ)的方法來逼近概率計(jì)算中經(jīng)常出現(xiàn)的積分(積分計(jì)算的復(fù)雜度隨著空間維度的提高呈幾何增長(zhǎng))。第二,采樣過程最終獲得的是整個(gè)聯(lián)合分布的樣本集,而不僅僅是對(duì)某些參數(shù)或者變量值的最優(yōu)估計(jì)。這個(gè)樣本集近似地提供了對(duì)整個(gè)分布的更全面的刻畫。比如,你可以計(jì)算任意兩個(gè)變量的相關(guān)系數(shù)。第三,它的漸近特性通常可以被嚴(yán)格證明。對(duì)于復(fù)雜的模型,由variational inference或者belief propagation所獲得的解一般并不能保證是對(duì)問題的全局最優(yōu)解。在大部分情況下,甚至無法了解它和最優(yōu)解的距離有多遠(yuǎn)。如果使用采樣,只要時(shí)間足夠長(zhǎng),是可以任意逼近真實(shí)的分布的。而且采樣過程的復(fù)雜度往往較為容易獲得理論上的保證。? 蒙特卡羅方法本身也是現(xiàn)代統(tǒng)計(jì)學(xué)中一個(gè)非常重要的分支。對(duì)它的研究在過去幾十年來一直非常活躍。在機(jī)器學(xué)習(xí)領(lǐng)域中,常見的采樣方法包括Gibbs Sampling, Metropolis-Hasting Sampling (M-H),??Importance Sampling, Slice Sampling, 以及Hamiltonian Monte Carlo。其中,Gibbs Sampling由于可以納入M-H方法中解釋而通常被視為M-H的特例——雖然它們最初的motivation是不一樣的。
  • Graphical Model以及與它相關(guān)的probabilistic inference是一個(gè)非常博大的領(lǐng)域,遠(yuǎn)非本文所能涵蓋。在這篇文章中,我只能蜻蜓點(diǎn)水般地介紹了其中一些我較為熟悉的方面,希望能給在這方面有興趣的朋友一點(diǎn)參考。

    2. 討論內(nèi)容

    「SIGVC BBS」:最近深度學(xué)習(xí)受到機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域中研究人員的高度重視。然而,感覺有關(guān)深度學(xué)習(xí)一些理論并不是太完善。在計(jì)算機(jī)視覺領(lǐng)域,人們開始熱衷于將其作為工具來使用。相對(duì)來講,概率圖模型已經(jīng)有其完善的理論體系了。那么我們是不是也可以完全用概率圖模型這套理論來解釋深度信念網(wǎng)絡(luò)和深度Boltzman機(jī)?

    林達(dá)華老師:從數(shù)學(xué)形式上說,Deep Network和Boltzmann machine可以看成是Graphical Model的特例。但是,目前在Graphical Model體系中所建立的方法,主要適用于分析結(jié)構(gòu)較為簡(jiǎn)單的模型。而對(duì)于有多層latent layer的模型,現(xiàn)有的數(shù)學(xué)工具尚不能提供非常有效的分析。在NIPS 2012會(huì)議期間,我和Ruslan進(jìn)行了交流。他們目前的主要工作方向還是進(jìn)一步改善算法的性能(尤其是在大規(guī)模問題上的性能),以及推廣這類模型的應(yīng)用,尚未涉及深入的理論分析。

    「SIGVC BBS」:基于Dirichlet過程的混合模型解決了確定組件數(shù)量的問題,這里面是否引入了其它的問題呢(比方說其它參數(shù)的確定)?除了不需要確定組件數(shù)量這一點(diǎn)之外,非參數(shù)化的模型還有其它哪些優(yōu)勢(shì)?

    林達(dá)華老師:非參數(shù)化模型確實(shí)引入了其它參數(shù),比如concentration parameter。但是,這個(gè)參數(shù)和component的個(gè)數(shù)在實(shí)用中是有著不同的影響的。concentration parameter主要傳達(dá)的是使用者希望形成的聚類粒度。舉個(gè)簡(jiǎn)單的例子,比如一組數(shù)據(jù)存在3個(gè)大類,每個(gè)大類中有3個(gè)相對(duì)靠近的子類。這種情況下,聚成3類或者9類都是合理的解。如果concentration parameter設(shè)得比較大,最后的結(jié)果可能形成9類,如果設(shè)得比較小,則可能形成3類。但是,如果人為地固定類數(shù),則很可能導(dǎo)致不合理的結(jié)果。

    需要強(qiáng)調(diào)的是非參數(shù)化貝葉斯方法是一個(gè)非常博大的方向,目前的研究只是處于起步階段。而Dirichlet Process mixture model只是非參數(shù)方法的一個(gè)具體應(yīng)用。事實(shí)上,DP像Gauss distribution一樣,都是一種有著良好數(shù)學(xué)性質(zhì)的過程(分布),但是它們?cè)趯?shí)用中都過于理想化了。目前的一個(gè)新的研究方向就是建立更為貼近實(shí)際的非參數(shù)化過程。相比于傳統(tǒng)參數(shù)化方法而言,非參數(shù)化方法的主要優(yōu)勢(shì)是允許模型的結(jié)構(gòu)在學(xué)習(xí)的過程中動(dòng)態(tài)變化(而不僅僅是組件的數(shù)量),這種靈活性對(duì)于描述處于不斷變化中的數(shù)據(jù)非常重要。當(dāng)然,如何在更復(fù)雜的模型中應(yīng)用非參數(shù)化方法是一個(gè)比較新的課題,有很多值得進(jìn)一步探索的地方。
    「SIGVC BBS」:文中后面提到的結(jié)構(gòu)學(xué)習(xí)是不是這兩年比較火的Structured Output Prediction呢?他們的關(guān)系如何?Structured Percepton和Structured SVM應(yīng)該就是屬于這個(gè)大類嗎?結(jié)構(gòu)學(xué)習(xí)的輸出是樹結(jié)構(gòu)和圖結(jié)構(gòu)嗎?結(jié)構(gòu)學(xué)習(xí)與圖像的層次分割或者層次聚類有關(guān)系嗎?

    林達(dá)華老師:Structured Prediction (e.g. Structured SVM) 其實(shí)屬于利用結(jié)構(gòu),而不是我在文中所指結(jié)構(gòu)學(xué)習(xí)。在大部分Structured Prediction的應(yīng)用中,結(jié)構(gòu)是預(yù)先固定的(比如哪些變量要用potential聯(lián)系在一起),學(xué)習(xí)的過程其實(shí)只是優(yōu)化待定的參數(shù)。盡管如此,這些工作本身是非常有價(jià)值的,在很多問題中都取得了不錯(cuò)的效果。

    我在文中所提到的結(jié)構(gòu)學(xué)習(xí)是指連結(jié)構(gòu)本身都是不固定的,需要從數(shù)據(jù)中去學(xué)習(xí)。一般情況下,學(xué)習(xí)輸出的是圖或者樹的結(jié)構(gòu)(以及相關(guān)參數(shù))。這個(gè)topic其實(shí)歷史很長(zhǎng)了,早期的代表性工作就是chow-liu tree。這是一種利用信息量計(jì)算尋找最優(yōu)樹結(jié)構(gòu)來描述數(shù)據(jù)的算法。Alan Willsky的小組近幾年在這個(gè)方向取得了很多進(jìn)展。但是,總體而言這個(gè)方向仍舊非常困難,大部分工作屬于探索性的,并不特別成熟。目前在Vision中的應(yīng)用不是特別廣泛。但是,我相信,隨著一些方法逐步成熟,進(jìn)入實(shí)用階段,它的應(yīng)用前景是非常不錯(cuò)的。

    「SIGVC BBS」:文中提到了Convolutional Deep Network、Deep Belief Network、Deep Boltzmann Machine等近年炙手可熱的神經(jīng)網(wǎng)絡(luò)方法。那么,神經(jīng)網(wǎng)絡(luò)和概率圖模型是不是本質(zhì)上完全是一回事,只是觀察角度和歷史發(fā)展不同?感覺它們很多地方都很相似。深度學(xué)習(xí)里RBM學(xué)習(xí)的訓(xùn)練算法與概率圖模型的學(xué)習(xí)推理算法有什么聯(lián)系和區(qū)別嗎?他們的結(jié)構(gòu)模型有什么聯(lián)系和區(qū)別嗎?

    林達(dá)華老師:這兩類模型所使用的數(shù)學(xué)方法是非常不同的。Graphical model的很多推斷和學(xué)習(xí)方法都有很深的數(shù)學(xué)根基。通過近十幾年的努力,大家已經(jīng)逐步建立起整套的方法論體系對(duì)相關(guān)算法進(jìn)行分析。Deep Learning目前并沒有什么有效的分析方法。Deep learning取得很好的性能,其中很多技巧性的方法(trick)起到了重要作用。至于為什么這些trick能導(dǎo)致更好的性能,目前還未能有一個(gè)很好的解釋。

    我個(gè)人看來,這些技巧其實(shí)是很有價(jià)值的:一方面,它們確實(shí)在實(shí)踐中提高了性能;另外一方面,它們?yōu)槔碚撋系奶剿魈岢隽藛栴}。但是,我覺得,有效回答這些問題需要新的數(shù)學(xué)工具(新的數(shù)學(xué)分析方法),這看來不是近期內(nèi)能做到的。

    「SIGVC BBS」:在一些論文中看到,采樣的方法(如Gibbs采樣)也有其缺點(diǎn),一個(gè)是計(jì)算量比較大(computationally intensive),另一個(gè)是收斂檢測(cè)比較難。不知道這些說法是否有道理,或者目前這些問題是否有得到解決?

    林達(dá)華老師:這里提到的兩個(gè)問題確實(shí)是Sampling的兩個(gè)主要的困難。對(duì)于這些問題,過去幾十年取得了很多進(jìn)展,提出了很多新的采樣方法,但是困難仍然很大。但是,采樣能提供整個(gè)分布的信息,而且有漸近(asymptotic)的理論保證。這在很多情況下是一般的optimization方法做不到的。最近有新的研究嘗試結(jié)合Sampling和Optimization,在特定問題上有一些有趣的結(jié)果——比如,George Papandreou的Perturb-and-MAP.

    「SIGVC BBS」:在計(jì)算機(jī)視覺中,視覺目標(biāo)跟蹤問題已經(jīng)用到了動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)方法。一些最近發(fā)表的自然圖像分割方法也用到LDA(Latent Dirichlet Allocation)。在受限的理想數(shù)據(jù)條件下,這些方法都取得了較好的結(jié)果。但是,不得不承認(rèn),我們?cè)谘芯亢蛻?yīng)用的過程中,在心理上首先對(duì)應(yīng)用概率圖模型有所畏懼(這里除我們已經(jīng)用得較多較熟悉的MRF、CRF和Dynamic Bayesian network based visual tracking—condensation之外)。主要的解釋可能有:一方面,它不象很多正則化方法那樣其細(xì)節(jié)能被自我掌握、觀測(cè)和控制;另一方面,對(duì)于一個(gè)新的問題,我們需要不停地問自己:什么樣的設(shè)計(jì)(圖)是最好的。從而,在很多情況下,我們更愿意選擇使用那些正則化方法。比如,對(duì)小規(guī)模人臉識(shí)別,我們會(huì)選擇PCA+LAD(SVM),對(duì)大一點(diǎn)的規(guī)模我們會(huì)考慮“特征選擇+adaboost”框架。就計(jì)算機(jī)視覺,能否從實(shí)踐的角度給我們一點(diǎn)關(guān)于使用概率圖模型的建議。另外,在計(jì)算機(jī)視覺中,什么樣的問題更適合于采用概率圖模型方法來解決。

    林達(dá)華老師:首先,Graphical model和其它的方法一樣,只是一種數(shù)學(xué)工具。對(duì)于解決問題而言,最重要的是選擇合適的工具,而不一定要選看上去高深的方法。對(duì)于普通的分類問題,傳統(tǒng)的SVM, Boost仍不失為最有效的方法。
    Graphical model通常應(yīng)用在問題本身帶有多個(gè)相互聯(lián)系的變量的時(shí)候。這個(gè)時(shí)候Graphical model提供了一種表達(dá)方式讓你去表達(dá)這些聯(lián)系。我覺得并不必要去尋求最優(yōu)的設(shè)計(jì)圖,事實(shí)上,沒有人知道什么樣的圖才是最優(yōu)的。實(shí)踐中,我們通常是根據(jù)問題本身建立一個(gè)能比較自然地表達(dá)問題結(jié)構(gòu)的圖,然后通過實(shí)驗(yàn)了驗(yàn)證這個(gè)圖是不是合適的。如果不合適,可以根據(jù)結(jié)果分析原因?qū)D做出修正。
    舉個(gè)具體的例子,比如對(duì)一個(gè)比賽視頻進(jìn)行分析。那么可能涉及多個(gè)變量:攝像機(jī)的角度,背景,運(yùn)動(dòng)員的動(dòng)作等等。那么這個(gè)問題可能就設(shè)計(jì)多個(gè)未知變量的推斷,這些變量間可能存在各種聯(lián)系。這個(gè)時(shí)候,Graphical model可能就是一種合適的選擇。
    值得注意的是,選擇合適的圖有時(shí)候也需要一些經(jīng)驗(yàn)。比如分布的選擇上要注意形成conjugate,這樣往往容易得到簡(jiǎn)易的推斷公式。了解各種分布的特性以及它們可能對(duì)最后結(jié)果的影響也是有幫助的。

    3. 參考資料

    • http://www.sigvc.org/bbs/thread-728-1-1.html

    總結(jié)

    以上是生活随笔為你收集整理的林华达视角-概率图模型与计算机视觉的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。