當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

發布時間：2023/12/31 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

使用隨機梯度哈密頓量蒙特卡羅推理深度高斯過程

0.摘要

深度高斯過程 (DGP) 是高斯過程的層次概括，它將經過良好校準的不確定性估計與多層模型的高度靈活性相結合。這些模型的最大挑戰之一是精確推斷是難以處理的。當前最先進的推理方法變分推理 (VI) 對后驗分布采用高斯近似。這可能是一般多峰后驗的潛在較差的單峰近似。在這項工作中，我們為后驗的非高斯性質提供了證據，并且我們應用隨機梯度哈密頓蒙特卡羅方法來生成樣本。為了有效地優化超參數，我們引入了移動窗口 MCEM 算法。與 VI 對應物相比，這會以更低的計算成本產生明顯更好的預測。因此，我們的方法為 DGP 中的推理建立了新的最新技術。

1.介紹

深度高斯過程 (DGP) [Damianou and Lawrence, 2013] 是高度靈活的多層預測模型，可以準確地模擬不確定性。特別是，它們已被證明在從小型（500 個數據點）到大型數據集（500,000 個數據點）的眾多監督回歸任務中表現良好 [Salimbeni 和 Deisenroth，2017，Bui 等，2016，Cutajar 等 ., 2016]。與神經網絡相比，它們的主要優勢在于它們能夠捕捉預測中的不確定性。 這使它們成為預測不確定性起關鍵作用的任務的理想候選者，例如黑盒貝葉斯優化問題和各種安全關鍵應用，如自動駕駛汽車和醫療診斷。

深度高斯過程為高斯過程 (GP) [Williams and Rasmussen, 1996] 引入了多層層次結構。 GP 是一種非參數模型，它假設任何有限輸入集的聯合高斯分布。任何一對輸入的協方差由協方差函數確定。由于非參數和可分析計算，GPs 可能是一個穩健的選擇，但是，一個問題是選擇協方差函數通常需要手動調整和數據集的專家知識，如果沒有手頭問題的先驗知識，這是不可能的。在多層層次結構中，隱藏層通過拉伸和扭曲輸入空間來克服這一限制，從而產生貝葉斯“自調整”協方差函數，無需任何人工輸入即可擬合數據 [Damianou, 2015]。

GP 的深度層次化泛化是以完全連接的前饋方式完成的。前一層的輸出用作下一層的輸入。然而，與神經網絡的一個顯著區別是層輸出是概率而不是精確值，因此不確定性通過網絡傳播。圖 1 的左側部分說明了具有單個隱藏層的概念。隱藏層的輸入是輸入數據 x，隱藏層 f1 的輸出作為輸出層的輸入數據，輸出層本身是由 GPs 形成的。

圖 1：（左）：深度高斯過程插圖 1。（中）：隨機選擇誘導輸出的直方圖。最佳擬合高斯分布用虛線表示。其中一些表現出明顯的多模式行為。（右）：每個數據集 100 個隨機選擇的誘導輸出的 P 值。零假設是它們的分布是高斯分布。

由于使用逆協方差矩陣的計算成本很高，因此在大型數據集的 GP 中進行精確推斷是不可行的。相反，使用一小組偽數據點 (100) 來近似后驗，也稱為誘導點 [Snelson and Ghahramani, 2006, Titsias, 2009, Quinonero-Candela and Rasmussen, 2005]。我們在整篇論文中都假設這個誘導點框架。使用誘導點進行預測以避免計算整個數據集的協方差矩陣。在 GP 和 DGP 中，誘導輸出都被視為需要邊緣化的潛在變量。

DGP 中當前最先進的推理方法是雙重隨機變化推理 (DSVI) [Salimbeni 和 Deisenroth，2017]，它已被證明優于期望傳播 [Minka，2001，Bui 等人，2016]，并且它也比采用概率反向傳播的貝葉斯神經網絡 [Hern′andez-Lobato 和 Adams, 2015] 和采用早期推理方法的貝葉斯神經網絡（如變異推理 [Graves, 2011]、隨機梯度朗之萬動力學 [Welling and Teh, 2011）和混合蒙特卡洛 [Neal, 1993]具有更好的性能。然而，DSVI 的一個缺點是它用高斯近似后驗分布。我們非常自信地表明，對于我們在這項工作中檢查的每個數據集，后驗分布都是非高斯分布的。這一發現促使使用具有更靈活后驗近似的推理方法

在這項工作中，我們應用了一種新的 DGP 推理方法，即隨機梯度哈密頓蒙特卡羅 (SGHMC)，這是一種準確有效地捕獲后驗分布的采樣方法。為了將基于采樣的推理方法應用于 DGP，我們必須解決優化大量超參數的問題。為了解決這個問題，我們提出了移動窗口蒙特卡羅期望最大化，這是一種獲得超參數的最大似然 (ML) 估計的新方法。該方法快速、高效且普遍適用于任何概率模型和 MCMC 采樣器。

人們可能期望像 SGHMC 這樣的采樣方法比 DSVI 這樣的變分方法在計算上更加密集。然而，在 DGP 中，從后驗采樣成本很低，因為它不需要重新計算逆協方差矩陣，這僅取決于超參數。此外，計算分層方差在 VI 設置中的成本更高。

最后，我們對各種監督回歸和分類任務進行了實驗。我們憑經驗表明，我們的工作以較低的計算成本顯著改善了對中大型數據集的預測。

我們的貢獻可以概括為三點。

證明后驗的非高斯性。我們提供的證據表明，我們在這項工作中檢查的每個回歸數據集都有一個非高斯后驗。

我們使用 SGHMC 直接從 DGP 的后驗分布中采樣。實驗表明，這種新的推理方法優于以前的工作。

我們介紹了移動窗口 MCEM，這是一種在使用 MCMC 采樣器進行推理時有效優化超參數的新算法。

2.背景及相關工作

本節提供回歸的高斯過程和深度高斯過程的背景，并建立本文中使用的符號。

2.1 單層GP

高斯過程由后驗分布 $f:R^D→R$ 定義
輸入 $x=\{x_1,...,x_N\}$
輸出 $y=\{y_1,...,y_N\}$
在高斯過程模型下，假定 $f = f (x)$ 是聯合高斯且協方差函數為 $k:R^D × R^D → R$ ，其中, $f(x)= \{f(x_1),...,f(x_N)\}$ 。
$y$ 條件分布由似然函數 $p (y ∣ f)$ 求得，常用： $p(y|f)=N(y|f,Iσ^2)$

精確推理的計算成本是 $O(N^3)$ ，這使得它對于大型數據集在計算上是不可行的。一種常見的方法是使用一組偽數據點 $Z = \{z_1,..., z_M\}, u = f(Z)$ [Snelson and Ghahramani, 2006, Titsias, 2009] 并將聯合概率密度函數寫為
$p (y, f, u) = p (y ∣ f) p (f ∣ u) p (u)$

給定誘導輸出 $u$ 的 $f$ 的分布可以表示為 $p (f ∣ u) = N (μ; Σ)$ ，其中
$μ=KxZKZZ?1uμ=K_{xZ}K^{-1}_{ZZ}u$
$Σ=Kxx+KxZKZZ?1KxZTΣ=K_{xx}+K_{xZ}K^{-1}_{ZZ}K_{xZ}^T$
為了獲得 $f$ 的后驗， $u$ 必須被邊緣化，產生方程
$p(f∣y)=∫p(f∣u)p(u∣y)dup(f|y)=\int p(f|u)p(u|y)du$
請注意，在給定 $u$ 的情況下， $f$ 有條件地獨立于 $y$ 。

對于單層GPs,VI能夠用于邊際，VI使用變分后驗 $q (f, u) = p (f ∣ u) q (u)$ 去近似聯合后驗分布 $p (f, u ∣ y)$ ，其中 $q (u) = N (u ∣ m, S)$ 。

$q (u)$ 的這種選擇允許精確推斷邊際 $q(f∣m,S)=∫p(f∣u)q(u)du=N(f∣μ^,Σ^)q(f|m,S)=\int p(f|u)q(u)du=N(f|\hat μ,\hatΣ)$

其中：
$μ^=KxZKZZ?1m(1)\hat μ=K_{xZ}K^{-1}_{ZZ}m \tag{1}$
$Σ^=Kxx+KxZKZZ?1(KZZ?S)KZZ?1KxZT(1)\hat Σ=K_{xx}+K_{xZ}K^{-1}_{ZZ}(K_{ZZ-S})K^{-1}_{ZZ}K_{xZ}^T\tag{1}$

需要優化變分參數和 S。這是通過最小化真實后驗和近似后驗的 Kullback-Leibler 散度來完成的，這相當于最大化邊緣似然的下界（證據下界或 ELBO）

$log p(y)≥E_{q(f,u)}[\log p(y,f,u)-\log q(f,u)] =E_{q(f|m,S)}[\log p(y|f)]-KL[q(u)||p(u)]$

2.2 深層GP

在深度為 $L$ 的 $D G P$ 中，每一層都是一個 $G P$ ，它對函數 $f_l$ 建模，其中輸入 $f_{l-1}$ 和輸出 $f_l$ 對于 $l = 1,...,L (f_0 = x)$ 如圖 1 左側所示。層的感應輸入由 $Z_1,....,Z_L$ 表示，與之相關的感應輸出 $u_1 = f_1(Z_1),...,u_L = f_L(Z_L)$ 。

聯合概率密度函數可以寫成類似于 GP 模型的情況：
$p(y,{fl}l=1L,{ul}l=1L)=p(y∣fL)∏l=1Lp(fl∣ul)(2)p(y,\{f_l\}_{l=1}^L,\{u_l\}_{l=1}^L)=p(y|f_L)\prod _{l=1}^Lp(f_l|u_l)\tag{2}$

2.3 推理（暫略）

推理的目標是邊緣化誘導輸出 ${u_l\}_{l=1}^L$ 和層輸出 ${f_l\}_{l=1}^L$ 并逼近邊際似然 $p (y)$ 。本節討論有關推理的先前工作。

雙隨機變分推理
DSVI 是對 DGP 的變分推理的擴展 [Salimbeni 和 Deisenroth，2017]，它用獨立的多元高斯 $q(u_l) = N(u_l|m_l,S_l)$ 逼近誘導輸出 $u_l$ 的后驗。層輸出自然遵循方程式1中的單層模型。
$q(fl∣fl?1)=N(fl∣μ^l,Σ^l)q(f_l|f_{l-1})=N(f_l|\hat μ_l,\hat Σ_l)$
$q(fL)=∫∏l=1Lq(fl∣fl?1)dfldfL?1q(f_L)=\int \prod _{l=1}^Lq(f_l|f_{l-1}) df_{l}df_{L-1}$

然后通過小批量對層輸出進行采樣來估計生成的 ELBO 中的第一項，以允許擴展到大型數據集。 $Likehood=Eq(fL)[logp(y∣fL)]?∏l=1LKL[q(ul)∣∣p(ul)]Likehood=E_{q(f_L)}[log p(y|f_L)]- \prod _{l=1}^LKL[q(u_l)||p(u_l)]$

高斯過程的基于采樣的推理
在相關工作中，Hensman 等人。 [2015] 在單層 GP 中使用混合 MC 采樣。他們考慮了 GP 超參數和誘導輸出的聯合采樣。由于對 GP 超參數進行采樣的成本很高，因此這項工作不能直接擴展到 DGP。此外，它使用昂貴的方法貝葉斯優化來調整采樣器的參數，這進一步限制了其對 DGP 的適用性。

3 深度高斯過程后驗分析

在變分推理上采用一種新的推理方法是由 VI 對后驗分布假設的限制形式所推動的。變分假設是 $p(\{u\}_{l=l}^L |y)$ 采用多元高斯的形式，假設層之間是獨立的。雖然在單層模型中，后驗的高斯近似被證明是正確的 [Williams and Rasmussen, 1996]，但對于 DGP，情況并非如此。

首先，我們用一個玩具問題來說明 DGP 中的后驗分布可以是多峰的。之后，我們提供證據表明我們在這項工作中考慮的每個回歸數據集都會導致非高斯后驗分布。

多模態玩具問題 兩層 DGP $（ L = 2 ）$ 后驗多模態在玩具問題上得到證明（表 1）。為了演示的目的，我們做了 $σ^2=0$ 的簡化假設，因此似然函數沒有噪聲。這個玩具問題有兩個最大后驗 (MAP) 解決方案（模式 A 和模式 B）。該表顯示了 DSVI 在每一層的變分后驗。我們可以看到它隨機匹配其中一種模式（取決于初始化），而完全忽略了另一種。另一方面，諸如 SGHMC 之類的采樣方法（在下一節中實現）探索了這兩種模式，因此提供了更好的后驗近似值。

經驗證據：為了進一步支持我們關于后驗多模態的主張，我們提供經驗證據表明，對于現實世界的數據集，后驗不是高斯的。

我們進行以下分析。考慮數據集下的后驗是多元高斯分布的原假設。這個零假設意味著每個誘導輸出的分布是高斯分布。我們使用下一節中描述的用于 DGP 的 SGHMC 實現來檢查 SGHMC 為每個誘導輸出生成的近似后驗樣本。為了得出 p 值，我們對高斯性應用峰度檢驗 [Cramer, 1998]。該檢驗通常用于識別多峰分布，因為這些分布通常具有顯著更高的峰度（也稱為 4 階矩）。

對于每個數據集，我們計算 100 個隨機選擇的誘導輸出的 p 值，并將結果與??概率閾值 $α= 10^{-5}$ 進行比較。應用 Bonferroni 校正來解釋大量并發假設檢驗。結果顯示在圖 1 的右側。由于每個數據集的 p 值都低于閾值，因此我們可以 99% 確定所有這些數據集都具有非高斯后驗。

4 深度高斯過程的基于采樣的推理

與 VI 不同，當使用采樣方法時，我們無法使用近似后驗分布 $q (u)$ 來生成預測。相反，我們必須依賴從后驗生成的近似樣本，這些樣本又可用于進行預測 [Dunlop et al., 2017, Hoffman, 2017]。

在實踐中，運行一個包含兩個階段的采樣過程。老化階段用于確定模型和采樣器的超參數。采樣器的超參數使用啟發式自動調整方法選擇，而 DGP 的超參數使用新穎的移動窗口 MCEM 算法進行優化。

在采樣階段，采樣器使用固定的超參數運行。由于連續樣本高度相關，我們每 50 次迭代保存一個樣本，并生成 200 個樣本進行預測。一旦獲得后驗樣本，就可以通過組合每個樣本的預測來進行預測，以獲得混合分布。請注意，使用此采樣器進行預測并不比在 DSVI 中更昂貴，因為 DSVI 需要對層輸出進行采樣以進行預測。

4.1 隨機梯度哈密頓量蒙特卡羅

SGHMC [Chen et al., 2014] 是一種馬爾可夫鏈蒙特卡羅采樣方法 [Neal, 1993]，用于從純粹來自隨機梯度估計的誘導輸出 $p (u ∣ y)$ 的難以處理的后驗分布中生成樣本。

隨著輔助變量 $r$ 的引入，采樣過程提供來自聯合分布 $p (u, r ∣ y)$ 的樣本。描述 MCMC 過程的方程可能與哈密頓動力學有關 [Brooks et al., 2011, Neal, 1993]。負對數后驗 $U (u)$ 充當勢能， $r$ 充當動能：

在 HMC 中，運動的精確描述需要在每個更新步驟中計算梯度 $▽ U (u)$ ，這對于大型數據集是不切實際的，因為將層輸出集成到等式 2 中的成本很高。這個積分可以用一個可以通過蒙特卡洛采樣評估的下限來近似 [Salimbeni and Deisenroth, 2017]：

其中， $f^i$ 是來自層輸出預測分布的蒙特卡洛樣本： $f^i$ ~ $\prod_{l=1}^{ L} p(f_l|u_l, f_{l-1})$ 。這導致我們可以用來近似梯度的估計:

由于 $▽ r U (u) = ? ▽ l o g p (u ∣ y) = ? ▽ l o g p (u, y)$ ，我們可以使用它來近似梯度。陳等人 [2014]表明，如果使用以下更新方程，使用隨機梯度估計（通過對數據進行二次采樣獲得）仍然可以進行近似后驗采樣：

其中C是摩擦項，M是質量矩陣， $B^\hat B$ 是Fisher信息矩陣， $?$ 是步長。 SGHMC 的一個警告是它有多個參數 $（C、M、B^、?）（C、M、\hat B、?）$ ，如果沒有模型和數據的先驗知識，很難設置這些參數。我們使用 Springenberg 等人的自動調整方法。 [2016] 設置這些參數，這些參數已被證明適用于貝葉斯神經網絡 (BNN)。 DGP 和 BNN 的相似性質強烈表明相同的方法適用于 DGP。

4.2 移動窗口馬爾可夫鏈期望最大化

優化超參數（協方差函數的參數，誘導似然函數的輸入和參數）證明對于 MCMC 方法很困難 [Turner and Sahani, 2011]。簡單的方法包括隨著采樣器的進展而優化它們，因為隨后的樣本高度相關，因此，超參數只是適合這種移動的后驗點估計。

蒙特卡洛期望最大化 (MCEM) [Wei and Tanner, 1990] 是期望最大化算法的自然擴展，它與后驗樣本一起使用以獲得超參數的最大似然估計。 MCEM 在兩個步驟之間交替。來自后驗的 E-step 樣本和 M-step 最大化樣本和數據的平均對數聯合概率：

然而，MCEM 有一個明顯的缺點：如果 $M$ 步中使用的樣本數量￥m$ 太少，那么超參數可能會過擬合這些樣本。另一方面，如果 $m$ 太高，則 M-step 變得太昂貴而無法計算。此外，在 M-step 中，通過梯度上升最大化，這意味著計算成本隨 $m$ 線性增加。

為了解決這個問題，我們引入了一種新的 $M C E M$ 擴展，稱為移動窗口 MCEM。我們的方法以與先前描述的樸素方法相同的成本優化超參數，同時避免了其過擬合問題。

移動窗口 MCEM 背后的想法是將 E 和 M 步驟交織在一起。我們不是生成新樣本然后最大化 $Q(θ)Q(\theta )$ 直到收斂，而是維護一組樣本并朝著 $Q((θ)Q((\theta)$ 的最大值邁出一小步。在 E-step 中，我們生成一個新樣本并將其添加到集合中，同時丟棄最舊的樣本（因此是移動窗口）。接下來是 M 步，在該步中，我們從集合中隨機抽取一個樣本，并使用它對 $Q((θ)Q((\theta)$ 的最大值進行近似梯度步長。圖 3 左側的算法 1 顯示了移動窗口 MCEM 的偽代碼。

與 MCEM 相比，有兩個優點。首先，超參數每次更新的成本是恒定的，并且不隨 m 縮放，因為它只需要一個樣本。其次，移動窗口 MCEM 的收斂速度比 MCEM 快。
圖 3 的中間圖證明了這一點。 MCEM 迭代地擬合一組特定后驗樣本的超參數。由于超參數和后驗樣本高度耦合，這種交替更新方案收斂緩慢 [Neath et al., 2013]。為了緩解這個問題，移動窗口 MCEM 通過在每個梯度步驟后生成一個新樣本來不斷更新其樣本群。為了生成圖 3 中心的圖，我們繪制了測試集上的預測對數似然與算法迭代次數的關系，以展示移動窗口 MCEM 優于 MCEM 的卓越性能。對于 MCEM，我們使用了 m = 10 的集合大小（更大的 m 會減慢方法），我們生成了 500 多個 MCMC 步驟。對于移動窗口 MCEM，我們使用的窗口大小為 m = 300。本實驗中使用的模型是一個具有一個隱藏層的DGP，在 kin8nm 數據集上訓練。

5 解耦的深度高斯過程

6實驗

我們在 9 個 UCI benchmark 數據集上進行了實驗2，范圍從小（500 個數據點）到大（500,000 個），以便與基線進行公平比較。在每個回歸任務中，我們測量了平均測試對數似然 (MLL) 并比較了結果。圖 4 顯示了 MLL 值及其超過 10 次重復的標準偏差。

根據 Salimbeni 和 Deisenroth [2017]，在所有模型中，我們將學習率設置為默認 0.01，小批量大小設置為 10,000，迭代次數設置為 20,000。一次迭代涉及從窗口中抽取樣本并通過梯度下降更新超參數，如圖 3 左側的算法 1 所示。深度從 0 個隱藏層到 4 個隱藏層不等，每層有 10 個節點。協方差函數是標準平方指數函數，每個維度具有單獨的長度尺度。我們進行了隨機的 0.8-0.2 訓練測試拆分。在 year 數據集中，我們使用固定的訓練測試拆分來避免“制作人效應”，確保給定藝術家的歌曲不會同時出現在訓練和測試集中。

圖 3：（左）：移動窗口 MCEM 的偽代碼。（中）：移動窗口 MCEM 和 MCEM 算法的預測性能比較。垂直線表示 MCEM 算法中的 E 步。越高越好。（右）：不同推理方法的收斂性比較。越高越好

基線：我們實驗的主要基線是雙重隨機 DGP。為了進行公平的比較，我們使用了與原始論文中相同的參數。就誘導點的數量而言（誘導輸入總是在潛在維度上共享），我們測試了兩種變體。首先，原始的耦合版本，每層 M = 100 個誘導點 (DGP)。其次，解耦版本 (Dec DGP)，平均值為 Ma = 300，方差為 Mb = 50。選擇這些數字是為了使單次迭代的運行時間與耦合版本相同。進一步的基線由耦合（SGP：M = 100）和解耦（Dec SGP：Ma = 300，Mb = 50）單層 GP 提供。最終基線是具有三個隱藏層和每層 50 個節點的穩健貝葉斯神經網絡 (BNN) [Springenberg 等人，2016 年]。

SGHMC DGP（這項工作）：該模型的架構與基線模型相同。 M = 100 個誘導輸入用于與基線保持一致。老化階段包括 20,000 次迭代，隨后是采樣階段，在此期間，在 10,000 次迭代過程中抽取了 200 個樣本。

MNIST 分類 ： SGHMC 在分類問題上也很有效。使用 Robust-Max [Hern′andez-Lobato et al., 2011] 似然函數，我們將模型應用于 MNIST 數據集。 SGP 和 Dec SGP 模型分別達到了 96.8 % 和 97.7 % 的準確率。關于深度模型，表現最好的模型是 12 月 DGP 3，達到 98.1%，其次是 SGHMC DGP 3，達到 98.0%，DGP 3 達到 97.8%。 [Salimbeni and Deisenroth, 2017] 報告 DGP 3 的值略高，為 98.11%。這種差異可歸因于參數的不同初始化。

哈佛清潔能源項目：該回歸數據集是為哈佛清潔能源項目制作的 [Hachmann et al., 2011]。它測量有機光伏分子的效率。它是一個高維數據集（60,000 個數據點和 512 個二進制特征），已知可以從深度模型中受益。 SGHMC DGP 5 建立了新的最先進的預測性能，測試 MLL 為 -0.83。 DGP 2-5 達到 -1:25。該數據集上的其他可用結果是具有期望傳播的 DGPs的-0.99 和 BNN 的 -1.37 [Bui et al., 2016]。

運行時間：為了支持我們的說法，即 SGHMC 的計算成本低于 DSVI，我們在蛋白質數據集的訓練過程中繪制了不同階段的測試 MLL（圖 3 中的右圖）。與 DSVI 相比，SGHMC 收斂速度更快且限制更高。 SGHMC 以 1:6 倍的速度達到了 20,000 次迭代的目標。

7 結論

本文描述并展示了一種新的 DGP 推理方法 SGHMC，該方法從通常的誘導點框架中的后驗分布中采樣。我們描述了一種新穎的移動窗口 MCEM 算法，該算法能夠以快速有效的方式優化超參數。這以降低的計算成本顯著提高了中大型數據集的性能，從而為 DGP 中的推理建立了新的最新技術。

總結

以上是生活随笔為你收集整理的论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Zeta电位测定仪操作规程
下一篇：家用电器辐射测试结果哪些家用电器辐射大