當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何正确理解近似点梯度下降算法

發布時間：2023/12/19 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了如何正确理解近似点梯度下降算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習筆記，僅供參考，有錯必糾
轉載自：凸優化筆記19：近似點梯度下降

近似點梯度下降算法

這一部分考慮的問題主要是

$m i n m i z e f (x) = g (x) + h (x)$

這里面 $g$ 是全空間可導的凸函數， $dom \; g=R^n$ ， $h$ 是存在不可導部分的凸函數，并且一般需要 $h$ 的近似點計算較為簡單.
近似點梯度下降算法是什么呢？

$xk+1=proxth(xk?tk?g(xk))x_{k+1} = prox_{th} (x_k - t_k \nabla g(x_k))$

這里跟之前的梯度下降(GD)和次梯度下降(SD)的形式都不太一樣，實際上看了后面的推導會發現經過轉換他們還是很像的。不過怎么理解這個式子呢？舉一個例子，假如 $h$ 是集合 $C$ 的指示函數，如下圖所示, 這個式子實際上是先沿著 $g$ 的梯度走步長 $t_k$ ，然后再投影到集合 $C$ 里面。考慮原始優化問題， $min?f=g+h\min f =g+h$ 本身是一個無約束優化問題，但把 $h$ 用一個約束函數表示，他就是一個帶約束的優化問題 $min?g(x),s.t.x∈C\min g(x), s.t. \; x \in C$ ，而近似點梯度下降方法要做的事情就是先優化 $g$ ，然后投影到約束區域 $C$ 中。

根據 $prox_{th}$ 的定義，我們把上面的式子展開可以得到

可以發現括號里面的式子實際上就是在 $x$ 附近對光滑的 $g$ 進行了二階展開，而 $x^+$ 就是對近似后函數取最小值點。再進一步地

可以發現 $Gt(x)=?h(x+)+?g(x)G_t(x)=\partial h(x^+) + \nabla g(x)$ 實際上就近似為函數 $f$ 的次梯度，但并不嚴格是，因為 $?f(x)=?h(x)+?g(x)\partial f(x) =\partial h(x) + \nabla g(x)$ 。而此時我們也可以將 $x^+$ 寫成比較簡單的形式

$x^+ = x - t G_t(x)$

這跟之前的梯度下降法就統一了，并且也說明了 $G_t(x)$ 就相當于是 $f$ 的梯度。

這里還需要說明的一點是 $Gt(x)=(x?proxth(x?t?g(x)))/tG_t(x) = (x - prox_{th} (x - t \nabla g(x)))/t$ 這是一個連續函數，這是因為近似點算子是 Lipschitz 連續的(在下面一小節中會解釋說明)，又由于 $Gt(x)=0?x=argmin?f(x)G_t(x) = 0 \iff x = arg \; \min f(x)$ ，因此 $x^+|| \le \epsilon$ 就可以作為 stopping criterion。

與之成對比的是非光滑函數的次梯度下降， $x - x^+||$ 就不是一個很好的 stopping criterion，因為即使 $x - x^+||$ 很小，也可能離最優解比較遠。

總結

以上是生活随笔為你收集整理的如何正确理解近似点梯度下降算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： excel怎么做数据比对?
下一篇：最优化导论(part1)--求解原问题的