當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

最优化方法（最速下降、牛顿法、高斯牛顿法、LM算法）

發布時間：2023/12/10 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了最优化方法（最速下降、牛顿法、高斯牛顿法、LM算法）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

最優化方法應用廣泛，但在實現原理上大同小異。作者在學習高翔博士的視覺SLAM十四講的過程中對其第六章非線性最小二乘求解所涉及到的最優化方法（最速下降、牛頓法、高斯牛頓法、LM算法）進行了簡要總結如下：

最速下降法（梯度下降/一階導數法）

作者在最速下降法解析（理解筆記）中曾經介紹過最速下降法的實現過程，并列舉了一個小例子。在這里，為了文章整體的完整性，我們再重新敘述一下，大家也可以參考。
假設我們希望求解一個最小二乘問題：
$min?x=12∥f(x)∥22\min_{x} = \frac{1}{2}\begin{Vmatrix}f(x)\end{Vmatrix}^2_2$
把上式在 $x$ 處進行泰勒展開：
$∥f(x+Δx)∥22=∥f(x)∥22+J(x)Δx+12ΔxTH(x)Δx\begin{Vmatrix}f(x+\Delta x)\end{Vmatrix}^2_2=\begin{Vmatrix}f(x)\end{Vmatrix}^2_2+J(x)\Delta x+ \frac{1}{2}\Delta x^TH(x)\Delta x$
式中 $J (x)$ 與 $H (x)$ 分別為關于變量 $x$ 的雅克比矩陣（一階導數）和海塞矩陣（二階導數）。
在梯度下降法中，我們只考慮在 $x$ 處的一階梯度。則上式變為：
$∥f(x+Δx)∥22=∥f(x)∥22+J(x)Δx\begin{Vmatrix}f(x+\Delta x)\end{Vmatrix}^2_2=\begin{Vmatrix}f(x)\end{Vmatrix}^2_2+J(x)\Delta x$
認為沿著一階梯度反方向下降最快，當然，在迭代過程中每一步走多長也是一個需要考慮的問題，我們可以設計一個定長 $λ\lambda$ 。當然這種方式有著明顯的不合理之處，一個較大的步長會導致我們在優化過程中走出鋸齒狀路線，而一個較小的步長則會導致我們收斂速度過慢。這種設置為固定步長 $λ\lambda$ 的方式為梯度下降法。很多時候認為梯度下降與最速下降是等價的，這并不十分準確，最速下降法對步長 $λ\lambda$ 進行選取一個最優的 $λ?\lambda^*$ 。
其把 $λ\lambda$ 代入： $x(1)=x(0)?λJ(x)x_{(1)}=x_{(0)}-\lambda J(x)$ ，然后求取在 $f(x_{(1)})$ 處取得最小值的 $λ\lambda$ 作為 $λ?\lambda^*$ 。

建議讀者去最速下降法解析（理解筆記）看一下實際使用過程中的例子。

牛頓法（二階導數法）

這里我們保留在 $x$ 處的二階展開項：
$∥f(x+Δx)∥22=∥f(x)∥22+J(x)Δx+12ΔxTH(x)Δx\begin{Vmatrix}f(x+\Delta x)\end{Vmatrix}^2_2=\begin{Vmatrix}f(x)\end{Vmatrix}^2_2+J(x)\Delta x+ \frac{1}{2}\Delta x^TH(x)\Delta x$

首先明確一下我們的目的是找到一個最優的 $Δx?\Delta x^*$ 使得上式取得最小值：
$Δx?=arcmin(∥f(x)∥22+J(x)Δx+12ΔxTH(x)Δx)\Delta x^*=arcmin(\begin{Vmatrix}f(x)\end{Vmatrix}^2_2+J(x)\Delta x+ \frac{1}{2}\Delta x^TH(x)\Delta x)$

將上式視為 $Δx\Delta x$ 的函數，對 $Δx\Delta x$ 進行求導，得到如下形式：

$H(x)\Delta x$
令其導數為0：
$H(x)\Delta x=0$
則取得極小值，解出增量為：
$Δx=?H(x)?1J(x)\Delta x=- H(x)^{-1}J(x)$

還有另外一種理解方式是把牛頓法看成是對一階導數法的求根過程，即使用牛頓法求解原函數一階導數為零的 $Δx\Delta x$ 。

牛頓法需要計算目標函數的二階導數 $H (x)$ ，這在遇到規模較大的問題時，會比較困難，因此我們常常避免 $H (x)$ 矩陣的運算。
后續的高斯牛頓法和LM算法解決了這個問題。

高斯牛頓法

高斯牛頓法是對函數 $f (x)$ 進行一階展開（注意不是 $f(x)^2$ ），展開形式如下：
$f(x+Δx)≈f(x)+J(x)Δxf(x+\Delta x)\approx f(x)+J(x)\Delta x$
這里的J(x)也是雅克比矩陣，與前述不同的是這里是 $f (x)$ 對變量 $x$ 的導數。
由此，當前我們的目標變成了：尋找一個增量 $Δx\Delta x$ ，使得 $∥f(x+Δx)∥22\begin{Vmatrix}f(x+\Delta x)\end{Vmatrix}^2_2$ 的值達到最小。即求解下述關系：
$Δx?=argmin?Δx(12∥f(x)+J(x)Δx∥22)\Delta x^*=arg\min_{\Delta x} (\frac{1}{2}\begin{Vmatrix}f(x)+J(x)\Delta x\end{Vmatrix}^2_2)$
展開上式：
$12∥f(x)+J(x)Δx∥22=12(f(x)+J(x)Δx)T(f(x)+J(x)Δx)=12(∥f(x)∥22+2f(x)TJ(x)Δx+ΔxTJ(x)TJ(x)Δx)\frac{1}{2}\begin{Vmatrix}f(x)+J(x)\Delta x\end{Vmatrix}^2_2 \\ =\frac{1}{2}(f(x)+J(x)\Delta x)^T(f(x)+J(x)\Delta x) \\ = \frac{1}{2}(\begin{Vmatrix}f(x)\end{Vmatrix}^2_2+2f(x)^TJ(x)\Delta x+\Delta x^{T}J(x)^{T}J(x)\Delta x)$
上式關于 $Δx\Delta x$ 求導，并令其為0：
$J(x)Tf(x)+J(x)TJ(x)Δx=0J(x)^Tf(x)+J(x)^{T}J(x)\Delta x=0$
即：
$J(x)TJ(x)Δx=?J(x)Tf(x)J(x)^{T}J(x)\Delta x=-J(x)^Tf(x)$
上式是一個線性方程組，被稱為增量方程，也可以稱為高斯牛頓方程或者正規方程。把左邊的系數即為 $H$ ，右側記為 $g$ ，則上式轉換為：
$HΔx=gΔx=H?1gH\Delta x=g \\ \Delta x=H^{-1}g$
這里的 $H$ 即為牛頓法里海塞矩陣的近似，省略了計算二階導數的過程。

上述過程中我們使用了 $J(x)^{T}J(x)$ 的逆，但是 $J(x)^{T}J(x)$ 是半正定的，不能保證其為非奇異性。

Levenberg-Marquadt（LM算法）

LM算法是一種信賴域方法，我們使用一個參數 $ρ\rho$ 來根據我們的近似模型跟實際函數之間的差異來確定這個范圍，如果 $ρ\rho$ 的值較小，則差異較小，讓范圍繼續擴大，而如果 $ρ\rho$ 的值很大，則差異較大，則縮小范圍：
$ρ=f(x+Δx)?f(x)J(x)Δx\rho=\frac{f(x+\Delta x)-f(x)}{J(x)\Delta x}$
上式中分子是實際函數下降的值，分母是近似值。若 $ρ\rho$ 的值接近1則認為近似是好的。如果 $ρ\rho$ 太小，則認為近似比較差，則需要縮小近似范圍。反之，如果 $ρ\rho$ 比較大，則認為實際下降的比預計的大，我們可以擴大近似范圍。

上圖中公式（6.24）是一個帶有不等式約束的優化問題。使用一個Lagrange乘子把其轉換為一個無約束優化問題。
$min?Δxk=12∥f(xk)+J(xk)Δxk∥22+λ2∥DΔx∥22\min_{\Delta x_{k}}= \frac{1}{2}\begin{Vmatrix}f(x_{k})+J(x_{k})\Delta x_{k}\end{Vmatrix}^2_2+ \frac{\lambda}{2}\begin{Vmatrix}D\Delta x\end{Vmatrix}^2_2$
使用類似于高斯牛頓法中的過程，對上式進行求導，然后使其導數為0，得到的增量方程為：
$(H+λDTD)Δx=g(H+\lambda D^TD)\Delta x=g$
與高斯牛頓法相比，我們可以發現多出來一項 $λDTD\lambda D^TD$ ，簡化記 $D = I$ 則上式變為：
$(H+λI)Δx=g(H+\lambda I)\Delta x=g$
可以由上式觀察到，當參數 $λ\lambda$ 的值比較大時，則LM算法接近為最速下降法，而 $λ\lambda$ 的值較小時則近似于高斯牛頓法。

總結

以上是生活随笔為你收集整理的最优化方法（最速下降、牛顿法、高斯牛顿法、LM算法）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 3ds Max制作碗实例教程
下一篇： HALCON示例程序measure_me