日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深度残差网络和Highway网络

發(fā)布時間:2024/9/27 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度残差网络和Highway网络 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今天講的這兩種網(wǎng)絡(luò)結(jié)構(gòu)都是最新被業(yè)界針對圖像處理問題提出的最新的結(jié)構(gòu),主要解決就是超深層的網(wǎng)絡(luò)在訓(xùn)練優(yōu)化中遇到的問題。說實話這兩種模型就本身來說數(shù)學(xué)公式都不復(fù)雜,但是確實在實戰(zhàn)中取得了非常好的效果(深度殘差網(wǎng)絡(luò)幫助微軟的團隊以絕對優(yōu)勢獲得了2015 Image Cup的冠軍),這也從側(cè)面說明了深度學(xué)習(xí)是一門以實踐為主導(dǎo)的學(xué)科,在這個領(lǐng)域里實踐才是檢驗真理的唯一標(biāo)準(zhǔn)。(很多新的結(jié)構(gòu)都是因為在實踐中取得了不錯的效果,然后被一些大牛通過一些高大上概念進行包裝,最后再以一種很牛逼的姿態(tài)傳遞到我們的面前,令我們膜拜)。

首先來說一下深度殘差網(wǎng)絡(luò),下面是深度殘差網(wǎng)絡(luò)的架構(gòu)圖
(來自論文《Deep Residual Learning for Image Recognition》)

之所以說起名“殘差”網(wǎng)絡(luò),是因為假設(shè)網(wǎng)絡(luò)要學(xué)習(xí)的假說是H(x),那么由于圖中identity x之間跨過了2層,那么其實相當(dāng)于擬合的是F(x)=H(x)-x,這就是殘差概念的來源,這是論文里的說法。其實我感覺作者在提出這個結(jié)構(gòu)的時候,打破了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)n-1層的輸出只能給n層作為輸入的慣例,使某一層的輸出可以直接跨過幾層作為后面某一層的輸入。乍一看這樣的結(jié)構(gòu)沒啥的,貌似沒有什么特別厲害的地方,其實不然

上圖就是其構(gòu)造深度殘差網(wǎng)絡(luò)的構(gòu)思來源圖,一個是56層的網(wǎng)絡(luò)一個是20層的網(wǎng)絡(luò),從原理上來說其實56層網(wǎng)絡(luò)的解空間是包括了20層網(wǎng)絡(luò)的解空間的,換而言之也就是說,56層網(wǎng)絡(luò)取得的性能應(yīng)該大于等于20層網(wǎng)絡(luò)的性能的。但是從訓(xùn)練的迭代過程來看,56層的網(wǎng)絡(luò)無論從訓(xùn)練誤差來看還是測試誤差來看,誤差都大于20層的網(wǎng)絡(luò)(這也說明了為什么這不是過擬合現(xiàn)象,因為56層網(wǎng)絡(luò)本身的訓(xùn)練誤差都沒有降下去)。導(dǎo)致這個原因就是雖然56層網(wǎng)絡(luò)的解空間包含了20層網(wǎng)絡(luò)的解空間,但是我們在訓(xùn)練網(wǎng)絡(luò)用的是隨機梯度下降策略,往往解到的不是全局最優(yōu)解,而是局部的最優(yōu)解,顯而易見56層網(wǎng)絡(luò)的解空間更加的復(fù)雜,所以導(dǎo)致使用隨機梯度下降算法無法解到最優(yōu)解。
其實在構(gòu)造這個網(wǎng)絡(luò)的時候,我們完全可以換一個思路,如果20層的網(wǎng)絡(luò)可以取得非常好的結(jié)果了,我在構(gòu)造56層網(wǎng)絡(luò)的時候前20層從20層網(wǎng)絡(luò)中copy過來,后面的36層只做inentity map至少效果不會差于20層的網(wǎng)絡(luò)。于是乎深度殘差的網(wǎng)絡(luò)就提出了,這個思想其實不復(fù)雜,說白了打破了每一層網(wǎng)絡(luò)輸入只能來自于上一層網(wǎng)絡(luò)輸出的規(guī)律,可以讓一些網(wǎng)絡(luò)的輸出直接跳過幾層到達后面的輸入。這樣的網(wǎng)絡(luò)確實也取得了非常好的效果。另外要注意的是,在真正訓(xùn)練的時候,有幾點trick要注意:1、注意層與層之間使用batch-normalization技術(shù),否則由于網(wǎng)絡(luò)過深會導(dǎo)致梯度消失的問題,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練無法收斂;2、論文里說了,為了保持每一層網(wǎng)絡(luò)的參數(shù)差不多,每當(dāng)經(jīng)過了pooling層輸入的維度減少了一般,那么filter的個數(shù)就要增加一倍。

說完了深度殘差網(wǎng)絡(luò),我們再來說說Highway網(wǎng)絡(luò)。這篇網(wǎng)絡(luò)來源于論文《Highway Networks》
所謂Highway網(wǎng)絡(luò),無非就是輸入某一層網(wǎng)絡(luò)的數(shù)據(jù)一部分經(jīng)過非線性變換,另一部分直接從該網(wǎng)絡(luò)跨過去不做任何轉(zhuǎn)換,就想走在高速公路上一樣,而多少的數(shù)據(jù)需要非線性變換,多少的數(shù)據(jù)可以直接跨過去,是由一個權(quán)值矩陣和輸入數(shù)據(jù)共同決定的。下面是Highway網(wǎng)絡(luò)的構(gòu)造公式:

向量由兩項組成。叫做transform gate ,叫做carry gate。和的激活函數(shù)都是函數(shù)。
T算出來的是一個向量,其中每個數(shù)字都是(0,1)之間的浮點數(shù),代表y中由x變化后的內(nèi)容所占的比例;
C算出來的也是一個向量,其中每個數(shù)字也都是(0,1)之間的浮點數(shù),代表y中由x本身內(nèi)容所占的比例;
(為了簡便起見,有時候令, 代表了維度和 一樣長的向量)從公式中我們需要注意的是,由于是點乘,當(dāng)取了 之后那么必須是同樣的維度。如果我們想更改x的維度從A變成B的話,一種方法是采用zero-padding和下采樣的方法,或者是引入一個維度為A*B的變換矩陣,使每次都乘上這個矩陣。

主要解決的是多層深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂問題,即使層數(shù)很多也可以使用簡單的方法比方說 backpropogation來進行訓(xùn)練,保證合理的迭代范圍內(nèi)收斂,而傳統(tǒng)的網(wǎng)絡(luò)是很難保證收斂的。如下圖所示:

當(dāng)網(wǎng)絡(luò)很深的時候,使用了Highway的網(wǎng)絡(luò)更容易收斂。

?

原文里說道:
A highway layer can smoothly vary its behavior between that of a plain layer and that of a layer which simply passes its inputs through.
也就是說Highway也就是讓輸入數(shù)據(jù)的一部分變換,另一部分直接通過,相當(dāng)于整體上來講在這兩者的效果中選了一個均衡。

從廣義的角度來說,Highway更像是一種思想,它不但可以用在全連接網(wǎng)絡(luò)中,也可以用在卷積神經(jīng)網(wǎng)絡(luò)中,原文里說:“Convolutional highway layers are constructed similar to fully connected layers. Weight-sharing and local receptive fields are utilized for both H and T transforms. We use zero-padding to ensure that the block state and transform gate feature maps are the same size as the input.”。

其實深度殘差網(wǎng)絡(luò)和Highway網(wǎng)絡(luò)這兩種網(wǎng)絡(luò)結(jié)構(gòu)都能夠讓一部分的數(shù)據(jù)可以跳過某些變換層,而直接到后面的層中去,只不過Highway網(wǎng)絡(luò)需要一個權(quán)值來控制每次直接通過的數(shù)據(jù)量,而深度殘差網(wǎng)絡(luò)就直接讓一部分?jǐn)?shù)據(jù)通到了后面。從大量的實驗中,我感覺這兩種網(wǎng)絡(luò)只有在很深的場景中才能發(fā)揮出“威力”,如果本身網(wǎng)絡(luò)層數(shù)較淺,勉強使用這兩種結(jié)構(gòu)是很難得到好的結(jié)果的。
————————————————
版權(quán)聲明:本文為CSDN博主「guoyuhaoaaa」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/guoyuhaoaaa/article/details/54093913

總結(jié)

以上是生活随笔為你收集整理的深度残差网络和Highway网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。