一天搞懂深度学习—学习笔记4(knowledge and tricks)
1.ultra deep network
世界上的摩天大樓有很多,而且大家也都一直在互相攀比誰的更高。文中給出了幾個標志性建筑,Great Pyramid < Eiffel Tower < Empire State < World Trade Center < CN Tower < Burj Khalifa,有興趣可以去查查
在神經(jīng)網(wǎng)絡(luò)的世界里,前面也提到過了,Thin and Tall會好一些,文中給出了幾個經(jīng)典的CNN網(wǎng)絡(luò)層次圖,如下
網(wǎng)絡(luò)的層數(shù)越多,意味著能夠提取到不同level的特征越豐富。并且,越深的網(wǎng)絡(luò)提取的特征越抽象,越具有語義信息。原來的網(wǎng)絡(luò),如果簡單地增加深度,會導(dǎo)致梯度彌散或梯度爆炸。即使通過上述方法能夠訓練了,但是又會出現(xiàn)另一個問題,就是退化問題,網(wǎng)絡(luò)層數(shù)增加,但是在訓練集上的準確率卻飽和甚至下降了。這個不能解釋為overfitting,因為overfit應(yīng)該表現(xiàn)為在訓練集上表現(xiàn)更好才對。退化問題說明了深度網(wǎng)絡(luò)不能很簡單地被很好地優(yōu)化。作者通過實驗證明:通過淺層網(wǎng)絡(luò)+ y=x 等同映射構(gòu)造深層模型,結(jié)果深層模型并沒有比淺層網(wǎng)絡(luò)有等同或更低的錯誤率,推斷退化問題可能是因為深層的網(wǎng)絡(luò)并不是那么好訓練,也就是求解器很難去利用多層網(wǎng)絡(luò)擬合同等函數(shù)。 參考http://www.jianshu.com/p/e58437f39f65
2.Attention-based Model
這個地方我覺得PDF文檔寫的不怎么精細,找了一個知乎的回答,算是個學習了參考https://www.zhihu.com/question/36591394
在大部分的論文中,Attention是一個權(quán)重vector(通常是softmax的輸出),其維度等于context的長度。越大的權(quán)重代表對應(yīng)位置的context越重要。不同論文對attention權(quán)重的計算方式不同,但其核心拋不開上述兩點。
這篇博文沒什么自己的內(nèi)容,主要對幾個比較重要的知識點做了提及,并且給出了相應(yīng)的好的解釋博文的連接。這篇加上以上三篇論文作為自己進入這個領(lǐng)域的理論知識點的一個歸納總結(jié)。希望自己以后多閱讀一些機器學習的論文,向前輩學習,同時多進行整理歸納。
總結(jié)
以上是生活随笔為你收集整理的一天搞懂深度学习—学习笔记4(knowledge and tricks)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WhqDatabase 我自己用C#开发
- 下一篇: ATM + 购物商城程序