2.11 总结-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
| 2.10 局部最優的問題 | 回到目錄 | 3.1 調試處理 |
總結
習題
第 51 題
當輸入從第8個mini-batch的第7個的例子的時候,你會用哪種符號表示第3層的激活?
A. α[3]{8}{7}\alpha^{[3]\{8\}\{7\}}α[3]{8}{7}
B. α[8]{7}{3}\alpha^{[8]\{7\}\{3\}}α[8]{7}{3}
C. α[8]{3}{7}\alpha^{[8]\{3\}\{7\}}α[8]{3}{7}
D. α[3]{7}{8}\alpha^{[3]\{7\}\{8\}}α[3]{7}{8}
第 52 題
關于mini-batch的說法哪個是正確的?
A.mini-batch迭代一次(計算1個mini-batch),要比批量梯度下降迭代一次快
B.用mini-batch訓練完整個數據集一次,要比批量梯度下降訓練完整個數據集一次快
C.在不同的mini-batch下,不需要顯式地進行循環,就可以實現mini-batch梯度下降,從而使算法同時處理所有的數據(矢量化)
第 53 題
為什么最好的mini-batch的大小通常不是1也不是m,而是介于兩者之間?
A.如果mini-batch的大小是1,那么在你取得進展前,你需要遍歷整個訓練集
B.如果mini-batch的大小是m,就會變成批量梯度下降。在你取得進展前,你需要遍歷整個訓練集
C.如果mini-batch的大小是1,那么你將失去mini-batch將數據矢量化帶來的的好處
D.如果mini-batch的大小是m,就會變成隨機梯度下降,而這樣做經常會比mini-batch慢
第 54 題
如果你的模型的成本隨著迭代次數的增加,繪制出來的圖如下,那么:
A.如果你正在使用mini-batch梯度下降,那可能有問題;而如果你在使用批量梯度下降,那是合理的
B.如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有問題
C.無論你在使用mini-batch還是批量梯度下降,看上去都是合理的
D.無論你在使用mini-batch還是批量梯度下降,都可能有問題
第 55 題
假設一月的前三天卡薩布蘭卡的氣溫是一樣的: 一月第一天: θ1=10\theta_1=10\quadθ1?=10 一月第二天: θ2=10\theta_2=10\quadθ2?=10 假設您使用 β=0.5\beta=0.5β=0.5 的指數加權平均來跟蹤溫度: v0=0,vt=βvt?1+(1?β)θtv_0=0,v_t=\beta v_{t-1}+(1-\beta)\theta_tv0?=0,vt?=βvt?1?+(1?β)θt? 。如果 v2v_2v2? 是在沒有偏差修正的情況下計算第2天后的值,并且 v2correctedv_2^{corrected}v2corrected? 是您使用偏差修正計算的值。 這些下面的值是正確的是?
A. v2=10,v2corrected=10v_2=10,v_2^{corrected}=10v2?=10,v2corrected?=10
B. v2=10,v2corrected=7.5v_2=10,v_2^{corrected}=7.5v2?=10,v2corrected?=7.5
C. v2=7.5,v2corrected=7.5v_2=7.5,v_2^{corrected}=7.5v2?=7.5,v2corrected?=7.5
D. v2=7.5,v2corrected=10v_2=7.5,v_2^{corrected}=10v2?=7.5,v2corrected?=10
第 56 題
下面哪一個不是比較好的學習率衰減方法?
A. α=11+2?tα0\alpha=\frac{1}{1+2*t}\alpha_0α=1+2?t1?α0?
B. α=1tα0\alpha=\frac{1}{\sqrt{t}}\alpha_0α=t?1?α0?
C. α=0.95tα0\alpha=0.95^t\alpha_0α=0.95tα0?
D. α=etα0\alpha=e^t\alpha_0α=etα0?
第 57 題
您在倫敦溫度數據集上使用指數加權平均, 使用以下公式來追蹤溫度: vt=βvt?1+(1?β)θtv_t=\beta v_{t-1}+(1-\beta)\theta_tvt?=βvt?1?+(1?β)θt? 。下圖中紅線使用的是 β=0.9\beta=0.9β=0.9 來計算的。當你改變 β\betaβ 時,你的紅色曲線會怎樣變化?(選出所有正確項)
A.減小 β\betaβ ,紅色線會略微右移
B.增加 β\betaβ ,紅色線會略微右移
C.減小 β\betaβ ,紅線會更加震蕩
D.增加 β\betaβ ,紅線會更加震蕩
第 58 題
下圖中的曲線是由:梯度下降,動量梯度下降( β=0.5\beta=0.5β=0.5 )和動量梯度下降( β=0.9\beta=0.9β=0.9 )。哪條曲線對應哪種算法?
A.(1)是梯度下降;(2)是動量梯度下降( β=0.9\beta=0.9β=0.9 );(3)是動量梯度下降( β=0.5\beta=0.5β=0.5 )
B.(1)是梯度下降;(2)是動量梯度下降( β=0.5\beta=0.5β=0.5 );(3)是動量梯度下降( β=0.9\beta=0.9β=0.9 )
C.(1)是動量梯度下降( β=0.5\beta=0.5β=0.5 );(2)是動量梯度下降( β=0.9\beta=0.9β=0.9 );(3)是梯度下降
D.(1)是動量梯度下降( β=0.5\beta=0.5β=0.5 );(2)是梯度下降;(3)是動量梯度下降( β=0.9\beta=0.9β=0.9 )
第 59 題
假設在一個深度學習網絡中,批量梯度下降花費了大量時間時來找到一組參數值,使成本函數 J(W[1],b[1],?,W[L],b[L])J(W^{[1]},b^{[1]},\cdots,W^{[L]},b^{[L]})J(W[1],b[1],?,W[L],b[L]) 小。以下哪些方法可以幫助找到 JJJ 值較小的參數值?
A.令所有權重值初始化為0
B.嘗試調整學習率
C.嘗試mini-batch梯度下降
D.嘗試對權重進行更好的隨機初始化
E.嘗試使用 Adam 算法
第 60 題
關于Adam算法,下列哪一個陳述是錯誤的?
A.Adam結合了Rmsprop和動量的優點
B.Adam中的學習率超參數 α\alphaα 通常需要調整
C.我們經常使用超參數的“默認”值 β1=0.9,β2=0.999,?=10?8\beta_1=0.9,\beta_2=0.999,\epsilon=10^{-8}β1?=0.9,β2?=0.999,?=10?8
D.Adam應該用于批梯度計算,而不是用于mini-batch
51-60題 答案
51.A 52.C 53.BC 54.B 55.D 56.D 57.BC 58.B 59.BCDE 60.D
| 2.10 局部最優的問題 | 回到目錄 | 3.1 調試處理 |
總結
以上是生活随笔為你收集整理的2.11 总结-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.10 局部最优的问题-深度学习第二课
- 下一篇: 3.1 调试处理-深度学习第二课《改善深