吴恩达机器学习笔记十四之大规模机器学习
本節目錄
- 1 大型數據集的學習
- 2 隨機梯度下降法
- 3 小批量梯度下降
- 4 隨機梯度下降收斂
- 5 在線學習
- 6 映射化簡和數據并行
1 大型數據集的學習
如果我們有一個低方差的模型,增加數據集的規模可以幫助你獲得更好的結果。我們應該怎樣應對一個有 100 萬條記錄的訓練集?
以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,
如果我們的學習算法需要有 20 次迭代,這便已經是非常大的計算代價。
首先應該做的事是去檢查一個這么大規模的訓練集是否真的必要,也許我們只用 1000
個訓練集也能獲得較好的效果,我們可以繪制學習曲線來幫助判斷。
2 隨機梯度下降法
隨機梯度下降算法在每一次計算之后便更新參數 𝜃 ,而不需要首先將所有的訓練集求和,在梯度下降算法還沒有完成一次迭代時,隨機梯度下降算法便已經走出了很遠。但是這樣的算法存在的問題是, 不是每一步都是朝著”正確”的方向邁出的。 因此算法雖然會逐漸走向全局最小值的位置,但是可能無法站到那個最小值的那一點,而是在最小值點附近徘徊。
3 小批量梯度下降
小批量梯度下降算法是介于批量梯度下降算法和隨機梯度下降算法之間的算法,每計算常數𝑏次訓練實例,便更新一次參數 𝜃 。
通常我們會令 𝑏 在 2-100 之間。這樣做的好處在于,我們可以用向量化的方式來循環𝑏個訓練實例,如果我們用的線性代數函數庫比較好,能夠支持平行處理,那么算法的總體表現將不受影響(與隨機梯度下降相同)。
4 隨機梯度下降收斂
現在我們介紹隨機梯度下降算法的調試,以及學習率 𝛼 的選取。
在批量梯度下降中,我們可以令代價函數𝐽為迭代次數的函數,繪制圖表,根據圖表來判斷梯度下降是否收斂。但是,在大規模的訓練集的情況下,這是不現實的,因為計算代價太大了。
在隨機梯度下降中,我們在每一次更新 𝜃 之前都計算一次代價,然后每𝑥次迭代后,求出這𝑥次對訓練實例計算代價的平均值,然后繪制這些平均值與𝑥次迭代的次數之間的函數圖表。
當我們繪制這樣的圖表時,可能會得到一個顛簸不平但是不會明顯減少的函數圖像(如
上面左下圖中藍線所示)。我們可以增加𝛼來使得函數更加平緩,也許便能看出下降的趨勢
了(如上面左下圖中紅線所示);或者可能函數圖表仍然是顛簸不平且不下降的(如洋紅色
線所示),那么我們的模型本身可能存在一些錯誤。
如果我們得到的曲線如上面右下方所示,不斷地上升,那么我們可能會需要選擇一個較
小的學習率𝛼。
我們也可以令學習率隨著迭代次數的增加而減小,例如令
隨著我們不斷地靠近全局最小值,通過減小學習率,我們迫使算法收斂而非在最小值附近徘徊。 但是通常我們不需要這樣做便能有非常好的效果了,對𝛼進行調整所耗費的計算通常不值得。
這段視頻中,我們介紹了一種方法,近似地監測出隨機梯度下降算法在最優化代價函數中的表現,這種方法不需要定時地掃描整個訓練集,來算出整個樣本集的代價函數,而是只需要每次對最后 1000 個,或者多少個樣本,求一下平均值。應用這種方法,你既可以保證隨機梯度下降法正在正常運轉和收斂,也可以用它來調整學習速率𝛼的大小。
5 在線學習
假定你有一個提供運輸服務的公司,用戶們來向你詢問把包裹從 A 地運到 B 地的服務,
同時假定你有一個網站,讓用戶們可多次登陸,然后他們告訴你,他們想從哪里寄出包裹,
以及包裹要寄到哪里去,也就是出發地與目的地,然后你的網站開出運輸包裹的的服務價格。
比如,我會收取$50 來運輸你的包裹,我會收取$20 之類的,然后根據你開給用戶的這個價
格,用戶有時會接受這個運輸服務,那么這就是個正樣本,有時他們會走掉,然后他們拒絕
購買你的運輸服務,所以,讓我們假定我們想要一個學習算法來幫助我們,優化我們想給用
戶開出的價格。
一個算法來從中學習的時候來模型化問題在線學習算法指的是對數據流而非離線的靜
態數據集的學習。許多在線網站都有持續不斷的用戶流,對于每一個用戶,網站希望能在不
將數據存儲到數據庫中便順利地進行算法學習。
假使我們正在經營一家物流公司,每當一個用戶詢問從地點 A 至地點 B 的快遞費用時,
我們給用戶一個報價,該用戶可能選擇接受( 𝑦 = 1)或不接受( 𝑦 = 0)。
現在,我們希望構建一個模型,來預測用戶接受報價使用我們的物流服務的可能性。因
此報價 是我們的一個特征,其他特征為距離,起始地點,目標地點以及特定的用戶數據。
模型的輸出是:𝑝(𝑦 = 1)。
在線學習的算法與隨機梯度下降算法有些類似,我們對單一的實例進行學習,而非對一
個提前定義的訓練集進行循環。
一旦對一個數據的學習完成了,我們便可以丟棄該數據,不需要再存儲它了。這種方式
的好處在于,我們的算法可以很好的適應用戶的傾向性,算法可以針對用戶的當前行為不斷
地更新模型以適應該用戶。
這些問題中的任何一個都可以被歸類到標準的,擁有一個固定的樣本集的機器學習問題
中。或許,你可以運行一個你自己的網站,嘗試運行幾天,然后保存一個數據集,一個固定
的數據集,然后對其運行一個學習算法。但是這些是實際的問題,在這些問題里,你會看到
大公司會獲取如此多的數據,真的沒有必要來保存一個固定的數據集,取而代之的是你可以
使用一個在線學習算法來連續的學習,從這些用戶不斷產生的數據中來學習。這就是在線學
習機制,然后就像我們所看到的,我們所使用的這個算法與隨機梯度下降算法非常類似,唯
一的區別的是,我們不會使用一個固定的數據集,我們會做的是獲取一個用戶樣本,從那個
樣本中學習,然后丟棄那個樣本并繼續下去,而且如果你對某一種應用有一個連續的數據流,
這樣的算法可能會非常值得考慮。當然,在線學習的一個優點就是,如果你有一個變化的用
戶群,又或者你在嘗試預測的事情,在緩慢變化,就像你的用戶的品味在緩慢變化,這個在
線學習算法,可以慢慢地調試你所學習到的假設,將其調節更新到最新的用戶行為。
6 映射化簡和數據并行
如果我們用批量梯度下降算法來求解大規模數據集的最優解,我們需要對整個訓練集進行循環,
計算偏導數和代價,再求和,計算代價非常大。如果我們能夠將我們的數據集分配給不多臺
計算機,讓每一臺計算機處理數據集的一個子集,然后我們將計算的結果匯總在求和。這樣
的方法叫做映射簡化。
具體而言,如果任何學習算法能夠表達為,對訓練集的函數的求和,那么便能將這個任務分配給多臺計算機(或者同一臺計算機的不同 CPU 核心),以達到加速處理的目的。
例如,我們有 400 個訓練實例,我們可以將批量梯度下降的求和任務分配給 4 臺計算機
進行處理:
很多高級的線性代數函數庫已經能夠利用多核 CPU 的多個核心來并行地處理矩陣運算,這
也是算法的向量化實現如此重要的緣故(比調用循環快)。
總結
以上是生活随笔為你收集整理的吴恩达机器学习笔记十四之大规模机器学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python的正则匹配
- 下一篇: latex强调/重音符号