日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

吴恩达老师深度学习视频课笔记:构建机器学习项目(机器学习策略)(1)

發(fā)布時(shí)間:2023/11/27 生活经验 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 吴恩达老师深度学习视频课笔记:构建机器学习项目(机器学习策略)(1) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

????????機(jī)器學(xué)習(xí)策略(machine learning strategy):分析機(jī)器學(xué)習(xí)問(wèn)題的方法。

????正交化(orthogonalization):要讓一個(gè)監(jiān)督機(jī)器學(xué)習(xí)系統(tǒng)很好的工作,一般要確保四件事情,如下圖:


????????(1)、首先,你通常必須確保至少系統(tǒng)在訓(xùn)練集上得到的結(jié)果不錯(cuò)。所以訓(xùn)練集上的表現(xiàn)必須通過(guò)某種評(píng)估達(dá)到能接受的程度,對(duì)于某些應(yīng)用,這可能意味著達(dá)到人類水平的表現(xiàn),但這也取決于你的應(yīng)用。

????????(2)、接著,你就希望系統(tǒng)在開(kāi)發(fā)集(dev set)上也能有好的表現(xiàn)。

????????(3)、接著,你希望系統(tǒng)在測(cè)試集(test set)上也有好的表現(xiàn)。

????????(4)、最后,你希望系統(tǒng)在實(shí)際使用中表現(xiàn)令人滿意。

????????如果你的算法在成本函數(shù)(cost function)上不能很好地?cái)M合訓(xùn)練集,你可能可以訓(xùn)練更大的網(wǎng)絡(luò)或者選擇一個(gè)更好的優(yōu)化算法,比如Adam優(yōu)化算法等等。如果你的算法不能很好地?cái)M合開(kāi)發(fā)集,可以增加一些正則項(xiàng)或者增大訓(xùn)練集。如果你的算法不能很好地?cái)M合測(cè)試集,你可能增大開(kāi)發(fā)集。因?yàn)槿绻到y(tǒng)在開(kāi)發(fā)集上表現(xiàn)很好,但在測(cè)試集上表現(xiàn)較差,這可能意味著你在開(kāi)發(fā)集上過(guò)擬合了,需要使用更大的開(kāi)發(fā)集。如果在實(shí)際使用中表現(xiàn)較差,這意味著你需要回去改變開(kāi)發(fā)集或成本函數(shù)。因?yàn)楦鶕?jù)某個(gè)成本函數(shù),系統(tǒng)在測(cè)試集上表現(xiàn)較好,在實(shí)際使用中表現(xiàn)較差,這意味著你的開(kāi)發(fā)集分布不正確或你的成本函數(shù)測(cè)量指標(biāo)不對(duì)。

????????當(dāng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),我傾向于不用早期停止(when i train a neural network, i tend not to use early stopping),這個(gè)技巧還不錯(cuò),很多人都這么干。過(guò)早停止有點(diǎn)難以分析問(wèn)題,對(duì)訓(xùn)練集的擬合也不太好,也同時(shí)影響開(kāi)發(fā)集的表現(xiàn)。

????????單實(shí)數(shù)評(píng)估指標(biāo)(single real number evaluation metric):它可以快速告訴你,新嘗試的手段比之前的手段好還是壞,如下圖:



????????查準(zhǔn)率(precision):例如,在你的分類器標(biāo)記為貓的例子中,有多少真的是貓,例如有95%的查準(zhǔn)率,意味著分類器說(shuō)這圖有貓的時(shí)候,有95%的機(jī)會(huì)真是貓。

????????查全率(recall):對(duì)于所有真貓的圖像,你的分類器正確識(shí)別出的百分比,實(shí)際為貓的圖像中,有多少被系統(tǒng)識(shí)別出來(lái)。

????????事實(shí)證明,查準(zhǔn)率和查全率之間往往需要折衷,兩個(gè)指標(biāo)都要顧及到。用查準(zhǔn)率和查全率來(lái)評(píng)估分類器是比較合理的。但如果僅有兩個(gè)評(píng)估指標(biāo),很難去快速地選擇出好的分類器。不推薦用兩個(gè)評(píng)估指標(biāo)查準(zhǔn)率和查全率來(lái)選擇一個(gè)分類器,需要找到一個(gè)新的評(píng)估指標(biāo),能夠結(jié)合查準(zhǔn)率和查全率。在機(jī)器學(xué)習(xí)文獻(xiàn)中,結(jié)合查準(zhǔn)率和查全率的標(biāo)準(zhǔn)方法是F1分?jǐn)?shù)(F1 score),F1分?jǐn)?shù)非正式地可以認(rèn)為是查準(zhǔn)率(P)和查全率(R)的平均值,正式地F1分?jǐn)?shù)公式是:2/(1/P+1/R),在數(shù)學(xué)中,這個(gè)函數(shù)叫做the harmonic mean of precision P andrecall R。

????????滿足和優(yōu)化指標(biāo)(satisficing as well as optimizing metrics):如下圖,一般地說(shuō),如果你要考慮N個(gè)指標(biāo),有時(shí)候選擇其中一個(gè)指標(biāo)作為優(yōu)化指標(biāo)是合理的。所以你想盡量?jī)?yōu)化那個(gè)指標(biāo),然后剩下的N-1個(gè)指標(biāo)都是滿足指標(biāo)。意味著只要它們達(dá)到一定閾值,你就不在關(guān)心超過(guò)那個(gè)閾值之后的表現(xiàn),但它們必須達(dá)到那個(gè)閾值。這些評(píng)估指標(biāo)必須是在訓(xùn)練集或開(kāi)發(fā)集或測(cè)試集上評(píng)估或計(jì)算出來(lái)的。


????????訓(xùn)練集、開(kāi)發(fā)集、測(cè)試集劃分:機(jī)器學(xué)習(xí)中的工作流程是:你嘗試很多想法,用訓(xùn)練集訓(xùn)練不同的模型,然后使用開(kāi)發(fā)集來(lái)評(píng)估不同的想法,然后選擇一個(gè)。然后不斷迭代去改善開(kāi)發(fā)集的性能。直到最后,你可以得到一個(gè)令你滿意的成本(cost),然后你再用測(cè)試集去評(píng)估。

????????假如只有開(kāi)發(fā)集和測(cè)試集的情況,如下圖,讓開(kāi)發(fā)集和測(cè)試集來(lái)自同一分布。設(shè)立開(kāi)發(fā)集+單實(shí)數(shù)評(píng)估指標(biāo)。將所有數(shù)據(jù)隨機(jī)洗牌放入開(kāi)發(fā)集和測(cè)試集。


????????開(kāi)發(fā)集和測(cè)試集的大小:測(cè)試集的目的是完成系統(tǒng)開(kāi)發(fā)后,測(cè)試集可以幫你評(píng)估最終系統(tǒng)的性能。方針(guideline)就是令你的測(cè)試集足夠大,能夠以高置信度評(píng)估系統(tǒng)整體性能,但它可能遠(yuǎn)小于訓(xùn)練集。把大量數(shù)據(jù)分到訓(xùn)練集,然后少量數(shù)據(jù)分到開(kāi)發(fā)集和測(cè)試集,如下圖:



????????什么時(shí)候應(yīng)該改變開(kāi)發(fā)集、測(cè)試集和指標(biāo):當(dāng)你的評(píng)估指標(biāo)無(wú)法正確衡量算法之間的優(yōu)劣排序時(shí),你應(yīng)該改變?cè)u(píng)估指標(biāo)或者要改變開(kāi)發(fā)集或測(cè)試集。其中一個(gè)修改評(píng)估指標(biāo)的方法是加個(gè)權(quán)重項(xiàng)。如果在指標(biāo)上表現(xiàn)很好,在當(dāng)前開(kāi)發(fā)集和測(cè)試集上表現(xiàn)很好,但你的實(shí)際應(yīng)用程序表現(xiàn)不好,那么就需要修改指標(biāo)和開(kāi)發(fā)測(cè)試集,改變你的開(kāi)發(fā)測(cè)試集,讓你的數(shù)據(jù)更能反映實(shí)際需要處理的數(shù)據(jù),如下圖:



????????why human-level performance:如下圖:



????????可避免的偏差:如下圖,根據(jù)人類對(duì)某個(gè)具體事物的表現(xiàn),如識(shí)別貓,來(lái)決定是否需要減少偏差。假如人對(duì)貓的識(shí)別錯(cuò)誤率



為1%,而訓(xùn)練集的錯(cuò)誤率為8%,開(kāi)發(fā)集的錯(cuò)誤率為10%,這時(shí)就需要減少偏差,比如訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)或者跑久一點(diǎn)梯度下降,看看是否可以減少訓(xùn)練誤差。假如人對(duì)貓的識(shí)別錯(cuò)誤率為7.5%,而訓(xùn)練集的錯(cuò)誤率仍然為8%,開(kāi)發(fā)集的錯(cuò)誤率仍然為10%,此時(shí)你可能更希望減少學(xué)習(xí)算法的方差,比如可以試試正則化,讓你的開(kāi)發(fā)誤差更接近你的訓(xùn)練誤差。取決于人類水平誤差有多少或者很接近貝葉斯誤差,來(lái)決定是側(cè)重于減少偏差還是減少方差。貝葉斯誤差和訓(xùn)練集誤差的差值稱為可避免偏差,如下圖。根據(jù)人類水平誤差(human-level error),理解你對(duì)貝葉斯誤差的估計(jì),你就可以在不同的場(chǎng)景中專注于不同的策略,使用避免偏差策略還是使用避免方差策略。


????????Understanding human-level performance: 如下圖:



????????Surpassing human-level performance:非自然感知問(wèn)題(natural perception problems),如Online advertising、Product recommendations、Logistics(predicting transit time)、Loan approvals等,即不是計(jì)算機(jī)視覺(jué)或語(yǔ)音識(shí)別或自然語(yǔ)言處理問(wèn)題,較容易超越人類水平。人們?cè)谧匀桓兄獑?wèn)題中往往表現(xiàn)非常好。所以有可能,對(duì)計(jì)算機(jī)來(lái)說(shuō),在自然感知任務(wù)的表現(xiàn)要超越人類要更難一些。現(xiàn)在,即使在自然感知任務(wù)中,在某些情況下,計(jì)算機(jī)已經(jīng)可以超越人類的水平了。如下圖:



????????Improving your model performance:想要讓一個(gè)監(jiān)督學(xué)習(xí)算法達(dá)到實(shí)用基本上希望或假設(shè)你可以完成兩件事情:首先,你的算法對(duì)訓(xùn)練集的擬合很好,即做到低偏差;第二,在訓(xùn)練集上做的很好,然后推廣到開(kāi)發(fā)集和測(cè)試集也很好,即低方差。為了減少偏差,可使用的策略包括:訓(xùn)練更大的模型、訓(xùn)練時(shí)間更長(zhǎng)一些;使用更好的優(yōu)化算法,比如momentum、RMSProp;使用更好的算法,比如Adam;或者可以試試尋找更好的新神經(jīng)網(wǎng)絡(luò)架構(gòu),更好的超參數(shù);改變激活函數(shù),改變層數(shù)或隱藏單元數(shù);試用其它模型或其它模型架構(gòu),如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。為了減少方差,可使用的策略包括:收集更多數(shù)據(jù)去訓(xùn)練;嘗試正則化,包括L2正則化和Dropout,數(shù)據(jù)增強(qiáng);嘗試不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),超參數(shù)搜索。如下圖:



????? ? GitHub:?https://github.com/fengbingchun/NN_Test?

總結(jié)

以上是生活随笔為你收集整理的吴恩达老师深度学习视频课笔记:构建机器学习项目(机器学习策略)(1)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。