日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing

發(fā)布時(shí)間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

紅色石頭的個(gè)人網(wǎng)站:redstonewill.com

上節(jié)課,我們主要介紹了機(jī)器學(xué)習(xí)的可行性。首先,由NFL定理可知,機(jī)器學(xué)習(xí)貌似是不可行的。但是,隨后引入了統(tǒng)計(jì)學(xué)知識(shí),如果樣本數(shù)據(jù)足夠大,且hypothesis個(gè)數(shù)有限,那么機(jī)器學(xué)習(xí)一般就是可行的。本節(jié)課將討論機(jī)器學(xué)習(xí)的核心問(wèn)題,嚴(yán)格證明為什么機(jī)器可以學(xué)習(xí)。從上節(jié)課最后的問(wèn)題出發(fā),即當(dāng)hypothesis的個(gè)數(shù)是無(wú)限多的時(shí)候,機(jī)器學(xué)習(xí)的可行性是否仍然成立?

一、Recap and Preview

我們先來(lái)看一下基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)流程圖:

該流程圖中,訓(xùn)練樣本D和最終測(cè)試h的樣本都是來(lái)自同一個(gè)數(shù)據(jù)分布,這是機(jī)器能夠?qū)W習(xí)的前提。另外,訓(xùn)練樣本D應(yīng)該足夠大,且hypothesis set的個(gè)數(shù)是有限的,這樣根據(jù)霍夫丁不等式,才不會(huì)出現(xiàn)Bad Data,保證EinEoutEin≈Eout,即有很好的泛化能力。同時(shí),通過(guò)訓(xùn)練,得到使EinEin最小的h,作為模型最終的矩g,g接近于目標(biāo)函數(shù)。

這里,我們總結(jié)一下前四節(jié)課的主要內(nèi)容:第一節(jié)課,我們介紹了機(jī)器學(xué)習(xí)的定義,目標(biāo)是找出最好的矩g,使gfg≈f,保證Eout(g)0Eout(g)≈0;第二節(jié)課,我們介紹了如何讓Ein0Ein≈0,可以使用PLA、pocket等演算法來(lái)實(shí)現(xiàn);第三節(jié)課,我們介紹了機(jī)器學(xué)習(xí)的分類,我們的訓(xùn)練樣本是批量數(shù)據(jù)(batch),處理監(jiān)督式(supervised)二元分類(binary classification)問(wèn)題;第四節(jié)課,我們介紹了機(jī)器學(xué)習(xí)的可行性,通過(guò)統(tǒng)計(jì)學(xué)知識(shí),把Ein(g)Ein(g)Eout(g)Eout(g)聯(lián)系起來(lái),證明了在一些條件假設(shè)下,Ein(g)Eout(g)Ein(g)≈Eout(g)成立。

這四節(jié)課總結(jié)下來(lái),我們把機(jī)器學(xué)習(xí)的主要目標(biāo)分成兩個(gè)核心的問(wèn)題:

  • Ein(g)Eout(g)Ein(g)≈Eout(g)

  • Ein(g)Ein(g)足夠小

上節(jié)課介紹的機(jī)器學(xué)習(xí)可行的一個(gè)條件是hypothesis set的個(gè)數(shù)M是有限的,那M跟上面這兩個(gè)核心問(wèn)題有什么聯(lián)系呢?

我們先來(lái)看一下,當(dāng)M很小的時(shí)候,由上節(jié)課介紹的霍夫丁不等式,得到Ein(g)Eout(g)Ein(g)≈Eout(g),即能保證第一個(gè)核心問(wèn)題成立。但M很小時(shí),演算法A可以選擇的hypothesis有限,不一定能找到使Ein(g)Ein(g)足夠小的hypothesis,即不能保證第二個(gè)核心問(wèn)題成立。當(dāng)M很大的時(shí)候,同樣由霍夫丁不等式,Ein(g)Ein(g)Eout(g)Eout(g)的差距可能比較大,第一個(gè)核心問(wèn)題可能不成立。而M很大,使的演算法A的可以選擇的hypothesis就很多,很有可能找到一個(gè)hypothesis,使Ein(g)Ein(g)足夠小,第二個(gè)核心問(wèn)題可能成立。

從上面的分析來(lái)看,M的選擇直接影響機(jī)器學(xué)習(xí)兩個(gè)核心問(wèn)題是否滿足,M不能太大也不能太小。那么如果M無(wú)限大的時(shí)候,是否機(jī)器就不可以學(xué)習(xí)了呢?例如PLA算法中直線是無(wú)數(shù)條的,但是PLA能夠很好地進(jìn)行機(jī)器學(xué)習(xí),這又是為什么呢?如果我們能將無(wú)限大的M限定在一個(gè)有限的mHmH內(nèi),問(wèn)題似乎就解決了。

二、Effective Number of Line

我們先看一下上節(jié)課推導(dǎo)的霍夫丁不等式:

P[|Ein(g)?Eout(g)|>?]2?M?exp(?2?2N)P[|Ein(g)?Eout(g)|>?]≤2?M?exp(?2?2N)

其中,M表示hypothesis的個(gè)數(shù)。每個(gè)hypothesis下的BAD events BmBm級(jí)聯(lián)的形式滿足下列不等式:

P[B1?or?B2?or??BM]P[B1]+P[B2]+?+P[BM]P[B1orB2or?BM]≤P[B1]+P[B2]+?+P[BM]

當(dāng)M=M=∞時(shí),上面不等式右邊值將會(huì)很大,似乎說(shuō)明BAD events很大,Ein(g)Ein(g)Eout(g)Eout(g)也并不接近。但是BAD events BmBm級(jí)聯(lián)的形式實(shí)際上是擴(kuò)大了上界,union bound過(guò)大。這種做法假設(shè)各個(gè)hypothesis之間沒有交集,這是最壞的情況,可是實(shí)際上往往不是如此,很多情況下,都是有交集的,也就是說(shuō)M實(shí)際上沒那么大,如下圖所示:

也就是說(shuō)union bound被估計(jì)過(guò)高了(over-estimating)。所以,我們的目的是找出不同BAD events之間的重疊部分,也就是將無(wú)數(shù)個(gè)hypothesis分成有限個(gè)類別。

如何將無(wú)數(shù)個(gè)hypothesis分成有限類呢?我們先來(lái)看這樣一個(gè)例子,假如平面上用直線將點(diǎn)分開,也就跟PLA一樣。如果平面上只有一個(gè)點(diǎn)x1,那么直線的種類有兩種:一種將x1劃為+1,一種將x1劃為-1:

如果平面上有兩個(gè)點(diǎn)x1、x2,那么直線的種類共4種:x1、x2都為+1,x1、x2都為-1,x1為+1且x2為-1,x1為-1且x2為+1:

如果平面上有三個(gè)點(diǎn)x1、x2、x3,那么直線的種類共8種:

但是,在三個(gè)點(diǎn)的情況下,也會(huì)出現(xiàn)不能用一條直線劃分的情況:

也就是說(shuō),對(duì)于平面上三個(gè)點(diǎn),不能保證所有的8個(gè)類別都能被一條直線劃分。那如果是四個(gè)點(diǎn)x1、x2、x3、x4,我們發(fā)現(xiàn),平面上找不到一條直線能將四個(gè)點(diǎn)組成的16個(gè)類別完全分開,最多只能分開其中的14類,即直線最多只有14種:

經(jīng)過(guò)分析,我們得到平面上線的種類是有限的,1個(gè)點(diǎn)最多有2種線,2個(gè)點(diǎn)最多有4種線,3個(gè)點(diǎn)最多有8種線,4個(gè)點(diǎn)最多有14(<24<24<script type="math/tex" id="MathJax-Element-24"><2^4</script>)種線等等。我們發(fā)現(xiàn),有效直線的數(shù)量總是滿足2N≤2N,其中,N是點(diǎn)的個(gè)數(shù)。所以,如果我們可以用effective(N)代替M,霍夫丁不等式可以寫成:

P[|Ein(g)?Eout(g)|>?]2?effective(N)?exp(?2?2N)P[|Ein(g)?Eout(g)|>?]≤2?effective(N)?exp(?2?2N)

已知effective(N)<2N2N,如果能夠保證effective(N)<<2N2N,即不等式右邊接近于零,那么即使M無(wú)限大,直線的種類也很有限,機(jī)器學(xué)習(xí)也是可能的。

三、Effective Number of Hypotheses

接下來(lái)先介紹一個(gè)新名詞:二分類(dichotomy)。dichotomy就是將空間中的點(diǎn)(例如二維平面)用一條直線分成正類(藍(lán)色o)和負(fù)類(紅色x)。令H是將平面上的點(diǎn)用直線分開的所有hypothesis h的集合,dichotomy H與hypotheses H的關(guān)系是:hypotheses H是平面上所有直線的集合,個(gè)數(shù)可能是無(wú)限個(gè),而dichotomy H是平面上能將點(diǎn)完全用直線分開的直線種類,它的上界是2N2N。接下來(lái),我們要做的就是嘗試用dichotomy代替M。

再介紹一個(gè)新的名詞:成長(zhǎng)函數(shù)(growth function),記為mH(H)mH(H)。成長(zhǎng)函數(shù)的定義是:對(duì)于由N個(gè)點(diǎn)組成的不同集合中,某集合對(duì)應(yīng)的dichotomy最大,那么這個(gè)dichotomy值就是mH(H)mH(H),它的上界是2N2N

成長(zhǎng)函數(shù)其實(shí)就是我們之前講的effective lines的數(shù)量最大值。根據(jù)成長(zhǎng)函數(shù)的定義,二維平面上,mH(H)mH(H)隨N的變化關(guān)系是:

接下來(lái),我們討論如何計(jì)算成長(zhǎng)函數(shù)。先看一個(gè)簡(jiǎn)單情況,一維的Positive Rays:

若有N個(gè)點(diǎn),則整個(gè)區(qū)域可分為N+1段,很容易得到其成長(zhǎng)函數(shù)mH(N)=N+1mH(N)=N+1。注意當(dāng)N很大時(shí),(N+1)<<2N(N+1)<<2N,這是我們希望看到的。

另一種情況是一維的Positive Intervals:

它的成長(zhǎng)函數(shù)可以由下面推導(dǎo)得出:

這種情況下,mH(N)=12N2+12N+1<<2NmH(N)=12N2+12N+1<<2N,在N很大的時(shí)候,仍然是滿足的。

再來(lái)看這個(gè)例子,假設(shè)在二維空間里,如果hypothesis是凸多邊形或類圓構(gòu)成的封閉曲線,如下圖所示,左邊是convex的,右邊不是convex的。那么,它的成長(zhǎng)函數(shù)是多少呢?

當(dāng)數(shù)據(jù)集D按照如下的凸分布時(shí),我們很容易計(jì)算得到它的成長(zhǎng)函數(shù)mH=2NmH=2N。這種情況下,N個(gè)點(diǎn)所有可能的分類情況都能夠被hypotheses set覆蓋,我們把這種情形稱為shattered。也就是說(shuō),如果能夠找到一個(gè)數(shù)據(jù)分布集,hypotheses set對(duì)N個(gè)輸入所有的分類情況都做得到,那么它的成長(zhǎng)函數(shù)就是2N2N

四、Break Point

上一小節(jié),我們介紹了四種不同的成長(zhǎng)函數(shù),分別是:

其中,positive rays和positive intervals的成長(zhǎng)函數(shù)都是polynomial的,如果用mHmH代替M的話,這兩種情況是比較好的。而convex sets的成長(zhǎng)函數(shù)是exponential的,即等于M,并不能保證機(jī)器學(xué)習(xí)的可行性。那么,對(duì)于2D perceptrons,它的成長(zhǎng)函數(shù)究竟是polynomial的還是exponential的呢?

對(duì)于2D perceptrons,我們之前分析了3個(gè)點(diǎn),可以做出8種所有的dichotomy,而4個(gè)點(diǎn),就無(wú)法做出所有16個(gè)點(diǎn)的dichotomy了。所以,我們就把4稱為2D perceptrons的break point(5、6、7等都是break point)。令有k個(gè)點(diǎn),如果k大于等于break point時(shí),它的成長(zhǎng)函數(shù)一定小于2的k次方。

根據(jù)break point的定義,我們知道滿足mH(k)2kmH(k)≠2k的k的最小值就是break point。對(duì)于我們之前介紹的四種成長(zhǎng)函數(shù),他們的break point分別是:

通過(guò)觀察,我們猜測(cè)成長(zhǎng)函數(shù)可能與break point存在某種關(guān)系:對(duì)于convex sets,沒有break point,它的成長(zhǎng)函數(shù)是2的N次方;對(duì)于positive rays,break point k=2,它的成長(zhǎng)函數(shù)是O(N);對(duì)于positive intervals,break point k=3,它的成長(zhǎng)函數(shù)是O(N2)O(N2)。則根據(jù)這種推論,我們猜測(cè)2D perceptrons,它的成長(zhǎng)函數(shù)mH(N)=O(Nk?1)mH(N)=O(Nk?1) 。如果成立,那么就可以用mHmH代替M,就滿足了機(jī)器能夠?qū)W習(xí)的條件。關(guān)于上述猜測(cè)的證明,我們下節(jié)課再詳細(xì)介紹。

五、總結(jié)

本節(jié)課,我們更深入地探討了機(jī)器學(xué)習(xí)的可行性。我們把機(jī)器學(xué)習(xí)拆分為兩個(gè)核心問(wèn)題:Ein(g)Eout(g)Ein(g)≈Eout(g)Ein(g)0Ein(g)≈0。對(duì)于第一個(gè)問(wèn)題,我們探討了M個(gè)hypothesis到底可以劃分為多少種,也就是成長(zhǎng)函數(shù)mHmH。并引入了break point的概念,給出了break point的計(jì)算方法。下節(jié)課,我們將詳細(xì)論證對(duì)于2D perceptrons,它的成長(zhǎng)函數(shù)與break point是否存在多項(xiàng)式的關(guān)系,如果是這樣,那么機(jī)器學(xué)習(xí)就是可行的。

注明:

文章中所有的圖片均來(lái)自臺(tái)灣大學(xué)林軒田《機(jī)器學(xué)習(xí)基石》課程。

關(guān)注公眾號(hào)并輸入關(guān)鍵字“jspdf”獲得該筆記的pdf文件哦~

更多AI資源請(qǐng)關(guān)注公眾號(hào):紅色石頭的機(jī)器學(xué)習(xí)之路(ID:redstonewill)

總結(jié)

以上是生活随笔為你收集整理的台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美成人午夜精品久久久 | 久久人人爽人人人人片 | 中文字幕第6页 | 奇米四色7777 | 啪啪网视频 | 国产一区二区不卡在线 | 污污网站在线看 | 精品国产视频一区二区三区 | 99久久久无码国产精品性色戒 | 欧美综合色区 | 色吊丝网站 | 日本一区二区三区在线观看视频 | 操到喷水 | 色乱码一区二区三区 | 国产做爰高潮呻吟视频 | 中文字幕在线1 | a级黄视频| 国产福利第一页 | 黄色片久久久 | 国产精品毛片va一区二区三区 | av网站网址 | 国产亚洲视频在线观看 | 成人性生活视频 | 精品国产午夜福利 | 欧美三级三级三级爽爽爽 | 19禁大尺度做爰无遮挡电影 | 欧美大片在线播放 | 久久久久免费看 | 欧美激情一区二区三区在线 | 97久久国产亚洲精品超碰热 | 欧美色图17p| 修仙淫交(高h)h文 | 一级特黄bbbbb免费观看 | 俄罗斯乱妇 | 高清国产一区二区三区 | 国产美女av在线 | 亚洲在线看 | 用我的手指扰乱你 | 日韩男女啪啪 | 欧美一级艳片视频免费观看 | 色妞色视频一区二区三区四区 | 国内自拍真实伦在线观看 | 国产精品久久久久久亚洲毛片 | 国产成人精品影院 | 免费成人在线看 | 国产精彩视频在线 | 色呦呦中文字幕 | 91一区二区三区 | 九九热九九爱 | 狠狠躁18三区二区一区传媒剧情 | 久久咪咪 | 国产欧美中文字幕 | jizzjizz日本免费视频 | 亚洲第一区在线观看 | 成人三级做爰av | 体内精69xxxxxx | 国产一级黄色大片 | 波多野吉衣一区二区三区 | 久久亚洲视频 | 久久99久久久 | 国产精品宾馆在线精品酒店 | 性xx紧缚网站 | 涩涩在线观看 | 午夜少妇av | 9999av| 成人91看片 | 91精品国产乱码久久久久 | 免费古装一级淫片潘金莲 | 亚洲成成品网站 | 国内毛片毛片毛片毛片 | 久久久久久久久久久久久女国产乱 | 久热国产视频 | 亚洲免费一二三区 | 国产网址在线观看 | 亚洲综合精品国产一区二区三区 | 日韩欧美麻豆 | 国内精品人妻无码久久久影院蜜桃 | 91中文字幕视频 | 国产伦精品一区二区三区免.费 | 国产第一页屁屁影院 | 阿v视频在线免费观看 | 免费黄在线 | 在线观看中文字幕av | 日本在线播放视频 | 少妇一级淫片免费 | 成人在线手机视频 | 国产日韩欧美综合 | 自拍视频一区 | 污网在线看 | 国产裸体网站 | 夜夜操导航| 日本在线播放 | 亚洲精品国产日韩 | 男受被做哭激烈娇喘gv视频 | 99热这里只 | 免费观看全黄做爰的视频 | 精品孕妇一区二区三区 | 每日更新在线观看av | 成年人黄色大全 |