《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)
模型選擇與評估
一、內(nèi)容
1.經(jīng)驗(yàn)誤差與過擬合
1.1 學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差(training error),在新樣本上的誤差稱為泛化誤差(generalizion error)。
1.2 當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)習(xí)的“太好“了的時(shí)候,很有可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會具有的一般性質(zhì),這樣就會導(dǎo)致泛化性能下降,這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為“過擬合”。與過擬合相對的是“欠擬合”,是指對樣本的一般性質(zhì)尚未學(xué)好。
2.評估方法
2.1 留出法:直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合S(訓(xùn)練集),T(測試集),要保持?jǐn)?shù)據(jù)分布的一致性(分層采樣)。一般將大約2/3~4/5的樣本用于訓(xùn)練,剩余樣本用于測試。
2.2 交叉驗(yàn)證法:將數(shù)據(jù)集D劃分為k個(gè)大小相似的互斥子集,即D = D1UD2U...Dk。每個(gè)子集盡可能保持?jǐn)?shù)據(jù)分布的一致性。每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下的子集作為測試集;從而可以進(jìn)行k次訓(xùn)練和測試,最終返回k個(gè)測試結(jié)果的均值。又稱為“k折交叉驗(yàn)證”,比較常用的是10折交叉驗(yàn)證。與留出法相似,數(shù)據(jù)集D劃分為k個(gè)子集有多種劃分方式。為減小因樣本劃分不同而引入的差別,k交叉驗(yàn)證通常要隨機(jī)使用不同的劃分重復(fù)p次,最終的評估結(jié)果是這p次k折交叉驗(yàn)證結(jié)果的均值,常見的有10次10折交叉驗(yàn)證。
特殊:留一法
2.3 自助法:實(shí)際評估的模型與期望評估的模型都使用m個(gè)訓(xùn)練樣本。數(shù)據(jù)量少,難以有效劃分訓(xùn)練測試集時(shí)很有用,改變了初始數(shù)據(jù)集的分布,引入了估計(jì)偏差
2.4 調(diào)參與最終模型:在使用訓(xùn)練數(shù)據(jù)測試數(shù)據(jù)評估選擇完成后,學(xué)習(xí)算法和參數(shù)配置已選定,此時(shí)應(yīng)該用數(shù)據(jù)集D重新訓(xùn)練模型
3.性能度量
回歸任務(wù)最常用的性能度量是“均方誤差”
3.1 錯(cuò)誤率與精度
3.2 查準(zhǔn)率、查全率與F1:P-R曲線,平衡點(diǎn)(Break-Even Point ,BEP) F1 = (2*P*R)/(P+R)
3.3 ROC 與AUC:ROC"受試者工作特這"(Receiver Operatinf Characteristic)曲線。AUC(Area Under ROC Curve)
3.4 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線:代價(jià)矩陣
4和5.比較檢驗(yàn),偏差與方差
這一部分個(gè)人覺得需要一定的概率論知識,打算先跳過,看看概率論之后再補(bǔ)上。
?
二、課后習(xí)題
1.數(shù)據(jù)集包含1000個(gè)樣本,其中500個(gè)正例,500個(gè)反例,將其劃分為包含70%樣本的訓(xùn)練集和30%樣本的測試集用于留出法評估,試估算共有多少種劃分方式。
這是一個(gè)排列組合問題,500*70% = 350 個(gè)正例(反例)做訓(xùn)練集,150個(gè)正例(反例)做測試集。
2.數(shù)據(jù)集包含100個(gè)樣本,其中正反例各一半,假定學(xué)習(xí)算法所產(chǎn)生的模型是將新樣本預(yù)測為訓(xùn)練樣本數(shù)較多的類別(訓(xùn)練樣本數(shù)相同時(shí)進(jìn)行隨機(jī)猜測),試給出用10折交叉驗(yàn)證法和留一法分別對錯(cuò)誤率進(jìn)行評估所得的結(jié)果。
10折交叉檢驗(yàn):由于每次訓(xùn)練樣本中正反例數(shù)目一樣,所以講結(jié)果判斷為正反例的概率也是一樣的,所以錯(cuò)誤率的期望是50%。?
留一法:如果留下的是正例,訓(xùn)練樣本中反例的數(shù)目比正例多一個(gè),所以留出的樣本會被判斷是反例;同理,留出的是反例,則會被判斷成正例,所以錯(cuò)誤率是100%。
3.若學(xué)習(xí)器A的F1值比學(xué)習(xí)器B高,試析A的BEP值是否也比B高。
這個(gè)題目我自己的思路: 就是在BEP點(diǎn)時(shí),P = R ,分別帶入A與B 的F1 ,根據(jù)大小關(guān)系化簡得到P1^2/P1 > P2^2/P2 => P1 > P2。 也就是A 的比B 的高。
但是看了其他人的給出了比較復(fù)雜的解法,結(jié)果也不一樣。如果反推確實(shí)能證明結(jié)論不正確,可是我又不知道上邊的證明哪里有問題。。(看了別人的解法?F1 如果就在P = R的地方截?cái)嗑褪悄艽_定的,但是F 1的截?cái)辔恢檬遣淮_定的)
4.試述真正例率(TPR)、假正例率(FPR)與查準(zhǔn)率(P)、查全率(R)之間的聯(lián)系。
查全率: 真實(shí)正例被預(yù)測為正例的比例?
真正例率: 真實(shí)正例被預(yù)測為正例的比例?
顯然查全率與真正例率是相等的。?
查準(zhǔn)率:預(yù)測為正例的實(shí)例中真實(shí)正例的比例?
假正例率: 真實(shí)反例被預(yù)測為正例的比例?
兩者并沒有直接的數(shù)值關(guān)系。
5.試證明(2.22)
用面積證明,lrank 對應(yīng)的就是曲線上方的面積,罰分0.5的情況就是正好有一個(gè)正例一個(gè)反例的預(yù)測值相等,這樣就是一個(gè)斜線,面積記0.5。
6.試述錯(cuò)誤率與ROC曲線之間的關(guān)系
ROCROC曲線每個(gè)點(diǎn)對應(yīng)了一個(gè)TPRTPR與FPRFPR,此時(shí)對應(yīng)了一個(gè)錯(cuò)誤率。?
Ecost=(m+?(1?TPR)?cost01+m??FPR?cost10)/(m++m?)
學(xué)習(xí)器會選擇錯(cuò)誤率最小的位置作為截?cái)帱c(diǎn)。
7.試證明任意一條ROC曲線都有一條代價(jià)曲線與之對應(yīng),反之亦然
由定義可以知道TPRTPR與FPRFPR都是由00上升到11,那么FNRFNR則是由11下降到00。?
每條ROCROC曲線都會對應(yīng)一條代價(jià)曲線,由于第一條代價(jià)線段的是(0,0),(1,1)(0,0),(1,1),最后是(0,1)(1,0)(0,1)(1,0),?
所有代價(jià)線段總會有一塊公共區(qū)域,這個(gè)區(qū)域就是期望總體代價(jià),而這塊區(qū)域的邊界就是代價(jià)曲線,且肯定從(0,0)(0,0)到(1,0)(1,0)。?
在有限個(gè)樣本情況下,ROCROC是一條折線,此時(shí)根據(jù)代價(jià)曲線無法還原ROCROC曲線。但若是理論上有無限個(gè)樣本,ROCROC是一條連續(xù)的折線,代價(jià)曲線也是連續(xù)的折線,每個(gè)點(diǎn)的切線可以求出TPRTPR與FNRFNR,從而得到唯一的ROCROC曲線。
答案參考http://blog.csdn.net/icefire_tyh/article/details/52065867
總結(jié)
以上是生活随笔為你收集整理的《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《机器学习》 周志华学习笔记第一章 绪论
- 下一篇: 神经网络优化:指数衰减计算平均值(滑动平