ML 03、机器学习的三要素
FROM:?http://www.cnblogs.com/ronny/p/4062792.html
機器學(xué)習(xí)算法原理、實現(xiàn)與實踐——機器學(xué)習(xí)的三要素
?
1 模型
在監(jiān)督學(xué)習(xí)中,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。模型的假設(shè)空間包含所有可能的條件概率分布或決策函數(shù)。例如,假設(shè)決策函數(shù)是輸入變量的線性函數(shù),那么模型的假設(shè)空間就是這些線性函數(shù)構(gòu)成的函數(shù)的集合。
假設(shè)空間用F表示。假設(shè)空間可以定義為決策函數(shù)的集合?
其中,X和Y是定義在輸入空間X和輸出空間Y上的變量。這時F通常是由一個參數(shù)向量決定的函數(shù)族?
參數(shù)向量θ取值于n維歐氏空間Rn,稱為參數(shù)空間(parameter space)。
假設(shè)空間也可以定義為條件概率的集合?
其中,X和Y是定義在輸入空間X和輸出空間Y上的變量。這時F通常是由一個參數(shù)向量決定的條件概率分布族
F={P|Pθ(Y|X),θ∈Rn}
稱由決策函數(shù)表示的模型為非概率模型,由條件概率表示的模型為概率模型。
2 策略
有了模型的假設(shè)空間,機器學(xué)習(xí)接著要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。?
首先引入損失函數(shù)與風(fēng)險函數(shù)的概念。損失函數(shù)度量模型一次預(yù)測的好壞,風(fēng)險函數(shù)度量平均意義下模型預(yù)測的好壞。
2.1 損失函數(shù)與風(fēng)險函數(shù)
對于給定的輸入X和假設(shè)空間F中選擇的決策函數(shù)模型f,由f(X)給出相應(yīng)的輸入Y,這個輸出的預(yù)沒值f(X)與真實值Y可能一致,也可能不一致,用一個損失函數(shù)或代價函數(shù)來度量預(yù)測的錯誤程度。損失函數(shù)是f(x)和Y的非負(fù)實值函數(shù),記作L(Y,f(X))
幾種常用的損失函數(shù):
1) 0-1損失函數(shù)(0-1 loss function)?
2) 平方損失函數(shù)(quadratic loss function)?
3)絕對損失函數(shù)(absolute loss function)?
4) 對數(shù)損失函數(shù)(logarithmic loss function)或?qū)?shù)似然損失函數(shù)?
損失函數(shù)值越小,模型就越好。由于模型的輸入、輸出(X,Y)是隨機變量,遵循聯(lián)合分布P(X,Y),所以損失函數(shù)的期望是?
這是理論上模型f(X)關(guān)于聯(lián)合分布P(X,Y)的平均意義下的損失,稱為風(fēng)險函數(shù)(risk function)或期望損失(expected loss)。
學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險最小的模型。由于聯(lián)合分布P(X,Y)是所有樣本所遵循的統(tǒng)計規(guī)律,它是未知的,所以Rexp(f)不能直接計算。實際上如果知道了聯(lián)合分布,那么可以直接計算出P(Y|X)=∫XP(x,y)dx,也就不需要學(xué)習(xí)了。?
所以用上面那種方式定義風(fēng)險函數(shù)是不行的,那樣的話監(jiān)督學(xué)習(xí)變成了一個病態(tài)問題。
對于給定的訓(xùn)練數(shù)據(jù)集?
模型f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為經(jīng)驗風(fēng)險(empirical risk)或經(jīng)驗損失(empirical loss),記作Remp:?
期望風(fēng)險Rexp(f)是模型關(guān)于聯(lián)合分布的期望損失,經(jīng)驗風(fēng)險Remp(f)是模型關(guān)于訓(xùn)練樣本集的平均損失。根據(jù)大數(shù)定律,當(dāng)樣本容量N趨于無窮時,經(jīng)驗風(fēng)險Remp(f)趨向于期望風(fēng)險Rexp(f)
所以,一個很自然的想法是用經(jīng)驗風(fēng)險估計期望風(fēng)險。但是,由于現(xiàn)實中訓(xùn)練樣本數(shù)目很有限,所以用經(jīng)驗風(fēng)險估計期望風(fēng)險常常不理想,要對經(jīng)驗風(fēng)險進行一定的矯正。這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化。
2.2 經(jīng)驗風(fēng)險最小化與結(jié)構(gòu)風(fēng)險最小化
在假設(shè)空間、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下,經(jīng)驗風(fēng)險函數(shù)式就可以確定。經(jīng)驗風(fēng)險最小化的策略認(rèn)為,經(jīng)驗風(fēng)險最小的模型就是最優(yōu)的模型。根據(jù)這一策略,按照經(jīng)驗風(fēng)險最小化求最佳模型就是求解最優(yōu)化問題:?
其中F是假設(shè)空間。
當(dāng)樣本容量足夠大時,經(jīng)驗風(fēng)險最小化能保證有很好的學(xué)習(xí)效果,在現(xiàn)實中廣泛采用。比如極大似然估計就是經(jīng)驗風(fēng)險最小化的一個例子。當(dāng)模型是條件概率分布,損失函數(shù)是對數(shù)損失函數(shù)時,經(jīng)驗風(fēng)險最小化就等價于極大似然估計。?
但是當(dāng)樣本容量很小時,經(jīng)驗風(fēng)險最小化學(xué)習(xí)效果就未必很好,會產(chǎn)生“過擬合(over-fitting)”現(xiàn)象。
結(jié)構(gòu)風(fēng)險最小化(structural risk minimization SRM)是為了防止過擬合而提出來的策略。結(jié)構(gòu)風(fēng)險最小化等價于正則化。結(jié)構(gòu)風(fēng)險在經(jīng)驗風(fēng)險上加上表示模型復(fù)雜度的正則化項或罰項。在假設(shè)空間,損失函數(shù)以及訓(xùn)練樣本集確定的情況下,結(jié)構(gòu)風(fēng)險的定義是?
其中J(f)為模型的復(fù)雜度,是定義在假設(shè)空間F上的泛函。模型f越復(fù)雜,復(fù)雜度J(f)就越大;反之,模型f越簡單,復(fù)雜度J(f)就越小。也就是說復(fù)雜度表示了對復(fù)雜模型的懲罰。λ≥0是系數(shù),用以權(quán)衡經(jīng)驗風(fēng)險和模型的復(fù)雜度。結(jié)構(gòu)風(fēng)險小需要經(jīng)驗風(fēng)險與模型復(fù)雜度同時小。結(jié)構(gòu)風(fēng)險小的模型往往對訓(xùn)練數(shù)據(jù)以及未知的測試數(shù)據(jù)都有較好的預(yù)測。?
比如,貝葉斯估計中的最大后驗概率估計(maximum posterior probability estimation,MAP)就是結(jié)構(gòu)風(fēng)險最小化的例子。當(dāng)模型是條件概率分布、損失函數(shù)就是對數(shù)損失函數(shù)、模型復(fù)雜度由模型的先驗概率表示時,結(jié)構(gòu)風(fēng)險最小化就等價于最大后驗概率估計。
結(jié)構(gòu)風(fēng)險最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險最小的模型是最優(yōu)的模型。所以求最優(yōu)化模型時,就是求解最優(yōu)化問題:
minf∈F1NL(yi,f(xi))+λJ(f)
這樣,監(jiān)督學(xué)習(xí)問題就變成了經(jīng)驗風(fēng)險或結(jié)構(gòu)風(fēng)險函數(shù)的最優(yōu)化問題。這時經(jīng)驗或結(jié)構(gòu)風(fēng)險函數(shù)是最優(yōu)化的目標(biāo)函數(shù)。
3 算法
從上面可以看出,在確定尋找最優(yōu)模型的策略后
機器學(xué)習(xí)的問題歸結(jié)為最優(yōu)化的問題。機器學(xué)習(xí)討論的算法問題就成為了求解最優(yōu)化模型解的算法。而且往往最優(yōu)化模型沒有的解析解,需要用數(shù)值計算的方法求解,我們要確保找到全局最優(yōu)解,以及使求解的過程非常高效。
總結(jié)
以上是生活随笔為你收集整理的ML 03、机器学习的三要素的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ML 02、监督学习
- 下一篇: ML 05、分类、标注与回归