當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ML 03、机器学习的三要素

發(fā)布時間：2025/7/25 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 ML 03、机器学习的三要素小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

FROM：?http://www.cnblogs.com/ronny/p/4062792.html

機器學(xué)習(xí)算法原理、實現(xiàn)與實踐——機器學(xué)習(xí)的三要素

1 模型

在監(jiān)督學(xué)習(xí)中，模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。模型的假設(shè)空間包含所有可能的條件概率分布或決策函數(shù)。例如，假設(shè)決策函數(shù)是輸入變量的線性函數(shù)，那么模型的假設(shè)空間就是這些線性函數(shù)構(gòu)成的函數(shù)的集合。

假設(shè)空間用F表示。假設(shè)空間可以定義為決策函數(shù)的集合?

F={f|Y=f(X)}

其中，X和Y是定義在輸入空間X和輸出空間Y上的變量。這時F通常是由一個參數(shù)向量決定的函數(shù)族?

F={f|Y=fθ(X),θ∈Rn}

參數(shù)向量θ取值于n維歐氏空間Rn，稱為參數(shù)空間（parameter space）。

假設(shè)空間也可以定義為條件概率的集合?

F={P|P(Y|X)}

其中，X和Y是定義在輸入空間X和輸出空間Y上的變量。這時F通常是由一個參數(shù)向量決定的條件概率分布族

F={P|Pθ(Y|X),θ∈Rn}

稱由決策函數(shù)表示的模型為非概率模型，由條件概率表示的模型為概率模型。

2 策略

有了模型的假設(shè)空間，機器學(xué)習(xí)接著要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。?
首先引入損失函數(shù)與風(fēng)險函數(shù)的概念。損失函數(shù)度量模型一次預(yù)測的好壞，風(fēng)險函數(shù)度量平均意義下模型預(yù)測的好壞。

2.1 損失函數(shù)與風(fēng)險函數(shù)

對于給定的輸入X和假設(shè)空間F中選擇的決策函數(shù)模型f，由f(X)給出相應(yīng)的輸入Y，這個輸出的預(yù)沒值f(X)與真實值Y可能一致，也可能不一致，用一個損失函數(shù)或代價函數(shù)來度量預(yù)測的錯誤程度。損失函數(shù)是f(x)和Y的非負(fù)實值函數(shù)，記作L(Y,f(X))

幾種常用的損失函數(shù)：

1） 0-1損失函數(shù)(0-1 loss function)?

L(Y,f(X))={1,0,Y≠f(X)Y=f(X)

2）平方損失函數(shù)（quadratic loss function）?

L(Y,f(X))=(Y–f(X))2

3）絕對損失函數(shù)（absolute loss function）?

L(Y,f(X))=|Y?f(X)|

4）對數(shù)損失函數(shù)（logarithmic loss function）或?qū)?shù)似然損失函數(shù)?

L(Y,P(Y|X))=–logP(Y|X)

損失函數(shù)值越小，模型就越好。由于模型的輸入、輸出(X,Y)是隨機變量，遵循聯(lián)合分布P(X,Y)，所以損失函數(shù)的期望是?

Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy

這是理論上模型f(X)關(guān)于聯(lián)合分布P(X,Y)的平均意義下的損失，稱為風(fēng)險函數(shù)(risk function)或期望損失(expected loss)。

學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險最小的模型。由于聯(lián)合分布P(X,Y)是所有樣本所遵循的統(tǒng)計規(guī)律，它是未知的，所以Rexp(f)不能直接計算。實際上如果知道了聯(lián)合分布，那么可以直接計算出P(Y|X)=∫XP(x,y)dx，也就不需要學(xué)習(xí)了。?
所以用上面那種方式定義風(fēng)險函數(shù)是不行的，那樣的話監(jiān)督學(xué)習(xí)變成了一個病態(tài)問題。

對于給定的訓(xùn)練數(shù)據(jù)集?

T=(x1,y1),(x2,y2),…,(xN,yN)

模型f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為經(jīng)驗風(fēng)險（empirical risk）或經(jīng)驗損失（empirical loss），記作Remp：?

Remp(f)=1N∑i=1NL(yi,f(xi))

期望風(fēng)險Rexp(f)是模型關(guān)于聯(lián)合分布的期望損失，經(jīng)驗風(fēng)險Remp(f)是模型關(guān)于訓(xùn)練樣本集的平均損失。根據(jù)大數(shù)定律，當(dāng)樣本容量N趨于無窮時，經(jīng)驗風(fēng)險Remp(f)趨向于期望風(fēng)險Rexp(f)

所以，一個很自然的想法是用經(jīng)驗風(fēng)險估計期望風(fēng)險。但是，由于現(xiàn)實中訓(xùn)練樣本數(shù)目很有限，所以用經(jīng)驗風(fēng)險估計期望風(fēng)險常常不理想，要對經(jīng)驗風(fēng)險進行一定的矯正。這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略：經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化。

2.2 經(jīng)驗風(fēng)險最小化與結(jié)構(gòu)風(fēng)險最小化

在假設(shè)空間、損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下，經(jīng)驗風(fēng)險函數(shù)式就可以確定。經(jīng)驗風(fēng)險最小化的策略認(rèn)為，經(jīng)驗風(fēng)險最小的模型就是最優(yōu)的模型。根據(jù)這一策略，按照經(jīng)驗風(fēng)險最小化求最佳模型就是求解最優(yōu)化問題：?

minf∈F1N∑i=1NL(yi,f(xi))

其中F是假設(shè)空間。

當(dāng)樣本容量足夠大時，經(jīng)驗風(fēng)險最小化能保證有很好的學(xué)習(xí)效果，在現(xiàn)實中廣泛采用。比如極大似然估計就是經(jīng)驗風(fēng)險最小化的一個例子。當(dāng)模型是條件概率分布，損失函數(shù)是對數(shù)損失函數(shù)時，經(jīng)驗風(fēng)險最小化就等價于極大似然估計。?
但是當(dāng)樣本容量很小時，經(jīng)驗風(fēng)險最小化學(xué)習(xí)效果就未必很好，會產(chǎn)生“過擬合(over-fitting)”現(xiàn)象。

結(jié)構(gòu)風(fēng)險最小化（structural risk minimization SRM）是為了防止過擬合而提出來的策略。結(jié)構(gòu)風(fēng)險最小化等價于正則化。結(jié)構(gòu)風(fēng)險在經(jīng)驗風(fēng)險上加上表示模型復(fù)雜度的正則化項或罰項。在假設(shè)空間，損失函數(shù)以及訓(xùn)練樣本集確定的情況下，結(jié)構(gòu)風(fēng)險的定義是?

Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)

其中J(f)為模型的復(fù)雜度，是定義在假設(shè)空間F上的泛函。模型f越復(fù)雜，復(fù)雜度J(f)就越大；反之，模型f越簡單，復(fù)雜度J(f)就越小。也就是說復(fù)雜度表示了對復(fù)雜模型的懲罰。λ≥0是系數(shù)，用以權(quán)衡經(jīng)驗風(fēng)險和模型的復(fù)雜度。結(jié)構(gòu)風(fēng)險小需要經(jīng)驗風(fēng)險與模型復(fù)雜度同時小。結(jié)構(gòu)風(fēng)險小的模型往往對訓(xùn)練數(shù)據(jù)以及未知的測試數(shù)據(jù)都有較好的預(yù)測。?
比如，貝葉斯估計中的最大后驗概率估計（maximum posterior probability estimation,MAP）就是結(jié)構(gòu)風(fēng)險最小化的例子。當(dāng)模型是條件概率分布、損失函數(shù)就是對數(shù)損失函數(shù)、模型復(fù)雜度由模型的先驗概率表示時，結(jié)構(gòu)風(fēng)險最小化就等價于最大后驗概率估計。

結(jié)構(gòu)風(fēng)險最小化的策略認(rèn)為結(jié)構(gòu)風(fēng)險最小的模型是最優(yōu)的模型。所以求最優(yōu)化模型時，就是求解最優(yōu)化問題：

minf∈F1NL(yi,f(xi))+λJ(f)

這樣，監(jiān)督學(xué)習(xí)問題就變成了經(jīng)驗風(fēng)險或結(jié)構(gòu)風(fēng)險函數(shù)的最優(yōu)化問題。這時經(jīng)驗或結(jié)構(gòu)風(fēng)險函數(shù)是最優(yōu)化的目標(biāo)函數(shù)。

3 算法

從上面可以看出，在確定尋找最優(yōu)模型的策略后

機器學(xué)習(xí)的問題歸結(jié)為最優(yōu)化的問題。機器學(xué)習(xí)討論的算法問題就成為了求解最優(yōu)化模型解的算法。而且往往最優(yōu)化模型沒有的解析解，需要用數(shù)值計算的方法求解，我們要確保找到全局最優(yōu)解，以及使求解的過程非常高效。

總結(jié)

以上是生活随笔為你收集整理的ML 03、机器学习的三要素的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。