當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计学习方法的三要素

發布時間：2025/1/21 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了统计学习方法的三要素小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

統計學習方法的三要素

方法=模型+策略+算法

模型

定義1：決策函數的集合
- 決策函數的集合： $F={f∣Y=f(X)}\mathcal{F}=\{f \mid Y=f(X)\}$ ??
  - $X$ 和 $Y$ 是定義在輸入空間和輸出空間上的變量， $F\mathcal{F}$ ?通常是由一個參數向量決定的函數族
- 參數空間： $F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}$ ?
  - 參數向量 $θ$ 取決于n維歐式空間 $Rn\mathbf{R}^{n}$ ，稱為參數空間
定義2：條件概率的集合
- 條件概率的集合： $F={P∣P(Y∣X)}\mathcal{F}=\{P \mid P(Y \mid X)\}$ ?
  - $X$ 和 $Y$ 是定義在輸入空間和輸出空間上的變量， $F\mathcal{F}$ 通常是由一個參數向量決定的條件概率分布族
- 參數空間： $F={P∣Pθ(Y∣X),θ∈Rn}\mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\}$
  - 參數向量 $θ$ 取決于n維歐式空間 $Rn\mathbf{R}^{n}$ ，稱為參數空間

策略

損失函數分類

0-1損失函數 0-1 loss function： $\begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}$ ?
平方損失函數 quadratic loss function $L(Y, f(X))=(Y-f(X))^{2}$
絕對損失函數 absolute loss function $L (Y, f (X)) = ∣ Y ? f (X) ∣$
對數損失函數 logarithmic loss function 或對數似然損失函數 loglikelihood loss function $\mid X))=-\log P(Y \mid X)$

風險函數

? 損失函數的期望 $Rexp?(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdyR_{\exp }(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrmozvdkddzhkzd x \mathrm{~d} y$ ，這是理論上模型 $f (x)$ 關于聯合分布 $P (X, Y)$ 的平均意義下的損失，稱為風險函數（risk function ）或期望損失（expected loss）。由P(x,y)可以直接求出P(x|y),但不知道。

? 學習目標就是選擇期望風險最小的模型。

? 經驗風險：假設訓練數據集為 $T={(x1,y1),(x2,y2),?,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，則模型 $f (x)$ 關于訓練數據集的平均損失稱為經驗風險或經驗損失，記作 $Remp?(f)=1N∑i=1NL(yi,f(xi))R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$ 。

經驗風險最小化和結構風險最小化

經驗風險最小化最優模型
$min?f∈F1N∑i=1NL(yi,f(xi))\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
當樣本容量很小時，經驗風險最小化學習的效果未必很好，會產生“過擬合over-fitting”
結構風險最小化（structure risk minimization），為防止過擬合提出的策略，等價于正則化（regularization），加入正則化項（regularizer），或罰項（penalty term）：
$Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)R_{\mathrm{srm}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
$J (f)$ 為模型復雜度，是定義在假設空間 $F\mathcal{F}$ 上的泛函，復雜度表示了對復雜模型的懲罰。 $λ≥0\lambda≥0$ ?是系數，用以權衡經驗風險和模型復雜度。
則相應的結構風險最小化最優模型
$min?f∈F1N∑i=1NL(yi,f(xi))+λJ(f)\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$

算法

算法是指學習模型的具體計算方法。
如果最優化問題有顯式的解析式，算法比較簡單，但通常解析式不存在，就需要數值計算的方法

總結

以上是生活随笔為你收集整理的统计学习方法的三要素的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：统计学习综述
下一篇： MapReduce流程（WordCoun