贝叶斯决策与参数估计小结
有監督機器學習的問題都是以這種形式出現的:
給定training set (D): ((x_i, y_i)), (i in {1,2, dots, m}), (y_iin {1, dots, c})
選一個模型進行訓練
預測新樣本(x)的(y)
貝葉斯決策論采用概率模型, 在(0-1)loss 的情況下, 最佳選擇, 也是風險最小的選擇, 就是后驗概率最大的那個.
[P(w_k|x) = frac {P(x|w_k)P(w_k)}{P(x)}
]
先驗概率(P(w_k))好計算, 無論特征的值是連續的還是離散的, 求出現過的頻率就可以了.
但其它兩個, likelihood (P(x|w_k))與 evidence (P(x))卻是不好辦, 特別是當特征的值是離散的很厲害, 或者干脆是連續的時候. 所以求它們的時候用頻率代替概率是行不通的, 因為大部分時候求出來的都會是0, 除非(x)與某個訓練樣本(x_i)完全相同.
于是需要為(x)的分布建立一個概率模型. 在貝葉斯決策論里有一個很重要的假設: 各個類別的(x)分布是相互獨立的. 所以可以為每個類別的(x)分布各自建立概率模型(P(x; heta_k|w_k)). 模型里面有未知參數( heta_k). 利用樣本集(D)進行參數估計, 得到(hat heta_k)后, (P(x|w_k))就是一個關于(x)的、完全已知的函數了. 然后利用全概率公式(P(x) = sum_{k=1}^c P(x|w_k)P(w_k))就可以計算出(P(x))了.
于是現在最重要的問題就是利用(D)來估計( heta_k)了. 因為之前已經假設過各個類別的分布是獨立的了, 所以(c)個類別的分布模型都可以單獨處理. 我們學過的參數估計方法有三種: 矩估計, 最大似然估計與貝葉斯估計. 矩估計用的比較少, 因為特征(x)維數很高時, 它的計算代價很大.
最大似然估計假設( heta_k)的值原本就是固定而未知的, 同時使用所有正負樣本, 把它們的聯合分布率看作是一個關于( heta_k)的函數, 即似然函數(L( heta_k)). 讓(L( heta_k)) 取得最大值的( heta_k)便是(hat theta_k): $$hat heta_k = argmax_{ heta_k} L( heta_k)$$.
貝葉斯估計認為( heta_k)也是一個隨機變量, 服從一個確定且已知的分布(P( heta_k)), 這個分布凝聚了估計者對( heta_k)的全部先驗知識. ( heta_k)就像薛定諤貓, 箱子關閉時或生或死不確定, 箱子打開時是生是死就確定了. 取樣就是一個開箱子的過程. 取樣前( heta_k)是隨機的, 但取樣一旦開始, 它的值就確定下來了, 因為有了觀察者, 呵呵. 這個確定但未知的值就是我們要根據樣本集(D_k = {(x_i, y_i)|y_i = k})估計的對象了.
[P( heta_k|D_k) = frac {P(D| heta_k)P( heta_k)}{int P(D| heta_k)P( heta_k)d heta_k}
]
(P( heta_k|D_k))是一個關于( heta_k)的函數
[hat heta_k = int P( heta_k|D_k) heta_k d heta_k
]
總結
以上是生活随笔為你收集整理的贝叶斯决策与参数估计小结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html里面超链接alt_前端html-
- 下一篇: vue-router