最小二乘、最大似然和最大后验的简单总结
在真正了解一個(gè)機(jī)器學(xué)習(xí)算法的時(shí)候,發(fā)現(xiàn)有許多概念還是很模糊這里整理了最小二乘法(Least Square)、最大似然估計(jì)( Maximum Likelihood Estimation)和最大后驗(yàn)估計(jì)的關(guān)系。
一、最小二乘法
最小二乘法的本質(zhì)就是找到一個(gè)估計(jì)值,使實(shí)際值與估計(jì)值的距離最小。而為了度量最小距離,只要使實(shí)際值與估計(jì)值之差的平方最小就好,下面就是最小二乘的表達(dá)式損失函數(shù)cost function,我們的目標(biāo)就是求θ。
求解方法是通過(guò)梯度下降算法,通過(guò)訓(xùn)練數(shù)據(jù)不斷迭代得到最終的值。
最小二乘的主要應(yīng)用場(chǎng)景為回歸分析,因?yàn)榛貧w常用平方損失作為損失函數(shù)。
二、似然函數(shù)的引出
我們從概率的角度考慮一下最小二乘求解原理,假設(shè)目標(biāo)變量y和輸入x的關(guān)系如下:
其中ε為誤差項(xiàng),假設(shè)服從正態(tài)分布,均值為0,標(biāo)準(zhǔn)差為σ,可以寫(xiě)成
我們帶入上面的關(guān)系方程得到y(tǒng)的概率方程:
這里要注意θ不是變量,不在條件中用“;”隔開(kāi)。通過(guò)給定的θ和X求解Y就是我們的正常的概率思想,但是如果我們把這個(gè)方程看成是關(guān)于θ的方程時(shí),就變成了似然方程:
似然函數(shù)與上面的概率方程的最大區(qū)別在于,關(guān)注的不再是事件發(fā)生的概率,而是已知事件發(fā)生的情況下希望知道對(duì)應(yīng)的參數(shù)應(yīng)該是多少,這和求概率恰恰相反。上面的式子還可以寫(xiě)成:
最大化L(θ)就是最大似然估計(jì),但一般都會(huì)最大化log likelihood:
這時(shí)可以發(fā)現(xiàn),此時(shí)的最大化似然函數(shù)和最初的最小二乘損失函數(shù)本質(zhì)上是一樣的。但是要注意這兩者只是恰好有著相同的表達(dá)結(jié)果,實(shí)際并沒(méi)有本質(zhì)的聯(lián)系。因?yàn)楫?dāng)likelihood用的是Gaussian的時(shí)候,由于Gaussian kernel里有個(gè)類(lèi)似于Euclidean distance的東西,一求log就變成square loss了,導(dǎo)致解和OLSE(就是ordinary的最小二乘)是一樣的。而碰巧剛接觸MLE的時(shí)候基本都是gaussian假設(shè),這才導(dǎo)致很多人分不清楚(這句話(huà)套用知乎上的解釋)。
三、似然函數(shù)的解析
參考wiki上的定義似然函數(shù)的結(jié)果等于已知參數(shù)時(shí)的結(jié)果的概率值(這里注意L不是一個(gè)條件概率,通常用;隔開(kāi))
對(duì)于離散概率分布:
設(shè)X是參數(shù)為θ時(shí)服從離散概率分布p的隨機(jī)變量,則:
看成是θ的方程,稱(chēng)為似然函數(shù)。
???對(duì)于連續(xù)概率分布則用密度函數(shù)衡量:
四、最大后驗(yàn)概率
????這里就是引入了貝葉斯學(xué)派的理論了,關(guān)于貝葉斯學(xué)派和頻率學(xué)派的區(qū)別參見(jiàn)知乎,我們就知道,貝葉斯學(xué)派主張一切都有一個(gè)先驗(yàn)概率。而且上面的似然函數(shù)推倒中頻率學(xué)派把參數(shù)θ看作是固定而未知的常數(shù),而樣本是隨機(jī)的,有關(guān)概率的運(yùn)算都是針對(duì)樣本X的分布。而貝葉斯學(xué)派把這個(gè)參數(shù)看作是隨機(jī)變量,而樣本X看作是固定的,重視的是參數(shù)θ的分布,通常是:通過(guò)參數(shù)的先驗(yàn)分布結(jié)合樣本信息得到參數(shù)的后驗(yàn)分布。例子參見(jiàn)。
?
總結(jié)
以上是生活随笔為你收集整理的最小二乘、最大似然和最大后验的简单总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 使用Java客户端操作elasticse
- 下一篇: 最小二乘与最大似然估计之间的关系